JP2020522019A - 複数の音声動作型ユーザデバイスのための音量ベースの応答を生成するためのシステムおよび方法 - Google Patents

複数の音声動作型ユーザデバイスのための音量ベースの応答を生成するためのシステムおよび方法 Download PDF

Info

Publication number
JP2020522019A
JP2020522019A JP2019566117A JP2019566117A JP2020522019A JP 2020522019 A JP2020522019 A JP 2020522019A JP 2019566117 A JP2019566117 A JP 2019566117A JP 2019566117 A JP2019566117 A JP 2019566117A JP 2020522019 A JP2020522019 A JP 2020522019A
Authority
JP
Japan
Prior art keywords
user
volume level
voice
time
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019566117A
Other languages
English (en)
Other versions
JP7239494B2 (ja
JP2020522019A5 (ja
Inventor
マイケル マッカーティー,
マイケル マッカーティー,
グレン イー. ロー,
グレン イー. ロー,
Original Assignee
ロヴィ ガイズ, インコーポレイテッド
ロヴィ ガイズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ロヴィ ガイズ, インコーポレイテッド, ロヴィ ガイズ, インコーポレイテッド filed Critical ロヴィ ガイズ, インコーポレイテッド
Publication of JP2020522019A publication Critical patent/JP2020522019A/ja
Publication of JP2020522019A5 publication Critical patent/JP2020522019A5/ja
Application granted granted Critical
Publication of JP7239494B2 publication Critical patent/JP7239494B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/2847Home automation networks characterised by the type of home appliance used
    • H04L2012/2849Audio/video appliances

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

システムおよび方法が、音声コマンドの音量レベルに基づく音量レベルにおいて音声コマンドに応答するために、本明細書で提供される。例えば、メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出し得る。メディアガイドアプリケーションは、音声コマンドの第1の音量レベルを決定し得る。音声コマンドの音量レベルに基づいて、メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの第2の音声動作型ユーザデバイスが他の音声動作型ユーザデバイスのうちのいずれよりもユーザに近いことを決定し得る。メディアガイドアプリケーションは、第2の音声動作型ユーザデバイスを通して、音声コマンドの第1の音量レベルに基づいて設定される第2の音量レベルにおいて、可聴応答を生成し得る。

Description

家庭が音声動作型ユーザデバイスを含有することは、ますます一般的になっている。音声動作型デバイスは、それらの応答音量をユーザの音声コマンドの音量に合わせることができる。しかしながら、1つの家庭内の複数の音声動作型ユーザデバイスがますます一般的になると、クエリに応答するべきであるデバイスおよび音量を決定するときに、複数のデバイスの間で調整することがますます困難になる。さらに、応答音量をユーザの音声の音量に合致させることは、いくつかの状況では、ユーザが応答を聞くことを妨げ得る。ユーザが音声コマンドへの応答を所望する度に、手動でデバイスを選定し、応答音量を設定することは、ユーザにとって煩雑であり、最終的に、デバイスをあまり有用ではないものにし得る。
故に、システムおよび方法が、音声コマンドの音量レベルに基づく音量レベルにおいて音声コマンドに応答するために、本明細書に説明される。音声コマンドの音量レベルを使用し、応答音量レベルを決定することは、ユーザが、例えば、音声動作型ユーザデバイスを手動で調節する必要なく、応答音量レベルを変更することを可能にする。一実施例として、長椅子の一方の端部上に第1の音声動作型ユーザデバイス、長椅子の反対端上に第2の音声動作型ユーザデバイスが存在し得る。第1のユーザが、第1のデバイスの最近傍の長椅子の端部に着席し得る一方で、第2のユーザは、第2の音声動作型ユーザデバイスの最近傍の長椅子の反対端に着席し得る。第1のユーザは、第1および第2の音声動作型ユーザデバイスの両方によって受信される音声コマンドを口に出し得る。本明細書に説明されるシステムおよび方法は、各音声動作型ユーザデバイスにおいて受信される音声コマンド音量レベルに基づいて、第1の音声動作型ユーザデバイスがユーザにより近いことを決定してもよい。第1の音声動作型ユーザデバイスは、次いで、音声コマンドの音量レベルに基づく音量レベルにおいて応答してもよい。例えば、第1のユーザおよび第2のユーザは、映画(例えば、「Star Wars」)を鑑賞していてもよい。第1のユーザの音声コマンドは、映画の中で発せされた最後の台詞(例えば、「May the Force be with you」)を繰り返すための囁いた要求であってもよい。第1の音声動作型ユーザデバイスは、最後の台詞(例えば、「May the Force be with you」)をユーザに囁き返すことによって、応答してもよい。
これらのシステムおよび方法は、メディアガイドアプリケーションによって実装されてもよい。メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスに接続されてもよい。複数の音声動作型ユーザデバイスは、例えば、デバイスA、デバイスB、およびデバイスCを含んでもよい。メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出してもよい。例えば、メディアガイドアプリケーションは、デバイスAを通して、ユーザが現在鑑賞している映画を参照して、「最後の台詞を繰り返して」と発したユーザからの音声コマンドを検出してもよい。
メディアガイドアプリケーションは、音声コマンドの第1の音量レベルを決定してもよく、音声コマンドは、第1の音声動作型ユーザデバイスによって受信される。例えば、第1の音量レベルは、第1の音声動作型ユーザデバイス(例えば、デバイスA)において検出される音声コマンドの入力音量の平均(例えば、48db)であってもよい。
いくつかの実施形態では、第1の音量レベルを決定するために、メディアガイドアプリケーションは、音声コマンドのフィルタ処理されていない音量レベルを測定してもよい。例えば、音声コマンドのフィルタ処理されていない音量レベルは、60dBであってもよい。しかしながら、本フィルタ処理されていない音量レベルは、ユーザの近傍で映画を可聴的に放映するテレビ等の背景雑音のレベルを含み得る。メディアガイドアプリケーションは、背景雑音のレベルを決定してもよく、音声コマンドをフィルタ処理し、背景雑音のレベルを除去してもよい。例えば、テレビで放映される映画は、ユーザの音声よりも高い周波数にあり得る。メディアガイドアプリケーションは、音声コマンドの高周波数成分を取り除き、背景雑音を除去してもよい。メディアガイドアプリケーションは、次いで、音声コマンドのフィルタ処理された音量レベルを計算してもよい。例えば、音声コマンドのフィルタ処理された音量レベルは、フィルタ処理されていない音量レベル60dBと比較して、48dBであってもよい。
いくつかの音声動作型ユーザデバイスは、ユーザからの音声コマンドを検出してもよい。これらのデバイスはそれぞれ、例えば、ユーザへの近接性に応じて、異なる音量レベルにおいて音声コマンドを受信し得る。したがって、複数の音声動作型ユーザデバイスのうちの各音声動作型ユーザデバイスは、音声コマンドの複数の音量レベルのうちの音量レベルと関連付けられるであろう。メディアガイドアプリケーションは、複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける、少なくとも1つのデータ構造を受信してもよい。例えば、メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの各音声動作型ユーザデバイスから、音量レベルおよび個別の音声動作型ユーザデバイスの音声動作型ユーザデバイス識別子を含有する、データ構造を受信してもよい。例えば、メディアガイドアプリケーションは、第2の音声動作型ユーザデバイスから、52dbの音量レベルおよびデバイス識別子デバイスBを含有する、データ構造を受信してもよい。例えば、メディアガイドアプリケーションは、第3の音声動作型ユーザデバイスから、50dbの音量レベルおよびデバイス識別子デバイスCを含有する、データ構造を受信してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、第1の音量レベルを複数の音量レベルと比較してもよい。例えば、メディアガイドアプリケーションは、デバイスAと関連付けられる48dBを、デバイスBと関連付けられる52dBと、デバイスCと関連付けられる50dBと比較してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、第1の音量レベルを複数の音量レベルと比較するステップに基づいて、複数の音量レベルのうちの最大音量レベルを決定してもよい。例えば、複数の音声動作型ユーザデバイスのうちのいずれかによって受信される最大音量レベルは、52dBであってもよい。複数の音量レベルのうちの最大音量レベルは、複数の音声動作型ユーザデバイスによって受信される音量レベルのうちの最大である。
いくつかの実施形態では、メディアガイドアプリケーションは、最大音量レベルと関連付けられる第2の音声動作型ユーザデバイスに関して、少なくとも1つのデータ構造を検索してもよい。最大音量と関連付けられるユーザデバイスは、デバイスがユーザに近いほど、そのユーザからの音声コマンドがデバイスに大きく聞こえるであろうため、音声コマンドを発行したユーザに最近傍のデバイスであろう。例えば、最大音量レベルが52dBである場合、メディアガイドアプリケーションは、データ構造を検索し、52dB音量レベルと関連付けられる音声動作型ユーザデバイスを見出してもよい。データ構造では、52dB音量レベルは、第2の音声動作型ユーザデバイスを表す、デバイス識別子デバイスBと関連付けられてもよい。デバイスBは、本実施例では、ユーザに最近傍の音声動作型ユーザデバイスである。
いくつかの実施形態では、メディアガイドアプリケーションは、コマンドを第2の音声動作型ユーザデバイスに伝送してもよい。コマンドは、応答レベルを、最大音量レベルに基づく第2の音量レベルに更新するように、第2の音声動作型ユーザデバイスに命令してもよい。例えば、メディアガイドアプリケーションは、応答レベルを音量レベル52dBに変更するように、デバイスBとして識別される第2の音声動作型ユーザデバイスに命令してもよい。例えば、メディアガイドアプリケーションは、代わりに、応答レベルを、最大音量レベルよりもわずかに大きい53dBに変更するように、デバイスBとして識別される第2の音声動作型ユーザデバイスに命令してもよい。メディアガイドアプリケーションは、最大音量レベルをわずかに増加させ、このようにして第2の音量を決定し、周囲雑音を考慮してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、音声コマンドへの可聴応答を生成してもよい。可聴応答は、第2の音声動作型ユーザデバイスを通して、第2の音量レベルにおいて生成されてもよい。例えば、デバイスBとして識別される第2の音声動作型ユーザデバイスは、音量レベル53dBにおいて、ユーザが現在鑑賞している映画の最後の台詞(例えば、「May the Force be with you」)を繰り返してもよい。いくつかの実施形態では、第1および第2の音声動作型ユーザデバイスは、同一のデバイスであってもよく、第1の音量レベルおよび第2の音量は、同一の音量レベルであってもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、音声動作型ユーザデバイス(例えば、デバイスA、デバイスB、デバイスC)が、音声コマンドを検出するために同一の機器、方法、または感度を使用しないことを決定してもよい。したがって、検出される最大音量レベルは、音声コマンドを発行するユーザの最近傍の音声動作型ユーザデバイスに対応しない場合がある。いくつかの実施形態では、メディアガイドアプリケーションは、最大音量レベルを決定するときに音声動作型ユーザデバイスの本差違を考慮し、最大音量レベルを決定することに先立って、それに応じて複数の音量レベルを調節してもよい。いくつかの実施形態では、メディアガイドアプリケーションは、他の要因を使用し、最も近い音声動作型ユーザデバイスを決定してもよい。これらの要因は、例えば、各音声動作型ユーザデバイスと音声コマンドを発行するユーザとの間の空間を測定するための赤外線(IR)検出を含んでもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、音声コマンドへの可聴応答を聞くことに関心を持つであろう、音声コマンドを発行したユーザ以外のユーザを決定してもよい。そのような実施形態では、複数の音声動作型ユーザデバイスのうちの1つを上回る音声動作型ユーザデバイスが、可聴応答を出力してもよい。これらの応答は、決定されたユーザがそれぞれ、応答を聞くことができるように、同時に、随意に、異なる音量において与えられてもよい。例えば、ユーザAは、テレビチャネルHBO上で現在放送されているテレビ番組を尋ねる、音声コマンドを発行してもよい。メディアガイドアプリケーションは、番組が「Game of Thrones」であることを決定してもよい。メディアガイドアプリケーションは、第2のユーザ、すなわち、ユーザBが、番組「Game of Thrones」に関心を持っていることを決定してもよい。メディアガイドアプリケーションが、第2の音声動作型ユーザデバイスを通して、ユーザAからの音声コマンドへの可聴応答(例えば、「Game of ThronesがHBOで現在放映されています」)を生成するとき、メディアガイドアプリケーションはさらに、ユーザBの近傍の第3の音声動作型ユーザデバイスを通して、可聴応答を生成してもよい。第2の音声動作型ユーザデバイスを通して生成される可聴応答が、例えば、第2の音量レベル53dBにおいて生成されてもよい一方で、第3の音声動作型ユーザデバイスを通して生成される可聴応答は、例えば、第3の音量レベル55dBにおいて生成されてもよい。第2および第3の音量レベルは、例えば、個別のユーザが可聴応答を聞くことができるであろう程度に基づいて、選定されてもよい。
第2の音量レベルを決定するために、いくつかの実施形態では、メディアガイドアプリケーションは、ユーザと関連付けられるユーザプロファイルを識別してもよい。ユーザプロファイルは、ユーザが過去に聴覚を確認した複数のユーザ音量レベルを含有する、聴覚情報データ構造を含有してもよい。メディアガイドアプリケーションは、複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定してもよい。例えば、ユーザが前もって聴覚を確認した最低音量レベルは、40dBであってもよい。第2の音量レベル(可聴応答の音量レベル)はさらに、最低ユーザ音量レベルに基づいてもよい。例えば、複数のユーザデバイス(デバイスA、デバイスB、またはデバイスC等)のうちのいずれかによって聞かれる最大音量レベルは、35dBであってもよい。本実施例では、第2の音量レベルは、ユーザが可聴応答を聞くことが可能であることを確実にするように、40dBに設定されるであろう。
いくつかの実施形態では、ユーザからの音声コマンドへの応答は、デバイス上に視覚的に表示されてもよい。メディアガイドアプリケーションは、ユーザと関連付けられるディスプレイデバイスを識別してもよい。例えば、メディアガイドアプリケーションは、ユーザプロファイルを通してユーザと関連付けられるテレビとインターフェースをとってもよい。メディアガイドアプリケーションは、可聴応答の視覚表現を表示するために生成してもよい。例えば、メディアガイドアプリケーションは、テレビ上にウィンドウを生成してもよく、ウィンドウ内に応答を表示してもよい。例えば、メディアガイドアプリケーションは、受信されるユーザからの要求が番組の名称についてのクエリであるときに、番組のタイトル「Game of Thrones」を表示してもよい。さらに、可聴応答が生成された後、ディスプレイウィンドウは、可聴応答を与えたデバイスへの参照を含んでもよい。例えば、メディアガイドアプリケーションは、「デバイスBが「Game of Thrones」と発しました」を表示してもよい。これは、ユーザが通信しているデバイス、したがって、ユーザの近傍にあるデバイスをユーザに知らせる。
いくつかの実施形態では、メディアガイドアプリケーションは、ユーザプロファイルを使用して、ユーザに聴力障害があることを決定してもよい。例えば、本情報は、聴覚情報データ構造の中に記憶され得る。例えば、ユーザは、いかなる可聴応答も聞くことができない場合がある。この場合、上記の説明と同様に、メディアガイドアプリケーションは、ユーザと関連付けられるディスプレイデバイスを識別してもよい。メディアガイドアプリケーションは、可聴応答の視覚表現を表示するために生成し、視覚表現をディスプレイデバイスに伝送してもよい。例えば、メディアガイドアプリケーションは、視覚表現をユーザと関連付けられる携帯電話に伝送してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、ユーザが可聴応答を聞いたという確認応答を、ある時間周期にわたって待機してもよい。確認応答がその時間内に受信されない場合、メディアガイドアプリケーションは、第2の音声動作型ユーザデバイスを通して、音声コマンドへの第2の可聴応答を生成してもよい、または可聴応答の視覚表現を表示するために生成し、ユーザデバイス上に表示してもよい。これを遂行するために、メディアガイドアプリケーションは、可聴応答が生成されたときに対応する第1の時間を決定してもよい。例えば、可聴応答が生成されるとき、メディアガイドアプリケーションは、タイムスタンプをデータ構造に保存してもよい。例えば、可聴応答は、午後3時12分3秒に生成されている場合がある。メディアガイドアプリケーションは、次いで、時間周期を第1の時間に加算することによって、第2の時間を計算してもよい。例えば、時間周期は、20秒であってもよく、第2の時間は、午後3時12分23秒であってもよい。本時間周期は、ユーザの音声コマンドに再び応答する前に、メディアガイドアプリケーションが待機する長さを表す。
ユーザ確認応答を待機するための時間周期は、種々の方法で決定されることができる。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザと関連付けられるユーザプロファイルを識別し、ユーザプロファイルを使用して、応答のための平均時間を決定することによって、時間周期を決定してもよい。例えば、ユーザプロファイルは、ユーザによって話されるキーワードを受信することによって、メディアガイドアプリケーションによって識別されてもよく、キーワードは、具体的ユーザと関連付けられる。ユーザプロファイルはまた、ユーザの発話パターンによって識別されてもよい。ユーザプロファイルは、例えば、ユーザが過去に音声動作型ユーザデバイスに応答するために要した時間量を含有する、第1のデータ構造を含有してもよい。メディアガイドアプリケーションは、これらの過去の応答時間の平均を計算し、ユーザのために応答のための平均時間を決定してもよい。例えば、ユーザは、過去に第2の音声動作型ユーザデバイスに応答するために、10秒、5秒、および15秒を要している場合がある。応答を待機するための時間周期は、10秒がユーザの過去の応答時間の平均であるため、本ユーザのために10秒に設定され得る。
いくつかの実施形態では、音声動作型ユーザデバイスが時間周期内にユーザから確認応答を受信しない場合、メディアガイドアプリケーションは、別の応答を生成する、または音声コマンドへの最初の可聴応答を繰り返すであろう。確認応答は、可聴応答がユーザによって聞かれたことを示す。例えば、デバイスB等の第2の音声動作型ユーザデバイスからの可聴応答は、「May the Force be with you」であってもよい。ユーザは、「ありがとう、デバイスB」と発することによって、本応答を確認してもよい。
確認応答が時間周期内に受信されない場合、第2の可聴応答または可聴応答の視覚表現が、生成されてもよい。例えば、いくつかの実施形態では、メディアガイドアプリケーションは、確認応答が第3の時間に受信されたかどうかに基づいて、オーディオ応答の視覚表現をユーザと関連付けられるディスプレイデバイスに伝送してもよく、第3の時間は、第2の時間の前である。例えば、可聴応答は、午後3時12分3秒に生成されている場合がある。時間周期が、例えば、20秒である場合、第2の時間は、午後3時12分23秒である。デバイスBが午後3時12分23秒までに確認応答を受信していない場合、メディアガイドアプリケーションは、ユーザと関連付けられるテレビを通して、可聴応答の視覚表現(例えば、「デバイスBが「May the Force be with you」と発しました」)を生成してもよい。
いくつかの実施形態では、音声動作型ユーザデバイスが時間周期内にユーザから確認応答を受信しない場合、メディアガイドアプリケーションは、別の可聴応答を生成する。具体的には、メディアガイドアプリケーションは、確認応答が第3の時間に受信されたかどうかに基づいて、第2の音声動作型ユーザデバイスを通して、第2の可聴応答を生成してもよい。第2の可聴応答は、可聴応答と同一であり得、その場合、第2のユーザは、単純に、同一または異なる音量レベルにおいてユーザへの可聴応答を繰り返す。第2の可聴応答はまた、例えば、応答するようにユーザを促してもよい。例えば、デバイスBが午後3時12分23秒までにユーザから確認応答を受信していない場合、メディアガイドアプリケーションは、デバイスBを通して、「「May the Force be with you」が聞こえましたか?」を尋ねる第2の可聴応答を生成してもよい。
第2の可聴応答は、第1の応答と同一の音量レベルにおいて、またはいくつかの実施形態では、より大きい音量レベルにおいて、生成されてもよい。例えば、メディアガイドアプリケーションは、第2の可聴応答を生成する第2の音量を上回る、第3の音量レベルを決定してもよい。第3の音量レベルは、例えば、所定の量を加えた第2の音量レベルであり得る。例えば、第2の音量レベルが、53dBであり得る一方で、第3の音量レベルは、56dBであり得る。第2の可聴応答が第3の音量レベルにおいて生成されるため、メディアガイドアプリケーションは、56dBにおいてデバイスBを通して第2の可聴応答(例えば、「「May the Force be with you」が聞こえましたか?」)を生成してもよい。
いくつかの側面では、第2の可聴応答を最良に生成するために、メディアガイドアプリケーションは、ユーザと関連付けられるユーザプロファイルを識別してもよい。例えば、メディアガイドアプリケーションは、ユーザによって話されるキーワードを受信することによって、ユーザプロファイルを識別してもよい。ユーザAは、例えば、音声コマンドを発行する前に、「ユーザA」と発してもよい。ユーザプロファイルはまた、例えば、ユーザの発話または発声パターンによって識別されてもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、ユーザプロファイルを使用し、ユーザと関連付けられる平均発話音量レベルを識別してもよい。例えば、ユーザプロファイルは、ユーザが過去に使用した発話音量を含有する、第1のデータ構造を含有してもよい。メディアガイドアプリケーションは、これらの過去の発話音量の平均を計算し、ユーザのための平均発話音量を決定してもよい。例えば、ユーザの平均発話音量は、60dBであってもよい。
メディアガイドアプリケーションは、次いで、平均発話音量レベルと最大音量レベル(すなわち、ユーザの最近傍の音声動作型ユーザデバイスによって受信される音量レベル)との間の差を決定してもよい。例えば、最大音量レベルは、52dBであってもよく、ユーザの平均発話音量は、60dBであってもよい。差は、この場合、8dBである。
第3の音量レベル(第2の可聴応答の音量レベル)は、第2の音量レベルに加算される差に基づいてもよい。例えば、第2の音量レベルは、53dBであってもよく、差は、8dBであってもよく、第3の音量は、61dBであってもよい。この場合、第2の音声動作型ユーザデバイスは、61dBにおいて第2の可聴応答を発行するであろう。
いくつかの実施例では、メディアガイドアプリケーションは、ユーザから確認応答を受信する。確認応答を受信することに応答して、メディアガイドアプリケーションは、ユーザのユーザプロファイルの中に第2の音量レベル(最初の可聴応答の音量レベル)を記憶してもよい。例えば、ユーザプロファイルは、ユーザが過去に聞くことができた複数のユーザ音量レベルを含有する、聴覚情報データ構造を含有してもよい。第2の音量レベルは、本第2のデータ構造の中に記憶されてもよい。
上記に説明されるシステムおよび/または方法は、本開示に説明される他のシステム、方法、および/または装置に適用される、またはそれに従って使用され得ることに留意されたい。
本開示の上記および他の目的および利点は、同様の参照文字が全体を通して同様の部分を指す、添付の図面と併せて考慮される、以下の発明を実施するための形態の検討から明白となるであろう。
図1は、本開示のいくつかの実施形態による、音声コマンドを検出する複数の音声動作型ユーザデバイスの例証的実施例を示す。
図2は、本開示のいくつかの実施形態による、音声動作型ユーザデバイスを通して、音声コマンドへの可聴応答を生成するメディアガイドアプリケーションの例証的実施例を示す。
図3は、本開示のいくつかの実施形態による、可聴応答の視覚表現を表示するために生成するメディアガイドアプリケーションの例証的実施例を示す。
図4は、本開示のいくつかの実施形態による、メディアコンテンツにアクセスする際に使用するための表示画面の例証的実施例を示す。
図5は、本開示のいくつかの実施形態による、メディアコンテンツにアクセスするために使用される表示画面の別の例証的実施例を示す。
図6は、本開示のいくつかの実施形態による、例証的ユーザ機器デバイスのブロック図である。
図7は、本開示のいくつかの実施形態による、例証的メディアシステムのブロック図である。
図8は、本開示のいくつかの実施形態による、ユーザ音声コマンドの音量レベルに基づく音量レベルにおいて、音声動作型ユーザデバイスを通して可聴応答を生成するための例証的ステップのフローチャートである。
図9は、本開示のいくつかの実施形態による、可聴応答がユーザによって確認されなかった場合に、音声コマンドへの第2の可聴応答を生成するための例証的ステップのフローチャートである。
図10は、本開示のいくつかの実施形態による、可聴応答がユーザによって確認されなかった場合に、音声コマンドへの第2の可聴応答を生成するための例証的ステップのフローチャートである。
図11は、本開示のいくつかの実施形態による、音声コマンドへの応答の視覚表現をディスプレイデバイスに伝送するための例証的ステップのフローチャートである。
図12は、本開示のいくつかの実施形態による、第3の音量レベルにおいて第2の可聴応答を生成するための例証的ステップのフローチャートである。
図13は、本開示のいくつかの実施形態による、音声コマンドをフィルタ処理するための例証的ステップのフローチャートである。
システムおよび方法が、音声コマンドの音量レベルに基づく音量レベルにおいて音声コマンドに応答するために、本明細書に説明される。音声コマンドの音量レベルを使用し、応答音量レベルを決定することは、ユーザが、例えば、音声動作型ユーザデバイスを手動で調節する必要なく、応答音量レベルを変更することを可能にする。
図1は、本開示のいくつかの実施形態による、音声コマンドを検出する複数の音声動作型ユーザデバイスの例証的実施例を示す。長椅子の一方の端部上に第1の音声動作型ユーザデバイス102、長椅子の反対端上に第2の音声動作型ユーザデバイス104が存在し得る。第1のユーザ108が、第1のデバイス102の最近傍の長椅子の端部に着席し得る一方で、第2のユーザ110は、第2の音声動作型ユーザデバイス104の最近傍の長椅子の反対端に着席し得る。第2のユーザ110は、第1の音声動作型ユーザデバイス102および第2の音声動作型ユーザデバイス104の両方によって受信される音声コマンド106を口に出し得る。本明細書に説明されるシステムおよび方法は、各音声動作型ユーザデバイス102、104において受信される音声コマンド音量レベルに基づいて、第2の音声動作型ユーザデバイス104が音声コマンド106を発行した第2のユーザ110により近いことを決定してもよい。第2の音声動作型ユーザデバイス104は、次いで、音声コマンド106の音量レベルに基づく音量レベルにおいて応答してもよい112。例えば、第1のユーザ108および第2のユーザ110は、映画(例えば、「Star Wars」)を鑑賞していてもよい。第2のユーザ110の音声コマンド106は、映画の中で発せられた最後の台詞(例えば、「May the Force be with you」)を繰り返すための囁いた要求であってもよい。第2の音声動作型ユーザデバイス104は、最後の台詞(例えば、「May the Force be with you」)を第2のユーザ110に囁き返すことによって、応答してもよい112。したがって、第1の音声動作型ユーザデバイス102は、音声コマンド106を受信したが、第2の音声動作型ユーザデバイス104は、応答112を提供した。
これらのシステムおよび方法は、メディアガイドアプリケーションによって実装されてもよい。メディアガイドアプリケーションは、複数の音声動作型ユーザデバイス102、104、114に接続されてもよい。複数の音声動作型ユーザデバイスは、例えば、第1の音声動作型ユーザデバイス102(例えば、デバイスA)、第2の音声動作型ユーザデバイス104(例えば、デバイスB)、および第3の音声動作型ユーザデバイス114(例えば、デバイスC)を含んでもよい。メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイス102を通して、ユーザによって話される音声コマンド106を検出してもよい。例えば、メディアガイドアプリケーションは、第1の音声動作型ユーザデバイス102(例えば、デバイスA)を通して、ユーザが現在鑑賞している映画を参照して、「最後の台詞を繰り返して」と発するユーザからの音声コマンド106を検出してもよい。
メディアガイドアプリケーションは、音声コマンド106の第1の音量レベルを決定してもよく、音声コマンドは、第1の音声動作型ユーザデバイス102によって受信される。例えば、第1の音量レベルは、第1の音声動作型ユーザデバイス102(例えば、デバイスA)において検出される音声コマンド106の入力音量の平均(例えば、48db)であってもよい。
いくつかの実施形態では、第1の音量レベルを決定するために、メディアガイドアプリケーションは、音声コマンド106のフィルタ処理されていない音量レベルを測定してもよい。例えば、音声コマンドのフィルタ処理されていない音量レベルは、60dBであってもよい。しかしながら、本フィルタ処理されていない音量レベルは、ユーザ110の近傍で映画を可聴的に放映するテレビ等の背景雑音のレベルを含み得る。
メディアガイドアプリケーションは、背景雑音のレベルを決定してもよく、音声コマンド106をフィルタ処理し、背景雑音のレベルを除去してもよい。例えば、テレビで放映される映画は、ユーザ110の音声よりも高い周波数にあり得る。メディアガイドアプリケーションは、音声コマンド106の高周波数成分を取り除き、背景雑音を除去してもよい。メディアガイドアプリケーションは、次いで、音声コマンド106のフィルタ処理された音量レベルを計算してもよい。例えば、音声コマンドのフィルタ処理された音量レベルは、フィルタ処理されていない音量レベル60dBと比較して、48dBであってもよい。
いくつかの音声動作型ユーザデバイス(例えば、デバイスA102、デバイスB104、およびデバイスC114)は、ユーザからの音声コマンド106を検出してもよい。これらのデバイス102、104、114はそれぞれ、例えば、音声コマンド106を発行するユーザ110への近接性に応じて、異なる音量レベルにおいて音声コマンドを受信してもよい。したがって、複数の音声動作型ユーザデバイスのうちの各音声動作型ユーザデバイス102、104、114は、音声コマンド106の複数の音量レベルのうちの音量レベルと関連付けられるであろう。メディアガイドアプリケーションは、複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける、少なくとも1つのデータ構造を受信してもよい。例えば、メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの各音声動作型ユーザデバイスから、音量レベルおよび個別の音声動作型ユーザデバイスの音声動作型ユーザデバイス識別子を含有する、データ構造を受信してもよい。例えば、メディアガイドアプリケーションは、第2の音声動作型ユーザデバイス104から、52dbの音量レベルおよびデバイス識別子デバイスBを含有する、データ構造を受信してもよい。例えば、メディアガイドアプリケーションは、第3の音声動作型ユーザデバイス114から、50dbの音量レベルおよびデバイス識別子デバイスCを含有する、データ構造を受信してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、第1の音量レベルを複数の音量レベルと比較してもよい。例えば、メディアガイドアプリケーションは、デバイスA102と関連付けられる48dBを、デバイスB104と関連付けられる52dBと、デバイスC114と関連付けられる50dBと比較してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、第1の音量レベルを複数の音量レベルと比較するステップに基づいて、複数の音量レベルのうちの最大音量レベルを決定してもよい。例えば、複数の音声動作型ユーザデバイスのうちのいずれかによって受信される最大音量レベルは、52dBであってもよい。複数の音量レベルのうちの最大音量レベルは、(例えば、音声動作型ユーザデバイス102、104、114のうちの)複数の音声動作型ユーザデバイスによって受信される音量レベルのうちの最大である。
いくつかの実施形態では、メディアガイドアプリケーションは、最大音量レベルと関連付けられる第2の音声動作型104ユーザデバイスに関して、少なくとも1つのデータ構造を検索してもよい。最大音量と関連付けられるユーザデバイスは、デバイスがユーザに近いほど、そのユーザからの音声コマンドがデバイスに大きく聞こえるであろうため、音声コマンドを発行したユーザに最近傍のデバイスであろう。例えば、最大音量レベルが52dBである場合、メディアガイドアプリケーションは、データ構造を検索し、52dB音量レベルと関連付けられる音声動作型ユーザデバイスを見出してもよい。データ構造では、52dB音量レベルは、第2の音声動作型ユーザデバイス104を表す、デバイス識別子デバイスBと関連付けられてもよい。第2の音声動作型ユーザデバイス104(例えば、デバイスB)は、本実施例では、音声コマンド106を発行したユーザ110に最近傍の音声動作型ユーザデバイスである。
いくつかの実施形態では、メディアガイドアプリケーションは、コマンドを第2の音声動作型ユーザデバイス104に伝送してもよい。コマンドは、応答レベルを、最大音量レベルに基づく第2の音量レベルに更新するように、第2の音声動作型ユーザデバイス104に命令してもよい。例えば、メディアガイドアプリケーションは、応答レベルを音量レベル52dBに変更するように、デバイスBとして識別される第2の音声動作型ユーザデバイス104に命令してもよい。例えば、メディアガイドアプリケーションは、代わりに、応答レベルを、最大音量レベルよりもわずかに大きい53dBに変更するように、デバイスBとして識別される第2の音声動作型ユーザデバイス104に命令してもよい。メディアガイドアプリケーションは、最大音量レベルをわずかに増加させ、このようにして第2の音量を決定し、周囲雑音を考慮してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、音声コマンド106への可聴応答112を生成してもよい。可聴応答112は、第2の音声動作型ユーザデバイス104を通して、第2の音量レベルにおいて生成されてもよい。例えば、デバイスBとして識別される第2の音声動作型ユーザデバイス104は、音量レベル53dBにおいて、ユーザが現在鑑賞している映画の最後の台詞(例えば、「May the Force be with you」)を繰り返してもよい。いくつかの実施形態では、第1の音声動作型デバイスおよび第2の音声動作型ユーザデバイスは、同一のデバイスであってもよく、第1の音量レベルおよび第2の音量は、同一の音量レベルであってもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、音声動作型ユーザデバイス(例えば、第1の音声動作型ユーザデバイス102、第2の音声動作型ユーザデバイス104、第3の音声動作型ユーザデバイス114)が、音声コマンド106を検出するために同一の機器、方法、または感度を使用しないことを決定してもよい。したがって、検出される最大音量レベルは、音声コマンド106を発行するユーザ110の最近傍の音声動作型ユーザデバイスに対応しない場合がある。いくつかの実施形態では、メディアガイドアプリケーションは、最大音量レベルを決定するときに音声動作型ユーザデバイスの本差違を考慮し、それに応じて複数の音量レベルを調節してもよい。いくつかの実施形態では、メディアガイドアプリケーションは、他の要因を使用し、最も近い音声動作型ユーザデバイスを決定してもよい。これらの要因は、例えば、各音声動作型ユーザデバイスと音声コマンドを発行するユーザとの間の空間を測定するための赤外線(IR)検出を含んでもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、音声コマンド106への可聴応答112を聞くことに関心を持つであろう、音声コマンド106を発行したユーザ110以外のユーザを決定してもよい。そのような実施形態では、複数の音声動作型ユーザデバイス102、104、114のうちの1つを上回る音声動作型ユーザデバイスが、可聴応答を出力してもよい。これらの応答は、決定されたユーザがそれぞれ、応答を聞くことができるように、同時に、随意に、異なる音量において与えられてもよい。例えば、第2のユーザ110は、テレビチャネルHBO上で現在放送されているテレビ番組を尋ねる、音声コマンドを発行してもよい。メディアガイドアプリケーションは、番組が「Game of Thrones」であることを決定してもよい。メディアガイドアプリケーションは、第1のユーザ108が番組「Game of Thrones」に関心を持っていることを決定してもよい。メディアガイドアプリケーションが、第2の音声動作型ユーザデバイス104を通して、第2のユーザ110からの音声コマンドへの可聴応答(例えば、「Game of ThronesがHBOで現在放映されています」)を生成するとき、メディアガイドアプリケーションはさらに、ユーザ108の近傍の第3の音声動作型ユーザデバイス114を通して、可聴応答を生成してもよい。第2の音声動作型ユーザデバイス104を通して生成される可聴応答が、例えば、第2の音量レベル53dBにおいて生成されてもよい一方で、第3の音声動作型ユーザデバイス114を通して生成される可聴応答は、例えば、第3の音量レベル55dBにおいて生成されてもよい。第2および第3の音量レベルは、例えば、個別のユーザが可聴応答を聞くことができるであろう程度に基づいて、選定されてもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、ユーザが移動していることを決定してもよい。例えば、メディアガイドアプリケーションは、ユーザが話し始めるとき、およびユーザが話し終えるときに、音声コマンドの音量レベルを測定してもよい。ユーザが音声コマンドを発行し始めるときに第3の音声動作型ユーザデバイス114において受信される音量レベルは、ユーザが音声コマンドを発行することを終了するときに第3の音声動作型ユーザデバイス114において受信される音量レベルを上回り得る。ユーザが話し始めるときに第2の音声動作型ユーザデバイス104において受信される音量レベルは、ユーザが話し終えるときに第2の音声動作型ユーザデバイス104において受信される音量レベルよりも穏やかであり得る。メディアガイドアプリケーションは、これらの変化する受信音量レベルを使用して、ユーザが第3の音声動作型ユーザデバイスの近傍から第2の音声動作型ユーザデバイスのより近傍に移動していることを決定してもよい。メディアガイドアプリケーションは、故に、ユーザの移動経路に沿って、複数の音声動作型ユーザデバイスのうちの複数の音声動作型ユーザデバイスを決定してもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの複数の音声動作型ユーザデバイスを通して、可聴応答の構成要素を生成してもよい。複数の音声動作型ユーザデバイスは、同時に、または異なる時間に、可聴応答または可聴応答の構成要素を生成してもよい。例えば、音声コマンドは、スペイン語から英語への歌の翻訳を要求してもよい。第3の音声動作型ユーザデバイス114は、翻訳された歌の最初の10秒を再生してもよく(可聴応答)、第1の音声動作型ユーザデバイス102は、歌の次の10秒を再生してもよく、第2の音声動作型ユーザデバイスは、歌の残りの構成要素を再生してもよい。メディアガイドアプリケーションは、同一(例えば、第2の音量レベル)であり、全てのデバイスから本同一音量レベルにおいて応答するように、複数のデバイスのそれぞれの応答音量を調節してもよい。例えば、第2の音量レベルは、57dBであってもよい。複数の音声動作型ユーザデバイスはそれぞれ、第2の音量レベル57dBにおいて応答してもよい。上記に説明される実施形態では、可聴応答は、したがって、ユーザの移動経路に沿って辿り、ユーザが異なるデバイスの近傍で移動するにつれて、ユーザが可聴応答をより良好に聞くことを可能にしてもよい。
第2の音量レベルを決定するために、いくつかの実施形態では、ディアガイドアプリケーションは、音声コマンド106を発行したユーザ110と関連付けられるユーザプロファイルを識別してもよい。ユーザプロファイルは、ユーザ110が過去に聴覚を確認した複数のユーザ音量レベルを含有する、聴覚情報データ構造を含有してもよい。メディアガイドアプリケーションは、複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定してもよい。例えば、ユーザ110が前もって聴覚を確認した最低音量レベルは、40dBであってもよい。第2の音量レベル(可聴応答の音量レベル)はさらに、最低ユーザ音量レベルに基づいてもよい。例えば、複数のユーザデバイス(デバイスA102、デバイスB104、またはデバイスC114等)のうちのいずれかによって聞かれる最大音量レベルは、35dBであってもよい。本実施例では、第2の音量レベルは、ユーザ110が可聴応答を聞くことが可能であることを確実にするように、40dBに設定されるであろう。
図2は、本開示のいくつかの実施形態による、音声動作型ユーザデバイス208を通して、音声コマンド204への可聴応答206を生成するメディアガイドアプリケーションの例証的実施例を示す。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ202が可聴応答206を聞いたという確認応答を、ある時間周期にわたって待機してもよい。確認応答がその時間内に受信されない場合、メディアガイドアプリケーションは、第2の音声動作型ユーザ208デバイスを通して、音声コマンド204への第2の可聴応答210を生成してもよい、または図3に示され、下記に説明されるように、可聴応答の視覚表現を表示するために生成し、ユーザデバイス上に表示してもよい。これを遂行するために、メディアガイドアプリケーションは、可聴応答206が生成されたときに対応する第1の時間を決定してもよい。例えば、可聴応答206が生成されるとき、メディアガイドアプリケーションは、タイムスタンプをデータ構造に保存してもよい。例えば、可聴応答は、午後3時12分3秒に生成されている場合がある。メディアガイドアプリケーションは、次いで、時間周期を第1の時間に加算することによって、第2の時間を計算してもよい。例えば、時間周期は、20秒であってもよく、第2の時間は、午後3時12分23秒であってもよい。本時間周期は、ユーザ202の音声コマンド204に再び応答する前に、メディアガイドアプリケーションが待機する長さを表す。
ユーザ確認応答を待機するための時間周期は、種々の方法で決定されることができる。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ202と関連付けられるユーザプロファイルを識別し、ユーザプロファイルを使用して、応答のための平均時間を決定することによって、時間周期を決定してもよい。例えば、ユーザプロファイルは、ユーザ202によって話されるキーワードを受信することによって、メディアガイドアプリケーションによって識別されてもよく、キーワードは、具体的ユーザと関連付けられる。ユーザプロファイルはまた、ユーザ202の発話パターンによって識別されてもよい。ユーザプロファイルは、例えば、ユーザ202が過去に音声動作型ユーザデバイスに応答するために要した時間量を含有する、第1のデータ構造を含有してもよい。メディアガイドアプリケーションは、これらの過去の応答時間の平均を計算し、ユーザ202のために応答のための平均時間を決定してもよい。例えば、ユーザ202は、過去に第2の音声動作型ユーザデバイス208に応答するために、10秒、5秒、および15秒を要している場合がある。応答を待機するための時間周期は、10秒がユーザの過去の応答時間の平均であるため、本ユーザのために10秒に設定され得る。
いくつかの実施形態では、音声動作型ユーザデバイス208が時間周期内にユーザ202から確認応答を受信しない場合、メディアガイドアプリケーションは、別の応答210を生成する、または音声コマンドへの最初の可聴応答204を繰り返すであろう。確認応答212は、可聴応答がユーザによって聞かれたことを示す。例えば、デバイスB等の第2の音声動作型ユーザデバイス208からの可聴応答206は、「May the Force be with you」であってもよい。ユーザ202は、「ありがとう、デバイスB」と発することによって、本応答を確認してもよい。
確認応答が時間周期内に受信されない場合、第2の可聴応答210または可聴応答206の視覚表現が、生成されてもよい。例えば、いくつかの実施形態では、メディアガイドアプリケーションは、確認応答212が第3の時間に受信されたかどうかに基づいて、オーディオ応答の視覚表現(ウィンドウ310の中で図3に示されるもの等)をユーザと関連付けられるディスプレイデバイス(デバイス308において図3に示されるもの等)に伝送してもよく、第3の時間は、第2の時間の前である。例えば、可聴応答206は、午後3時12分3秒に生成されている場合がある。時間周期が、例えば、20秒である場合、第2の時間は、午後3時12分23秒である。デバイスBが午後3時12分23秒までに確認応答を受信していない場合、メディアガイドアプリケーションは、ユーザと関連付けられるテレビを通して、可聴応答206の視覚表現(例えば、「デバイスBが「May the Force be with you」と発しました」)を生成してもよい。
いくつかの実施形態では、音声動作型ユーザデバイス208が時間周期内にユーザから確認応答を受信しない場合、メディアガイドアプリケーションは、別の可聴応答210を生成する。具体的には、メディアガイドアプリケーションは、確認応答(確認応答212等)が第3の時間に受信されたかどうかに基づいて、第2の音声動作型ユーザデバイス208を通して、第2の可聴応答210を生成してもよい。第2の可聴応答210は、可聴応答204と同一であり得、その場合、第2のユーザは、単純に、同一または異なる音量レベルにおいてユーザへの可聴応答を繰り返す。第2の可聴応答210はまた、例えば、応答するようにユーザを促してもよい。例えば、第2の音声動作型ユーザデバイス208(例えば、デバイスB)が午後3時12分23秒までに確認応答を受信していない場合、メディアガイドアプリケーションは、第2の音声動作型ユーザデバイス208(例えば、デバイスB)を通して、「「May the Force be with you」が聞こえましたか?」を尋ねる第2の可聴応答210を生成してもよい。
第2の可聴応答210は、第1の応答と同一の音量レベルにおいて、またはいくつかの実施形態では、より大きい音量レベルにおいて、生成されてもよい。例えば、メディアガイドアプリケーションは、第2の可聴応答210を生成する第2の音量を上回る、第3の音量レベルを決定してもよい。第3の音量レベルは、例えば、所定の量を加えた第2の音量レベルであり得る。例えば、第2の音量レベルが、53dBであり得る一方で、第3の音量レベルは、56dBであり得る。第2の可聴応答210が第3の音量レベルにおいて生成されるため、メディアガイドアプリケーションは、56dBにおいて第2の音声動作型デバイス208(例えば、デバイスB)を通して第2の可聴応答210(例えば、「「May the Force be with you」が聞こえましたか?」)を生成してもよい。
いくつかの側面では、第2の可聴応答210を最良に生成するために、メディアガイドアプリケーションは、ユーザ202と関連付けられるユーザプロファイルを識別してもよい。例えば、メディアガイドアプリケーションは、ユーザ202によって話されるキーワードを受信することによって、ユーザプロファイルを識別してもよい。ユーザAは、例えば、音声コマンドを発行する前に、「ユーザA」と発してもよい。ユーザプロファイルはまた、例えば、ユーザ202の発話または発声パターンによって識別されてもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、ユーザプロファイルを使用し、ユーザ202と関連付けられる平均発話音量レベルを識別してもよい。例えば、ユーザプロファイルは、ユーザが過去に使用した発話音量を含有する、第1のデータ構造を含有してもよい。メディアガイドアプリケーションは、これらの過去の発話音量の平均を計算し、ユーザ202のための平均発話音量を決定してもよい。例えば、ユーザの平均発話音量は、60dBであってもよい。
メディアガイドアプリケーションは、次いで、平均発話音量レベルと最大音量レベル(すなわち、ユーザ202の最近傍の音声動作型ユーザデバイス208によって受信される音量レベル)との間の差を決定してもよい。例えば、最大音量レベルは、52dBであってもよく、ユーザの平均発話音量は、60dBであってもよい。差は、この場合、8dBである。
第3の音量レベル(第2の可聴応答の音量レベル210)は、第2の音量レベルに加算される差に基づいてもよい。例えば、第2の音量レベルは、53dBであってもよく、差は、8dBであってもよく、第3の音量は、61dBであってもよい。この場合、第2の音声動作型ユーザデバイス208は、61dBにおいて第2の可聴応答210を発行するであろう。
いくつかの実施例では、メディアガイドアプリケーションは、ユーザから確認応答212を受信する。確認応答212を受信することに応答して、メディアガイドアプリケーションは、ユーザのユーザプロファイルの中に第2の音量レベル(最初の可聴応答206の音量レベル)を記憶してもよい。例えば、ユーザプロファイルは、ユーザ202が過去に聞くことができた複数のユーザ音量レベルを含有する、聴覚情報データ構造を含有してもよい。第2の音量レベルは、本第2のデータ構造の中に記憶されてもよい。
図3は、本開示のいくつかの実施形態による、可聴応答の視覚表現を表示するために生成するメディアガイドアプリケーションの例証的実施例を示す。いくつかの実施形態では、ユーザからの音声コマンド304への応答は、ディスプレイデバイス308上に視覚的に表示されてもよい。メディアガイドアプリケーションは、ユーザ302と関連付けられるディスプレイデバイス308を識別してもよい。例えば、メディアガイドアプリケーションは、ユーザプロファイルを通してユーザ302と関連付けられるテレビとインターフェースをとってもよい。メディアガイドアプリケーションは、可聴応答の視覚表現を表示するために生成してもよい。例えば、メディアガイドアプリケーションは、テレビ上にウィンドウ310を生成してもよく、ウィンドウ310内に応答を表示してもよい。例えば、メディアガイドアプリケーションは、受信されるユーザ302からの要求304が番組の名称についてのクエリであるときに、ユーザ302が鑑賞している映画の最後の台詞「May the Force be with you」を表示してもよい。さらに、可聴応答が生成された後、ディスプレイウィンドウ310は、可聴応答を与えたデバイス306への参照を含んでもよい。例えば、メディアガイドアプリケーションは、「デバイスBが「May the Force be with you」と発しました」を表示してもよい。これは、ユーザが通信しているデバイス、したがって、ユーザの近傍にあるデバイスをユーザに知らせる。
いくつかの実施形態では、メディアガイドアプリケーションは、ユーザプロファイルを使用して、ユーザ302に聴力障害があることを決定してもよい。例えば、本情報は、聴覚情報データ構造の中に記憶され得る。例えば、ユーザ302は、いかなる可聴応答も聞くことができない場合がある。この場合、上記の説明と同様に、メディアガイドアプリケーションは、ユーザと関連付けられるディスプレイデバイス308を識別してもよい。メディアガイドアプリケーションは、可聴応答の視覚表現を表示するために生成し、視覚表現をディスプレイデバイス308に伝送し、ウィンドウ310内で表示してもよい。例えば、メディアガイドアプリケーションは、視覚表現をユーザ302と関連付けられるテレビ308に伝送してもよい。
本明細書で使用されるように、「連続聴取デバイス」は、電源をオンにされると、ユーザが(例えば、ボタンを押下することによって)入力コマンドに備えるようにデバイスを促す必要なく、オーディオを常に監視し得る、デバイスである。例えば、連続聴取デバイスは、キーワードまたはプロンプト(例えば、「こんにちは、アシスタント」)に関してオーディを常に監視し、能動聴取状態をアクティブ化してもよい、または常に受動聴取状態で全てのオーディオを監視および処理してもよい。本明細書で使用されるように、「受動聴取状態」は、連続聴取デバイスが一時的または持続的にオーディオを録音し続けるが、ユーザが命令を受信する準備をするように連続聴取デバイスを別様に促していない、連続聴取デバイスの動作モードとして定義される。受動状態では、連続聴取デバイスは、オーディオがキーワードまたはプロンプトに応答して処理されるのみである、能動聴取状態と対照的に、全てのオーディオ入力を処理する。いくつかの実施形態では、連続聴取デバイスは、所定の聴取長さにわたってオーディオを記憶する循環バッファの中に、受信されるオーディオを記憶する。例えば、連続聴取デバイスは、5分のオーディオを記憶してもよく、最早期のオーディオ情報は、新しいオーディオが録音されるにつれて削除される。いくつかの実施形態では、全てのオーディオは、持続的に記憶され、日常的なハウスキーピング動作を使用して、またはユーザによって手動で、削除されてもよい。
本明細書で使用されるように、「音声動作型ユーザデバイス」は、常にオーディオ入力およびキーワードを聴取し得る、デバイスである。デバイスへのキーワードアドレスが検出されるとき、音声動作型ユーザデバイスは、オーディオ入力を処理してもよい。音声動作型ユーザデバイスは、上記に説明されるように、連続聴取デバイスと称され得る。音声動作型ユーザデバイスは、受動聴取状態または能動聴取状態を使用してもよい。上記で議論されるいくつかのデバイスは、受動聴取状態を使用し、いくつかは、任意の組み合わせで能動聴取状態を使用してもよい。
任意の所与のコンテンツ配信システムでユーザに利用可能なコンテンツの量が、膨大であり得る。その結果、多くのユーザは、ユーザがコンテンツの選択を効率的にナビゲートし、所望し得るコンテンツを容易に識別することを可能にする、インターフェースを通したメディアガイドの形態を所望している。そのようなガイドを提供するアプリケーションは、本明細書では、双方向メディアガイドアプリケーションと称されるが、時として、メディアガイドアプリケーションまたはガイドアプリケーションと称されることもある。
双方向メディアガイドアプリケーションは、ガイドを提供するコンテンツに応じて、種々の形態をとってもよい。1つの典型的なタイプのメディアガイドアプリケーションは、双方向テレビ番組ガイドである。双方向テレビ番組ガイド(時として、電子番組ガイドと称される)は、とりわけ、ユーザが、多くのタイプのコンテンツまたはメディアアセット間をナビゲートし、それを特定することを可能にする、周知のガイドアプリケーションである。双方向メディアガイドアプリケーションは、ユーザが、コンテンツ間をナビゲートし、それを特定および選択することを可能にする、グラフィカルユーザインターフェース画面を生成してもよい。本明細書で参照されるように、用語「メディアアセット」および「コンテンツ」は、テレビ番組、および有料番組、オンデマンド番組(ビデオオンデマンド(VOD)システムにおけるような)、インターネットコンテンツ(例えば、ストリーミングコンテンツ、ダウンロード可能コンテンツ、ウェブキャスト等)、ビデオクリップ、オーディオ、コンテンツ情報、写真、回転画像、ドキュメント、再生一覧、ウェブサイト、記事、書籍、電子書籍、ブログ、チャットセッション、ソーシャルメディア、アプリケーション、ゲーム、および/または任意の他のメディアまたはマルチメディア、および/またはそれらの組み合わせ等の電子的に消費可能なユーザアセットを意味すると理解されたい。ガイドアプリケーションはまた、ユーザが、コンテンツ間をナビゲートし、それを特定することを可能にする。本明細書で参照されるように、用語「マルチメディア」は、上記に説明される少なくとも2つの異なるコンテンツ形態、例えば、テキスト、オーディオ、画像、ビデオ、または双方向コンテンツ形態を利用する、コンテンツを意味すると理解されたい。コンテンツは、ユーザ機器デバイスによって、録画、再生、表示、またはアクセスされてもよいが、また、ライブパーフォーマンスの一部であることもできる。
本明細書で議論される実施形態のいずれかを実施するためのメディアガイドアプリケーションおよび/または任意の命令は、コンピュータ可読媒体上にエンコードされてもよい。コンピュータ可読媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ可読媒体は、限定ではないが、電気または電磁信号の伝搬を含む、一過性であり得る、または限定ではないが、ハードディスク、フロッピー(登録商標)ディスク、USBドライブ、DVD、CD、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ(「RAM」)等の揮発性および不揮発性コンピュータメモリまたは記憶デバイスを含む、非一過性であり得る。
インターネット、モバイルコンピューティング、および高速無線ネットワークの出現に伴って、ユーザは、従来は使用しなかったユーザ機器デバイス上でメディアにアクセスするようになっている。本明細書で参照されるように、語句「ユーザ機器デバイス」、「ユーザ機器」、「ユーザデバイス」、「電子デバイス」、「電子機器」、「メディア機器デバイス」、または「メディアデバイス」は、テレビ、スマートTV、セットトップボックス、衛星テレビに対応するための統合型受信機デコーダ(IRD)、デジタル記憶デバイス、デジタルメディア受信機(DMR)、デジタルメディアアダプタ(DMA)、ストリーミングメディアデバイス、DVDプレーヤ、DVDレコーダ、接続型DVD、ローカルメディアサーバ、BLU−RAY(登録商標)プレーヤ、BLU−RAY(登録商標)レコーダ、パーソナルコンピュータ(PC)、ラップトップコンピュータ、タブレットコンピュータ、ウェブTVボックス、パーソナルコンピュータテレビ(PC/TV)、PCメディアサーバ、PCメディアセンター、ハンドヘルドコンピュータ、固定電話、携帯情報端末(PDA)、携帯電話、ポータブルビデオプレーヤ、ポータブル音楽プレーヤ、携帯用ゲーム機、スマートフォン、または任意の他のテレビ機器、コンピューティング機器、または無線デバイス、および/またはそれらの組み合わせ等の上記で説明されるコンテンツにアクセスするための任意のデバイスを意味すると理解されたい。いくつかの実施形態では、ユーザ機器デバイスは、正面画面および裏面画面、複数の正面画面、または複数の角度付き画面を有してもよい。いくつかの実施形態では、ユーザ機器デバイスは、正面カメラおよび/または裏面カメラを有してもよい。これらのユーザ機器デバイス上で、ユーザは、テレビを通して利用可能な同一のコンテンツ間をナビゲートし、それを特定することが可能であり得る。その結果として、メディアガイドは、これらのデバイス上でも利用可能であり得る。提供されるガイドは、テレビのみを通して利用可能なコンテンツ、他のタイプのユーザ機器デバイスのうちの1つ以上のもののみを通して利用可能なコンテンツ、またはテレビおよび他のタイプのユーザ機器デバイスのうちの1つ以上のものの両方を通して利用可能なコンテンツのためのものであってもよい。メディアガイドアプリケーションは、ユーザ機器デバイス上で、オンラインアプリケーション(すなわち、ウェブサイト上で提供される)として、または独立型アプリケーションまたはクライアントとして提供されてもよい。メディアガイドアプリケーションを実装し得る、種々のデバイスおよびプラットフォームは、下記でより詳細に説明される。
メディアガイドアプリケーションの機能のうちの1つは、メディアガイドデータをユーザに提供することである。本明細書で参照されるように、語句「メディアガイドデータ」または「ガイドデータ」は、コンテンツに関連する任意のデータまたはガイドアプリケーションを動作させる際に使用されるデータを意味すると理解されたい。例えば、ガイドデータは、番組情報、ガイドアプリケーション設定、ユーザ選好、ユーザプロファイル情報、メディア一覧、メディア関連情報(例えば、放送時間、放送チャネル、タイトル、内容、評価情報(例えば、ペアレンタルコントロール評価、批評家の評価等)、ジャンルまたはカテゴリ情報、俳優情報、放送会社またはプロバイダのロゴのロゴデータ等)、メディア形式(例えば、標準解像度、高解像度、3D等)、オンデマンド情報、ブログ、ウェブサイト、およびユーザが所望のコンテンツ選択間をナビゲートし、それを特定するために役立つ、任意の他のタイプのガイドデータを含んでもよい。
図4−5は、メディアガイドデータを提供するために使用され得る、例証的表示画面を示す。図4−5に示される表示画面は、任意の好適なユーザ機器デバイスまたはプラットフォーム上に実装されてもよい。図4−5の表示は、フル画面表示として図示されているが、それらはまた、表示されているコンテンツ上に完全または部分的にオーバーレイされてもよい。ユーザは、表示画面内に提供された選択可能なオプション(例えば、メニューオプション、一覧オプション、アイコン、ハイパーリンク等)を選択することによって、またはリモートコントロールまたは他のユーザ入力インターフェースまたはデバイス上の専用ボタン(例えば、「ガイド」ボタン)を押下することによって、コンテンツ情報にアクセスする要望を示してもよい。ユーザのインジケーションに応答して、メディアガイドアプリケーションは、グリッド内の時間およびチャネル別、時間別、チャネル別、ソース別、コンテンツタイプ別、カテゴリ別(例えば、映画、スポーツ、ニュース、子供向け、または他の番組カテゴリ)、または他の所定、ユーザ定義、または他の編成基準等のいくつかの方法のうちの1つにおいて編成されたメディアガイドデータを表示画面に提供してもよい。
図4は、単一表示内の異なるタイプのコンテンツへのアクセスも可能にする、時間およびチャネル別に配列された番組一覧表示400の例証的グリッドを示す。表示400は、以下、すなわち、(1)各チャネル/コンテンツタイプ識別子(列内のセル)が利用可能な異なるチャネルまたはコンテンツのタイプを識別する、チャネル/コンテンツタイプ識別子404の列、および(2)各時間識別子(行内のセル)が番組の時間帯を識別する、時間識別子406の行を伴う、グリッド402を含んでもよい。グリッド402はまた、番組一覧408等の番組一覧のセルも含み、各一覧は、一覧の関連チャネルおよび時間の上に提供される、番組のタイトルを提供する。ユーザ入力デバイスを用いて、ユーザは、ハイライト領域410を移動させることによって番組一覧を選択することができる。ハイライト領域410によって選択される番組一覧に関する情報が、番組情報領域412内に提供されてもよい。領域412は、例えば、番組タイトル、番組内容、番組が提供される時間(該当する場合)、番組が放送されるチャネル(該当する場合)、番組の評価、および他の所望の情報を含んでもよい。
線形番組(例えば、所定の時間に複数のユーザ機器デバイスに伝送されるようにスケジュールされ、スケジュールに従って提供されるコンテンツ)にアクセスを提供することに加えて、メディアガイドアプリケーションはまた、非線形番組(例えば、任意の時間においてユーザ機器デバイスにアクセス可能であって、スケジュールに従って提供されないコンテンツ)へのアクセスも提供する。非線形番組は、オンデマンドコンテンツ(例えば、VOD)、インターネットコンテンツ(例えば、ストリーミングメディア、ダウンロード可能メディア等)、ローカルで記憶されたコンテンツ(例えば、上記に説明される任意のユーザ機器デバイスまたは他の記憶デバイス上に記憶されたコンテンツ)、または時間的制約のない他のコンテンツを含む、異なるコンテンツソースからのコンテンツを含んでもよい。オンデマンドコンテンツは、特定のコンテンツプロバイダ(例えば、「The Sopranos」および「Curb Your Enthusiasm」を提供するHBO On Demand)によって提供される映画または任意の他のコンテンツを含んでもよい。HBO ON DEMANDは、Time Warner Company L.P. et al.によって所有されるサービスマークであり、THE SOPRANOSおよびCURB YOUR ENTHUSIASMは、Home Box Office, Inc.によって所有される商標である。インターネットコンテンツは、チャットセッションまたはウェブキャスト等のウェブイベント、またはインターネットウェブサイトまたは他のインターネットアクセス(例えば、FTP)を通してストリーミングコンテンツまたはダウンロード可能なコンテンツとしてオンデマンドで利用可能なコンテンツを含んでもよい。
グリッド402は、オンデマンド一覧414、録画コンテンツ一覧416、およびインターネットコンテンツ一覧418を含む、非線形番組のメディアガイドデータを提供してもよい。異なるタイプのコンテンツソースからのコンテンツのためのメディアガイドデータを組み合わせる表示は、時として、「混合メディア」表示と称されることもある。表示400とは異なる、表示され得るメディアガイドデータのタイプの種々の順列は、ユーザ選択またはガイドアプリケーション定義に基づいてもよい(例えば、録画および放送一覧のみの表示、オンデマンドおよび放送一覧のみの表示等)。例証されるように、一覧414、416、および418は、これらの一覧の選択が、それぞれ、オンデマンド一覧、録画一覧、またはインターネット一覧専用の表示へのアクセスを提供し得ることを示すように、グリッド402内に表示される時間帯全体に及ぶものとして示されている。いくつかの実施形態では、これらのコンテンツタイプの一覧は、グリッド402に直接含まれてもよい。ユーザがナビゲーションアイコン420のうちの1つを選択することに応答して、付加的メディアガイドデータが表示されてもよい(ユーザ入力デバイス上の矢印キーを押下することは、ナビゲーションアイコン420を選択することと同様に表示に影響を及ぼし得る)。
表示400はまた、ビデオ領域422、およびオプション領域426を含んでもよい。ビデオ領域422は、ユーザが、ユーザに現在利用可能である、今後利用可能となる、または利用可能であった番組を視聴および/またはプレビューすることを可能にしてもよい。ビデオ領域422のコンテンツは、グリッド402に表示される一覧のうちの1つに対応する、またはそれから独立し得る。ビデオ領域を含むグリッド表示は、時として、ピクチャインガイド(PIG)表示と称されることもある。PIG表示およびそれらの機能性は、2003年5月13日発行のSatterfield et. al.の米国特許第6,564,378号、および2001年5月29日発行のYuen et. al.の米国特許第6,239,794号(それらの全体として参照することによって本明細書に組み込まれる)でより詳細に説明されている。PIG表示は、本明細書に説明される実施形態の他のメディアガイドアプリケーション表示画面に含まれてもよい。
オプション領域426は、ユーザが、異なるタイプのコンテンツ、メディアガイドアプリケーション表示、および/またはメディアガイドアプリケーション特徴にアクセスすることを可能にしてもよい。オプション領域426は、表示400(および本明細書に説明される他の表示画面)の一部であってもよい、または画面上のオプションを選択すること、またはユーザ入力デバイス上の専用または割当可能ボタンを押下することによって、ユーザによって呼び出されてもよい。オプション領域426内の選択可能オプションは、グリッド402内の番組一覧に関連する特徴に関してもよい、またはメインメニュー表示から利用可能なオプションを含んでもよい。番組一覧に関連する特徴は、他の放送時間または番組の受信方法の検索、番組の録画、番組の連続録画の有効化、番組および/またはチャネルをお気に入りとして設定、番組の購入、または他の特徴を含んでもよい。メインメニュー表示から利用可能なオプションは、検索オプション、VODオプション、ペアレンタルコントロールオプション、インターネットオプション、クラウドベースのオプション、デバイス同期オプション、第2の画面デバイスオプション、種々のタイプのメディアガイドデータ表示にアクセスするオプション、プレミアムサービスをサブスクライブするオプション、ユーザのプロファイルを編集するオプション、ブラウザオーバーレイにアクセスするオプション、または他のオプションを含んでもよい。
メディアガイドアプリケーションは、ユーザの選好に基づいて個人化されてもよい。個人化されたメディアガイドアプリケーションは、ユーザが、メディアガイドアプリケーションを用いて個人化された「体験」を生成するように、表示および特徴をカスタマイズすることを可能にする。この個人化された体験は、ユーザがこれらのカスタマイズを入力することを可能にすることによって、および/または種々のユーザ選好を決定するようにメディアガイドアプリケーションがユーザアクティビティを監視することによって、生成されてもよい。ユーザは、ログインすることによって、または別様にガイドアプリケーションに対して自らを識別することによって、それらの個人化されたガイドアプリケーションにアクセスしてもよい。メディアガイドアプリケーションのカスタマイズは、ユーザプロファイルに従って作成されてもよい。カスタマイズは、提示方式(例えば、表示の色方式、テキストのフォントサイズ等)、表示されるコンテンツ一覧の側面(例えば、HDTV番組のみまたは3D番組のみ、お気に入りチャネル選択に基づいたユーザ指定の放送チャネル、チャネルの表示の並び替え、推奨コンテンツ等)、所望の録画特徴(例えば、特定のユーザに対する録画または連続録画、録画品質等)、ペアレンタルコントロール設定、インターネットコンテンツのカスタマイズされた提示(例えば、ソーシャルメディアコンテンツ、電子メール、電子的に配信された記事等の提示)、および他の所望のカスタマイズを変更させるステップを含んでもよい。
メディアガイドアプリケーションは、ユーザが、ユーザプロファイル情報を提供することを可能にしてもよい、またはユーザプロファイル情報を自動的にコンパイルしてもよい。メディアガイドアプリケーションは、例えば、ユーザがアクセスするコンテンツ、および/またはユーザがガイドアプリケーションと行い得る他の相互作用を監視してもよい。加えて、メディアガイドアプリケーションは、特定のユーザに関連する他のユーザプロファイルの全体または一部を取得し(例えば、www.Tivo.com等のユーザがアクセスするインターネット上の他のウェブサイトから、ユーザがアクセスする他のメディアガイドアプリケーションから、ユーザがアクセスする他の双方向アプリケーションから、ユーザの別のユーザ機器デバイスから等)、および/またはメディアガイドアプリケーションがアクセスし得る他のソースから、ユーザについての情報を取得してもよい。結果として、ユーザは、ユーザの異なるユーザ機器デバイスにわたって、統一されたガイドアプリケーション体験を提供することができる。本タイプのユーザ体験は、図7に関連して下記でより詳細に説明される。付加的な個人化されたメディアガイドアプリケーション特徴は、2005年7月11日出願のEllis et al.の米国特許出願公開第2005/0251827号、2007年1月16日発行のBoyer et al.の米国特許第7,165,098号、および2002年2月21日出願のEllis et al.の米国特許出願公開第2002/0174430号(それらの全体として参照することによって本明細書に組み込まれる)でより詳細に説明されている。
メディアガイドを提供するための別の表示配列が、図5に示されている。ビデオモザイク表示500は、コンテンツのタイプ、ジャンル、および/または他の編成基準に基づいて編成されたコンテンツ情報のための選択可能オプション502を含む。表示500では、テレビ一覧オプション504が、選択され、したがって、一覧506、508、510、および512を放送番組一覧として提供する。表示500では、一覧は、カバーアート、コンテンツからの静止画像、ビデオクリップのプレビュー、コンテンツからのライブビデオ、または一覧中のメディアガイドデータによって記述されているコンテンツをユーザに示す他のタイプのコンテンツを含む、グラフィック画像を提供してもよい。グラフィック一覧はまた、それぞれ、一覧と関連付けられるコンテンツに関するさらなる情報を提供するように、テキストを伴ってもよい。例えば、一覧508は、メディア部分514およびテキスト部分516を含む、1つを上回る部分を含んでもよい。メディア部分514および/またはテキスト部分516は、コンテンツをフル画面で視聴するように、またはメディア部分514に表示されるコンテンツに関連する情報を閲覧するように(例えば、ビデオが表示されるチャネルの一覧を閲覧するように)、選択可能であり得る。
表示500内の一覧は、異なるサイズである(すなわち、一覧506は、一覧508、510、および512より大きい)が、所望に応じて、全ての一覧が同一のサイズであってもよい。一覧は、コンテンツプロバイダの所望に応じて、またはユーザ選好に基づいて、ユーザの関心の程度を示すように、またはあるコンテンツを強調するように、異なるサイズである、またはグラフィック的に強調されてもよい。コンテンツ一覧をグラフィック的に強調するための種々のシステムおよび方法は、例えば、2009年11月12日に出願されたYatesの米国特許出願公開第2010/0153885号(その全体として参照することによって本明細書に組み込まれる)で議論されている。
ユーザは、そのユーザ機器デバイスのうちの1つ以上のものから、コンテンツおよびメディアガイドアプリケーション(および上記および下記で説明されるその表示画面)にアクセスしてもよい。図6は、例証的ユーザ機器デバイス600の一般化された実施形態を示す。ユーザ機器デバイスのより具体的な実装は、図7に関連して下記で議論される。ユーザ機器デバイス600は、入出力(以下「I/O」)パス602を介して、コンテンツおよびデータを受信してもよい。I/Oパス602は、処理回路606および記憶装置608を含む制御回路604に、コンテンツ(例えば、放送番組、オンデマンド番組、インターネットコンテンツ、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を経由して利用可能なコンテンツ、および/または他のコンテンツ)およびデータを提供してもよい。制御回路604は、I/Oパス602を使用して、コマンド、要求、および他の好適なデータを送受信するために使用されてもよい。I/Oパス602は、制御回路604(具体的には、処理回路606)を1つ以上の通信パス(下記に説明される)に接続してもよい。I/O機能は、これらの通信パスのうちの1つ以上のものによって提供されてもよいが、図面が複雑になり過ぎることを回避するため、図6では単一パスとして示されている。
制御回路604は、処理回路606等の任意の好適な処理回路に基づいてもよい。本明細書で参照されるように、処理回路は、1つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)等に基づく回路を意味すると理解され、マルチコアプロセッサ(例えば、デュアルコア、クアドコア、ヘクサコア、または任意の好適な数のコア)またはスーパーコンピュータを含んでもよい。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同一のタイプの処理ユニット(例えば、2つのIntel Core i7プロセッサ)または複数の異なるプロセッサ(例えば、Intel Core i5プロセッサおよびIntel Core i7プロセッサ)にわたって分散されてもよい。いくつかの実施形態では、制御回路604は、メモリ(すなわち、記憶装置608)に記憶されたメディアガイドアプリケーションに対する命令を実行する。具体的には、制御回路604は、メディアガイドアプリケーションによって、上記および下記で議論される機能を果たすように命令されてもよい。例えば、メディアガイドアプリケーションは、制御回路604に、メディアガイド表示を生成するための命令を提供してもよい。いくつかの実装では、制御回路604によって実施される任意のアクションは、メディアガイドアプリケーションから受信される命令に基づいてもよい。
クライアントサーバベースの実施形態では、制御回路604は、ガイドアプリケーションサーバまたは他のネットワークまたはサーバと通信するための好適な通信回路を含んでもよい。上記に述べられる機能性を実施するための命令は、ガイドアプリケーションサーバ上に記憶されてもよい。通信回路は、ケーブルモデム、総合デジタル通信網(ISDN)モデム、デジタルサブスクライバ回線(DSL)モデム、電話モデム、イーサネット(登録商標)カード、または他の機器との通信用の無線モデム、または任意の他の好適な通信回路を含んでもよい。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークまたはパスを伴ってもよい(図7に関連してより詳細に説明される)。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信、または相互から遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路を含んでもよい(下記でより詳細に説明される)。
メモリは、制御回路604の一部である、記憶装置608として提供される、電子記憶デバイスであってもよい。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」とは、ランダムアクセスメモリ、読取専用メモリ、ハードドライブ、光学ドライブ、デジタルビデオディスク(DVD)レコーダ、コンパクトディスク(CD)レコーダ、BLU−RAY(登録商標)ディスク(BD)レコーダ、BLU−RAY(登録商標) 3Dディスクレコーダ、デジタルビデオレコーダ(DVR、または時として、パーソナルビデオレコーダまたはPVRと呼ばれる場合)、ソリッドステートデバイス、量子記憶デバイス、ゲームコンソール、ゲームメディア、または任意の他の好適な固定またはリムーバブル記憶デバイス、および/またはそれらの任意の組み合わせ等の電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意のデバイスを意味すると理解されたい。記憶装置608は、本明細書に説明される種々のタイプのコンテンツ、および上記で説明されるメディアガイドデータを記憶するために使用されてもよい。不揮発性メモリもまた、(例えば、ブートアップルーチンおよび他の命令を起動するために)使用されてもよい。図7に関連して説明される、クラウドベースの記憶装置が、記憶装置608を補完するために使用される、または記憶装置608の代わりに使用されてもよい。
制御回路604は、1つ以上のアナログチューナ、1つ以上のMPEG−2デコーダ、または他のデジタルデコード回路、高解像度チューナ、または任意の他の好適な同調またはビデオ回路、またはそのような回路の組み合わせ等のビデオ生成回路および同調回路を含んでもよい。(例えば、記憶するために、無線、アナログ、またはデジタル信号をMPEG信号に変換するための)エンコード回路もまた、提供されてもよい。制御回路604はまた、コンテンツをユーザ機器600の好ましい出力形式に上方変換および下方変換するためのスケーリング回路を含んでもよい。回路604はまた、デジタル信号とアナログ信号との間で変換するためのデジタル/アナログ変換回路およびアナログ/デジタル変換回路を含んでもよい。同調およびエンコード回路は、コンテンツを受信して表示する、再生する、または録画するために、ユーザ機器デバイスによって使用されてもよい。同調およびエンコード回路はまた、ガイドデータを受信するために使用されてもよい。例えば、同調、ビデオ生成、エンコード、デコード、暗号化、解読、スケーリング、およびアナログ/デジタル回路を含む、本明細書に説明される回路は、1つ以上の汎用または特殊プロセッサ上で起動するソフトウェアを使用して実装されてもよい。複数のチューナが、同時同調機能(例えば、視聴および録画機能、ピクチャインピクチャ(PIP)機能、多重チューナ録画機能等)に対処するように提供されてもよい。記憶装置608が、ユーザ機器600とは別のデバイスとして提供される場合、同調およびエンコード回路(複数のチューナを含む)は、記憶装置608と関連付けられてもよい。
ユーザは、ユーザ入力インターフェース610を使用して、命令を制御回路604に送信してもよい。ユーザ入力インターフェース610は、リモートコントロール、マウス、トラックボール、キーパッド、キーボード、タッチスクリーン、タッチパッド、スタイラス入力、ジョイスティック、音声認識インターフェース、または他のユーザ入力インターフェース等の任意の好適なユーザインターフェースであってもよい。ディスプレイ612は、独立型デバイスとして提供される、またはユーザ機器デバイス600の他の要素と統合されてもよい。例えば、ディスプレイ612は、タッチスクリーンまたはタッチセンサ式ディスプレイであってもよい。そのような状況では、ユーザ入力インターフェース610は、ディスプレイ612と統合される、または組み合わせられてもよい。ディスプレイ612は、モニタ、テレビ、モバイルデバイス用液晶ディスプレイ(LCD)、非晶質シリコンディスプレイ、低温ポリシリコンディスプレイ、電子インクディスプレイ、電気泳動ディスプレイ、アクティブマトリクスディスプレイ、エレクトロウェッティングディスプレイ、電気流体ディスプレイ、ブラウン管ディスプレイ、発光ダイオードディスプレイ、エレクトロルミネセントディスプレイ、プラズマディスプレイパネル、高性能アドレッシングディスプレイ、薄膜トランジスタディスプレイ、有機発光ダイオードディスプレイ、表面伝導型電子放出素子ディスプレイ(SED)、レーザテレビ、カーボンナノチューブ、量子ドットディスプレイ、干渉変調器ディスプレイ、または視覚的画像を表示するための任意の他の好適な機器のうちの1つ以上のものであってもよい。いくつかの実施形態では、ディスプレイ612は、HDTV対応型であり得る。いくつかの実施形態では、ディスプレイ612は、3Dディスプレイであってもよく、双方向メディアガイドアプリケーションおよび任意の好適なコンテンツは、3Dで表示されてもよい。ビデオカードまたはグラフィックカードは、ディスプレイ612への出力を生成してもよい。ビデオカードは、3Dシーンおよび2Dグラフィックのレンダリング加速、MPEG−2/MPEG−4デコード、TV出力、または複数のモニタを接続する能力等の種々の機能を提供し得る。ビデオカードは、制御回路604に関連する上記で説明される任意の処理回路であってもよい。ビデオカードは、制御回路604と統合されてもよい。スピーカ614は、ユーザ機器デバイス600の他の要素と統合されたものとして提供されてもよい、または独立型ユニットであってもよい。ディスプレイ612上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントは、スピーカ614を通して再生されてもよい。いくつかの実施形態では、オーディオは、スピーカ614を介して音声を処理および出力する、受信機(図示せず)に配布されてもよい。
ガイドアプリケーションは、任意の好適なアーキテクチャを使用して実装されてもよい。例えば、これは、ユーザ機器デバイス600上で完全に実装される、独立型アプリケーションであってもよい。そのようなアプローチでは、アプリケーションの命令は、ローカルで(例えば、記憶装置608の中に)記憶され、アプリケーションによって使用するためのデータは、周期的にダウンロードされる(例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して)。制御回路604は、記憶装置608からアプリケーションの命令を読み出し、本明細書で議論される表示のうちのいずれかを生成するための命令を処理してもよい。処理された命令に基づいて、制御回路604は、入力が入力インターフェース610から受信されるときに実施するアクションを決定してもよい。例えば、表示上のカーソルの上/下への移動は、入力インターフェース610が上/下ボタンが選択されたことを示すとき、処理された命令によって示されてもよい。
いくつかの実施形態では、メディアガイドアプリケーションは、クライアントサーバベースのアプリケーションである。ユーザ機器デバイス600上に実装される、シックまたはシンクライアントによって使用するためのデータは、ユーザ機器デバイス600の遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。クライアントサーバベースのガイドアプリケーションの一実施例では、制御回路604は、遠隔サーバによって提供されるウェブページを解釈する、ウェブブラウザを起動する。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶してもよい。遠隔サーバは、回路(例えば、制御回路604)を使用して、記憶された命令を処理し、上記および下記で議論される表示を生成してもよい。クライアントデバイスは、遠隔サーバによって生成される表示を受信してもよく、表示のコンテンツを機器デバイス600上にローカルで表示してもよい。このように、命令の処理が、サーバによって遠隔で実施される一方、結果として生じる表示は、機器デバイス600上にローカルで提供される。機器デバイス600は、入力インターフェース610を介して、ユーザからの入力を受信し、対応する表示を処理および生成するために、それらの入力を遠隔サーバに伝送してもよい。例えば、機器デバイス600は、上/下ボタンが入力インターフェース610を介して選択されたことを示す通信を遠隔サーバに伝送してもよい。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示を生成してもよい(例えば、カーソルを上/下に移動させる表示)。生成された表示は、次いで、ユーザへの提示のために、機器デバイス600に伝送される。
いくつかの実施形態では、メディアガイドアプリケーションは、インタープリタまたは仮想マシン(制御回路604によって起動される)によって、ダウンロードされ、解釈または別様に起動される。いくつかの実施形態では、ガイドアプリケーションは、ETVバイナリ交換形式(ETV Binary Interchange Format/EBIF)でエンコードされ、好適なフィードの一部として制御回路604によって受信され、制御回路604上で起動するユーザエージェントによって解釈されてもよい。例えば、ガイドアプリケーションは、EBIFアプリケーションであってもよい。いくつかの実施形態では、ガイドアプリケーションは、制御回路604によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される、一連のJAVA(登録商標)ベースのファイルによって定義されてもよい。そのような実施形態のうちのいくつか(例えば、MPEG−2または他のデジタルメディアエンコードスキームを採用するもの)では、ガイドアプリケーションは、例えば、番組のMPEGオーディオおよびビデオパケットを用いたMPEG−2オブジェクトカルーセルにおいてエンコードおよび伝送されてもよい。
図6のユーザ機器デバイス600は、ユーザテレビ機器702、ユーザコンピュータ機器704、無線ユーザ通信デバイス706、または非携帯用ゲーム機等のコンテンツにアクセスするために好適な任意の他のタイプのユーザ機器として、図7のシステム700に実装されることができる。簡単にするために、これらのデバイスは、本明細書では総称して、ユーザ機器またはユーザ機器デバイスと称されてもよく、上記で説明されるユーザ機器デバイスに実質的に類似し得る。メディアガイドアプリケーションが実装され得る、ユーザ機器デバイスは、独立型デバイスとして機能してもよい、またはデバイスのネットワークの一部であってもよい。デバイスの種々のネットワーク構成が実装されてもよく、下記でより詳細に議論される。
図6に関連して上記で説明されるシステム特徴のうちの少なくともいくつかを利用する、ユーザ機器デバイスは、単に、ユーザテレビ機器702、ユーザコンピュータ機器704、または無線ユーザ通信デバイス706として分類されなくてもよい。例えば、ユーザテレビ機器702は、いくつかのユーザコンピュータ機器704のように、インターネットコンテンツへのアクセスを可能にするインターネット対応型であり得る一方で、ユーザコンピュータ機器704は、あるテレビ機器702のように、テレビ番組へのアクセスを可能にするチューナを含んでもよい。メディアガイドアプリケーションはまた、種々の異なるタイプのユーザ機器上で同一のレイアウトを有してもよい、またはユーザ機器の表示能力に合わせられてもよい。例えば、ユーザコンピュータ機器704上では、ガイドアプリケーションは、ウェブブラウザによってアクセスされるウェブサイトとして提供されてもよい。別の実施例では、ガイドアプリケーションは、無線ユーザ通信デバイス706用に縮小されてもよい。
システム700では、典型的には、各タイプのユーザ機器デバイスが1つを上回って存在するが、図面が複雑になり過ぎることを回避するように、それぞれ1つだけが図7に示されている。加えて、各ユーザは、1つを上回るタイプのユーザ機器デバイスと、また、各タイプのユーザ機器デバイスのうちの1つを上回るものとを利用してもよい。
いくつかの実施形態では、ユーザ機器デバイス(例えば、ユーザテレビ機器702、ユーザコンピュータ機器704、無線ユーザ通信デバイス706)は、「第2の画面デバイス」と称されてもよい。例えば、第2の画面デバイスは、第1のユーザ機器デバイス上に提示されるコンテンツを補完してもよい。第2の画面デバイス上に提示されるコンテンツは、第1のデバイス上に提示されるコンテンツを補完する、任意の好適なコンテンツであってもよい。いくつかの実施形態では、第2の画面デバイスは、第1のデバイスの設定および表示選好を調節するためのインターフェースを提供する。いくつかの実施形態では、第2の画面デバイスは、他の第2の画面デバイスと相互作用する、またはソーシャルネットワークと相互作用するために構成される。第2の画面デバイスは、第1のデバイスと同一の部屋内に、第1のデバイスと異なる部屋であるが、同一の家または建物内に、または第1のデバイスと異なる建物内に位置することができる。
ユーザはまた、家庭内デバイスおよび遠隔デバイスにわたって一貫したメディアガイドアプリケーション設定を維持するように、種々の設定を設定してもよい。設定は、本明細書に説明されるもの、およびお気に入りのチャネルおよび番組、番組を推奨するためにガイドアプリケーションが利用する番組選好、表示選好、および他の望ましいガイド設定を含む。例えば、ユーザが、そのオフィスのパーソナルコンピュータ上で、例えば、ウェブサイトwww.Tivo.comの上で、チャネルをお気に入りとして設定した場合、同一のチャネルが、ユーザの家庭内デバイス(例えば、ユーザテレビ機器およびユーザコンピュータ機器)上で、および所望に応じて、ユーザのモバイルデバイス上でお気に入りとして表示されるであろう。したがって、同一または異なるタイプのユーザ機器デバイスであるかどうかにかかわらず、1つのユーザ機器デバイス上で行われる変更は、別のユーザ機器デバイス上のガイド体験を変更することができる。加えて、行われる変更は、ユーザによって入力される設定、およびガイドアプリケーションによって監視されるユーザアクティビティに基づいてもよい。
ユーザ機器デバイスは、通信ネットワーク714に結合されてもよい。すなわち、ユーザテレビ機器702、ユーザコンピュータ機器704、および無線ユーザ通信デバイス706は、それぞれ、通信パス708、710、および712を介して、通信ネットワーク714に結合される。通信ネットワーク714は、インターネット、携帯電話ネットワーク、モバイルボイスまたはデータネットワーク(例えば、4GまたはLTEネットワーク)、ケーブルネットワーク、公衆交換電話ネットワーク、または他のタイプの通信ネットワーク、または通信ネットワークの組み合わせを含む、1つ以上のネットワークであってもよい。パス708、710、および712は、別個または一緒に、衛星パス、光ファイバパス、ケーブルパス、インターネット通信をサポートするパス(例えば、IPTV)、フリースペース接続(例えば、放送または他の無線信号用)、または任意の他の好適な有線または無線通信パス、またはそのようなパスの組み合わせ等の1つ以上の通信パスを含んでもよい。パス712は、図7に示される例示的実施形態では、無線パスであることを示すように破線で描かれ、パス708および710は、有線パスであることを示すように実線として描かれている(しかし、これらのパスは、所望に応じて、無線パスであってもよい)。ユーザ機器デバイスとの通信は、これらの通信パスのうちの1つ以上のものによって提供されてもよいが、図7では、図面が複雑になり過ぎることを回避するように、単一パスとして示されている。
通信パスは、ユーザ機器デバイスの間には描かれていないが、これらのデバイスは、パス708、710、および712に関連して上記で説明されるもの、およびUSBケーブル、IEEE 1394ケーブル、無線パス(例えば、Bluetooth(登録商標)、赤外線、IEEE 802−11x等)等の他の短距離ポイントツーポイント通信パス、または有線または無線パスを介した他の短距離通信等の通信パスを介して、相互に直接通信してもよい。BLUETOOTH(登録商標)は、Bluetooth SIG, INC.によって所有される認証マークである。ユーザ機器デバイスはまた、通信ネットワーク714を介した間接パスを通して、相互に直接通信してもよい。
システム700は、それぞれ、通信パス720および722を介して、通信ネットワーク714に結合される、コンテンツソース716およびメディアガイドデータソース718を含む。パス720および722は、パス708、710、および712に関連して上記で説明される通信パスのうちのいずれかを含んでもよい。コンテンツソース716およびメディアガイドデータソース718との通信は、1つ以上の通信パスを介して交信されてもよいが、図7では、図面が複雑になり過ぎることを回避するように、単一パスとして示される。加えて、コンテンツソース716およびメディアガイドデータソース718のそれぞれが1つを上回って存在し得るが、図7では、図面が複雑になり過ぎることを回避するように、それぞれ1つだけが示されている。(異なるタイプのこれらのソースのそれぞれが下記で議論される。)所望に応じて、コンテンツソース716およびメディアガイドデータソース718は、1つのソースデバイスとして統合されてもよい。ソース716および718と、ユーザ機器デバイス702、704、および706との間の通信は、通信ネットワーク714を通したものとして示されるが、いくつかの実施形態では、ソース716および718は、パス708、710、および712に関連して上記で説明されるもの等の通信パス(図示せず)を介して、ユーザ機器デバイス702、704、および706と直接通信してもよい。
システム700はまた、通信パス726を経由して通信ネットワーク714に結合される、広告ソース724を含んでもよい。パス726は、パス708、710、および712に関連して上記に説明される通信パスのうちのいずれかを含んでもよい。広告ソース724は、具体的ユーザに伝送する広告および条件を決定するための広告論理を含んでもよい。例えば、ケーブルオペレータは、具体的チャネル上の具体的タイムスロット中に広告を挿入する権利を有し得る。したがって、広告ソース724は、これらのタイムスロット中に広告をユーザに伝送してもよい。別の実施例として、広告ソースは、特定の番組を視聴することが公知であるユーザの人口統計(例えば、リアリティ番組を視聴する10代の若者)に基づいて、広告を標的化してもよい。さらに別の実施例として、広告ソースは、メディアアセットを視聴するユーザ機器の場所(例えば、東海岸または西海岸)に応じて、異なる広告を提供してもよい。
いくつかの実施形態では、広告ソース724は、標的広告を提供するために、ユーザと関連付けられる広告適合性スコアを含む、ユーザ情報を維持するように構成されてもよい。加えて、または代替として、広告ソース724と関連付けられるサーバは、広告適合性スコアを導出するために使用され得る、未加工情報を記憶するように構成されてもよい。いくつかの実施形態では、広告ソース724は、未加工情報に関して要求を別のデバイスに伝送し、広告適合性スコアを計算してもよい。広告ソース724は、具体的ユーザ(例えば、ユーザの第1のサブセット、第2のサブセット、または第3のサブセット)に関して広告適合性スコアを更新し、標的製品の広告を適切なユーザに伝送してもよい。
コンテンツソース716は、テレビ配信施設、ケーブルシステムヘッドエンド、衛星配信施設、番組ソース(例えば、NBC、ABC、HBO等のテレビ放送会社)、中間配信施設および/またはサーバ、インターネットプロバイダ、オンデマンドメディアサーバ、および他のコンテンツプロバイダを含む、1つ以上のタイプのコンテンツ配信機器を含んでもよい。NBCは、National Broadcasting Company, Inc.によって所有される商標であり、ABCは、American Broadcasting Company, INC.によって所有される商標であり、HBOは、Home Box Office, Inc.によって所有される商標である。コンテンツソース716は、コンテンツの発信元であってもよい(例えば、テレビ放送会社、ウェブキャストプロバイダ等)、またはコンテンツの発信元でなくてもよい(例えば、オンデマンドコンテンツプロバイダ、ダウンロード用放送番組のコンテンツのインターネットプロバイダ等)。コンテンツソース716は、ケーブルソース、衛星プロバイダ、オンデマンドプロバイダ、インターネットプロバイダ、オーバーザトップコンテンツプロバイダ、または他のコンテンツのプロバイダを含んでもよい。コンテンツソース716はまた、ユーザ機器デバイスのうちのいずれかから遠隔の場所にある、異なるタイプのコンテンツ(ユーザによって選択されるビデオコンテンツを含む)を記憶するために使用される、遠隔メディアサーバを含んでもよい。コンテンツの遠隔記憶のため、および遠隔に記憶されたコンテンツをユーザ機器に提供するためのシステムおよび方法は、2010年7月20日発行のEllis et al.の米国特許第7,761,892号(その全体として参照することによって本明細書に組み込まれる)に関連して、より詳細に議論されている。
メディアガイドデータソース718は、上記で説明されるメディアガイドデータ等のメディアガイドデータを提供してもよい。メディアガイドデータは、任意の好適なアプローチを使用して、ユーザ機器デバイスに提供されてもよい。いくつかの実施形態では、ガイドアプリケーションは、データフィード(例えば、継続フィードまたはトリクルフィード)を介して、番組ガイドデータを受信する、独立型双方向テレビ番組ガイドであってもよい。番組スケジュールデータおよび他のガイドデータは、テレビチャネルのサイドバンド上で、帯域内デジタル信号を使用して、帯域外デジタル信号を使用して、または任意の他の好適なデータ伝送技術によって、ユーザ機器に提供されてもよい。番組スケジュールデータおよび他のメディアガイドデータは、複数のアナログまたはデジタルテレビチャネル上でユーザ機器に提供されてもよい。
いくつかの実施形態では、メディアガイドデータソース718からのガイドデータは、クライアントサーバアプローチを使用して、ユーザの機器に提供されてもよい。例えば、ユーザ機器デバイスは、メディアガイドデータをサーバからプルしてもよい、またはサーバは、メディアガイドデータをユーザ機器デバイスにプッシュしてもよい。いくつかの実施形態では、ユーザの機器上に常駐するガイドアプリケーションクライアントは、必要に応じて、例えば、ガイドデータが、古くなっているとき、またはユーザ機器デバイスが、データを受信する要求をユーザから受信するとき、ソース718とセッションを開始し、ガイドデータを取得してもよい。メディアガイドは、任意の好適な頻度で(例えば、継続的に、毎日、ユーザ規定期間で、システム規定期間で、ユーザ機器からの要求に応答して等)ユーザ機器に提供されてもよい。メディアガイドデータソース718は、ユーザ機器デバイス702、704、および706に、メディアガイドアプリケーション自体、またはメディアガイドアプリケーションのソフトウェア更新を提供してもよい。
いくつかの実施形態では、メディアガイドデータは、視聴者データを含んでもよい。例えば、視聴者データは、現在および/または履歴ユーザアクティビティ情報(例えば、ユーザが典型的に鑑賞するコンテンツ、ユーザがコンテンツを鑑賞する時刻、ユーザがソーシャルネットワークと相互作用するかどうか、ユーザがソーシャルネットワークと相互作用し、情報をポストする時間、ユーザが典型的に鑑賞するコンテンツのタイプ(例えば、有料TVまたは無料TV)、気分、脳の活動情報等)を含んでもよい。メディアガイドデータはまた、サブスクリプションデータを含んでもよい。例えば、サブスクリプションデータは、所与のユーザがサブスクライブするソースまたはサービス、および/または所与のユーザが以前にサブスクライブしていたが後にアクセスを打ち切ったソースまたはサービス(例えば、ユーザがプレミアムチャネルをサブスクライブしているかどうか、ユーザがプレミアムレベルのサービスを追加したかどうか、ユーザがインターネット速度を加速させたかどうか)を識別してもよい。いくつかの実施形態では、視聴者データおよび/またはサブスクリプションデータは、1年を上回る周期の間の所与のユーザのパターンを識別してもよい。メディアガイドデータは、所与のユーザがサービス/ソースへのアクセスを打ち切るであろう可能性を示すスコアを生成するために使用される、モデル(例えば、残存者モデル)を含んでもよい。例えば、メディアガイドアプリケーションは、所与のユーザが特定のサービスまたはソースへのアクセスを打ち切るであろうかどうかの可能性を示す、値またはスコアを生成するためのモデルを併用して、サブスクリプションデータとともに視聴者データを処理してもよい。特に、より高いスコアは、ユーザが特定のサービスまたはソースへのアクセスを打ち切るであろう、より高いレベルの信頼性を示し得る。スコアに基づいて、メディアガイドアプリケーションは、ユーザがアクセスを打ち切る可能性が高いであろうものとしてスコアによって示される特定のサービスまたはソースをユーザが維持するように勧誘する宣伝を生成してもよい。
メディアガイドアプリケーションは、例えば、ユーザ機器デバイス上に実装される独立型アプリケーションであってもよい。例えば、メディアガイドアプリケーションは、記憶装置608内に記憶され、ユーザ機器デバイス600の制御回路604によって実行され得る、ソフトウェアまたは実行可能命令のセットとして実装されてもよい。いくつかの実施形態では、メディアガイドアプリケーションは、クライアント−サーバアプリケーションであってもよく、その場合、クライアントアプリケーションのみが、ユーザ機器デバイス上に常駐し、サーバアプリケーションは、遠隔サーバ上に常駐する。例えば、メディアガイドアプリケーションは、部分的にユーザ機器デバイス600の制御回路604上のクライアントアプリケーションとして、および遠隔サーバの制御回路上で起動するサーバアプリケーション(例えば、メディアガイドデータソース718)として部分的に遠隔サーバ上で、実装されてもよい。遠隔サーバの制御回路(メディアガイドデータソース718等)によって実行されると、メディアガイドアプリケーションは、制御回路に、ガイドアプリケーション表示を生成し、生成された表示をユーザ機器デバイスに伝送するように命令してもよい。サーバアプリケーションは、メディアガイドデータソース718の制御回路に、ユーザ機器上での記憶のためのデータを伝送するように命令してもよい。クライアントアプリケーションは、受信用ユーザ機器の制御回路に、ガイドアプリケーション表示を生成するように命令してもよい。
ユーザ機器デバイス702、704、および706に配信されるコンテンツおよび/またはメディアガイドデータは、オーバーザトップ(OTT)コンテンツであってもよい。OTTコンテンツ配信は、上記で説明される任意のユーザ機器デバイスを含む、インターネット対応型ユーザデバイスが、ケーブルまたは衛星接続を経由して受信されるコンテンツに加えて、上記で説明される任意のコンテンツを含む、インターネットを経由して転送されるコンテンツを受信することを可能にする。OTTコンテンツは、インターネットサービスプロバイダ(ISP)によって提供されるインターネット接続を介して配布されるが、第三者も、コンテンツを配布する。ISPは、視聴能力、著作権、またはコンテンツの再配布に責任がない場合があり、OTTコンテンツプロバイダによって提供されるIPパケットのみを転送してもよい。OTTコンテンツプロバイダの実施例は、IPパケットを介して、オーディオおよびビデオを提供する、YOUTUBE(登録商標)(R)、NETFLIX(R)およびHULU(R)を含む。Youtube(登録商標)は、Google Inc.によって所有される商標であり、Netflixは、Netflix, Inc.によって所有される商標であり、Huluは、Hulu, LLC.によって所有される商標である。OTTコンテンツプロバイダは、加えて、または代替として、上記で説明されるメディアガイドデータを提供してもよい。コンテンツおよび/またはメディアガイドデータに加えて、OTTコンテンツのプロバイダは、メディアガイドアプリケーション(例えば、ウェブベースのアプリケーションまたはクラウドベースのアプリケーション)を配布することができる、またはコンテンツは、ユーザ機器デバイス上に記憶されたメディアガイドアプリケーションによって表示されることができる。
メディアガイドシステム700は、いくつかのアプローチまたはネットワーク構成を例証することを意図しており、これによって、ユーザ機器デバイスおよびコンテンツおよびガイドデータのソースは、コンテンツにアクセスし、メディアガイドを提供する目的のために、相互に通信してもよい。本明細書に説明される実施形態は、これらのアプローチのうちのいずれか1つまたは一部において、またはコンテンツを配信し、メディアガイドを提供するための他のアプローチを採用するシステムにおいて、適用されてもよい。以下の4つのアプローチは、図7の一般化された実施例の具体的例証を提供する。
あるアプローチでは、ユーザ機器デバイスは、ホームネットワーク内で相互に通信してもよい。ユーザ機器デバイスは、上記で説明される短距離ポイントツーポイント通信方式を介して、ホームネットワーク上に提供されるハブまたは他の類似デバイスを通した間接パスを介して、または通信ネットワーク714を介して、相互に直接通信することができる。1つの家庭内の複数の個人のそれぞれが、ホームネットワーク上の異なるユーザ機器デバイスを動作させてもよい。結果として、種々のメディアガイド情報または設定が、異なるユーザ機器デバイスの間で通信されることが望ましくあり得る。例えば、2005年7月11日出願のEllis et al.の米国特許公開第2005/0251827号でより詳細に説明されるように、ホームネットワーク内の異なるユーザ機器デバイス上で、ユーザが一貫したメディアガイドアプリケーション設定を維持することが望ましくあり得る。ホームネットワーク内の異なるタイプのユーザ機器デバイスもまた、相互に通信し、コンテンツを伝送してもよい。例えば、ユーザは、ユーザコンピュータ機器から携帯用ビデオプレーヤまたは携帯用音楽プレーヤにコンテンツを伝送してもよい。
第2のアプローチでは、ユーザは、複数のタイプのユーザ機器を有してもよく、これによって、コンテンツにアクセスし、メディアガイドを取得する。例えば、一部のユーザは、家庭内およびモバイルデバイスによってアクセスされる、ホームネットワークを有してもよい。ユーザは、遠隔デバイス上に実装されるメディアガイドアプリケーションを介して、家庭内デバイスを制御してもよい。例えば、ユーザは、そのオフィスのパーソナルコンピュータ、またはPDAまたはウェブ対応携帯電話等のモバイルデバイスを介して、ウェブサイト上のオンラインメディアガイドアプリケーションにアクセスしてもよい。ユーザは、オンラインガイドアプリケーション上で種々の設定(例えば、録画、リマインダ、または他の設定)を設定して、ユーザの家庭内機器を制御してもよい。オンラインガイドは、直接、またはユーザの家庭内機器上のメディアガイドアプリケーションと通信することによって、ユーザの機器を制御してもよい。ユーザ機器デバイスが相互から遠隔の場所にある、ユーザ機器デバイスの通信のための種々のシステムおよび方法は、例えば、Ellis et al.の2011年10月25日発行の米国特許第8,046,801号(その全体として参照することによって本明細書に組み込まれる)で議論されている。
第3のアプローチでは、家庭内外のユーザ機器デバイスのユーザは、コンテンツソース716と直接通信し、コンテンツにアクセスするために、そのメディアガイドアプリケーションを使用することができる。具体的には、家庭内では、ユーザテレビ機器702およびユーザコンピュータ機器704のユーザは、メディアガイドアプリケーションにアクセスし、所望のコンテンツ間をナビゲートし、それを特定してもよい。ユーザはまた、無線ユーザ通信デバイス706を使用して、家庭外のメディアガイドアプリケーションにアクセスし、所望のコンテンツ間をナビゲートし、それを特定してもよい。
第4のアプローチでは、ユーザ機器デバイスは、クラウドコンピューティング環境内で動作し、クラウドサービスにアクセスしてもよい。クラウドコンピューティング環境では、コンテンツ共有、記憶、または配布のための種々のタイプのコンピューティングサービス(例えば、ビデオ共有サイトまたはソーシャルネットワーキングサイト)が、「クラウド」と称される、ネットワークアクセス可能コンピューティングおよび記憶リソースの集合によって提供される。例えば、クラウドは、通信ネットワーク714を介したインターネット等のネットワークを介して接続される、種々のタイプのユーザおよびデバイスにクラウドベースのサービスを提供する、中央にまたは分散場所に位置し得る、サーバコンピューティングデバイスの集合を含むことができる。これらのクラウドリソースは、1つ以上のコンテンツソース716および1つ以上のメディアガイドデータソース718を含んでもよい。加えて、または代替として、遠隔コンピューティングサイトは、ユーザテレビ機器702、ユーザコンピュータ機器704、および無線ユーザ通信デバイス706等の他のユーザ機器デバイスを含んでもよい。例えば、他のユーザ機器デバイスは、ビデオの記憶されたコピーまたはストリーミングされたビデオへのアクセスを提供してもよい。そのような実施形態では、ユーザ機器デバイスは、中央サーバと通信することなく、ピアツーピア様式で動作してもよい。
クラウドは、ユーザ機器デバイスのために、他の実施例の中でもとりわけ、コンテンツ記憶、コンテンツ共有、またはソーシャルネットワーキングサービス等のサービスへのアクセス、および上記で説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウドコンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内で提供されることができる。例えば、クラウドベースのサービスは、コンテンツ記憶サービス、コンテンツ共有サイト、ソーシャルネットワーキングサイト、または他のサービスを含むことができ、それを介して、ユーザ供給コンテンツは、接続されたデバイス上で他者によって視聴するために配布される。これらのクラウドベースのサービスは、ユーザ機器デバイスが、コンテンツをローカルで記憶し、ローカルで記憶されたコンテンツにアクセスするのではなく、コンテンツをクラウドに記憶し、コンテンツをクラウドから受信することを可能にしてもよい。
ユーザは、カムコーダ、ビデオモード付きデジタルカメラ、オーディオレコーダ、携帯電話、およびハンドヘルドコンピューティングデバイス等の種々のコンテンツ捕捉デバイスを使用して、コンテンツを録画してもよい。ユーザは、直接、例えば、ユーザコンピュータ機器704から、またはコンテンツ捕捉特徴を有する無線ユーザ通信デバイス706からのいずれかにおいて、クラウド上のコンテンツ記憶サービスにコンテンツをアップロードすることができる。代替として、ユーザは、最初に、コンテンツをユーザコンピュータ機器704等のユーザ機器デバイスに転送することができる。コンテンツを記憶するユーザ機器デバイスは、通信ネットワーク714上のデータ伝送サービスを使用して、コンテンツをクラウドにアップロードする。いくつかの実施形態では、ユーザ機器デバイス自体が、クラウドリソースであり、他のユーザ機器デバイスは、直接、ユーザがコンテンツを記憶したユーザ機器デバイスから、コンテンツにアクセスすることができる。
クラウドリソースは、例えば、ウェブブラウザ、メディアガイドアプリケーション、デスクトップアプリケーション、モバイルアプリケーション、および/またはそれらのアクセスアプリケーションの任意の組み合わせを使用して、ユーザ機器デバイスによってアクセスされてもよい。ユーザ機器デバイスは、アプリケーション配信のためにクラウドコンピューティングに依拠する、クラウドクライアントであってもよい、またはユーザ機器デバイスは、クラウドリソースにアクセスすることなく、ある機能性を有してもよい。例えば、ユーザ機器デバイス上で起動するいくつかのアプリケーションは、クラウドアプリケーション、すなわち、インターネットを経由してサービスとして配信されるアプリケーションであってもよい一方で、他のアプリケーションは、ユーザ機器デバイス上に記憶され、起動されてもよい。いくつかの実施形態では、ユーザデバイスは、コンテンツを複数のクラウドリソースから同時に受信してもよい。例えば、ユーザデバイスは、オーディオを1つのクラウドリソースからストリーミングする一方で、コンテンツを第2のクラウドリソースからダウンロードすることができる。または、ユーザデバイスは、より効率的なダウンロードのために、コンテンツを複数のクラウドリソースからダウンロードすることができる。いくつかの実施形態では、ユーザ機器デバイスは、図6に関連して説明される処理回路によって実施される処理動作等の処理動作のために、クラウドリソースを使用することができる。
本明細書で参照されるように、用語「〜に応答して」は、「〜の結果として開始される」ことを指す。例えば、第2のアクションに応答して実施されている第1のアクションは、第1のアクションと第2のアクションとの間に介在ステップを含んでもよい。本明細書で参照されるように、用語「〜に直接応答して」は、「〜によって引き起こされる」ことを指す。例えば、第2のアクションに直接応答して実施されている第1のアクションは、第1のアクションと第2のアクションとの間に介在ステップを含まなくてもよい。
図8は、本開示のいくつかの実施形態による、ユーザ音声コマンドの音量レベルに基づく音量レベルにおいて、音声動作型ユーザデバイスを通して可聴応答を生成するための例証的ステップのフローチャートである。例えば、メディアガイドアプリケーションは、プロセス800の要素を実行するように制御回路604に命令してもよい。
プロセス800は、メディアガイドアプリケーションがユーザによって話される音声コマンドを(例えば、制御回路604を介して)検出する、802から開始する。メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、音声コマンドを検出してもよい。例えば、メディアガイドアプリケーションは、図1に関する音声動作型ユーザデバイス102を通してユーザ110からの音声コマンド106を検出するステップに関して上記に説明されるものと同様に、音声動作型ユーザデバイスAを通して、ユーザが現在鑑賞している映画を参照して、「最後の台詞を繰り返して」と発するユーザからの音声コマンドを検出してもよい。
プロセス800は、メディアガイドアプリケーションが音声コマンドの第1の音量レベルを(例えば、制御回路604を介して)決定する、804に続く。本音声コマンドは、例えば、音声動作型ユーザデバイスによって受信される。例えば、第1の音量レベルは、図1に関する音声動作型ユーザデバイス102における音声コマンド106の音量レベルを検出するステップに関して上記に説明されるものと同様に、音声動作型ユーザデバイスにおいて検出される音声コマンドの入力音量の平均であってもよい。
プロセス800は、メディアガイドアプリケーションが複数の音量レベルを(例えば、制御回路604を介して)受信する、808に続く。例えば、いくつかの音声動作型ユーザデバイスは、ユーザからの音声コマンドを検出してもよい。これらのデバイスはそれぞれ、例えば、ユーザへの近接性に応じて、異なる音量レベルにおいて音声コマンドを受信し得る。したがって、複数の音声動作型ユーザデバイスのうちの各音声動作型ユーザデバイスは、音声コマンドの複数の音量レベルのうちの音量レベルと関連付けられるであろう。メディアガイドアプリケーションは、複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける、少なくとも1つのデータ構造を受信してもよい。例えば、メディアガイドアプリケーションは、複数の音声動作型ユーザデバイスのうちの各音声動作型ユーザデバイスから、音量レベルおよび個別の音声動作型ユーザデバイスの音声動作型ユーザデバイス識別子を含有する、データ構造を(例えば、制御回路604を介して)受信してもよい。例えば、メディアガイドアプリケーションは、第2の音声動作型ユーザデバイスから、52dbの音量レベルおよびデバイス識別子デバイスBを含有する、データ構造を(例えば、制御回路604を介して)受信してもよい。例えば、メディアガイドアプリケーションは、第3の音声動作型ユーザデバイスから、50dbの音量レベルおよびデバイス識別子デバイスCを含有する、データ構造を(例えば、制御回路604を介して)受信してもよい。
プロセス800は、メディアガイドアプリケーションが複数の音量レベルのうちの最大音量レベルを(例えば、制御回路604を介して)決定する、810に続く。いくつかの実施形態では、メディアガイドアプリケーションは、第1の音量レベルを複数の音量レベルと比較してもよい。例えば、メディアガイドアプリケーションは、デバイスAと関連付けられる48dBを、デバイスBと関連付けられる52dBと、デバイスCと関連付けられる50dBと比較してもよい。いくつかの実施形態では、メディアガイドアプリケーションは、第1の音量レベルを複数の音量レベルと比較するステップに基づいて、複数の音量レベルのうちの最大音量レベルを(例えば、制御回路604を介して)決定してもよい。例えば、複数の音声動作型ユーザデバイスのうちのいずれかによって受信される最大音量レベルは、52dBであってもよい。複数の音量レベルのうちの最大音量レベルは、複数の音声動作型ユーザデバイスによって受信される音量レベルのうちの最大である。
プロセス800は、メディアガイドアプリケーションが最大音量レベルと関連付けられる第2の音声動作型デバイスを(例えば、制御回路604を介して)決定する、812に続く。いくつかの実施形態では、メディアガイドアプリケーションは、最大音量レベルと関連付けられる第2の音声動作型ユーザデバイスに関して、少なくとも1つのデータ構造を(例えば、制御回路604を介して)検索してもよい。最大音量と関連付けられるユーザデバイスは、デバイスがユーザに近いほど、そのユーザからの音声コマンドがデバイスに大きく聞こえるであろうため、音声コマンドを発行したユーザに最近傍のデバイスであろう。例えば、最大音量レベルが52dBである場合、メディアガイドアプリケーションは、データ構造を検索し、52dB音量レベルと関連付けられる音声動作型ユーザデバイスを見出してもよい。データ構造では、52dB音量レベルは、第2の音声動作型ユーザデバイスを表す、デバイス識別子デバイスBと関連付けられてもよい。デバイスBは、本実施例では、ユーザに最近傍の音声動作型ユーザデバイスである。
プロセス800は、メディアガイドアプリケーションがコマンドを第2の音声動作型ユーザデバイスに(例えば、通信ネットワーク714を介して)伝送し、コマンドが、応答音量レベルを第2の音量レベルに更新するように第2の音声動作型ユーザデバイスに命令し、第2の音量レベルが、最大音量レベルに基づく、814に続く。いくつかの実施形態では、メディアガイドアプリケーションは、コマンドを第2の音声動作型ユーザデバイスに伝送してもよい。コマンドは、応答レベルを、最大音量レベルに基づく第2の音量レベルに更新するように、第2の音声動作型ユーザデバイスに(例えば、通信ネットワーク714を介して)命令してもよい。例えば、メディアガイドアプリケーションは、応答レベルを音量レベル52dBに変更するように、デバイスBとして識別される第2の音声動作型ユーザデバイスに命令してもよい。例えば、メディアガイドアプリケーションは、代わりに、応答レベルを、最大音量レベルよりもわずかに大きい53dBに変更するように、デバイスBとして識別される第2の音声動作型ユーザデバイスに(例えば、通信ネットワーク714を介して)命令してもよい。メディアガイドアプリケーションは、最大音量レベルをわずかに増加させ、このようにして第2の音量を決定し、周囲雑音を考慮してもよい。
プロセス800は、メディアガイドアプリケーションが、第2の音声動作型ユーザデバイスを通して、第2の音量レベルにおいて可聴応答を(例えば、制御回路604を介して)生成する、816に続く。いくつかの実施形態では、メディアガイドアプリケーションは、音声コマンドへの可聴応答を生成してもよい。可聴応答は、第2の音声動作型ユーザデバイスを通して、第2の音量レベルにおいて生成されてもよい。例えば、デバイスBとして識別される第2の音声動作型ユーザデバイスは、音量レベル53dBにおいて、ユーザが現在鑑賞している映画の最後の台詞(例えば、「May the Force be with you」)を繰り返してもよい。いくつかの実施形態では、第1および第2の音声動作型ユーザデバイスは、同一のデバイスであってもよく、第1の音量レベルおよび第2の音量は、同一の音量レベルであってもよい。
図9は、本開示のいくつかの実施形態による、可聴応答がユーザによって確認されなかった場合に、音声コマンドへの第2の可聴応答を生成するための例証的ステップのフローチャートである。
プロセス900は、メディアガイドアプリケーションが、可聴応答が生成されたときに対応する第1の時間を(例えば、制御回路604を介して)決定する、902から開始する。例えば、可聴応答が生成されるとき、メディアガイドアプリケーションは、タイムスタンプをデータ構造に(例えば、記憶装置608の中に)(例えば、制御回路604を介して)保存してもよい。例えば、可聴応答は、午後3時12分3秒に生成されている場合がある。
プロセス900は、メディアガイドアプリケーションが(例えば、制御回路604を介して)時間周期を第1の時間に加算し、第2の時間を計算する、904に続く。例えば、時間周期は、20秒であってもよい。第1の時間が午後3時12分3秒である場合には、第2の時間は、午後3時12分23秒であってもよい。本時間周期は、ユーザの音声コマンドに再び応答する前に、メディアガイドアプリケーションが待機する長さを表す。
プロセス900は、メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されたかどうかを(例えば、制御回路604を介して)決定する、906に続く。確認応答は、可聴応答がユーザによって聞かれたことを示す。例えば、デバイスB等の第2の音声動作型ユーザデバイスからの可聴応答は、「May the Force be with you」であってもよい。ユーザは、「ありがとう、デバイスB」と発することによって、本応答を確認してもよい。
メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されたことを決定する場合、プロセス900は、プロセス900が終了する、908に続く。メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されなかったことを(例えば、制御回路604を介して)決定する場合、プロセス900は、メディアガイドアプリケーションが第2の可聴応答を生成し得る、910に続く。例えば、第2の可聴応答は、可聴応答と同一であり得、その場合、第2のユーザは、単純に、同一または異なる音量レベルにおいてユーザへの可聴応答を繰り返す。第2の可聴応答はまた、例えば、応答するようにユーザを促してもよい。例えば、デバイスBが午後3時12分23秒までに確認応答を受信していない場合、メディアガイドアプリケーションは、デバイスBを通して、「「May the Force be with you」が聞こえましたか?」を尋ねる第2の可聴応答を生成してもよい。
図10は、本開示のいくつかの実施形態による、可聴応答がユーザによって確認されなかった場合に、音声コマンドへの第2の可聴応答を生成するための例証的ステップのフローチャートである。
プロセス1000は、メディアガイドアプリケーションが、可聴応答が生成されたときに対応する第1の時間を(例えば、制御回路604を介して)決定する、1002から開始する。例えば、可聴応答が生成されるとき、メディアガイドアプリケーションは、タイムスタンプをデータ構造に(例えば、記憶装置608の中に)(例えば、制御回路604を介して)保存してもよい。例えば、可聴応答は、午後3時12分3秒に生成されている場合がある。
プロセス1000は、メディアガイドアプリケーションが、ユーザプロファイルを使用して、応答のための平均時間を(例えば、制御回路604を介して)決定する、1004に続く。ユーザプロファイルは、例えば、ユーザプロファイルデータベース(例えば、記憶装置608の中に記憶されたデータベース)からアクセスされてもよい。例えば、メディアガイドアプリケーションは、ユーザによって話されるキーワードを受信することによって、ユーザプロファイルを(例えば、制御回路604を介して)識別してもよく、キーワードは、具体的ユーザと関連付けられる。メディアガイドアプリケーションはまた、ユーザの発話パターンによって、ユーザプロファイルを(例えば、制御回路604を介して)識別してもよい。ユーザプロファイルは、例えば、ユーザが過去に音声動作型ユーザデバイスに応答するために要した時間量を含有する、第1のデータ構造を含有してもよい。メディアガイドアプリケーションは、(例えば、制御回路604を介して)これらの過去の応答時間の平均を計算し、ユーザのために応答のための平均時間を決定してもよい。例えば、ユーザは、過去に第2の音声動作型ユーザデバイスに応答するために、10秒、5秒、および15秒を要している場合がある。応答を待機するための時間周期は、10秒がユーザの過去の応答時間の平均であるため、本ユーザのために10秒に設定され得る。
プロセス1000は、メディアガイドアプリケーションが(例えば、制御回路604を介して)平均時間周期を第1の時間に加算し、第2の時間を計算する、1006に続く。例えば、平均時間周期が10秒であり、第1の時間が午後3時12分3秒である場合には、第2の時間は、3時12分13秒である。
プロセス1000は、メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されたかどうかを(例えば、制御回路604を介して)決定する、1008に続く。メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されたことを決定する場合、プロセス1000は、プロセス1000が終了する、1010に続く。メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されなかったことを決定する場合、プロセス1000は、メディアガイドアプリケーションが第2の音声動作型ユーザデバイスを通して第2の可聴応答を(例えば、制御回路604を介して)生成し得る、1012に続く。例えば、第2の可聴応答は、可聴応答と同一であり得、その場合、第2のユーザは、単純に、同一または異なる音量レベルにおいてユーザへの可聴応答を繰り返す。第2の可聴応答はまた、例えば、応答するようにユーザを促してもよい。例えば、デバイスBが午後3時12分23秒までにユーザから確認応答を受信していない場合、メディアガイドアプリケーションは、デバイスBを通して、「「May the Force be with you」が聞こえましたか?」を尋ねる第2の可聴応答を生成してもよい。
図11は、本開示のいくつかの実施形態による、音声コマンドへの応答の視覚表現をディスプレイデバイスに伝送するための例証的ステップのフローチャートである。
プロセス1100は、メディアガイドアプリケーションが、可聴応答が生成されたときに対応する第1の時間を(例えば、制御回路604を介して)決定する、1102から開始する。例えば、可聴応答が生成されるとき、メディアガイドアプリケーションは、タイムスタンプをデータ構造に(例えば、記憶装置608の中に)(例えば、制御回路604を介して)保存してもよい。例えば、可聴応答は、午後3時12分3秒に生成されている場合がある。
プロセス1100は、メディアガイドアプリケーションが(例えば、制御回路604を介して)時間周期を第1の時間に加算し、第2の時間を計算する、1104に続く。例えば、時間周期は、20秒であってもよい。第1の時間が午後3時12分3秒である場合には、第2の時間は、午後3時12分23秒であってもよい。本時間周期は、ユーザの音声コマンドに再び応答する前に、メディアガイドアプリケーションが待機する長さを表す。
プロセス1100は、メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されたかどうかを(例えば、制御回路604を介して)決定する、1106に続く。確認応答は、可聴応答がユーザによって聞かれたことを示す。例えば、デバイスB等の第2の音声動作型ユーザデバイスからの可聴応答は、「May the Force be with you」であってもよい。ユーザは、「ありがとう、デバイスB」と発することによって、本応答を確認してもよい。
メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されたことを決定する場合、プロセス1100は、プロセス1100が終了する、1108に続く。メディアガイドアプリケーションが、確認応答が第2の時間の前に受信されなかったことを決定する場合、プロセス1100は、メディアガイドアプリケーションがユーザと関連付けられるディスプレイデバイスを(例えば、制御回路604を介して)識別し得る、1110に続く。例えば、メディアガイドアプリケーションは、ユーザプロファイルを通してユーザと関連付けられるテレビと(例えば、通信ネットワーク714を介して)インターフェースをとってもよい。プロセス1100は、メディアガイドアプリケーションが、応答の視覚表現をディスプレイデバイスに(例えば、通信ネットワーク714を介して)伝送する、1112に続く。例えば、メディアガイドアプリケーションは、テレビ上にウィンドウを生成してもよく、ウィンドウ内に応答を表示してもよい。例えば、メディアガイドアプリケーションは、受信されるユーザからの要求が番組の名称についてのクエリであるときに、番組のタイトル「Game of Thrones」を表示してもよい。さらに、可聴応答が生成された後、ディスプレイウィンドウは、可聴応答を与えたデバイスへの参照を含んでもよい。例えば、メディアガイドアプリケーションは、「デバイスBが「Game of Thrones」と発しました」を表示してもよい。これは、ユーザが通信しているデバイス、したがって、ユーザの近傍にあるデバイスをユーザに知らせる。
図12は、本開示のいくつかの実施形態による、第3の音量レベルにおいて第2の可聴応答を生成するための例証的ステップのフローチャートである。
プロセス1200は、メディアガイドアプリケーションがユーザと関連付けられるユーザプロファイルを(例えば、制御回路604を介して)識別する、1202から開始する。例えば、メディアガイドアプリケーションは、ユーザによって話されるキーワードを受信することによって、ユーザプロファイルを(例えば、制御回路604を介して)識別してもよい。ユーザAは、例えば、音声コマンドを発行する前に、「ユーザA」と発してもよい。メディアガイドアプリケーションはまた、例えば、ユーザの発話または発声パターンによって、ユーザプロファイルを(例えば、制御回路604を介して)識別してもよい。
プロセス1200は、メディアガイドアプリケーションが、ユーザプロファイルを使用して、ユーザと関連付けられる平均発話音量レベルを(例えば、制御回路604を介して)識別する、1204に続く。例えば、ユーザプロファイルは、ユーザが過去に使用した発話音量を含有する、第1のデータ構造を含有してもよい。メディアガイドアプリケーションは、(例えば、制御回路604を介して)これらの過去の発話音量の平均を計算し、ユーザのための平均発話音量を決定してもよい。例えば、ユーザの平均発話音量は、60dBであってもよい。
プロセス1200は、メディアガイドアプリケーションが、平均発話音量レベルと最大音量レベル(すなわち、ユーザの最近傍の音声動作型ユーザデバイスによって受信される音量レベル)との間の差を(例えば、制御回路604を介して)決定する、1206に続く。例えば、最大音量レベルは、52dBであってもよく、ユーザの平均発話音量は、60dBであってもよい。差は、この場合、8dBである。
プロセス1200は、メディアガイドアプリケーションが、第2の音量レベルに加算される差に基づいて、第3の音量レベルを(例えば、制御回路604を介して)決定する、1206に続く。例えば、第2の音量レベルは、53dBであってもよく、差は、8dBであってもよい。第3の音量は、次いで、61dBであってもよい。
プロセス1200は、メディアガイドアプリケーションが第3の音量レベルにおいて第2の可聴応答を(例えば、制御回路604を介して)生成する、1208に続く。例えば、第3の音量レベルは、61dBであってもよく、メディアガイドアプリケーションは、第2の音声動作型ユーザデバイスを通して、61dBにおいて第2の可聴応答を(例えば、制御回路604を介して)生成してもよい。
図13は、本開示のいくつかの実施形態による、音声コマンドをフィルタ処理するための例証的ステップのフローチャートである。
プロセス1300は、メディアガイドアプリケーションが音声コマンドのフィルタ処理されていない音量レベルを(例えば、制御回路604を介して)測定する、1302から開始する。例えば、音声コマンドのフィルタ処理されていない音量レベルは、60dBであってもよい。しかしながら、本フィルタ処理されていない音量レベルは、ユーザの近傍で映画を可聴的に放映するテレビ等の背景雑音のレベルを含み得る。
プロセス1300は、メディアガイドアプリケーションが背景雑音のレベルを(例えば、制御回路604を介して)決定する、1304に続く。例えば、テレビで放映される映画は、ユーザの音声よりも高い周波数にあり得る。
プロセス1300は、メディアガイドアプリケーションが、(例えば、制御回路604を介して)音声コマンドをフィルタ処理し、背景雑音のレベルを除去する、1306に続く。例えば、メディアガイドアプリケーションは、(例えば、制御回路604を介して)音声コマンドの高周波数成分を取り除き、背景雑音を除去してもよい。
プロセス1300は、メディアガイドアプリケーションが音声コマンドのフィルタ処理された音量レベルを(例えば、制御回路604を介して)計算する、1306に続く。例えば、音声コマンドのフィルタ処理された音量レベルは、フィルタ処理されていない音量レベル60dBと比較して、48dBであってもよい。

Claims (51)

  1. 方法であって、
    複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出することと、
    前記音声コマンドの第1の音量レベルを決定することと、
    前記音声コマンドの音量レベルに基づいて、前記複数の音声動作型ユーザデバイスのうちの第2の音声動作型ユーザデバイスが、他の音声動作型ユーザデバイスのうちのいずれよりも前記ユーザに近いことを決定することと、
    前記第2の音声動作型ユーザデバイスを通して、前記音声コマンドの第1の音量レベルに基づいて設定される第2の音量レベルにおいて、可聴応答を生成することと
    を含む、方法。
  2. 音声コマンドの音量レベルに基づく音量レベルにおいて前記音声コマンドに応答するための方法であって、前記方法は、
    複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出することと、
    前記音声コマンドの第1の音量レベルを決定することであって、前記音声コマンドは、前記第1の音声動作型ユーザデバイスによって受信される、ことと、
    複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける少なくとも1つのデータ構造を受信することと、
    前記第1の音量レベルを前記複数の音量レベルと比較することと、
    前記第1の音量レベルを前記複数の音量レベルと比較することに基づいて、前記複数の音量レベルのうちの最大音量レベルを決定することと、
    前記最大音量レベルを前記少なくとも1つのデータ構造と比較し、前記最大音量レベルと関連付けられる第2の音声動作型ユーザデバイスを決定することと、
    コマンドを前記第2の音声動作型ユーザデバイスに伝送することであって、前記コマンドは、応答音量レベルを第2の音量レベルに更新するように前記第2の音声動作型ユーザデバイスに命令し、前記第2の音量レベルは、前記最大音量レベルに基づく、ことと、
    前記第2の音声動作型ユーザデバイスを通して、前記第2の音量レベルにおいて可聴応答を生成することと
    を含む、方法。
  3. 前記可聴応答が生成されたときに対応する第1の時間を決定することと、
    第2の時間を計算することあって、前記第2の時間は、時間周期に加算される前記第1の時間である、ことと、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記第2の音声動作型ユーザデバイスを通して、第2の可聴応答を生成することあって、前記第3の時間は、前記第2の時間の前である、ことと
    をさらに含む、請求項2に記載の方法。
  4. 前記時間周期を決定することをさらに含み、前記時間周期を決定することは、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、応答のための平均時間を決定することと
    を含む、請求項3に記載の方法。
  5. 第2の可聴応答を生成することは、
    第3の音量レベルを決定することであって、前記第3の音量レベルは、前記第2の音量レベルを上回る、こと
    を含み、
    前記第2の可聴応答は、前記第3の音量レベルにおいて生成される、請求項3に記載の方法。
  6. 前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる平均発話音量レベルを識別することと、
    前記平均発話音量レベルと前記最大音量レベルとの間の差を決定することと
    をさらに含み、
    第3の音量レベルを決定することは、前記第2の音量レベルに加算される前記差に基づく、請求項3に記載の方法。
  7. 前記ユーザから確認応答を受信することであって、前記確認応答は、前記可聴応答が前記ユーザによって聞かれたことを示す、ことと、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記確認応答を受信することに応答して、前記ユーザプロファイルの中に前記第2の音量レベルを記憶することと
    をさらに含む、請求項2に記載の方法。
  8. 前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる複数のユーザ音量レベルを識別することと、
    前記複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定することと
    をさらに含み、
    前記第2の音量レベルはさらに、前記最低ユーザ音量レベルに基づく、請求項2に記載の方法。
  9. 前記可聴応答が生成されたときに対応する第1の時間を決定することと、
    第2の時間を計算することであって、前記第2の時間は、時間周期に加算される前記第1の時間である、ことと、
    前記ユーザと関連付けられるディスプレイデバイスを識別することと、
    前記可聴応答の視覚表現を表示するために生成することと、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記視覚表現を前記ディスプレイデバイスに伝送することであって、前記第3の時間は、前記第2の時間の前である、ことと
    をさらに含む、請求項2に記載の方法。
  10. 前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザに聴力障害があることを決定することと、
    前記ユーザと関連付けられるディスプレイデバイスを識別することと、
    前記可聴応答の視覚表現を表示するために生成することと、
    前記視覚表現を前記ディスプレイデバイスに伝送することと
    をさらに含む、請求項2に記載の方法。
  11. 前記第1の音量レベルを決定することは、
    前記音声コマンドのフィルタ処理されていない音量レベルを測定することと、
    背景雑音のレベルを決定することと、
    前記音声コマンドをフィルタ処理し、前記背景雑音のレベルを除去することと、
    前記音声コマンドのフィルタ処理された音量レベルを計算することと
    を含む、請求項2に記載の方法。
  12. 音声コマンドの音量レベルに基づく音量レベルにおいて前記音声コマンドに応答するためのシステムであって、前記システムは、
    制御回路であって、
    複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出することと、
    前記音声コマンドの第1の音量レベルを決定することであって、前記音声コマンドは、前記第1の音声動作型ユーザデバイスによって受信される、ことと、
    複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける少なくとも1つのデータ構造を受信することと、
    前記第1の音量レベルを前記複数の音量レベルと比較することと、
    前記第1の音量レベルを前記複数の音量レベルと比較することに基づいて、前記複数の音量レベルのうちの最大音量レベルを決定することと、
    前記最大音量レベルを前記少なくとも1つのデータ構造と比較して、前記最大音量レベルと関連付けられる第2の音声動作型ユーザデバイスを決定することと、
    コマンドを前記第2の音声動作型ユーザデバイスに伝送することであって、前記コマンドは、応答音量レベルを第2の音量レベルに更新するように前記第2の音声動作型ユーザデバイスに命令し、前記第2の音量レベルは、前記最大音量レベルに基づく、ことと、
    前記第2の音声動作型ユーザデバイスを通して、前記第2の音量レベルにおいて可聴応答を生成することと
    を行うように構成される、制御回路
    を備える、システム。
  13. 前記制御回路はさらに、
    前記可聴応答が生成されたときに対応する第1の時間を決定することと、
    第2の時間を計算することであって、前記第2の時間は、時間周期に加算される前記第1の時間である、ことと、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記第2の音声動作型ユーザデバイスを通して、第2の可聴応答を生成することであって、前記第3の時間は、前記第2の時間の前である、ことと
    を行うように構成される、請求項12に記載のシステム。
  14. 前記制御回路はさらに、
    前記時間周期を決定するように構成され、前記時間周期を決定することは、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、応答のための平均時間を決定することと
    を含む、請求項13に記載のシステム。
  15. 前記制御回路は、
    第3の音量レベルを決定することによって、前記第2の可聴応答を生成するように構成され、前記第3の音量レベルは、前記第2の音量レベルを上回り、
    前記第2の可聴応答は、前記第3の音量レベルにおいて生成される、請求項13に記載のシステム。
  16. 前記制御回路はさらに、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる平均発話音量レベルを識別することと、
    前記平均発話音量レベルと前記最大音量レベルとの間の差を決定することと
    を行うように構成され、
    第3の音量レベルを決定することは、前記第2の音量レベルに加算される前記差に基づく、請求項13に記載のシステム。
  17. 前記制御回路はさらに、
    前記ユーザから確認応答を受信することであって、前記確認応答は、前記可聴応答が前記ユーザによって聞かれたことを示す、ことと、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記確認応答を受信することに応答して、前記ユーザプロファイルの中に前記第2の音量レベルを記憶することと
    を行うように構成される、請求項12に記載のシステム。
  18. 前記制御回路はさらに、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる複数のユーザ音量レベルを識別することと、
    前記複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定することと
    を行うように構成され、
    前記第2の音量レベルはさらに、前記最低ユーザ音量レベルに基づく、請求項12に記載のシステム。
  19. 前記制御回路はさらに、
    前記可聴応答が生成されたときに対応する第1の時間を決定することと、
    第2の時間を計算することであって、前記第2の時間は、時間周期に加算される前記第1の時間である、ことと、
    前記ユーザと関連付けられるディスプレイデバイスを識別することと、
    前記可聴応答の視覚表現を表示するために生成することと、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記視覚表現を前記ディスプレイデバイスに伝送することであって、前記第3の時間は、前記第2の時間の前である、ことと
    を行うように構成される、請求項12に記載のシステム。
  20. 前記制御回路はさらに、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザに聴力障害があることを決定することと、
    前記ユーザと関連付けられるディスプレイデバイスを識別することと、
    前記可聴応答の視覚表現を表示するために生成することと、
    前記視覚表現を前記ディスプレイデバイスに伝送することと
    を行うように構成される、請求項12に記載のシステム。
  21. 前記制御回路は、
    前記音声コマンドのフィルタ処理されていない音量レベルを測定することと、
    背景雑音のレベルを決定することと、
    前記音声コマンドをフィルタ処理し、前記背景雑音のレベルを除去することと、
    前記音声コマンドのフィルタ処理された音量レベルを計算することと
    によって、前記第1の音量レベルを決定するように構成される、請求項12に記載のシステム。
  22. 音声コマンドの音量レベルに基づく音量レベルにおいて前記音声コマンドに応答するためのシステムであって、前記システムは、
    複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出するための手段と、
    前記音声コマンドの第1の音量レベルを決定するための手段であって、前記音声コマンドは、前記第1の音声動作型ユーザデバイスによって受信される、手段と、
    複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける少なくとも1つのデータ構造を受信するための手段と、
    前記第1の音量レベルを前記複数の音量レベルと比較するための手段と、
    前記第1の音量レベルを前記複数の音量レベルと比較することに基づいて、前記複数の音量レベルのうちの最大音量レベルを決定するための手段と、
    前記最大音量レベルを前記少なくとも1つのデータ構造と比較し、前記最大音量レベルと関連付けられる第2の音声動作型ユーザデバイスを決定するための手段と、
    コマンドを前記第2の音声動作型ユーザデバイスに伝送するための手段であって、前記コマンドは、応答音量レベルを第2の音量レベルに更新するように前記第2の音声動作型ユーザデバイスに命令し、前記第2の音量レベルは、前記最大音量レベルに基づく、手段と、
    前記第2の音声動作型ユーザデバイスを通して、前記第2の音量レベルにおいて可聴応答を生成するための手段と
    を備える、システム。
  23. 前記可聴応答が生成されたときに対応する第1の時間を決定するための手段と、
    第2の時間を計算するための手段であって、前記第2の時間は、時間周期に加算される前記第1の時間である、手段と、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記第2の音声動作型ユーザデバイスを通して、第2の可聴応答を生成するための手段であって、前記第3の時間は、前記第2の時間の前である、手段と
    をさらに備える、請求項22に記載のシステム。
  24. 前記時間周期を決定するための手段をさらに備え、前記時間周期を決定することは、
    前記ユーザと関連付けられるユーザプロファイルを識別するための手段と、
    前記ユーザプロファイルを使用して、応答のための平均時間を決定するための手段と
    を備える、請求項23に記載のシステム。
  25. 第2の可聴応答を生成するための前記手段は、
    第3の音量レベルを決定するための手段であって、前記第3の音量レベルは、前記第2の音量レベルを上回る、手段
    を備え、
    前記第2の可聴応答は、前記第3の音量レベルにおいて生成される、請求項23に記載のシステム。
  26. 前記ユーザと関連付けられるユーザプロファイルを識別するための手段と、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる平均発話音量レベルを識別するための手段と、
    前記平均発話音量レベルと前記最大音量レベルとの間の差を決定するための手段と
    をさらに備え、
    第3の音量レベルを決定することは、前記第2の音量レベルに加算される前記差に基づく、請求項23に記載のシステム。
  27. 前記ユーザから確認応答を受信するための手段であって、前記確認応答は、前記可聴応答が前記ユーザによって聞かれたことを示す、手段と、
    前記ユーザと関連付けられるユーザプロファイルを識別するための手段と、
    前記確認応答を受信することに応答して、前記ユーザプロファイルの中に前記第2の音量レベルを記憶するための手段と
    をさらに備える、請求項22に記載のシステム。
  28. 前記ユーザと関連付けられるユーザプロファイルを識別するための手段と、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる複数のユーザ音量レベルを識別するための手段と、
    前記複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定するための手段と
    をさらに備え、
    前記第2の音量レベルはさらに、前記最低ユーザ音量レベルに基づく、請求項22に記載のシステム。
  29. 前記可聴応答が生成されたときに対応する第1の時間を決定するための手段と、
    第2の時間を計算するための手段であって、前記第2の時間は、時間周期に加算される前記第1の時間である、手段と、
    前記ユーザと関連付けられるディスプレイデバイスを識別するための手段と、
    前記可聴応答の視覚表現を表示するために生成するための手段と、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記視覚表現を前記ディスプレイデバイスに伝送するための手段であって、前記第3の時間は、前記第2の時間の前である、手段と
    をさらに備える、請求項22に記載のシステム。
  30. 前記ユーザと関連付けられるユーザプロファイルを識別するための手段と、
    前記ユーザプロファイルを使用して、前記ユーザに聴力障害があることを決定するための手段と、
    前記ユーザと関連付けられるディスプレイデバイスを識別するための手段と、
    前記可聴応答の視覚表現を表示するために生成するための手段と、
    前記視覚表現を前記ディスプレイデバイスに伝送するための手段と
    をさらに備える、請求項22に記載のシステム。
  31. 前記第1の音量レベルを決定することは、
    前記音声コマンドのフィルタ処理されていない音量レベルを測定するための手段と、
    背景雑音のレベルを決定するための手段と、
    前記音声コマンドをフィルタ処理し、前記背景雑音のレベルを除去するための手段と、
    前記音声コマンドのフィルタ処理された音量レベルを計算するための手段と
    を備える、請求項22に記載のシステム。
  32. 非一過性の機械可読命令を備える非一過性の機械可読媒体であって、前記命令は、音声コマンドの音量レベルに基づく音量レベルにおいて前記音声コマンドに応答するために前記非一過性の機械可読媒体の上にエンコードされており、前記命令は、
    複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出するための命令と、
    前記音声コマンドの第1の音量レベルを決定するための命令であって、前記音声コマンドは、前記第1の音声動作型ユーザデバイスによって受信される、命令と、
    複数の音量レベルのうちの各音量レベルを複数の音声動作型ユーザデバイスのうちの個別の音声動作型ユーザデバイスと関連付ける少なくとも1つのデータ構造を受信するための命令と、
    前記第1の音量レベルを前記複数の音量レベルと比較するための命令と、
    前記第1の音量レベルを前記複数の音量レベルと比較することに基づいて、前記複数の音量レベルのうちの最大音量レベルを決定するための命令と、
    前記最大音量レベルを前記少なくとも1つのデータ構造と比較し、前記最大音量レベルと関連付けられる第2の音声動作型ユーザデバイスを決定するための命令と、
    コマンドを前記第2の音声動作型ユーザデバイスに伝送するための命令であって、前記コマンドは、応答音量レベルを第2の音量レベルに更新するように前記第2の音声動作型ユーザデバイスに命令し、前記第2の音量レベルは、前記最大音量レベルに基づく、命令と、
    前記第2の音声動作型ユーザデバイスを通して、前記第2の音量レベルにおいて可聴応答を生成するための命令と
    を備える、非一過性の機械可読媒体。
  33. 前記命令はさらに、
    前記可聴応答が生成されたときに対応する第1の時間を決定するための命令と、
    第2の時間を計算するための命令であって、前記第2の時間は、時間周期に加算される前記第1の時間である、命令と、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記第2の音声動作型ユーザデバイスを通して、第2の可聴応答を生成するための命令であって、前記第3の時間は、前記第2の時間の前である、命令と
    を備える、請求項32に記載の非一過性の機械可読媒体。
  34. 前記命令はさらに、
    前記時間周期を決定するための命令を備え、
    前記時間周期を決定することは、
    前記ユーザと関連付けられるユーザプロファイルを識別するための命令と、
    前記ユーザプロファイルを使用して、応答のための平均時間を決定するための命令と
    を備える、請求項33に記載の非一過性の機械可読媒体。
  35. 前記制御回路は、
    第3の音量レベルを決定することによって、前記第2の可聴応答を生成するように構成され、前記第3の音量レベルは、前記第2の音量レベルを上回り、
    前記第2の可聴応答は、前記第3の音量レベルにおいて生成される、請求項13に記載のシステム。
  36. 前記命令はさらに、
    前記ユーザと関連付けられるユーザプロファイルを識別するための命令と、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる平均発話音量レベルを識別するための命令と、
    前記平均発話音量レベルと前記最大音量レベルとの間の差を決定するための命令と
    をさらに備え、
    第3の音量レベルを決定することは、前記第2の音量レベルに加算される前記差に基づく、請求項33に記載の非一過性の機械可読媒体。
  37. 前記命令はさらに、
    前記ユーザから確認応答を受信するための命令であって、前記確認応答は、前記可聴応答が前記ユーザによって聞かれたことを示す、命令と、
    前記ユーザと関連付けられるユーザプロファイルを識別するための命令と、
    前記確認応答を受信することに応答して、前記ユーザプロファイルの中に前記第2の音量レベルを記憶するための命令と
    を備える、請求項32に記載の非一過性の機械可読媒体。
  38. 前記命令はさらに、
    前記ユーザと関連付けられるユーザプロファイルを識別するための命令と、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる複数のユーザ音量レベルを識別するための命令と、
    前記複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定するための命令と
    を備え、
    前記第2の音量レベルはさらに、前記最低ユーザ音量レベルに基づく、請求項32に記載の非一過性の機械可読媒体。
  39. 前記命令はさらに、
    前記可聴応答が生成されたときに対応する第1の時間を決定するための命令と、
    第2の時間を計算するための命令であって、前記第2の時間は、時間周期に加算される前記第1の時間である、命令と、
    前記ユーザと関連付けられるディスプレイデバイスを識別するための命令と、
    前記可聴応答の視覚表現を表示するために生成するための命令と、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記視覚表現を前記ディスプレイデバイスに伝送するための命令であって、前記第3の時間は、前記第2の時間の前である、命令と
    を備える、請求項32に記載の非一過性の機械可読媒体。
  40. 前記命令はさらに、
    前記ユーザと関連付けられるユーザプロファイルを識別するための命令と、
    前記ユーザプロファイルを使用して、前記ユーザに聴力障害があることを決定するための命令と、
    前記ユーザと関連付けられるディスプレイデバイスを識別するための命令と、
    前記可聴応答の視覚表現を表示するために生成するための命令と、
    前記視覚表現を前記ディスプレイデバイスに伝送するための命令と
    を備える、請求項32に記載の非一過性の機械可読媒体。
  41. 前記命令はさらに、
    前記音声コマンドのフィルタ処理されていない音量レベルを測定するための命令と、
    背景雑音のレベルを決定するための命令と、
    前記音声コマンドをフィルタ処理し、前記背景雑音のレベルを除去するための命令と、
    前記音声コマンドのフィルタ処理された音量レベルを計算するための命令と
    を備える、請求項32に記載の非一過性の機械可読媒体。
  42. 音声コマンドの音量レベルに基づく音量レベルにおいて前記音声コマンドに応答するための方法であって、前記方法は、
    複数の音声動作型ユーザデバイスのうちの第1の音声動作型ユーザデバイスを通して、ユーザによって話される音声コマンドを検出することと、
    前記音声コマンドの第1の音量レベルを決定することと、
    前記音声コマンドの音量レベルに基づいて、前記複数の音声動作型ユーザデバイスのうちの第2の音声動作型ユーザデバイスが他の音声動作型ユーザデバイスのうちのいずれよりも前記ユーザに近いことを決定することと、
    前記第2の音声動作型ユーザデバイスを通して、前記音声コマンドの第1の音量レベルに基づいて設定される第2の音量レベルにおいて、可聴応答を生成することと
    を含む、方法。
  43. 前記可聴応答が生成されたときに対応する第1の時間を決定することと、
    第2の時間を計算することであって、前記第2の時間は、時間周期に加算される前記第1の時間である、ことと、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記第2の音声動作型ユーザデバイスを通して、第2の可聴応答を生成することであって、前記第3の時間は、前記第2の時間の前である、ことと
    をさらに含む、請求項42に記載の方法。
  44. 前記時間周期を決定することをさらに含み、前記時間周期を決定することは、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、応答のための平均時間を決定することと
    を含む、請求項43に記載の方法。
  45. 第2の可聴応答を生成することは、
    第3の音量レベルを決定することであって、前記第3の音量レベルは、前記第2の音量レベルを上回る、こと
    を含み、
    前記第2の可聴応答は、前記第3の音量レベルにおいて生成される、請求項43に記載の方法。
  46. 前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる平均発話音量レベルを識別することと、
    前記平均発話音量レベルと前記最大音量レベルとの間の差を決定することと
    をさらに含み、
    第3の音量レベルを決定することは、前記第2の音量レベルに加算される前記差に基づく、請求項42−45のいずれかに記載の方法。
  47. 前記ユーザから確認応答を受信することであって、前記確認応答は、前記可聴応答が前記ユーザによって聞かれたことを示す、ことと、
    前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記確認応答を受信することに応答して、前記ユーザプロファイルの中に前記第2の音量レベルを記憶することと
    をさらに含む、請求項42−46のいずれかに記載の方法。
  48. 前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザと関連付けられる複数のユーザ音量レベルを識別することと、
    前記複数のユーザ音量レベルのうちの最低ユーザ音量レベルを決定することと
    をさらに含み、
    前記第2の音量レベルはさらに、前記最低ユーザ音量レベルに基づく、請求項42−47のいずれかに記載の方法。
  49. 前記可聴応答が生成されたときに対応する第1の時間を決定することと、
    第2の時間を計算することであって、前記第2の時間は、時間周期に加算される前記第1の時間である、ことと、
    前記ユーザと関連付けられるディスプレイデバイスを識別することと、
    前記可聴応答の視覚表現を表示するために生成することと、
    確認応答が第3の時間に受信されたかどうかに基づいて、前記視覚表現を前記ディスプレイデバイスに伝送することであって、前記第3の時間は、前記第2の時間の前である、ことと
    をさらに含む、請求項42−48のいずれかに記載の方法。
  50. 前記ユーザと関連付けられるユーザプロファイルを識別することと、
    前記ユーザプロファイルを使用して、前記ユーザに聴力障害があることを決定することと、
    前記ユーザと関連付けられるディスプレイデバイスを識別することと、
    前記可聴応答の視覚表現を表示するために生成することと、
    前記視覚表現を前記ディスプレイデバイスに伝送することと
    をさらに含む、請求項42−49のいずれかに記載の方法。
  51. 前記第1の音量レベルを決定することは、
    前記音声コマンドのフィルタ処理されていない音量レベルを測定することと、
    背景雑音のレベルを決定することと、
    前記音声コマンドをフィルタ処理し、前記背景雑音のレベルを除去することと、
    前記音声コマンドのフィルタ処理された音量レベルを計算することと
    を含む、請求項42−50のいずれかに記載の方法。
JP2019566117A 2017-06-02 2018-05-23 複数の音声動作型ユーザデバイスのための音量ベースの応答を生成するためのシステムおよび方法 Active JP7239494B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/612,516 2017-06-02
US15/612,516 US10564928B2 (en) 2017-06-02 2017-06-02 Systems and methods for generating a volume- based response for multiple voice-operated user devices
PCT/US2018/034080 WO2018222456A1 (en) 2017-06-02 2018-05-23 Systems and methods for generating a volume-based response for multiple voice-operated user devices

Publications (3)

Publication Number Publication Date
JP2020522019A true JP2020522019A (ja) 2020-07-27
JP2020522019A5 JP2020522019A5 (ja) 2021-07-26
JP7239494B2 JP7239494B2 (ja) 2023-03-14

Family

ID=62599705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566117A Active JP7239494B2 (ja) 2017-06-02 2018-05-23 複数の音声動作型ユーザデバイスのための音量ベースの応答を生成するためのシステムおよび方法

Country Status (7)

Country Link
US (3) US10564928B2 (ja)
EP (1) EP3631796B1 (ja)
JP (1) JP7239494B2 (ja)
KR (1) KR20200015582A (ja)
CN (1) CN110914900B (ja)
CA (1) CA3065888A1 (ja)
WO (1) WO2018222456A1 (ja)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947333B1 (en) * 2012-02-10 2018-04-17 Amazon Technologies, Inc. Voice interaction architecture with intelligent background noise cancellation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
JP7106913B2 (ja) * 2018-03-22 2022-07-27 ヤマハ株式会社 音響機器、音響制御システム、音響制御方法、及びプログラム
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11276396B2 (en) * 2018-05-01 2022-03-15 Dell Products, L.P. Handling responses from voice services
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11373645B1 (en) * 2018-06-18 2022-06-28 Amazon Technologies, Inc. Updating personalized data on a speech interface device
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10705789B2 (en) * 2018-07-25 2020-07-07 Sensory, Incorporated Dynamic volume adjustment for virtual assistants
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11924511B2 (en) * 2018-10-04 2024-03-05 Roku, Inc. Smart remote control for audio responsive media device
US10514888B1 (en) * 2018-10-05 2019-12-24 Oracle International Corporation User-adaptive volume selection
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
KR20200084727A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US10943598B2 (en) * 2019-03-18 2021-03-09 Rovi Guides, Inc. Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
KR20220076503A (ko) * 2019-10-05 2022-06-08 이어 피직스, 엘엘씨 적응적 청력 정상화 및 자동 튜닝 기능을 갖춘 보정 시스템
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN111028835B (zh) * 2019-11-18 2022-08-09 北京小米移动软件有限公司 资源置换方法、装置、系统、计算机可读存储介质
US11233490B2 (en) * 2019-11-21 2022-01-25 Motorola Mobility Llc Context based volume adaptation by voice assistant devices
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11996094B2 (en) 2020-07-15 2024-05-28 Google Llc Automated assistant with audio presentation interaction
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11474773B2 (en) * 2020-09-02 2022-10-18 Google Llc Automatic adjustment of muted response setting
US11477523B2 (en) 2020-10-30 2022-10-18 Dish Network L.L.C. Systems and methods for facilitating voice interaction with content receivers
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP2002351653A (ja) * 2001-05-29 2002-12-06 Canon Inc 音声処理装置、および、音声処理方法
JP2007025140A (ja) * 2005-07-14 2007-02-01 Yaskawa Electric Corp ロボット装置およびロボット装置の情報提示方法
JP2010152119A (ja) * 2008-12-25 2010-07-08 Toyota Central R&D Labs Inc 応答生成装置及びプログラム
US20140372109A1 (en) * 2013-06-13 2014-12-18 Motorola Mobility Llc Smart volume control of device audio output based on received audio input
WO2017053311A1 (en) * 2015-09-21 2017-03-30 Amazon Technologies, Inc. Device selection for providing a response

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6239794B1 (en) 1994-08-31 2001-05-29 E Guide, Inc. Method and system for simultaneously displaying a television program and information about the program
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
US6564378B1 (en) 1997-12-08 2003-05-13 United Video Properties, Inc. Program guide system with browsing display
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
ATE225998T1 (de) 1998-07-17 2002-10-15 United Video Properties Inc Interaktive fernsehprogrammführung mit mehreren geräten an einem ort
AR020608A1 (es) 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
DE19908137A1 (de) 1998-10-16 2000-06-15 Volkswagen Ag Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog
US7165098B1 (en) 1998-11-10 2007-01-16 United Video Properties, Inc. On-line schedule system with personalization features
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
EP2469850A3 (en) 2001-02-21 2013-07-10 United Video Properties, Inc. Systems and methods for interactive program guides with personal video recording features
US20060085183A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
TWI376925B (en) * 2007-08-28 2012-11-11 Micro Star Int Co Ltd Adjusting device and method of notification sound according to the environment
CN105338383B (zh) * 2009-06-30 2019-06-07 乐威指南公司 用于在无线通信装置上提供交互式媒体指南的系统和方法
US20110044474A1 (en) * 2009-08-19 2011-02-24 Avaya Inc. System and Method for Adjusting an Audio Signal Volume Level Based on Whom is Speaking
CN103270740B (zh) * 2010-12-27 2016-09-14 富士通株式会社 声音控制装置、声音控制方法以及移动终端装置
US8989406B2 (en) * 2011-03-11 2015-03-24 Sony Corporation User profile based audio adjustment techniques
US9418661B2 (en) * 2011-05-12 2016-08-16 Johnson Controls Technology Company Vehicle voice recognition systems and methods
EP2786376A1 (en) * 2012-11-20 2014-10-08 Unify GmbH & Co. KG Method, device, and system for audio data processing
US9472206B2 (en) * 2013-06-17 2016-10-18 Google Technology Holdings LLC Privacy mode for always-on voice-activated information assistant
US10186262B2 (en) * 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
US9830924B1 (en) * 2013-12-04 2017-11-28 Amazon Technologies, Inc. Matching output volume to a command volume
US9600074B2 (en) 2014-07-09 2017-03-21 Pearson Education, Inc. Operational feedback with 3D commands
US9392324B1 (en) * 2015-03-30 2016-07-12 Rovi Guides, Inc. Systems and methods for identifying and storing a portion of a media asset
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
EP3200187A1 (en) * 2016-01-28 2017-08-02 Flex Ltd. Human voice feedback system
US9820039B2 (en) * 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10095470B2 (en) * 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9807499B2 (en) * 2016-03-30 2017-10-31 Lenovo (Singapore) Pte. Ltd. Systems and methods to identify device with which to participate in communication of audio data
US9749583B1 (en) * 2016-03-31 2017-08-29 Amazon Technologies, Inc. Location based device grouping with voice control
KR102307976B1 (ko) * 2016-05-10 2021-09-30 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
US20170330565A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Handling Responses to Speech Processing
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106873937A (zh) * 2017-02-16 2017-06-20 北京百度网讯科技有限公司 语音输入方法和装置
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US10147439B1 (en) * 2017-03-30 2018-12-04 Amazon Technologies, Inc. Volume adjustment for listening environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2002182688A (ja) * 2000-12-18 2002-06-26 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP2002351653A (ja) * 2001-05-29 2002-12-06 Canon Inc 音声処理装置、および、音声処理方法
JP2007025140A (ja) * 2005-07-14 2007-02-01 Yaskawa Electric Corp ロボット装置およびロボット装置の情報提示方法
JP2010152119A (ja) * 2008-12-25 2010-07-08 Toyota Central R&D Labs Inc 応答生成装置及びプログラム
US20140372109A1 (en) * 2013-06-13 2014-12-18 Motorola Mobility Llc Smart volume control of device audio output based on received audio input
WO2017053311A1 (en) * 2015-09-21 2017-03-30 Amazon Technologies, Inc. Device selection for providing a response

Also Published As

Publication number Publication date
EP3631796A1 (en) 2020-04-08
JP7239494B2 (ja) 2023-03-14
US11481187B2 (en) 2022-10-25
US10564928B2 (en) 2020-02-18
CN110914900B (zh) 2024-04-02
WO2018222456A1 (en) 2018-12-06
KR20200015582A (ko) 2020-02-12
US20180349093A1 (en) 2018-12-06
US20230013021A1 (en) 2023-01-19
US20200225909A1 (en) 2020-07-16
EP3631796B1 (en) 2024-03-27
CA3065888A1 (en) 2018-12-06
CN110914900A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
JP7239494B2 (ja) 複数の音声動作型ユーザデバイスのための音量ベースの応答を生成するためのシステムおよび方法
US20230328124A1 (en) Systems and methods for establishing a voice link between users accessing media
US11798565B2 (en) Systems and methods for identifying users based on voice data and media consumption data
US11853338B2 (en) Systems and methods for correcting a voice query based on a subsequent voice query with a lower pronunciation rate
US10616649B2 (en) Providing recommendations based on passive microphone detections
US11960516B2 (en) Methods and systems for playing back indexed conversations based on the presence of other people
US10405062B2 (en) Systems and methods for generating a set of custom keywords based on a media asset
US20190034525A1 (en) Methods and systems for replying to queries based on indexed conversations and context
US20210105529A1 (en) Systems and methods for selecting network-connected devices to provide device functions for an event
EP3628082A1 (en) Methods and systems for playing back indexed conversations based on the presence of other people

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220415

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230302

R150 Certificate of patent or registration of utility model

Ref document number: 7239494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150