CN110914900B - 用于为若干语音操作的用户设备生成基于音量的响应的系统和方法 - Google Patents

用于为若干语音操作的用户设备生成基于音量的响应的系统和方法 Download PDF

Info

Publication number
CN110914900B
CN110914900B CN201880046827.2A CN201880046827A CN110914900B CN 110914900 B CN110914900 B CN 110914900B CN 201880046827 A CN201880046827 A CN 201880046827A CN 110914900 B CN110914900 B CN 110914900B
Authority
CN
China
Prior art keywords
user
volume level
voice
time
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880046827.2A
Other languages
English (en)
Other versions
CN110914900A (zh
Inventor
M·麦卡蒂
G·E·罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adeia Guides Inc
Original Assignee
Rovi Guides Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rovi Guides Inc filed Critical Rovi Guides Inc
Publication of CN110914900A publication Critical patent/CN110914900A/zh
Application granted granted Critical
Publication of CN110914900B publication Critical patent/CN110914900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/2847Home automation networks characterised by the type of home appliance used
    • H04L2012/2849Audio/video appliances

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文提供了用于以基于语音命令的音量级别的音量级别对语音命令做出响应的系统和方法。例如,媒体指南应用可以通过多个语音操作的用户设备中的第一语音操作的用户设备来检测用户说出的语音命令。媒体指南应用可以确定语音命令的第一音量级别。基于语音命令的音量级别,媒体指南应用可以确定所述多个语音操作的用户设备中的第二语音操作的用户设备比其它语音操作的用户设备中的任何一个都更靠近用户。媒体指南应用可以通过第二语音操作的用户设备以基于语音命令的第一音量级别设置的第二音量级别生成可听响应。

Description

用于为若干语音操作的用户设备生成基于音量的响应的系统 和方法
背景技术
家庭包含语音操作的用户设备已变得越来越普遍。语音操作的设备可以将其响应音量调整为用户的语音命令的音量。但是,随着一个家庭中若干语音操作的用户设备变得越来越普遍,当确定哪个设备应当对查询做出响应以及以什么音量做出响应时,在若干设备之间进行协调变得越来越困难。此外,在一些情况下,使响应音量与用户语音的音量匹配可能妨碍用户听到响应。每当用户想要对语音命令的响应时手动选择设备并设置响应音量对于用户而言会是麻烦的,并且最终使设备响应的用处不大。
发明内容
因此,本文描述了用于基于语音命令的音量级别以音量级别响应语音命令的系统和方法。使用语音命令的音量级别来确定响应音量级别允许用户例如改变响应音量级别,而不必手动调整语音操作的用户设备。作为一个示例,在沙发的一端上可以有第一语音操作的用户设备,在沙发的另一个端上可以有第二语音操作的用户设备。第一用户可以坐在沙发的最靠近第一设备的一端,而第二用户可以坐在沙发的最靠近第二语音操作的用户设备的相对端。第一用户可以说出由第一和第二语音操作的用户设备都接收的语音命令。本文描述的系统和方法可以基于在每个语音操作的用户设备处接收到的语音命令音量级别来确定第一语音操作的用户设备距用户更近。然后,第一语音操作的用户设备可以以基于语音命令的音量级别的音量级别做出响应。例如,第一用户和第二用户可以正在观看电影(例如,“星球大战(Star Wars)”)。第一用户的语音命令可以是重复电影中所说的最后一行(例如,“愿力量与你同在(May the Force be with you)”)的低声请求。第一语音操作的用户设备可以通过向用户低声说出最后一行(例如,“愿力量与你同在”)来做出响应。
这些系统和方法可以由媒体指南应用实现。媒体指南应用可以连接到多个语音操作的用户设备。这多个语音操作的用户设备可以包括例如DeviceA(设备A)、DeviceB(设备B)和DeviceC(设备C)。媒体指南应用可以通过多个语音操作的用户设备中的第一语音操作的用户设备来检测由用户说出的语音命令。例如,媒体指南应用可以参考用户当前正在观看的电影通过DeviceA检测来自用户的说“重复最后一行”的语音命令。
媒体指南应用可以确定语音命令的第一音量级别,其中该语音命令由第一语音操作的用户设备接收。例如,第一音量级别可以是在第一语音操作的用户设备(例如,DeviceA)处检测到的语音命令的输入音量的平均值(例如,48db)。
在一些实施例中,为了确定第一音量级别,媒体指南应用可以测量语音命令的未经过滤的音量级别。例如,语音命令的未经过滤的音量级别可以是60dB。但是,这个未经过滤的音量级别可以包括一定级别的背景噪声,诸如在用户附近可听地播放电影的电视。媒体指南应用可以确定背景噪声的级别并且可以过滤语音命令以移除背景噪声的级别。例如,在电视上播放的电影可以比用户的声音具有更高的频率。媒体指南应用可以过滤掉语音命令的高频分量,以移除背景噪声。媒体指南应用然后可以计算语音命令的经过滤的音量级别。例如,语音命令的经滤波的音量级别可以是48dB,相比之下,未经滤波的音量级别是60dB。
几个语音操作的用户设备可以检测来自用户的语音命令。这些设备中的每一个可以接收不同音量级别的语音命令,例如,取决于与用户的接近程度。因此,多个语音操作的用户设备中的每个语音操作的用户设备将与语音命令的多个音量级别中的音量级别相关联。媒体指南应用可以接收将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备相关联的至少一个数据结构。例如,媒体指南应用可以从多个语音操作的用户设备中的每个语音操作的用户设备接收包含用于相应语音操作的用户设备的音量级别和语音操作的用户设备标识符的数据结构。例如,媒体指南应用可以从第二语音操作的用户设备接收包含音量级别52db和设备标识符DeviceB的数据结构。例如,媒体指南应用可以从第三语音操作的用户设备接收包含音量级别50db和设备标识符DeviceC的数据结构。
在一些实施例中,媒体指南应用可以将第一音量级别与多个音量级别进行比较。例如,媒体指南应用可以将与DeviceA相关联的48dB与与DeviceB相关联的52dB以及与DeviceC相关联的50dB进行比较。
在一些实施例中,媒体指南应用可以基于将第一音量级别与多个音量级别进行比较来确定多个音量级别中的最大音量级别。例如,由多个语音操作的用户设备中的任何一个接收的最大音量级别可以是52dB。多个音量级别中的最大音量级别是由多个语音操作的用户设备接收到的音量级别中最响亮的。
在一些实施例中,媒体指南应用可以在至少一个数据结构中搜索与最大音量级别相关联的第二语音操作的用户设备。与最大音量相关联的用户设备将是距发出语音命令的用户最近的设备,因为设备距用户越近,来自该用户的语音命令向该设备发出的声音将越大。例如,如果最大音量级别是52dB,那么媒体指南应用可以搜索数据结构以查找与52dB音量级别相关联的语音操作的用户设备。在数据结构中,音量级别52dB可以与表示第二语音操作的用户设备的设备标识符DeviceB相关联。在这个示例中,DeviceB是距用户最近的语音操作的用户设备。
在一些实施例中,媒体指南应用可以将命令传输到第二语音操作的用户设备。该命令可以指令第二语音操作的用户设备将响应级别更新为基于最大音量级别的第二音量级别。例如,媒体指南应用可以指令被识别为DeviceB的第二语音操作的用户设备将响应级别改变为音量级别52dB。例如,媒体指南应用可以代替地指令被识别为DeviceB的第二语音操作的用户设备将响应级别改变为53dB,这比最大音量级别稍大。媒体指南应用可以以这种方式稍微增加最大音量级别以确定第二音量,以考虑环境噪声。
在一些实施例中,媒体指南应用可以生成对语音命令的可听响应。可以通过第二语音操作的用户设备以第二音量级别生成可听响应。例如,被识别为DeviceB的第二语音操作的用户设备可以以音量级别53dB重复用户当前正在观看的电影的最后一行(例如,“愿力量与你同在”)。在一些实施例中,第一和第二语音操作的用户设备可以是同一个设备,并且第一音量级别和第二音量可以是相同的音量级别。
在一些实施例中,媒体指南应用可以确定语音操作的用户设备(例如,DeviceA、DeviceB、DeviceC)不使用相同的装备、方法或灵敏度来检测语音命令。因此,检测到的最大音量级别可以不与最靠近发出语音命令的用户的语音操作的用户设备对应。在一些实施例中,媒体指南应用可以在确定最大音量级别时考虑语音操作的用户设备中的这种差异,并在确定最大音量级别之前相应地调整多个音量级别。在一些实施例中,媒体指南应用可以使用其它因素来确定最靠近的语音操作的用户设备。这些因素可以包括例如红外(IR)检测,以测量每个语音操作的用户设备与发出语音命令的用户之间的空间。
在一些实施例中,媒体指南应用可以确定除了发布语音命令的用户之外的其他用户,这些用户可能对听到对语音命令的可听响应感兴趣。在此类实施例中,多个语音操作的用户设备中的多于一个语音操作的用户设备可以输出可听响应。这些响应可以同时给出并且可选地以不同的音量给出,以便每个确定的用户都能听到响应。例如,UserA可以发出询问当前正在电视频道HBO上播出的电视节目的语音命令。媒体指南应用可以确定该节目是“权力的游戏(Game of Thrones)”。媒体指南应用可以确定第二用户UserB对节目“权力的游戏”感兴趣。当媒体指南应用通过第二语音操作的用户设备生成对来自UserA的语音命令的可听响应(例如,“HBO目前正在播放权力的游戏”)时,媒体指南应用还可以通过UserB附近的第三语音操作的用户设备生成可听响应。通过第二语音操作的用户设备生成的可听响应可以例如以第二音量级别53dB生成,而通过第三语音操作的用户设备生成的可听响应可以例如以第三音量级别55dB生成。可以基于例如相应用户将能够多好地听到可听响应来选择第二和第三音量级别。
为了确定第二音量级别,在一些实施例中,媒体指南应用可以识别与用户相关联的用户简档。用户简档可以包含听力信息数据结构,该听力信息数据结构包含用户过去已经确认听力的多个用户音量级别。媒体指南应用可以确定多个用户音量级别中的最低用户音量级别。例如,用户先前已经确认的听力的最低音量级别可以是40dB。第二音量级别(可听响应的音量级别)还可以基于最低用户音量级别。例如,多个用户设备(诸如DeviceA、DeviceB或DeviceC)中的任何一个听到的最大音量级别可以是35dB。在这个示例中,第二音量级别将被设置为40dB,以确保用户能够听到可听响应。
在一些实施例中,可以将对来自用户的语音命令的响应可视地显示在设备上。媒体指南应用可以识别与用户相关联的显示设备。例如,媒体指南应用可以通过用户简档与和用户相关联的电视交互。媒体指南应用可以生成可听响应的可视表示以供显示。例如,媒体指南应用可以在电视上生成窗口并且可以在该窗口中显示响应。例如,当从用户接收到的请求是关于电视节目名称的查询时,媒体指南应用可以显示节目的标题“权力的游戏”。此外,在生成可听响应之后,显示窗口可以包括对给出可听响应的设备的引用。例如,媒体指南应用可以显示“DeviceB说出‘权力的游戏’”。这通知用户他们正在与哪个设备通信,以及因此,哪个设备在他们附近。
在一些实施例中,媒体指南应用可以使用用户简档来确定用户有听力障碍。例如,这个信息可以存储在听力信息数据结构中。例如,用户可能听不到任何可听响应。在这种情况下,类似于以上描述,媒体指南应用可以识别与用户相关联的显示设备。媒体指南应用可以生成可听响应的可视表示以供显示,并将可视表示传输到显示设备。例如,媒体指南应用可以将可视表示传输到与用户相关联的移动电话。
在一些实施例中,媒体指南应用可以等待一段时间以确认用户已经听到了可听响应。如果在那个时间没有接收到确认,那么媒体指南应用可以通过第二语音操作的用户设备生成对语音命令的第二可听响应,或者可以生成可听响应的可视表示以显示在用户设备上。为此,媒体指南应用可以确定与可听响应被生成之时对应的第一时间。例如,当生成可听响应时,媒体指南应用可以将时间戳保存到数据结构。例如,可听响应可以是在下午3:12:03生成的。媒体指南应用然后可以通过将一时间段加上第一时间来计算第二时间。例如,该时间段可以是20秒,并且第二时间可以是下午3:12:23。这个时间段表示媒体指南应用在再次响应用户的语音命令之前要等待多长时间。
等待用户确认的时间段可以以多种方式确定。在一些实施例中,媒体指南应用可以通过识别与用户相关联的用户简档并使用该用户简档确定响应的平均时间来确定时间段。例如,媒体指南应用可以通过接收由用户说出的关键词来识别用户简档,其中该关键词与具体用户相关联。也可以通过用户的语音模式来识别用户简档。用户简档可以包含例如第一数据结构,该第一数据结构包含用户过去响应语音操作的用户设备所花费的时间量。媒体指南应用可以计算这些过去响应时间的平均值,以确定用户响应的平均时间。例如,用户过去可以已经花费10秒、5秒和15秒来响应第二语音操作的用户设备。对于这个用户,等待响应的时间段可以被设置为10秒,因为10秒是用户过去响应时间的平均值。
在一些实施例中,如果语音操作的用户设备在该时间段内未从用户接收到确认,那么媒体指南应用将生成另一个响应或重复对语音命令的原始可听响应。该确认指示用户听到了可听响应。例如,来自第二语音操作的用户设备(诸如DeviceB)的可听响应可以是“愿力量与你同在”。用户可以通过说“谢谢设备B”来确认这个响应。
如果在一段时间内未接收到确认,那么可以生成第二可听响应或可听响应的可视表示。例如,在一些实施例中,媒体指南应用可以基于是否在第三时间接收到确认而向与用户相关联的显示设备传输音频响应的可视表示,其中第三时间在第二时间之前。例如,可听响应可以已经在下午3:12:03生成。例如,如果时间段是20秒,那么第二时间是下午3:12:23。如果DeviceB在下午3:12:23尚未接收到确认,那么媒体指南应用可以通过与用户相关联的电视生成可听响应的可视表示(例如,“DeviceB说出‘愿力量与你同在’”)。
在一些实施例中,如果语音操作的用户设备在该时间段内未从用户接收到确认,那么媒体指南应用生成另一个可听响应。具体而言,媒体指南应用可以基于是否在第三时间接收到确认而通过第二语音操作的用户设备生成第二可听响应。第二可听响应可以与该可听响应相同,在这种情况下,第二用户设备简单地以相同或不同的音量级别向用户重复可听响应。第二可听响应还可以例如提示用户做出响应。例如,如果DeviceB到下午3:12:23还未从用户接收到确认,那么媒体指南应用可以通过DeviceB生成第二可听响应,询问“您听到‘愿力量与你同在’了吗?”。
第二可听响应可以以与第一响应相同的音量级别生成,或者在一些实施例中,以更大的音量级别生成。例如,媒体指南应用可以确定大于以其生成第二可听响应的第二音量的第三音量级别。第三音量级别可以是例如第二音量级别加上预定量。例如,第二音量级别可以是53dB,而第三音量级别可以是56dB。因为第二可听响应是以第三音量级别生成的,所以媒体指南应用可以通过DeviceB以56dB生成第二可听响应(例如,“您听到‘愿力量与你同在’了吗?”)。
在一些方面,为了最好地生成第二可听响应,媒体指南应用可以识别与用户相关联的用户简档。例如,媒体指南应用可以通过接收用户说出的关键词来识别用户简档。例如,UserA可以在发出语音命令之前说“UserA”。用户简档也可以例如通过用户的语音或声音模式来识别。
在一些实施例中,媒体指南应用可以使用用户简档来识别与用户相关联的平均讲话音量。例如,用户简档可以包含第一数据结构,该第一数据结构包含用户过去使用的讲话音量。媒体指南应用可以计算这些过去讲话音量的平均值,以确定用户的平均讲话音量。例如,用户的平均讲话音量可以是60dB。
然后,媒体指南应用可以确定平均讲话音量级别与最大音量级别(即,由最靠近用户的语音操作的用户设备接收的音量级别)之间的差异。例如,最大音量级别可以是52dB并且用户的平均讲话音量可以是60dB。在这种情况下,差异为8dB。
第三音量级别(第二可听响应的音量级别)可以基于该差异加上第二音量级别。例如,第二音量级别可以是53dB,差异可以是8dB,并且第三音量可以是61dB。在这种情况下,第二语音操作的用户设备将以61dB发出第二可听响应。
在一些示例中,媒体指南应用从用户接收确认。响应于接收到确认,媒体指南应用可以将第二音量级别(原始可听响应的音量级别)存储在用户的用户简档中。例如,用户简档可以包含听力信息数据结构,该听力信息数据结构包含用户过去已经能够听到的多个用户音量级别。第二音量级别可以存储在这个第二数据结构中。
应该注意的是,上述系统和/或方法可以应用于本公开中描述的其它系统、方法和/或装置,或者根据本公开中描述的其它系统、方法和/或装置来使用。
附图说明
在结合附图考虑以下详细描述时,本公开的上述和其它目的和优点将变得显而易见,附图中,相同的附图标记通篇指代相同的部分,并且其中:
图1示出了根据本公开的一些实施例的若干语音操作的用户设备检测语音命令的说明性示例;
图2示出了根据本公开的一些实施例的媒体指南应用通过语音操作的用户设备生成对语音命令的可听响应的说明性示例;
图3示出了根据本公开的一些实施例的媒体指南应用生成可听响应的可视表示以供显示的说明性示例;
图4示出了根据本公开的一些实施例的用于在访问媒体内容时使用的显示屏的说明性示例;
图5示出了根据本公开的一些实施例的用于访问媒体内容的显示屏的另一个说明性示例;
图6是根据本公开的一些实施例的说明性用户装备设备的框图;
图7是根据本公开的一些实施例的说明性媒体系统的框图;
图8是根据本公开的一些实施例的用于以基于用户语音命令的音量级别的音量级别通过语音操作的用户设备生成可听响应的说明性步骤的流程图;
图9是根据本公开的一些实施例的用于如果用户未确认可听响应则生成对语音命令的第二可听响应的说明性步骤的流程图;
图10是根据本公开的一些实施例的用于如果用户未确认可听响应则生成对语音命令的第二可听响应的说明性步骤的流程图;
图11是根据本公开的一些实施例的用于将对语音命令的响应的可视表示传输到显示设备的说明性步骤的流程图;
图12是根据本公开的一些实施例的用于以第三音量级别生成第二可听响应的说明性步骤的流程图;以及
图13是根据本公开的一些实施例的用于过滤语音命令的说明性步骤的流程图。
具体实施方式
本文描述了用于以基于语音命令的音量级别的音量级别对语音命令做出响应的系统和方法。使用语音命令的音量级别来确定响应音量级别允许用户例如改变响应音量级别,而不必手动调整语音操作的用户设备。
图1示出了根据本公开的一些实施例的若干语音操作的用户设备检测语音命令的说明性示例。在沙发的一端上可以有第一语音操作的用户设备102,在沙发的另一端上可以有第二语音操作的用户设备104。第一用户108可以坐在沙发的最靠近第一设备102的一端,而第二用户110可以坐在沙发的最靠近第二语音操作的用户设备104的相对端。第二用户110可以说出由第一语音操作的用户设备102和第二语音操作的用户设备104都接收的语音命令106。本文描述的系统和方法可以基于在每个语音操作的用户设备102、104处接收到的语音命令音量级别来确定第二语音操作的用户设备104距发出语音命令106的第二用户110更近。然后,第二语音操作的用户设备104可以以基于语音命令106的音量级别的音量级别来做出响应112。例如,第一用户108和第二用户110可以正在观看电影(例如,“星球大战”)。第二用户110的语音命令106可以是重复电影中所说的最后一行(例如,“愿力量与你同在”)的低声请求。第二语音操作的用户设备104可以通过向第二用户110低声说出最后一行(例如,“愿力量与你同在”)来做出响应112。因此,虽然第一语音操作的用户设备102接收到语音命令106,但是第二语音操作的用户设备104提供了响应112。
这些系统和方法可以由媒体指南应用实现。媒体指南应用可以连接到多个语音操作的用户设备102、104、114。这多个语音操作的用户设备可以包括例如第一语音操作的用户设备102(例如,DeviceA)、第二语音操作的用户设备104(例如,DeviceB)和第三语音操作的用户设备114(例如,DeviceC)。媒体指南应用可以通过多个语音操作的用户设备中的第一语音操作的用户设备102来检测用户说出的语音命令106。例如,媒体指南应用可以参考第一用户当前正在观看的电影通过第一语音操作的用户设备102(例如,DeviceA)检测来自用户的说“重复最后一行”的语音命令106。
媒体指南应用可以确定语音命令106的第一音量级别,其中该语音命令由第一语音操作的用户设备102接收。例如,第一音量级别可以是在第一语音操作的用户设备102(例如,DeviceA)处检测到的语音命令106的输入音量的平均值(例如,48db)。
在一些实施例中,为了确定第一音量级别,媒体指南应用可以测量语音命令106的未经过滤的音量级别。例如,语音命令的未经过滤的音量级别可以是60dB。但是,这个未经过滤的音量级别可以包括一定级别的背景噪声,诸如在用户110附近可听地播放电影的电视。
媒体指南应用可以确定背景噪声的级别,并且可以过滤语音命令106以移除背景噪声的级别。例如,在电视上播放的电影可以比用户110的声音具有更高的频率。媒体指南应用可以过滤掉语音命令106的高频分量,以移除背景噪声。媒体指南应用然后可以计算语音命令106的经过滤的音量级别。例如,语音命令的经滤波的音量级别可以是48dB,相比之下,未经滤波的音量级别是60dB。
几个语音操作的用户设备(例如,DeviceA 102、DeviceB 104和DeviceC 114)可以检测来自用户的语音命令106。这些设备102、104、114中的每一个可以接收不同音量级别的语音命令,例如,取决于与发出语音命令106的用户110的接近程度。因此,多个语音操作的用户设备中的每个语音操作的用户设备102、104、114将与语音命令106的多个音量级别中的音量级别相关联。媒体指南应用可以接收将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备相关联的至少一个数据结构。例如,媒体指南应用可以从多个语音操作的用户设备中的每个语音操作的用户设备接收包含用于相应语音操作的用户设备的音量级别和语音操作的用户设备标识符的数据结构。例如,媒体指南应用可以从第二语音操作的用户设备104接收包含音量级别52db和设备标识符DeviceB的数据结构。例如,媒体指南应用可以从第三语音操作的用户设备114接收包含音量级别50db和设备标识符DeviceC的数据结构。
在一些实施例中,媒体指南应用可以将第一音量级别与多个音量级别进行比较。例如,媒体指南应用可以将与DeviceA 102相关联的48dB与与DeviceB 104相关联的52dB以及与DeviceC 114相关联的50dB进行比较。
在一些实施例中,媒体指南应用可以基于将第一音量级别与多个音量级别进行比较来确定多个音量级别中的最大音量级别。例如,由多个语音操作的用户设备中的任何一个接收的最大音量级别可以是52dB。多个音量级别中的最大音量级别是由多个语音操作的用户设备(例如,语音操作的用户设备102、104、114)接收到的音量级别中最响亮的。
在一些实施例中,媒体指南应用可以在至少一个数据结构中搜索与最大音量级别相关联的第二语音操作的用户设备104。与最大音量相关联的用户设备将是距发出语音命令的用户最近的设备,因为设备距用户越近,来自该用户的语音命令向该设备发出的声音将越大。例如,如果最大音量级别是52dB,那么媒体指南应用可以搜索数据结构以查找与52dB音量级别相关联的语音操作的用户设备。在数据结构中,音量级别52dB可以与表示第二语音操作的用户设备104的设备标识符DeviceB相关联。在这个示例中,第二语音操作的用户设备104(例如,DeviceB)是距发出语音命令106的用户110最近的语音操作的用户设备。
在一些实施例中,媒体指南应用可以将命令传输到第二语音操作的用户设备104。该命令可以指令第二语音操作的用户设备104将响应级别更新为基于最大音量级别的第二音量级别。例如,媒体指南应用可以指令被识别为DeviceB的第二语音操作的用户设备104将响应级别改变为音量级别52dB。例如,媒体指南应用可以代替地指令被识别为DeviceB的第二语音操作的用户设备104将响应级别改变为53dB,这比最大音量级别稍大。媒体指南应用可以以这种方式稍微增加最大音量级别以确定第二音量,以考虑环境噪声。
在一些实施例中,媒体指南应用可以生成对语音命令106的可听响应112。可以通过第二语音操作的用户设备104以第二音量级别生成可听响应112。例如,被识别为DeviceB的第二语音操作的用户设备104可以以音量级别53dB重复用户当前正在观看的电影的最后一行(例如,“愿力量与你同在”)。在一些实施例中,第一语音操作设备和第二语音操作的用户设备可以是同一个设备,并且第一音量级别和第二音量级别可以是相同的音量级别。
在一些实施例中,媒体指南应用可以确定语音操作的用户设备(例如,第一语音操作的用户设备102、第二语音操作的用户设备104、第三语音操作的用户设备114)不使用相同的装备、方法或灵敏度来检测语音命令106。因此,检测到的最大音量级别可以不与最靠近发出语音命令106的用户110的语音操作的用户设备对应。在一些实施例中,媒体指南应用可以在确定最大音量级别时考虑语音操作的用户设备中的这种差异,并相应地调整多个音量级别。在一些实施例中,媒体指南应用可以使用其它因素来确定最靠近的语音操作的用户设备。这些因素可以包括例如红外(IR)检测,以测量每个语音操作的用户设备与发出语音命令的用户之间的空间。
在一些实施例中,媒体指南应用可以确定除了发布语音命令106的用户110之外的其他用户,这些用户可能对听到对语音命令106的可听响应112感兴趣。在此类实施例中,多个语音操作的用户设备102、104、114中的多于一个语音操作的用户设备可以输出可听响应。这些响应可以同时给出并且可选地以不同的音量给出,以便每个确定的用户都能听到响应。例如,第二用户110可以发出询问当前正在电视频道HBO上播出的电视节目的语音命令。媒体指南应用可以确定该程序是“权力的游戏”。媒体指南应用可以确定第一用户108对节目“权力的游戏”感兴趣。当媒体指南应用通过第二语音操作的用户设备104生成对来自第二用户110的语音命令的可听响应(例如,“HBO目前正在播放权力的游戏”)时,媒体指南应用还可以通过用户108附近的第三语音操作的用户设备114生成可听响应。通过第二语音操作的用户设备104生成的可听响应可以例如以第二音量级别53dB生成,而通过第三语音操作的用户设备114生成的可听响应可以例如以第三音量级55dB生成。可以基于例如相应用户将能够多好地听到可听响应来选择第二和第三音量级别。
在一些实施例中,媒体指南应用可以确定用户正在移动。例如,当用户开始讲话时和当用户结束讲话时,媒体指南应用可以测量语音命令的音量。当用户开始发出语音命令时在第三语音操作的用户设备114处接收到的音量级别可以大于当用户结束发出语音命令时在第三语音操作的用户设备114处接收到的音量级别。当用户开始讲话时在第二语音操作的用户设备104处接收到的音量级别可以比当用户结束讲话时在第二语音操作的用户设备104处接收到的音量级别更柔和。媒体指南应用可以使用这些改变的接收到的音量级别来确定用户正在从第三语音操作的用户设备附近向第二语音操作的用户设备附近移动。媒体指南应用可以相应地沿着用户的移动路径确定多个语音操作的用户设备中的若干语音操作的用户设备。
在一些实施例中,媒体指南应用可以通过多个语音操作的用户设备中的若干语音操作的用户设备来生成可听响应的分量。这若干语音操作的用户设备可以同时或在不同时间生成可听响应或可听响应的分量。例如,语音命令可以请求将歌曲从西班牙语翻译成英语。第三语音操作的用户设备114可以播放翻译后的歌曲的前十秒(可听响应),第一语音操作的用户设备102可以播放歌曲的接下来的十秒,第二语音操作的用户设备可以播放歌曲的其余部分。媒体指南应用可以将若干设备中的每个设备的响应音量调整为相同(例如,第二音量级别),并以来自所有设备的这个相同音量级别做出响应。例如,第二音量级别可以是57dB。若干语音操作的用户设备中的每一个可以以第二音量级别57dB做出响应。因此,在上述实施例中,可听响应可以沿着用户的移动路径,从而允许用户在他或她在不同设备附近移动时更好地听到可听响应。
为了确定第二音量级别,在一些实施例中,媒体指南应用可以识别与发布语音命令106的用户110相关联的用户简档。用户简档可以包含听力信息数据结构,该听力信息数据结构包含用户110过去已经确认听力的多个用户音量级别。媒体指南应用可以确定多个用户音量级别中的最低用户音量级别。例如,用户110先前已经确认的听力的最低音量级别可以是40dB。第二音量级别(可听响应的音量级别)还可以基于最低用户音量级别。例如,多个用户设备(诸如DeviceA102、DeviceB 104或DeviceC 114)中的任何一个听到的最大音量级别可以是35dB。在这个示例中,第二音量级别将被设置为40dB,以确保用户110能够听到可听响应。
图2示出了根据本公开的一些实施例的媒体指南应用通过语音操作的用户设备208生成对语音命令204的可听响应206的说明性示例。在一些实施例中,媒体指南应用可以等待一段时间以确认用户202已经听到了可听响应206。如果在那个时间内没有接收到确认,那么媒体指南应用可以通过第二语音操作的用户设备208生成对语音命令204的第二可听响应210,或者可以生成可听响应的可视表示以显示在用户设备上,如图3中所示并在下面描述。为此,媒体指南应用可以确定与可听响应206被生成之时对应的第一时间。例如,当生成可听响应206时,媒体指南应用可以将时间戳保存到数据结构。例如,可听响应可以是在下午3:12:03生成的。媒体指南应用然后可以通过将一时间段加上第一时间来计算第二时间。例如,该时间段可以是20秒,并且第二时间可以是下午3:12:23。这个时间段表示媒体指南应用在再次响应用户202的语音命令204之前要等待多长时间。
等待用户确认的时间段可以以多种方式确定。在一些实施例中,媒体指南应用可以通过识别与用户202相关联的用户简档并使用该用户简档确定响应的平均时间来确定时间段。例如,媒体指南应用可以通过接收由用户202说出的关键词来识别用户简档,其中该关键词与具体用户相关联。也可以通过用户202的语音模式来识别用户简档。用户简档可以包含例如第一数据结构,该第一数据结构包含用户202过去响应语音操作的用户设备所花费的时间量。媒体指南应用可以计算这些过去响应时间的平均值,以确定用户202用于响应的平均时间。例如,用户202过去可以已经花费10秒、5秒和15秒来响应第二语音操作的用户设备208。对于这个用户,等待响应的时间段可以被设置为10秒,因为10秒是用户过去响应时间的平均值。
在一些实施例中,如果语音操作的用户设备208在该时间段内未从用户202接收到确认,那么媒体指南应用将生成另一个响应210或重复对语音命令的原始可听响应204。确认212指示用户听到了可听响应。例如,来自第二语音操作的用户设备208(诸如DeviceB)的可听响应206可以是“愿力量与你同在”。用户202可以通过说“谢谢设备B”来确认这个响应。
如果在一段时间内未接收到确认,那么可以生成第二可听响应210或可听响应206的可视表示。例如,在一些实施例中,媒体指南应用可以基于是否在第三时间接收到确认212而向与用户相关联的显示设备(诸如图3中在设备308处所示的)传输音频响应的可视表示(诸如图3中在窗口310中所示的),其中第三时间在第二时间之前。例如,可听响应206可以已经在下午3:12:03生成。例如,如果时间段是20秒,那么第二时间是下午3:12:23。如果DeviceB在下午3:12:23尚未接收到确认,那么媒体指南应用可以通过与用户相关联的电视生成可听响应206的可视表示(例如,“DeviceB说出‘愿力量与你同在’”)。
在一些实施例中,如果语音操作的用户设备208在该时间段内未从用户接收到确认,那么媒体指南应用生成另一个可听响应210。具体而言,媒体指南应用可以基于是否在第三时间接收到确认(诸如确认212)而通过第二语音操作的用户设备208生成第二可听响应210。第二可听响应210可以与可听响应204相同,在这种情况下,第二用户设备简单地以相同或不同的音量级别向用户重复可听响应。第二可听响应210还可以例如提示用户做出响应。例如,如果第二语音操作的用户设备208(例如,DeviceB)到下午3:12:23还未从用户接收到确认,那么媒体指南应用可以通过第二语音操作的用户设备208(例如,DeviceB)生成第二可听响应210,询问“您听到‘愿力量与你同在’了吗?”。
第二可听响应210可以以与第一响应相同的音量级别生成,或者在一些实施例中,以更大的音量级别生成。例如,媒体指南应用可以确定大于以其生成第二可听响应210的第二音量的第三音量级别。第三音量级别可以是例如第二音量级别加上预定量。例如,第二音量级别可以是53dB,而第三音量级别可以是56dB。因为第二可听响应210是以第三音量级别生成的,所以媒体指南应用可以通过第二语音操作的设备208(例如,DeviceB)以56dB生成第二可听响应210(例如,“您听到‘愿力量与你同在’了吗?”)。
在一些方面,为了最好地生成第二可听响应210,媒体指南应用可以识别与用户202相关联的用户简档。例如,媒体指南应用可以通过接收用户202说出的关键词来识别用户简档。例如,UserA可以在发出语音命令之前说“UserA”。用户简档也可以例如通过用户202的语音或声音模式来识别。
在一些实施例中,媒体指南应用可以使用用户简档来识别与用户202相关联的平均讲话音量。例如,用户简档可以包含第一数据结构,该第一数据结构包含用户过去使用过的讲话音量。媒体指南应用可以计算这些过去讲话音量的平均值,以确定用户202的平均讲话音量。例如,用户的平均讲话音量可以是60dB。
然后,媒体指南应用可以确定平均讲话音量级别与最大音量级别(即,由最靠近用户202的语音操作的用户设备208接收的音量级别)之间的差异。例如,最大音量级别可以是52dB并且用户的平均讲话音量可以是60dB。在这种情况下,差异为8dB。
第三音量级别(第二可听响应210的音量级别)可以基于该差异加上第二音量级别。例如,第二音量级别可以是53dB,差异可以是8dB,并且第三音量可以是61dB。在这种情况下,第二语音操作的用户设备208将以61dB发出第二可听响应210。
在一些示例中,媒体指南应用从用户接收确认212。响应于接收到确认212,媒体指南应用可以将第二音量级别(原始可听响应206的音量级别)存储在用户的用户简档中。例如,用户简档可以包含听力信息数据结构,该听力信息数据结构包含用户202过去已经能够听到的多个用户音量级别。第二音量级别可以存储在这个第二数据结构中。
图3示出了根据本公开的一些实施例的媒体指南应用生成可听响应的可视表示以供显示的说明性示例。在一些实施例中,对来自用户的语音命令304的响应可以被可视地显示在显示设备308上。媒体指南应用可以识别与用户302相关联的显示设备308。例如,媒体指南应用可以通过用户简档与和用户302相关联的电视交互。媒体指南应用可以生成可听响应的可视表示以供显示。例如,媒体指南应用可以在电视上生成窗口310并且可以在窗口310中显示响应。例如,当接收到的来自用户302的请求304是关于用户302正在观看的电影中的最后一行的查询时,媒体指南应用可以显示来自该电影的最后一行“愿力量与你同在”。此外,在生成可听响应之后,显示窗口310可以包括对给出可听响应的设备306的引用。例如,媒体指南应用可以显示“DeviceB说出‘愿力量与你同在’”。这通知用户他们正在与哪个设备通信,以及因此,哪个设备在他们附近。
在一些实施例中,媒体指南应用可以使用用户简档来确定用户302有听觉障碍。例如,这个信息可以存储在听力信息数据结构中。例如,用户302可能听不到任何可听响应。在这种情况下,类似于以上描述,媒体指南应用可以识别与用户相关联的显示设备308。媒体指南应用可以生成可听响应的可视表示以供显示,并将可视表示传输到显示设备308以在窗口310中显示。例如,媒体指南应用可以将可视表示传输到与用户302相关联的电视308。
如本文中所使用的,“连续监听设备”是这样的设备,其在通电时可以一直监视音频而无需用户必须提示(例如,通过按下按钮)该设备为输入命令做准备。例如,连续监听设备可以一直监视音频以寻找关键词或提示(例如,“助手你好!”)以激活主动监听状态,或者可以在被动监听状态下一直监视和处理处于所有音频。如本文所使用的,“被动监听状态”被定义为连续监听设备的操作模式,其中连续监听设备持续临时或持久地记录音频,但是其中用户没有以其它方式提示连续监听设备准备接收指示。在被动状态下,连续监听设备处理所有音频输入,与主动监听状态相反,在被动监听状态下,仅响应于关键词或提示而处理音频。在一些实施例中,连续监听设备将接收到的音频存储在循环缓冲器中,该循环缓冲器存储音频达预定监听长度。例如,连续监听设备可以存储五分钟的音频,其中在记录新音频时删除最早的音频信息。在一些实施例中,所有音频都被持久地存储,并且可以使用常规内务操作删除或由用户手动删除。
如本文所使用的,“语音操作的用户设备”是可以一直监听音频输入和关键词的设备。当检测到寻址到设备的关键词时,语音操作的用户设备可以处理音频输入。如上所述,语音操作的用户设备可以被称为连续监听设备。语音操作的用户设备可以使用被动监听状态或主动监听状态。以任意组合,上面讨论的一些设备使用被动监听状态,而一些设备可以使用主动监听状态。
在任何给定的内容交付系统中,用户可用的内容量可以很大。因此,许多用户期望通过界面的媒体指南形式,该界面允许用户高效地导航内容选择并容易地识别他们可能期望的内容。提供这种指南的应用在本文中被称为交互式媒体指南应用,或者有时被称为媒体指南应用或指南应用。
交互式媒体指南应用可以基于它们提供指南的内容而采取各种形式。一种典型的媒体指南应用类型是交互式电视节目指南。交互式电视节目指南(有时被称为电子节目指南)是众所周知的指南应用,除其它之外,尤其允许用户在多种类型的内容或媒体资产中导航和定位。交互式媒体指南应用可以生成图形用户界面屏幕,这使用户能够在内容之间导航、定位和选择。如本文所提到的,术语“媒体资产”和“内容”应当被理解为意指电子可消费的用户资产,诸如电视节目,以及按次计费节目、点播节目(如在点播视频(VOD)系统中)、互联网内容(例如,流传输内容、可下载内容、网络广播(Webcast)等等)、视频剪辑、音频、内容信息、图片、旋转图像、文档、播放列表、网站、文章、书籍、电子书籍、博客、聊天会话、社交媒体、应用、游戏和/或任何其它媒体或多媒体和/或其组合。指南应用还允许用户在内容之间进行导航和定位。如本文所提到的,术语“多媒体”应当被理解为意指利用上述至少两种不同内容形式(例如文本、音频、图像、视频或交互内容形式)的内容。内容可以被用户装备设备记录、播放、显示或访问,但也可以是实况表演的一部分。
用于执行本文讨论的任何实施例的媒体指南应用和/或任何指令可以在计算机可读介质上被编码。计算机可读介质包括能够存储数据的任何介质。计算机可读介质可以是暂态的,包括但不限于传播的电信号或电磁信号,或者可以是非暂态的,包括但不限于易失性和非易失性计算机存储器或存储设备,诸如硬盘、软盘、USB驱动器、DVD、CD、介质卡、寄存器存储器、处理器高速缓存、随机存取存储器(“RAM”),等等。
随着互联网、移动计算和高速无线网络的出现,用户在他们传统上不使用的用户装备设备上访问媒体。如本文所提到的,短语“用户装备设备”、“用户装备”、“用户设备”、“电子设备”、“电子装备”、“媒体装备设备”或“媒体设备”应当被理解为意指用于访问上述内容的任何设备,诸如电视机、智能TV、机顶盒、用于处理卫星电视的集成接收器解码器(IRD)、数字存储设备、数字媒体接收器(DMR)、数字媒体适配器(DMA)、流传输媒体设备、DVD播放器、DVD记录器、连接的DVD、本地媒体服务器、BLU-RAY播放器、BLU-RAY记录器、个人计算机(PC)、膝上型计算机、平板计算机、WebTV盒、个人计算机电视(PC/TV)、PC媒体服务器、PC媒体中心、手持式计算机、固定电话、个人数字助理(PDA)、移动电话、便携式视频播放器、便携式音乐播放器、便携式游戏机、智能手机或任何其它电视装备、计算装备或无线设备,和/或其组合。在一些实施例中,用户装备设备可以具有面向前方的屏幕和面向后方的屏幕、若干前方屏幕或若干有角度的屏幕。在一些实施例中,用户装备设备可以具有面向前方的摄像头和/或面向后方的摄像头。在这些用户装备设备上,用户可以能够在通过电视机可用的相同内容中进行导航和定位。因此,媒体指南也可以在这些设备上可用。所提供的指南可以用于仅通过电视机可用的内容,用于仅通过一个或多个其它类型的用户装备设备可用的内容,或用于既通过电视机又通过一个或多个其它类型的用户装备设备可用的内容。媒体指南应用可以作为在线应用(即,在网站上提供)或作为用户装备设备上的独立应用或客户端来提供。下面将更详细地描述可以实现媒体指南应用的各种设备和平台。
媒体指南应用的功能之一是向用户提供媒体指南数据。如本文所提到的,短语“媒体指南数据”或“指南数据”应当被理解为意指与在操作指南应用中使用的内容或数据相关的任何数据。例如,指南数据可以包括节目信息、指南应用设置、用户偏好、用户简档信息、媒体列表、媒体相关信息(例如,广播时间、广播频道、标题、描述、评级信息(例如,父母控制评级、评论家的评级,等等)、流派或类别信息、演员信息、用于广播公司或提供商的徽标的徽标数据,等等)、媒体格式(例如,标准清晰度、高清晰度、3D,等等)、点播信息、博客、网站以及有助于用户在期望的内容选择中进行导航和定位的任何其它类型的指南数据。
图4-5示出了可以用于提供媒体指南数据的说明性显示屏幕。图4-5中所示的显示屏幕可以在任何合适的用户装备设备或平台上实现。虽然图4-5的显示被示为全屏显示,但是它们也可以全部或部分地覆盖在正被显示的内容上。用户可以通过选择在显示屏幕中提供的可选择选项(例如,菜单选项、列表选项、图标、超链接等等)或者按下遥控器或其它用户输入界面或设备上的专用按钮(例如,GUIDE按钮)来指示期望访问内容信息。响应于用户的指示,媒体指南应用可以向显示屏幕提供以几种方式之一组织的媒体指南数据,诸如在网格中按时间和频道、按时间、按频道、按来源、按内容类型、按类别(例如,电影、体育、新闻、少儿或其它节目类别)或其它预定义的、用户定义的或其它组织标准来组织。
图4示出了按照时间和频道布置的节目列表显示400的说明性网格,其也使得能够访问单个显示中的不同类型的内容。显示400可以包括网格402,其具有:(1)频道/内容类型标识符的列404,其中每个频道/内容类型标识符(其是列中的单元格)识别可用的不同频道或内容类型;和(2)时间标识符的行406,其中每个时间标识符(其是行中的单元格)识别节目的时间块。网格402还包括节目列表的单元格,诸如节目列表408,其中每个列表提供在列表的相关频道和时间上提供的节目的标题。利用用户输入设备,用户可以通过移动高亮区域410来选择节目列表。可以在节目信息区域412中提供与由高亮区域410选择的节目列表相关的信息。区域412可以包括例如节目标题、节目描述、节目被提供的时间(如果适用的话)、节目所在的频道(如果适用的话)、节目的评级以及其它期望的信息。
除了提供对线性节目(例如,被调度在预定时间传输到多个用户装备设备并且根据时间表提供的内容)的访问,媒体指南应用还提供对非线性节目(例如,在任何时间用户装备设备可访问和不按照时间表提供的内容)的访问。非线性节目可以包括来自不同内容源的内容,包括点播内容(例如VOD)、互联网内容(例如,流传输媒体、可下载的媒体等等)、本地存储的内容(例如,存储在如上所述的任何用户装备设备或其它存储设备上的内容)或其它与时间无关的内容。点播内容可以包括电影或由特定内容提供商提供的任何其它内容(例如,HBO On Demand提供“The Sopranos”和“Curb Your Enthusiasm”)。HBO ON DEMAND是时代华纳(Time Warner)公司L.P.等人拥有的服务标志,并且THE SOPRANOS和CURB YOURENTHUSIASM是由Home Box Office公司拥有的商标。互联网内容可以包括web事件(诸如聊天会话或网络广播),或者可通过互联网网站或其它互联网访问(例如,FTP)作为流传输内容或可下载内容点播可用的内容。
网格402可以提供用于非线性节目的媒体指南数据,包括点播列表414、记录的内容列表416和互联网内容列表418。组合来自不同类型的内容源的内容的媒体指南数据的显示有时被称为“混合媒体”显示。可以被显示的、与显示400不同的媒体指南数据的类型的各种置换可以基于用户选择或指南应用定义(例如,仅记录和广播的列表、仅点播和广播的列表等等的显示)。如图所示,列表414、416和418被示为跨越网格402中显示的整个时间块,以指示这些列表的选择可以分别提供对专用于点播列表、记录的列表或互联网列表的显示的访问。在一些实施例中,可以将用于这些内容类型的列表直接包括在网格402中。附加的媒体指南数据可以响应于用户选择导航图标420之一而被显示。(按下用户输入设备上的箭头键可以以与选择导航图标420类似的方式影响显示。)
显示400还可以包括视频区域422和选项区域426。视频区域422可以允许用户收看和/或预览用户当前可用、将可用或曾经可用的节目。视频区域422的内容可以与网格402中显示的列表之一对应或者独立于其。包括视频区域的网格显示有时被称为指南中画面(PIG)显示。在2003年5月13日授予Satterfield等人的美国专利No.6,564,378和2001年5月29日授予Yuen等人的美国专利No.6,239,794中更详细地描述了PIG显示及其功能,这两个专利的全部内容整体上通过引用并入本文。PIG显示可以包括在本文描述的实施例的其它媒体指南应用显示屏幕中。
选项区域426可以允许用户访问不同类型的内容、媒体指南应用显示和/或媒体指南应用特征。选项区域426可以是显示400(以及本文描述的其它显示屏幕)的部分,或者可以由用户通过选择屏幕上的选项或按下用户输入设备上的专用或可指派按钮来调用。选项区域426内的可选择选项可以涉及与网格402中的节目列表相关的特征,或者可以包括从主菜单显示中可用的选项。与节目列表相关的特征可以包括搜索其它的播出时间或者接收节目、记录节目、启用节目的系列记录、将节目和/或频道设置为喜爱、购买节目的方式,或其它特征的方式。主菜单显示中可用的选项可以包括搜索选项、VOD选项、父母控制选项、互联网选项、基于云的选项、设备同步选项、第二屏幕设备选项、访问各种类型的媒体指南数据显示的选项、订阅高级服务的选项、编辑用户简档的选项、访问浏览叠层的选项或其它选项。
媒体指南应用可以基于用户偏好被个性化。个性化的媒体指南应用允许用户定制显示和特征,以创建对媒体指南应用的个性化“体验”。这种个性化体验可以通过允许用户输入这些定制和/或通过媒体指南应用监视用户活动以确定各种用户偏好来创建。用户可以通过登录或以其它方式向指南应用识别他们自己来访问其个性化指南应用。媒体指南应用的定制可以根据用户简档进行。定制可以包括不同的呈现方案(例如,显示器的颜色方案、文本的字体大小等等)、所显示的内容列表的各个方面(例如,仅HDTV或仅3D节目、基于最喜爱的频道选择的用户指定的广播频道、重新排序频道的显示、推荐的内容等等)、期望的记录特征(例如,针对特定用户的记录或系列记录、记录质量等等)、父母控制设置、互联网内容的定制呈现(例如,社交媒体内容、电子邮件、电子交付的文章等等的呈现)以及其它期望的定制。
媒体指南应用可以允许用户提供用户简档信息,或者可以自动编译用户简档信息。媒体指南应用可以例如监视用户访问的内容和/或用户可能与指南应用的其它交互。此外,媒体指南应用可以获得与特定用户相关的其它用户简档的全部或部分(例如,从互联网上用户访问的其它网站(诸如www.Tivo.com)、从用户访问的其它媒体指南应用、从用户访问的其它交互式应用、从用户的另一个用户装备设备等等),和/或从媒体指南应用可以访问的其它源获得关于用户的信息。因此,可以跨用户的不同用户装备设备为用户提供统一的指南应用体验。下面结合图7更详细地描述这种类型的用户体验。在Ellis等人于2005年7月11日提交的美国专利申请公开No.2005/0251827、于2007年1月16日授予Boyer等人的美国专利No.7,165,098以及Ellis等人于2002年2月21日提交的美国专利申请公开No.2002/0174430中更详细地描述了附加的个性化媒体指南应用特征,这些通过引用整体上并入本文。
用于提供媒体指南的另一种显示布置在图5中示出。视频马赛克显示500包括用于基于内容类型、流派和/或其它组织标准组织的内容信息的可选择选项502。在显示500中,选择电视列表选项504,由此提供列表506、508、510和512作为广播节目列表。在显示500中,列表可以提供包括封面艺术的图形图像、来自内容的静止图像、视频剪辑预览、来自内容的实况视频或向用户指示内容由列表中的媒体指南数据描述的其它类型的内容。每个图形列表还可以附带有文本,以提供关于与列表相关联的内容的进一步信息。例如,列表508可以包括多于一个部分,包括媒体部分514和文本部分516。媒体部分514和/或文本部分516可以是可选择的,以全屏观看内容或者观看与媒体部分514中显示的内容相关的信息(例如,观看用于显示视频的频道的列表)。
显示500中的列表具有不同的尺寸(即,列表506大于列表508、510和512),但是如果期望的话,那么所有列表可以是相同的尺寸。列表可以具有不同的尺寸或以图形方式加强,以指示用户感兴趣的程度或者强调某些内容,如内容提供者所期望的或者基于用户偏好。在例如Yates于2009年11月12日提交的美国专利申请公开No.2010/0153885中讨论了用于以图形方式加强内容列表的各种系统和方法,其通过引用整体上并入本文。
用户可以从其一个或多个用户装备设备访问内容和媒体指南应用(及其上面和下面描述的显示屏幕)。图6示出了说明性用户装备设备600的一般化实施例。下面结合图7讨论用户装备设备的更具体的实现。用户装备设备600可以经由输入/输出(以下称为“I/O”)路径602接收内容和数据。I/O路径602可以向控制电路系统604提供内容(例如,广播节目、点播节目、互联网内容、局域网(LAN)或广域网(WAN)上可用的内容,和/或其它内容)和数据,控制电路系统604包括处理电路系统606和存储装置608。控制电路系统604可以被用来使用I/O路径602发送和接收命令、请求和其它合适的数据。I/O路径602可以将控制电路系统604(具体而言是处理电路系统606)连接到一个或多个通信路径(下面描述)。I/O功能可以由这些通信路径中的一个或多个提供,但是在图6中被示为单个路径,以避免使图过于复杂。
控制电路系统604可以基于任何合适的处理电路系统,诸如处理电路系统606。如本文所提到的,处理电路系统应当被理解为意指基于一个或多个微处理器、微控制器、数字信号处理器、可编程逻辑设备、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等等的电路系统,并且可以包括多核处理器(例如,双核、四核、六核或任何合适数量的核)或超级计算机。在一些实施例中,处理电路系统可以分布在若干单独的处理器或处理单元上,例如若干相同类型的处理单元(例如,两个Intel Core i7处理器)或若干不同的处理器(例如,IntelCore i5处理器和Intel Core i7处理器)。在一些实施例中,控制电路系统604执行存储在存储器(即,存储装置608)中用于媒体指南应用的指令。具体而言,控制电路系统604可以由媒体指南应用指令,以执行上面和下面讨论的功能。例如,媒体指南应用可以向控制电路系统604提供指令,以生成媒体指南显示。在一些实现中,由控制电路系统604执行的任何动作可以基于从媒体指南应用接收的指令。
在基于客户端-服务器的实施例中,控制电路系统604可以包括适于与指南应用服务器或其它网络或服务器进行通信的通信电路系统。用于执行上述功能的指令可以存储在指南应用服务器上。通信电路系统可以包括用于与其它装备通信的电缆调制解调器、综合业务数字网络(ISDN)调制解调器、数字订户线路(DSL)调制解调器、电话调制解调器、以太网卡或无线调制解调器,或者任何其它合适的通信电路系统。这种通信可以涉及互联网或任何其它合适的通信网络或路径(结合图7更详细地描述)。此外,通信电路系统可以包括使得能够实现用户装备设备的对等通信或者在彼此远离的位置的用户装备设备的通信的电路系统(下面更详细地描述)。
存储器可以是作为存储装置608提供的电子存储设备,存储装置608是控制电路系统604的一部分。如本文所提到的,短语“电子存储设备”或“存储设备”应当被理解为意指用于存储电子数据、计算机软件或固件的任何设备,诸如随机存取存储器、只读存储器、硬盘驱动器、光盘驱动器、数字视频光盘(DVD)记录器、光盘(CD)记录器、BLU-RAY盘(BD)记录器、BLU-RAY 3D盘片记录器、数字视频记录器(DVR,有时称为个人录像机或PVR)、固态设备、量子存储设备、游戏控制台、游戏介质或任何其它合适的固定或可移除存储设备,和/或其任意组合。存储装置608可以被用来存储本文描述的各种类型的内容以及上述的媒体指南数据。非易失性存储器也可以被使用(例如,启动引导程序和其它指令)。关于图7描述的基于云的存储装置可以被用来补充存储装置608或代替存储装置608。
控制电路系统604可以包括视频生成电路系统和调谐电路系统,诸如一个或多个模拟调谐器、一个或多个MPEG-2解码器或其它数字解码电路系统、高清晰度调谐器或者任何其它合适的调谐或视频电路,或者这种电路的组合。还可以提供编码电路系统(例如,用于将空中、模拟或数字信号转换成MPEG信号以供存储)。控制电路系统604还可以包括用于将内容上变频和下变频成用户装备600的优选输出格式的缩放器电路系统。电路系统604还可以包括用于在数字和模拟信号之间转换的数模转换器电路系统和模数转换器电路系统。调谐和编码电路系统可以被用户装备设备用来接收和显示、播放或记录内容。调谐和编码电路系统也可以被用来接收指南数据。本文描述的电路系统,包括例如调谐、视频生成、编码、解码、加密、解密、缩放器和模拟/数字电路系统,可以使用在一个或多个通用或专用处理器上运行的软件来实现。可以提供若干调谐器来处理同时调谐功能(例如,观看和记录功能、画中画(PIP)功能、多调谐器记录等等)。如果存储装置608被提供为与用户装备600分开的设备,那么调谐和编码电路系统(包括若干调谐器)可以与存储装置608相关联。
用户可以使用用户输入界面610向控制电路系统604发送指令。用户输入界面610可以是任何合适的用户界面,诸如遥控器、鼠标、轨迹球、小键盘、键盘、触摸屏、触摸板、触笔输入、游戏杆、语音识别界面或其它用户输入界面。显示器612可以被提供为独立的设备或与用户装备设备600的其它元件集成。例如,显示器612可以是触摸屏或触敏显示器。在这种情况下,用户输入界面610可以与显示器612集成或者与显示器612结合。显示器612可以是以下中的一个或多个:监视器、电视机、用于移动设备的液晶显示器(LCD)、非晶硅显示器、低温多晶硅显示器、电子墨水显示器、电泳显示器、有源矩阵显示器、电润湿显示器、电流体显示器、阴极射线管显示器、发光二极管显示器、电致发光显示器、等离子体显示器面板、高性能寻址显示器、薄膜晶体管显示器、有机发光二极管显示器、表面传导电子发射显示器(SED)、激光电视、碳纳米管、量子点显示器、干涉式调制器显示器或用于显示视觉图像的任何其它合适的设备。在一些实施例中,显示器612可以是具有HDTV能力的。在一些实施例中,显示器612可以是3D显示器,并且交互式媒体指南应用和任何合适的内容可以以3D显示。视频卡或图形卡可以将输出生成到显示器612。视频卡可以提供各种功能,诸如3D场景和2D图形的加速渲染、MPEG-2/MPEG-4解码、TV输出或连接若干监视器的能力。视频卡可以是以上关于控制电路系统604描述的任何处理电路系统。视频卡可以与控制电路系统604集成。扬声器614可以被提供为与用户装备设备600的其它元件集成,或者可以是独立的单元。显示器612上显示的视频和其它内容的音频分量可以通过扬声器614播放。在一些实施例中,音频可以分发给接收器(未示出),其经由扬声器614处理和输出音频。
指南应用可以使用任何合适的体系架构来实现。例如,它可以是完全在用户装备设备600上实现的独立应用。在这种方案中,应用的指令被本地存储(例如,存储在存储装置608中),并且由应用使用的数据被定期下载(例如,从带外馈送、从互联网资源,或使用其它合适的方案)。控制电路系统604可以从存储装置608检索应用的指令,并处理指令,以生成本文所讨论的任何显示。基于经处理的指令,控制电路系统604可以确定在从输入界面610接收到输入时要执行什么动作。例如,当输入界面610指示向上/向下按钮被选择时,可以通过经处理的指令来指示显示器上光标的向上/向下的移动。
在一些实施例中,媒体指南应用是基于客户端-服务器的应用。通过向远离用户装备设备600的服务器发出请求,按需检索用于由在用户装备设备600上实现的胖或瘦客户端使用的数据。在基于客户端-服务器的指南应用的一个示例中,控制电路系统604运行解释由远程服务器提供的网页的Web浏览器。例如,远程服务器可以将用于应用的指令存储在存储设备中。远程服务器可以使用电路系统(例如,控制电路系统604)来处理所存储的指令,并生成上面和下面讨论的显示。客户端设备可以接收由远程服务器生成的显示,并且可以在装备设备600上本地显示该显示的内容。以这种方式,由服务器远程地执行指令的处理,同时在装备设备600上本地提供结果显示。装备设备600可以经由输入界面610接收来自用户的输入,并且将那些输入传输到远程服务器进行处理并生成对应的显示。例如,装备设备600可以向远程服务器传输指示经由输入界面610选择了向上/向下按钮的讯息。远程服务器可以根据那个输入来处理指令,并生成与该输入对应的应用的显示(例如,向上/向下移动光标的显示)。所生成的显示然后被传输到装备设备600以供呈现给用户。
在一些实施例中,媒体指南应用被下载并由(由控制电路系统604运行的)解释器或虚拟机解释或以其它方式运行。在一些实施例中,指南应用可以以ETV二进制交换格式(EBIF)编码,由控制电路系统604作为合适的馈送的部分接收,并由在控制电路系统604上运行的用户代理解释。例如,指南应用可以是EBIF应用。在一些实施例中,可以由一系列基于JAVA的文件来定义指南应用,这些基于JAVA的文件由本地虚拟机或控制电路系统604执行的其它合适的中间件接收并运行。在一些此类的实施例中(例如,采用MPEG-2或其它数字媒体编码方案的实施例),可以例如在具有节目的MPEG音频和视频分组的MPEG-2对象轮播中编码和传输指南应用。
图6的用户装备设备600可以在图7的系统700中实现,作为用户电视装备702、用户计算机装备704、无线用户通信设备706或适于访问内容的任何其它类型的用户装备(诸如非便携式游戏机)。为了简单起见,这些设备在本文可以被统称为用户装备或用户装备设备,并且可以基本上类似于上述的用户装备设备。在其上可以实现媒体指南应用的用户装备设备可以用作独立设备或者可以是设备的网络的一部分。设备的各种网络配置可以被实现并且在下面被更详细地讨论。
利用上面结合图6描述的系统特征中的至少一些的用户装备设备可能不仅仅被分类为用户电视装备702、用户计算机装备704或无线用户通信设备706。例如,用户电视装备702可以像一些用户计算机装备704一样启用互联网,以允许访问互联网内容,而用户计算机装备704可以像一些电视装备702一样包括调谐器,以允许访问电视节目。媒体指南应用可以在各种不同类型的用户装备上具有相同的布局,或者可以针对用户装备的显示能力而被定制。例如,在用户计算机装备704上,指南应用可以被提供为由web浏览器访问的网站。在另一个示例中,可以针对无线用户通信设备706缩小指南应用。
在系统700中,通常每种类型的用户装备设备存在多于一个,但是在图7中仅示出了每种类型中的一个,以避免使图过于复杂。此外,每个用户可以利用多于一种类型的用户装备设备以及多于一个每种类型的用户装备设备。
在一些实施例中,用户装备设备(例如,用户电视装备702、用户计算机装备704、无线用户通信设备706)可以被称为“第二屏幕设备”。例如,第二屏幕设备可以补充在第一用户装备设备上呈现的内容。在第二屏幕设备上呈现的内容可以是补充在第一设备上呈现的内容的任何合适的内容。在一些实施例中,第二屏幕设备提供用于调整第一设备的设置和显示偏好的界面。在一些实施例中,第二屏幕设备被配置用于与其它第二屏幕设备交互或用于与社交网络交互。第二屏幕设备可以位于与第一设备相同的房间中、与第一设备不同的房间但在同一个房屋或建筑物中,或者与第一设备不同的建筑物中。
用户还可以设置各种设置,以在家用式设备和远程设备之间维持一致的媒体指南应用设置。设置包括本文描述的那些设置,以及频道和节目收藏,指南应用用来做出节目推荐、显示偏好的节目偏好,和其它期望的指南设置。例如,如果用户将例如网站www.Tivo.com上的频道设置为其办公室的个人计算机上的收藏,那么相同的频道将在用户的家用式设备(例如,用户电视装备和用户计算机装备)以及用户的移动设备上出现为收藏。因此,在一个用户装备设备上进行的改变可以改变另一个用户装备设备上的指南体验,而不管它们是相同类型还是不同类型的用户装备设备。此外,所做的改变可以基于用户输入的设置以及由指南应用监视的用户活动。
用户装备设备可以耦合到通信网络714。即,用户电视装备702、用户计算机装备704和无线用户通信设备706分别经由通信路径708、710和712耦合到通信网络714。通信网络714可以是一个或多个网络,包括互联网、移动电话网络、移动语音或数据网络(例如,4G或LTE网络)、有线网络、公共交换电话网络或其它类型的通信网络,或者通信网络的组合。路径708、710和712可以单独地或一起包括一条或多条通信路径,诸如卫星路径、光纤路径、电缆路径、支持互联网通信(例如,IPTV)的路径、自由空间连接(例如,用于广播或其它无线信号)或任何其它合适的有线或无线通信路径或这种路径的组合。路径712用点线画出,以指示在图7所示的示例性实施例中它是无线路径,并且路径708和710被绘制为实线,以指示它们是有线路径(但是,如果期望,那么这些路径可以是无线路径)。与用户装备设备的通信可以由这些通信路径中的一个或多个提供,但是在图7中被示为单个路径,以避免使图过于复杂。
虽然在用户装备设备之间没有画出通信路径,但是这些设备可以经由通信路径(诸如上面结合路径708、710和712描述的那些)以及其它短距离点到点通信路径(诸如USB电缆、IEEE 1394电缆、无线路径(例如,蓝牙、红外线、IEEE 802-11x等))或者经由有线或无线路径的其它短距离通信彼此直接通信。蓝牙是Bluetooth SIG公司拥有的认证标志。用户装备设备也可以通过经由通信网络714的间接路径彼此直接通信。
系统700包括分别经由通信路径720和722耦合到通信网络714的内容源716和媒体指南数据源718。路径720和722可以包括上面结合路径708、710和712描述的任何通信路径。与内容源716和媒体指南数据源718的通信可以经一条或多条通信路径交换,但是在图7中被示为单条路径,以避免使图过于复杂。此外,内容源716和媒体指南数据源718中的每一种可以有多于一个,但是在图7中每种仅示出一个,以避免使图过于复杂。(以下讨论这些源中的每一种的不同类型。)如果期望,那么内容源716和媒体指南数据源718可以被集成为一个源设备。虽然源716和718与用户装备设备702、704和706之间的通信被示为通过通信网络714,但是在一些实施例中,源716和718可以经由通信路径(未示出)(诸如上面结合路径708、710和712描述的那些)与用户装备设备702、704和706直接通信。
系统700还可以包括经由通信路径726耦合到通信网络714的广告源724。路径726可以包括以上结合路径708、710和712描述的任何通信路径。广告源724可以包括广告逻辑,以确定哪些广告要传输给具体用户以及在什么情况下传输。例如,有线运营商可以有权在具体频道的具体时隙内插入广告。因此,广告源724可以在那些时隙期间向用户传输广告。作为另一个示例,广告源可以基于已知要观看特定节目的用户的人口统计(例如,观看真人秀的青少年)来确定广告的目标。作为又一个示例,广告源可以取决于观看媒体资产的用户装备的位置(例如,东海岸或西海岸)提供不同的广告。
在一些实施例中,广告源724可以被配置为维护包括与用户相关联的广告适合性得分的用户信息,以便提供有针对性的广告。附加地或可替代地,与广告源724相关联的服务器可以被配置为存储可以被用于导出广告适合性得分的原始信息。在一些实施例中,广告源724可以向另一个设备传输对原始信息的请求,并计算广告适合性得分。广告源724可以更新针对具体用户(例如,用户的第一子集、第二子集或第三子集)的广告适合度得分,并将目标产品的广告传输给适当的用户。
内容源716可以包括一种或多种类型的内容分发装备,包括电视分发设施、有线系统头端、卫星分发设施、节目源(例如,电视广播公司,诸如NBC、ABC、HBO等)、中间分发设施和/或服务器、互联网提供商、点播媒体服务器及其它内容提供商。NBC是美国全国广播公司(National Broadcasting Company,Inc.)拥有的商标,ABC是美国广播公司(AmericanBroadcasting Company,Inc.)拥有的商标,而HBO是Home Box Office,Inc.拥有的商标。内容源716可以是内容的发起者(例如,电视广播公司、网络广播提供商等),或者可以不是内容的发起者(例如,点播内容提供商,用于下载的广播节目的内容的互联网提供商等)。内容源716可以包括有线源(cable source)、卫星提供商、点播提供商、互联网提供商、越顶(over-the-top)内容提供商或其它内容提供者。内容源716还可以包括用来在远离任何用户装备设备的位置存储不同类型的内容(包括用户选择的视频内容)的远程媒体服务器。用于内容的远程存储以及向用户装备提供远程存储的内容的系统和方法结合2010年7月20日授予Ellis等人的美国专利No.7,761,892更详细地讨论,该专利整体上通过引用并入本文。
媒体指南数据源718可以提供媒体指南数据,诸如上述的媒体指南数据。媒体指南数据可以使用任何合适的方案提供给用户装备设备。在一些实施例中,指南应用可以是经由数据馈送(例如,连续馈送或涓流(trickle)馈送)接收节目指南数据的独立交互式电视节目指南。可以使用带内数字信号、使用带外数字信号或通过任何其它合适的数据传输技术在电视频道边带上向用户装备提供节目调度数据和其它指南数据。可以在若干模拟或数字电视频道上向用户装备提供节目调度数据和其它媒体指南数据。
在一些实施例中,可以使用客户端-服务器方法将来自媒体指南数据源718的指南数据提供给用户的装备。例如,用户装备设备可以从服务器拉取媒体指南数据,或者服务器可以将媒体指南数据推送到用户装备设备。在一些实施例中,驻留在用户装备上的指南应用客户端可以发起与源718的会话,以在需要时获得指南数据,例如,当指南数据过时或者当用户装备设备从用户接收到接收数据的请求时。可以以任何适当的频率(例如,连续地、每天、用户指定的时间段、系统指定的时间段、响应于来自用户装备的请求等)向用户装备提供媒体指南。媒体指南数据源718可以向用户装备设备702、704和706提供媒体指南应用本身或者针对媒体指南应用的软件更新。
在一些实施例中,媒体指南数据可以包括观看者数据。例如,观看者数据可以包括当前和/或历史用户活动信息(例如,用户通常观看什么内容、用户在什么时间观看内容,用户是否与社交网络交互、用户在什么时间与社交网络交互以发布信息、用户通常观看什么类型的内容(例如,付费电视或免费电视)、心情、大脑活动信息等)。媒体指南数据还可以包括订阅数据。例如,订阅数据可以识别给定用户订阅哪些源或服务和/或给定用户先前订阅但后来终止访问了哪些源或服务(例如,用户是否订阅了付费频道、用户是否增加了服务的付费等级、用户是否提高了互联网速度)。在一些实施例中,观看者数据和/或订阅数据可以识别给定用户在超过一年的时间段内的模式。媒体指南数据可以包括用于生成指示给定用户将终止访问服务/源的可能性的得分的模型(例如,幸存者模型)。例如,媒体指南应用可以使用该模型处理具有订阅数据的观看者数据,以生成指示给定用户是否将终止访问特定服务或源的可能性的值或得分。特别地,得分越高可以指示用户将终止访问特定服务或源的置信度越高。基于得分,媒体指南应用可以生成诱使用户保持通过得分被指示为用户可能终止对其访问的特定服务或源的促销。
媒体指南应用可以是例如在用户装备设备上实现的独立应用。例如,媒体指南应用可以被实现为可以存储在存储装置608中并由用户装备设备600的控制电路系统604执行的软件或可执行指令集。在一些实施例中,媒体指南应用可以是客户端-服务器应用,其中仅客户端应用驻留在用户装备设备上,而服务器应用驻留于远程服务器上。例如,媒体指南应用可以部分地被实现为用户装备设备600的控制电路系统604上的客户端应用,并且部分地在远程服务器上被实现为在远程服务器的控制电路系统上运行的服务器应用(例如,媒体指南数据源718)。当由远程服务器(诸如媒体指南数据源718)的控制电路系统执行时,媒体指南应用可以指令控制电路系统生成指南应用显示,并将生成的显示传输到用户装备设备。服务器应用可以指令媒体指南数据源718的控制电路系统传输要存储在用户装备上的数据。客户端应用可以指令接收方用户装备的控制电路系统生成指南应用显示。
交付到用户装备设备702、704和706的内容和/或媒体指南数据可以是越顶(OTT)内容。除了经有线或卫星连接接收的内容,OTT内容交付还允许启用互联网的用户设备(包括上述任何用户装备设备)接收经互联网传送的内容(包括上述任何内容)。OTT内容经由互联网服务提供商(ISP)提供的互联网连接交付,但第三方分发内容。ISP可以不负责观看能力、版权或内容的再分发,并且可以仅传送由OTT内容提供商提供的IP分组。OTT内容提供商的示例包括经由IP分组提供音频和视频的YOUTUBE、NETFLIX和HULU。Youtube是Google公司拥有的商标,Netflix是Netflix公司拥有的商标,Hulu是Hulu有限责任公司拥有的商标。OTT内容提供商可以附加地或可替代地提供上述媒体指南数据。除了内容和/或媒体指南数据,OTT内容的提供商可以分发媒体指南应用(例如,基于web的应用或基于云的应用),或者可以通过存储在用户装备设备上的媒体指南应用来显示内容。
媒体指南系统700旨在示出多个方案或网络配置,用户装备设备和内容和指南数据的源可以为了访问内容和提供媒体指南而通过其彼此通信。本文所述的实施例可以按照这些方法中的任何一个或子集应用,或者在采用其它方法交付内容并提供媒体指南的系统中应用。以下四种方案提供了图7的一般化示例的具体说明。
在一种方法中,用户装备设备可以在家庭网络内彼此通信。用户装备设备可以经由上述短程点到点通信方案、经由通过在家庭网络上提供的集线器或其它类似设备的间接路径或者经由通信网络714直接彼此通信。单个家庭中的若干个人中的每一个可以操作在家庭网络上的不同用户装备设备。因此,可能期望在不同的用户装备设备之间传送各种媒体指南信息或设置。例如,如Ellis等人在2005年7月11日提交的美国专利公开No.2005/0251827中更详细描述的,用户可能期望在家庭网络内的不同用户装备设备上维持一致的媒体指南应用设置。家庭网络中的不同类型的用户装备设备也可以彼此通信,以传输内容。例如,用户可以将内容从用户计算机装备传输到便携式视频播放器或便携式音乐播放器。
在第二种方法中,用户可以具有若干类型的用户装备,他们通过这些用户装备访问内容并获得媒体指南。例如,一些用户可以具有由家用式和移动设备访问的家庭网络。用户可以通过在远程设备上实现的媒体指南应用来控制家用式设备。例如,用户可以经由他们办公室的个人计算机或移动设备(诸如PDA或启用web的移动电话)访问网站上的在线媒体指南应用。用户可以在在线指南应用上设置各种设置(例如,记录、提醒或其它设置)来控制用户的家用式装备。在线指南可以直接控制用户的装备,或者通过与用户的家用式装备上的媒体指南应用通信来控制。例如,在2011年10月25日授予Ellis等人的美国专利No.8,046,801中讨论了用于用户装备设备通信的各种系统和方法,其中用户装备设备处于彼此远离的位置,该专利整体上通过引用并入本文。
在第三种方法中,在家庭内部和外部的用户装备设备的用户可以使用他们的媒体指南应用来直接与内容源716通信,以访问内容。具体而言,在家里,用户电视装备702和用户计算机装备704的用户可以访问媒体指南应用,以在期望的内容之间导航并定位。用户还可以使用无线用户通信设备706在家外面访问媒体指南应用,以在期望的内容之间导航并定位。
在第四种方法中,用户装备设备可以在云计算环境中操作,以访问云服务。在云计算环境中,用于内容共享、存储或分发的各种类型的计算服务(例如,视频共享站点或社交网站)由被称为“云”的网络可访问的计算和存储资源的集合提供。例如,云可以包括服务器计算设备的集合,其可以位于集中或分布的位置,通过通信网络714向经由网络(诸如互联网)连接的各种类型的用户和设备提供基于云的服务。这些云资源可以包括一个或多个内容源716和一个或多个媒体指南数据源718。此外或在替代方案中,远程计算站点可以包括其它用户装备设备,诸如用户电视装备702、用户计算机装备704和无线用户通信设备706。例如,其它用户装备设备可以提供对存储的视频副本或流传输视频的访问。在这种实施例中,用户装备设备可以以对等方式操作,而不与中央服务器通信。
除了其它示例,对于用户装备设备,云还提供对服务(诸如内容存储、内容共享或社交联网服务)的访问,以及对上述任何内容的访问。可以通过云计算服务提供商或通过其它在线服务的提供商在云中提供服务。例如,基于云的服务可以包括内容存储服务、内容共享站点、社交网站、或者用户来源的内容经由其分发以供所连接的设备上的其他人收看的其它服务。这些基于云的服务可以允许用户装备设备将内容存储到云并且从云接收内容,而不是在本地存储内容并访问本地存储的内容。
用户可以使用各种内容捕获设备(诸如摄像机、具有视频模式的数码相机、音频记录器、移动电话和手持式计算设备)来记录内容。用户可以直接地(例如,从用户计算机装备704或具有内容捕获特征的无线用户通信设备706)将内容上载到云上的内容存储服务。可替代地,用户可以先将内容传送到用户装备设备(诸如用户计算机装备704)。存储内容的用户装备设备使用通信网络714上的数据传输服务将内容上传到云。在一些实施例中,用户装备设备本身是云资源,并且其它用户装备设备可以直接从用户在其上存储内容的用户装备设备访问内容。
云资源可以由用户装备设备使用例如web浏览器、媒体指南应用、桌面应用、移动应用和/或其访问应用的任意组合来访问。用户装备设备可以是依赖云计算进行应用交付的云客户端,或者用户装备设备可以具有某些功能而无需访问云资源。例如,在用户装备设备上运行的一些应用可以是云应用,即,作为服务经互联网交付的应用,而其它应用可以在用户装备设备上存储和运行。在一些实施例中,用户设备可以同时从若干云资源接收内容。例如,用户设备可以从一个云资源流传输音频,同时从第二个云资源下载内容。或者用户设备可以从若干云资源下载内容,以便更高效的下载。在一些实施例中,用户装备设备可以使用云资源来处理操作,诸如由关于图6描述的处理电路系统执行的处理操作。
如本文所提到的,术语“响应于…”是指由于...而被发起。例如,第一动作响应于第二动作而被执行可以包括第一动作和第二动作之间的插入式步骤。如本文所提到的,术语“直接响应于...”是指由...造成的。例如,第一动作响应于第二动作而被直接执行可以不包括第一动作和第二动作之间的插入式步骤。
图8是根据本公开的一些实施例的用于以基于语音命令的音量级别的音量级别通过语音操作的用户设备生成可听响应的说明性步骤的流程图。例如,媒体指南应用可以指令控制电路系统604执行处理800的元素。
处理800在802处开始,在那里媒体指南应用检测(例如,经由控制电路系统604)用户说出的语音命令。媒体指南应用可以通过多个语音操作的用户设备中的第一语音操作的用户设备来检测语音命令。例如,以与以上关于图1关于通过语音操作的用户设备102检测来自用户110的语音命令106所描述的方式相似的方式,媒体指南应用可以通过语音操作的用户设备DeviceA参考用户当前正在观看的电影来检测来自用户说出“重复最后一行”的语音命令。
处理800继续到804,在那里媒体指南应用确定(例如,经由控制电路系统604)语音命令的第一音量级别。这个语音命令例如由语音操作的用户设备接收。例如,以与以上关于图1关于在语音操作的用户设备102处检测语音命令106的音量级别所描述的方式相似的方式,第一音量级别可以是在语音操作的用户设备处检测到的语音命令的输入音量的平均值。
处理800继续到808,在那里媒体指南应用接收(例如,经由控制电路系统604)多个音量级别。例如,几个语音操作的用户设备可以检测来自用户的语音命令。这些设备中的每一个可以接收不同音量级别的语音命令,例如,取决于与用户的接近程度。因此,多个语音操作的用户设备中的每个语音操作的用户设备将与语音命令的多个音量级别中的音量级别相关联。媒体指南应用可以接收将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备相关联的至少一个数据结构。例如,媒体指南应用可以从多个语音操作的用户设备中的每个语音操作的用户设备接收(例如,经由控制电路系统604)包含用于相应语音操作的用户设备的音量级别和语音操作的用户设备标识符的数据结构。例如,媒体指南应用可以从第二语音操作的用户设备接收(例如,经由控制电路系统604)包含音量级别52db和设备标识符DeviceB的数据结构。例如,媒体指南应用可以从第三语音操作的用户设备接收(例如,经由控制电路系统604)包含音量级别50db和设备标识符DeviceC的数据结构。
处理800继续到810,在那里媒体指南应用确定(例如,经由控制电路系统604)多个音量级别中的最大音量级别。在一些实施例中,媒体指南应用可以将第一音量级别与多个音量级别进行比较。例如,媒体指南应用可以将与DeviceA相关联的48dB与与DeviceB相关联的52dB以及与DeviceC相关联的50dB进行比较。在一些实施例中,媒体指南应用可以基于将第一音量级别与多个音量级别进行比较来确定(例如,经由控制电路系统604)多个音量级别中的最大音量级别。例如,由多个语音操作的用户设备中的任何一个接收的最大音量级别可以是52dB。多个音量级别中的最大音量级别是由多个语音操作的用户设备接收到的音量级别中最响亮的。
处理800继续到812,在那里媒体指南应用确定(例如,经由控制电路系统604)与最大音量级别相关联的第二语音操作的设备。在一些实施例中,媒体指南应用可以(例如,经由控制电路系统604)在至少一个数据结构中搜索与最大音量级别相关联的第二语音操作的用户设备。与最大音量相关联的用户设备将是距发出语音命令的用户最近的设备,因为设备距用户越近,来自该用户的语音命令向该设备发出的声音将越大。例如,如如果最大音量级别是52dB,那么媒体指南应用可以搜索数据结构以查找与52dB音量级别相关联的语音操作的用户设备。在数据结构中,音量级别52dB可以与表示第二语音操作的用户设备的设备标识符DeviceB相关联。在这个示例中,DeviceB是距用户最近的语音操作的用户设备。
处理800继续到814,在那里媒体指南应用向第二语音操作的设备传输(例如,经由通信网络714)命令,其中该命令指令第二语音操作的设备将响应音量级别更新为第二音量级别,该第二音量级别基于最大音量级别。在一些实施例中,媒体指南应用可以将命令传输到第二语音操作的用户设备。该命令可以指令(例如,经由通信网络714)第二语音操作的用户设备将响应级别更新为基于最大音量级别的第二音量级别。例如,媒体指南应用可以指令被识别为DeviceB的第二语音操作的用户设备将响应级别改变为音量级别52dB。例如,媒体指南应用可以代替地指令(例如,经由通信网络714)被识别为DeviceB的第二语音操作的用户设备将响应级别改变为53dB,这比最大音量级别稍大。媒体指南应用可以以这种方式稍微增加最大音量级别以确定第二音量,以考虑环境噪声。
处理800继续到816,在那里媒体指南应用通过第二语音操作的用户设备以第二音量级别生成(例如,经由控制电路系统604)可听响应。在一些实施例中,媒体指南应用可以生成对语音命令的可听响应。可以通过第二语音操作的用户设备以第二音量级别生成可听响应。例如,被识别为DeviceB的第二语音操作的用户设备可以以音量级别53dB重复用户当前正在观看的电影的最后一行(例如,“愿力量与你同在”)。在一些实施例中,第一和第二语音操作的用户设备可以是同一个设备,并且第一音量级别和第二音量可以是相同的音量级别。
图9是根据本公开的一些实施例的用于如果用户未确认可听响应则生成对语音命令的第二可听响应的说明性步骤的流程图。
处理900在902处开始,在那里媒体指南应用确定(例如,经由控制电路系统604)与可听响应被生成之时对应的第一时间。例如,当生成可听响应时,媒体指南应用可以将时间戳保存(例如,经由控制电路系统604)到数据结构(例如,在存储装置608中)。例如,可听响应可以已经在下午3:12:03生成。
处理900继续到904,在那里媒体指南应用将一时间段加上(例如,经由控制电路系统604)第一时间以计算第二时间。例如,该时间段可以是20秒。如果第一时间是下午3:12:03,那么第二时间可以是下午3:12:23。该时间段表示媒体指南应用在再次响应用户的语音命令之前要等待多长时间。
处理900继续到906,在那里媒体指南应用确定(例如,经由控制电路系统604)在第二时间之前是否已经接收到确认。确认指示用户听到了可听响应。例如,来自第二语音操作的用户设备(诸如DeviceB)的可听响应可以是“愿力量与你同在”。用户可以通过说“谢谢设备B”来确认这个响应。
如果媒体指南应用确定在第二时间之前已经接收到确认,那么处理900继续到908,在那里处理900结束。如果媒体指南应用确定(例如,经由控制电路系统604)在第二时间之前尚未接收到确认,那么处理900继续到910,在那里媒体指南应用可以生成第二可听响应。例如,第二可听响应可以与该可听响应相同,在这种情况下,第二用户设备简单地以相同或不同的音量级别向用户重复可听响应。第二可听响应还可以例如提示用户做出响应。例如,如果DeviceB到下午3:12:23还未从用户接收到确认,那么媒体指南应用可以通过DeviceB生成第二可听响应,询问“您听到‘愿力量与你同在’了吗?”。
图10是根据本公开的一些实施例的用于如果用户未确认可听响应则生成对语音命令的第二可听响应的说明性步骤的流程图。
处理1000在1002处开始,在那里媒体指南应用确定(例如,经由控制电路系统604)与可听响应被生成之时对应的第一时间。例如,当生成可听响应时,媒体指南应用可以将时间戳保存(例如,经由控制电路系统604)到数据结构(例如,在存储装置608中)。例如,可听响应可以已经在下午3:12:03生成。
处理1000继续到1004,在那里媒体指南应用使用用户简档来确定(例如,经由控制电路系统604)响应的平均时间段。可以例如从用户简档数据库(例如,存储在存储装置608中的数据库)访问用户简档。例如,媒体指南应用可以通过接收用户说出的关键词来识别(例如,经由控制电路系统604)用户简档,其中关键词与具体用户相关联。媒体指南应用还可以通过用户的语音模式来识别(例如,经由控制电路系统604)用户简档。用户简档可以包含例如第一数据结构,该第一数据结构包含用户过去响应语音操作的用户设备所花费的时间量。媒体指南应用可以计算(例如,经由控制电路系统604)这些过去响应时间的平均值,以确定用户进行响应的平均时间。例如,用户过去可以已经花费10秒、5秒和15秒来响应第二语音操作的用户设备。对于这个用户,等待响应的时间段可以被设置为10秒,因为10秒是用户过去响应时间的平均值。
处理1000继续到1006,在那里媒体指南应用将平均时间段加上(例如,经由控制电路系统604)第一时间以计算第二时间。例如,如果平均时间段是10秒并且第一时间是下午3:12:03,那么第二时间是下午3:12:13。
处理1000继续到1008,在那里媒体指南应用确定(例如,经由控制电路系统604)在第二时间之前是否已经接收到确认。如果媒体指南应用确定在第二时间之前已经接收到确认,那么处理1000继续到1010,在那里处理1000结束。如果媒体指南应用确定在第二时间之前尚未接收到确认,那么处理1000继续到1012,在那里媒体指南应用可以通过第二语音操作的用户设备生成(例如,经由控制电路系统604)第二可听响应。例如,第二可听响应可以与该可听响应相同,在这种情况下,第二用户设备简单地以相同或不同的音量级别向用户重复可听响应。第二可听响应还可以例如提示用户做出响应。例如,如果DeviceB到下午3:12:23还未从用户接收到确认,那么媒体指南应用可以通过DeviceB生成第二可听响应,询问“您听到‘愿力量与你同在’了吗?”。
图11是根据本公开的一些实施例的用于将对语音命令的响应的可视表示传输到显示设备的说明性步骤的流程图。
处理1100在1102处开始,在那里媒体指南应用确定(例如,经由控制电路系统604)与可听响应被生成之时对应的第一时间。例如,当生成可听响应时,媒体指南应用可以将时间戳保存(例如,经由控制电路系统604)到数据结构(例如,在存储装置608中)。例如,可听响应可以已经在下午3:12:03生成。
处理1100继续到1104,在那里媒体指南应用将一段时间加上(例如,经由控制电路系统604)第一时间以计算第二时间。例如,时间段可以是20秒。如果第一时间是下午3:12:03,那么第二时间可以是下午3:12:23。该时间段表示媒体指南应用在再次响应用户的语音命令之前要等待多长时间。
处理1100继续到1106,在那里媒体指南应用确定(例如,经由控制电路系统604)在第二时间之前是否已经接收到确认。确认指示用户听到了可听响应。例如,来自第二语音操作的用户设备(诸如DeviceB)的可听响应可以是“愿力量与你同在”。用户可以通过说“谢谢设备B”来确认这个响应。
如果媒体指南应用确定在第二时间之前已经接收到确认,那么处理1100继续到1108,在那里处理1100结束。如果媒体指南应用确定在第二时间之前尚未接收到确认,那么处理1100继续到1110,在那里媒体指南应用可以识别(例如,经由控制电路系统604)与用户相关联的显示设备。例如,媒体指南应用可以通过用户简档与和用户相关联的电视接口(例如,经由通信网络714)。处理1100继续到1112,在那里媒体指南应用将响应的可视表示传输(例如,经由通信网络714)到显示设备。例如,媒体指南应用可以在电视上生成窗口并且可以在该窗口中显示响应。例如,当从用户接收到的请求是关于节目名称的查询时,媒体指南应用可以显示节目的标题“权力的游戏”。此外,在生成可听响应之后,显示窗口可以包括对给出可听响应的设备的引用。例如,媒体指南应用可以显示“DeviceB说出‘权力的游戏’”。这通知用户他们正在与哪个设备通信,以及因此,哪个设备在他们附近。
图12是根据本公开的一些实施例的用于以第三音量级别生成第二可听响应的说明性步骤的流程图。
处理1200在1202处开始,在那里媒体指南应用识别(例如,经由控制电路系统604)与用户相关联的用户简档。例如,媒体指南应用可以通过接收用户说出的关键词来识别(例如,经由控制电路系统604)用户简档。例如,UserA可以在发出语音命令之前说“UserA”。媒体指南应用还可以例如通过用户的语音或声音模式来识别(例如,经由控制电路系统604)用户简档。
处理1200继续到1204,在那里媒体指南应用使用用户简档来识别(例如,经由控制电路系统604)与用户相关联的平均讲话音量。例如,用户简档可以包含第一数据结构,该第一数据结构包含用户过去使用的讲话音量。媒体指南应用可以计算(例如,经由控制电路系统604)这些过去讲话音量的平均值,以确定用户的平均讲话音量。例如,用户的平均讲话音量可以是60dB。
处理1200继续到1206,在那里媒体指南应用确定(例如,经由控制电路系统604)平均讲话音量与最大音量级别(即,由最靠近用户的语音操作的用户设备接收的音量级别)之间的差异。例如,最大音量级别可以是52dB并且用户的平均讲话音量可以是60dB。在这种情况下,差异为8dB。
处理1200继续到1208,在那里媒体指南应用基于该差异加上第二音量级别来确定(例如,经由控制电路系统604)第三音量级别。例如,第二音量级别可以是53dB并且差异可以是8dB。那么第三音量可以是61dB。
处理1200继续到1210,在那里媒体指南应用以第三音量级别生成(例如,经由控制电路系统604)第二可听响应。例如,第三音量级别可以是61dB,并且媒体指南应用可以通过第二语音操作的用户设备生成(例如,经由控制电路系统604)61dB的第二可听响应。
图13是根据本公开的一些实施例的用于过滤语音命令的说明性步骤的流程图。
处理1300在1302处开始,在那里媒体指南应用测量(例如,经由控制电路系统604)语音命令的未经过滤的音量级别。例如,语音命令的未经过滤的音量级别可以是60dB。但是,这个未经过滤的音量级别可以包括一定级别的背景噪声,诸如在用户附近可听地播放电影的电视。
处理1300继续到1304,在那里媒体指南应用确定(例如,经由控制电路系统604)背景噪声的级别。例如,在电视上播放的电影可以比用户的声音具有更高的频率。
处理1300继续到1306,在那里媒体指南应用过滤(例如,经由控制电路系统604)语音命令以移除背景噪声的级别。例如,媒体指南应用可以过滤掉(例如,经由控制电路系统604)语音命令的高频分量以移除背景噪声。
处理1300继续到1308,在那里媒体指南应用计算(例如,经由控制电路系统604)语音命令的经过滤的音量级别。例如,与未经过滤的音量级别60dB相比,语音命令的经过滤的音量级别可以是48dB。

Claims (45)

1.一种用于以基于语音命令的音量级别的音量级别对语音命令做出响应的方法,所述方法包括:
通过多个语音操作的用户设备中的第一语音操作的用户设备来检测用户说出的语音命令;
确定语音命令的第一音量级别,其中语音命令由第一语音操作的用户设备接收;
确定所述多个语音操作的用户设备中的每个语音操作的用户设备处语音命令的音量级别;
接收至少一个数据结构,所述数据结构将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备关联;
将第一音量级别与所述多个音量级别进行比较;
基于将第一音量级别与所述多个音量级别进行比较,确定所述多个音量级别中的最大音量级别;
将最大音量级别与至少一个数据结构进行比较,以确定与最大音量级别相关联的第二语音操作的用户设备;
识别与用户相关联的用户简档;
使用用户简档来识别与用户相关联的多个用户音量级别;
确定所述多个用户音量级别中的最低用户音量级别;
向第二语音操作的用户设备传输命令,其中所述命令指令第二语音操作的用户设备将响应音量级别更新为第二音量级别,所述第二音量级别基于最大音量级别和最低用户音量级别;以及
通过第二语音操作的用户设备以第二音量级别生成可听响应。
2.如权利要求1所述的方法,还包括:
确定与可听响应被生成之时对应的第一时间;
计算第二时间,其中所述第二时间是第一时间加上一时间段;以及
基于是否在第三时间接收到确认而通过第二语音操作的用户设备生成第二可听响应,其中第三时间在第二时间之前。
3.如权利要求2所述的方法,还包括:
确定所述时间段,其中确定所述时间段包括使用用户简档来确定用于响应的平均时间。
4.如权利要求2所述的方法,其中生成第二可听响应包括:
确定第三音量级别,其中第三音量级别大于第二音量级别;以及
其中第二可听响应是以第三音量级别生成的。
5.如权利要求2所述的方法,还包括:
使用用户简档来识别与用户相关联的平均讲话音量级别;
确定平均讲话音量级别与最大音量级别之间的差异;以及
其中确定第三音量级别是基于所述差异加上第二音量级别。
6.如权利要求1所述的方法,还包括:
接收来自用户的确认,其中所述确认指示用户听到了可听响应;以及
响应于接收到确认,将第二音量级别存储在用户简档中。
7.如权利要求1所述的方法,还包括:
确定与可听响应被生成之时对应的第一时间;
计算第二时间,其中所述第二时间是第一时间加上一时间段;
识别与用户相关联的显示设备;
生成可听响应的可视表示以供显示;以及
基于是否在第三时间接收到确认,将可视表示传输到显示设备,其中第三时间在第二时间之前。
8.如权利要求1所述的方法,还包括:
使用用户简档来确定用户具有听力障碍;
识别与用户相关联的显示设备;
生成可听响应的可视表示以供显示;以及
将可视表示传输到显示设备。
9.如权利要求1所述的方法,其中确定第一音量级别包括:
测量语音命令的未经过滤的音量级别;
确定背景噪声的级别;
过滤语音命令以移除背景噪声的级别;以及
计算语音命令的经过滤的音量级别。
10.一种用于以基于语音命令的音量级别的音量级别对语音命令做出响应的系统,所述系统包括:
控制电路系统,被配置为:
通过多个语音操作的用户设备中的第一语音操作的用户设备来检测用户说出的语音命令;
确定语音命令的第一音量级别,其中语音命令由第一语音操作的用户设备接收;
确定所述多个语音操作的用户设备中的每个语音操作的用户设备处语音命令的音量级别;
接收至少一个数据结构,所述数据结构将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备关联;
将第一音量级别与所述多个音量级别进行比较;
基于将第一音量级别与所述多个音量级别进行比较,确定所述多个音量级别中的最大音量级别;
将最大音量级别与至少一个数据结构进行比较,以确定与最大音量级别相关联的第二语音操作的用户设备;
识别与用户相关联的用户简档;
使用用户简档来识别与用户相关联的多个用户音量级别;
确定所述多个用户音量级别中的最低用户音量级别;
向第二语音操作的用户设备传输命令,其中所述命令指令第二语音操作的用户设备将响应音量级别更新为第二音量级别,所述第二音量级别基于最大音量级别和最低用户音量级别;以及
通过第二语音操作的用户设备以第二音量级别生成可听响应。
11.如权利要求10所述的系统,其中控制电路系统还被配置为:
确定与可听响应被生成之时对应的第一时间;
计算第二时间,其中所述第二时间是第一时间加上一时间段;以及
基于是否在第三时间接收到确认而通过第二语音操作的用户设备生成第二可听响应,其中第三时间在第二时间之前。
12.如权利要求11所述的系统,其中控制电路系统还被配置为:
通过使用用户简档确定用于响应的平均时间来确定所述时间段。
13.如权利要求11所述的系统,其中控制电路系统被配置为通过以下操作来生成第二可听响应:
确定第三音量级别,其中第三音量级别大于第二音量级别;以及
其中第二可听响应是以第三音量级别生成的。
14.如权利要求11所述的系统,其中控制电路系统还被配置为:
使用用户简档来识别与用户相关联的平均讲话音量级别;以及
确定平均讲话音量级别与最大音量级别之间的差异;
其中确定第三音量级别是基于所述差异加上第二音量级别。
15.如权利要求10所述的系统,其中控制电路系统还被配置为:
接收来自用户的确认,其中所述确认指示用户听到了可听响应;以及
响应于接收到确认,将第二音量级别存储在用户简档中。
16.如权利要求10所述的系统,其中控制电路系统还被配置为:
确定与可听响应被生成之时对应的第一时间;
计算第二时间,其中所述第二时间是第一时间加上一时间段;
识别与用户相关联的显示设备;
生成可听响应的可视表示以供显示;以及
基于是否在第三时间接收到确认,将可视表示传输到显示设备,其中第三时间在第二时间之前。
17.如权利要求10所述的系统,其中控制电路系统还被配置为:
使用用户简档来确定用户具有听力障碍;
识别与用户相关联的显示设备;
生成可听响应的可视表示以供显示;以及
将可视表示传输到显示设备。
18.如权利要求10所述的系统,其中控制电路系统被配置为通过以下操作来确定第一音量级别:
测量语音命令的未经过滤的音量级别;
确定背景噪声的级别;
过滤语音命令以移除背景噪声的级别;以及
计算语音命令的经过滤的音量级别。
19.一种用于以基于语音命令的音量级别的音量级别对语音命令做出响应的系统,所述系统包括:
用于通过多个语音操作的用户设备中的第一语音操作的用户设备来检测用户说出的语音命令的装置;
用于确定语音命令的第一音量级别的装置,其中语音命令由第一语音操作的用户设备接收;
用于确定所述多个语音操作的用户设备中的每个语音操作的用户设备处语音命令的音量级别的装置;
用于接收至少一个数据结构的装置,所述数据结构将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备关联;
用于将第一音量级别与所述多个音量级别进行比较的装置;
用于基于将第一音量级别与所述多个音量级别进行比较,确定所述多个音量级别中的最大音量级别的装置;
用于将最大音量级别与至少一个数据结构进行比较,以确定与最大音量级别相关联的第二语音操作的用户设备的装置;
用于识别与用户相关联的用户简档的装置;
用于使用用户简档来识别与用户相关联的多个用户音量级别的装置;
用于确定所述多个用户音量级别中的最低用户音量级别的装置;
用于向第二语音操作的用户设备传输命令的装置,其中所述命令指令第二语音操作的用户设备将响应音量级别更新为第二音量级别,所述第二音量级别基于最大音量级别和最低用户音量级别;以及
用于通过第二语音操作的用户设备以第二音量级别生成可听响应的装置。
20.如权利要求19所述的系统,还包括:
用于确定与可听响应被生成之时对应的第一时间的装置;
用于计算第二时间的装置,其中所述第二时间是第一时间加上一时间段;以及
用于基于是否在第三时间接收到确认而通过第二语音操作的用户设备生成第二可听响应的装置,其中第三时间在第二时间之前。
21.如权利要求20所述的系统,还包括:
用于确定所述时间段的装置,其中用于确定所述时间段的装置包括用于使用用户简档来确定用于响应的平均时间的装置。
22.如权利要求20所述的系统,其中用于生成第二可听响应的装置包括:
用于确定第三音量级别的装置,其中第三音量级别大于第二音量级别;以及
其中第二可听响应是以第三音量级别生成的。
23.如权利要求20所述的系统,还包括:
用于使用用户简档来识别与用户相关联的平均讲话音量级别的装置;
用于确定平均讲话音量级别与最大音量级别之间的差异的装置;以及
其中确定第三音量级别是基于所述差异加上第二音量级别。
24.如权利要求19所述的系统,还包括:
用于接收来自用户的确认的装置,其中所述确认指示用户听到了可听响应;以及
用于响应于接收到确认,将第二音量级别存储在用户简档中的装置。
25.如权利要求19所述的系统,还包括:
用于确定与可听响应被生成之时对应的第一时间的装置;
用于计算第二时间的装置,其中所述第二时间是第一时间加上一时间段;
用于识别与用户相关联的显示设备的装置;
用于生成可听响应的可视表示以供显示的装置;以及
用于基于是否在第三时间接收到确认,将可视表示传输到显示设备的装置,其中第三时间在第二时间之前。
26.如权利要求19所述的系统,还包括:
用于使用用户简档来确定用户具有听力障碍的装置;
用于识别与用户相关联的显示设备的装置;
用于生成可听响应的可视表示以供显示的装置;以及
用于将可视表示传输到显示设备的装置。
27.如权利要求19所述的系统,其中确定第一音量级别包括:
用于测量语音命令的未经过滤的音量级别的装置;
用于确定背景噪声的级别的装置;
用于过滤语音命令以移除背景噪声的级别的装置;以及
用于计算语音命令的经过滤的音量级别的装置。
28.一种非暂态机器可读介质,包括编码在其上的用于以基于语音命令的音量级别的音量级别对语音命令做出响应的非暂态机器可读指令,所述指令包括:
用于通过多个语音操作的用户设备中的第一语音操作的用户设备来检测用户说出的语音命令的指令;
用于确定语音命令的第一音量级别的指令,其中语音命令由第一语音操作的用户设备接收;
用于确定所述多个语音操作的用户设备中的每个语音操作的用户设备处语音命令的音量级别的指令;
用于接收至少一个数据结构的指令,所述数据结构将多个音量级别中的每个音量级别与多个语音操作的用户设备中的相应语音操作的用户设备关联;
用于将第一音量级别与所述多个音量级别进行比较的指令;
用于基于将第一音量级别与所述多个音量级别进行比较,确定所述多个音量级别中的最大音量级别的指令;
用于将最大音量级别与至少一个数据结构进行比较,以确定与最大音量级别相关联的第二语音操作的用户设备的指令;
用于识别与用户相关联的用户简档的指令;
用于使用用户简档来识别与用户相关联的多个用户音量级别的指令;
用于确定所述多个用户音量级别中的最低用户音量级别的指令;
用于向第二语音操作的用户设备传输命令的指令,其中所述命令指令第二语音操作的用户设备将响应音量级别更新为第二音量级别,所述第二音量级别基于最大音量级别和最低用户音量级别;以及
用于通过第二语音操作的用户设备以第二音量级别生成可听响应的指令。
29.如权利要求28所述的非暂态机器可读介质,其中所述指令还包括:
用于确定与可听响应被生成之时对应的第一时间的指令;
用于计算第二时间的指令,其中所述第二时间是第一时间加上一时间段;以及
用于基于是否在第三时间接收到确认而通过第二语音操作的用户设备生成第二可听响应的指令,其中第三时间在第二时间之前。
30.如权利要求29所述的非暂态机器可读介质,其中所述指令还包括:
用于确定所述时间段的指令,其中用于确定所述时间段的指令包括用于使用用户简档来确定用于响应的平均时间的指令。
31.如权利要求29所述的非暂态机器可读介质,其中所述指令还包括:
用于使用用户简档来识别与用户相关联的平均讲话音量级别的指令;
用于确定平均讲话音量级别与最大音量级别之间的差异的指令;以及
其中确定第三音量级别是基于所述差异加上第二音量级别。
32.如权利要求28所述的非暂态机器可读介质,其中所述指令还包括:
用于接收来自用户的确认的指令,其中所述确认指示用户听到了可听响应;以及
用于响应于接收到确认,将第二音量级别存储在用户简档中的指令。
33.如权利要求28所述的非暂态机器可读介质,其中所述指令还包括:
用于确定与可听响应被生成之时对应的第一时间的指令;
用于计算第二时间的指令,其中所述第二时间是第一时间加上一时间段;
用于识别与用户相关联的显示设备的指令;
用于生成可听响应的可视表示以供显示的指令;以及
用于基于是否在第三时间接收到确认,将可视表示传输到显示设备的指令,其中第三时间在第二时间之前。
34.如权利要求28所述的非暂态机器可读介质,其中所述指令还包括:
用于使用用户简档来确定用户具有听力障碍的指令;
用于识别与用户相关联的显示设备的指令;
用于生成可听响应的可视表示以供显示的指令;以及
用于将可视表示传输到显示设备的指令。
35.如权利要求28所述的非暂态机器可读介质,其中所述指令还包括:
用于测量语音命令的未经过滤的音量级别的指令;
用于确定背景噪声的级别的指令;
用于过滤语音命令以移除背景噪声的级别的指令;以及
用于计算语音命令的经过滤的音量级别的指令。
36.一种用于生成可听响应的方法,所述方法包括:
通过多个语音操作的用户设备中的第一语音操作的用户设备来检测用户说出的语音命令;
确定语音命令的第一音量级别;
确定所述多个语音操作的用户设备中的每个语音操作的用户设备处语音命令的相应音量级别;
基于将语音命令的第一音量级别与语音命令的相应音量级别进行比较,确定所述多个语音操作的用户设备中的第二语音操作的用户设备比其它语音操作的用户设备中的任何一个都更靠近用户;
识别与用户相关联的用户简档;
使用用户简档来识别与用户相关联的多个用户音量级别;
确定所述多个用户音量级别中的最低用户音量级别;
基于最大音量级别和最低用户音量级别,将第二语音操作的用户设备的响应级别更新为第二音量级别;以及
通过第二语音操作的用户设备以基于语音命令的第一音量级别设置的第二音量级别生成可听响应。
37.如权利要求36所述的方法,其中所生成的可听响应用于以基于语音命令的音量级别的音量级别对语音命令做出响应。
38.如权利要求36所述的方法,还包括:
确定与可听响应被生成之时对应的第一时间;
计算第二时间,其中所述第二时间是第一时间加上一时间段;以及
基于是否在第三时间接收到确认而通过第二语音操作的用户设备生成第二可听响应,其中第三时间在第二时间之前。
39.如权利要求38所述的方法,还包括:
确定所述时间段,其中确定所述时间段包括使用用户简档来确定用于响应的平均时间。
40.如权利要求39所述的方法,其中生成第二可听响应包括:
确定第三音量级别,其中第三音量级别大于第二音量级别;以及
其中第二可听响应是以第三音量级别生成的。
41.如权利要求36-40中的任一项所述的方法,还包括:
使用用户简档来识别与用户相关联的平均讲话音量级别;以及
确定平均讲话音量级别与最大音量级别之间的差异;
其中确定第三音量级别是基于所述差异加上第二音量级别。
42.如权利要求36-40中的任一项所述的方法,还包括:
接收来自用户的确认,其中所述确认指示用户听到了可听响应;以及
响应于接收到确认,将第二音量级别存储在用户简档中。
43.如权利要求36-40中的任一项所述的方法,还包括:
确定与可听响应被生成之时对应的第一时间;
计算第二时间,其中所述第二时间是第一时间加上一时间段;
识别与用户相关联的显示设备;
生成可听响应的可视表示以供显示;以及
基于是否在第三时间接收到确认,将可视表示传输到显示设备,其中第三时间在第二时间之前。
44.如权利要求36-40中的任一项所述的方法,还包括:
使用用户简档来确定用户具有听力障碍;
识别与用户相关联的显示设备;
生成可听响应的可视表示以供显示;以及
将可视表示传输到显示设备。
45.如权利要求36-40中的任一项所述的方法,其中确定第一音量级别包括:
测量语音命令的未经过滤的音量级别;
确定背景噪声的级别;
过滤语音命令以移除背景噪声的级别;以及
计算语音命令的经过滤的音量级别。
CN201880046827.2A 2017-06-02 2018-05-23 用于为若干语音操作的用户设备生成基于音量的响应的系统和方法 Active CN110914900B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/612,516 2017-06-02
US15/612,516 US10564928B2 (en) 2017-06-02 2017-06-02 Systems and methods for generating a volume- based response for multiple voice-operated user devices
PCT/US2018/034080 WO2018222456A1 (en) 2017-06-02 2018-05-23 Systems and methods for generating a volume-based response for multiple voice-operated user devices

Publications (2)

Publication Number Publication Date
CN110914900A CN110914900A (zh) 2020-03-24
CN110914900B true CN110914900B (zh) 2024-04-02

Family

ID=62599705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880046827.2A Active CN110914900B (zh) 2017-06-02 2018-05-23 用于为若干语音操作的用户设备生成基于音量的响应的系统和方法

Country Status (7)

Country Link
US (3) US10564928B2 (zh)
EP (1) EP3631796B1 (zh)
JP (1) JP7239494B2 (zh)
KR (1) KR20200015582A (zh)
CN (1) CN110914900B (zh)
CA (1) CA3065888A1 (zh)
WO (1) WO2018222456A1 (zh)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947333B1 (en) * 2012-02-10 2018-04-17 Amazon Technologies, Inc. Voice interaction architecture with intelligent background noise cancellation
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
JP7106913B2 (ja) * 2018-03-22 2022-07-27 ヤマハ株式会社 音響機器、音響制御システム、音響制御方法、及びプログラム
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11276396B2 (en) * 2018-05-01 2022-03-15 Dell Products, L.P. Handling responses from voice services
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11373645B1 (en) * 2018-06-18 2022-06-28 Amazon Technologies, Inc. Updating personalized data on a speech interface device
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10705789B2 (en) * 2018-07-25 2020-07-07 Sensory, Incorporated Dynamic volume adjustment for virtual assistants
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11924511B2 (en) * 2018-10-04 2024-03-05 Roku, Inc. Smart remote control for audio responsive media device
US10514888B1 (en) 2018-10-05 2019-12-24 Oracle International Corporation User-adaptive volume selection
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
KR20200084727A (ko) 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US10943598B2 (en) * 2019-03-18 2021-03-09 Rovi Guides, Inc. Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
KR20220076503A (ko) * 2019-10-05 2022-06-08 이어 피직스, 엘엘씨 적응적 청력 정상화 및 자동 튜닝 기능을 갖춘 보정 시스템
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN111028835B (zh) * 2019-11-18 2022-08-09 北京小米移动软件有限公司 资源置换方法、装置、系统、计算机可读存储介质
US11233490B2 (en) * 2019-11-21 2022-01-25 Motorola Mobility Llc Context based volume adaptation by voice assistant devices
US12001754B2 (en) 2019-11-21 2024-06-04 Motorola Mobility Llc Context based media selection based on preferences setting for active consumer(s)
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11996094B2 (en) 2020-07-15 2024-05-28 Google Llc Automated assistant with audio presentation interaction
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11474773B2 (en) * 2020-09-02 2022-10-18 Google Llc Automatic adjustment of muted response setting
US11477523B2 (en) 2020-10-30 2022-10-18 Dish Network L.L.C. Systems and methods for facilitating voice interaction with content receivers
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
CN105338383A (zh) * 2009-06-30 2016-02-17 乐威指南公司 用于在无线通信装置上提供交互式媒体指南的系统和方法
CN105493179A (zh) * 2013-07-31 2016-04-13 微软技术许可有限责任公司 具有多个同时语音识别器的系统
CN105830015A (zh) * 2013-06-17 2016-08-03 谷歌技术控股有限责任公司 用于始终在线语音激活信息辅助的隐私模式
CN106489150A (zh) * 2015-03-30 2017-03-08 乐威指南公司 用于识别和保存媒体资产的一部分的系统和方法
WO2017053311A1 (en) * 2015-09-21 2017-03-30 Amazon Technologies, Inc. Device selection for providing a response

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6239794B1 (en) 1994-08-31 2001-05-29 E Guide, Inc. Method and system for simultaneously displaying a television program and information about the program
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
US6564378B1 (en) 1997-12-08 2003-05-13 United Video Properties, Inc. Program guide system with browsing display
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
AR020608A1 (es) 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
CA2865444C (en) 1998-07-17 2017-11-28 United Video Properties, Inc. Interactive television program guide system having multiple devices within a household
DE19908137A1 (de) 1998-10-16 2000-06-15 Volkswagen Ag Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog
US7165098B1 (en) 1998-11-10 2007-01-16 United Video Properties, Inc. On-line schedule system with personalization features
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
JP3838029B2 (ja) 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
KR101548473B1 (ko) 2001-02-21 2015-08-28 로비 가이드스, 인크. 개인용 비디오 녹화 특징을 갖는 대화식 프로그램 가이드를 위한 시스템 및 방법
JP2002351653A (ja) 2001-05-29 2002-12-06 Canon Inc 音声処理装置、および、音声処理方法
US20060085183A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
JP2007025140A (ja) 2005-07-14 2007-02-01 Yaskawa Electric Corp ロボット装置およびロボット装置の情報提示方法
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
TWI376925B (en) * 2007-08-28 2012-11-11 Micro Star Int Co Ltd Adjusting device and method of notification sound according to the environment
JP5195405B2 (ja) 2008-12-25 2013-05-08 トヨタ自動車株式会社 応答生成装置及びプログラム
US20110044474A1 (en) * 2009-08-19 2011-02-24 Avaya Inc. System and Method for Adjusting an Audio Signal Volume Level Based on Whom is Speaking
WO2012090282A1 (ja) * 2010-12-27 2012-07-05 富士通株式会社 音声制御装置、音声制御方法、音声制御プログラム及び携帯端末装置
US8989406B2 (en) * 2011-03-11 2015-03-24 Sony Corporation User profile based audio adjustment techniques
EP2707872A2 (en) * 2011-05-12 2014-03-19 Johnson Controls Technology Company Adaptive voice recognition systems and methods
EP2786376A1 (en) * 2012-11-20 2014-10-08 Unify GmbH & Co. KG Method, device, and system for audio data processing
US9787273B2 (en) * 2013-06-13 2017-10-10 Google Technology Holdings LLC Smart volume control of device audio output based on received audio input
US9830924B1 (en) * 2013-12-04 2017-11-28 Amazon Technologies, Inc. Matching output volume to a command volume
US9600074B2 (en) 2014-07-09 2017-03-21 Pearson Education, Inc. Operational feedback with 3D commands
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US20170221336A1 (en) * 2016-01-28 2017-08-03 Flex Ltd. Human voice feedback system
US9772817B2 (en) * 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) * 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9807499B2 (en) * 2016-03-30 2017-10-31 Lenovo (Singapore) Pte. Ltd. Systems and methods to identify device with which to participate in communication of audio data
US9749583B1 (en) * 2016-03-31 2017-08-29 Amazon Technologies, Inc. Location based device grouping with voice control
US10235997B2 (en) * 2016-05-10 2019-03-19 Google Llc Voice-controlled closed caption display
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106873937A (zh) * 2017-02-16 2017-06-20 北京百度网讯科技有限公司 语音输入方法和装置
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US10147439B1 (en) * 2017-03-30 2018-12-04 Amazon Technologies, Inc. Volume adjustment for listening environment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
CN105338383A (zh) * 2009-06-30 2016-02-17 乐威指南公司 用于在无线通信装置上提供交互式媒体指南的系统和方法
CN105830015A (zh) * 2013-06-17 2016-08-03 谷歌技术控股有限责任公司 用于始终在线语音激活信息辅助的隐私模式
CN105493179A (zh) * 2013-07-31 2016-04-13 微软技术许可有限责任公司 具有多个同时语音识别器的系统
CN106489150A (zh) * 2015-03-30 2017-03-08 乐威指南公司 用于识别和保存媒体资产的一部分的系统和方法
WO2017053311A1 (en) * 2015-09-21 2017-03-30 Amazon Technologies, Inc. Device selection for providing a response

Also Published As

Publication number Publication date
US20200225909A1 (en) 2020-07-16
WO2018222456A1 (en) 2018-12-06
CN110914900A (zh) 2020-03-24
US11481187B2 (en) 2022-10-25
US10564928B2 (en) 2020-02-18
KR20200015582A (ko) 2020-02-12
EP3631796A1 (en) 2020-04-08
JP2020522019A (ja) 2020-07-27
US20180349093A1 (en) 2018-12-06
EP3631796B1 (en) 2024-03-27
US20230013021A1 (en) 2023-01-19
CA3065888A1 (en) 2018-12-06
JP7239494B2 (ja) 2023-03-14

Similar Documents

Publication Publication Date Title
CN110914900B (zh) 用于为若干语音操作的用户设备生成基于音量的响应的系统和方法
US12021909B2 (en) Systems and methods for establishing a voice link between users accessing media
KR102346906B1 (ko) 대화식 특징부를 다른 디바이스로 전달하기 위한 방법 및 시스템
CN109074828B (zh) 用于提供取代广告内容进行回放的用户相关内容的播放列表的系统和方法
JP7127131B2 (ja) 音声データおよびメディア消費データに基づいてユーザを識別するためのシステムおよび方法
US11386134B2 (en) Systems and methods for correcting a voice query based on a subsequent voice query with a lower pronunciation rate
US11962856B2 (en) Systems and methods for generating a recommendation of a media asset for simultaneous consumption with a current media asset
US9532100B2 (en) Systems and methods for selecting sound logos for media content
KR20200100830A (ko) 스토리라인 선택 인터페이스를 제공하기 위한 시스템 및 방법
US10405062B2 (en) Systems and methods for generating a set of custom keywords based on a media asset
US20190034525A1 (en) Methods and systems for replying to queries based on indexed conversations and context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant