CN110663079A - 基于语音纠正使用自动语音识别生成的输入的方法和系统 - Google Patents

基于语音纠正使用自动语音识别生成的输入的方法和系统 Download PDF

Info

Publication number
CN110663079A
CN110663079A CN201780091144.4A CN201780091144A CN110663079A CN 110663079 A CN110663079 A CN 110663079A CN 201780091144 A CN201780091144 A CN 201780091144A CN 110663079 A CN110663079 A CN 110663079A
Authority
CN
China
Prior art keywords
time
user
control circuitry
determining
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780091144.4A
Other languages
English (en)
Inventor
A·斯里德哈拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Le Wei Guide Co
Original Assignee
Le Wei Guide Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Le Wei Guide Co filed Critical Le Wei Guide Co
Publication of CN110663079A publication Critical patent/CN110663079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Telephone Function (AREA)

Abstract

公开了用于在第二语音中没有用户意图用第二语音来纠正输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的输入中的错误的方法和系统,其包括确定显示响应于输入的搜索结果的时间与接收到第二语音的时间之间的时间差小于阈值时间,并且基于该确定,基于第二语音来纠正输入。所述方法和系统还包括确定显示响应于输入的搜索结果的时间与接收到第二语音的时间之间用于输入第一语音和第二语音的用户输入设备的加速度差小于阈值加速度,并且基于该确定,基于第二语音来纠正输入。

Description

基于语音纠正使用自动语音识别生成的输入的方法和系统
背景技术
用户可以使用通过自动语音识别(ASR)转换成文本的语音输入来发起搜索。用户还可以尝试使用随后的口语输入来纠正在先前口语输入的识别中的错误。但是,确定用户是否意图使用后续的口语输入来纠正识别错误会是困难的,尤其是在后续口语输入中没有用户意图用后续语音纠正识别错误的明确指示(诸如像“不是(No)”或“我是说(I meant)”的短语)的情况下。
发明内容
因而,本文描述了用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的系统和方法。在一些实施例中,媒体指南应用使用时间差基于语音来纠正使用自动语音识别生成的输入中的错误。例如,用户最初可以说“将关于Austin的演出显示给我(Show me shows about Austin)”。媒体指南应用可能错误地将语音识别为“将关于Boston的演出显示给我(Show me shows aboutBoston)”并呈现包括有关Boston的节目的搜索结果。然后,用户可以说“Austin”,意在用“Austin”来纠正错误识别出的“Boston”。在这种情况下,从显示搜索结果到说“Austin”,用户可能不会花费长时间,因为很快就会发现搜索结果与最初请求的内容不匹配,并且用户不会在尝试纠正错误之前花费大量时间来审查搜索结果。另一方面,如果媒体指南应用正确地将初始语音识别为“将关于Austin的演出显示给我”并显示包括关于Austin的演出的搜索结果,那么用户可以花费大量时间来审查搜索结果。因此,在一些实施例中,在搜索结果的呈现与随后的口语输入之间的时间是否长(即,是否大于阈值)可以指示用户是否意图用随后的口语来纠正使用自动语音识别生成的输入。
在一些实施例中,媒体指南应用使用加速度的差异基于语音来纠正使用自动语音识别生成的输入中的错误。例如,用户最初可以说“将关于Austin的演出显示给我”。媒体指南应用可能错误地将语音识别为“将关于Boston的演出显示给我”并呈现包括有关Boston的节目的搜索结果。然后,用户可以说“Austin”,意在用“Austin”来纠正错误识别出的“Boston”。在这种情况下,用户可以使他/她正对着其说话的用户输入设备更靠近他/她的嘴,意图使用户输入设备能够更准确地检测随后说出的“Austin”。可以将用户输入设备的这种运动检测为在呈现搜索结果的时间与用户说“Austin”的时间之间用户输入设备的加速度的改变。因此,加速度的这种改变可以指示用户是否意图以后续语音来纠正使用自动语音识别生成的输入。
为此,在一些方面,在语音中不存在用户意图用语音来纠正输入的明确指示的情况下,媒体指南应用基于语音来纠正使用自动语音识别生成的输入。具体而言,在一些实施例中,媒体指南应用经由用户输入设备接收第一语音。第一语音可以包括例如用户说出的词。例如,第一语音可以是“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用使用自动语音识别来基于第一语音确定第一输入。例如,如果第一语音是“将关于Austin的演出显示给我”,那么媒体指南应用可能将第一输入确定为“将关于Boston的演出显示给我”,从而将第一语音中的“Austin”错误地识别为“Boston”。
在一些实施例中,媒体指南应用基于第一输入从数据库检索搜索结果。数据库可以包括例如信息储存库。
在一些实施例中,媒体指南应用生成搜索结果以供显示。例如,如果第一输入是“将关于Boston的演出显示给我”,那么媒体指南应用可以检索并生成在Boston发生的电视节目Fringe的清单以供显示。
在一些实施例中,媒体指南应用确定生成搜索结果以供显示的第一时间。例如,媒体指南应用可以通过检测发送到显示屏的像素的信号在第一时间之后第一次改变的时间来确定第一时间。
在一些实施例中,媒体指南应用在接收到第一语音之后经由用户输入设备接收第二语音。第二语音可以包括例如用户说出的词。用户可能意图使用第二语音来纠正媒体指南应用错误识别出的第一输入的一部分。例如,如果搜索结果包括有关Boston的节目,那么用户可以确定媒体指南应用响应于第一语音而错误地生成了“将关于Boston的演出显示给我”作为第一输入(“将关于Austin的演出显示给我”)。因而,第二语音可以是“Austin”,其中用户意图将“Boston”纠正为“Austin”。
在一些实施例中,媒体指南应用使用自动语音识别基于第二语音来确定第二输入。例如,如果第二语音是“Austin”,那么媒体指南应用可以将第二输入确定为“Austin”,从而正确地识别出了第二语音中的“Austin”。
在一些实施例中,媒体指南应用确定接收到第二语音的第二时间。在一些实施例中,媒体指南应用可以通过经由用户输入设备测量在第一时间之后的最早发音发生的时间来确定第二时间。
在一些实施例中,媒体指南应用将第二时间和第一时间之间的时间差与阈值时间进行比较。例如,如果第一时间是10:00:00AM并且第二时间是10:00:10AM,那么媒体指南应用可以将时间差计算为10秒。
在一些实施例中,基于将第二时间与第一时间之间的时间差与阈值时间进行比较,媒体指南应用确定第二时间与第一时间之间的时间差小于阈值时间。例如,如果时间差是10秒并且阈值时间是20秒,那么媒体指南应用可以确定时间差小于阈值时间。
在一些实施例中,基于确定第二时间与第一时间之间的时间差小于阈值时间,媒体指南应用通过用第二输入的一部分替换第一输入的一部分来基于第一输入来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”并且第二输入是“Austin”,那么媒体指南应用可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用还基于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”并且第二输入是“Austin”,那么媒体指南应用可以基于时间差小于阈值时间并且没有接收到与浏览搜索结果相关联的输入而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。在一些实施例中,确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入包括确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
在一些实施例中,媒体指南应用经由用户输入设备在第一时间和第二时间之间捕获用户面部的图像。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。例如,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。例如,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的查看并使用该查看捕获用户面部的图像。
在一些实施例中,媒体指南应用还基于确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入。例如,为了确定图像中用户的面部与不满意的情绪相关联,媒体指南应用可以使用面部识别技术来分析用户面部的图像,以检测诸如愤怒和悲伤之类的表情。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于时间差小于阈值时间并且图像中的用户面部与不满意的情绪相关联而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,在接收第一语音的同时,媒体指南应用经由用户输入设备捕获用户面部的第一图像,并确定第一图像中用户面部的第一相对尺寸。在一些实施例中,在接收第二语音的同时,媒体指南应用经由用户输入设备捕获用户面部的第二图像,并确定第二图像中用户面部的第二相对尺寸。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。例如,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。例如,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的相机并使用该相机来捕获用户面部的图像。例如,媒体指南应用可以通过计数图像中用户面部所占据的像素数来计算图像中用户面部的相对尺寸。
在一些实施例中,媒体指南应用将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较。例如,如果第一相对尺寸是3兆像素并且第二相对尺寸是4兆像素,那么媒体指南应用可以将相对尺寸差计算为1兆像素。
在一些实施例中,媒体指南应用基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较来确定相对尺寸差大于阈值相对尺寸。例如,如果相对尺寸差是1兆像素并且阈值相对尺寸是0.5兆像素,那么媒体指南应用可以确定相对尺寸差大于阈值相对尺寸。
在一些实施例中,媒体指南应用还基于确定相对尺寸差大于阈值相对尺寸而生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于时间差小于阈值时间并且相对尺寸差大于阈值相对尺寸而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用将第二时间与第一时间之间的时间差与另一个阈值时间进行比较,并且基于将第二时间与第一时间之间的时间差与另一个阈值时间进行比较而确定第二时间与第一时间之间的时差大于该另一个阈值时间。例如,如果时间差是10秒并且另一个阈值时间是2秒,那么媒体指南应用可以确定时间差大于该另一个阈值时间。在一些实施例中,媒体指南应用还基于确定第二时间与第一时间之间的时间差大于该另一个阈值时间来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于时间差小于阈值时间并且时间差大于该另一个阈值时间而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用基于与用户相关联的输入之间的平均时间来调整阈值时间。例如,媒体指南应用可以将阈值时间设置为默认值,并基于平均时间来调整阈值时间。例如,媒体指南应用可以将阈值时间调整与平均时间的范围相关联的量。例如,媒体指南应用可以将阈值时间调整与平均时间成比例的量。
在一些实施例中,媒体指南应用经由用户输入设备测量基线环境噪声级别。例如,为了测量基线环境噪声级别,当用户不说出任何输入时,用户输入设备可以捕获基线音频记录。例如,媒体指南应用可以将基线环境噪声级别测量为基线音频记录中的平均功率。在一些实施例中,媒体指南应用在接收第一语音的同时经由用户输入设备测量环境噪声级别。例如,为了在接收第一语音的同时测量环境噪声级别,用户输入设备可以在接收第一语音时捕获音频记录、过滤掉音频记录中的声音,并测量这个音频记录中剩余的信号的平均功率。在一些实施例中,媒体指南应用将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较。例如,如果环境噪声级别差为0.1mW并且阈值环境噪声级别为0.01mW,那么媒体指南应用可以将0.1mW与0.01mW进行比较。在一些实施例中,基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,媒体指南应用确定环境噪声级别差大于阈值环境噪声级别。例如,如果环境噪声级别差为0.1mW并且阈值环境噪声级别为0.01mW,那么媒体指南应用可以确定0.1mW大于0.01mW。在一些实施例中,媒体指南还基于确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于时间差小于阈值时间并且环境噪声级别差大于阈值环境噪声级别而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用通过经由用户输入设备测量在第一时间之后的最早发音发生的时间来确定第二时间。例如,如果媒体指南应用在10:00:00AM生成搜索结果以供显示,并且来自用户的下一个发音是“Austin”,那么媒体指南应用可以测量“Austin”中的初始“Au”声音发生在10:00:10AM,并认为10:00:10AM是第二时间。
在一些实施例中,媒体指南应用通过检测发送到显示屏的像素的信号在第一时间之后第一次改变的时间来确定第一时间。例如,发送到显示屏的像素的信号可以使得显示屏改变,例如,显示新项目。例如,一旦检索到搜索结果并准备好在显示屏上显示,发送到显示屏的像素的信号就可以改变,以显示搜索结果。在已经接收到第一语音之后当发送到显示屏的像素的信号改变时的初始时间可以表示搜索结果正在被显示。因此,在已经接收到第一语音之后当发送到显示屏的像素的信号改变时的初始时间可以被认为是第一时间。
在一些方面,在语音中不存在用户意图用语音来纠正输入的明确指示的情况下,媒体指南应用基于语音来纠正使用自动语音识别生成的输入。具体而言,在一些实施例中,媒体指南应用经由用户输入设备接收第一语音。该第一语音可以包括例如用户说出的词。例如,第一语音可以是“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用使用自动语音识别来基于第一语音来确定第一输入。例如,如果第一语音是“将关于Austin的演出显示给我”,那么媒体指南应用可以将第一输入确定为“将关于Boston的演出显示给我”,从而将第一语音中的“Austin”错误地识别为“Boston”。
在一些实施例中,媒体指南应用基于第一输入从数据库检索搜索结果。数据库可以包括例如信息储存库。
在一些实施例中,媒体指南应用生成搜索结果以供显示。例如,如果第一输入是“将关于Boston的演出显示给我”,那么媒体指南应用可以检索并生成在Boston发生的电视节目Fringe的清单以供显示。
在一些实施例中,媒体指南应用确定生成搜索结果以供显示的第一时间。例如,媒体指南应用可以通过检测发送到显示屏的像素的信号在第一时间之后第一次改变的时间来确定第一时间。
在一些实施例中,媒体指南应用在第一时间经由用户输入设备测量用户输入设备的第一加速度。例如,如果用户输入设备在第一时间几乎是静止的,那么第一加速度可以是0m/s2
在一些实施例中,媒体指南应用在接收到第一语音之后经由用户输入设备接收第二语音。第二语音可以包括例如用户说出的词。用户可能意图使用第二语音来纠正媒体指南应用错误识别出的第一输入的一部分。例如,如果搜索结果包括有关Boston的节目,那么用户可以确定媒体指南应用响应于第一语音而错误地生成了“将关于Boston的演出显示给我”作为第一输入(“将关于Austin的演出显示给我”)。因而,第二语音可以是“Austin”,其中用户意图将“Boston”纠正为“Austin”。
在一些实施例中,媒体指南应用使用自动语音识别基于第二语音来确定第二输入。例如,如果第二语音是“Austin”,那么媒体指南应用可以将第二输入确定为“Austin”,从而正确地识别出了第二语音中的“Austin”。
在一些实施例中,媒体指南应用确定接收到第二语音的第二时间。在一些实施例中,媒体指南应用可以通过经由用户输入设备测量在第一时间之后的最早发音发生的时间来确定第二时间。
在一些实施例中,媒体指南应用经由用户输入设备测量用户输入设备在第一时间和第二时间之间的第二加速度。例如,如果用户输入设备在第一时间和第二时间之间以1m/s的速率移动,那么第二加速度可以是1m/s2
在一些实施例中,媒体指南应用确定第二加速度与第一加速度之间的加速度差。例如,如果第一加速度是0m/s2并且第二加速度是1m/s2,那么加速度差可以是1m/s2
在一些实施例中,基于确定在第二加速度与第一加速度之间的加速度差,媒体指南应用将加速度差与阈值加速度进行比较。例如,如果加速度差为1m/s2并且阈值加速度为0.25m/s2,那么媒体指南应用可以将1m/s2与0.25m/s2进行比较。
在一些实施例中,基于将加速度差与阈值加速度进行比较,媒体指南应用确定加速度差大于阈值加速度。例如,如果加速度差为1m/s2并且阈值加速度为0.25m/s2,那么媒体指南应用可以确定1m/s2大于0.25m/s2
在一些实施例中,基于确定加速度差大于阈值加速度,媒体指南应用通过将第一输入的一部分替换为第二输入的一部分基于第一输入来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用还基于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于加速度差大于阈值加速度并且没有接收到与浏览搜索结果相关联的输入而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。在一些实施例中,确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入包括确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
在一些实施例中,媒体指南应用经由用户输入设备在第一时间和第二时间之间捕获用户面部的图像。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。例如,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。例如,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的查看并使用该查看捕获用户面部的图像。
在一些实施例中,媒体指南应用还基于确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入。例如,为了确定图像中用户的面部与不满意的情绪相关联,媒体指南应用可以使用面部识别技术来分析用户面部的图像,以检测诸如愤怒和悲伤之类的表情。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于加速度差大于阈值加速度并且图像中的用户面部与不满意的情绪相关联而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,在接收第一语音的同时,媒体指南应用经由用户输入设备捕获用户面部的第一图像,并确定第一图像中用户面部的第一相对尺寸。在一些实施例中,在接收第二语音的同时,媒体指南应用经由用户输入设备捕获用户面部的第二图像,并确定第二图像中用户面部的第二相对尺寸。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。例如,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。例如,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的相机并使用该相机来捕获用户面部的图像。例如,媒体指南应用可以通过计数图像中用户面部所占据的像素数来计算图像中用户面部的相对尺寸。
在一些实施例中,媒体指南应用将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较。例如,如果第一相对尺寸是3兆像素并且第二相对尺寸是4兆像素,那么媒体指南应用可以将相对尺寸差计算为1兆像素。
在一些实施例中,媒体指南应用基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较来确定相对尺寸差大于阈值相对尺寸。例如,如果相对尺寸差是1兆像素并且阈值相对尺寸是0.5兆像素,那么媒体指南应用可以确定1兆像素大于0.5兆像素。
在一些实施例中,媒体指南应用还基于确定相对尺寸差大于阈值相对尺寸而生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于加速度差大于阈值加速度并且相对尺寸差大于阈值相对尺寸而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用经由用户输入设备测量基线环境噪声级别。例如,为了测量基线环境噪声级别,当用户不说出任何输入时,用户输入设备可以捕获基线音频记录。例如,媒体指南应用可以将基线环境噪声级别测量为基线音频记录中的平均功率。在一些实施例中,媒体指南应用在接收第一语音的同时经由用户输入设备测量环境噪声级别。例如,为了在接收第一语音的同时测量环境噪声级别,用户输入设备可以在接收第一语音时捕获音频记录、过滤掉音频记录中的声音,并测量这个音频记录中剩余的信号的平均功率。在一些实施例中,媒体指南应用将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较。例如,如果环境噪声级别差为0.1mW并且阈值环境噪声级别为0.01mW,那么媒体指南应用可以将0.1mW与0.01mW进行比较。在一些实施例中,基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,媒体指南应用确定环境噪声级别差大于阈值环境噪声级别。例如,如果环境噪声级别差为0.1mW并且阈值环境噪声级别为0.01mW,那么媒体指南应用可以确定0.1mW大于0.01mW。在一些实施例中,媒体指南还基于确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以基于加速度差大于阈值加速度并且环境噪声级别差大于阈值环境噪声级别而将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用通过经由用户输入设备测量在第一时间之后的最早发音发生的时间来确定第二时间。例如,如果媒体指南应用在10:00:00AM生成搜索结果以供显示,并且来自用户的下一个发音是“Austin”,那么媒体指南应用可以测量“Austin”中的初始“Au”声音发生在10:00:10AM,并认为10:00:10AM是第二时间。
在一些实施例中,媒体指南应用通过检测发送到显示屏的像素的信号在第一时间之后第一次改变的时间来确定第一时间。例如,发送到显示屏的像素的信号可以使得显示屏改变,例如,显示新项目。例如,一旦检索到搜索结果并准备好在显示屏上显示,发送到显示屏的像素的信号就可以改变,以显示搜索结果。在已经接收到第一语音之后当发送到显示屏的像素的信号改变时的初始时间可以表示搜索结果正在被显示。因此,在已经接收到第一语音之后当发送到显示屏的像素的信号改变时的初始时间可以被认为是第一时间。
在一些实施例中,用户输入设备是包括加速度计的移动电话。例如,移动电话可以是智能电话。在一些实施例中,用户输入设备是平板电脑。
在一些实施例中,测量第二加速度包括在第一时间和第二时间之间测量用户输入设备的最大加速度。例如,如果用户输入设备的加速度在第一时间和第二时间之间从0m/s2上升到最大值0.75m/s2,那么第二加速度可以是0.75m/s2
常规系统可以基于后续语音通过检测后继语音中的诸如“不是”或“我是说”之类的短语来纠正使用自动语音识别生成的输入。这些短语可以用作用户意图用后续语音纠正输入的明确指示。在没有这样的短语的情况下,与开始新的搜索或过滤来自先前搜索的结果相反,确定用户是否意图用后续语音来纠正输入会是困难的。除了诸如“不是”或“我是说”之类的短语之外,所描述的系统和方法还使用其它指示来确定用户是否意图用后续语音来纠正输入。例如,结果的呈现与后续语音之间的时间差以及结果的呈现与后续语音之间的用户输入设备的加速度差可以被用于确定用户是否意图用后续语音来纠正输入。
应当注意的是,上述系统和/或方法可以应用于本公开中描述的其它系统、方法和/或装置或根据本公开中描述的其它系统、方法和/或装置来使用。
附图说明
结合附图考虑以下详细描述,本公开的以上和其它目的和优点将变得显而易见,其中相同的标号通篇表示相同的部分,并且其中:
图1示出了根据本公开一些实施例的在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下媒体指南应用可以如何基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误的说明性示例;
图2示出了根据本公开一些实施例的在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下媒体指南应用可以如何基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误的说明性示例;
图3示出了根据本公开一些实施例的显示屏的说明性实施例,该显示屏可以被用于提供媒体指南应用列表和其它媒体指南信息;
图4示出了根据本公开一些实施例的可以被用于提供媒体指南应用列表的显示屏的另一个说明性实施例;
图5示出了根据本公开一些实施例的说明性用户装备(UE)设备的框图;
图6示出了根据本公开一些实施例的说明性媒体系统的框图;
图7描绘了根据本公开一些实施例的在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误的处理的说明性流程图;
图8描绘了根据本公开一些实施例的在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误的处理的说明性流程图;
图9示出了根据本公开一些实施例的确定图像中面部的相对尺寸的说明性示例;以及
图10示出了根据本公开一些实施例的用于确定图像中面部的相对尺寸的处理的示例伪代码。
具体实施方式
描述了用于在第二语音中没有用户意图用第二语音来纠正输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的输入中的错误的方法和系统,该方法包括确定显示响应于输入的搜索结果的时间与接收到第二语音的时间之间的时间差小于阈值时间,并且基于该确定,基于第二语音来纠正输入。所述方法和系统还包括确定显示响应于输入的搜索结果的时间与接收到第二语音的时间之间用于输入第一语音和第二语音的用户输入设备的加速度差小于阈值加速度,并且基于该确定,基于第二语音来来纠正输入。
例如,如果用户说出“将关于Austin的演出显示给我”,并且媒体指南应用显示包括关于Boston的演出的搜索结果(因为它错误地将“Austin”识别为“Boston”),那么用户可以快速说出“Austin”。媒体指南应用可以基于用户在显示搜索结果后说出“Austin”的速度有多快来确定用户意图通过说出“Austin”来纠正错误识别出的“Boston”。如果没有识别错误,那么用户可能需要花费更长的时间来审查搜索结果。作为另一个示例,如果用户向用户输入设备(例如,移动电话)说出“将关于Austin的演出显示给我”,并且媒体指南应用显示包括关于Boston的演出的搜索结果(因为它错误地将“Austin”识别为“Boston”),那么用户可以在将用户输入设备靠近他/她的嘴后说出“Austin”,以试图帮助进行准确的语音识别。媒体指南应用可以使用用户输入设备靠近用户的嘴时的加速度来确定用户是否意图通过说出“Austin”来纠正错误识别出的“Boston”。
图1示出了在第二语音中没有用户意图用第二语音116来纠正第一输入108的明确指示的情况下媒体指南应用可以如何基于后续的第二语音116来纠正使用自动语音识别从第一语音106生成的第一输入108中的错误的说明性示例。图1包括标记有三个时间104、110和114的时间轴102。在时间104,用户说出第一语音106,在图1的示例中,该语音为“将关于Austin的演出显示给我”。媒体指南应用可以基于第一语音106使用自动语音识别来生成第一输入108,在图1的示例中,该第一输入是“将关于Boston的演出显示给我”。因而,在图1的示例中,媒体指南应用已将第一语音106中的“Austin”错误地识别为“Boston”。在第一时间110,媒体指南应用通过生成搜索结果112以供显示来响应第一输入108,在图1的示例中是关于Boston的演出。在第二时间114,用户说出第二语音116,在图1的示例中该第二语音是“Austin”。媒体指南应用可以基于第二语音116使用自动语音识别来生成第二输入120,在图1的示例中该第二输入是“Austin”。因而,在图1的示例中,媒体指南应用已正确识别出第二语音116中的“Austin”。通过说出第二语音116,用户可以试图用第二语音116来纠正第一输入108中的错误。在图1的示例中,用户可以试图用第二语音116的“Austin”来纠正第一输入108中的“Boston”,该“Boston”是从第一语音106错误地生成的。但是,第二语音116可以缺乏用户是否意图用第二语音116来纠正第一输入108中的错误或者用户是否意图例如开始新的搜索或过滤先前呈现的搜索结果112的明确指示。例如,在图1中,第二语音116缺乏可以表示用户意图用“Austin”来纠正“Boston”的明确指示的诸如“不是”或“我是说”之类的短语。为了解决这种歧义,媒体指南应用可以计算用户说出第二语音116(在图1的示例中,“Austin”)的第二时间114与媒体指南应用生成搜索结果112(在图1的示例中,关于Boston的演出)以供显示的第一时间110之间的时间差118。媒体指南应用可以将时间差118与阈值时间进行比较并且,如果时间差118小于阈值时间,那么预测用户意图用第二语音116来纠正第一输入108。因而,媒体指南应用可以通过将第一输入108的一部分替换为第二输入120的一部分基于第一输入108来生成经纠正的输入122。例如,在图1中,媒体指南应用可以将第一输入108中的“Boston”替换为来自第二输入120的“Austin”,以生成经纠正的输入122。
计算用户说出第二语音116(在图1的示例中,“Austin”)的第二时间114与第一时间110(即,媒体指南应用呈现搜索结果112在图1的示例中,关于Boston的演出)的时间)之间的时间差118可以是有帮助的,因为时间差118可以指示用户是否意图用第二语音116纠正第一输入108中的错误(在图1的示例中,用“Austin”纠正“Boston”)。如果在第一输入108中没有错误,那么与在第一输入108中存在错误相比,在第一时间110生成搜索结果112以供显示之后用户可以花费更长时间说出后续输入。在图1的示例中,如果正确地识别出“Boston”,那么用户会花费长时间(即,大于阈值时间的时间量)来滚动搜索结果112、阅读搜索结果的描述112、打开搜索结果112、播放搜索结果112等。但是,如果错误地识别出“Boston”,那么用户会在短时间(即,小于阈值时间的时间量)内注意到搜索结果112与第一语音106中请求的内容(即,关于Austin的演出)不匹配。因而,用户不会花费大量时间来滚动搜索结果112、阅读搜索结果112的描述、打开搜索结果112、播放搜索结果112等。代替地,用户可以在看到搜索结果112之后非常快地(即,小于阈值时间的时间量)说出第二语音116来纠正第一输入108中的错误。因此,将时间差118与阈值时间进行比较可以指示用户是否意图用第二语音116来纠正第一输入108。
图2示出了根据本公开一些实施例的在第二语音216中没有用户意图用第二语音216来纠正第一输入208的明确指示的情况下媒体指南应用可以如何基于后续的第二语音216来纠正使用自动语音识别从第一语音206生成的第一输入208中的错误的说明性示例。图2包括标记有三个时间204、210和214的时间轴202。图2还包括加速度轴203,该加速度轴203示出了接收用户语音的用户输入设备的加速度,标记了两个加速度,第一加速度213和第二加速度217。加速度轴204上所示的加速度可以是用户输入设备在三维空间中在单个方向上的加速度。在时间204,用户说出第一语音206,在图2的示例中,该语音是“将关于Austin的演出显示给我”。媒体指南应用可以基于第一语音206使用自动语音识别来生成第一输入208,在图2的示例中,该第一输入是“将关于Boston的演出显示给我”。因而,在图2的示例中,媒体指南应用已将第一语音206中的“Austin”错误地识别为“Boston”。在第一时间210,媒体指南应用通过生成搜索结果212以供显示来响应第一输入208,在图2的示例中是关于Boston的演出。在第二时间214,用户说出第二语音216,在图2的示例中该第二语音是“Austin”。媒体指南应用可以基于第二语音216使用自动语音识别来生成第二输入220,在图2的示例中该第二输入是“Austin”。通过说出第二语音216,用户可以试图用第二语音216来纠正第一输入208中的错误。在图2的示例中,用户可以试图用第二语音216的“Austin”来纠正第一输入208中的“Boston”,该“Boston”是从第一语音206错误地生成的。但是,第二语音216可以缺乏用户是否意图用第二语音216来纠正第一输入208中的错误或者用户是否意图例如开始新的搜索或过滤先前呈现的搜索结果212的明确指示。例如,在图2中,第二语音216缺乏可以表示用户意图用“Austin”来纠正“Boston”的明确指示的诸如“不是”或“我是说”之类的短语。为了解决这种歧义,媒体指南应用可以计算用户输入设备在用户说出第二语音216(在图2的示例中,“Austin”)与第一时间210之间与媒体指南应用生搜索结果212(在图2的示例中,关于Boston的演出)以供显示的第二时间214之间的加速度差218。例如,在图2中,媒体指南应用可以计算第二加速度217与第一加速度213之间的加速度差218。媒体指南应用可以将加速度差218与阈值加速度进行比较,如果加速度差218大于阈值加速度,那么预测用户意图用第二语音216来纠正第一输入208。因此,媒体指南应用可以通过将第一输入208的一部分替换为第二输入220的一部分基于第一输入208和第二输入220来生成经纠正的输入222。例如,在图2中,媒体指南应用可以将第一输入208中的“Boston”替换为第二输入220中的“Austin”,以生成经纠正的输入222。
计算用户说出第二语音216(在图2的示例中,“Austin”)的第二时间214与第一时间210(即,媒体指南应用呈现搜索结果212在图2的示例中,关于Boston的演出)的时间)之间的用户输入设备的加速度差218可以是有帮助的,因为加速度差218可以指示用户是否意图用第二语音216纠正第一输入208中的错误(在图2的示例中,用“Austin”纠正“Boston”)。如果第一输入208中存在错误,如通过搜索结果212与第一语音206中请求的内容不匹配而显然的,那么用户可以使用户输入设备更靠近他/她的嘴,以使用户输入设备能够更准确地检测第二语音216并具有更好的机会正确识别第二语音216。可以将用户输入设备靠近用户的嘴部检测为用户输入设备在第一时间210与第二时间214之间的加速度差超过阈值加速度。因此,将加速度差218与阈值加速度进行比较可以指示用户是否意图用第二语音216来纠正第一输入208。
以下描述将更详细地描述在第二语音中没有用户意图用第二语音纠正第一输入的明确指示的情况下媒体指南应用如何基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误。
在一些实施例中,媒体指南应用可以基于确定时间差来生成经纠正的输入。在一些实施例中,媒体指南应用可以经由用户输入设备(例如,用户输入接口510、无线用户通信设备606)接收第一语音106。第一语音106可以包括例如用户说出的词。用户可以意图使用第一语音106来发起对项目的搜索,诸如媒体资产。例如,第一语音106可以是“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用可以使用自动语音识别基于第一语音106来确定第一输入108。例如,媒体指南应用可以使用已知的自动语音识别技术,诸如Gaikwad、Santosh K.、Bharti W.Gawali 和Pravin Yannawar在“A review on speech recognitiontechnique”International Journal of Computer Applications 10.3(2010):16-24,中描述的自动语音识别技术,通过将第一语音106转换成文本来确定第一输入108,该文献的公开内容通过引用整体并入本文。例如,如果第一语音106是“将关于Austin的演出显示给我”,那么媒体指南应用可以将第一输入108确定为“将关于Boston的演出显示给我”,从而错误地将第一语音106中的“Austin”识别为“Boston”。
在一些实施例中,媒体指南应用可以基于第一输入108从数据库中检索(例如,通过经由通信网络614从媒体内容源616或媒体指南数据源618或者从存储装置508中检索数据库)搜索结果112。数据库可以包括例如信息储存库。为了从信息储存库中检索搜索结果112,媒体指南应用可以使用已知的信息检索技术,诸如美国专利No.8,577,671中描述的技术,该专利的公开内容通过引用整体并入本文。在一些实施例中,搜索结果112可以仅包括一个搜索结果。
在一些实施例中,媒体指南应用可以生成搜索结果112以供显示(例如,在显示器512上)。例如,如果第一输入108是“将关于Boston的演出显示给我”,那么媒体指南应用可以检索并生成在Boston发生的电视节目Fringe的列表(例如,列表308、406、408、410或412)以供显示。
在一些实施例中,媒体指南应用可以确定生成搜索结果112以供显示的第一时间110。在一些实施例中,媒体指南应用可以通过检测在第一时间110之后发送(例如,从处理电路系统506)到显示屏(例如,显示器512)的像素的信号第一次改变的时间来确定第一时间110。在一些实施例中,发送到显示屏的像素的信号使显示屏改变为例如显示新项目。例如,当接收到第一语音106时,发送到显示屏的像素的信号可以不改变,因为尚未检索到结果。但是,一旦检索到搜索结果112并且准备好在显示屏上显示搜索结果,发送到显示屏的像素的信号就可以改变,以便显示搜索结果112。在已经接收到第一语音106之后当发送到显示屏的像素的信号改变时的初始时间可以表示搜索结果112正在被显示。因此,当已经生成搜索结果112以供显示时,在已经接收到第一语音106之后当发送到显示屏的像素的信号改变时的初始时间可以被认为是第一时间110。在一些实施例中,当确定第一时间110时,媒体指南应用可以忽略发送到显示屏的像素的信号的改变,该信号的改变表示与搜索结果112不相关联的项目(诸如时钟、光标和其它项目)的显示的改变。
在一些实施例中,媒体指南应用可以在接收到第一语音106之后经由用户输入设备来接收第二语音116。第二语音116可以包括例如用户说出的词。用户可以意图使用第二语音116来纠正媒体指南应用错误识别出的第一输入108的一部分。例如,用户可以基于不匹配第一语音106的搜索结果112来确定媒体指南错误地识别出第一语音106的一部分。例如,如果搜索结果112包括关于Boston的演出,那么用户可以确定媒体指南应用响应于第一语音106(“将关于Austin的演出显示给我”而错误地生成了“将关于Boston的演出显示给我”作为第一输入108)。因而,第二语音116可以是“Austin”,其中用户意图将“Boston”纠正为“Austin”。第二语音116可以缺乏用户是否意图用第二语音116来纠正第一输入108中的错误或者用户是否意图例如开始新的搜索或过滤先前呈现的搜索结果112的明确指示。例如,第二语音116可以缺乏可以表示用户意图纠正第一输入108的明确指示的诸如“不是”或“我是说”之类的短语。
在一些实施例中,媒体指南应用可以基于第二语音116使用自动语音识别来确定第二输入120。例如,媒体指南应用可以使用已知的自动语音识别技术,诸如Gaikwad、Santosh K.、Bharti W.Gawali和Pravin Yannawar在“A review on speech recognitiontechnique”International Journal of Computer Applications 10.3(2010):16-24,中描述的自动语音识别技术,通过将第二语音116转换成文本来确定第二输入120。例如,如果第二语音116是“Austin”,那么媒体指南应用可以将第二输入120确定为“Austin”,从而正确地识别第二语音116中的“Austin”。
在一些实施例中,媒体指南应用可以确定接收到第二语音116的第二时间114。在一些实施例中,媒体指南应用可以通过经由用户输入设备测量在第一时间110之后的最早发音发生的时间来确定第二时间114。例如,如果媒体指南应用在10:00:00AM呈现搜索结果112,并且来自用户的下一个发音是“Austin”,那么媒体指南应用可以测量“Austin”中的初始“Au”声音发生在10:00:10AM,并认为10:00:10AM是第二时间114。在一些实施例中,媒体指南应用可以通过在第一时间110之后检测用户输入设备处的输入音量何时第一次超过阈值音量来检测最早的发音。
在一些实施例中,媒体指南应用可以将第二时间114与第一时间110之间的时间差118与阈值时间进行比较。媒体指南应用可以通过从第二时间114减去第一时间110来计算时间差118。例如,如果第一时间110是10:00:00AM并且第二时间114是10:00:10AM,那么媒体指南应用可以将时间差118计算为10秒。在计算时间差118时,媒体指南应用可以将第一时间110、第二时间114和/或时间差118四舍五入到最接近的秒、分钟、小时等。在一些实施例中,媒体指南应用可以将阈值时间设置为默认值或将阈值时间设置为用户定义的值。
在一些实施例中,基于将时间差118与阈值时间进行比较,媒体指南应用可以确定时间差118小于阈值时间。例如,如果时间差118是10秒并且阈值时间是20秒,那么媒体指南应用可以确定时间差118小于阈值时间。
在一些实施例中,基于确定时间差118小于阈值时间,媒体指南应用可以通过将第一输入108的一部分替换为第二输入120的一部分基于第一输入108来生成经纠正的输入122。在一些实施例中,媒体指南应用可以通过用整个第二输入120替换第一输入108的一部分基于第一输入108来生成经纠正的输入122。例如,如果第一输入108是“将关于Boston的演出显示给我”,并且第二输入120是“Austin”,那么媒体指南应用可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”122。媒体指南应用可以使用任何已知的方法来用第二输入120的一部分代替第一输入108的一部分,诸如美国专利申请公开No.2014/0337370、美国专利No.9,514,743和美国专利申请公开No.2009/0228273中描述的方法,这些文献的全部内容通过引用整体并入本文。
用户说出第二语音116时的第二时间114与媒体指南应用生成针对第一输入108的搜索结果112以供显示的第一时间110之间的时间差118可以是有帮助的,因为时间差118可以指示用户是否意图用第二语音116纠正第一输入108中的错误。如果在生成第一输入108中正确地识别了第一语音106,那么与第一语音106的一部分被错误地识别相比,在生成搜索结果112以供显示之后用户可以花费更长的时间说出后续的输入。例如,如果正确识别出了第一语音106,那么用户可以花费长时间(即,大于阈值时间的时间量)滚动搜索结果112、阅读搜索结果112的描述、打开搜索结果112、播放搜索结果112等。但是,如果第一语音106的一部分被错误地识别,那么用户会在短时间(即,小于阈值时间的时间量)内注意到搜索结果112与第一语音106中所请求的不匹配。因而,用户可以不花费大量时间来滚动搜索结果112、阅读搜索结果112的描述、打开搜索结果112、播放搜索结果112等。代替地,用户可以在看到搜索结果112之后非常快地(即,小于阈值时间的时间量)说出第二语音116以纠正错误地识别出的第一语音106。
在一些实施例中,媒体指南应用可以基于与用户相关联的输入之间的平均时间来调整阈值时间。在一些实施例中,媒体指南应用可以监视用户输入的口语输入之间的平均时间,并将这个平均时间存储在与用户相关联的用户历史中。在一些实施例中,媒体指南应用可以将阈值时间设置为默认值,并基于存储在用户历史中的平均时间来调整阈值时间。在一些实施例中,媒体指南应用可以将阈值时间调整与平均时间的范围相关联的量。例如,如果平均时间在1秒和5秒之间,那么媒体指南应用可以将阈值时间增加5秒,而如果平均时间在5秒和10秒之间,那么媒体指南应用可以将阈值时间增加10秒。在一些实施例中,媒体指南应用可以将阈值时间调整与平均时间成比例的量。例如,媒体指南应用可以将阈值时间增加等于平均时间的时间量。在一些实施例中,媒体指南应用可以将阈值时间调整正或负的时间量。基于与用户相关联的输入之间的平均时间来调整阈值时间可以有助于预测用户一般在审查搜索结果112上花费多长时间。如果用户的输入之间的平均时间大,那么用户可以花费长时间审查搜索结果112,因此可以保证在预测用户是否意图用第二语音116纠正第一输入108时增加阈值时间。在一些实施例中,可以基于网络速度(例如,网络向导应用响应查询的速度)来选择阈值时间。在一些实施例中,可以提交标准化的查询(“ping查询”)并测量响应时间,以便测量网络速度并确定阈值时间。
在一些实施例中,媒体指南应用可以基于确定在第一时间110和第二时间114之间没有经由用户输入设备接收到与浏览搜索结果112相关联的输入来生成经纠正的输入122。例如,与浏览搜索结果112相关联的输入可以包括在显示的搜索结果112中向上或向下滚动的输入、打开搜索结果112的输入、播放搜索结果112的输入以及读取搜索结果112的描述的输入。媒体指南应用可以监视在第一时间110和第二时间114之间经由用户输入设备接收的输入,并确定接收到的输入的类型均不与浏览搜索结果112相关联。
确定在用户说出第二语音116的第二时间114和媒体指南应用生成针对第一输入108的搜索结果112以供显示的第一时间110之间没有经由用户输入设备接收到与浏览搜索结果112相关联的输入可以是有帮助的,因为这个确定可以指示用户是否意图用第二语音116来纠正第一输入108中的错误。如果在生成第一输入108时正确识别出了第一语音106,那么用户可以在呈现搜索结果112之后输入与浏览搜索结果112相关联的输入。例如,如果正确识别出了第一语音106,那么用户可以滚动搜索结果112、阅读搜索结果112的描述、打开搜索结果112。但是,如果第一语音106的一部分被错误地识别,那么用户可以注意到搜索结果112与第一语音106所请求的内容不匹配。因而,用户不会滚动搜索结果112、阅读搜索结果的描述112、打开搜索结果112、播放搜索结果112等。代替地,用户可以在看到搜索结果112之后说出第二语音116,以纠正错误识别出的第一语音106,而不会经由用户输入设备输入与浏览搜索结果112相关联的任何输入。
在一些实施例中,媒体指南应用可以经由用户输入设备在第一时间110和第二时间1114之间捕获用户面部的图像。在一些实施例中,用户输入设备可以使用用户输入设备中包括的相机来捕获用户面部的图像。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。在一些实施例中,用用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。在一些实施例中,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的查看并使用该查看捕获用户面部的图像。在一些实施例中,媒体指南应用可以基于确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入122。在一些实施例中,为了确定图像中用户的面部与不满意的情绪相关联,媒体指南应用可以使用面部识别技术来分析用户面部的图像,以检测诸如愤怒和悲伤之类的表情。媒体指南应用可以使用检测面部图像中表情的任何方法,诸如Kulkarni、Saket S.、Narender P.Reddy和S.I.Hariharan的“Facial expression(mood)recognition from facial image using committee neural networks”Biomedical Engineering Online 8.1(2009):16中的方法,该文献的内容通过引用整体并入本文。在一些实施例中,除了/代替检测不满意的面部表情,媒体指南应用还可以检测不满意的声音,诸如抱怨。
确定用户在图像中的面部与不满意的情绪相关联可以是有帮助的,因为这个确定可以指示用户是否意图用第二语音116来纠正第一输入108中的错误。如果第一语音106被错误地识别,并且呈现的搜索结果112与用户的意图不匹配,那么用户会不满意,因此用户的面部可以表现出不满意的表情。如果正确识别出了第一语音106,并且呈现的搜索结果112确实与用户的意图匹配,那么用户会满意,因此用户的面部不会表现出不满意的表情。
在一些实施例中,媒体指南应用可以在接收第一语音106的同时经由用户输入设备捕获用户面部的第一图像,并确定第一图像中用户面部的第一相对尺寸。在一些实施例中,媒体指南应用可以在接收第二语音116的同时经由用户输入设备捕获用户面部的第二图像,并确定第二图像中用户面部的第二相对尺寸。在一些实施例中,用户输入设备可以使用包括在用户输入设备中的相机来捕获用户面部的图像。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。在一些实施例中,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。在一些实施例中,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的相机并使用该相机来捕获用户面部的图像。在一些实施例中,媒体指南应用可以通过计数图像中用户面部所占据的像素数来计算图像中用户面部的相对尺寸。为了确定第一图像和第二图像中用户面部的相对尺寸,媒体指南应用可以使用参考图9-10描述的方法。在一些实施例中,媒体指南应用可以将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较。媒体指南应用可以通过从第二相对尺寸减去第一相对尺寸来计算相对尺寸差。例如,如果第一相对尺寸是3兆像素并且第二相对尺寸是4兆像素,那么媒体指南应用可以将相对尺寸差计算为1兆像素。在一些实施例中,媒体指南应用可以基于将相对尺寸差与阈值相对尺寸进行比较来确定相对尺寸差大于阈值相对尺寸。例如,如果相对尺寸差是1兆像素并且阈值相对尺寸是0.5兆像素,那么媒体指南应用可以确定相对尺寸差大于阈值相对尺寸。在一些实施例中,媒体指南应用可以基于确定相对尺寸差大于阈值相对尺寸而生成经纠正的输入122。
因而,上面提到的方法确定在接收第一语音106的同时所拍摄的图像中用户面部的相对尺寸是否小于在接收第二语音116的同时所拍摄的图像中用户面部的相对尺寸。这可以有助于确定用户是否意图用第二语音116纠正第一输入108中的错误。如果用户意图用第二语音116纠正第一输入108中的错误,那么用户可以试图将他/她的嘴更靠近用户输入设备,以便用户输入设备可以更准确地检测第二语音116并有更好的机会正确识别第二语音116。如果用户将他/她的脸更靠近用户输入设备,那么这可以被检测为在接收第二语音116的同时所捕获的图像中用户面部的尺寸相对于在接收第一语音106的同时所捕获的图像中用户面部的尺寸的增加。
在一些实施例中,媒体指南应用可以将第二时间114与第一时间110之间的时间差118与第二阈值时间进行比较,并且基于将时间差118与第二阈值时间进行比较,确定时间差118大于第二阈值时间。在一些实施例中,媒体指南应用可以基于确定时间差118小于阈值时间并大于第二阈值时间来生成经纠正的输入122。例如,如果时间差118是10秒,阈值时间是20秒,并且第二阈值时间是2秒,那么媒体指南应用可以确定时间差118小于阈值时间并且大于第二阈值时间。第二阈值时间可以小于阈值时间。当用户意图以第二语音116继续第一语音106时,确定时间差118大于第二阈值时间可以有助于避免生成经纠正的输入122。例如,第一语音106可以是“将关于Austin的演出显示给我”,并且媒体指南应用可以将关于Austin(德克萨斯州的城镇)的节目作为搜索结果112呈现。第二语音116可以是“Powers”。在这个示例中,第二语音116实际上可以是第一语音106的延续,即,用户意图说出“将关于Austin的演出显示给我Powers”(其中Austin Powers是电影系列中的角色)。但是,媒体指南应用可能在用户说完“Powers”之前就已经呈现了搜索结果112。在这种情况下,用户无意用第二语音116(“Powers”)纠正第一语音106(“将关于Austin的演出显示给我”)。而是用户意图以第二语音116继续第一语音106。因而,媒体指南应用可以将第二时间114与第一时间110之间的时间差118与小于阈值时间的第二阈值时间进行比较。如果时间差118小于或等于第二阈值时间,那么这可以指示用户在呈现搜索结果112之后非常快就说出了第二语音116,也许在呈现搜索结果112之后太快以至于甚至没有查看搜索结果112。因而,这可以指示用户尚未结束说完第一语音106,并且媒体指南应用不应当用第二语音116来纠正第一语音106。但是,如果时间差118大于第二阈值时间但是仍小于阈值时间,那么这可以指示用户在合理的时间量之后说出第二语音116以短暂地查看搜索结果112并且确定它们没有匹配第一个语音106。因而,这可以指示用户意图用第二语音116来纠正第一语音106。
在一些实施例中,媒体指南应用可以经由用户输入设备测量基线环境噪声级别。在一些实施例中,为了测量基线环境噪声级别,当用户不说出任何输入时,用户输入设备可以捕获基线音频记录。媒体指南应用可以通过测量基线音频记录中的平均功率来确定这个音频记录中的环境噪声级别。在一些实施例中,媒体指南应用可以在接收第一语音106的同时经由用户输入设备测量环境噪声级别。在一些实施例中,为了在接收第一语音106的同时测量环境噪声级别,用户输入设备可以在接收第一语音106的同时捕获音频记录,并使用任何已知技术来过滤掉音频记录中的声音,所述技术诸如美国专利申请公开No.2005/0182504和美国专利申请公开No.2008/0134866中讨论的那些技术。然后,媒体指南应用可以测量音频记录中剩余信号的平均功率,以确定这个音频记录中的环境噪声级别。在一些实施例中,媒体指南应用可以将接收第一语音106时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较。在一些实施例中,基于将接收第一语音106时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,媒体指南应用可以确定环境噪声级别差大于阈值环境噪声级别。例如,如果环境噪声级别差是0.1mW并且阈值环境噪声级别是0.01mW,那么媒体指南应用可以确定0.1mW大于0.01mW。在一些实施例中,媒体指南可以基于确定环境噪声级别差大于阈值环境噪声级别而生成经纠正的输入122。
确定接收第一语音106时的环境噪声级别大于基线环境噪声级别的阈值环境噪声级别可以有助于确定用户是否意图用第二语音116来纠正第一输入108中的错误。例如,如果接收第一语音106时的环境噪声级别大,那么由于噪声,不能正确识别第一语音106的可能性更大,并且用户意图用第二语音116纠正第一输入108中的错误的机会更大。
在一些实施例中,媒体指南应用可以用问题来响应第一输入108以解决歧义。例如,如果第一输入108是“Show me Sox games(将Sox比赛显示给我)”,那么媒体指南应用可以显示针对Boston Red Sox和Chicago White Sox(均为运动队)的搜索结果112。媒体指南应用还可以向用户呈现明确的问题,诸如“Do you mean the Boston Red Sox or theChicago White Sox?(你是说Boston Red Sox或Chicago White Sox?)”用户可以用第二语音116(诸如“Boston Red Sox”)来回答这个明确的问题。在媒体指南应用给出有歧义的问题的情况下,无论第一时间110与第二时间114之间的时差118如何,媒体指南应用都可以自动认为第二语音116不应当用于纠正第一输入108,而是应当使用它来消除歧义,或过滤搜索结果112。
在一些实施例中,媒体指南应用可以基于确定用户输入设备的加速度差来生成经纠正的输入。在一些实施例中,媒体指南应用可以经由用户输入设备(例如,用户输入接口510或无线用户通信设备606)接收第一语音206。第一语音206可以包括例如用户说出的词。用户可以意图用第一语音206来发起对诸如媒体资产之类的项目的搜索。例如,第一语音206可以是“将关于Austin的演出显示给我”。
在一些实施例中,媒体指南应用可以使用自动语音识别基于第一语音206来确定第一输入208。例如,媒体指南应用可以使用已知的自动语音识别技术,诸如Gaikwad、Santosh K.、Bharti W.Gawali和Pravin Yannawar在“A review on speech recognitiontechnique”International Journal of Computer Applications 10.3(2010):16-24,中描述的自动语音识别技术,通过将第一语音206转换成文本来确定第一输入208,该文献的公开内容通过引用整体并入本文。例如,如果第一语音206是“将关于Austin的演出显示给我”,那么媒体指南应用可以将第一输入208确定为“将关于Boston的演出显示给我”,从而错误地将第一语音206中的“Austin”识别为“Boston”。
在一些实施例中,媒体指南应用可以基于第一输入208从数据库(例如,通过通信网络614在媒体内容源616或媒体指南数据源618处或者在存储装置508处)检索搜索结果212。数据库可以包括例如信息储存库。为了从信息储存库中检索搜索结果212,媒体指南应用可以使用已知的信息检索技术,诸如在美国专利No.8,577,671中描述的技术,该专利的公开内容通过引用整体并入本文。在一些实施例中,搜索结果212可以仅包括一个搜索结果。
在一些实施例中,媒体指南应用可以生成搜索结果212以供显示(例如,在显示器512上)。例如,如果第一输入208是“将关于Boston的演出显示给我”,那么媒体指南应用可以检索并生成在Boston发生的电视节目Fringe的列表(例如,列表308、406、408、410或412)以供显示。
在一些实施例中,媒体指南应用可以确定生成搜索结果212以供显示的第一时间210。在一些实施例中,媒体指南应用可以通过检测在第一时间210之后发送到显示屏(例如,显示器512)的像素的信号第一次改变的时间来确定第一时间210。在一些实施例中,发送(例如,从处理电路系统506)到显示屏的像素的信号使显示屏改变为例如显示新的项目。例如,当接收到第一语音206时,发送到显示屏的像素的信号不会改变,因为尚未检索到结果。但是,一旦已经检索出搜索结果212并且准备好在显示屏上显示搜索结果,发送到显示屏的像素的信号就可以改变以便显示搜索结果212。在接收到第一语音206之后当发送到显示屏的像素的信号改变时的初始时间可以表示搜索结果212正在被显示。因此,当已经生成搜索结果212以供显示时,在接收到第一语音206之后当发送到显示屏的像素的信号改变时的初始时间可以被认为是第一时间210。在一些实施例中,当确定第一时间210时,媒体指南应用可以忽略发送到显示屏的像素的信号的改变,该信号的改变表示与搜索结果212不相关联的项目(诸如时钟、光标和其它项目)的显示的改变。
在一些实施例中,媒体指南应用可以在第一时间210经由用户输入设备测量用户输入设备的第一加速度213。在一些实施例中,用户输入设备是移动电话(例如,智能电话),并且移动电话可以使用内部加速度计来确定第一加速度213。在一些实施例中,用户输入设备是平板电脑,并且平板电脑可以使用内部加速度计来确定第一加速度213。在一些实施例中,媒体指南应用可以经由用户输入设备通过在第一时间210在三个空间维度之一中测量用户输入设备的加速度来测量第一加速度213。在一些实施例中,媒体指南应用可以经由用户输入设备将第一加速度213确定为在第一时间210在三个空间维度上的用户输入设备的加速度中的最大值。在一些实施例中,媒体指南应用可以经由用户输入设备将第一加速度213确定为在第一时间210在三个空间维度上的用户输入设备的加速度的平均值。在一些实施例中,媒体导航应用可以经由用户输入设备在第一时间210将第一加速度213确定为在三个空间维度上的用户输入设备的加速度的平方和的平方根。
在一些实施例中,媒体指南应用可以在接收到第一语音206之后经由用户输入设备接收第二语音216。第二语音216可以包括例如用户说出的词。用户可以意图用第二语音216来纠正媒体指南应用错误识别出的第一输入208的一部分。例如,用户可以基于搜索结果212与第一语音206不匹配来确定媒体指南错误地识别出了第一语音206的一部分。例如,如果搜索结果212包括关于Boston的演出,那么用户可以确定媒体指南应用响应于第一语音206(“将关于Austin的演出显示给我”)而错误地生成了“将关于Boston的演出显示给我”作为第一输入208。因而,第二语音216可以是“Austin”,其中用户意图将“Boston”纠正为“Austin”。第二语音216可以缺乏用户是否意图用第二语音216来纠正第一输入208中的错误或者用户是否意图例如开始新的搜索或过滤先前呈现的搜索结果212的明确指示。例如,第二语音216可以缺乏可以表示用户意图用“Austin”来纠正“Boston”的明确指示的诸如“不是”或“我是说”之类的短语。
在一些实施例中,媒体指南应用可以使用自动语音识别基于第二语音216来确定第二输入220。例如,媒体指南应用可以使用已知的自动语音识别技术,诸如Gaikwad、Santosh K.、Bharti W.Gawali和Pravin Yannawar在“A review on speech recognitiontechnique”International Journal of Computer Applications 10.3(2010):16-24,中描述的自动语音识别技术,通过将第二语音216转换成文本来确定第二输入220,该文献的公开内容通过引用整体并入本文。例如,如果第二语音216是“Austin”,那么媒体指南应用可以将第二输入220确定为“Austin”,从而正确地识别第二语音216中的“Austin”。
在一些实施例中,媒体指南应用可以确定接收第二语音216的第二时间214。在一些实施例中,媒体指南应用可以通过经由用户输入设备测量在第一时间210之后的最早发音发生的时间来确定第二时间214。例如,如果媒体指南应用在10:00:00AM呈现搜索结果212,并且来自用户的下一个发音是“Austin”,那么媒体指南应用可以测量“Austin”中的初始“Au”声音发生在10:00:10AM,并认为10:00:10AM是第二时间214。在一些实施例中,媒体指南应用可以通过在第一时间210之后检测用户输入设备处的输入音量何时第一次超过阈值音量来检测最早的发音。
在一些实施例中,媒体指南应用可以经由用户输入设备来测量用户输入设备在第一时间210和第二时间214之间的第二加速度217。在一些实施例中,用户输入设备是移动电话(例如,智能电话),并且移动电话可以使用内部加速度计来确定第二加速度217。在一些实施例中,用户输入设备是平板电脑,并且平板电脑可以使用内部加速度计来确定第二加速度217。在一些实施例中,媒体指南应用可以经由用户输入设备通过在第一时间210和第二时间214之间在三个空间维度之一中测量用户输入设备的加速度来来确定第二加速度217。在一些实施例中,媒体指南应用可以经由用户输入设备将第二加速度217确定为在第一时间210和第二时间214之间的三个空间维度上的用户输入设备的加速度中的最大值。在一些实施例中,媒体指南应用可以经由用户输入设备将第二加速度217确定为在第一时间210和第二时间214之间的三个空间维度上的用户输入设备的加速度的平均值。在一些实施例中,媒体指南应用可以经由用户输入设备将第二加速度217确定为在第一时间210和第二时间214之间的三个空间维度上的用户输入设备的加速度的平方和的平方根。
在一些实施例中,媒体指南应用可以经由用户输入设备通过在第一时间210和第二时间214之间测量用户输入设备的最大加速度来测量第二加速度217。在一些实施例中,媒体指南应用可以经由用户输入设备通过在第一时间210和第二时间214之间测量用户输入设备的平均加速度来测量第二加速度217。
在一些实施例中,媒体指南应用可以确定第二加速度217与第一加速度213之间的加速度差218。例如,如果第一加速度213是0m/s2并且第二加速度217是1m/s2,那么媒体指南应用可以将加速度差218计算为1m/s2。媒体指南应用可以通过从第二加速度217中减去第一加速度213并可选地取结果的绝对值来计算加速度差218。在计算加速度差218时,媒体指南应用可以将第一加速度213、第二加速度217和/或加速度218的差舍入到附近的值。
在一些实施例中,基于确定第二加速度与第一加速度之间的加速度差218,媒体指南应用可以将加速度差218与阈值加速度进行比较。例如,如果加速度差218为1m/s2且阈值加速度为0.25m/s2,那么媒体指南应用可以将1m/s2与0.25m/s2进行比较。在一些实施例中,阈值加速度可以被确定为当用户使用户输入设备更靠近他们的嘴时用户输入设备的平均加速度。
在一些实施例中,基于将加速度差218与阈值加速度进行比较,媒体指南应用可以确定加速度差218大于阈值加速度。例如,如果加速度差218为1m/s2且阈值加速度为0.25m/s2,那么媒体指南应用可以确定1m/s2大于0.25m/s2
在一些实施例中,基于确定加速度差218小于阈值时间,媒体指南应用可以通过将第一输入208的一部分替换为第二输入220的一部分基于第一输入208来生成经纠正的输入222。在一些实施例中,媒体指南应用可以通过用整个第二输入220替换第一输入208的一部分来于第一输入208来生成经纠正的输入222。例如,如果第一输入208是“将关于Boston的演出显示给我”并且第二输入220是“Austin”,那么媒体指南应用可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”222。媒体指南应用可以使用任何已知的方法来用第二输入220的一部分代替第一输入208的一部分,诸如美国专利申请公开No.2014/0337370、美国专利No.9,514,743和美国专利申请公开No.2009/0228273中描述的方法,这些文献中每一个的内容都通过引用整体并入本文。
计算在呈现搜索结果212的时间与用户说出第二语音216的时间之间的用户输入设备的加速度差218可以是有帮助的,因为加速度差218可以指示用户是否意图用第二语音216纠正第一输入208中的错误。如果第一输入208中存在错误,那么用户可以使用户输入设备更靠近他/她的嘴,以使用户输入设备能够更准确地检测第二语音216,并具有更好的机会正确识别第二语音216。可以将使用户输入设备更靠近用户的嘴的运动检测为用户输入设备的加速度差超过阈值加速度。
在一些实施例中,媒体指南应用可以基于确定在第一时间210和第二时间214之间没有经由用户输入设备接收到与浏览搜索结果212相关联的输入来生成经纠正的输入222。例如,与浏览搜索结果212相关联的输入可以包括用于向上或向下滚动所显示的搜索结果212的输入、用于打开搜索结果212的输入、用于播放搜索结果212的输入以及用于读取搜索结果212的描述的输入。媒体指南应用可以监视在第一时间210和第二时间214之间经由用户输入设备接收的输入,并确定接收到的输入的类型均不与浏览搜索结果212相关联。
确定在当用户说第二语音216时的第二时间214和当媒体指南应用生成针对第一输入208的搜索结果212以供显示时的第一时间210之间没有经由用户输入设备接收到与浏览搜索结果212相关联的输入可以是有帮助的,因为这个确定可以指示用户是否意图用第二语音216来纠正第一输入208中的错误。如果在生成第一输入208时正确识别出了第一语音206,那么用户可以在呈现搜索结果212之后输入与浏览搜索结果212相关联的输入。例如,如果正确识别出了第一语音206,那么用户可以滚动搜索结果212、阅读搜索结果212的描述、打开搜索结果212、播放搜索结果212等。但是,如果第一语音206的一部分被错误地识别,那么用户可以注意到搜索结果212与第一语音206中所请求的内容不匹配。因而,用户不会滚动搜索结果212、阅读搜索结果212的描述、打开搜索结果212、播放搜索结果212等。代替地,用户可以在看到搜索结果212之后说出第二语音216以纠正错误识别出的第一语音206,而不经由用户输入设备输入与浏览搜索结果212相关联的任何输入。
在一些实施例中,媒体指南应用可以经由用户输入设备在第一时间210和第二时间214之间捕获用户面部的图像。在一些实施例中,用户输入设备可以使用用户输入设备中包括的相机来捕获用户面部的图像。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机捕获用户面部的图像。在一些实施例中,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用相机捕获用户面部的图像。在一些实施例中,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的相机并使用相机捕获用户面部的图像。在一些实施例中,媒体指南应用可以基于确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入222。在一些实施例中,为了确定图像中用户的面部与不满意的情绪相关联,媒体指南应用可以使用面部识别技术来分析用户面部的图像,以检测诸如愤怒和悲伤之类的表情。媒体指南应用可以使用检测面部图像中表情的任何方法,诸如Kulkarni、Saket S.、Narender P.Reddy和S.I.Hariharan的“Facial expression(mood)recognition from facial image using committee neural networks”BiomedicalEngineering Online 8.1(2009):16中的方法,该文献的内容通过引用整体并入本文。在一些实施例中,除了/代替检测不满意的面部表情,媒体指南应用还可以检测不满意的声音,诸如抱怨。
确定用户在图像中的面部与不满意的情绪相关联可以是有帮助的,因为这个确定可以指示用户是否意图用第二语音216来纠正第一输入208中的错误。如果第一语音206被错误地识别,并且呈现的搜索结果212与用户的意图不匹配,那么用户会不满意,因此用户的面部可以表现出不满意的表情。如果正确识别出了第一语音206,并且呈现的搜索结果212确实与用户的意图匹配,那么用户会满意,因此用户的面部不会表现出不满意的表情。
在一些实施例中,媒体指南应用可以在接收第一语音206的同时经由用户输入设备捕获用户面部的第一图像,并确定第一图像中用户面部的第一相对尺寸。在一些实施例中,媒体指南应用可以在接收第二语音216的同时经由用户输入设备捕获用户面部的第二图像,并确定第二图像中用户面部的第二相对尺寸。在一些实施例中,用户输入设备可以使用包括在用户输入设备中的相机来捕获用户面部的图像。例如,如果用户输入设备是移动电话,那么移动电话可以使用其相机来捕获用户面部的图像。在一些实施例中,用户可以正在电视上查看媒体资产,并且电视可以具有集成的相机并使用该相机捕获用户面部的图像。在一些实施例中,用户可以正在计算机上查看媒体资产,并且计算机可以具有集成的相机并使用该相机来捕获用户面部的图像。在一些实施例中,媒体指南应用可以通过计数图像中用户面部所占据的像素数来计算图像中用户面部的相对尺寸。为了确定第一图像和第二图像中用户面部的相对尺寸,媒体指南应用可以使用参考图9-10描述的方法。在一些实施例中,媒体指南应用可以将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较。媒体指南应用可以通过从第二相对尺寸减去第一相对尺寸来计算相对尺寸差。例如,如果第一相对尺寸是3兆像素并且第二相对尺寸是4兆像素,那么媒体指南应用可以将相对尺寸差计算为1兆像素。在一些实施例中,媒体指南应用可以基于将相对尺寸差与阈值相对尺寸进行比较来确定相对尺寸差大于阈值相对尺寸。例如,如果相对尺寸差是1兆像素并且阈值相对尺寸是0.5兆像素,那么媒体指南应用可以确定相对尺寸差大于阈值相对尺寸。在一些实施例中,媒体指南应用可以基于确定相对尺寸差大于阈值相对尺寸来生成经纠正的输入222。
因而,上面提到的方法确定在接收第一语音206的同时所拍摄的图像中用户面部的相对尺寸是否小于在接收第二语音216的同时所拍摄的图像中用户面部的相对尺寸。这可能有助于确定用户是否意图用第二语音216纠正第一输入208中的错误。如果用户意图用第二语音216纠正第一输入208中的错误,那么用户可以试图将他/她的脸更靠近用户输入设备,以便用户输入设备可以更准确地检测第二语音216并有更好的机会正确识别第二语音216。如果用户将他/她的脸更靠近用户输入设备,那么这可以被检测为在接收第二语音216的同时所捕获的图像中用户面部的尺寸相对于在接收第一语音206的同时所捕获的图像中用户面部的尺寸的增加。
在一些实施例中,媒体指南应用可以经由用户输入设备测量基线环境噪声级别。在一些实施例中,为了测量基线环境噪声级别,当用户不说出任何输入时,用户输入设备可以捕获基线音频记录。媒体指南应用可以通过测量基线音频记录中的平均功率来确定这个音频记录中的环境噪声级别。在一些实施例中,媒体指南应用可以在接收第一语音206的同时经由用户输入设备测量环境噪声级别。在一些实施例中,为了在接收第一语音206的同时测量环境噪声级别,用户输入设备可以在接收第一语音206的同时捕获音频记录,并使用任何已知技术来过滤掉音频记录中的声音,所述技术诸如美国专利申请公开No.2005/0182504和美国专利申请公开No.2008/0134866中讨论的那些技术。然后,媒体指南应用可以测量音频记录中剩余信号的平均功率,以确定这个音频记录中的环境噪声级别。在一些实施例中,媒体指南应用可以将接收第一语音206时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较。在一些实施例中,基于将接收第一语音106时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,媒体指南应用可以确定环境噪声级别差大于阈值环境噪声级别。例如,如果环境噪声级别差为0.1mW并且阈值环境噪声级别为0.01mW,那么媒体指南应用可以确定0.1mW大于0.01mW。在一些实施例中,媒体指南可以基于确定环境噪声级别差大于阈值环境噪声级别而生成经纠正的输入222。
确定接收第一语音206时的环境噪声级别大于基线环境噪声级别的阈值环境噪声级别可以有助于确定用户是否意图用第二语音216来纠正第一输入208中的错误。例如,如果接收第一语音206时的环境噪声级别大,那么由于噪声,不能正确识别第一语音206的可能性更大,并且用户意图用第二语音216纠正第一输入208中的错误的机会更大。
如上面所讨论的,媒体指南应用可以基于不同的条件来生成经纠正的输入,包括(1)第一时间与第二时间之间的差小于阈值;(2)在第一时间和第二时间之间没有接收到与浏览搜索结果相关联的输入;(3)在第一时间和第二时间之间捕获的图像中的用户面部与不满意的情绪相关联;(4)在接收第二语音的同时所捕获的图像中用户面部的相对尺寸大于在接收第一语音的同时所捕获的图像中用户面部的相对尺寸;(5)接收第一语音时的环境噪声级别与基线环境噪声级别之间的差大于阈值环境噪声级别;以及(6)第一加速度与第二加速度之间的差大于阈值加速度。
在一些实施例中,媒体指南应用可以使用其它条件来确定是否生成经纠正的输入。因为在纠正第一输入时用户会更慢地说出第二语音,所以在一些实施例中,媒体指南应用可以测量用户发出第二语音的每个词花费多长时间并计算第二语音中词的平均发音时间。在一些实施例中,媒体指南应用可以基于平均发音时间大于阈值发音时间来生成经纠正的输入。在一些实施例中,媒体指南应用可以计算第一语音中词的平均发音时间,并基于第二语音的平均发音时间大于第一语音中词的平均发音时间而生成经纠正的输入。
因为用户在纠正第一输入时可以以较高的音调说出第二语音,所以在一些实施例中,媒体指南应用可以测量第二语音中的平均能量级别。在一些实施例中,媒体指南应用可以基于第二语音中的平均能量级别大于阈值能量级别而生成经纠正的输入。在一些实施例中,媒体指南应用可以测量第一语音中的平均能量级别,并且基于第二语音的平均发音时间大于第一语音中的词的平均发音时间而基于平均发音时间生成经纠正的输入。在一些实施例中,媒体指南应用可以通过计算语音中音频的峰值或计算语音中音频的均方根值来测量平均能量级别。
在一些实施例中,媒体指南应用可以基于满足以上条件之一而生成经纠正的输入。例如,媒体指南应用可以基于满足条件(1)而生成经纠正的输入。例如,媒体指南应用可以基于满足条件(6)而生成经纠正的输入。在一些实施例中,媒体指南应用可以基于满足以上条件中的两个而生成经纠正的输入。例如,媒体指南应用可以基于满足条件(1)和(2)、或满足条件(1)和(3)、或满足条件(1)和(4)、或满足条件(1)和(5),或满足条件(6)和(2)、或者满足条件(6)和(3)、或满足条件(6)和(4)、或满足条件(6)和(5)或满足条件(1)和(6)而生成经纠正的输入。在一些实施例中,媒体指南应用可以基于满足以上条件中的多于两个而生成经纠正的输入。在一些实施例中,媒体指南应用可以基于两个条件之一被满足、或三个条件中的两个被满足或任何其它数量的条件中的任何数量的条件被满足而生成经纠正的输入。
在任何给定的内容递送系统中,用户可用的内容量可以很大。因此,许多用户期望通过界面的媒体指南形式,该界面允许用户高效地导航内容选择并容易地识别他们可能期望的内容。提供此类指南的应用在本文中称为交互式媒体指南应用,或者有时也称为媒体指南应用或指南应用。
媒体指南应用可以取决于它们提供指南的内容而采取各种形式。一种典型的媒体指南应用类型是交互式电视节目指南。交互式电视节目指南(有时被称为电子节目指南)是众所周知的指南应用,除其它之外,尤其允许用户在多种类型的内容或媒体资产中导航和定位。交互式媒体指南应用可以生成图形用户界面屏幕,这使用户能够在内容之间导航、定位和选择。如本文所提到的,术语“媒体资产”和“内容”应当被理解为意指电子可消费的用户资产,诸如电视节目,以及按次计费节目、点播节目(如在点播视频(VOD)系统中)、互联网内容(例如,流传输内容、可下载内容、网络广播(Webcast)等等)、视频剪辑、音频、内容信息、图片、旋转图像、文档、播放列表、网站、文章、书籍、电子书籍、博客、聊天会话、社交媒体、应用、游戏和/或任何其它媒体或多媒体和/或其组合。指南应用还允许用户在内容之间进行导航和定位。如本文所提到的,术语“多媒体”当应被理解为意指利用上述至少两种不同内容形式的内容,例如文本、音频、图像、视频或交互内容形式。内容可以被用户装备设备记录、播放、显示或访问,但也可以是实况表演的一部分。
用于执行本文讨论的任何实施例的媒体指南应用和/或任何指令可以在计算机可读介质上被编码。计算机可读介质包括能够存储数据的任何介质。计算机可读介质可以是暂态的,包括但不限于传播的电信号或电磁信号,或者可以是非暂态的,包括但不限于易失性和非易失性计算机存储器或存储设备,诸如硬盘、软盘、USB驱动器、DVD、CD、介质卡、寄存器存储器、处理器高速缓存、随机存取存储器(“RAM”),等等。
随着互联网、移动计算和高速无线网络的出现,用户在他们传统上不使用的用户装备设备上访问媒体。如本文所提到的,短语“用户装备设备”、“用户装备”、“用户设备”、“电子设备”、“电子装备”、“媒体装备设备”或“媒体设备”应当被理解为意指用于访问上述内容的任何设备,诸如电视机、智能TV、机顶盒、用于处理卫星电视的集成接收器解码器(IRD)、数字存储设备、数字媒体接收器(DMR)、数字媒体适配器(DMA)、流传输媒体设备、DVD播放器、DVD记录器、连接的DVD、本地媒体服务器、BLU-RAY播放器、BLU-RAY记录器、个人计算机(PC)、膝上型计算机、平板计算机、WebTV盒、个人计算机电视(PC/TV)、PC媒体服务器、PC媒体中心、手持式计算机、固定电话、个人数字助理(PDA)、移动电话、便携式视频播放器、便携式音乐播放器、便携式游戏机、智能手机或任何其它电视装备、计算装备或无线设备,和/或其组合。在一些实施例中,用户装备设备可以具有面向前方的屏幕和面向后方的屏幕、多个前方屏幕或多个有角度的屏幕。在一些实施例中,用户装备设备可以具有面向前方的摄像头和/或面向后方的摄像头。在这些用户装备设备上,用户可以能够在通过电视机可用的相同内容中进行导航和定位。因此,媒体指南也可以在这些设备上可用。所提供的指南可以仅用于通过电视机可用的内容,用于仅通过一个或多个其它类型的用户装备设备可用的内容,或用于通过电视机和一个或多个其它类型的用户装备设备二者可用的内容。媒体指南应用可以作为在线应用(即,在网站上提供)或作为独立应用或用户装备设备上的客户端来提供。下面将更详细地描述可以实现媒体指南应用的各种设备和平台。
媒体指南应用的功能之一是向用户提供媒体指导数据。如本文所提到的,短语“媒体指南数据”或“指南数据”应当被理解为意指与在操作指南应用中使用的内容或数据相关的任何数据。例如,指南数据可以包括节目信息、指南应用设置、用户偏好、用户简档信息、媒体列表、媒体相关信息(例如,广播时间、广播频道、标题、描述、评级信息(例如,父母控制评级、评论家的评级,等等)、流派或类别信息、演员信息、用于广播公司或提供商的徽标的徽标数据,等等)、媒体格式(例如,标准清晰度、高清晰度、3D,等等)、点播信息、博客、网站以及有助于用户在期望的内容选择中进行导航和定位的任何其它类型的指南数据。
图3-4示出了可以用于提供媒体指南数据的说明性显示屏。图3-4中所示的显示屏可以在任何合适的用户设备或平台上实现。虽然图3-4的显示被示为全屏显示,但它们也可以完全或部分地覆盖在正在显示的内容上。用户可以通过选择在显示屏幕中提供的可选选项(例如,菜单选项、列表选项、图标、超链接等)或按下遥控器或其它用户输入界面或设备上的专用按钮(例如,GUIDE按钮)来指示访问内容信息的期望按钮)。响应于用户的指示,媒体指南应用可以向显示屏提供以若干方式之一组织的媒体指南数据,诸如在网格中按时间和频道、按时间、按频道、按来源、按内容类型、按类别(例如,电影、体育、新闻、少儿或其它节目类别)或其它预定义的、用户定义的或其它组织标准。
图3示出了按照时间和频道布置的节目列表显示300的说明性网格,其也使得能够访问单个显示中的不同类型的内容。显示300可以包括网格302,其具有:(1)频道/内容类型标识符304的列,其中每个频道/内容类型标识符(其是列中的单元格)识别可用的不同频道或内容类型;和(2)时间标识符306的行,其中每个时间标识符(其是行中的单元格)识别编程的时间块。网格302还包括节目列表的单元格,诸如节目列表308,其中每个列表提供在列表的相关联频道和时间上提供的节目的标题。利用用户输入设备,用户可以通过移动高亮区域310来选择节目列表。可以在节目信息区域312中提供与由高亮区域310选择的节目列表有关的信息。区域312可以包括例如节目标题、节目描述、节目被提供的时间(如果适用的话)、节目所在的频道(如果适用的话)、节目的评级以及其它期望的信息。
除了提供对线性节目的访问(例如,被安排在预定时间发送到多个用户装备设备并且根据时间表提供的内容),媒体指南应用还提供对非线性节目的访问(例如,在任何时间用户装备设备可访问和不按照时间表提供的内容)。非线性节目可以包括来自不同内容源的内容,包括点播内容(例如VOD)、互联网内容(例如,流传输媒体、可下载的媒体等等)、本地存储的内容(例如,存储在如上所述的任何用户装备设备或其它存储设备上的内容)或其它与时间无关的内容。点播内容可以包括电影或由特定内容提供商提供的任何其它内容(例如,提供“The Sopranos”和“Curb Your Enthusiasm”的HBO On Demand)。HBO ONDEMAND是时代华纳(Time Warner)公司L.P.等人拥有的服务标志,并且SOPRANOS和CURBYOUR ENTHUSIASM是由Home Box Office公司拥有的商标。互联网内容可以包括web事件(诸如聊天会话或网络广播),或者可通过互联网网站点播或其它互联网访问(例如,FTP)作为流传输内容或可下载内容按需可用的内容。
网格302可以提供用于非线性节目的媒体指南数据,包括点播列表314、记录的内容列表316和互联网内容列表318。有时组合来自不同类型的内容源的内容的媒体指南数据的显示被称为“混合媒体”显示。可以被显示的、与显示300不同的媒体指南数据的类型的各种变换(permutations)可以基于用户选择或指南应用定义(例如,仅记录和广播的列表、仅点播和广播的列表等等的显示)。如图所示,列表314、316和318被示为跨越网格302中显示的整个时间块,以指示这些列表的选择可以分别提供对专用于点播列表、记录的列表或互联网列表的显示的访问。在一些实施例中,可以将用于这些内容类型的列表直接包括在网格302中。附加的媒体指南数据可以响应于用户选择导航图标320之一而被显示。(按下用户输入设备上的箭头键可以以与选择导航图标320类似的方式影响显示。)
显示300还可以包括视频区域322和选项区域326。视频区域322可以允许用户收看和/或预览用户当前可用、将可用或曾经可用的节目。视频区域322的内容可以与网格302中显示的列表之一对应或者独立于其。包括视频区域的网格显示有时被称为画中画(PIG)显示。在2003年5月13日授予Satterfield等人的美国专利No.6,564,378和2001年5月29日授予Yuen等人的美国专利No.6,239,794中更详细地描述了PIG显示及其功能,这两个专利的全部内容整体上通过引用并入本文。PIG显示可以包括在本文描述的实施例的其它媒体指南应用显示屏幕中。
选项区域326可以允许用户访问不同类型的内容、媒体指南应用显示和/或媒体指南应用特征。选项区域326可以是显示300(以及本文描述的其它显示屏幕)的部分,或者可以由用户通过选择屏幕上的选项或按下用户输入设备上的专用或可指派按钮来调用。选项区域326内的可选择选项可以涉及与网格302中的节目列表相关的特征,或者可以包括从主菜单显示中可用的选项。与节目列表相关的特征可以包括搜索其它的播放时间(airtimes)或者接收节目、记录节目、启用节目的系列记录、将节目和/或频道设置为喜爱、购买节目或其它特征的方式。从主菜单显示中可用的选项可以包括搜索选项、VOD选项、父母控制选项、互联网选项、基于云的选项、设备同步选项、第二屏幕设备选项、访问各种类型的媒体指南数据显示的选项、订阅高级服务的选项、编辑用户的简档的选项、访问浏览覆盖层的选项或其它选项。
媒体指南应用可以基于用户的偏好被个性化。个性化的媒体指南应用允许用户定制显示和特征,以创建利用媒体指南应用的个性化“体验”。这种个性化体验可以通过允许用户输入这些定制和/或通过媒体指南应用监视用户活动以确定各种用户偏好来创建。用户可以通过登录或以其其它方式向指南应用识别他们自己来访问其个性化指南应用。媒体指南应用的定制可以根据用户简档进行。定制可以包括不同的呈现方案(例如,显示器的颜色方案、文本的字体大小等等)、所显示的内容列表的各个方面(例如,仅HDTV或仅3D节目、基于最喜爱的频道选择的用户指定的广播频道、重新排序频道的显示、推荐的内容等等)、期望的记录特征(例如,针对特定用户的记录或系列记录、记录质量等等)、父母控制设置、互联网内容的定制呈现(例如,社交媒体内容、电子邮件、电子交付的文章等等)以及其它期望的定制。
媒体指南应用可以允许用户提供用户简档信息,或者可以自动编译用户简档信息。媒体指南应用可以例如监视用户访问的内容和/或用户可能与指南应用的其它交互。此外,媒体指南应用可以获得与特定用户相关的其它用户简档的全部或部分(例如,从互联网上用户访问的其它网站(诸如www.allrovi.com)、从用户访问的其它媒体指南应用、从用户访问的其它交互式应用、从用户的另一个用户装备设备等等),和/或从媒体指南应用可以访问的其它源获得关于用户的信息。因此,可以在用户的不同用户装备设备上为用户提供统一的指南应用体验。下面结合图6更详细地描述这种类型的用户体验。在Ellis等人于2005年7月11日提交的美国专利申请公开No.2005/0251827、于2007年1月16日授予Boyer等人的美国专利No.7,165,098以及Ellis等人于2002年2月21日提交的美国专利申请公开No.2002/0174430中更详细地描述了附加的个性化媒体指南应用特征,这些通过引用整体上并入本文。
用于提供媒体指南的另一种显示布置在图4中示出。视频马赛克显示400包括用于基于内容类型、流派和/或其它组织标准组织的内容信息的可选选项402。在显示400中,列表可以提供包括封面艺术的图形图像、来自内容的静止图像、视频剪辑预览、来自内容的实况视频或向用户指示内容由列表中的媒体指南数据描述的其它类型的内容。每个图形列表还可以附带有文本,以提供关于与列表相关联的内容的进一步信息。例如,列表408可以包括多于一个部分,包括媒体部分414和文本部分416。媒体部分414和/或文本部分416可以是可选择的,以全屏收看内容或者收看与媒体部分414中显示的内容(例如,收看用于显示视频的频道的列表)。
显示400中的列表具有不同的尺寸(即,列表406大于列表408、410和412),但是如果期望的话,那么所有列表可以是相同的尺寸。列表可以具有不同的尺寸或以图形方式加强,以指示用户感兴趣的程度或者强调某些内容,如内容提供者所期望的或者基于用户偏好。在例如2009年11月12日提交的Yates的美国专利申请公开No.2010/0153885中讨论了用于以图形方式加强内容列表的各种系统和方法,其通过引用整体上并入本文。
用户可以从其一个或多个用户装备设备访问内容和媒体指南应用(及其上面和下面描述的显示屏幕)。图5示出了说明性用户装备设备500的一般化实施例。下面结合图6讨论用户装备设备的更具体的实现。用户装备设备500可以经由输入/输出(以下称为“I/O”)路径502接收内容和数据。I/O路径502可以向控制电路系统504提供内容(例如,广播节目、点播节目、互联网内容、局域网(LAN)或广域网(WAN)上可用的内容,和/或其它内容)和数据,控制电路系统504包括处理电路系统506和存储器508。控制电路系统504可以被用来使用I/O路径502发送和接收命令、请求和其它合适的数据。I/O路径502可以将控制电路系统504(具体而言是处理电路系统506)连接到一个或多个通信路径(下面描述)。I/O功能可以由这些通信路径中的一个或多个提供,但是在图5中被示为单个路径,以避免使图过于复杂。
控制电路系统504可以基于任何合适的处理电路系统,诸如处理电路系统506。如本文所提到的,处理电路系统应当被理解为意指基于一个或多个微处理器、微控制器、数字信号处理器、可编程逻辑设备、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等等的电路系统,并且可以包括多核处理器(例如,双核、四核、六核或任何合适数量的核)或超级计算机。在一些实施例中,处理电路系统可以分布在多个单独的处理器或处理单元上,例如多个相同类型的处理单元(例如,两个Intel Core i7处理器)或多个不同的处理器(例如,IntelCore i5处理器和Intel Core i7处理器)。在一些实施例中,控制电路系统504执行存储在存储器(即,存储装置508)中的、用于媒体指南应用的指令。具体而言,控制电路系统504可以由媒体指南应用指示,以执行上面和下面讨论的功能。例如,媒体指南应用可以向控制电路系统504提供指令,以生成媒体指南显示。在一些实施例中,由控制电路系统504执行的任何动作可以基于从媒体指南应用接收的指令。
在基于客户端-服务器的实施例中,控制电路系统504可以包括适于与指南应用服务器或其它网络或服务器进行通信的通信电路系统。用于执行上述功能的指令可以存储在指南应用服务器上。通信电路系统可以包括用于与其它装备通信的电缆调制解调器、综合业务数字网络(ISDN)调制解调器、数字订户线路(DSL)调制解调器、电话调制解调器、以太网卡或无线调制解调器,或者任何其它合适的通信电路系统。这种通信可以涉及互联网或任何其它合适的通信网络或路径(结合图6更详细地描述)。此外,通信电路系统可以包括使得能够实现用户装备设备的对等通信或者在彼此远离的位置的用户装备设备的通信的电路系统(下面更详细地描述)。
存储器可以是作为存储装置508提供的电子存储设备,存储装置508是控制电路系统504的一部分。如本文所提到的,短语“电子存储设备”或“存储设备”应当被理解为意指用于存储电子数据、计算机软件或固件的任何设备,诸如随机存取存储器、只读存储器、硬盘驱动器、光盘驱动器、数字视频光盘(DVD)记录器、光盘(CD)记录器、BLU-RAY盘(BD)记录器、BLU-RAY 3D盘片记录器、数字视频记录器(DVR,有时称为个人录像机或PVR)、固态设备、量子存储设备、游戏控制台、游戏介质或任何其它合适的固定或可移动存储设备,和/或其任意组合。存储装置508可以被用来存储本文描述的各种类型的内容以及上述的媒体指南数据。非易失性存储器也可以被使用(例如,启动指南程序和其它指令)。关于图6描述的基于云的存储装置可以被用来补充存储装置508或代替存储装置508。
控制电路系统504可以包括视频生成电路系统和调谐电路系统,诸如一个或多个模拟调谐器、一个或多个MPEG-2解码器或其它数字解码电路系统、高清晰度调谐器或者任何其它合适的调谐或视频电路,或者这种电路的组合。还可以提供编码电路系统(例如,用于将空中传输(over-the-air)、模拟或数字信号转换成MPEG信号以供存储)。控制电路系统504还可以包括用于将内容上变频和下变频成用户装备500的优选输出格式的缩放器电路系统。电路系统504还可以包括用于在数字和模拟信号之间转换的数模转换器电路系统和模数转换器电路系统。调谐和编码电路系统可以被用户装备设备用来接收和显示、播放或记录内容。调谐和编码电路系统也可以被用来接收指南数据。本文描述的电路系统,包括例如调谐、视频生成、编码、解码、加密、解密、缩放器和模拟/数字电路系统,可以使用在一个或多个通用或专用处理器上运行的软件来实现。可以提供多个调谐器来处理同时调谐功能(例如,观看和记录功能、画中画(PIP)功能、多调谐器记录等等)。如果存储装置508被提供为与用户装备500分开的设备,那么调谐和编码电路系统(包括多个调谐器)可以与存储装置508相关联。
用户可以使用用户输入接口510向控制电路系统504发送指令。用户输入接口510可以是任何合适的用户接口,诸如遥控器、鼠标、轨迹球、小键盘、键盘、触摸屏、触摸板、触笔输入、游戏杆、语音识别接口或其它用户输入接口。显示器512可以被提供为独立的设备或与用户装备设备500的其它元件集成。例如,显示器512可以是触摸屏或触敏显示器。在这种情况下,用户输入接口510可以与显示器512集成或者与显示器512结合。显示器512可以是监视器、电视机、用于移动设备的液晶显示器(LCD)、非晶硅显示器、低温多晶硅显示器、电子墨水显示器、电泳显示器、有源矩阵显示器、电润湿显示器、电流体显示器、阴极射线管显示器、发光二极管显示器、电致发光显示器、等离子体显示器、高性能寻址显示器、薄膜晶体管显示器、有机发光二极管显示器、表面传导电子发射显示器(SED)、激光电视、碳纳米管、量子点显示器、干涉式调制器显示器或用于显示视觉图像的任何其它合适的设备。在一些实施例中,显示器512可以是具有HDTV能力的。在一些实施例中,显示器512可以是3D显示器,并且交互式媒体指南应用和任何合适的内容可以以3D显示。视频卡或图形卡可以将输出生成到显示器512。视频卡可以提供各种功能,诸如3D场景和2D图形的加速渲染、MPEG-2/MPEG-4解码、TV输出或连接多个显示器的能力。视频卡可以是以上关于控制电路系统504描述的任何处理电路系统。视频卡可以与控制电路系统504集成。扬声器514可以被提供为与用户装备设备500的其它元件集成,或者可以是独立的单元。显示器512上显示的视频和其它内容的音频成分量可以通过扬声器514播放。在一些实施例中,音频可以分发给接收器(未示出),其经由扬声器514处理和输出音频。
指南应用可以使用任何合适的体系架构来实现。例如,它可以是完全在用户装备设备500上实现的独立应用。在这种做法中,应用的指令被本地存储(例如,存储在存储装置508中),并且由应用使用的数据定期下载(例如,从带外馈送、从互联网资源,或使用其它合适的做法)。控制电路系统504可以从存储装置508检索应用的指令,并处理指令,以生成本文所讨论的任何显示。基于经处理的指令,控制电路系统504可以确定在从输入接口510接收到输入时要执行什么动作。例如,当输入接口510指示向上/向下按钮被选择时,可以通过将处理的指令来指示显示器上光标向上/向下的移动。
在一些实施例中,媒体指南应用是基于客户端-服务器的应用。通过向远离用户装备设备500的服务器发出请求,按需检索用于由用户装备设备500上实现的胖或瘦客户端使用的数据。在基于客户端-服务器的指南应用的一个示例中,控制电路系统504运行解释由远程服务器提供的网页的Web浏览器。例如,远程服务器可以将用于应用的指令存储在存储设备中。远程服务器可以使用电路系统(例如,控制电路系统504)来处理所存储的指令,并生成上面和下面讨论的显示。客户端设备可以接收由远程服务器生成的显示,并且可以在装备设备500上本地显示显示的内容。以这种方式,由服务器远程地执行指令的处理,同时在装备设备500上本地提供结果显示。装备设备500可以经由输入接口510接收来自用户的输入,并且将那些输入发送到远程服务器进行处理并生成对应的显示。例如,装备设备500可以向远程服务器发送指示经由输入接口510选择了向上/向下按钮的讯息。远程服务器可以根据那个输入来处理指令,并生成与该输入对应的应用的显示(例如,向上/向下移动光标的显示)。所生成的显示然后被发送到装备设备500以供呈现给用户。
在一些实施例中,媒体指南应用被下载并由(由控制电路系统504运行的)解释器或虚拟机解释或以其它方式运行。在一些实施例中,指南应用可以以ETV二进制交换格式(EBIF)编码,由控制电路系统504作为合适的馈送的部分接收,并由在控制电路系统504上运行的用户代理解释。例如,指南应用可以是EBIF应用。在一些实施例中,可以由一系列基于JAVA的文件来定义指南应用,这些基于JAVA的文件是由本地虚拟机或由控制电路系统504执行的其它合适的中间件接收并运行的。在一些此类的实施例中(例如,采用MPEG-2或其它数字媒体编码方案的实施例),可以例如在具有节目的MPEG音频和视频分组的MPEG-2对象轮播中编码和发送指南应用。
图5的用户装备设备500可以在图6的系统600中实现,作为用户电视装备602、用户计算机装备604、无线用户通信设备606或适于访问内容的任何其它类型的用户装备(诸如非便携式游戏机)。为了简单起见,这些设备在本文可以被统称为用户装备或用户装备设备,并且可以基本上类似于上述的用户装备设备。在其上可以实现媒体指南应用的用户装备设备可以用作独立设备或者可以是设备的网络的一部分。设备的各种网络配置可以被实现并且在下面被更详细地讨论。
利用上面结合图5描述的系统特征中的至少一些的用户装备设备可能不仅仅被分类为用户电视装备602、用户计算机装备604或无线用户通信设备606。例如,用户电视装备602可以像一些用户计算机装备604一样启用互联网,以允许访问互联网内容,而用户计算机装备604可以像一些电视装备602一样包括调谐器,以允许访问电视节目。媒体指南应用可以在各种不同类型的用户装备上具有相同的布局,或者可以针对用户装备的显示能力而被裁剪。例如,在用户计算机装备604上,指南应用可以被提供为由web浏览器访问的网站。在另一个示例中,可以针对无线用户通信设备606缩小指南应用。
在系统600中,通常每种类型的用户装备设备存在多于一个,但是在图6中仅示出了每种类型中的一个,以避免使图过于复杂。此外,每个用户可以利用多于一种类型的用户装备设备以及每种类型的用户装备设备中的多于一个。
在一些实施例中,用户装备设备(例如,用户电视装备602、用户计算机装备604、无线用户通信设备606)可以被称为“第二屏幕设备”。例如,第二屏幕设备可以补充在第一用户装备设备上呈现的内容。在第二屏幕设备上呈现的内容可以是补充在第一设备上呈现的内容的任何合适的内容。在一些实施例中,第二屏幕设备提供用于调整第一设备的设置和显示偏好的界面。在一些实施例中,第二屏幕设备被配置用于与其它第二屏幕设备交互或用于与社交网络交互。第二屏幕设备可以位于与第一设备相同的房间中、与第一设备不同的房间但在同一个房屋或建筑物中,或者与第一设备不同的建筑物中。
用户还可以设置各种设置,以在家用式设备和远程设备之间维持一致的媒体指南应用设置。设置包括本文描述的那些设置,以及指南应用用来做出节目推荐、显示偏好和其它期望的指南设置的频道和节目收藏、编程偏好。例如,如果用户将例如网站www.allrovi.com上的频道设置为其办公室的个人计算机上的收藏,那么相同的频道将在用户的家用式设备(例如,用户电视装备和用户计算机装备)以及用户的移动设备上出现为收藏。因此,在一个用户装备设备上进行的改变可以改变另一个用户装备设备上的指南体验,而不管它们是相同类型还是不同类型的用户装备设备。此外,所做的改变可以基于用户输入的设置以及由指南应用监视的用户活动。
用户装备设备可以耦合到通信网络614。即,用户电视装备602、用户计算机装备604和无线用户通信设备606分别经由通信路径608、610和612耦合到通信网络614。通信网络614可以是一个或多个网络,包括互联网、移动电话网络、移动语音或数据网络(例如,4G或LTE网络)、有线网络、公共交换电话网络或其它类型的通信网络,或者通信网络的组合。路径608、610和612可以单独地或一起包括一条或多条通信路径,诸如卫星路径、光纤路径、电缆路径、支持互联网通信(例如,IPTV)的路径、自由空间连接(例如,用于广播或其它无线信号)或任何其它合适的有线或无线通信路径或这种路径的组合。路径612用点线画出,以指示在图6所示的示例性实施例中它是无线路径,并且路径608和610被绘制为实线,以指示它们是有线路径(但是,如果期望,那么这些路径可以是无线路径)。与用户装备设备的通信可以由这些通信路径中的一个或多个提供,但是在图6中被示为单个路径,以避免使图过于复杂。
虽然在用户装备设备之间没有画出通信路径,但是这些设备可以经由通信路径(诸如上面结合路径608、610和612描述的那些)以及其它短距离点到点通信路径(诸如USB电缆、IEEE 1394电缆、无线路径(例如,蓝牙、红外线、IEEE 802-11x等))或者经由有线或无线路径的其它短距离通信彼此直接通信。蓝牙是Bluetooth SIG公司拥有的认证标志。用户装备设备也可以通过经由通信网络614的间接路径彼此直接通信。
系统600包括分别经由通信路径620和622耦合到通信网络614的内容源616和媒体指南数据源618。路径620和622可以包括上面结合路径608、610和612描述的任何通信路径。与内容源616和媒体指南数据源618的通信可以通过一条或多条通信路径交换,但是在图6中示为单条路径,以避免使绘图过于复杂。此外,内容源616和媒体指南数据源618中的每一个可以有多于一个,但是在图6中仅示出了每个中的一个,以避免使附图过于复杂。(下面将讨论这些源中的每一个的不同类型。)如果期望,内容源616和媒体指南数据源618可以集成为一个源设备。虽然源616和618与用户装备设备602、604和606之间的通信被示为通过通信网络614,但是在一些实施例中,源616和618可以经由通信路径(未示出)(诸如以上结合路径608、610和612描述的那些)与用户装备设备602、604和606直接通信。
内容源616可以包括一种或多种类型的内容分发装备,包括电视分发设施、有线系统头端、卫星分发设施、节目源(例如,电视广播公司,诸如NBC、ABC、HBO等)、中间分发设施和/或服务器、互联网提供商、点播媒体服务器及其它内容提供商。NBC是国家广播公司拥有的商标,ABC是美国广播公司拥有的商标,而HBO是Home Box Office公司拥有的商标。内容源616可以是内容的发起者(例如,电视广播公司、网络广播提供商等),或者可以不是内容的发起者(例如,点播内容提供商,用于下载的广播节目的内容的互联网提供商等)。内容源616可以包括有线源(cable source)、卫星提供商、点播提供商、互联网提供商、越顶内容提供商或其它内容提供者。内容源616还可以包括用来在远离任何用户装备设备的位置存储不同类型的内容(包括用户选择的视频内容)的远程媒体服务器。用于内容的远程存储以及向用户装备提供远程存储的内容的系统和方法结合2010年7月20日授予Ellis等人的美国专利No.7,761,892更详细地讨论,该专利整体上通过引用并入本文。
媒体指南数据源618可以提供媒体指南数据,诸如上述的媒体指南数据。媒体指南数据可以使用任何合适的做法提供给用户装备设备。在一些实施例中,指南应用可以是经由数据馈送(例如,连续馈送或涓流(trickle)馈送)接收节目指南数据的独立交互式电视节目指南。可以使用带内数字信号、使用带外数字信号或通过任何其它合适的数据传输技术在在电视频道边带上向用户装备提供节目安排数据和其它指南数据。可以在多个模拟或数字电视频道上向用户装备提供节目安排数据和其它媒体指南数据。
在一些实施例中,可以使用客户端-服务器方法将来自媒体指南数据源618的指南数据提供给用户的装备。例如,用户装备设备可以从服务器拉取媒体指南数据,或者服务器可以将媒体指南数据推送到用户装备设备。在一些实施例中,驻留在用户装备上的指南应用客户端可以发起与源618的会话,以在需要时获得指南数据,例如,当指南数据过时时或者当用户装备设备从用户接收到接收数据的请求时。可以以任何适当的频率(例如,连续地、每天、用户指定的时间段、系统指定的时间段、响应于来自用户装备的请求等)向用户装备提供媒体指南。媒体指南数据源618可以向用户装备设备602、604和606提供媒体指南应用本身或者针对媒体指南应用的软件更新。
在一些实施例中,媒体指南数据可以包括观看者数据。例如,观看者数据可以包括当前和/或历史用户活动信息(例如,用户通常观看什么内容、用户在什么时间观看内容,用户是否与社交网络交互、用户在什么时间与社交网络交互以发布信息、用户通常观看什么类型的内容(例如,付费电视或免费电视)、心情、大脑活动信息等)。媒体指南数据还可以包括订阅数据。例如,订阅数据可以识别给定用户订阅哪些源或服务和/或给定用户先前订阅但后来终止访问了哪些源或服务(例如,用户已经订阅了高级服务、用户是否提高了互联网速度)。在一些实施例中,观看者数据和/或订阅数据可以识别给定用户对于超过一年的时间段的模式。媒体指南数据可以包括用于生成指示给定用户将终止对服务/源的访问的可能性的得分的模型(例如,幸存者模型)。例如,媒体指南应用可以使用该模型处理具有订阅数据的观看者数据,以生成指示给定用户是否将终止对特定服务或源的访问的可能性的值或得分。特别地,越高的得分可以指示用户将终止对特定服务或源的访问的越高的置信度。基于得分,媒体指南应用可以生成诱使用户保持通过得分被指示为用户可能终止对其的访问的特定服务或源的促销。
媒体指南应用可以是例如在用户装备设备上实现的独立应用。例如,媒体指南应用可以被实现为可以存储在存储器508中并由用户装备设备500的控制电路系统504执行的软件或可执行指令集。在一些实施例中,媒体指南应用可以是客户端-服务器应用,其中仅客户端应用驻留在用户装备设备上,而服务器应用驻留于远程服务器上。例如,媒体指南应用可以部分地被实现为用户装备设备500的控制电路系统504上的客户端应用,并且部分地作为服务器应用(例如,媒体指南数据源618)在远程服务器的控制电路系统上运行。的远程服务器上的。当由远程服务器的控制电路系统执行时(诸如媒体指南数据源618),媒体指南应用程序可以指示控制电路系统生成指南应用显示,并将生成的显示发送到用户装备设备。服务器应用可以指示媒体指南数据源618的控制电路系统发送要存储在用户装备上的数据。客户端应用可以指示接收方用户装备的控制电路系统生成指南应用显示。
交付到用户装备设备602、604和606的内容和/或媒体指南数据可以是越顶(OTT)内容。除了经有线或卫星连接接收的内容,OTT内容交付还允许启用互联网的用户设备(包括上述任何用户装备设备)接收经互联网传送的内容(包括上述任何内容)。OTT内容经由由互联网服务提供商(ISP)提供的互联网连接交付,但第三方分发内容。ISP可以不负责查看能力、版权或内容的再分发,并且可以仅传送由OTT内容提供商提供的IP分组。OTT内容提供商的示例包括经由IP分组提供音频和视频的YOUTUBE、NETFLIX和HULU。Youtube是Google公司拥有的商标,Netflix是Netflix公司拥有的商标,Hulu是Hulu公司拥有的商标。OTT内容提供商可以附加地或可替代地提供上述媒体指南数据。除了内容和/或媒体指南数据,OTT内容的提供商可以分发媒体指南应用(例如,基于web的应用或基于云的应用),或者可以通过存储在用户装备设备上的媒体指南应用来显示内容。
媒体指南系统600旨在说明多个做法或网络配置,用户装备设备和内容源和指南数据可以为了访问内容和提供媒体指南而通过其彼此通信。本文所述的实施例可以在这些方法中的任何一个或子集中应用,或者在采用用于交付内容并提供媒体指南的其它方法的系统中应用。以下四种做法提供了图6的一般化示例的具体说明。
在一种方法中,用户装备设备可以在家庭网络内彼此通信。用户装备设备可以经由上述短程点到点通信方案、经由通过在家庭网络上提供的集线器或其它类似设备的间接路径或者经由通信网络614直接彼此通信。单个家庭中的多个个人中的每一个人可以操作在家庭网络上的不同用户装备设备。因此,可能期望在不同的用户装备设备之间传送各种媒体指南信息或设置。例如,如在2005年7月11日Ellis等人提交的美国专利公开No.2005/0251827中更详细描述的,用户可能期望在家庭网络内的不同用户装备设备上维持一致的媒体指南应用设置。家庭网络中的不同类型的用户装备设备也可以彼此通信,以发送内容。例如,用户可以将内容从用户计算机装备发送到便携式视频播放器或便携式音乐播放器。
在第二种方法中,用户可以具有多种类型的用户装备,他们通过这些用户装备访问内容并获得媒体指南。例如,一些用户可以具有由家用式和移动设备访问的家庭网络。用户可以通过在远程设备上实现的媒体指南应用来控制家用式设备。例如,用户可以经由他们办公室的个人计算机或移动设备(诸如PDA或启用web的移动电话)访问网站上的在线媒体指南应用。用户可以在在线指南应用上设置各种设置(例如,记录、提醒或其它设置)来控制用户的家用式设备。在线指南可以直接控制用户的装备,或者通过与用户的家用式设备上的媒体指南应用通信。例如,Ellis等人在2011年10月25日授予的美国专利No.8,046,801中讨论了用于用户装备设备通信的各种系统和方法,其中用户装备设备处于彼此远离的位置,该专利整体上通过引用并入本文。
在第三种方法中,在家内部和外部的用户装备设备的用户可以使用他们的媒体指南应用来直接与内容源616通信,以访问内容。具体而言,在家里,用户电视装备602和用户计算机装备604的用户可以访问媒体指南应用,以在期望的内容之间导航并定位。用户还可以使用无线用户通信设备606在家外面访问媒体指南应用,以在期望的内容之间导航并定位。
在第四种方法中,用户装备设备可以在云计算环境中操作,以访问云服务。在云计算环境中,用于内容共享、存储或分发的各种类型的计算服务(例如,视频共享站点或社交网站)由被称为“云”的网络可访问的计算和存储资源的集合提供。例如,云可以包括服务器计算设备的集合,其可以位于集中或分布的位置,其通过通信网络614向经由网络(诸如互联网)连接的各种类型的用户和设备提供基于云的服务。这些云资源可以包括一个或多个内容源616和一个或多个媒体指南数据源618。此外或在替代方案中,远程计算站点可以包括其它用户装备设备,诸如用户电视装备602、用户计算机装备604和无线用户通信设备606。例如,其它用户装备设备可以提供对存储的视频副本或流传输视频的访问。在这种实施例中,用户装备设备可以以对等方式操作,而不与中央服务器通信。
除了其它示例,对于用户装备设备,云还提供对服务(诸如内容存储、内容共享或社交联网服务)的访问,以及对上述任何内容的访问。可以通过云计算服务提供商或通过其它在线服务的提供商在云中提供。例如,基于云的服务可以包括内容存储服务、内容共享站点、社交联网站点、或者用户来源的内容经由其分发以供所连接的设备上的其他人收看的其它服务。这些基于云的服务可以允许用户装备设备将内容存储到云并且从云接收内容,而不是在本地存储内容并访问本地存储的内容。
用户可以使用各种内容捕获设备(诸如摄像机、具有视频模式的数码相机、音频记录器、移动电话和手持式计算设备)来记录内容。用户可以直接地(例如,从用户计算机装备604或具有会话捕获特征的无线用户通信设备606)将内容上载到云上的内容存储服务。可替代地,用户可以首先将内容传送到用户装备设备(诸如用户计算机装备604)。存储内容的用户装备设备使用通信网络614上的数据传输服务将内容上传到云。在一些实施例中,用户装备设备本身是云资源,并且其它用户装备设备可以直接从用户在其上存储内容的用户装备设备访问内容。
云资源可以由用户装备设备使用例如web浏览器、媒体指南应用、桌面应用、移动应用和/或其访问应用的任意组合来访问。用户装备设备可以是依赖云计算进行应用交付的云客户端,或者用户装备设备可以具有某些功能而无需访问云资源。例如,在用户装备设备上运行的一些应用可以是云应用,即,作为服务经互联网交付的应用,而其它应用可以在用户装备设备上存储和运行。在一些实施例中,用户设备可以同时从多个云资源接收内容。例如,用户设备可以从一个云资源流传输音频,同时从第二个云资源下载内容。或者用户设备可以从多个云资源下载内容,以便更高效的下载。在一些实施例中,用户装备设备可以使用云资源来处理操作,诸如由关于图5描述的处理电路系统执行的处理操作。
如本文中所提到的,术语“响应于…”是指由于...而被发起。例如,响应于第二动作而执行第一动作可以包括第一动作和第二动作之间的插入式步骤。如本文所提到的,术语“直接响应于...”是指由...造成的。例如,直接响应于第二动作而执行第一动作可以不包括在第一动作和第二动作之间的间隙步骤。
图7描绘了处理700的说明性流程图,处理700用于在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误。媒体指南应用使用户装备(例如,用户装备500、用户电视装备602、用户计算机装备604或无线用户通信设备606)的控制电路系统504执行图7的每个元素。处理700开始于702,在702处,控制电路系统504经由用户输入设备(例如,用户输入接口510、无线通信设备606)接收第一语音(例如,第一语音106)。第一语音可以包括例如用户说出的词。用户可以意图使用第一语音来发起对诸如媒体资产之类的项目的搜索。例如,第一语音可以是“将关于Austin的演出显示给我”。
处理700继续到704,在704处,控制电路系统504使用自动语音识别(ASR)基于第一语音来确定第一输入(例如,第一输入108)。例如,控制电路系统504可以通过使用已知的自动语音识别技术将第一语音转换成文本来确定第一输入。例如,如果第一语音是“将关于Austin的演出显示给我”,那么控制电路系统504可以将第一输入确定为“将关于Boston的演出显示给我”,从而将第一语音中的“Austin”错误地识别为“Boston”。
处理700继续到706,在706处,控制电路系统504基于第一输入从数据库(例如,通过通信网络614从媒体内容源616或媒体指南数据源618,或者从存储装置508)中检索搜索结果(例如,搜索结果112)。数据库可以包括例如信息储存库。例如,如果第一输入是“将关于Boston的演出显示给我”,那么控制电路系统504可以检索在Boston发生的电视节目Fringe。
处理700继续到708,在708处,控制电路系统504生成搜索结果以供显示(例如,在显示器512上)。例如,如果搜索结果包括电视节目Fringe,那么控制电路系统504可以生成Fringe的列表(例如,列表308、406、408、410和412)以供显示。
处理700继续到710,在710处,控制电路系统504确定生成搜索结果以供显示的第一时间(例如,第一时间110)。例如,控制电路系统504可以通过检测在接收到第一语音之后发送到显示屏(例如,显示器512)的像素的信号第一次改变的时间来确定第一时间。
处理700继续到712,在712处,控制电路系统504在接收到第一语音之后经由用户输入设备接收第二语音(例如,第二语音116)。第二语音可以包括例如用户说出的词。用户可以意图用第二语音来纠正第一输入的被控制电路系统504错误识别出的部分。例如,用户可以基于搜索结果与第一语音不匹配而确定媒体指南错误地识别出了第一语音。例如,如果搜索结果包括关于Boston的演出,那么用户可以确定控制电路系统504响应于第一语音(“将关于Austin的演出显示给我”)而错误地生成了“将关于Boston的演出显示给我”。因而,第二语音可以是“Austin”,其中用户意图将“Boston”纠正为“Austin”。
处理700继续到714,在714处,控制电路系统504使用自动语音识别(ASR)基于第二语音来确定第二输入(例如,第二输入120)。例如,控制电路系统504可以通过使用已知的自动语音识别技术将第二语音转换成文本来确定第二输入。例如,如果第二语音是“Austin”,那么控制电路系统504可以将第二输入确定为“Austin”,从而正确地识别第二语音中的“Austin”。
处理700继续到716,在716处,控制电路系统504确定接收到第二语音的第二时间(例如,第二时间114)。例如,控制电路系统504可以通过测量在第一时间之后的最早发音出现的时间来确定第二时间。例如,如果控制电路系统504在10:00:00AM生成搜索结果以供显示,并且来自用户的下一个发音是“Austin”,那么控制电路系统504可以测量“Austin”中的初始“Au”声音发生在10:00:10AM,并认为10:00:10AM是第二时间。
处理700继续到718,在718处,控制电路系统504将第二时间与第一时间之间的时间差(例如,时间差118)与阈值时间进行比较。例如,如果第一时间是10:00:00AM并且第二时间是10:00:10AM,那么控制电路系统504可以将时间差计算为10秒,并将这个时间差与阈值时间(可以是20秒)进行比较。
处理700继续到720,在720处,控制电路系统504基于将第二时间与第一时间之间的时间差与阈值时间进行比较而确定第二时间与第一时间之间的时间差小于阈值时间。例如,如果时间差是10秒并且阈值时间是20秒,那么控制电路系统504可以确定10秒小于20秒。
处理700继续到722,在722处,基于确定第二时间与第一时间之间的时间差小于阈值时间,通过用第二输入的一部分替换第一输入的一部分,控制电路系统504基于第一输入生成经纠正的输入(例如,经纠正的输入122)。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么控制电路系统504可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
应当注意的是,处理700或其任何步骤可以在图4-5所示的任何设备上执行或由其提供。例如,如由在用户装备602、604、606(图6)和/或用户装备500(图5)上实现的控制电路系统所指示的,处理700可以由控制电路系统504(图5)执行,以便在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误。此外,处理700可以结合到任何其它处理或实施例的一个或多个步骤中或与之组合。
图8描绘了处理800的说明性流程图,处理800用于在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误。媒体指南应用使用户装备(例如,用户装备500、用户电视装备602、用户计算机装备604或无线用户通信设备606)的控制电路系统504执行图8的每个元素。处理800开始于802,在802处,控制电路系统504经由用户输入设备(例如,用户输入接口510、无线通信设备606)接收第一语音(例如,第一语音206)。第一语音可以包括例如用户说出的词。用户可以意图使用第一语音来发起对诸如媒体资产之类的项目的搜索。例如,第一语音可以是“将关于Austin的演出显示给我”。
处理800继续到804,在804处,控制电路系统504使用自动语音识别(ASR)基于第一语音来确定第一输入(例如,第一输入208)。例如,控制电路系统504可以通过使用已知的自动语音识别技术将第一语音转换成文本来确定第一输入。例如,如果第一语音是“将关于Austin的演出显示给我”,那么控制电路系统504可以将第一输入确定为“将关于Boston的演出显示给我”,从而将第一语音中的“Austin”错误地识别为“Boston”。
处理800继续到806,在806处,控制电路系统504基于第一输入从数据库(例如,通过通信网络614从媒体内容源616或媒体指南数据源618,或者从存储装置508)中检索搜索结果(例如,搜索结果212)。数据库可以包括例如信息储存库。例如,如果第一输入是“将关于Boston的演出显示给我”,那么控制电路系统504可以检索在Boston发生的电视节目Fringe。
处理800继续到808,在808处,控制电路系统504生成搜索结果以供显示(例如,在显示器512上)。例如,如果搜索结果包括电视节目Fringe,那么控制电路系统504可以生成Fringe的列表(例如,列表308、406、408、410和412)以供显示。
处理800继续到810,在810处,控制电路系统504确定生成搜索结果以供显示的第一时间(例如,第一时间210)。例如,控制电路系统504可以通过检测在接收到第一语音之后发送到显示屏(例如,显示器512)的像素的信号第一次改变的时间来确定第一时间。
处理800继续到812,在812处,控制电路系统经由用户输入设备在第一时间测量用户输入设备的第一加速度(例如,第一加速度213)。例如,如果用户输入设备在第一时间几乎是静止的,那么第一加速度可以是0m/s2
处理800继续到814,在814处,控制电路系统504在接收到第一语音之后经由用户输入设备接收第二语音(例如,第二语音216)。第二语音可以包括例如用户说出的词。用户可以意图用第二语音来纠正第一输入的被控制电路系统504错误识别出的部分。例如,用户可以基于搜索结果与第一语音不匹配而确定媒体指南错误地识别出了第一语音。例如,如果搜索结果包括关于Boston的演出,那么用户可以确定控制电路系统504响应于第一语音(“将关于Austin的演出显示给我”)而错误地生成了“将关于Boston的演出显示给我”。因而,第二语音可以是“Austin”,其中用户意图将“Boston”纠正为“Austin”。
处理800继续到816,在816处,控制电路系统504使用自动语音识别(ASR)基于第二语音来确定第二输入(例如,第二输入720)。例如,控制电路系统504可以通过使用已知的自动语音识别技术将第二语音转换成文本来确定第二输入。例如,如果第二语音是“Austin”,那么控制电路系统504可以将第二输入确定为“Austin”,从而正确地识别第二语音中的“Austin”。
处理800继续到818,在818处,控制电路系统504确定接收到第二语音的第二时间(例如,第二时间214)。例如,控制电路系统504可以通过测量在第一时间之后的最早发音出现的时间来确定第二时间。例如,如果控制电路系统504在10:00:00AM生成搜索结果以供显示,并且来自用户的下一个发音是“Austin”,那么控制电路系统504可以测量“Austin”中的初始“Au”声音发生在10:00:10AM,并认为10:00:10AM是第二时间。
处理800继续到820,在820处,控制电路经由用户输入设备测量用户输入设备在第一时间和第二时间之间的第二加速度(例如,第二加速度217)。例如,如果用户输入设备在第一时间和第二时间之间以1m/s的速率移动,那么第二加速度可以是1m/s2
处理800继续到822,在822处,控制电路确定第二加速度与第一加速度之间的加速度差(例如,加速度差218)。例如,如果第一加速度是0m/s2并且第二加速度是1m/s2,那么加速度的差可以是1m/s2
处理800继续到824,在824处,控制电路系统504将加速度差与阈值加速度进行比较。例如,如果用户输入设备在第一时间的加速度是0m/s2并且设备在第二时间的加速度是1m/s2,那么控制电路可以计算加速度差为1m/s2,并将这个加速度差与阈值加速度(其可以为0.25m/s2)进行比较。
处理800继续到826,在826处,控制电路系统504基于将加速度差与阈值加速度进行比较而确定加速度差大于阈值加速度。例如,如果加速度差是1m/s2并且阈值加速度是0.25m/s2,那么控制电路系统504可以确定1m/s2大于0.25m/s2
处理800继续到828,在828处,基于确定加速度差大于阈值加速度,通过用第二输入的一部分替换第一输入的一部分,控制电路系统504基于第一输入生成经纠正的输入(例如,经纠正的输入222)。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么媒体指南应用可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
应当注意的是,处理800或其任何步骤可以在图4-5所示的任何设备上执行或由其提供。例如,如由在用户装备602、604、606(图6)和/或用户装备500(图5)上实现的控制电路系统所指示的,处理800可以由控制电路系统504(图5)执行,以便在第二语音中没有用户意图用第二语音来纠正第一输入的明确指示的情况下基于后续的第二语音来纠正使用自动语音识别从第一语音生成的第一输入中的错误。此外,处理800可以结合到任何其它处理或实施例的一个或多个步骤中或与之组合。例如,如果第一输入是“将关于Boston的演出显示给我”,并且第二输入是“Austin”,那么控制电路系统504可以将“Boston”替换为“Austin”,以生成经纠正的输入“将关于Austin的演出显示给我”。
图9示出了确定图像中面部的相对尺寸的说明性示例。图9示出了包括多个像素900的显示屏。为每个像素指派地址,该地址包括基于水平索引902和垂直索引904的水平地址。例如,多个像素900的右下角的像素具有地址(6,0),其中该对中的第一个数字表示水平地址,该对中的第二个数字表示垂直地址。多个像素900包括对象906。虽然对象906被示为简单的形状,但是如果对象906是面部,那么本文描述的方法同样适用。使用边缘检测、模式识别(包括但不限于自学习系统(例如,神经网络)和/或任何其它合适的技术或方法)来确定对象906的边缘。如果对象906是面部,那么可以使用任何面部检测方法进行检测,诸如Yang,Ming-Hsuan、David J.Kriegman和Narendra Ahuja的“Detecting faces in images:A survey”IEEE Transactions on pattern analysis and machine intelligence 24.1(2002):34-58中所述的方法,该文献的内容通过引用整体并入本文。确定对象906的左边缘包括在地址(1,1)、(1,2)、(1,3)和(1,4)处的像素;确定底边缘包括在地址(1,1)、(2,1)、(3,1)和(4,1)处的像素;确定右边缘包括在地址(4,1)、(4,2)、(4,3)、(3,3)和(3,4)处的像素;确定顶边缘包括在地址(1,4)、(2,4)、(3,4)、(3,3)和(4,3)的像素。对象906还包括在边缘内部的像素,即,在地址(2,2)、(2,3)和(3,2)处的像素。因而,多个像素900中对象906出现的像素的子集是(1,1)、(1,2)、(1,3)、(1,4)、(2,1)、(2,2)、(2,3)、(2,4)、(3,1)、(3,2)、(3,3)、(3,4)、(4,1)、(4,2)和(4,3)。对象906的相对尺寸可以被认为是多个像素900中对象906出现的像素的数量。在图9的示例中,多个像素900中对象906出现的像素的数量是15。
图10示出了用于确定图像中面部的相对尺寸的处理的示例伪代码。下面的讨论针对简单对象906,但是如果对象906是面部,那么同样适用。在行1000处,初始化包含对象的左边缘的像素的地址的矩阵,并将其存储为变量left。按照图9的示例,left将包含(1,1)、(1,2)、(1,3)和(1,4)。在行1002处,初始化包含对象的右边缘的像素的地址的矩阵,并将其存储为变量right。按照图9的示例,right将包含(4,1)、(4,2)、(4,3)、(3,3)和(3,4)。在行1004处,初始化包含left和right的矩阵并将其存储为shape。按照图9的示例,shape将包含(1,1)、(1,2)、(1,3)、(1,4)、(4,1)、(4,2)、(4,3)、(3,3)和(3,4)。行1006-1008循环通过left的每个元素并将该元素存储为left_test。例如,可以选择元素(1,2)。在行1010-1012处,left_test的水平和垂直分量分别存储为left_test_h和left_test_v。按照上面的示例,left_test_h将等于1并且left_test_v将等于2。在行1014处,在right找到具有与left_test_v匹配的垂直分量的元素,并将其存储为right_test。行1014可以被实现为循环通过right。按照上面的示例,可以选择(4,2)并将其存储为right_test。在行1016处,left_test_h递增一。按照上面的示例,left_test_h将递增到2。在行1018-1022处,如果right_test的水平分量大于left_test_h,那么具有地址{left_test_h,left_test_v}的像素被添加到shape,然后处理返回到行1016。按照上面的示例,right_test的水平分量为4并且left_test_h为2,因此将(2,2)添加到shape,并且处理返回到行1016。在随后运行通过行16-22时,(3,2)将被添加到shape。在随后的运行中,行1018中的条件语句将不成立,因为left_test_h将等于right_test的水平分量4,因此处理将继续进行到行1006,在那里选择left的另一个元素,诸如(1,3)。一旦在行1006处选择了left的每个元素后,处理就将继续进行到行1032,在那里从shape中移除重复项。当类似地对顶部和底部边缘重复这个处理时,这个处理将导致shape包含多个像素中对象发生的像素的子集。然后,可以将shape的元素的数量视为对象906的相对尺寸。
以上讨论的处理旨在是说明性而不是限制性的。本领域的技术人员将认识到的是,可以在不脱离本发明的范围的情况下省略、修改、组合和/或重新布置本文讨论的处理的步骤,并且可以执行任何附加步骤。更一般地,以上公开内容意在是示例性而非限制性的。仅所附权利要求书意在设定本发明包括的范围。此外,应当注意的是,在任何一个实施例中描述的特征和限制可以应用到本文的任何其它实施例,并且与一个实施例相关的流程图或示例可以以合适的方式与任何其它实施例组合,以不同的次序完成,或并行完成。此外,本文所述的系统和方法可以被实时地执行。还应当注意的是,上述系统和/或方法可以应用到其它系统和/或方法,或者根据其它系统和/或方法来使用。

Claims (102)

1.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的方法,所述方法包括:
接收第一语音;
使用自动语音识别,基于第一语音生成第一输入;
基于第一输入生成搜索结果以供显示;
接收第二语音;
确定显示搜索结果的时间与接收到第二语音的时间之间的时间差是否小于阈值时间;以及
基于确定显示搜索结果的时间与接收到第二语音的时间之间的时间差小于阈值时间,基于第二语音来纠正第一输入。
2.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的方法,所述方法包括:
经由用户输入设备接收第一语音;
使用控制电路系统和自动语音识别,基于第一语音确定第一输入;
基于第一输入,从数据库中检索搜索结果;
使用控制电路系统生成搜索结果以供显示;
使用控制电路系统确定生成搜索结果以供显示的第一时间;
在接收到第一语音之后,经由用户输入设备接收第二语音;
使用控制电路系统和自动语音识别,基于第二语音确定第二输入;
使用控制电路系统确定接收第二语音的第二时间;
使用控制电路系统将第二时间与第一时间之间的时间差与阈值时间进行比较;
基于将第二时间与第一时间之间的时间差与阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差小于阈值时间;以及
基于确定第二时间与第一时间之间的时间差小于阈值时间,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入。
3.如权利要求2所述的方法,其中生成经纠正的输入还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入。
4.如权利要求3所述的方法,其中确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入包括确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
5.如权利要求2所述的方法,还包括:
在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像;以及
其中生成经纠正的输入还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联。
6.如权利要求2所述的方法,还包括:
在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像;
使用控制电路系统确定第一图像中用户面部的第一相对尺寸;
在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像;
使用控制电路系统确定第二图像中用户面部的第二相对尺寸;
使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较;
基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸;以及
其中生成经纠正的输入还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸。
7.如权利要求2所述的方法,还包括:
使用控制电路系统将第二时间与第一时间之间的时间差与另一个阈值时间进行比较;
基于将第二时间与第一时间之间的时间差与另一个阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间;以及
其中生成经纠正的输入还基于使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间。
8.如权利要求2所述的方法,还包括基于与用户相关联的输入之间的平均时间来调整阈值时间。
9.如权利要求2所述的方法,还包括:
经由用户输入设备测量基线环境噪声级别;
在接收第一语音的同时,经由用户输入设备测量环境噪声级别;
使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较;
基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别;以及
其中生成经纠正的输入还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别。
10.如权利要求2所述的方法,其中确定接收到第二语音的第二时间包括经由用户输入设备测量在第一时间之后接收到最早发音的时间。
11.如权利要求2所述的方法,其中确定生成搜索结果以供显示的第一时间包括使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间。
12.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的系统,所述系统包括:
存储器,存储数据库;
用户输入设备,与控制电路系统通信;以及
控制电路系统,被配置为:
经由用户输入设备接收第一语音;
使用自动语音识别,基于第一语音确定第一输入;
基于第一输入,从数据库中检索搜索结果;
生成搜索结果以供显示;
确定生成搜索结果以供显示的第一时间;
在接收到第一语音之后,经由用户输入设备接收第二语音;
使用自动语音识别,基于第二语音确定第二输入;
确定接收第二语音的第二时间;
将第二时间与第一时间之间的时间差与阈值时间进行比较;
基于将第二时间与第一时间之间的时间差与阈值时间进行比较,确定第二时间与第一时间之间的时间差小于阈值时间;以及
基于确定第二时间与第一时间之间的时间差小于阈值时间,通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入。
13.如权利要求12所述的系统,其中控制电路系统被配置为还基于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入。
14.如权利要求13所述的系统,其中控制电路系统被配置为,当确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入时,确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
15.如权利要求12所述的系统,其中:
控制电路系统还被配置为,在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像;以及
控制电路系统被配置为还基于确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入。
16.如权利要求12所述的系统,其中:
控制电路系统还被配置为:
在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像;
确定第一图像中用户面部的第一相对尺寸;
在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像;
确定第二图像中用户面部的第二相对尺寸;
将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较;
基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,确定相对尺寸差大于阈值相对尺寸;以及
控制电路系统被配置为还基于确定相对尺寸差大于阈值相对尺寸来生成经纠正的输入。
17.如权利要求12所述的系统,其中:
控制电路系统还被配置为:
将第二时间与第一时间之间的时间差与另一个阈值时间进行比较;以及
基于将第二时间与第一时间之间的时间差与另一个阈值时间进行比较,确定第二时间与第一时间之间的时间差大于另一个阈值时间;以及
控制电路系统被配置为还基于确定第二时间与第一时间之间的时间差大于另一个阈值时间来生成经纠正的输入。
18.如权利要求12所述的系统,其中控制电路系统还被配置为基于与用户相关联的输入之间的平均时间来调整阈值时间。
19.如权利要求12所述的系统,其中:
控制电路系统还被配置为:
经由用户输入设备测量基线环境噪声级别;
在接收第一语音的同时,经由用户输入设备测量环境噪声级别;
将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较;以及
基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,确定环境噪声级别差大于阈值环境噪声级别;以及
控制电路系统被配置为还基于确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入。
20.如权利要求12所述的系统,其中控制电路系统被配置为,当确定接收到第二语音的第二时间时,经由用户输入设备测量在第一时间之后接收到最早发音的时间。
21.如权利要求12所述的系统,其中控制电路系统被配置为,当确定生成搜索结果以供显示的第一时间时,检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间。
22.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的方法,所述方法包括:
经由用户输入设备接收第一语音;
使用控制电路系统和自动语音识别,基于第一语音确定第一输入;
使用控制电路系统基于第一输入,从数据库中检索搜索结果;
使用控制电路系统生成搜索结果以供显示;
使用控制电路系统确定生成搜索结果以供显示的第一时间;
在接收到第一语音之后,经由用户输入设备接收第二语音;
使用控制电路系统和自动语音识别,基于第二语音确定第二输入;
使用控制电路系统确定接收第二语音的第二时间;
使用控制电路系统将第二时间与第一时间之间的时间差与阈值时间进行比较;
基于将第二时间与第一时间之间的时间差与阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差小于阈值时间;以及
基于确定第二时间与第一时间之间的时间差小于阈值时间,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入。
23.如权利要求22所述的方法,其中生成经纠正的输入还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入。
24.如权利要求23所述的方法,其中确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入包括确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
25.如权利要求22-24中任一项所述的方法,还包括:
在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像;以及
其中生成经纠正的输入还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联。
26.如权利要求22-25中任一项所述的方法,还包括:
在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像;
使用控制电路系统确定第一图像中用户面部的第一相对尺寸;
在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像;
使用控制电路系统确定第二图像中用户面部的第二相对尺寸;
使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较;
基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸;以及
其中生成经纠正的输入还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸。
27.如权利要求22-26中任一项所述的方法,还包括:
使用控制电路系统将第二时间与第一时间之间的时间差与另一个阈值时间进行比较;
基于将第二时间与第一时间之间的时间差与另一个阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间;以及
其中生成经纠正的输入还基于使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间。
28.如权利要求22-27中任一项所述的方法,还包括基于与用户相关联的输入之间的平均时间来调整阈值时间。
29.如权利要求22-28中任一项所述的方法,还包括:
经由用户输入设备测量基线环境噪声级别;
在接收第一语音的同时,经由用户输入设备测量环境噪声级别;
使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较;
基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别;以及
其中生成经纠正的输入还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别。
30.如权利要求22-29中任一项所述的方法,其中确定接收到第二语音的第二时间包括经由用户输入设备测量在第一时间之后接收到最早发音的时间。
31.如权利要求22-30中任一项所述的方法,其中确定生成搜索结果以供显示的第一时间包括使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间。
32.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的装置,所述装置包括:
用于经由用户输入设备接收第一语音的部件;
用于使用控制电路系统和自动语音识别,基于第一语音确定第一输入的部件;
用于基于第一输入,从数据库中检索搜索结果的部件;
用于使用控制电路系统生成搜索结果以供显示的部件;
用于使用控制电路系统确定生成搜索结果以供显示的第一时间的部件;
用于在接收到第一语音之后,经由用户输入设备接收第二语音的部件;
用于使用控制电路系统和自动语音识别,基于第二语音确定第二输入的部件;
用于使用控制电路系统确定接收第二语音的第二时间的部件;
用于使用控制电路系统将第二时间与第一时间之间的时间差与阈值时间进行比较的部件;
用于基于将第二时间与第一时间之间的时间差与阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差小于阈值时间的部件;以及
用于基于确定第二时间与第一时间之间的时间差小于阈值时间,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入的部件。
33.如权利要求32所述的装置,其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入生成经纠正的输入的部件。
34.如权利要求33所述的装置,其中用于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入的部件包括用于确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入的部件。
35.如权利要求32所述的装置,还包括:
用于在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联生成经纠正的输入的部件。
36.如权利要求32所述的装置,还包括:
用于在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像的部件;
用于使用控制电路系统确定第一图像中用户面部的第一相对尺寸的部件;
用于在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像的部件;
用于使用控制电路系统确定第二图像中用户面部的第二相对尺寸的部件;
用于使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较的部件;
用于基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸生成经纠正的输入的部件。
37.如权利要求32所述的装置,还包括:
用于使用控制电路系统将第二时间与第一时间之间的时间差与另一个阈值时间进行比较的部件;
用于基于将第二时间与第一时间之间的时间差与另一个阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间生成经纠正的输入的部件。
38.如权利要求32所述的装置,还包括用于基于与用户相关联的输入之间的平均时间来调整阈值时间的部件。
39.如权利要求32所述的装置,还包括:
用于经由用户输入设备测量基线环境噪声级别的部件;
用于在接收第一语音的同时,经由用户输入设备测量环境噪声级别的部件;
用于使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较的部件;
用于基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别生成经纠正的输入的部件。
40.如权利要求32所述的装置,其中用于确定接收到第二语音的第二时间的部件包括用于经由用户输入设备测量在第一时间之后接收到最早发音的时间的部件。
41.如权利要求32所述的装置,其中用于确定生成搜索结果以供显示的第一时间的部件包括用于使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间的部件。
42.一种非暂态机器可读介质,包括其上编码有指令的存储器,所述指令用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入,所述非暂态机器可读介质包括:
用于经由用户输入设备接收第一语音的指令;
用于使用控制电路系统和自动语音识别,基于第一语音确定第一输入的指令;
用于基于第一输入,从数据库中检索搜索结果的指令;
用于使用控制电路系统生成搜索结果以供显示的指令;
用于使用控制电路系统确定生成搜索结果以供显示的第一时间的指令;
用于在接收到第一语音之后,经由用户输入设备接收第二语音的指令;
用于使用控制电路系统和自动语音识别,基于第二语音确定第二输入的指令;
用于使用控制电路系统确定接收第二语音的第二时间的指令;
用于使用控制电路系统将第二时间与第一时间之间的时间差与阈值时间进行比较的指令;
用于基于将第二时间与第一时间之间的时间差与阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差小于阈值时间的指令;以及
用于基于确定第二时间与第一时间之间的时间差小于阈值时间,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入的指令。
43.如权利要求42所述的非暂态机器可读介质,其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入的指令。
44.如权利要求43所述的非暂态机器可读介质,其中用于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入的指令包括用于确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入的指令。
45.如权利要求42所述的非暂态机器可读介质,还包括:
用于在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入的指令。
46.如权利要求42所述的非暂态机器可读介质,还包括:
用于在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像的指令;
用于使用控制电路系统确定第一图像中用户面部的第一相对尺寸的指令;
用于在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像的指令;
用于使用控制电路系统确定第二图像中用户面部的第二相对尺寸的指令;
用于使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较的指令;
用于基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸来生成经纠正的输入的指令。
47.如权利要求42所述的非暂态机器可读介质,还包括:
用于使用控制电路系统将第二时间与第一时间之间的时间差与另一个阈值时间进行比较的指令;
用于基于将第二时间与第一时间之间的时间差与另一个阈值时间进行比较,使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定第二时间与第一时间之间的时间差大于另一个阈值时间来生成经纠正的输入的指令。
48.如权利要求42所述的非暂态机器可读介质,还包括用于基于与用户相关联的输入之间的平均时间来调整阈值时间的指令。
49.如权利要求42所述的非暂态机器可读介质,还包括:
用于经由用户输入设备测量基线环境噪声级别的指令;
用于在接收第一语音的同时,经由用户输入设备测量环境噪声级别的指令;
用于使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较的指令;
用于基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入的指令。
50.如权利要求42所述的非暂态机器可读介质,其中用于确定接收到第二语音的第二时间的指令包括用于经由用户输入设备测量在第一时间之后接收到最早发音的时间的指令。
51.如权利要求42所述的非暂态机器可读介质,其中用于确定生成搜索结果以供显示的第一时间的指令包括用于使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间的指令。
52.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的方法,所述方法包括:
经由用户输入设备接收第一语音;
使用自动语音识别,基于第一语音生成第一输入;
基于第一输入生成搜索结果以供显示;
经由用户输入设备接收第二语音;
确定显示搜索结果的时间与接收到第二语音的时间之间用户输入设备的加速度差是否大于阈值加速度;
基于确定显示搜索结果的时间与接收到第二语音的时间之间用户输入设备的加速度差大于阈值加速度,基于第二语音来纠正第一输入。
53.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的方法,所述方法包括:
经由用户输入设备接收第一语音;
使用控制电路系统和自动语音识别,基于第一语音确定第一输入;
基于第一输入,从数据库中检索搜索结果;
使用控制电路系统生成搜索结果以供显示;
使用控制电路系统确定生成搜索结果以供显示的第一时间;
经由用户输入设备在第一时间测量用户输入设备的第一加速度;
在接收到第一语音之后,经由用户输入设备接收第二语音;
使用控制电路系统,基于第二语音确定第二输入;
使用控制电路系统和自动语音识别,确定接收到第二语音的第二时间;
经由用户输入设备,测量在第一时间和第二时间之间用户输入设备的第二加速度;
使用控制电路系统确定第二加速度与第一加速度之间的加速度差;
基于确定第二加速度与第一加速度之间的加速度差,使用控制电路系统将加速度差与阈值加速度进行比较;
基于将加速度差与阈值加速度进行比较,使用控制电路系统确定加速度差大于阈值加速度;以及
基于确定加速度差大于阈值加速度,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入。
54.如权利要求53所述的方法,其中生成经纠正的输入还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入。
55.如权利要求54所述的方法,其中确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入包括确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
56.如权利要求53所述的方法,还包括:
在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像;以及
其中生成经纠正的输入还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联。
57.如权利要求53所述的方法,还包括:
在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像;
使用控制电路系统确定第一图像中用户面部的第一相对尺寸;
在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像;
使用控制电路系统确定第二图像中用户面部的第二相对尺寸;
使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较;
基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸;以及
其中生成经纠正的输入还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸。
58.如权利要求53所述的方法,还包括:
经由用户输入设备测量基线环境噪声级别;
在接收第一语音的同时,经由用户输入设备测量环境噪声级别;
使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较;
基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别;以及
其中生成经纠正的输入还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别。
59.如权利要求53所述的方法,其中确定接收到第二语音的第二时间包括经由用户输入设备测量在第一时间之后接收到最早发音的时间。
60.如权利要求53所述的方法,其中确定生成搜索结果以供显示的第一时间包括使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间。
61.如权利要求53所述的方法,其中用户输入设备是包括加速度计的移动电话。
62.如权利要求53所述的方法,其中测量第二加速度包括测量在第一时间和第二时间之间用户输入设备的最大加速度。
63.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的系统,所述系统包括:
存储器,存储数据库;
用户输入设备,与控制电路系统通信;以及
控制电路系统,被配置为:
经由用户输入设备接收第一语音;
使用控制电路系统和自动语音识别,基于第一语音确定第一输入;
基于第一输入,从数据库中检索搜索结果;
使用控制电路系统生成搜索结果以供显示;
使用控制电路系统确定生成搜索结果以供显示的第一时间;
经由用户输入设备在第一时间测量用户输入设备的第一加速度;
在接收到第一语音之后,经由用户输入设备接收第二语音;
使用控制电路系统,基于第二语音确定第二输入;
使用控制电路系统和自动语音识别,确定接收到第二语音的第二时间;
经由用户输入设备,测量在第一时间和第二时间之间用户输入设备的第二加速度;
使用控制电路系统确定第二加速度与第一加速度之间的加速度差;
基于确定第二加速度与第一加速度之间的加速度差,使用控制电路系统将加速度差与阈值加速度进行比较;
基于将加速度差与阈值加速度进行比较,使用控制电路系统确定加速度差大于阈值加速度;以及
基于确定加速度差大于阈值加速度,通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入。
64.如权利要求63所述的系统,其中控制电路系统被配置为还基于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入。
65.如权利要求64所述的系统,其中控制电路系统被配置为,当确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入时,确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
66.如权利要求63所述的系统,其中:
控制电路系统还被配置为,在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像;以及
其中控制电路系统被配置为,还基于确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入。
67.如权利要求63所述的系统,其中:
控制电路系统还被配置为:
在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像;
确定第一图像中用户面部的第一相对尺寸;
在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像;
确定第二图像中用户面部的第二相对尺寸;
将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较;
基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,确定相对尺寸差大于阈值相对尺寸;以及
控制电路系统被配置为还基于确定相对尺寸差大于阈值相对尺寸来生成经纠正的输入。
68.如权利要求63所述的系统,其中:
控制电路系统还被配置为:
经由用户输入设备测量基线环境噪声级别;
在接收第一语音的同时,经由用户输入设备测量环境噪声级别;
将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较;
基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,确定环境噪声级别差大于阈值环境噪声级别;以及
控制电路系统被配置为还基于确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入。
69.如权利要求63所述的系统,其中控制电路系统被配置为,当确定接收到第二语音的第二时间时,经由用户输入设备测量在第一时间之后接收到最早发音的时间。
70.如权利要求63所述的系统,其中控制电路系统被配置为,当确定生成搜索结果以供显示的第一时间时,检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间。
71.如权利要求63所述的系统,其中用户输入设备是包括加速度计的移动电话。
72.如权利要求63所述的系统,其中控制电路系统被配置为,当测量第二加速度时,测量在第一时间和第二时间之间用户输入设备的最大加速度。
73.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的方法,所述方法包括:
经由用户输入设备接收第一语音;
使用控制电路系统和自动语音识别,基于第一语音确定第一输入;
基于第一输入,使用控制电路系统从数据库中检索搜索结果;
使用控制电路系统生成搜索结果以供显示;
使用控制电路系统确定生成搜索结果以供显示的第一时间;
经由用户输入设备在第一时间测量用户输入设备的第一加速度;
在接收到第一语音之后,经由用户输入设备接收第二语音;
使用控制电路系统,基于第二语音确定第二输入;
使用控制电路系统和自动语音识别,确定接收到第二语音的第二时间;
经由用户输入设备,测量在第一时间和第二时间之间用户输入设备的第二加速度;
使用控制电路系统确定第二加速度与第一加速度之间的加速度差;
基于确定第二加速度与第一加速度之间的加速度差,使用控制电路系统将加速度差与阈值加速度进行比较;
基于将加速度差与阈值加速度进行比较,使用控制电路系统确定加速度差大于阈值加速度;以及
基于确定加速度差大于阈值加速度,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入。
74.如权利要求73所述的方法,其中生成经纠正的输入还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入。
75.如权利要求74所述的方法,其中确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入包括确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入。
76.如权利要求73-75中任一项所述的方法,还包括:
在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像;以及
其中生成经纠正的输入还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联。
77.如权利要求73-76中任一项所述的方法,还包括:
在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像;
使用控制电路系统确定第一图像中用户面部的第一相对尺寸;
在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像;
使用控制电路系统确定第二图像中用户面部的第二相对尺寸;
使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较;
基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸;以及
其中生成经纠正的输入还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸。
78.如权利要求73-77中任一项所述的方法,还包括:
经由用户输入设备测量基线环境噪声级别;
在接收第一语音的同时,经由用户输入设备测量环境噪声级别;
使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较;
基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别;以及
其中生成经纠正的输入还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别。
79.如权利要求73-78中任一项所述的方法,其中确定接收到第二语音的第二时间包括经由用户输入设备测量在第一时间之后接收到最早发音的时间。
80.如权利要求73-79中任一项所述的方法,其中确定生成搜索结果以供显示的第一时间包括使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间。
81.如权利要求73-80中任一项所述的方法,其中用户输入设备是包括加速度计的移动电话。
82.如权利要求73-81中任一项所述的方法,其中测量第二加速度包括测量在第一时间和第二时间之间用户输入设备的最大加速度。
83.一种用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入的装置,所述装置包括:
用于经由用户输入设备接收第一语音的部件;
用于使用控制电路系统和自动语音识别,基于第一语音确定第一输入的部件;
用于基于第一输入,从数据库中检索搜索结果的部件;
用于使用控制电路系统生成搜索结果以供显示的部件;
用于使用控制电路系统确定生成搜索结果以供显示的第一时间的部件;
用于经由用户输入设备在第一时间测量用户输入设备的第一加速度的部件;
用于在接收到第一语音之后,经由用户输入设备接收第二语音的部件;
用于使用控制电路系统,基于第二语音确定第二输入的部件;
用于使用控制电路系统和自动语音识别,确定接收到第二语音的第二时间的部件;
用于经由用户输入设备,测量在第一时间和第二时间之间用户输入设备的第二加速度的部件;
用于使用控制电路系统确定第二加速度与第一加速度之间的加速度差的部件;
用于基于确定第二加速度与第一加速度之间的加速度差,使用控制电路系统将加速度差与阈值加速度进行比较的部件;
用于基于将加速度差与阈值加速度进行比较,使用控制电路系统确定加速度差大于阈值加速度的部件;以及
用于基于确定加速度差大于阈值加速度,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入的部件。
84.如权利要求83所述的装置,其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入的部件。
85.如权利要求84所述的装置,其中用于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入的部件包括用于确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入的部件。
86.如权利要求83所述的装置,还包括:
用于在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入的部件。
87.如权利要求83所述的装置,还包括:
用于在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像的部件;
用于使用控制电路系统确定第一图像中用户面部的第一相对尺寸的部件;
用于在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像的部件;
用于使用控制电路系统确定第二图像中用户面部的第二相对尺寸的部件;
用于使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较的部件;
用于基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸来生成经纠正的输入的部件。
88.如权利要求83所述的装置,还包括:
用于经由用户输入设备测量基线环境噪声级别的部件;
用于在接收第一语音的同时,经由用户输入设备测量环境噪声级别的部件;
用于使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较的部件;
用于基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别的部件;以及
其中用于生成经纠正的输入的部件包括用于还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入的部件。
89.如权利要求83所述的装置,其中用于确定接收到第二语音的第二时间的部件包括用于经由用户输入设备测量在第一时间之后接收到最早发音的时间的部件。
90.如权利要求83所述的装置,其中用于确定生成搜索结果以供显示的第一时间的部件包括用于使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间的部件。
91.如权利要求83所述的装置,其中用户输入设备是包括加速度计的移动电话。
92.如权利要求83所述的装置,其中用于测量第二加速度的部件包括用于测量在第一时间和第二时间之间用户输入设备的最大加速度的部件。
93.一种非暂态机器可读介质,包括其上编码有指令的存储器,所述指令用于在语音中没有用户意图用语音来纠正输入的明确指示的情况下基于语音来纠正使用自动语音识别生成的输入,所述非暂态机器可读介质包括:
用于经由用户输入设备接收第一语音的指令;
用于使用控制电路系统和自动语音识别,基于第一语音确定第一输入的指令;
用于基于第一输入,从数据库中检索搜索结果的指令;
用于使用控制电路系统生成搜索结果以供显示的指令;
用于使用控制电路系统确定生成搜索结果以供显示的第一时间的指令;
用于经由用户输入设备在第一时间测量用户输入设备的第一加速度的指令;
用于在接收到第一语音之后,经由用户输入设备接收第二语音的指令;
用于使用控制电路系统,基于第二语音确定第二输入的指令;
用于使用控制电路系统和自动语音识别,确定接收到第二语音的第二时间的指令;
用于经由用户输入设备,测量在第一时间和第二时间之间用户输入设备的第二加速度的指令;
用于使用控制电路系统确定第二加速度与第一加速度之间的加速度差的指令;
用于基于确定第二加速度与第一加速度之间的加速度差,使用控制电路系统将加速度差与阈值加速度进行比较的指令;
用于基于将加速度差与阈值加速度进行比较,使用控制电路系统确定加速度差大于阈值加速度的指令;以及
用于基于确定加速度差大于阈值加速度,使用控制电路系统通过将第一输入的一部分替换为第二输入的一部分来基于第一输入生成经纠正的输入的指令。
94.如权利要求93所述的非暂态机器可读介质,其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入来生成经纠正的输入的指令。
95.如权利要求94所述的非暂态机器可读介质,其中用于确定在第一时间和第二时间之间没有经由用户输入设备接收到与浏览搜索结果相关联的输入的指令包括用于确定在第一时间和第二时间之间没有经由用户输入设备接收到滚动搜索结果、读取搜索结果的描述、打开搜索结果或播放搜索结果的输入的指令。
96.如权利要求93所述的非暂态机器可读介质,还包括:
用于在第一时间和第二时间之间,经由用户输入设备捕获用户面部的图像的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定图像中用户的面部与不满意的情绪相关联来生成经纠正的输入的指令。
97.如权利要求93所述的非暂态机器可读介质,还包括:
用于在接收第一语音的同时,经由用户输入设备捕获用户面部的第一图像的指令;
用于使用控制电路系统确定第一图像中用户面部的第一相对尺寸的指令;
用于在接收第二语音的同时,经由用户输入设备捕获用户面部的第二图像的指令;
用于使用控制电路系统确定第二图像中用户面部的第二相对尺寸的指令;
用于使用控制电路系统,将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较的指令;
用于基于将用户面部的第一相对尺寸与用户面部的第二相对尺寸之间的相对尺寸差与阈值相对尺寸进行比较,使用控制电路系统确定相对尺寸差大于阈值相对尺寸的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定相对尺寸差大于阈值相对尺寸来生成经纠正的输入的指令。
98.如权利要求93所述的非暂态机器可读介质,还包括:
用于经由用户输入设备测量基线环境噪声级别的指令;
用于在接收第一语音的同时,经由用户输入设备测量环境噪声级别的指令;
用于使用控制电路系统,将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较的指令;
用于基于将接收第一语音时的环境噪声级别与基线环境噪声级别之间的环境噪声级别差与阈值环境噪声级别进行比较,使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别的指令;以及
其中用于生成经纠正的输入的指令包括用于还基于使用控制电路系统确定环境噪声级别差大于阈值环境噪声级别来生成经纠正的输入的指令。
99.如权利要求93所述的非暂态机器可读介质,其中用于确定接收到第二语音的第二时间的指令包括用于经由用户输入设备测量在第一时间之后接收到最早发音的时间的指令。
100.如权利要求93所述的非暂态机器可读介质,其中用于确定生成搜索结果以供显示的第一时间的指令包括用于使用控制电路系统来检测在第一时间之后发送到显示屏的像素的信号第一次改变的时间的指令。
101.如权利要求93所述的非暂态机器可读介质,其中用户输入设备是包括加速度计的移动电话。
102.如权利要求93所述的非暂态机器可读介质,其中用于测量第二加速度的指令包括用于测量在第一时间和第二时间之间用户输入设备的最大加速度的指令。
CN201780091144.4A 2017-05-24 2017-05-24 基于语音纠正使用自动语音识别生成的输入的方法和系统 Pending CN110663079A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/034229 WO2018217194A1 (en) 2017-05-24 2017-05-24 Methods and systems for correcting, based on speech, input generated using automatic speech recognition

Publications (1)

Publication Number Publication Date
CN110663079A true CN110663079A (zh) 2020-01-07

Family

ID=59055274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780091144.4A Pending CN110663079A (zh) 2017-05-24 2017-05-24 基于语音纠正使用自动语音识别生成的输入的方法和系统

Country Status (7)

Country Link
US (2) US11521608B2 (zh)
EP (1) EP3631794A1 (zh)
JP (2) JP7119008B2 (zh)
KR (2) KR102428911B1 (zh)
CN (1) CN110663079A (zh)
CA (1) CA3002383A1 (zh)
WO (1) WO2018217194A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326140A (zh) * 2020-03-12 2020-06-23 科大讯飞股份有限公司 语音识别结果判别方法、纠正方法、装置、设备及存储介质
CN115798465A (zh) * 2023-02-07 2023-03-14 天创光电工程有限公司 一种语音输入方法、系统及可读存储介质
WO2023040658A1 (zh) * 2021-09-18 2023-03-23 华为技术有限公司 语音交互方法及电子设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7131077B2 (ja) * 2018-05-24 2022-09-06 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
US10831442B2 (en) * 2018-10-19 2020-11-10 International Business Machines Corporation Digital assistant user interface amalgamation
JP7411422B2 (ja) * 2019-03-27 2024-01-11 パナソニックホールディングス株式会社 音声入力方法、プログラム及び音声入力装置
US11277692B2 (en) * 2019-03-27 2022-03-15 Panasonic Corporation Speech input method, recording medium, and speech input device
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
EP3790000A1 (en) * 2019-09-05 2021-03-10 SoundHound, Inc. System and method for detection and correction of a speech query
JP7363307B2 (ja) * 2019-09-30 2023-10-18 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
US11721322B2 (en) 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems
CN114158283A (zh) * 2020-07-08 2022-03-08 谷歌有限责任公司 自动语音识别中误认的识别和利用
KR102458830B1 (ko) * 2020-11-16 2022-10-26 주식회사 솔트룩스 사용자 중심의 음성 대화 시스템
US20220300560A1 (en) * 2021-03-18 2022-09-22 Amazon Technologies, Inc. Voice search refinement resolution
US11854544B1 (en) 2021-06-11 2023-12-26 Amazon Technologies, Inc. Entity resolution of product search filters
US11657803B1 (en) * 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262117A1 (en) * 2012-03-29 2013-10-03 Honda Research Institute Europe Gmbh Spoken dialog system using prominence
WO2014182771A1 (en) * 2013-05-07 2014-11-13 Veveo, Inc. Incremental speech input interface with real time feedback
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US20150348548A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
CN106095766A (zh) * 2015-04-28 2016-11-09 谷歌公司 使用选择性重新讲话来校正话音识别

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6239794B1 (en) 1994-08-31 2001-05-29 E Guide, Inc. Method and system for simultaneously displaying a television program and information about the program
US6564378B1 (en) 1997-12-08 2003-05-13 United Video Properties, Inc. Program guide system with browsing display
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
ATE225998T1 (de) 1998-07-17 2002-10-15 United Video Properties Inc Interaktive fernsehprogrammführung mit mehreren geräten an einem ort
AR020608A1 (es) 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
US7165098B1 (en) 1998-11-10 2007-01-16 United Video Properties, Inc. On-line schedule system with personalization features
ATE241195T1 (de) * 2000-09-29 2003-06-15 Ericsson Telefon Ab L M Verfahren und einrichtung zur analyse einer folge von gesprochenen nummern
EP2469850A3 (en) 2001-02-21 2013-07-10 United Video Properties, Inc. Systems and methods for interactive program guides with personal video recording features
JP3762327B2 (ja) 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
JP2005084253A (ja) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd 音響処理装置、方法、プログラム及び記憶媒体
US20050182504A1 (en) 2004-02-18 2005-08-18 Bailey James L. Apparatus to produce karaoke accompaniment
JP4798601B2 (ja) 2004-12-28 2011-10-19 株式会社国際電気通信基礎技術研究所 音声区間検出装置および音声区間検出プログラム
KR100819848B1 (ko) 2005-12-08 2008-04-08 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
JP5089955B2 (ja) 2006-10-06 2012-12-05 三菱電機株式会社 音声対話装置
US20080134866A1 (en) 2006-12-12 2008-06-12 Brown Arnold E Filter for dynamic creation and use of instrumental musical tracks
WO2009001138A1 (en) 2007-06-28 2008-12-31 Taptu Ltd Search result ranking
US20090006368A1 (en) 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
US20090228273A1 (en) 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
JP2010128015A (ja) * 2008-11-25 2010-06-10 Toyota Central R&D Labs Inc 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
JP2011059194A (ja) * 2009-09-07 2011-03-24 Sharp Corp 制御装置、画像形成装置、画像形成装置の制御方法、プログラムおよび記録媒体
US8990241B2 (en) 2010-12-23 2015-03-24 Yahoo! Inc. System and method for recommending queries related to trending topics based on a received query
US8805751B2 (en) 2011-10-13 2014-08-12 Verizon Patent And Licensing Inc. User class based media content recommendation methods and systems
US8249876B1 (en) * 2012-01-03 2012-08-21 Google Inc. Method for providing alternative interpretations of a voice input to a user
US20130294755A1 (en) 2012-05-03 2013-11-07 United Video Properties, Inc. Systems and methods for preventing access to a media asset segment during a fast-access playback operation
US20130347038A1 (en) 2012-06-21 2013-12-26 United Video Properties, Inc. Systems and methods for searching for media based on derived attributes
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
US9237386B2 (en) 2012-08-31 2016-01-12 Google Inc. Aiding discovery of program content by providing deeplinks into most interesting moments via social media
US9378737B2 (en) * 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
US9462342B2 (en) 2013-01-24 2016-10-04 Surewaves Mediatech Private Limited System and method for recommending on demand multimedia content based on event information
US9712482B2 (en) 2014-02-18 2017-07-18 Veveo, Inc. Methods and systems for recommending concept clusters based on availability
US20150382061A1 (en) 2014-06-30 2015-12-31 Sling Media, Inc. Spoiler mitigation methods and systems
WO2016020464A1 (en) 2014-08-05 2016-02-11 Piksel, Inc Context driven recommendation for content delivery and display system
US9514743B2 (en) 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections
JP6284462B2 (ja) * 2014-09-22 2018-02-28 株式会社日立製作所 音声認識方法、及び音声認識装置
US10284916B2 (en) 2014-11-19 2019-05-07 Comcast Cable Communications, Llc Personalized menus and media content interface
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
US9648386B2 (en) 2014-12-30 2017-05-09 Echostar Technologies L.L.C. Protection from spoilers
US10068023B2 (en) 2014-12-30 2018-09-04 Rovi Guides, Inc. Systems and methods for updating links between keywords associated with a trending topic
US11290783B2 (en) 2015-03-17 2022-03-29 Comcast Cable Communications, Llc Real-time recommendations for altering content output
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10339917B2 (en) * 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
JP6751658B2 (ja) * 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
US10741175B2 (en) * 2016-11-30 2020-08-11 Lenovo (Singapore) Pte. Ltd. Systems and methods for natural language understanding using sensor input
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US20130262117A1 (en) * 2012-03-29 2013-10-03 Honda Research Institute Europe Gmbh Spoken dialog system using prominence
WO2014182771A1 (en) * 2013-05-07 2014-11-13 Veveo, Inc. Incremental speech input interface with real time feedback
US20150348548A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
CN106095766A (zh) * 2015-04-28 2016-11-09 谷歌公司 使用选择性重新讲话来校正话音识别

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326140A (zh) * 2020-03-12 2020-06-23 科大讯飞股份有限公司 语音识别结果判别方法、纠正方法、装置、设备及存储介质
WO2023040658A1 (zh) * 2021-09-18 2023-03-23 华为技术有限公司 语音交互方法及电子设备
CN115798465A (zh) * 2023-02-07 2023-03-14 天创光电工程有限公司 一种语音输入方法、系统及可读存储介质
CN115798465B (zh) * 2023-02-07 2023-04-07 天创光电工程有限公司 一种语音输入方法、系统及可读存储介质

Also Published As

Publication number Publication date
JP7159400B2 (ja) 2022-10-24
JP2020522733A (ja) 2020-07-30
US20230138030A1 (en) 2023-05-04
KR20220114094A (ko) 2022-08-17
EP3631794A1 (en) 2020-04-08
WO2018217194A1 (en) 2018-11-29
KR20200010455A (ko) 2020-01-30
CA3002383A1 (en) 2018-11-24
US11521608B2 (en) 2022-12-06
JP2021144250A (ja) 2021-09-24
KR102428911B1 (ko) 2022-08-03
JP7119008B2 (ja) 2022-08-16
US20200143806A1 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
JP7159400B2 (ja) 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム
US10182266B2 (en) Systems and methods for automatically enabling subtitles based on detecting an accent
US10672390B2 (en) Systems and methods for improving speech recognition performance by generating combined interpretations
CN109564574B (zh) 用于将交互式特征传送到另一个设备的方法和系统
US11438642B2 (en) Systems and methods for displaying multiple media assets for a plurality of users
US10602234B2 (en) Systems and methods for gamification of real-time instructional commentating
US11758234B2 (en) Systems and methods for creating an asynchronous social watching experience among users
US20160309214A1 (en) Method of synchronizing alternate audio content with video content
US11670284B2 (en) Systems and methods for adjusting dubbed speech based on context of a scene
US9544656B1 (en) Systems and methods for recognition of sign language for improved viewing experiences
CN111527541A (zh) 基于语音数据和媒体消费数据识别用户的系统和方法
US9398343B2 (en) Methods and systems for providing objects that describe media assets
US11343563B2 (en) Methods and systems for verifying media guidance data
US11960516B2 (en) Methods and systems for playing back indexed conversations based on the presence of other people
US20160179803A1 (en) Augmenting metadata using commonly available visual elements associated with media content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination