CN107003797A - 媒体环境中的智能自动化助理 - Google Patents

媒体环境中的智能自动化助理 Download PDF

Info

Publication number
CN107003797A
CN107003797A CN201680003291.7A CN201680003291A CN107003797A CN 107003797 A CN107003797 A CN 107003797A CN 201680003291 A CN201680003291 A CN 201680003291A CN 107003797 A CN107003797 A CN 107003797A
Authority
CN
China
Prior art keywords
user
request
media
input
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680003291.7A
Other languages
English (en)
Other versions
CN107003797B (zh
Inventor
L·T·纳波利塔诺
G·H·黄
H·D·彭哈
J·D·肖
J·S·菲诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Priority to CN201710551469.8A priority Critical patent/CN107577385B/zh
Priority to CN202110968828.6A priority patent/CN113687747A/zh
Priority to CN202110968356.4A priority patent/CN113687746A/zh
Publication of CN107003797A publication Critical patent/CN107003797A/zh
Application granted granted Critical
Publication of CN107003797B publication Critical patent/CN107003797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/487Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • H04N21/41265The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42224Touch pad or touch panel provided on the remote control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Automatic Disk Changers (AREA)

Abstract

本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在示例性实施方案中,用户可在内容被媒体设备显示时与媒体设备的数字助理进行交互。在一种方法中,可响应于检测到第一输入类型的用户输入而显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。在另一种方法中,可响应于检测到第二输入类型的用户输入而接收用户请求。可执行至少部分地满足用户请求的任务。所执行的任务可取决于用户请求的性质以及正被媒体设备显示的内容。具体地,在减少用户消费媒体内容过程中的干扰时,可满足该用户请求。

Description

媒体环境中的智能自动化助理
相关专利申请的交叉引用
本专利申请要求于2015年9月8日提交的名称为“Intelligent AutomatedAssistant in a Media Environment”的美国临时序列号62/215,676和2015年12月8日提交的名称为“Intelligent Automated Assistant in a Media Environment”的临时序列号14/963,094的优先权,这两个专利申请据此全文以引用方式并入本文以用于所有目的。
本专利申请与以下共同未决的专利申请相关:于2015年12月8日提交的美国非临时专利申请序列号14/963,089,“Intelligent Automated Assistant for Media Searchand Playback”(代理人案卷号106842137900(P27499US1));于2014年9月26日提交的美国非临时专利申请序列号14/498,503,“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106842065100(P18133US1));以及于2014年9月26日提交的美国非临时专利申请序列号14/498,391,“Real-time Digital Assistant KnowledgeUpdates”(代理人案卷号106842097900(P22498US1)),这三个申请据此全文以引用方式并入本文以用于所有目的。
技术领域
本发明整体涉及智能自动化助理,并且更具体地涉及正在媒体环境中操作的智能自动化助理。
背景技术
智能自动化助理(或数字助理)可提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过以自然语言形式将口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理,以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务,并且在一些示例中,可将相关的输出以自然语言形式返回给用户。
期望将数字助理集成到媒体环境(例如,电视机、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)中,以帮助用户执行与媒体消费相关的任务。例如,可使用数字助理来帮助找到所需的媒体内容来消费。然而,与数字助理的用户交互可包括可能干扰媒体内容的消费的音频输出和视频输出。因此,将数字助理以一种方式集成到媒体环境中使得在使对媒体内容的消费的干扰最小化时向用户提供足够多的帮助具有挑战性。
发明内容
本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在一些示例性过程中,可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型,可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。
在一些实施方案中,根据确定用户输入不对应于第一输入类型,该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型,可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求,可执行至少部分地满足用户请求的任务。在一些示例中,该任务可包括获取至少部分地满足用户请求的结果,并且显示具有结果的一部分的第二用户界面。可在显示第二用户界面时继续显示内容的一部分,并且第二用户界面的显示区域可小于内容的该一部分的显示区域。
在一些实施方案中,可在显示第二用户界面时检测第三用户输入。响应于检测到第三用户输入,可利用对具有结果的该一部分的第三用户界面的显示来替换对第二用户界面的显示。该第三用户界面可至少占据显示单元的大部分显示区域。此外,可获取至少部分地满足用户请求的第二结果。该第二结果可不同于该结果。该第三用户界面可包括第二结果的至少一部分。
在一些实施方案中,可在显示第三用户界面时检测第四用户输入。该第四用户输入可指示方向。响应于检测到第四用户输入,该第三用户界面的焦点可从第三用户界面中的第一项目切换至第三用户界面中的第二项目。该第二项目可相对于第一项目而被定位在所指示的方向上。
在一些实施方案中,可在显示第三用户界面时检测第五用户输入。响应于检测到第五用户输入,可显示搜索字段。此外,可显示虚拟键盘界面,其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。此外,在一些实施方案中,可使得得可选择示能表示出现在第二电子设备的显示器上,其中对示能表示的选择使得文本输入将能够由电子设备经由第二电子设备的键盘来接收。
在一些实施方案中,可在显示第三用户界面时检测第六用户输入。响应于检测到第六用户输入,可对包含第二用户请求的第二音频数据进行采样。该过程可确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求,可经由第三用户界面来显示结果的子组。根据确定第二用户请求不是用于细化用户请求的结果的请求,可获取至少部分地满足第二用户请求的第三结果。可经由第三用户界面来显示第三结果的一部分。
在一些实施方案中,经采样的音频数据可包括用户话语,并且可确定与用户话语对应的用户意图。该过程可确定用户意图是否包括用于调整应用程序的状态或设置的请求。根据确定用户意图包括用于调整应用程序的状态或设置的请求,可调整应用程序的状态或设置以满足用户意图。
在一些实施方案中,根据确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求,该过程可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。根据确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型,可显示至少部分地满足用户意图的纯文本结果。
在一些实施方案中,根据确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型,该过程可确定所显示的内容是否包括媒体内容。根据确定所显示的内容包括媒体内容,该过程可进一步确定媒体内容是否可被暂停。根据确定媒体内容可被暂停,使媒体内容暂停,并且可经由第三用户界面来显示至少部分地满足用户意图的结果。该第三用户界面可至少占据显示单元的大部分显示区域。根据确定媒体内容不可被暂停,在显示媒体内容时可经由第二用户界面来显示结果。第二用户界面所占据的显示区域可小于媒体内容所占据的显示区域。此外,在一些实施方案中,根据确定所显示的内容不包括媒体内容,可经由第三用户界面来显示结果。
附图说明
图1示出了根据各种示例的用于实现数字助理的系统和环境的框图。
图2示出了根据各种示例的媒体系统的框图。
图3示出了根据各种示例的用户设备的框图。
图4A示出了根据各种示例的数字助理系统或其服务器部分的框图。
图4B示出了根据各种示例的图4A所示的数字助理的功能。
图4C示出了根据各种示例的知识本体的一部分。
图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程。
图6A至图6Q示出了根据各种示例的在图5A至图5I中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图6O被有意地省略,以避免大写字母O和数字0(零)之间的任何混淆。
图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程。
图8A至图8W示出了根据各种示例的在图7A至图7C中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图8O被有意地省略,以避免大写字母O和数字0(零)之间的任何混淆。
图9示出了根据各种示例的用于操作媒体系统的数字助理的过程。
图10示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。
图11示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。
具体实施方式
在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。
本发明涉及一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中,可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型,可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。可期望上下文相关的示例性自然语言请求可方便地将与媒体设备上的用户的当前使用条件最相关的数字助理的能力告知用户。这可鼓励用户使用数字助理服务并且还可改善与数字助理的用户交互式体验。
在一些实施方案中,根据确定用户输入不对应于第一输入类型,该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型,可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求,可执行至少部分地满足用户请求的任务。
在一些实施方案中,所执行的任务可取决于用户请求的性质以及在检测到第二输入类型的用户输入时所显示的内容。如果用户请求是用于调整电子设备上的应用程序的状态或设置的请求(例如,打开已显示的媒体内容的字幕),则该任务可包括调整应用程序的状态或设置。如果用户请求是与纯文本输出(例如,对当前时间的请求)相关联的多个预先确定的请求类型中的一个预先确定的请求类型,则任务可包括显示满足用户请求的文本。如果所显示的内容包括媒体内容并且用户请求要求获取并显示结果,则该过程可确定是否媒体内容可被暂停。如果确定媒体内容可被暂停,则使媒体内容暂停,并且可在经扩展的用户界面(例如,图6H中所示的第三用户界面626)上显示满足该用户请求的结果。如果确定媒体内容不可被暂停,则在继续显示媒体内容时可将满足该用户请求的结果显示在经缩窄的用户界面(例如,图6G中所示的第二用户界面618)上。第二用户界面的显示区域可小于媒体内容的显示区域。此外,如果所显示的内容不包括媒体内容,则可在经扩展的用户界面上显示满足该用户请求的结果。根据所显示的内容和用户请求的类型来调整输出格式,数字助理可在使对媒体内容的用户消费的干扰最小化时通过提供全面的帮助来智能地取得平衡。这样可改善用户体验。
1.系统和环境
图1示出了根据各种示例的用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指用于解译口头形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了根据推断出的用户意图采取行动,系统可执行以下内容中的一者或多者:利用被设计以实现所推断出的用户意图的步骤和参数来识别任务流;将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、应用编程接口(API)等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。
具体地,数字助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问形式的用户请求。通常,用户请求可寻求数字助理作出信息性回答或者寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如,用户可向数字助理提问,诸如“Paris现在是几点?”数字助理可检索所请求的信息并回答“Paris现在是下午4:00。”。用户还可请求执行任务,例如“为我查找由Reese Witherspoon主演的电影。”。作为响应,数字助理可执行所请求的搜索查询,并显示相关电影名称以供用户从中选择。在执行所请求的任务期间,数字助理有时可在很长时间段内在涉及多次信息交换的持续对话过程中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应和采取所编程的动作之外,数字助理还可提供其他视觉形式或音频形式的响应,例如言语、警报、音乐、图像、视频、动画等形式的响应。此外,如本文所讨论的,示例性数字助理可控制媒体内容的回放(例如,在电视机顶盒上),并且将媒体内容或其他信息显示在显示单元(例如,电视机)上。
如图1中所示,在一些示例中,数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(后文称作“DA客户端102”),以及在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。此外,在一些示例中,客户端侧部分还可在用户设备122上执行。DA客户端102可通过一个或多个网络110来DA服务器106进行通信。DA客户端102可提供客户端侧功能,诸如面向用户的输入和输出处理,以及与DA服务器106的通信。DA服务器106可为各自驻留在相应设备(例如,媒体设备104和用户设备122)上的任意数量的DA客户端102提供服务器侧功能。
媒体设备104可以是被配置为管理和控制媒体内容的任何合适的电子设备。例如,媒体设备104可包括电视机顶盒,诸如电缆盒设备、卫星盒设备、视频播放器设备、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray DiscTM播放器、此类设备的组合等。如图1所示,媒体设备104可以是媒体系统128的一部分。除了媒体设备104之外,媒体系统128可包括遥控器124和显示单元126。媒体设备104可在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,媒体设备104可连接到可与显示单元126集成或分开的音频系统(例如,音频接收器)和扬声器(未示出)。在其他示例中,显示单元126和媒体设备104可一起并入单个设备中,诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中,媒体设备104的功能可作为组合设备上的应用程序来执行。
在一些示例中,媒体设备104可用作针对媒体内容的多种类型和来源的媒体控制中心。例如,媒体设备104可便于用户访问电视直播(例如,无线电视、卫星电视或有线电视)。因此,媒体设备104可包括电缆调谐器或卫星调谐器等。在一些示例中,媒体设备104还可记录电视节目以供稍后时移观看。在其他示例中,媒体设备104可提供对一个或多个流媒体服务的访问,诸如访问有线递送的点播电视节目、视频和音乐,以及互联网递送的电视节目、视频和音乐(例如,来自各种免费、付费和订阅式流服务)。在其他示例中,媒体设备104可方便回放或显示来自任何其他来源的媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。媒体设备104还可根据需要包括本文所讨论的媒体控制特征部的各种其他组合。下文参考图2详细描述了媒体设备104。
用户设备122可以是任何个人电子设备,诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、手表、胸针、臂带等),等等。下文参考图3详细描述了用户设备122。
在一些示例中,用户可通过用户设备122、遥控器124或与媒体设备104集成的接口元件(例如,按钮、麦克风、相机、操纵杆等)来与媒体设备104进行交互。例如,可在用户设备122和/或遥控器124处接收包括用于数字助理的媒体相关查询或命令的语音输入,并且该语音输入可用于使得媒体相关的任务将在媒体设备104上执行。同样,可在用户设备122和/或遥控器124(以及未示出的其他设备)处接收用于控制媒体设备104上的媒体的触觉命令。因此,可采用各种方式来控制媒体设备104的各种功能,从而给予用户控制来自多个设备的媒体内容的多种选择。
一个或多个通信网络110的示例可包括局域网(LAN)和广域网(WAN),例如互联网。一个或多个通信网络110可使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网语音协议(VoIP)、Wi-MAX、或任何其他合适的通信协议。
DA服务器106可包括面向客户端的输入/输出I/O接口112、一个或多个处理模块114、数据与模型116、以及至外部服务的I/O接口118。面向客户端的I/O接口112可有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据与模型116来处理语音输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114可基于推断出的用户意图来执行任务。在一些示例中,DA服务器106可通过一个或多个网络110来与外部服务120(诸如,电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务、媒体搜索服务等)进行通信,以完成任务或获取信息。至外部服务的I/O接口118可促进此类通信。
服务器系统108可在计算机的一个或多个独立式数据处理装置或分布式网络上实现。在一些示例中,服务器系统108还可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。
虽然图1中所示的数字助理可包括客户端侧部分(例如,DA客户端102)和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,在用户设备122或媒体设备104上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。
2.媒体系统
图2示出了根据各种示例的媒体系统128的框图。媒体系统128可包括通信地耦接至显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可经由遥控器124来接收用户输入。来自媒体设备104的媒体内容可被显示在显示单元126上。
在本示例中,如图2所示,媒体设备104可包括存储器接口202、一个或多个处理器204、和外围设备接口206。媒体设备104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。媒体设备104还可包括耦接至外围设备接口206的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。
例如,媒体设备104可包括通信子系统224。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,这些通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。
在一些示例中,媒体设备104还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括音频/视频输出控制器270。音频/视频输出控制器270可耦接至显示单元126和扬声器268,或者能够以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统240还可包括远程控制器242。远程控制器242可通信地耦接至遥控器124(例如,经由有线连接、蓝牙、Wi-Fi等)。
遥控器124可包括用于捕获音频数据(例如,来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274,以及用于促进经由远程控制器242与媒体设备104的通信的收发器276。此外,遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可检测触敏表面278上的接触(以及接触的任何移动或中断),并将检测到的接触(例如,手势、接触动作等)转换成与被显示在显示单元126上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交互。在一些示例中,遥控器124还可包括其他输入机构,诸如键盘、操纵杆等。在一些示例中,遥控器124还可包括输出机构,诸如灯、显示器、扬声器等。在遥控器124处所接收的输入(例如,用户语音、按钮按压、接触动作等)可经由遥控器124而被传送到媒体设备104。I/O子系统240还可包括一个或多个其他输入控制器244。可将一个或多个其他输入控制器244耦接至其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。
在一些示例中,媒体设备104还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备内置媒体模块258、设备外置媒体模块260、和应用程序模块262。操作系统252可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。设备内置媒体模块258可促进在媒体设备104上本地存储的媒体内容的存储和回放。设备外置媒体模块260可促进从外部源(例如,在远程服务器上、在用户设备122上等)获取的媒体内容的流式回放或下载。此外,设备外置媒体模块260可促进接收广播和有线内容(例如,频道调谐)。应用程序模块262可促进媒体相关应用程序的各种功能,诸如网页浏览、媒体处理、游戏和/或其他过程和功能。
如本文所述,存储器250还可存储客户端侧数字助理指令(例如,在数字助理客户端模块264中)和各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的媒体搜索历史、媒体观看列表、最近观看的列表、喜爱的媒体项等),从而例如提供数字助理的客户端侧功能。用户数据266还可用于执行语音识别来支持数字助理或用于任何其他应用程序。
在各种示例中,数字助理客户端模块264可能够通过媒体设备104的各种用户界面(例如,I/O子系统240等)来接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出作提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如,DA服务器106)进行通信。
在一些示例中,数字助理客户端模块264可利用各种子系统和外围设备来从媒体设备104的周围环境收集与媒体设备104相关的附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自用户设备122的信息。在一些示例中,数字助理客户端模块264可将上下文信息或其子组与用户输入一起提供至数字助理服务器,以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将该输出递送至用户。上下文信息还可由媒体设备104或服务器系统108用于支持准确的语音识别。
在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、至另一个对象的距离等。上下文信息还可包括与媒体设备104的物理状态(例如,设备位置、设备温度、功率电平等)或媒体设备104的软件状态(例如,运行过程、已安装应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括从用户接收的信息(例如,语音输入)、用户请求的信息、和呈现给用户的信息(例如,当前或先前由媒体设备显示的信息)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,在用户设备122上显示的内容、用户设备122上的可播放内容等)。这些类型的上下文信息中的任何一种上下文信息可作为与用户输入相关的上下文信息而被提供至DA服务器106(或用于媒体设备104本身)。
在一些示例中,数字助理客户端模块264可响应于来自DA服务器106的请求而选择性地提供被存储在媒体设备104上的信息(例如,用户数据266)。除此之外或作为另外一种选择,该信息可在媒体设备104本身上用于执行语音识别和/或数字助理功能。数字助理客户端模块264还可在由DA服务器106进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块264可将附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。
在各种示例中,存储器250可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理电路和/或专用集成电路中)实现媒体设备104的各种功能。
3.用户设备
图3示出了根据各种示例的示例性用户设备122的框图。如图所示,用户设备122可包括存储器接口302、一个或多个处理器304、以及外围设备接口306。用户设备122中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备122还可包括耦接至外围设备接口306的各种传感器、子系统、以及外围设备。传感器、子系统以及外围设备可采集信息和/促进用户设备122的各种功能。
例如,用户设备122可包括运动传感器310、光传感器312以及接近传感器314,这些传感器耦接至外围设备接口306,以促进取向、照明和接近感测功能。一个或多个其他传感器316(诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等)也可连接至外围设备接口306以促进相关功能。
在一些示例中,相机子系统320和光学传感器322可用于促进相机功能,诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。可将音频子系统326耦接至扬声器328和麦克风330,以促进支持语音的功能,诸如语音识别、语音复制、数字记录和电话功能。
在一些示例中,用户设备122还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括触摸屏控制器342和/或一个或多个其他输入控制器344。触摸屏控制器342可耦接至触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。
在一些示例中,用户设备122还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用程序模块362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。传感器处理模块358可促进与传感器相关的处理和功能。电话模块360可促进与电话相关的过程和功能。应用程序模块362可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。
如本文所述,存储器350还可存储客户端侧数字助理指令(例如,存储在数字助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供数字助理的客户端侧功能。用户数据366还可用于执行语音识别来支持数字助理或用于任何其他应用程序。数字助理客户端模块364和用户数据366可分别与数字助理客户端模块264和用户数据266类似或相同,如上面参考图2所述。
在各种示例中,存储器350可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备122的各种功能。
在一些示例中,用户设备122可被配置为控制媒体设备104的各个方面。例如,用户设备122可用作遥控器(例如,遥控器124)。经由用户设备122接收的用户输入可(例如,使用通信子系统)被传输到媒体设备104,以使得媒体设备104执行对应的动作。此外,用户设备122可被配置为从媒体设备104接收指令。例如,媒体设备104可将任务移交给用户设备122,以执行并使得对象(例如,可选择示能表示)被显示在用户设备122上。
应当理解,系统100和媒体系统128不限于图1和图2所示的部件和配置,并且用户设备122、媒体设备104和遥控器124同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中,系统100、媒体系统128、用户设备122、媒体设备104和遥控器124可全部包括更少的部件,或包括其他部件。
4.数字助理系统
图4A示出根据各种示例的数字助理系统400的框图。在一些示例中,数字助理系统400可在独立式计算机系统上实现。在一些示例中,数字助理系统400可跨多个计算机分布。在一些示例中,数字助理的一些模块和功能可被划分成服务器部分和客户端部分,其中客户端部驻留在一个或多个用户设备(例如,设备104或设备122)上并通过一个或多个网络与服务器部分(例如,服务器系统108)进行通信,例如如图1中所示。在一些示例中,数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出,数字助理系统400仅为数字助理系统的一个示例,并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件,或者可具有部件的不同配置或布局。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)或者它们的组合中实现。
数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口406、以及网络通信接口408。这些部件可通过一条或多条通信总线或者信号线410而彼此通信。
在一些示例中,存储器402可包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。
在一些示例中,I/O接口406可将数字助理系统400的I/O设备416诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如,声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如当数字助理在独立式用户设备上实现时,数字助理系统400可包括相对于图2或图3中各自的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中,数字助理系统400可代表数字助理具体实施的服务器部分,并且可通过驻留在客户端设备(例如,设备104或设备122)上的客户端侧部分与用户进行交互。
在一些示例中,网络通信接口408可包括一个或多个有线通信端口412、和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络及其他通信设备接收RF信号和/或光学信号,并且将该RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使数字助理系统400通过网络诸如互联网、内联网以及/或者无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN)来与其他设备之间的通信成为可能。
在一些示例中,存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构,其包括以下内容中的全部或其子组:操作系统418、通信模块420、用户界面模块422、一个或多个应用程序424和数字助理模块426。具体地,存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令,并且可从数据结构读取数据或将数据写到数据结构。
操作系统418(例如,Darwin、RTXC、LINUX、UNIX、iOS、OS X、WINDOWS或者嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器,并且促进各种硬件、固件与软件组件之间的通信。
通信模块420可促进数字助理系统400与其他设备之间通过网络通信接口408进行的通信。例如,通信模块420可与电子设备(例如,104,122)的通信子系统(例如,224,324)进行通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。
用户界面模块422可经由I/O接口406来从用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入,并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等),并经由I/O接口406(例如,通过显示器、音频通道、扬声器和触摸板等)将其递送至用户。
应用程序424可包括被配置为由一个或多个处理器404执行的程序和/或模块。例如,如果数字助理系统400在独立式用户设备上实现,则应用程序424可包括用户应用程序,诸如游戏、日历应用程序、导航应用程序、或电子邮件应用程序。如果数字助理系统400在服务器上实现,则应用程序424可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。
存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中,数字助理模块426可包括以下子模块,或包括它们的子集或超集:I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438、以及语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456、和自动语音识别(ASR)系统431。
在一些示例中,使用在数字助理模块426中实现的处理模块、数据和模型,该数字助理可执行以下操作中的至少一些操作:将语音输入转换成文本;识别从用户接收的在自然语言输入中表达的用户意图;主动引出并获取充分推断用户意图所需的信息(例如,通过对字词、游戏、意向等消歧);确定用于满足推断出的意图的任务流;以及执行任务流以满足推断出的意图。
在一些示例中,如图4B中所示,I/O处理模块428可通过图4A中的I/O设备416与用户进行交互或通过图4A中的网络通信接口408与电子设备(例如,设备104或设备122)进行交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语音输出)。I/O处理模块428在接收到用户输入时或在接收到用户输入之后不久可以可选地获取与来自电子设备的用户输入相关联的上下文信息。该上下文信息可包括特定于用户的数据、词汇和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的电子设备的软件和硬件状态,和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中,I/O处理模块428还可向用户发送与用户请求有关的跟进问题,并从用户接收回答。在用户请求被I/O处理模块428接收并且用户请求可包括语音输入时,I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器),以进行语音文本转换。
STT处理模块430可包括一个或多个ASR系统(例如,ASR系统431)。一个或多个ASR系统可处理通过I/O处理模块428所接收的语音输入,以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入中提取代表性特征。例如,前端语音预处理器可对语音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外,每个ASR系统可包括一个或多个语音识别模型(例如,声音模型和/或语言模型),并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征,以产生中间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串或符号的序列)。在一些示例中,语音输入可至少部分地由第三方服务处理或在电子设备(例如,设备104设备122)上处理以产生识别结果。一旦STT处理模块430产生包含文本串(例如,字词、字词的序列或符号的序列)的识别结果,该识别结果便可被传送至自然语言处理模块432以供意图推断。
在一些示例中,一个或多个ASR系统的一个或多个语言模型可被配置为偏向于媒体相关结果。在一个示例中,可使用媒体相关的文本的语料库来训练一个或多个语言模型。在另一个示例中,ASR系统可被配置为有利于媒体相关的识别结果。在一些示例中,一个或多个ASR系统可包括静态语言模型和动态语言模型。静态语言模型可使用文本的一般语料库来训练,而动态语言模型可使用特定于用户的文本来训练。例如,可使用与从用户所接收的先前语音输入的文本来生成动态语言模型。在一些示例中,一个或多个ASR系统可被配置为基于静态语言模型和/或动态语言模型来生成识别结果。此外,在一些示例中,一个或多个ASR系统可被配置为有利于与最近接收的先前语音输入对应的识别结果。
有关语音转文本处理的更多细节在于2011年9月20日提交的名为“ConsolidatingSpeech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,STT处理模块430可包括可识别字词的词汇和/或可经由语音字母转换模块431来访问词汇。每个词汇字词可与以语音识别语音字母表示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇可包括与多个候选发音相关联的字词。例如,该词汇可包括与的候选发音相关联的字词“tomato”。此外,词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中,可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定字词的候选发音。在一些示例中,候选发音可手动生成,例如,基于已知的标准发音而手动生成。
在一些示例中,可基于候选发音的普遍性来对候选发音进行排名。例如,候选发音可比排名更高,因为(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子组而言)前者是更常用的发音。在一些示例中,可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如,自定义候选发音的排名可高于标准候选发音。这可用于识别具有偏离标准发音的独特发音的专有名词。在一些示例中,候选发音可与一个或多个语音特征相关联,诸如地理起源、国家或种族。例如,候选发音可与美国相关联,而候选发音可与英国相关联。此外,候选发音的排名可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于该用户与美国相关联,候选发音(与美国相关联)可比候选发音(与英国相关联)排名高。在一些示例中,经排名的候选发音中的一个候选发音可被选作预测发音(例如,最可能的发音)。
在接收到语音输入时,STT处理模块430可用于(例如,使用声音模型)确定与该语音输入对应的音素,并且然后可尝试(例如,使用语言模型)确定与该音素匹配的字词。例如,如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。
在一些示例中,STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块430可确定音素序列对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。
数字助理的自然语言处理模块432(“自然语言处理器”)可采用由STT处理模块430生成的字词或符号的序列(“符号序列”),并尝试使该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联的任务流的任务。相关联的任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454中实现并存储的任务流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。
在一些示例中,除从STT处理模块430获取的字词或符号的序列之外,自然语言处理器432还可(例如,从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可以可选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如:用户偏好;用户设备的硬件和/或软件状态;在用户请求之前、期间或之后不久收集的传感器信息;数字助理与用户之间的先前交互(例如,对话)等。如本文所述,上下文信息可以是动态的,并且可随对话的时间、位置、内容以及其他因素而变化。
在一些示例中,自然语言处理可基于例如知识本体460。知识本体460可以是包含许多节点的分级结构,每个节点表示“可执行意图”或者与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”可表示数字助理能够执行的任务,即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的连接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。
在一些示例中,知识本体460可由可执行意图节点和属性节点组成。在知识本体460内,每个可执行意图节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地,每个属性节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如,如图4C所示,知识本体460可包括“媒体”节点(即,可执行意图节点)。属性节点“一个或多个演员”、“媒体分类”和“媒体标题”可各自直接连接到可执行意图节点(即,“媒体搜索”节点)。另外,属性节点“名称”、“年龄”、“Ulmer scale排名”和“国籍”可以是属性节点“演员”的子节点。
在另一个示例中,如图4C所示,知识本体460还可包括“天气”节点(即,另一可执行意图节点)。属性节点“日期/时间”和“位置”可各自连接到“天气搜索”节点。应当认识到,在一些示例中,一个或多个属性节点可与两个或更多个可执行意图相关。在这些示例中,该一个或多个属性节点可连接到与知识本体460中的两个或更多个可执行意图对应的相应节点。
可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中,每个域可与相应可执行意图相关联,并且可涉及与特定可执行意图相关联的一组节点(以及彼此间的关系)。例如,图4C中所示的知识本体460可包括知识本体460内的媒体域462的示例和天气域464的示例。媒体域462可包括可执行意图节点“媒体搜索”和属性节点“一个或多个演员”、“媒体分类”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”,以及属性节点“位置”和“日期/时间”。在一些示例中,知识本体460可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。
虽然图4C示出了知识本体460内的两个示例性域,但其他域可包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”、“时间”、以及“讲笑话”等。域“运动员”可与可执行意图节点“搜索运动员信息”相关联,并且可还包括属性节点诸如“运动员名称”、“运动员所属队”和“运动员统计信息”。
在一些示例中,知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中,知识本体460可诸如通过添加或移除整个域或节点或者通过修改知识本体460内的节点之间的关系而被修改。
在一些示例中,知识本体460中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语可被存储在词汇索引444中,该词汇索引与由节点表示的属性或可执行意图相关联。例如,返回图4C,与“演员”的属性的节点相关联的词汇可包括字词诸如“A列表”、“Reese Witherspoon”、“Arnold Schwarzenegger”、“Brad Pitt”等。在另一个示例中,与“天气搜索”的可执行意图的节点相关联的词汇可包括字词和短语诸如“天气”、“天气如何”、“预报”等。词汇索引444可以可选地包括不同语言的字词和短语。
自然语言处理模块432可从STT处理模块430接收符号序列(例如,文本串),并确定符号序列中的字词牵涉哪些节点。在一些示例中,如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联,则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中,可选择具有最多“已触发”节点的域。在一些示例中,可(例如,基于其各个已触发节点的相对重要性)选择具有最高置信度的域。在一些示例中,可基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还要考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。
用户数据448可包括用户特定的信息,诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块432可使用用户特定的信息来补充被包含在用户输入中的信息,以进一步限定用户意图。例如,对于用户请求“本周天气如何”,自然语言处理模块432可访问用户数据448来确定用户位于何处,而不是要求用户在其请求中明确地提供此类信息。
基于符号串搜索知识本体的其他细节在于2008年12月22日提交的名为“Methodand Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,一旦自然语言处理模块432基于用户请求识别出可执行意图(或域),自然语言处理模块432便可生成结构化查询来表示所识别的可执行意图。在一些示例中,结构化查询可包括域内针对可执行意图的一个或多个节点的参数,并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如,用户可以说“为我查找这个电视连续剧的其他几个季。”。在这种情况下,自然语言处理模块432可基于用户输入来将可执行意图正确地识别为“媒体搜索”。根据知识本体,用于“媒体”域的结构化查询可包括参数,诸如{媒体演员}、{媒体分类}、{媒体标题}等。在一些示例中,基于语音输入和使用STT处理模块430从语音输入得出的文本,自然语言处理模块432可针对餐厅预订域来生成部分结构化查询,其中该部分结构化查询包括参数{媒体分类=“电视连续剧”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询中可能未指定其他必要参数,诸如{媒体标题}。在一些示例中,自然语言处理模块432可使用所接收的上下文信息来填充结构化查询的一些参数。例如,当前在媒体设备上正在播放电视连续剧“Mad Men”。基于该上下文信息,自然语言处理模块432可使用“MadMen”来填充结构化查询中的{媒体标题}参数。
在一些示例中,自然语言处理模块432可将结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为从自然语言处理模块432接收结构化查询,并且在必要时完成结构化查询,并且执行“完成”用户最终请求所需的动作。在一些示例中,可在任务流模型454中提供完成这些任务所必需的各种过程。在一些示例中,任务流模型454可包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。
如上所述,为了完成结构化查询,任务流处理模块436可能需要发起与用户的附加对话,以便获取附加信息和/或对可能有歧义的话语进行消歧。当有必要进行此类交互时,任务流处理模块436可调用对话流处理模块434来参与和用户的对话。在一些示例中,对话流处理模块434可确定如何(和/或何时)向用户请求附加信息,并且可接收和处理用户响应。通过I/O处理模块428可将问题提供至用户并可从用户接收回答。在一些示例中,对话流处理模块434可经由音频和/或视频输出来向用户呈现对话输出,并且可接收经由口头或物理(例如,点击)响应的来自用户的输入。例如,用户可问“Paris的天气如何?”当任务流处理模块436调用对话流处理模块434来确定与域“天气搜索”相关联的结构化查询的“位置”信息时,对话流处理模块434可生成诸如“哪个Paris?”等问题传送给用户。此外,对话流处理模块434可使得与“得克萨斯州的Paris”和“法国的Paris”相关联的示能表示将被呈现,以供用户选择。一旦接收到来自用户的响应,对话流处理模块434便可利用缺失信息来填充结构化查询,或将信息传送给任务流处理模块436以来自完成结构化查询的缺失信息。
一旦任务流处理模块436已针对可执行意图完成结构化查询,任务流处理模块436便可开始执行与可执行意图相关联的最终任务。因此,任务流处理模块436可根据结构化查询中包含的特定参数来执行任务流模型454中的步骤和指令。例如,“媒体搜索”的可执行意图的任务流模型可包括用于执行媒体搜索查询以获取相关媒体项的步骤和指令。例如,通过使用结构化查询诸如:{媒体搜索,媒体分类=电视连续剧,媒体标题=Mad Men},任务流处理模块436可执行以下步骤:(1)使用媒体数据库来执行媒体搜索查询以获取相关媒体项;(2)根据相关性和/或流行度来对所获取的媒体项进行排名,以及(3)根据相关性和/或流行度来显示经分类的媒体项。
在一些示例中,任务流处理模块436可在服务处理模块438(“服务处理模块”)的帮助下完成在用户输入中所请求的任务或提供在用户输入中所请求的信息性回答。例如,服务处理模块438可代表任务流处理模块436来执行媒体搜索、检索天气信息、调用被安装在其他用户设备上的应用程序或与其进行交互,并且调用第三方服务(例如,社交网站、媒体评论网站、媒体订阅服务等)或与所述第三方服务进行交互。在一些示例中,可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型,并依服务模型根据该服务所需的协议和API来生成针对该服务的请求。
例如,第三方媒体搜索服务可提交用于指定用于执行媒体搜索的必要参数的服务模型,以及用于将必要参数的值传送到媒体搜索服务的API。当任务流处理模块436发出请求时,服务处理模块438可建立与媒体搜索服务的网络连接,并且以根据媒体搜索服务的API的格式来向在线预订界面发送媒体搜索的必要参数(例如,媒体演员、媒体类型、媒体标题)。
在一些示例中,自然语言处理模块432、对话流处理模块434以及任务流处理模块436可被共同并且反复地使用,以推断并限定用户的意图、获取信息以进一步明确并细化用户意图,并且最终生成响应(即,输出至用户或完成任务)以满足用户的意图。所生成的响应可以是至少部分地满足用户的意图的对语音输入的对话响应。此外,在一些示例中,所生成的响应可被输出为语音输出。在这些示例中,所生成的响应可被发送至语音合成模块440(例如,语音合成器),其中该响应可被处理,以将该对话响应合成为语音形式。在其他示例中,所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。
语音合成模块440可被配置为合成语音输出,以供呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应可为文本串的形式。语音合成模块440可将文本串转换成可听语音输出。语音合成模块440可使用任何适当的语音合成技术,以便从文本生成语音输出,该任何适当的语音合成技术包括但不限于:拼接合成、单位选择合成、双音子合成、域特定合成、格式合成、发音合成、基于隐马尔可夫模型(HMM)的合成、以及正弦波合成。在一些示例中,语音合成模块440可被配置为基于与字词对应的音素串来合成各个字词。例如,音素串可与所生成的对话响应中的字词相关联。音素串可被存储在与字词相关联的元数据中。语音合成模块440可被配置为直接处理元数据中的音素串,以合成语音形式的字词。
在一些示例中,替代使用语音合成模块440(或除此之外),语音合成可在远程设备(例如,服务器系统108)上执行,并且合成的语音可发送至用户设备,以供输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获取比客户端侧合成将实现的质量更高的语音输出。
有关数字助理的更多细节可见于2011年1月10日提交的名称为“IntelligentAutomated Assistant”的美国实用新型专利申请号12/987,982,以及2011年9月30日提交的名称为“Generating and Processing Task Items That Represent Tasks toPerform”的美国实用新型专利申请号13/251,088中,这两个专利申请的全部公开内容以引用方式并入本文。
4.用于在媒体环境中与数字助理进行交互的过程
图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程500。可使用实现数字助理的一个或多个电子设备来执行过程500。例如,可使用上述系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程500。图6A至图6Q示出了根据各种示例的在过程500的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图5A至图5I和图6A至图6Q来对过程500进行描述。应当理解,过程500中的一些操作可组合,一些操作的顺序可改变,而一些操作可省略。
在过程500的框502处,可在显示单元(例如,显示单元126)上显示内容。在图6A所示的本示例中,所显示的内容可包括在媒体设备(例如,媒体设备104)上播放的媒体内容602(例如,电影、视频、电视节目、视频游戏等)。在其他示例中,所显示的内容可包括与媒体设备相关联的其他内容,诸如与媒体设备上运行的应用程序相关联的内容,或用于与媒体设备的数字助理进行交互的用户界面。具体地,所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面(例如,第二用户界面618或第三用户界面626)。
在过程500的框504处,可检测用户输入。可在显示框502的内容时检测用户输入。在一些示例中,可在媒体设备的遥控器(例如,遥控器124)上检测用户输入。具体地,用户输入可以是用户与遥控器的交互,诸如按压按钮(例如,按钮274)或接触遥控器的触敏表面(例如,触敏表面278)。在一些示例中,可经由被配置为与媒体设备进行交互的第二电子设备(例如,设备122)来检测用户输入。响应于检测到用户输入,可执行框506至框592中的一个或多个框。
在过程500的框506处,可确定用户输入是否对应于第一输入类型。第一输入类型可以是至媒体设备的预定义的输入。在一个示例中,第一输入类型可包括按压遥控器的特定按钮,并在按压该按钮的预先确定的持续时间内释放该按钮(例如,短按)。媒体设备可确定用户输入是否与第一输入类型相匹配。根据确定用户输入对应于第一输入类型,可执行框508至框514中的一个或多个框。
在过程500的框508处,并且参考图6B,可显示用于调用数字助理并与其进行交互的文本指令604。具体地,指令604可描述调用数字助理并与其交互所需的用户输入。例如,指令604可解释如何执行下面在框516处描述的第二输入类型。
在过程500的框510处,如图6B中所示,被动视觉指示符606可被显示在显示单元上。被动视觉指示符606可指示数字助理尚未被调用。具体地,媒体设备的麦克风(例如,麦克风272)可响应于检测到用户输入而不被激活。因此,被动视觉指示符606可用作数字助理并未正在处理音频输入的视觉信号。在本示例中,视觉指示符606可以是不响应于用户的语音的被动平坦波形。此外,被动视觉指示符606可包括中性色(例如,黑色、灰色等),以指示其被动状态。应当认识到,对于被动视觉指示符可预期其他视觉图案或图像。被动视觉指示符606可与指令604同时被显示。此外,可在执行框512至框514中的一个或多个框时连续显示被动视觉指示符606。
在过程500的框512处,并且参考图6C,用于执行键入搜索的指令608可被显示在显示单元上。具体地,指令608可描述显示可用于执行键入搜索的虚拟键盘界面所需的用户输入。在一些示例中,用于调用数字助理并与其进行交互的指令604和用于执行键入搜索的指令608可按顺序在不同的时间被显示。例如,对指令608的显示可替换对指令604的显示,或反之亦然。在本示例中,指令604,608是文本形式。应当认识到,在其他示例中,指令604,608可以是图形形式(例如,图片、符号、动画等)。
在过程500的框514处,可在显示单元上显示一个或多个示例性自然语言请求。例如,图6D至图6E示出了显示在显示单元上的两种不同的示例性自然语言请求610,612。在一些示例中,示例性自然语言请求可经由显示单元上的第一用户界面而被显示。第一用户界面可被覆盖在所显示的内容上。示例性自然语言请求可向用户提供与数字助理进行交互的指导。此外,示例性自然语言请求可告知用户数字助理的各种能力。响应于接收到与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语,数字助理可使得执行相应动作。例如,响应于媒体设备的数字助理被调用(例如,通过框504处的第二输入类型的用户输入)并且(例如,在框518处)提供有“向前跳30秒”的用户话语,数字助理可使得在媒体设备上播放的媒体内容向前跳30秒。
所显示的示例性自然语言请求可与正在显示的内容(例如,媒体内容602)上下文相关。例如,一组示例性自然语言请求可被存储在媒体设备上或独立的服务器上。该组示例性自然语言请求中的每个示例性自然语言请求可与一个或多个上下文属性(例如,正在播放的媒体内容、主页、iTunes媒体商店、演员、电影、天气、体育、股市等)相关联。在一些示例中,框514可包括从具有对应于与显示单元上的显示内容对应的上下文属性的该组示例性自然语言请求识别示例性自然语言请求。然后可在显示单元上显示所识别的示例性自然语言请求。因此,针对显示单元上的不同显示内容可显示不同的示例性自然语言请求。显示上下文相关的示例性自然语言请求可用于方便地告知用户与媒体设备上的用户的当前使用条件最相关的数字助理的能力。这样可改善整体用户体验。
在图6D至图6E所示的本示例中,示例性自然语言请求610和示例性自然语言请求612可各自与显示单元上的媒体内容602上下文相关。具体地,示例性自然语言请求610和示例性自然语言请求612可以是用于修改或控制与在媒体设备上播放的媒体内容相关联的一个或多个设置的请求。此类示例性自然语言请求可包括用于以下操作的请求:打开/关闭隐藏式字幕、打开特定语言的字幕、快退/向前跳、暂停播放媒体内容、重新开始播放媒体内容、减慢或加快播放媒体内容、提高/降低媒体内容的音量(例如,音频增益)等。此外,与媒体内容602上下文相关的其他示例性自然语言请求可包括用于以下操作的请求:向用户的观看列表添加与媒体内容602对应的媒体项、显示与媒体内容602相关的信息(例如,演员信息、剧情简介、发行日期等)、显示与媒体内容602相关的其他媒体项或内容(例如,同一系列、同一季、同一演员/导演、同一分类等),等等。
在所显示的内容包括与媒体设备的应用程序相关联的内容的示例中,上下文相关的示例性自然语言请求可包括用于修改应用程序的一个或多个设置或状态的请求。具体地,示例性自然语言请求可包括用于打开或关闭应用程序或者操控应用程序的一个或多个特征的请求。
在一些示例中,所显示的内容可包括用于搜索、浏览或选择项目的用户界面(例如,第二用户界面618或第三用户界面626)。具体地,所显示的用户界面可包括一个或多个媒体项。此外,用户界面的焦点可位于一个或多个媒体项中的媒体项(例如,在图6G中由光标624突出显示的媒体项623)上。在这些示例中,上下文相关的示例性自然语言请求可包括对有关所显示的用户界面中的一个或多个媒体项的信息或其他媒体项的请求。具体地,示例性自然语言请求可包括与作为用户界面的焦点的媒体项相关的请求。在这些示例中,示例性自然语言请求可包括多个请求,诸如“它的内容是什么?”、“它排名多少?”、“其中有谁?”、“下一集何时出现?”、“为我显示更多这样的电影。”以及“为我显示由同一演员主演的电影。”。在特定示例中,可经由用户界面来显示与一个媒体项或一系列媒体项相关的信息,诸如电视连续剧Mad Men。在该示例中,上下文相关的示例性自然语言请求可包括基于媒体项或一系列媒体项(例如,January Jones参加的其他节目)的一个或多个属性(例如,阵容、情节、排名、发行日期、导演、提供方等)的要求。此外,上下文相关的示例性自然语言请求可包括用于播放、选择或获取所聚焦的媒体项或在用户界面中显示的另一媒体项的请求(例如,“租这个。”、“播放这个。”、“买这个。”或“播放How to Train Your Dragon 2。”),或包括用于在用户界面中导航媒体项(例如,“转到喜剧。”或“跳转到恐怖电影。”)的请求。此外,在这些示例中,上下文相关的示例性自然语言请求可包括用于搜索其他媒体项的请求(例如,“查找新喜剧。”、“显示免费且好看的电影。”或“由Nicole Kidman主演的节目有哪些?”)。
在一些示例中,所显示的内容可包括根据特定类别或主题组织的媒体项。在这些示例中,上下文相关的示例性自然语言请求可包括与该特定类别或主题相关的请求。例如,在所显示的内容包括根据各种演员组织的媒体项的示例中,上下文相关的示例性自然语言请求可包括对与演员相关的信息或媒体项的请求(例如,“由Jennifer Lawrence主演的电影有哪些?”、“Scarlett Johansson年龄多大?”、“Brad Pitt的最新电影有哪些?”)。在所显示的内容包括根据节目频道或内容提供方(例如,频道页面或电视指南页面)组织的媒体项的另一示例中,上下文相关的示例性自然语言请求可包括对与节目频道或内容提供方相关的信息或媒体项的请求(例如,“一小时之后播放什么?”、“HBO在黄金时段播放什么?”、“调到ABC。”或“哪些频道正在播放篮球比赛?”)。在所显示的内容包括用户最近选择(例如,“最近播放”列表)的媒体项或被识别为用户感兴趣的媒体项(例如,“观看列表”)的另一示例中,上下文相关的示例性自然语言请求可包括用于观看或继续观看媒体项中的一者的请求(例如,“从上次停止的地方开始继续播放。”、“继续观看Birdman。”或“从头开始播放。”)。
在一些示例中,所显示的内容可包括包含与特定主题对应的结果或信息的用户界面。具体地,结果可与先前的用户请求(例如,对数字助理的请求)相关联,并且可包括与主题诸如天气、股市或体育对应的信息。在这些示例中,上下文相关的示例性自然语言请求可包括用于细化结果的请求或对有关特定主题的附加信息的请求。例如,在所显示的内容包括特定位置的天气信息的示例中,上下文相关的示例性自然语言请求可包括用于显示另一位置或不同的时间范围的附加天气信息的请求(例如,“在New York市如何?”、“下周是什么样?”、“Hawaii呢?”等)。在所显示的内容包括与运动队或运动员相关的信息的另一示例中,上下文相关的示例性自然语言请求可包括用于提供与运动队或运动员相关的附加信息的请求(例如,“Shaquille O’Neal有多高?”、“Tom Brady是什么时候出生的?”、“49ers的下一场比赛什么时候开始?”、“Manchester United在最后一场比赛中的表现如何?”、“LALakers的控球后卫是谁?”等)。在所显示的内容包括与股市相关的信息的另一示例中,上下文相关的示例性自然语言请求可包括对附加的股市相关信息的请求(例如,“S&P 500的开盘价是多少?”、“Apple的股价走势如何?”、“昨天的道琼斯指数收盘价是多少?”等)。此外,在一些示例中,所显示的内容可包括包含与先前的用户请求相关联的媒体搜索结果的用户界面。在这些示例中,上下文相关的示例性自然语言请求可包括用于细化所显示的媒体搜索结果的请求(例如,“只查找自去年上映的那些”、“只查找那些评级为G的”、“只查找免费的”),或用于执行不同的媒体搜索的请求(例如,“查找好看的动作电影”、“为我显示一些成龙出演的电影”等)。
在一些示例中,所显示的内容可包括媒体设备的主菜单用户界面。主菜单用户界面可以是例如主屏幕或媒体设备的根目录。在这些示例中,上下文相关的示例性自然语言请求可包括表示数字助理的各种能力的请求。具体地,数字助理可具有与媒体设备相关联的一组核心竞争力,并且上下文相关的示例性自然语言请求可包括与数字助理的每个核心竞争力相关的请求(例如,“为我显示一些好看且免费的电影”、“天气怎么样”、“播放Breaking Bad的下一集”或“Apple的股价是多少?”)。
示例性自然语言请求可以是自然语言形式。这可用于告知用户数字助理能够理解自然语言请求。此外,在一些示例中,示例性自然语言请求可以是上下文模糊的,从而告知用户数字助理能够基于所显示的内容来推断与用户的请求相关联的正确的用户意图。具体地,如上述示例所示,示例性自然语言请求可包括上下文模糊的术语诸如“这个”或“一些”,或上下文模糊的短语诸如“只查找免费的。”或“在New York如何?”。这些示例性自然语言请求可告知用户数字助理能够基于所显示的内容来确定与此类请求相关联的正确的上下文。这将鼓励用户在与数字助理进行交互时依赖于所显示的内容的上下文,这样可促进与数字助理的更自然的交互式体验是可取的。
在一些示例中,框514可在框508至框512之后执行。具体地,在框506处确定用户输入对应于第一输入类型之后可在预先确定量的时间在显示单元上显示示例性自然语言请求。应当认识到,在一些示例中,可按任何顺序来执行框508至框514,并且在一些示例中,可同时执行框508至框514中的两个或更多个框。
在一些示例中,示例性自然语言请求按预先确定的顺序轮番显示。每个示例性自然语言请求可在不同的时间单独显示。具体地,可利用对后续示例性自然语言请求的显示来替换对当前示例性自然语言请求的显示。例如,如图6D中所示,可最先显示示例性自然语言请求610。在预先确定量的时间之后,可利用对示例性自然语言请求612(“播放下一集”)的显示来替换对示例性自然语言请求610(“向前跳30秒”)的显示,如图6E所示。因此,在该示例中,示例性自然语言请求610和示例性自然语言请求612一次显示一个,而不是同时显示。
在一些示例中,示例性自然语言请求可被分成多个列表,其中每个列表包括一个或多个示例性自然语言请求。在这些示例中,框514可包括在显示单元上显示示例性自然语言请求的列表。每个列表可按预先确定的顺序在不同的时间显示。此外,这些列表可轮番显示。
当执行框508至框514中的一个或多个框时,所显示的内容可继续在显示单元上显示。例如,如图6B至图6E所示,在执行框508至框512时,媒体内容602可继续在媒体设备上播放并在显示单元上显示。此外,在播放媒体内容时可由媒体设备输出与该媒体内容相关联的音频。在一些示例中,响应于检测到用户输入或根据确定用户输入对应于第一输入类型,不减小音频振幅。这样可减少对正在播放的媒体内容602的消费的干扰是可取的。因此,虽然元素604至元素612正在显示单元上显示,但用户仍然可经由音频输出来继续关注媒体内容602。
在一些示例中,如图6B至图6D中的媒体内容602的轮廓字体所表示的,响应于检测到用户输入或者根据确定用户输入对应于第一输入类型,可降低所显示的内容的亮度(例如,降低20%至40%)。在这些示例中,所显示的元素604至元素612可覆盖在所显示的媒体内容602上。降低亮度可用于突出显示所显示的元素604至元素612。与此同时,媒体内容602在显示单元上仍然是可辨别的,从而使得用户在元素604至元素612显示时能够继续消费媒体内容602。
在执行框508至框512中的一个框时,可(例如,通过在框504处检测第二输入类型的用户输入)调用数字助理,并且可(例如,在框518处)接收与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语。然后,数字助理可(例如,在框532处)响应于所收到的请求来执行任务。下文参考图5B至图5I提供了关于调用数字助理并与其进行交互的更多细节。此外,在执行框508至框512中的一个框时,可(例如,通过在框558处检测第五用户输入)调用虚拟键盘界面来执行键入搜索。下文参考图5G提供了关于调用虚拟键盘界面并执行键入搜索的更多细节。
再次参考框506,根据确定用户输入不对应于第一输入类型,可执行图5B的框516至框530中的一个或多个框。在框516处,可确定用户输入是否对应于第二输入类型。第二输入类型可以是至媒体设备的不同于第一输入类型的预定义的输入。在一些示例中,第二输入类型可包括按压媒体设备的遥控器上的特定按钮,并按住该按钮超过预先确定的持续时间(例如,长按)。第二输入类型可与调用数字助理相关联。在一些示例中,可使用遥控器的相同按钮(例如,被配置为调用数字助理的按钮)来实现第一输入类型和第二输入类型。这样可将对数字助理的调用和提供用于调用数字助理并与其进行交互的指令直观地集成到单个按钮中是可取的。此外,缺乏经验的用户可直观地实现短按,而不是长按。因此,响应于检测到短按而提供指令可使得指令主要针对缺乏经验的用户,而不是有经验的用户。这可通过将指令轻松显示给最需要指导的缺乏经验的用户同时允许有经验的用户选择绕过指令的选项来改善用户体验。
根据确定框516处的用户输入对应于第二输入类型,可执行框518至框530中的一个或多个框。在一些示例中,在执行框518至框530中的一个或多个框时,可在媒体设备上继续播放媒体内容602。具体地,在框518处对音频数据进行采样以及在框528处执行任务时,媒体内容602可在媒体设备上继续播放并且在显示单元上继续显示。
在过程500的框518处,可对音频数据进行采样。具体地,可激活媒体设备的第一麦克风(例如,麦克风272),以开始对音频数据进行采样。在一些示例中,经采样的音频数据可包括来自用户的用户话语。用户话语可表示针对数字助理的用户请求。此外,在一些示例中,用户请求可以是用于执行任务的请求。具体地,用户请求可以是媒体搜索请求。例如,参考图6F,经采样的音频数据可包括用户话语“查找由Reese Witherspoon主演的浪漫喜剧。”。在其他示例中,用户请求可以是用于播放媒体项或提供特定信息(例如,天气、股市、体育等)的请求。
经采样的音频数据中的用户话语可以是自然语言形式。在一些示例中,用户话语可表示部分指定的用户请求,其中通过该用户话语没有明确定义满足用户请求所需的所有信息。例如,用户话语可以是“播放下一集。”。在该示例中,用户请求没有明确定义要播放哪个媒体系列的下一集。此外,在一些示例中,用户话语可包括一个或多个模糊术语。
对音频数据进行采样的持续时间可基于对终点的检测。具体地,可在从最初检测到第二输入类型的用户输入的开始时间至检测到终点的结束时间对音频数据进行采样。在一些示例中,终点可基于用户输入。具体地,可在最初检测到第二输入类型的用户输入(例如,按压按钮超过预先确定的持续时间)时激活第一麦克风。在继续检测到第二输入类型的用户输入时,第一麦克风可保持激活状态以对音频数据进行采样。一旦检测不到第二输入类型的用户输入(例如,按钮被释放),便可去激活第一麦克风。因此,在这些示例中,在检测到用户输入的结束时检测到终点。因此,在检测第二输入类型的用户输入时对音频数据进行采样。
在其他示例中,检测终点可基于经采样的音频数据的一个或多个音频特征。具体地,可监测经采样的音频数据的一个或多个音频特征,并且可在确定一个或多个音频特征不满足一个或多个预先确定标准之后的预先确定时间检测到终点。在其他示例中,可基于固定的持续时间来检测终点。具体地,可在最初检测到第二输入类型的用户输入之后在预先确定的持续时间检测到终点。
在一些示例中,在执行框504或框516时,可(例如,使用扬声器268)输出与所显示的内容相关联的音频。具体地,该音频可以是在媒体设备上播放并显示在显示单元上的媒体项的音频。可经由来自媒体设备的音频信号来输出音频。在这些示例中,在确定用户输入对应于第二输入类型并且在对音频数据进行采样时,可使与所显示的内容相关联的音频闪避(例如,减小音频的振幅)。例如,可通过减小与音频信号相关联的增益来使音频闪避。在其他示例中,在框518处对音频数据进行采样时,可停止与媒体内容相关联的音频的输出。例如,可通过阻止或干扰音频信号来停止音频输出。使音频输出闪避或停止可降低经采样的音频数据中的背景噪声,并增加与用户话语相关联的语音信号的相对强度。此外,音频的闪避或停止可用作提示用户开始向数字助理提供语音输入的音频提示。
在一些示例中,可在对音频数据进行采样时对背景音频数据进行采样,从而消除噪声。在这些示例中,遥控器或媒体设备可包括第二麦克风。第二麦克风可在不同于第一麦克风(例如,与第一麦克风相对)的方向上进行取向。可激活第二麦克风,以在对音频数据进行采样时对背景音频数据进行采样。在一些示例中,背景音频数据可用于消除音频数据中的背景噪声。在其他示例中,媒体设备可生成用于输出与所显示的内容相关联的音频的音频信号。所生成的音频信号可用于从音频数据中消除背景噪声。从音频信号中消除背景噪声可特别适合于媒体环境中的与数字助理的交互。这可能是由于消费媒体内容的公共性质,其中来自多个个体的话语可在音频数据中混合。通过消除音频数据中的背景噪声,可获取音频数据中更高的信噪比,这在处理用户请求的音频数据时是可取的。
在过程500的框520处并参考图6F,主动视觉指示符614可在显示单元上显示。主动视觉指示符614可向用户指示数字助理被调用且在主动收听。具体地,主动视觉指示符614可用作提示用户开始向数字助理提供语音输入的视觉提示。在一些示例中,主动视觉指示符614可包括颜色和/或视觉动画,以指示数字助理被调用。例如,如图6F所示,主动视觉指示符614可包括响应于由数字助理接收的音频数据的一个或多个特征(例如,振幅)的主动波形。例如,主动视觉指示符614响应于音频数据中较大声的部分而显示具有较大振幅的波形,并且响应于音频数据中较轻声的部分而显示具有较小振幅的波形。此外,在显示被动视觉指示符606(例如,图6E)时调用数字助理的示例中,可利用对主动视觉指示符614的显示来替换对视觉指示符606的显示。这样可提供从图6B至图6E中所示的用于演示如何调用数字助理并与其进行交互的指导性用户界面到图6F中所示的用于主动地与数字助理进行交互的主动用户界面的自然转换。
在过程500的框522处,可确定经采样的音频数据中的用户话语的文本表示。例如,可通过对经采样的音频数据执行语音转文本(STT)处理来确定文本表示。具体地,可使用STT处理模块(例如,STT处理模块430)来处理经采样的音频数据,以将经采样的音频数据中的用户话语转换成文本表示。文本表示可以是表示对应的文本串的符号串。
在一些示例中,可使STT处理偏向于媒体相关的文本结果。可通过利用使用媒体相关的文本的语料库训练的语言模型来实现偏置。除此之外或作为另外一种选择,可通过对与媒体相关的候选文本结果进行更重的加权来实现偏置。这样,与媒体相关的候选文本结果在利用偏置时可比没有偏置时排名更高。对于增加媒体相关用户话语(例如,电影名称、电影演员等)的STT处理的准确性,偏置可能是可取的。例如,在不偏向媒体相关文本结果的情况下,在典型的文本语料库中可能很少找到某些媒体相关的字词或短语,例如“JurassicPark”、“Arnold Schwarzenegger”和“Shrek”,并因此可能无法在STT处理期间成功地识别这些字词或短语。
在一些示例中,可从独立设备(例如,DA服务器106)获取文本表示。具体地,可将经采样的音频数据从媒体设备传输至独立设备,以执行STT处理。在这些示例中,媒体设备可(例如,通过被传输到具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使STT处理偏向于媒体相关的文本结果。
在一些示例中,文本表示可基于在对音频数据采样之前由媒体设备接收的先前用户话语。具体地,与先前用户话语的一个或多个部分对应的经采样的音频数据的候选文本结果可被更重地加权。在一些示例中,先前的用户话语可用于生成语言模型,并且所生成的语言模型可用于确定经采样的音频数据中的当前用户话语的文本表示。在接收和处理附加用户话语时,可动态地更新语言模型。
此外,在一些示例中,文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。具体地,对与相对于经采样的音频数据更近期地接收的先前用户话语对应的候选文本结果的加权可重于对与相对于经采样的音频数据更早接收的先前用户话语对应的候选文本结果的加权。
在过程500的框524处,文本表示可在显示单元上显示。例如,图6F示出了与经采样的音频数据中的用户话语对应的文本表示616。在一些示例中,在对音频数据进行采样时可执行框522和框524。具体地,可通过流方式显示用户话语的文本表示616,使得在对音频数据进行采样以及对经采样的音频数据执行STT处理时,实时显示文本表示616。显示文本表示616可向用户提供数字助理正在正确处理用户请求的确认。
在过程500的框526处,可确定与用户话语对应的用户意图。可通过对框522的文本表示执行自然语言处理来确定用户意图。具体地,可使用自然语言处理模块(例如,自然语言处理模块432)来处理文本表示,以得到用户意图。例如,参考图6F,从与“查找由ReeseWitherspoon主演的浪漫喜剧”对应的文本表示616可确定用户意图是请求搜索分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项。在一些示例中,框526可还包括使用自然语言处理模块来生成用于表示所确定的用户意图的结构化查询。在“查找由ReeseWitherspoon主演的浪漫喜剧”的本示例中,可生成表示对于分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项的媒体搜索查询的结构化查询。
在一些示例中,用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。具体地,可训练自然语言处理模块来识别用于触发知识本体中的媒体相关的节点的媒体相关的字词和短语(例如,媒体标题、媒体分类、演员、MPAA电影评级标签等)。例如,自然语言处理模块可将文本表示中的短语“Jurassic Park”识别为电影标题,并由此触发与搜索媒体项的可执行意图相关联的知识本体中的“媒体搜索”节点。在一些示例中,可通过将知识本体中的节点限制于预先确定组的媒体相关的节点来实现偏置。例如,该组媒体相关的节点可以是与媒体设备的应用程序相关联的节点。此外,在一些示例中,相比于与媒体不相关的候选用户意图,可对与媒体相关的候选用户意图进行更重的加权来实现偏置。
在一些示例中,可从独立设备(例如,DA服务器106)获取用户意图。具体地,音频数据可被传输至独立设备以执行自然语言处理。在这些示例中,媒体设备可(例如,经由被传输至具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使自然语言处理偏向于媒体相关的用户意图。
在过程500的框528处,可确定经采样的音频数据是否包含用户请求。可根据框526的已确定用户意图来作出该确定。如果用户意图包括用于执行任务的用户请求,则可确定经采样的音频数据包含用户请求。相反,如果用户意图不包括用于执行任务的用户请求,则可确定经采样的音频数据不包含用户请求。此外,在一些示例中,如果在框526处不能从文本表示确定用户意图或者在框522处不能从经采样的音频数据确定文本表示,则可确定经采样的音频数据不包含用户请求。根据确定音频数据不包含用户请求,可执行框530。
在过程500的框530处,可在显示单元上显示用于澄清用户意图的请求。在一个示例中,用于澄清的请求可以是要求用户重复用户请求的请求。在另一个示例中,用于澄清的请求可以是数字助理无法理解用户话语的陈述。在又一示例中,可显示错误消息来指示无法确定用户的意图。此外,在一些示例中,根据确定音频数据不包含用户请求,可不提供响应。
参考图5C,根据在框528处确定经采样的音频数据包含用户请求,可执行框532。在过程500的框532处,可执行至少部分地满足用户请求的任务。例如,在框526处执行任务可包括执行在框526的所生成的结构化查询中定义的一个或多个任务。可使用数字助理的任务流处理模块(例如,任务流处理模块436)来执行一个或多个任务。在一些示例中,任务可包括改变媒体设备上的应用程序的状态或设置。更具体地,任务可包括例如选择或播放所请求的媒体项、打开或关闭所请求的应用程序,或以所请求的方式在所显示的用户界面中进行导航。在一些示例中,可在框532处执行任务并且不从媒体设备输出与任务相关的语音。因此,虽然在这些示例中用户可通过语音的形式向数字助理提供请求,但是数字助理可不以语音形式向用户提供响应。相反,数字助理可通过在显示单元上显示结果而仅在视觉上作出响应。这样可保留消费媒体内容的公共体验是可取的。
在其他示例中,任务可包括检索和显示所请求的信息。具体地,在框532处执行任务可包括执行框534至框536中的一个或多个框。在过程500的框534处,可获取至少部分地满足用户请求的结果。可从外部服务(例如,外部服务120)获取结果。在一个示例中,用户请求可以是执行媒体搜索查询的请求,诸如“查找由Reese Witherspoon主演的浪漫喜剧。”。在该示例中,框534可包括执行所请求的媒体搜索(例如,使用外部服务的媒体相关数据库),以获取分类为浪漫喜剧并且具有演员Reese Witherspoon的媒体项。在其他示例中,用户请求可包括对其他类型的信息诸如天气、体育和股市的请求,并且可在框534处获取相应信息。
在过程500的框536处,可在显示单元上显示第二用户界面。第二用户界面可包括在框534处获取的结果的一部分。例如,如图6G所示,第二用户界面618可被显示在显示单元上。第二用户界面618可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧”的用户请求的媒体项622。在该示例中,媒体项622可包括一些媒体项,诸如“Legally Blonde”、“Legally Blonde 2”、“Hot Pursuit”和“This Means War”。第二用户界面618可还包括描述所获取的结果的文本标头620。文本标头620可改述用户请求的一部分,以传达用户的请求已被直接处理的印象。这提供了用户和数字助理之间更加人性化的交互式体验。在图6G中所示的本示例中,媒体项622跨第二用户界面618而被组织在单个行中。应当认识到,在其他示例中,媒体项622的组织和展示可变化。
第二用户界面618可还包括用于在第二用户界面618中导航和选择媒体项622的光标624。可通过相对于其他媒体项可视地突出显示光标所在的媒体项来指示光标的位置。例如,在本示例中,与第二用户界面618中显示的其他媒体项相比,光标624所在的媒体项623可更大且更粗。
在一些示例中,在显示第二用户界面时,可继续显示所显示的内容的至少一部分。例如,如图6G所示,第二用户界面618可以是在显示单元的基部显示的小窗格,而媒体内容602继续在媒体设备上播放并且在第二用户界面618上方的显示单元上显示。可将第二用户界面618覆盖在正在播放的媒体内容602上。在本示例中,显示单元上的第二用户界面618的显示区域可小于显示单元上的媒体内容602的显示区域。这样可减少在用户正在消费媒体内容时由数字助理显示的结果的干扰是可取的。应当认识到,在其他示例中,第二用户界面的显示区域相对于所显示的内容的显示区域可变化。此外,如图6G中的实心字体“MEDIAPLAYING”所示的,在显示第二用户界面618时,媒体内容602的亮度可恢复到正常亮度(例如,在检测用户输入之前的图6A处的亮度)。这可用于向用户指示与数字助理的交互已完成。因此,用户可在观看所请求的结果(例如,媒体项622)时继续消费媒体内容602。
在从媒体搜索获取的媒体项显示在第二用户界面上的示例中,可限制显示的媒体项的数量。这样可允许用户关注最相关的结果并且防止用户在进行选择时面对过多的选项是可取的。在这些示例中,框532可还包括确定所得结果中的媒体项的数量是否小于或等于预先确定数量(例如,30、28或25)。根据确定所得结果中的媒体项的数量小于或等于预先确定数量,所得结果中的所有媒体项可被包括在第二用户界面中。根据确定所得结果中的媒体项的数量大于预先确定数量,所得结果中只有预先确定数量的媒体项可被包括在第二用户界面中。
此外,在一些示例中,在第二用户界面中可仅显示所得结果中的与媒体搜索请求最相关的媒体项。具体地,所得结果中的媒体项中的每个媒体项可与相对于媒体搜索请求的相关性得分相关联。所显示的媒体项在所得结果中可具有最高的相关性得分。此外,可根据相关性得分来排列第二用户界面中的媒体项。例如,参考图6G,具有较高相关性得分的媒体项更可能接近第二用户界面618的一侧(例如,接近光标624的一侧),而具有较低相关性得分的媒体项更可能接近用户界面618的相对侧(例如,远离光标624的一侧)。此外,所得结果中的每个媒体项可与流行度评级相关联。流行度评级可基于电影评论家的评级(例如,烂番茄评级(rotten tomatoes ratings))或基于已选择回放媒体项的用户的数量。在一些示例中,媒体项622在第二用户界面618中的布置可基于流行度评级。例如,具有较高流行度评级的媒体项更可能被定位在第二用户界面618的一侧,而具有较低流行度评级的媒体项更可能接近被定位在第二用户界面618的相对侧。
如图5C中继框532之后的不同流(例如,D、E、F和G)所示的,可在框532之后执行图5D的框538、图5E的框542、图5F的框550或图5I的框570中的一者。可在框536处显示第二用户界面时执行框538、框542、框550或框570。在一些示例中,过程500可另选地包括框536之后的确定步骤,以确定要执行的适当的流(例如,D、E、F或G)。具体地,可在框536之后检测用户输入,并且可确定检测到的用户输入是否对应于第二用户输入(例如,框538)、第三用户输入(例如,框542)、第四用户输入(例如,框550)或第六用户输入(例如,框570)。例如,根据确定用户输入对应于框542的第三用户输入,可执行框544至框546中的一个或多个框。在框546之后,还可包括类似的确定步骤。
在过程500的框538处并且参考图5D,可检测到第二用户输入。如上所述,在第二用户界面显示在显示单元上时可检测第二用户输入。可在媒体设备的遥控器上检测到第二用户输入。例如,第二用户输入可包括遥控器的触敏表面上的第一预先确定的动作模式。在一个示例中,第一预先确定的动作模式可包括从触敏表面上的第一接触点到第二接触点的第一方向上的连续接触动作。当以预期的方式握持遥控器时,第一方向可以是向下的方向或是朝向用户的方向。应当认识到,对于第二用户输入可预期其他形式的输入。响应于检测到第二用户输入,可执行框540。
在过程500的框540处,可消除第二用户界面,使得该第二用户界面不再显示。例如,参考图6G,响应于检测到第二用户输入,第二用户界面618可停止显示。在该示例中,在消除第二用户界面618时,可在显示单元上全屏显示媒体内容602。例如,在停止显示第二用户界面618时,可如图6A所示来显示媒体内容602。
在过程500的框542处并且参考图5E,可检测到第三用户输入。可在显示单元上显示第二用户界面时检测到第三用户输入。可在媒体设备的遥控器上检测到第三用户输入。例如,第三用户输入可包括遥控器的触敏表面上的第二预先确定的动作模式。第二预先确定的动作模式可包括从触敏表面上的第三接触点到第四接触点的第二方向上的连续接触动作。第二方向可与第一方向相反。具体地,当以预期的方式握持遥控器时,第二方向可以是向上的方向或是远离用户的方向。响应于检测到第三用户输入,可执行框544至框546中的一个或多个框。在一些示例中,如图6G所示,第二用户界面618可包括图形指示符621(例如,箭头),以向用户指示可通过提供第三用户输入来扩展第二用户界面618。此外,图形指示符621可向用户指示与用于第三用户输入的触敏表面上的第二预先确定的动作模式相关联的第二方向。
在过程500的框544处,可获取第二结果。所得第二结果可类似于但不同于在框534处获取的结果。在一些示例中,所得的第二结果可至少部分地满足用户请求。例如,所得的第二结果可共享在框534处获取的结果的一个或多个特性、参数或属性。在图6F至图6G所示的示例中,框544可包括执行与在框534处执行的媒体搜索查询相关的一个或多个附加媒体搜索查询。例如,一个或多个附加媒体搜索查询可包括搜索分类为浪漫喜剧的媒体项或搜索由Reese Witherspoon主演的媒体项。因此,所得的第二结果可包括作为浪漫喜剧的媒体项(例如,媒体项634)和/或由Reese Witherspoon主演的媒体项(例如,媒体项636)。
在一些示例中,所得的第二结果可基于在框504处检测用户输入之前所接收的先前用户请求。具体地,所得的第二结果可包括先前用户请求的一个或多个特性或参数。例如,先前的用户请求可以是“为我显示在过去5年中发行的电影。”。在该示例中,所得的第二结果可包括在过去5年中发行的由Reese Witherspoon主演的作为浪漫喜剧片的媒体项。
此外,在一些示例中,框544可包括在检测到第三用户输入时获取与第二用户界面所聚焦的项目上下文相关的第二结果。例如,参考图6G,在检测到第三用户输入时,光标624可被定位在第二用户界面618中的媒体项623处。媒体项623可以是例如电影“LegallyBlonde”。在该示例中,所得的第二结果可共享与媒体项“Legally Blonde”相关联的一个或多个特性、属性或参数。具体地,所得的第二结果可包括像“Legally Blonde”的媒体项,其涉及就读法学院或涉及担任领导角色的职业女性。
在过程500的框546处,可在显示单元上显示第三用户界面。具体地,可利用对框546处的第三用户界面的显示来替换对框536处的第二用户界面的显示。在一些示例中,响应于检测到第三用户输入,可将第二用户界面扩展为第三用户界面。第三用户界面可至少占据显示单元的大部分显示区域。第三用户界面可包括框534的所得结果的一部分。此外,第三用户界面可包括框544的所获取的第二结果的一部分。
在一个示例中,如图6H所示,第三用户界面626可基本占据显示单元的整个显示区域。在该示例中,可利用对第三用户界面626的显示来替换对媒体内容602和第二用户界面618的先前显示。响应于检测到第三用户输入,可在媒体设备上暂停播放媒体内容。这可防止用户在第三用户界面626中浏览媒体项时丢失媒体内容602的任何部分是可取的。
第三用户界面626可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧。”的用户请求的媒体项622。此外,第三用户界面626可包括至少部分地满足相同用户请求的媒体项632。媒体项632可包括各自对应于不同的特性、属性或参数的多个媒体项组。在该示例中,媒体项632可包括作为浪漫喜剧的媒体项634和由Reese Witherspoon主演的媒体项636。每个媒体项组可使用文本标头(例如,文本标头628,630)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。此外,每个文本标头可以是示例性用户话语,当其由用户提供至数字助理时,可使得数字助理获取类似组的媒体项。例如,参考文本标头628,响应于从用户收到用户话语“浪漫喜剧”,数字助理可获取并显示作为浪漫喜剧的媒体项(例如,媒体项634)。
虽然在图6H所示的示例中,媒体项622基于初始用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”,但是应当认识到,在其他示例中,媒体项632可基于其他因素,诸如媒体选择历史、媒体搜索历史、接收先前媒体搜索的顺序、媒体相关属性之间的关系、媒体项的流行度等。
在用户请求是媒体搜索请求的示例中,所得的第二结果可基于框534的所得结果中的媒体项的数量。具体地,响应于检测到第三用户输入,可确定所得结果中的媒体项的数量是否小于或等于预先确定的数量。根据确定所得结果中的媒体项的数量小于或等于预先确定的数量,所得的第二结果可包括与第二用户界面中的媒体项不同的媒体项。所得的第二结果可至少部分地满足在框534处执行的媒体搜索请求。同时,所得的第二结果的范围可比先前所得结果的范围更宽,并且可与在框534处执行的媒体搜索请求中定义的参数中的部分参数相关联。这样可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。
在一些示例中,根据确定框534的所得结果中的媒体项的数量小于或等于预先确定的数量,可确定媒体搜索请求是否包括多于一个搜索属性或参数。根据确定媒体搜索请求包括多于一个搜索属性或参数,所得的第二结果可包括与多于一个搜索属性或参数相关联的媒体项。此外,可根据多于一个搜索属性或参数来在第三用户界面中组织所获取的第二结果中的媒体项。
在图6F至图6H所示的示例中,媒体搜索请求“查找由Reese Witherspoon主演的浪漫喜剧”可被确定为包括多于一个搜索属性或参数(例如,“浪漫喜剧”和“ReeseWitherspoon”)。根据确定媒体搜索请求包括多于一个搜索属性或参数,所得的第二结果可包括与搜索参数“浪漫喜剧”相关联的媒体项634,以及与搜索参数“Reese Witherspoon出演的电影”相关联的媒体项636。如图6H所示,可将媒体项634按“浪漫喜剧”类别进行组织,并且可将媒体项636按“Reese Witherspoon”类别进行组织。
在一些示例中,根据确定框534的所得结果中的媒体项的数量大于预先确定的数量,第三用户界面可包括所得结果的第一部分和第二部分。所获取的结果的第一部分可包括预先确定数量的媒体项(例如,具有最高相关性得分)。所得结果的第二部分可不同于所得结果的第一部分,并且可包括比所得结果的第一部分更多的媒体项。此外,可确定所得结果中的媒体项是否包括多于一种媒体类型(例如,电影、电视节目、音乐、应用程序、游戏等)。响应于确定所得结果中的媒体项包括多于一种媒体类型,可根据媒体类型来组织所得结果的第二部分中的媒体项。
在图6I所示的示例中,在框534处获取的结果可包括由Reese Witherspoon主演的作为浪漫喜剧的媒体项。根据确定所得结果中的媒体项的数量大于预先确定的数量,可在第三用户界面626中显示所得结果的第一部分(媒体项622)和所得结果的第二部分(媒体项638)。响应于确定所得结果包括多于一种媒体类型(例如,电影和电视节目),可根据媒体类型来组织媒体项638。具体地,可将媒体项640按“电影”类别进行组织,并且可将媒体项642按“电视节目”类别进行组织。此外,在一些示例中,与相应媒体类型(例如,电影、电视节目)对应的每个媒体项组(例如,媒体项640、媒体项642)可根据相应媒体项组内的最流行的分类、演员/导演或发行日期来排序。应当认识到,在其他示例中,响应于确定所得结果中的媒体项与多于一个媒体属性或参数相关联,可根据媒体属性或参数(而不是媒体类型)来组织所得结果的第二部分中的媒体项。
在一些示例中,可检测表示滚动命令的用户输入(例如,下面在框550处描述的第四用户输入)。响应于接收到表示滚动命令的用户输入,可使得经扩展的用户界面(或者更具体地,经扩展的用户界面中的项目)滚动。在滚动时,可确定经扩展的用户界面是否经滚动超出经扩展的用户界面中的预先确定的位置。响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置,可在经扩展的用户界面上显示所得结果的第三部分中的媒体项。第三部分中的媒体项可根据与第三部分中的媒体项相关联的一个或多个媒体内容提供方(例如,iTunes、Netflix、HuluPlus、HBO等)来组织。应当认识到,在其他示例中,响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置,可获取其他媒体项。例如,可获取流行媒体项或与所得结果相关的媒体项。
如从图5E中的框546开始的不同流(例如,B、F、G和H)所示的,可在框532之后执行图5F的框550、图5G的框558、图5H的框566或图5I的570。具体地,在一些示例中,可在框546处显示第三用户界面时执行框550、框560、框564或框570。
在过程500的框550处并且参考图5F,可检测到第四用户输入。可在显示单元上显示第二用户界面(例如,第二用户界面618)或第三用户界面(例如,第三用户界面626)时检测第四用户输入。在一些示例中,可在媒体设备的遥控器上检测第四用户输入。第四用户输入可指示显示单元上的方向(例如,向上、向下、向左、向右)。例如,第四用户输入可以是从遥控器触敏表面上的第一位置到触敏表面上的第一位置右侧的第二位置的接触动作。因此该接触动作可对应于显示单元上的向右的方向。响应于检测到第四用户输入,可执行框552。
在过程500的框552处,第二用户界面或第三用户界面的焦点可在第二用户界面或第三用户界面上从第一项目切换至第二项目。第二项目可被定位在相对于第一项目的方向(例如,与第四用户输入对应的相同方向)上。例如,在图6G中,第二用户界面618的焦点可在媒体项623上,其中光标624被定位在媒体项623处。响应于检测到与显示单元上的向右方向对应的第四用户输入,可将第二用户界面618的焦点从图6G中的媒体项623切换至图6J中的被定位在媒体项623右侧的媒体项625。具体地,光标624的位置可从媒体项623改变至媒体项625。在另一个示例中,参考图6H,第三用户界面626的焦点可位于媒体项623上。响应于检测到与显示单元上的向下方向对应的第四用户输入,可将第三用户界面626的焦点从图6H中的媒体项623切换至图6K中的相对于媒体项623被定位在其下方的媒体项627。具体地,光标624的位置可从媒体项623改变至媒体项627。
在过程500的框554处,可经由第二用户界面或第三用户界面来接收对一个或多个媒体项中的媒体项的选择。例如,参考图6J,可通过在光标624被定位在媒体项625处时检测与用户选择对应的用户输入经由第二用户界面618来接收对媒体项625的选择。类似地,参考图6K,可通过在光标624被定位在媒体项627处时检测与用户选择对应的用户输入经由第三用户界面626来接收对媒体项627的选择。响应于接收到对一个或多个媒体项中的媒体项的选择,可执行框556。
在过程500的框556处,可在显示单元上显示与所选择的媒体项相关联的媒体内容。在一些示例中,媒体内容可以是正在媒体设备上播放或流式传输的电影、视频、电视节目、动画等。在一些示例中,媒体内容可以是视频游戏、电子书、应用程序或在媒体设备上运行的程序。此外,在一些示例中,媒体内容可以是与媒体项相关的信息。该信息可以是描述所选择的媒体项的各种特性(例如,剧情简介、演员、导演、作者、发行日期、评级、持续时间等)的产品信息。
在过程500的框558处并且参考图5G,可检测第五用户输入。在一些示例中,可在显示第三用户界面(例如,第三用户界面626)时检测第五用户输入。在这些示例中,在第三用户界面的焦点在第三用户界面顶行中的媒体项上时(例如,图6H的第三用户界面626中的媒体项622中的一个媒体项),可检测第五用户输入。在其他示例中,可在显示第一用户界面时检测第五用户输入。在这些示例中,可在执行框508至框514中的任一个框时检测第五用户输入。在一些示例中,可在媒体设备的遥控器上检测第五用户输入。第五用户输入可与第三用户输入相似或相同。例如,第五用户输入可包括触敏表面上的第二方向上的连续接触动作(例如,向上滑动接触动作)。在其他示例中,第五用户输入可以是对示能表示的激活。该示能表示可与虚拟键盘界面或键入搜索界面相关联。响应于检测到第五用户输入,可执行框560至框564中的一个或多个框。
在过程500的框560处,可显示被配置为接收键入搜索输入的搜索字段。例如,如图6L所示,搜索字段644可被显示在所显示的单元上。在一些示例中,搜索字段可被配置为接收键入搜索查询。键入搜索查询可以是媒体相关的搜索查询,诸如搜索媒体项。在一些示例中,搜索字段可被配置为基于经由搜索字段644输入的文本和与媒体项相关联的所存储文本之间的文本串匹配来执行媒体相关搜索。此外,在一些示例中,数字助理可不被配置为经由搜索字段644来接收输入。这样可鼓励用户经由语音界面而不是打字界面与数字助理进行交互,以促进媒体设备和用户之间的更加人性化的界面。应当认识到,在一些示例中,搜索字段可能已被显示在第二用户界面(例如,第二用户界面618)或第三用户界面(例如,第三用户界面626)中。在这些示例中,可不必执行框566。
在过程500的框562处,可在显示单元上显示虚拟键盘界面。例如,如图6L所示,可显示虚拟键盘界面646。虚拟键盘界面646可被配置为使得经由虚拟键盘界面646所接收的用户输入导致搜索字段中的文本输入。在一些示例中,虚拟键盘界面不可用于与数字助理进行交互。
在过程500的框564处,可将用户界面的焦点切换至搜索字段。例如,参考图6L,可在框568处突出显示搜索字段644。此外,文本输入光标可被定位在搜索字段644。在一些示例中,可在搜索字段中显示用于提示用户输入键入搜索的文本。如图6L所示,文本648包括提示“输入搜索”。
在过程500的框566处并且参考图5H,可检测第七用户输入。在一些示例中,可在显示第三用户界面(例如,第三用户界面626)时检测第七用户输入。在一些示例中,第七用户输入可包括按压电子设备的遥控器的按钮。该按钮可以是例如用于导航至电子设备的主菜单用户界面的菜单按钮。应当认识到,在其他示例中,第七用户输入可包括其他形式的用户输入。响应于检测到第七用户输入,可执行框568。
在过程500的框568处,可在显示单元上显示第三用户界面。具体地,第七用户输入可使得第三用户界面被消除。在一些示例中,第七用户输入可使得主菜单用户界面菜单将被显示,从而代替第三用户界面。作为另外一种选择,在显示第三用户界面(例如,第三用户界面626)之前显示媒体内容(例如,媒体内容602)并且在显示第三用户界面时暂停播放电子设备上的媒体内容(例如,响应于检测到第三用户输入而暂停)的示例中,可响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。因此,可响应于检测到第七用户输入来显示媒体内容。
在过程500的框570处并且参考图5I,可检测到第六用户输入。如图6M所示,可在显示第三用户界面626时检测第六用户输入。然而,在其他示例中,可在显示第二用户界面(例如,第二用户界面618)时另选地检测第六用户输入。在检测到第六用户输入时,第二用户界面或第三用户界面可包括至少部分地满足用户请求的结果的一部分。第六用户输入可包括用于调用电子设备的数字助理的输入。具体地,第六用户输入可与上面参考框516描述的第二输入类型的用户输入相似或相同。例如,第六用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如,长按)。响应于检测到第六用户输入,可执行框572至框592中的一个或多个框。
在过程500的框572处,可对第二音频数据进行采样。框572可与上述框518相似或相同。具体地,经采样的第二音频数据可包括来自第二用户的用户话语。第二用户话语可表示针对数字助理的第二用户请求。在一些示例中,第二用户请求可以是用于执行第二任务的请求。例如,参考图6M,经采样的第二音频数据可包括第二用户话语“仅需要Luke Wilson出演的那些电影。”。在该示例中,第二用户话语可表示第二用户请求以细化先前的媒体搜索,从而仅包括具有演员Luke Wilson的媒体项。在该示例中,第二用户话语是自然语言形式。此外,在第二用户话语没有明确指定定义用户请求所需的所有信息的情况下,可部分指定第二用户请求。例如,第二用户话语没有明确指定“那些”指的是什么。在其他示例中,第二用户请求可以是播放媒体项或提供特定信息(例如,天气、股市、体育等)的请求。
应当认识到,在一些示例中,可相对于第六用户输入类似地执行上述框520至框526。具体地,如图6M所示,当检测到第六用户输入时,可在显示单元上显示活动的视觉指示符614。可(例如,使用STT处理模块430)确定第二用户话语的第二文本表示650并将其显示在显示单元上。可基于第二文本表示(例如,使用自然语言处理模块432)来确定与第二用户话语对应的第二用户意图。在一些示例中,如图6M所示,响应于检测到第六用户输入,在检测到第六用户输入时被显示在显示单元上的内容可被淡化或降低亮度。这可用于突出显示活动的视觉指示符614和第二文本表示650。
在过程500的框574处,可确定经采样的第二音频数据是否包含第二用户请求。框574可与上述框528相似或相同。具体地,可基于从第二用户话语的第二文本表示确定的第二用户意图来作出框574处的确定。根据确定第二音频数据不包含用户请求,可执行框576。作为另外一种选择,根据确定第二音频数据包含第二用户请求,可执行框578至框592中的一个或多个框。
在过程500的框576处,可在显示单元上显示用于澄清用户意图的请求。框576可与上述框530相似或相同。
在过程500的框578处,可确定第二用户请求是否是用于细化用户请求的结果的请求。在一些示例中,可根据与第二用户话语对应的第二用户意图来作出确定。具体地,第二用户请求可被确定为是用于基于在第二用户话语中识别的所表达的指示来细化用户请求的结果的请求,以细化用户请求的结果。例如,参考图6M,可在自然语言处理期间解析第二文本表示650,以确定第二用户话语是否包括与细化媒体搜索结果的明确意图对应的预先确定的字词或短语。与细化媒体搜索结果的明确意图对应的字词或短语的示例可包括“仅”、“只”、“通过……筛选”等。因此,可基于第二文本表示650中的字“仅”来确定第二用户请求是用于细化与用户请求“查找由Reese Witherspoon主演的浪漫喜剧”相关联的媒体搜索结果的请求。应当认识到,可实现其他技术来确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求,可执行框580至框582中的一个或多个框。
在过程500的框580处,可获取至少部分地满足用户请求的结果的子组。在一些示例中,可通过根据第二用户请求中定义的附加参数筛选现有结果来获取结果的子组。例如,可筛选框534处的所获取的结果(例如,包括媒体项622),使得识别具有演员Luke Wilson的媒体项。在其他示例中,可执行组合用户请求和第二用户请求的要求的新的媒体搜索查询。例如,新的媒体搜索查询可以是针对分类为浪漫喜剧并且具有演员Reese Witherspoon和Luke Wilson的媒体项的搜索查询。在该示例中,新的媒体搜索查询可得出媒体项,诸如“Legally Blonde”和“Legally Blonde 2”。
在显示第三用户界面时检测第六用户输入的示例中,可获取与用户请求和/或第二用户请求相关的附加结果。该附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个属性或参数的媒体项。此外,附加结果可能不包括在用户请求和第二用户请求中描述的所有属性或参数。例如,参考图6H和图6M中描述的示例,附加结果可包括具有以下属性或参数中的至少一者(但不是全部)的媒体项:浪漫喜剧、Reese Witherspoon和Luke Wilson。附加结果可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。此外,附加结果可以是很可能使用户感兴趣的相关结果。
在框582处,可在显示单元上显示结果的子组。例如,如图6N所示,结果的子组可包括媒体项652,该媒体项可包括电影,诸如“Legally Blonde”和“Legally Blonde 2”。在该示例中,媒体项652在第三用户界面626的顶行中显示。文本标头656可描述与所显示的媒体项652相关联的属性或参数。具体地,文本标头656可包括与第二用户话语相关联的用户意图的改述。在显示第二用户界面(例如,图6G中所示的第二用户界面618)时检测第六用户输入的示例中,媒体项652可替代地被显示在第二用户界面中。在这些示例中,媒体项652可跨第二用户界面而被显示为单行。应当认识到,媒体项652在第二用户界面或第三用户界面中被显示的方式可变化。
在显示第三用户界面时检测第六用户输入的示例中,可在第三用户界面中显示与所述用户请求和/或第二用户请求相关的附加结果。例如,参考图6N,附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个参数的媒体项654。具体地,媒体项654可包括由Luke Wilson主演的作为浪漫喜剧的媒体项658,以及由Luke Wilson主演且在过去10年中发行的媒体项660。每个媒体项组(例如,媒体项658、媒体项660)可使用文本标头(例如,文本标头662、文本标头664)来标记。该文本标头可描述与相应组的媒体项相关联的一个或多个参数。文本标头可以是自然语言形式。此外,每个文本标头可以是示例性用户话语,当其由用户提供至数字助理时,可使得数字助理获取类似组的媒体项。例如,参考文本标头662,响应于收到来自用户的用户话语“由Luke Wilson主演的浪漫喜剧”,数字助理可获取并显示作为由Luke Wilson主演的浪漫喜剧的媒体项(例如,媒体项658)。
再次参考框578,可确定第二用户请求不是用于细化所述用户请求的结果的请求。可基于第二用户话语中没有任何明确指示要细化用户请求的结果来作出这样的确定。例如,在自然语言处理期间解析第二用户话语的第二文本表示时,可能识别不出与用于细化媒体搜索结果的明确意图对应的预先确定的字词或短语。这可能是因为第二用户请求是与先前用户请求无关的请求(例如,新请求)。例如,第二用户请求可以是“查找恐怖电影”,该第二用户请求是与先前的用户请求“查找由Reese Witherspoon主演的浪漫喜剧”无关的请求。作为另外一种选择,第二用户请求可包括可被解译为用于细化先前用户请求的结果的请求或与先前用户请求无关的新请求的模糊语言。例如,参考图6P,第二用户话语可以是“Luke Wilson”,其可被解译为是用于细化先前用户请求的结果的请求(例如,细化以仅包括具有演员Luke Wilson的媒体项),或者可被解译为是与先前的用户请求无关的新请求(例如,对于具有演员Luke Wilson的媒体项的新媒体搜索)。在这些示例中,第二用户请求可被确定为不是用于细化所述用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求,可执行框584至框592中的一个或多个框。
在过程500的框584处,可执行至少部分地满足第二用户请求的第二任务。框584可类似于上述框532,不同之处在于框584的第二任务可不同于框532的任务。框584可包括框586至框588中的一个或多个框。
在过程500的框586处,可获取至少部分地满足第二用户请求的第三结果。框586可类似于上述框534。参考图6P所示的示例,第二用户话语“Luke Wilson”可被解译为是执行新的媒体搜索查询以识别具有演员Luke Wilson的媒体项的请求。因此,在该示例中,框586可包括执行所请求的媒体搜索,以获取具有演员Luke Wilson的媒体项。应当认识到,在其他示例中,用户请求可包括对其他类型的信息(例如,天气、体育、股市等)的请求,并且可在框586处获取相应类型的信息。
在过程500的框588处,可在显示单元上显示第三结果的一部分。例如,参考图6Q,可在第三用户界面626中显示包括具有演员Luke Wilson的媒体项670(例如,电影诸如“Playing It Cool”、“The Skeleton Twins”和“You Kill Me”的第三结果。在该示例中,媒体项670可在第三用户界面626的顶行中显示。文本标头678可描述与所显示的媒体项670相关联的属性。具体地,文本标头678可包括与第二用户话语相关联的所确定的用户意图的改述。在显示第二用户界面(例如,图6G中所示的第二用户界面618)时检测第六用户输入的示例中,媒体项670可被显示在第二用户界面中。在这些示例中,媒体项670可跨第二用户界面以单行而被显示。应当认识到,在其他示例中,第二用户界面或第三用户界面中的媒体项670的组织或配置可变化。
在过程500的框590处,可获取至少部分地满足用户请求和/或第二用户请求的第四结果。具体地,第四结果可包括具有在用户请求和/或第二用户请求中定义的一个或多个属性或参数的媒体项。参考图6P和图6Q中所示的示例,第四结果可包括具有以下属性或参数中的一个或多个的媒体项:浪漫喜剧、Reese Witherspoon和Luke Wilson。例如,第四结果可包括分类为浪漫喜剧并且由Luke Wilson主演的媒体项676。所得的第四结果可向用户提供范围更广的一组结果并且因此提供更多选项可供选择是可取的。此外,第四结果可与源于第二用户请求和一个或多个先前用户请求的另选预测用户意图相关联,以便提高满足用户实际意图的可能性。这可用于提高返回给用户的结果的准确性和相关性,从而改善用户体验。
在一些示例中,第四结果的至少一部分可包括具有在用户请求和第二用户请求中定义的所有参数的媒体项。例如,第四结果可包括分类为浪漫喜剧并且由ReeseWitherspoon和Luke Wilson主演的媒体项674。媒体项674可与使用第二用户请求来细化先前用户请求的结果的另选意图相关联。在用户实际上希望第二请求是细化所得结果的请求的情况下获取媒体项674可提高满足用户实际意图的可能性是可取的。
在一些示例中,第四结果的一部分可基于检测到第六用户输入时的用户界面的焦点。具体地,当检测到第六用户输入时,用户界面的焦点可位于第三用户界面的一个或多个项目上。在该示例中,第四结果的一部分可与用户界面所聚焦的一个或多个项目上下文相关。例如,参考图6K,光标624可被定位在媒体项627上,并且因此第三用户界面626的焦点可位于媒体项627上。在该示例中,可利用与媒体项627相关联的属性或参数来获取第四结果的一部分。例如,与媒体项627相关联的“Reese Witherspoon出演的电影”的类别可用于获取第四结果的一部分,其中所得部分可包括由Reese Witherspoon和Luke Wilson主演的媒体项。在另一示例中,媒体项627可以是冒险电影,并且因此第四结果的一部分可包括作为由Luke Wilson主演的冒险电影的媒体项。
在过程500的框592处,可显示第四结果的一部分。在显示第三用户界面时检测第六用户输入的示例中,第四结果的一部分可被显示在第三用户界面中。例如,如图6Q所示,第四结果的一部分可包括在媒体项670之后的行中显示的媒体项672。媒体项672可与在第二用户请求和/或所述用户请求中定义的一个或多个属性或参数(例如,浪漫喜剧、ReeseWitherspoon和Luke Wilson)相关联。例如,媒体项672可包括作为由Luke Wilson主演的浪漫喜剧的媒体项676,以及作为由Reese Witherspoon和Luke Wilson主演的浪漫喜剧的媒体项674。每个媒体项组(例如,媒体项674、媒体项676)可使用文本标头(例如,文本标头680、文本标头682)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。文本标头可以是自然语言形式。此外,每个文本标头可以是示例性用户话语,当其由用户提供至数字助理时,可使得数字助理获取具有类似属性的类似组的媒体项。
如上所述,第二用户话语“Luke Wilson”可与两个可能的用户意图相关联:执行新的媒体搜索的第一用户意图或细化先前用户请求的结果的第二用户意图。所显示的媒体项670可满足第一用户意图,并且所显示的媒体项674可满足第二用户意图。在该示例中,媒体项670和媒体项674被显示在前两行中。这样,可在第三用户界面626中突出显示(例如,前两行)与第二用户请求(例如,新搜索或对先前搜索的细化)相关联的两个最可能的用户意图的结果。这样可尽量减少用户在找到所需媒体项进行消费之前在第三用户界面中的滚动或浏览。应当认识到,在第三用户界面626中突出显示媒体项670和媒体项674以尽量减少滚动和浏览的方式可变化。
图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程700。可使用实现数字助理的一个或多个电子设备来执行过程700。例如,可使用上述的系统100、媒体系统128、媒体设备104、用户设备122\或数字助理系统400中的一者或多者来执行过程700。图8A至图8W示出了根据各种示例的在过程700的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图7A至图7C和图8A至图8W对过程700进行描述。应当理解,过程700中的一些操作可组合,一些操作的顺序可改变,而一些操作可省略。
在过程700的框702处,可在显示单元(例如,显示单元126)上显示内容。框702可与上述框502相似或相同。参考图8A,所显示的内容可包括在媒体设备(例如,媒体设备104)上播放的媒体内容802(例如,电影、视频、电视节目、视频游戏等)。在其他示例中,所显示的内容可包括其他内容,诸如与媒体设备上运行的应用程序相关联的内容,或用于与媒体设备的数字助理进行交互的用户界面。具体地,所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面。
在过程700的框704处,可检测用户输入。框704可与上述框504相似或相同。用户输入可用于调用媒体设备的数字助理。在一些示例中,可在显示框702的内容时检测用户输入。可在媒体设备的遥控器(例如,遥控器124)上检测用户输入。例如,用户输入可对应于在过程500的框516中描述的第二输入类型。具体地,框704处的用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如,长按)。响应于检测到用户输入,可执行框706至框746中的一个或多个框。
在过程700的框706处,可对音频数据进行采样。框706可与上述框518相似或相同。经采样的音频数据可包括用户话语。用户话语可表示针对媒体设备的数字助理的用户请求。例如,参考图8A中所示的示例,经采样的音频数据可包括用户话语“Paris现在是几点?”。用户话语可以是非结构化自然语言形式。在一些示例中,由用户话语表示的请求可以是部分指定的,其中执行请求所需的信息在用户话语中是缺失的或未被明确定义(例如,“播放这个”)。在其他示例中,用户话语可能不是显式请求,而是从其推断请求的间接问题或语句(例如,“他说了什么?”)。此外,如下面在框712中更详细的描述,用户话语可包括一个或多个模糊术语。
在过程700的框708处,可确定经采样的音频数据中的用户话语的文本表示。框708可与上述框522相似或相同。具体地,可通过对经采样的音频数据中的用户话语执行STT处理来确定该文本表示。例如,参考图8A,可从经采样的音频数据中的用户话语确定文本表示804“Paris现在是几点?”,并将其显示在显示单元上。如图所示,文本表示804可覆盖在媒体内容802上,而媒体内容802继续在媒体设备上播放。
在一些示例中,用于确定文本表示的STT处理可偏向于媒体相关的文本结果。除此之外或作为另外一种选择,文本表示可基于在对音频数据采样之前由媒体设备所接收的先前用户话语。此外,在一些示例中,文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。在从独立设备(例如,DA服务器106)获取文本表示的示例中,媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联,并且该指示可使独立设备上的STT处理偏向与媒体相关的文本结果。
在过程700的框710处,可确定对与用户话语对应的用户意图。框710可类似于上述框526。具体地,可使用自然语言处理(例如,利用自然语言处理模块432)来处理框708的文本表示以得到用户意图。例如,参考图8A,可从文本表示804“Paris现在是几点?”确定用户意图是在请求名为“Paris”的位置的时间。用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。在从独立设备(例如,DA服务器106)获取用户意图的示例中,媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联,并且该指示可使独立设备上的自然语言处理偏向于媒体相关的用户意图。
在一些示例中,可基于源于经采样的音频数据中的用户话语的韵律信息来确定用户意图。具体地,可从用户话语得出韵律信息(例如,音调、节奏、音量、压力、语调、速度等),从而确定用户的态度、心情、情感或情绪。然后可根据用户的态度、心情、情感或情绪来确定用户意图。例如,经采样的音频数据可包括用户话语“他说了什么?”。在该示例中,可基于在用户话语中检测到的高音量和压力来确定用户的不耐烦或沮丧。基于用户话语和所确定的用户情绪,可确定用户意图包括用于增加与正在媒体设备上播放的媒体内容相关联的音频的音量的请求。
如图7A所示,框710可包括框712至框718中的一个或多个框。具体地,当发现两个或更多个用户意图非常可能并且自然语言处理模块不能缩窄两个或更多个用户意图的范围使其成为单个用户意图时,可执行框712至框718中的一个或多个框。例如,当用户话语包含不可基于可用的上下文信息而消歧的模糊术语时,可能出现这种情况。
在过程700的框712处,可确定用户话语(或用户话语的文本表示)是否包括模糊术语。可在自然语言处理(例如,使用自然语言处理模块432)期间作出确定以确定用户意图。模糊术语可以是具有多于一个可能的解译的字词或短语。例如,参考图8A,用户话语“Paris现在是几点?”中的术语“Paris”可被解译为法国的“Paris”或是美国得克萨斯州的“Paris”。因此,用户话语中的术语“Paris”可被确定为是模糊术语。
在一些示例中,可(例如,由数字助理)检索上下文信息来对模糊术语潜在地消歧。如果成功消除歧义,则可确定用户话语不包括模糊术语。例如,可确定媒体内容802是将法国的“Paris”作为设置的电影(例如,“Ratatouille”),因此用户更可能指的是法国的“Paris”,而不是得克萨斯州的“Paris”。在该示例中,术语“Paris”可被成功地消歧以指示法国的“Paris”,并且因此可确定用户话语不包括模糊术语。
在另一个示例中,用户话语可以是“播放这个。”。在该示例中,用户话语没有明确定义要播放的特定媒体项,因此单独解译的术语“这个”可以是能够指代媒体设备可访问的任何媒体项的模糊术语。可使用由媒体设备在显示单元上显示的上下文信息来消除该术语的歧义。例如,数字助理可确定所显示的用户界面的焦点是否位于一个媒体项上。根据确定用户界面的焦点位于媒体项上,数字助理可对术语“这个”消歧,并确定该术语指的是所显示的用户界面所聚焦的媒体项。基于该确定,可在框712处确定用户话语不包括模糊术语。因此,可将用户意图确定为用于播放所显示的用户界面所聚焦的媒体项的请求。
在不能消除术语歧义的示例中,可在框712处确定用户话语包含模糊术语。响应于确定用户话语包括模糊术语,可执行框714至框718中的一个或多个框。在过程700的框714处,可基于模糊术语来获取两个或更多个候选用户意图。该两个或更多个候选用户意图可以是从不能消歧的用户话语确定的最可能的候选用户意图。参考图8A所示的示例,两个或更多个候选用户意图可包括请求法国“Paris”的时间的第一候选用户意图,以及请求得克萨斯州“Paris”的时间的第二候选用户意图。
在过程700的框716处,可在显示单元上显示两个或更多个候选用户意图以供用户选择。例如,参考图8B,可显示第一候选用户意图810和第二候选用户意图808。此外,可提供文本提示806以通过在第一候选用户意图810和第二候选用户意图808之间进行选择,从而提示用户指示与用户话语对应的实际用户意图。文本提示806、第一候选用户意图810和第二候选用户意图808覆盖在媒体内容802上。
在过程700的框716处,可接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择。在一些示例中,可通过选择与候选用户意图中的一个候选用户意图对应的示能表示来接收用户选择。具体地,如图8B所示,两个或更多个候选用户意图810,808中的每个候选用户意图可在显示单元上被显示为可选择示能表示。媒体设备可(例如,经由媒体设备的遥控器)从用户接收输入,以将显示器的焦点改变至示能表示中的一个示能表示。然后可(例如,经由媒体设备的遥控器)接收对与该示能表示对应的候选用户意图的用户选择。例如,如图8B所示,媒体设备可接收用户输入,以在与第一候选用户意图810(例如,法国的“Paris”)对应的示能表示上方移动光标812。然后可接收对第一候选用户意图810的用户选择。
在其他示例中,可经由与数字助理的语音交互来接收用户选择。例如,在显示两个或更多个候选用户意图时,可检测第二用户输入。第二用户输入可与框704的用户输入相似或相同。具体地,第二用户输入可以是调用数字助理的输入(例如,按压媒体设备的遥控器上的特定按钮,并按住按钮超过预先确定的持续时间)。响应于检测到第二用户输入,可对第二音频数据进行采样。第二音频数据可包括表示对两个或更多个解译中的一个解译的用户选择的第二用户话语。例如,参考图8C,第二音频数据可包括第二用户话语“法国的‘Paris’”。如图所示,第二用户话语“法国的‘Paris’”的文本表示814可被显示在显示单元上。在该示例中,第二用户话语“法国的‘Paris’”可表示对第一候选用户意图810(例如,法国的“Paris”)的用户选择。基于第二用户话语“法国的‘Paris’”,可确定第一候选用户意图810是与用户话语“Paris现在是几点?”对应的实际用户意图。因此,可在框710处确定用户意图是在请求法国的“Paris”的时间。在基于所接收的用户选择来确定用户意图时,可执行框720至框746中的一个或多个框。
在一些示例中,可在不输出来自媒体设备的语音的情况下执行框710至框718。具体地,在不输出与两个或更多个候选用户意图808,810相关联的语音的情况下,可显示文本提示806和候选用户意图808,810。因此,可通过语音的形式从用户接收输入,但是可在显示单元上向用户可视地(而不是以音频的形式)呈现来自数字助理的输出。这样可保持与消费媒体内容相关联的公共体验从而可改善媒体设备的用户体验是可取的。
再次参考框712,响应于确定用户话语不包括模糊术语,可执行框720至框746中的一个或多个框。在过程700的框720处,可确定用户意图是否对应于与媒体设备相关联的多个核心竞争力中的一个预先确定的核心竞争力。例如,媒体设备可与若干个预先确定的核心竞争力相关联,诸如例如搜索媒体项、播放媒体项,以及提供与媒体项、天气、股市和体育相关的信息。如果用户意图涉及执行与若干个预先确定的核心竞争力中的一个预先确定的核心竞争力相关的任务,则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如,如果用户意图是对由Reese Witherspoon主演的媒体项的请求,则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力,可执行框724至框746中的一个或多个框。
相反,如果用户意图涉及执行若干个预先确定的核心竞争力之外的任务,则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如,如果用户意图是对地图方向的请求,则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力,可执行框722。
在过程700的框722处,可使得第二电子设备(例如,设备122)至少部分地满足用户意图。具体地,可使得第二电子设备执行促成满足用户意图的任务。在一个示例中,可确定媒体设备未被配置为满足请求地图方向的用户意图,并且因此用户意图可被传输至第二电子设备以满足该用户意图。在该示例中,第二用户设备可执行用于显示所请求的地图方向的任务。在其他示例中,用户意图之外的信息可被传输至第二电子设备,以使得第二电子设备执行用于促成满足用户意图的任务。例如,媒体设备的数字助理可确定(例如,使用自然语言处理模块432或任务流处理模块436)满足用户意图的任务流或结构化查询,并且可将该任务流或结构化查询传输至第二电子设备。然后,第二电子设备可执行任务流或结构化查询,以促成满足用户意图。
如在下面提供的描述中将变得显而易见的,与满足用户意图相关联的干扰水平可基于用户意图的性质。在某些情况下,可执行与满足用户意图相关联的任务,而不在显示器上显示任何附加响应或输出(例如,框726)。在其他情况下,仅提供文本响应(例如,没有对应的视觉或音频输出)来满足用户意图(例如,框732)。在其他情况下,可显示包含相关结果的用户界面来满足用户意图(例如,框738,742或746)。用户界面可占据显示单元的大部分面积或一小部分面积。因此,过程700可根据用户意图的性质来智能地调整输出的干扰水平。这使得能够方便地访问数字助理的服务,同时减少消费媒体内容期间的不期望的干扰,从而改善整体用户体验。
在过程700的框724处,可确定用户意图是否包括用于调整媒体设备上的应用程序的状态或设置的请求。响应于确定用户意图包括用于调整媒体设备上的应用程序的状态或设置的请求,可执行框726。在过程700的框726处,可调整应用程序的状态或设置来满足用户意图。
在一些示例中,状态或设置可与正在媒体设备上播放的所显示的媒体内容相关联。例如,用于调整应用程序的状态或设置的请求可包括用于控制媒体设备播放媒体内容的请求。具体地,其可包括用于使对媒体设备上的所显示的媒体内容的播放进行暂停、恢复、重新启动、停止、快退或快进的请求。其还可包括用于在媒体内容中向前或向后(例如,以指定的持续时间)跳过以便播放媒体内容的所需部分的请求。此外,用于调整应用程序的状态或设置的请求可包括用于打开/关闭与所显示的媒体内容相关联的(例如,指定语言的)字幕或隐藏式字幕的请求、用于增加/减少与所显示的媒体内容相关联的音频的音量的请求、用于使得与所显示的媒体内容相关联的音频静音/取消静音的请求,或者用于加快/减慢所显示的媒体内容播放的速率的请求。
图8E至图8F示出了包括用于控制媒体设备播放媒体内容的请求的用户意图的示例性示例。在该示例中,可在播放媒体内容802时调用数字助理(例如,在框704处)。可在最初不显示字幕的情况下显示媒体内容。经采样的音频数据(例如,在框706处)可包含用户话语“打开英文字幕。”。如图8E所示,可在显示单元上显示用户话语的文本表示816。基于该用户话语,可在框710处确定用户意图包括用于打开媒体内容802的英文字幕的显示的请求。此外,在框724处,可确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定,可打开媒体内容802的英文字幕。如图8F中的标签817所示,可发起对与媒体内容802相关联的英文字幕的显示,以满足用户意图。
在图8G至图8H中示出的另一示例性示例中,经采样的音频数据中的用户话语可以是自然语言表达,从而指示用户未听到与媒体内容相关联的音频的一部分。具体地,如图8G中的文本表示820所示,该用户话语可以是“他说了什么?”。在该示例中,可(例如,在框710处)确定用户意图包括用于重放与用户未听到的音频的一部分对应的媒体内容的一部分的请求。还可确定用户意图包括用于打开隐藏式字幕以对难以听到与媒体内容相关联的音频起辅助作用的请求。此外,基于用户话语中的韵律信息,可确定用户是沮丧的或不耐烦的,并且因此可基于用户情绪来确定用户意图包括用于增加与媒体内容相关联的音频的音量的请求。在框724处,可确定这些用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定,可使媒体内容快退预先确定的持续时间(例如,15秒)到达媒体内容的先前部分,并且可从该先前部分(例如,图8H中的标签822所示)重新开始回放媒体内容。此外,在从先前部分重新开始回放媒体内容之前,可打开隐藏式字幕(例如,图8H中的标签824所示)。此外,在从先前部分重新开始回放媒体内容之前,可增加与媒体内容相关联的音频的音量。
应当理解,可从服务提供方(例如,有线提供方或媒体订阅服务)获取与媒体内容相关联的隐藏式字幕或字幕。然而,在无法从服务提供方获取隐藏式字幕或字幕的示例中,媒体设备可生成隐藏式字幕或字幕,以对难以听到与媒体内容相关联的音频起到辅助作用。例如,在接收经采样的音频数据中的用户话语之前以及在播放媒体内容时,可将与媒体内容相关联的音频中的语音(例如,使用STT处理模块730)连续地转换成文本并且与媒体内容相关联地存储。响应于用于重放用户未听到的媒体内容的先前部分的用户请求,可在重放媒体内容的先前部分时,检索并显示与正在重放的先前部分对应的文本。
在一些示例中,可调整与所显示的媒体内容相关联的状态或设置而不显示用于执行调整的附加用户界面,或者不提供用于表示确认正在调整状态或设置的任何文本或图形。例如,在图8E至图8H所示出的示例中,字幕(或隐藏式字幕)可简单地打开而不明确显示文本诸如“已打开字幕”,或不显示用于控制字幕显示的用户界面。此外,可调整状态或设置,而不输出与满足用户意图相关联的任何音频。例如,在图8E至图8H中,字幕(或隐藏式字幕)可打开,而无需输出用于确认字幕已打开的音频(例如,语音信号或非言语音频信号)。因此,可简单地执行所请求的动作,而不对媒体内容造成附加音频或视觉干扰。这样,过程700可使对用户对媒体内容的消费的干扰最小化,同时提供对数字助理服务的便捷访问,从而改善用户体验。
在其他示例中,用于调整媒体设备上的应用程序的状态或设置的请求可包括用于在媒体设备的用户界面(例如,第二用户界面818、第三用户界面826或主菜单用户界面)中进行导航的请求。在一个示例中,在用户界面中进行导航的请求可包括用于将用户界面的焦点从第一对象(例如,第一媒体项)切换至用户界面中的第二对象(例如,第二媒体项)的请求。图8I至图8K示出了此类请求的示例性示例。如图8I所示,所显示的内容可包括第三用户界面826,其具有按各种类别进行组织(例如,“浪漫喜剧”、“由Reese Witherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”)的多个媒体项。如光标828的位置所示,第三用户界面826的焦点可位于被归类为“浪漫喜剧”的第一媒体项830上。第二媒体项832的标题可为“Legally Blonde”,并且可被定位在“由Reese Witherspoon主演的浪漫喜剧”的类别中。如图8J中的文本表示834所示,经采样的音频数据中的用户话语(例如,在框706处)可以是“转到Legally Blonde。”。基于该用户话语,可(例如,在框710处)确定用户意图是用于将第三用户界面826的焦点从第一媒体项830切换至标题为“Legally Blonde”的第二媒体项832的请求。响应于(例如,在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求,可将第三用户界面826的焦点从第一媒体项830切换至第二媒体项832。例如,如图8K所示,光标828的位置可从第一媒体项830改变至第二媒体项832。
在另一示例中,用于在用户界面中导航的请求可包括用于将用户界面的焦点改变为在用户界面中显示的特定类别的结果的请求。例如,图8I包括与“浪漫喜剧”、“由ReeseWitherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”等类别相关联的媒体项。取代“转到Legally Blonde”,经采样的音频数据中的用户话语可以是“跳转到由ReeseWitherspoon主演的浪漫喜剧。”。基于该用户话语,可(例如,在框710处)确定“由ReeseWitherspoon主演的浪漫喜剧”定义了在第三用户界面826中显示的媒体项的类别,并且因此可确定用户意图是用于将用户界面的焦点改变为与该类别相关联的一个或多个媒体项的请求。响应于(例如,在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求,可将第三用户界面826的焦点转移至与类别相关联的一个或多个媒体项。例如,如图8K所示,光标828的位置可转移至与“由Reese Witherspoon主演的浪漫喜剧”相关联的第二媒体项832。
在其他示例中,用于在媒体设备的用户界面中进行导航的请求可包括用于在用户界面中选择对象的请求。对对象的选择可导致与将要执行的对象相关联的动作。例如,如图8K所示,光标828的位置位于标题为“Legally Blonde”的第二媒体项832上。如图8L所示,可(例如,在框704处)调用数字助理,并且经采样的音频数据中的用户话语(例如,在框706处)可以是“播放这个”(例如,显示为文本表示836)。基于该用户话语,可(例如,在框710处)确定用户意图是用于播放特定媒体项的请求。在该示例中,用户话语没有明确定义或识别要播放的特定媒体项。具体地,词语“这个”是模糊的。然而,数字助理可获取上下文信息以对用户意图消歧。例如,可确定在对音频数据进行采样时第三用户界面826的焦点位于第二媒体项832上。基于该确定,可识别第二媒体项832是要播放的媒体项。响应于(例如,在框724处)确定播放第二媒体项832的用户意图是用于调整电子设备的应用程序的状态或设置的请求,可执行用于促成播放第二媒体项832的动作。例如,关于第二媒体项832的预览信息可被显示在显示单元上。预览信息可包括例如简要的剧情摘要、演员列表、发行日期、用户评级等。除此之外或作为另外一种选择,第二媒体项832可在媒体设备上播放,并且与第二媒体项832相关联的媒体内容可被显示在显示单元上(例如,图8M中的文本838“正在播放Legally Blonde”所示)。应当认识到,在其他示例中,可明确识别要选择的媒体项。例如,除了“播放这个”之外,用户话语可具体声明“播放Legally Blonde”,并且可执行用于促成播放第二媒体项832的类似的动作。
在其他示例中,用于在媒体设备的用户界面中进行导航的请求可包括用于观看媒体设备的特定用户界面或应用程序的请求。例如,经采样的音频数据中的用户话语可以是“转到演员页面”,其中用户意图包括y'y根据特定演员来显示与浏览媒体项相关联的用户界面的请求。在另一示例中,经采样的音频数据中的用户话语可以是“返回主页”,其中用户意图包括用于显示媒体设备的主菜单用户界面的请求。在又一个示例中,用于在媒体设备的用户界面中进行导航的请求可包括用于在电子设备上启动应用程序的请求。例如,经采样的音频数据中的用户话语可以是“转到iTunes Store”,其中用户意图包括用于启动iTunes Store应用程序的请求。应当认识到,可预期用于调整媒体设备上的应用程序的状态或设置的其他请求。
再次参考框724,可确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求。例如,用户意图可替代为用于呈现与一个或多个媒体项相关的信息的请求。响应于此类确定,可执行框728至框746中的一个或多个框。在过程700的框728处,可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。在一些示例中,多个预先确定的请求类型可以是与纯文本响应相关联的请求。更具体地,多个预先确定的请求类型可以是对被预先确定以要求纯文本响应的信息的请求。这与用于被预先确定以要求包括媒体对象(例如,图像、动画对象、视频等)的响应的请求形成对比。在一些示例中,多个预先确定的请求类型可包括对特定位置当前时间的请求(例如,“Paris现在是几点?”)、呈现笑话的请求(例如,“给我讲个有趣的笑话。”),或对关于当前在电子设备上播放的媒体内容的信息的请求(例如,“这部电影是什么时候发行的?”)。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型,可执行框730至框732中的一个或多个框。
在过程700的框730处,可获取至少部分地满足用户意图的结果。例如,可通过执行任务流来从外部服务(例如,外部服务120)获取结果。在过程700的框732处,在框730处获取的结果可以文本形式而被显示在显示单元上。此外,可通过文本形式来显示结果,而不显示与结果对应的任何对应的图形或媒体相关的项目。
图8M至图8P示出了框728至框732的示例性示例。如图8M所示,电影“LegallyBlonde”最初可在媒体设备上播放并被显示在显示单元上。在播放“Legally Blonde”时,可(例如,在框704处)调用数字助理,并且经采样的音频数据中的用户话语可以是“女主演是谁?”。例如,如图8N所示,可在显示单元上显示用户话语的文本表示840。基于该用户话语,可(例如,在框710处)确定用户意图包括用于识别特定媒体项的女主演的请求。由于用户话语未指定任何特定媒体项,因此用户意图可能是模糊的。然而,基于在对音频数据进行采样时显示的电影“Legally Blonde”,可确定与用户意图相关联的媒体项是“LegallyBlonde”。在该示例中,可(例如,在框728处)确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型。具体地,可确定可提供纯文本响应来满足识别Legally Blonde中的女主演的用户意图。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型,可(例如,在框730处)在媒体相关数据库中执行搜索,以获取电影“LegallyBlonde”中的女主演是“Reese Witherspoon”的结果。如图8P所示,纯文本结果842“ReeseWitherspoon”可被显示在显示单元上,以满足用户意图。纯文本结果842可覆盖在所显示的“Legally Blonde”的媒体内容上。此外,在显示纯文本结果842时,“Legally Blonde”的媒体内容可继续播放。通过显示纯文本结果842(例如,不显示图形结果或附加的用户界面来满足用户意图),可通过不惹眼的方式来满足用户意图,并且尽量减少干扰用户对媒体内容的消费。同时,向用户提供对数字助理服务的访问。这对于改善用户体验是可取的。
再次参考框728,可确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型。具体地,用户意图可以是被预先确定为要求多于文本结果来进行满足的请求类型。例如,用户意图可以是用于执行媒体搜索查询并显示与媒体搜索查询对应的媒体项的请求。在其他示例中,用户意图可以是对除媒体项之外的信息的请求。例如,用户意图可以是对与以下各项相关联的信息的请求,包括:运动队(例如,“L.A.Lakers在他们的最后一场比赛中表现如何?”)、运动员(例如,“LeBron James有多高?”)、股市(例如,“昨天的道琼斯指数收盘价是多少?”),或天气(例如,“法国‘Paris’下周的天气预报如何?”)。响应于确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型,可执行框734至框746中的一个或多个框。
在过程700的框734处,可获取至少部分地满足用户意图的第二结果。框734可与上述框534相似或相同。在一个示例中,用户意图可包括用于执行媒体搜索查询的请求。在该示例中,可在框734处执行媒体搜索查询以获取第二结果。具体地,第二结果可包括与媒体搜索查询对应的媒体项。
在一些示例中,用户意图可以不是媒体搜索查询。例如,用户意图可以是用于提供法国“Paris”的天气预报的请求(例如,法国“Paris”的天气预报如何?)。在该示例中,在框734处获取的第二结果可包括法国“Paris”未来7天的天气预报。第二结果可包括至少部分地满足用户意图的非媒体数据。具体地,法国“Paris”未来7天的天气预报可包括文本数据(例如,日期、温度和天气状况的简要描述)和图形图像(例如,晴天、多云、有风或有雨的图像)。此外,在一些示例中,可在框710处扩展用户意图的范围,以包括对至少部分地满足用户意图的媒体项的请求。在这些示例中,在框734处获取的第二结果可还包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。例如,在框734处可在相关时间段针对法国“Paris”的天气预报执行媒体搜索查询,并且可获取与法国“Paris”的天气预报相关的一个或多个媒体项。一个或多个媒体项可包括例如来自呈现法国“Paris”的天气预报的天气频道的视频剪辑。在这些示例中,非媒体数据和/或一个或多个媒体项可(例如,在下面描述的框738、框742或框746处)在所显示单元上的用户界面中显示。
在过程700的框736处,可确定所显示的内容是否包括在电子设备上播放的媒体内容。在一些示例中,可确定所显示的内容不包括在电子设备上播放的媒体内容。例如,所显示的内容可替代地包括用户界面,诸如主菜单用户界面或第三用户界面(例如,第三用户界面826)。第三用户界面可至少占据显示单元的大部分显示区域。此外,第三用户界面可包括与在框704处检测用户输入之前所接收的先前用户请求相关的先前结果。根据确定所显示的内容不包括媒体内容,可执行框738。
在过程700的框738处,可在显示单元上的第三用户界面中显示第二结果的一部分。在接收到框704处的用户输入时所显示的内容已包括第三用户界面的示例中,可利用对第三用户界面中的第二结果的一部分的显示来替换对与先前的用户请求相关的先前结果的显示。在接收到框704处的用户输入时所显示的内容不包括第三用户界面(例如,所显示的内容包括主菜单用户界面)的示例中,可显示第三用户界面并且第二结果可被包括在所显示的第三用户界面中。
在一些示例中,可确定第二结果是否包括预先确定类型的结果。预先确定类型的结果可与显示单元的一小部分显示区域相关联。预先确定类型的结果可包括例如与股市或天气相关的结果。应当认识到,在其他示例中,预先确定类型的结果可变化。响应于确定第二结果包括预先确定类型的结果,可在显示单元上的第二用户界面中显示第二结果的一部分。第二用户界面可占据显示单元的一小部分显示区域。在这些示例中,虽然在框736处确定所显示的内容不包括媒体内容,但在第二用户界面中可显示第二结果的一部分。
图8Q至图8S示出了框734至框738的示例性示例。在该示例中,如图8Q所示,所显示的内容最初可包括第三用户界面826。第三用户界面826可包括来自先前用户请求的先前结果。具体地,第三用户界面826包括来自先前请求的媒体搜索查询的媒体项844。如图8R所示,在显示第三用户界面826时,可(例如,在框704处)调用数字助理。经采样的音频数据中的用户话语可包括“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。在该示例中,可(例如,在框710处)确定用户意图是对Luke Wilson主演的电影执行媒体搜索查询的请求。可(例如,在框734处)执行媒体搜索查询来获取第二结果。具体地,第二结果可包括与由Luke Wilson主演的电影对应的媒体项848。此外,可获取与用户意图或先前的用户意图有关的附加结果(例如,媒体项850)。可通过与框544中描述的获取第二结果的方式类似的方式来获取这些附加结果。
在图8Q至图8S的本示例中,所显示的内容仅包括第三用户界面826,因此可(例如,在框736处)确定所显示的内容不包括在电子设备上播放的媒体内容。响应于该确定,第二结果可在第三用户界面826中显示。具体地,如图8S所示,可利用对第三用户界面826中的媒体项848的显示来替换对第三用户界面826中的媒体项844的显示。此外,媒体项850可在第三用户界面826中显示。
如该示例中所示,只有在确定媒体内容未在显示单元上显示之后,才可在第三用户界面中呈现第二结果。这允许在较大区域中显示范围较宽的结果,从而增加满足用户实际意图的概率。同时,通过确保在第三用户界面中呈现第二结果之前在显示单元上没有正在显示的媒体内容来避免干扰用户对媒体内容的消费。
再次参考框736,所显示的内容可包括正在媒体设备上播放的媒体内容。在这些示例中,可确定所显示的内容包括在媒体设备上播放的媒体内容。根据该确定,可执行框740至框746中的一个或多个框。
在过程700的框740处,可确定正在播放的媒体内容是否可被暂停。可被暂停的媒体内容的示例可包括点播的媒体项,诸如点播的电影和电视节目。不能被暂停的媒体内容的示例可包括广播或流服务的媒体节目和直播的媒体节目(例如,体育赛事、音乐会等)。因此,点播的媒体项可不包括广播或直播的节目。根据在框740处确定正在播放的媒体内容不能被暂停,可执行框742。在过程700的框742处,可在显示单元上显示具有第二结果的一部分的第二用户界面。框742可类似于上述框536。可在显示媒体内容时显示第二用户界面。第二用户界面在显示单元上占据的显示区域可小于媒体内容在显示单元上占据的显示区域。根据确定正在播放的媒体内容可被暂停,可执行框744至框746中的一个或多个框。在过程700的框744处,可在媒体设备上暂停正在播放的媒体内容。在过程700的框746处,可显示具有第二结果的一部分的第三用户界面。可在媒体内容暂停时显示第三用户界面。
图8T至图8W示出了框740至框746的示例性示例。如图8T所示,可在显示单元上显示在媒体设备上播放的媒体内容802。在显示媒体内容802时,可(例如,在框704处)激活数字助理。经采样的音频数据中的用户话语可以是“为我显示由Luke Wilson主演的电影。”。用户话语的文本c表示846可在显示单元上显示。如上所述,可(例如,在框710处)确定用户意图是用于获取由Luke Wilson主演的电影的媒体项的请求。可(例如,在框734处)执行对应媒体搜索查询来获取第二结果。第二结果可包括作为由Luke Wilson主演的电影的媒体项848。在(例如,在框744处)确定媒体内容802不能被暂停的示例中,可在第二用户界面818中显示媒体项848,同时在显示单元上继续显示媒体内容802(例如,图8U)。在第二用户界面818中显示媒体项848是可取的,使得在显示媒体项848时媒体内容802能够持续用于用户消费,从而满足用户意图。这防止用户错过不能被暂停或重放的媒体内容802的任何部分。作为另外一种选择,在(例如,在框744处)确定媒体内容802可被暂停的示例中,可暂停播放媒体设备上的媒体内容802,并且可在显示单元上的第三用户界面826中显示媒体项848(例如,图8S)。显示第三用户界面826是可取的,使得与各种另选用户意图(例如,媒体项850)相关联的范围更广的媒体项能够与所请求的媒体项(例如,媒体项848)一起显示,从而增加满足用户实际意图的可能性。同时,媒体内容802被暂停,使得用户不会错过媒体内容802的任何部分。通过基于媒体内容802是否可被暂停来改变用于显示媒体项848的用户界面可完全实现与用户话语相关联的用户意图,同时减少干扰用户对媒体内容802的消费。这样可改善整体用户体验。
在一些示例中,如图8V所示,除了在媒体设备上播放的媒体内容802之外,所显示的内容还可包括第二用户界面818。在这些示例中,第二用户界面818可包括与先前的用户请求(例如,对由Reese Witherspoon主演的浪漫喜剧的请求)相关的媒体项852。在显示媒体内容802和第二用户界面818时,可(例如,在框704处)调用数字助理。如图8W所示,经采样的音频数据可包括用户话语“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。基于该用户话语,可(例如,在框710处)确定用户意图是用于获取作为由Luke Wilson主演的电影的媒体项的请求。可(例如,在框734处)执行对应媒体搜索查询来获取第二结果(例如,媒体项848)。在这些示例中,第二用户界面818中的媒体项852的显示可被替换成媒体项848的显示(例如,图8U)。
图9示出了根据各种示例的用于与媒体系统的数字助理进行交互的过程900。可使用实现数字助理的一个或多个电子设备来执行过程900。例如,可使用上述系统100、媒体系统128、媒体设备104、用户设备122、或数字助理系统400中的一者或多者来执行过程900。应当理解,过程900中的一些操作可被组合、一些操作的顺序可被改变,并且一些操作可被省略。
在过程900的框902处,可在显示单元上显示内容。框902可与上述框502相似或相同。在一些示例中,所显示的内容可包括媒体内容(例如,电影、视频、电视节目、视频游戏等)。除此之外或作为另外一种选择,所显示的内容可包括用户界面。例如,所显示的内容可包括具有一个或多个示例性自然语言请求(例如,如图6D至图6E所示)的第一用户界面。在其他示例中,所显示的内容可包括具有来自先前用户请求的结果(例如,先前请求的媒体项)的第三用户界面(例如,第三用户界面626)。第三用户界面可至少占据显示单元的大部分显示区域。
在过程900的框904处,在显示框902的内容时可检测用户输入。该用户输入可与框558处描述的第五用户输入类似或相同。具体地,可在媒体设备的遥控器上检测用户输入。例如,用户输入可包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中,可经由不同于媒体设备的第二电子设备(例如,设备122)来检测用户输入。该第二电子设备可被配置为以无线方式来控制媒体设备。响应于检测到用户输入,可执行框906至框914中的一个或多个框。
在过程900的框906处,可在显示单元上显示虚拟键盘界面(例如,虚拟键盘界面646)。框906可与上述框562相似或相同。虚拟键盘界面可覆盖在第一用户界面或第三用户界面的至少一部分上。此外,可在显示单元上显示搜索字段(例如,搜索字段644)。虚拟键盘界面可被配置为使得经由虚拟键盘界面接收的用户输入导致搜索字段中的文本输入。
在过程900的框908处,可使可选择示能表示是被显示在第二电子设备上(例如,被显示在设备122的触摸屏346上)。第二电子设备可以是与媒体设备的遥控器不同的设备。对示能表示的选择可使得能够由媒体设备经由第二电子设备的键盘来接收文本输入。例如,对示能表示的选择可使得虚拟键盘界面(例如,类似于虚拟键盘界面646)在第二电子设备上显示。向第二电子设备的虚拟键盘界面的输入可使得在搜索字段(例如,搜索字段644)中输入对应文本。
在过程900的框910处,可经由第二电子设备的键盘(例如,虚拟键盘界面)来接收文本输入。具体地,用户可经由第二电子设备的键盘来输入文本,并且文本输入可被传输到媒体设备并由媒体设备接收。该文本输入可表示用户请求。例如,文本输入可以是可表示对与搜索字符串“Jurassic Park”相关联的媒体项执行搜索的请求的“Jurassic Park”。
在过程900的框912处,可获取至少部分地满足用户请求的结果。例如,可使用文本输入来执行媒体搜索,并且可获取对应媒体项。在文本输入是“Jurassic Park”的特定示例中,可获取标题为“Jurassic Park”或具有与电影“Jurassic Park”相同的演员或导演的媒体项。在文本输入是“Reese Witherspoon”的另一示例中,可获取其中具有女演员ReeseWitherspoon的媒体项。
在过程900的框914处,可在显示单元上显示用户界面。用户界面可包括结果的至少一部分。例如,用户界面可包括作为框912处执行的媒体搜索的结果而获取的媒体项。
虽然上面将过程500、过程700和过程900的某些框描述为由设备或系统(例如,媒体设备104、用户设备122或数字助理系统400)执行,但是应当认识到,在一些示例中,可将多于一个设备用于执行框。例如,在作出确定的框中,第一设备(例如,媒体设备104)可从第二设备(例如,服务器系统108)获取确定。类似地,在显示内容、对象、文本或用户界面的框中,第一设备(例如,媒体设备104)可使得内容、对象、文本或用户界面显示在第二设备上(例如,显示单元126)。
5.电子设备
根据一些示例,图10示出了电子设备1000的功能框图,该电子设备根据所描述的各种示例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图10中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。
如图10所示,电子设备1000可包括:被配置为接收用户输入诸如触觉输入、手势输入的输入单元1003(例如,遥控器124等);被配置为接收音频数据的音频输入单元1004(例如,麦克风272等);被配置为输出音频的扬声器单元106(例如,扬声器268等);以及被配置为经由网络来从外部设备发送和接收信息的通信单元1007(例如,通信子系统224等)。在一些示例中,电子设备1000可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1002(例如,显示单元126等)。电子设备1000还可包括耦接至输入单元1003、音频输入单元1004、扬声器单元1006、通信单元1007、以及可选的显示单元1002的处理单元1008。在一些示例中,该处理单元1008可包括显示启用单元1010、检测单元1012、确定单元1014、采样单元1016、输出单元1018、执行单元1020、获取单元1022、和切换单元1024。
根据一些实施方案,该处理单元1008被配置为在显示单元(例如,显示单元1002或独立显示单元)上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为确定用户输入是否对应于第一输入类型(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型而在显示单元上显示多个示例性自然语言请求(例如,显示启用单元1010)。多个示例性自然语言请求与所显示的内容上下文相关,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。
在一些示例中,在电子设备的遥控器上检测用户输入。在一些示例中,第一输入类型包括按压遥控器的按钮,并在预先确定的持续时间内释放按钮。在一些示例中,多个示例性自然语言请求经由第一用户界面而被显示在显示单元上,并且第一用户界面覆盖在所显示的内容上。在一些示例中,所显示的内容包括媒体内容,并且在显示多个示例性自然语言请求时媒体内容继续播放。
在一些示例中,该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型,在显示单元上显示视觉指示符(例如,利用显示启用单元1010),从而指示数字助理并未正在处理音频输入。
在一些示例中,在确定用户输入对应于第一输入类型时,在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。在一些示例中,多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序在不同的时间单独显示。
在一些示例中,该处理单元1008被进一步配置为显示示例性自然语言请求的多个列(例如,利用显示启用单元1010)表,其中每个列表在不同的时间轮番显示。
在一些示例中,该处理单元1008被进一步配置为根据确定用户输入不对应于第一输入类型,确定用户输入是否对应于第二输入类型(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型,对音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为确定音频数据是否包含用户请求(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定音频数据包含用户请求而执行至少部分地满足用户请求的任务(例如,利用执行单元1020)。
在一些示例中,第二输入类型包括按压电子设备遥控器的按钮并按住按钮超过预先确定的持续时间。
在一些示例中,该处理单元1008被进一步配置为根据确定音频数据不包含用户请求而在显示单元上显示用于澄清用户意图的请求(例如,利用显示启用单元1010)。
在一些示例中,所显示的内容包括媒体内容,并且在对音频数据进行采样以及在执行任务时该媒体内容在电子设备上继续播放。
在一些示例中,该处理单元1008被进一步配置为输出(例如,利用输出单元1018)与媒体内容相关联的音频(例如,使用扬声器单元1006)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型而减小音频振幅(例如,利用输出单元1018)。
在一些示例中,执行任务而不从电子设备输出与任务相关的语音。在一些示例中,在检测用户输入时对音频数据进行采样。在一些示例中,在检测到用户输入之后,在预先确定的持续时间内对音频数据进行采样。
在一些示例中,经由电子设备遥控器上的第一麦克风来对音频数据进行采样(例如,音频输入单元1004)。该处理单元1008被进一步配置为在对音频数据进行采样时经由遥控器上的第二麦克风(例如,电子设备1000的第二音频输入单元)来对背景音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为使用背景音频数据来消除音频数据中的背景噪声(例如,利用输出单元1018)。
在一些示例中,与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出。该处理单元1008被进一步配置为使用音频信号来消除音频数据中的背景噪声(例如,利用输出单元1018)。
在一些示例中,该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用于提示用户提供口头请求的视觉提示(例如,利用显示启用单元1010)。
在一些示例中,该处理单元1008被进一步配置为(例如,利用获取单元1022)获取至少部分地满足用户请求的结果。该处理单元1008被进一步配置为在显示单元上显示第二用户界面(例如,利用显示启用单元1010)。该第二用户界面包括结果的一部分,其中在显示第二用户界面时继续显示内容的至少一部分,并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。在一些示例中,第二用户界面覆盖在所显示的内容上。
在一些示例中,该结果的该一部分包括一个或多个媒体项。该处理单元1008被进一步配置为经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择(例如,利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与所选择的媒体项相关联的媒体内容(例如,利用显示启用单元1010)。
在一些示例中,该处理单元1008被进一步配置为在显示第二用户界面时检测第二用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而停止显示第二用户界面(例如,利用显示启用单元1010)。
在一些示例中,在电子设备的遥控器上检测第二用户输入。该第二用户输入包括遥控器触敏表面上的第一预先确定的动作模式。
在一些示例中,该处理单元1008被进一步配置为在显示第二用户界面时检测第三用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而利用对第三用户界面的显示来替换对显示单元上的第二用户界面的显示(例如,利用显示启用单元1010)。第三用户界面包括结果的至少一部分,并且第三用户界面占据显示单元的至少大部分显示区域。
在一些示例中,在电子设备的遥控器上检测第三用户输入,并且第三用户输入包括遥控器触敏表面上的第二预先确定的动作模式。
在一些示例中,该处理单元1008被进一步配置为响应于检测到第三用户输入而获取与该结果不同的第二结果(例如,利用获取单元1022)。该第二结果至少部分地满足用户请求,并且第三用户界面包括第二结果的至少一部分。
在一些示例中,第二结果基于在检测用户输入之前所接收的用户请求。在一些示例中,在检测到第三用户输入时,第二用户界面的焦点在结果的一部分的项目上,并且第二结果与该项目上下文相关。
在一些示例中,所显示的内容包括媒体内容。该处理单元1008被进一步配置为响应于检测到第三用户输入而暂停播放电子设备上的媒体内容(例如,利用执行单元1020)。
在一些示例中,结果的至少一部分包括一个或多个媒体项。该处理单元1008被进一步配置为经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择(例如,利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与媒体项相关联的媒体内容(例如,利用显示启用单元1010)。
在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测与显示单元上的方向相关联的第四用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第四用户输入而将第三用户界面的焦点从第一项目切换至第三用户界面上的第二项目(例如,利用切换单元1024)。该第二项目可被定位在相对于第一项目的方向上。
在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测第五用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第五用户输入而显示搜索字段(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为在显示单元显示虚拟键盘界面上(例如,利用显示启用单元1010),其中经由虚拟键盘界面接收的输入导致搜索字段中的文本输入。
在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测第六用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第六用户输入而对第二音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。该第二音频数据包含第二用户请求。该处理单元1008被进一步配置为确定第二用户请求是否是有用于细化用户请求的结果的请求(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定第二用户请求是用于细化用户请求的结果的请求,经由第三用户界面来显示结果的子组(例如,利用显示启用单元1010)。
在一些示例中,结果的子组被显示在第三用户界面的顶行处。该处理单元1008被进一步配置为根据确定第二用户请求不是用于细化用户请求的结果的请求,取至少部分地满足第二用户请求的第三结果(例如,利用获取单元1018)获。该处理单元1008被进一步配置为经由第三用户界面来显示第三结果的一部分(例如,利用显示启用单元101)。在一些示例中,该第三结果的一部分被显示在第三用户界面的顶行处。
在一些示例中,该处理单元1008被进一步配置为获取至少部分地满足用户请求或第二用户请求的第四结果(例如,利用获取单元1022)。该处理单元1008被进一步配置为经由第三用户界面来显示第四结果的一部分(例如,利用显示启用单元1010)。
在一些示例中,该第四结果的一部分被显示在第三用户界面顶行之后的行处。
在一些示例中,在检测到第六用户输入时,该第三用户界面的焦点位于第三用户界面的一个或多个项目上,并且第四结果与一个或多个项目上下文相关。
在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测第七用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第七用户输入而停止显示第三用户界面(例如,利用显示启用单元1010)。
在一些示例中,所显示的内容是媒体内容,并且响应于检测到第三用户输入而暂停播放电子设备上的媒体内容。该处理单元1008被进一步配置为响应于检测到第七用户输入而恢复播放电子设备上的媒体内容(例如,利用执行单元1020)。在一些示例中,该第七用户输入包括按压电子设备的遥控器的菜单按钮。
根据一些实施方案,该处理单元1008被进一步配置为在显示单元上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用户界面(例如,利用显示启用单元1010)。该用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。
在一些示例中,所显示的内容包括媒体内容。在一些示例中,多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。在一些示例中,在显示用户界面时媒体内容继续播放。
在一些示例中,该处理单元1008被进一步配置为输出与媒体内容相关联的音频。响应于检测到用户输入(例如,利用输出单元1018),不减小音频的振幅。在一些示例中,所显示的内容包括主菜单用户界面。
在一些示例中,多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。在一些示例中,所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。在一些示例中,多个示例性自然语言请求包括用于细化结果的自然语言请求。在一些示例中,该用户界面包括用于调用数字助理并与其进行交互的文本指令。在一些示例中,该用户界面包括指示数字助理未在接收音频输入的视觉指示符。在一些示例中,该用户界面覆盖在所显示的内容上。
在一些示例中,该处理单元1008被进一步配置为响应于检测到用户输入而降低所显示的内容的亮度以突出显示用户界面(例如,利用显示启用单元1010)。
在一些示例中,在电子设备的遥控器上检测用户输入。在一些示例中,用户输入包括按压遥控设备的按钮并在按压按钮之后的预先确定的持续时间内释放按钮。在一些示例中,该按钮被配置为调用数字助理。在一些示例中,该用户界面包括用于显示虚拟键盘界面的文本指令。
在一些示例中,该处理单元1008被进一步配置为在显示用户界面之后检测第二用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而在显示单元上显示虚拟键盘界面(例如,利用显示单元1012)。
在一些示例中,该处理单元1008被进一步配置为将用户界面的焦点改变至用户界面上的搜索字段(例如,利用显示启用单元1010)。在一些示例中,该搜索字段被配置为经由虚拟键盘界面来接收文本搜索查询。在一些示例中,该虚拟键盘界面不可用于与数字助理进行交互。在一些示例中,该第二用户输入包括电子设备的遥控设备触敏表面上的预先确定的动作模式。
在一些示例中,多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。在一些示例中,该处理单元1008被进一步配置为以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求(例如,利用显示启用单元1010)。在一些示例中,该处理单元1008被进一步配置为利用多个示例性自然语言请求中的随后的示例性自然语言请求来替换对多个示例性自然语言请求中的先前显示的示例性自然语言请求的显示(例如,利用显示启用单元1010)。
在一些示例中,内容包括具有一个或多个项目的第二用户界面。当检测到用户输入时,该第二用户界面的焦点位于一个或多个项目中的项目上。多个示例性自然语言请求与一个或多个项目中的所述项目上下文相关。
根据一些实施方案,该处理单元1008被进一步配置为在显示单元上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而显示自然语言话语的一个或多个所建议的示例(例如,利用显示启用单元1010)。该一个或多个所建议的示例与所显示的内容上下文相关,并且当由用户说出时,使得数字助理执行对应动作。
在一些示例中,该处理单元1008被进一步配置为检测第二用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而对音频数据进行采样(例如,利用采样单元1016)。该处理单元1008被进一步配置为(例如,利用确定单元1014)来确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例。该处理单元1008被进一步配置为根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例而执行针对话语的对应动作(例如,利用执行单元1020)。
根据一些实施方案,该处理单元1008被进一步配置为在显示单元上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如,利用采样单元1016)。该音频数据包括表示媒体搜索请求的用户话语。该处理单元1008被进一步配置为获取满足媒体搜索请求的多个媒体项(例如,利用获取单元1022)。该处理单元1008被进一步配置为经由用户界面在显示单元上来显示多个媒体项的至少一部分(例如,利用显示启用单元1010)。
在一些示例中,在显示多个媒体项的至少一部分时,内容继续显示在显示单元上。用户界面所占据的显示区域小于内容所占据的显示区域。
在一些示例中,该处理单元1008被进一步配置为确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如,利用确定单元1014)。根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量,多个媒体项的至少一部分包括多个媒体项。
在一些示例中,根据确定多个媒体项中的媒体项的数量大于预先确定的数量,多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。
在一些示例中,多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联,并且多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。
在一些示例中,多个媒体项的至少一部分中的每个媒体项与流行度评级相关联,并且多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。
在一些示例中,该处理单元1008被进一步配置为在显示多个媒体项的至少一部分时检测第二用户输入(例如,利用检测单元1012)。处理单元1008被进一步配置为响应于检测到第二用户输入而扩展用户界面(例如,利用显示启用单元1010),从而至少占据显示单元的大部分显示区域。
在一些示例中,该处理单元1008被进一步配置为响应于检测到第二用户输入而确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量而获取至少部分地满足媒体搜索请求的第二多个媒体项,该第二多个媒体项不同于媒体项的至少一部分。该处理单元1008被进一步配置为经由经扩展的用户界面来在显示单元上显示第二多个媒体项(例如,利用显示启用单元101)。
在一些示例中,该处理单元1008被进一步配置为确定媒体搜索请求是否包括多于一个搜索参数(例如,利用确定单元1014)。根据确定媒体搜索请求包括多于一个搜索参数,在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数来组织第二多个媒体项。
在一些示例中,该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量大于预先确定的数量,经由经扩展的用户界面来显示多个媒体项的至少第二部分(例如,利用显示启用单元1010)。多个媒体项的至少第二部分不同于多个媒体项的至少一部分。
在一些示例中,多个媒体项的至少第二部分包括两个或更多个媒体类型,并且多个媒体项的至少第二部分根据两个或更多个媒体类型中的每个媒体类型而在经扩展的用户界面中进行组织。
在一些示例中,该处理单元1008被进一步配置为检测第三用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而使得经扩展的用户界面滚动(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为确定经扩展的用户界面是否已滚动超过扩展的用户界面上的预先确定的位置(例如,利用确定单元1014)。该处理单元1008被进一步配置为响应于确定经扩展的用户界面已滚动超过扩展的用户界面上的预先确定的位置而在经扩展的用户界面上显示多个媒体项的至少第三部分(例如,利用显示启用单元1010)。根据与第三多个媒体项相关联的一个或多个媒体内容提供方来将多个媒体项的至少第三部分组织在经扩展的用户界面上。
以上参考图5A至图5I所述的操作任选地由图1至图3和图4A至图4B中所示的部件来实现。例如,显示操作502,508-514,520,524,530,536,546,556,560,562,576,582,588,592、检测操作504,538,542,550,558,566,570、确定操作506,516,522,526,528,574,578、采样操作518,572、执行操作532,584、获取操作534,544,580,586,590、暂停操作540,568、接收操作554,以及切换操作552,564可由操作系统252、GUI模块256、应用程序模块262、数字助理模块426和一个或多个处理器204,404中的一者或多者来实现。本领域的技术人员会清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。
根据一些示例,图11示出了电子设备1100的功能框图,该电子设备根据所描述的各种示例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图11中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。
如图11所示,电子设备1100可包括:被配置为接收用户输入诸如触觉输入、手势输入的输入单元1103(例如,遥控器124等);被配置为接收音频数据的音频输入单元1104(例如,麦克风272等);被配置为输出音频的扬声器单元116(例如,扬声器268等);以及被配置为经由网络从外部设备发送和接收信息的通信单元1107(例如,通信子系统224等)。在一些示例中,电子设备1100可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1102(例如,显示单元126等)。电子设备1100还可包括耦接至输入单元1103、音频输入单元1104、扬声器单元1106、通信单元1107、以及可选的显示单元1102的处理单元1108。在一些示例中,处理单元1108可包括显示启用单元1110、检测单元1112、确定单元1114、采样单元1116、输出单元1118、执行单元1120、获取单元1122、识别单元1124、和传输单元1126。
根据一些实施方案,该处理单元1108被配置为在显示单元(例如,显示单元1102或独立显示单元)上显示内容(例如,利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如,利用采样单元1016和音频输入单元1104)。该音频数据包括用户话语。该处理单元1108被进一步配置为获取对与用户话语对应的用户意图的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为获取对用户意图是否包括调整电子设备上的应用程序的状态或设置的请求的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图包括调整电子设备上的应用程序的状态或设置的请求的确定,调整应用程序的状态或设置以满足用户意图(例如,利用任务执行单元1120)。
在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求。调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。
在一些示例中,所显示的内容包括具有媒体项的用户界面,并且用户话语没有明确定义要播放的特定媒体项。该处理单元1108被进一步配置为确定用户界面的焦点是否位于媒体项上(例如,利用确定单元1114)。该处理单元1108被进一步配置为根据确定用户界面的焦点位于媒体项上,将该媒体项识别为是要播放的特定媒体项(例如,利用识别单元1124)。
在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。在一些示例中,所显示的内容包括在电子设备上播放的媒体内容,并且状态或设置与在电子设备上播放的媒体内容有关。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容快进或快退的请求。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容暂停的请求。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。
在一些示例中,所显示的内容包括具有第一媒体项和第二媒体项的用户界面。
在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求。调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。
在一些示例中,所显示的内容包括正在媒体设备上播放的媒体内容。用户话语是指示用户未听到与媒体内容相关联的音频的一部分的自然语言表达。用于调整电子设备上的应用程序的状态或设置的请求包括用于重新播放媒体内容的一部分的请求,该媒体内容的一部分对应于用户未听到的音频的一部分。该处理单元1108被进一步配置为使媒体内容向媒体内容的先前部分快退预先确定的量(例如,利用任务执行单元1120);以及从先前部分重新开始播放媒体内容(例如,利用任务执行单元1120)。
在一些示例中,该处理单元1108被进一步配置为在从先前部分重新开始播放媒体内容之前打开隐藏式字幕(例如,利用任务执行单元1120)。
在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求还包括用于增大与媒体内容相关联的音频的音量的请求。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容之前增加与媒体内容相关联的音频的音量。
在一些示例中,将与媒体内容相关联的音频中的语音转换成文本。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容时显示文本的一部分。
在一些示例中,该处理单元1108被进一步配置为获取对与用户话语相关联的用户情绪的确定(例如,利用获取单元1122)。基于所确定的用户情绪来确定用户意图。
在一些示例中,该处理单元1108被进一步配置为响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定而获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定而获取至少部分地满足用户意图的结果(例如,利用获取单元1122),并且将结果以文本形式显示在显示单元上(例如,利用显示启用单元1110)。
在一些示例中,多个预先确定的请求类型包括对特定位置处的当前时间的请求。在一些示例中,多个预先确定的请求类型包括用于呈现笑话的请求。在一些示例中,多个预先确定的请求类型包括对关于在电子设备上播放的媒体内容的信息的请求。在一些示例中,文本形式的结果覆盖在所显示的内容上。在一些示例中,所显示的内容包括在电子设备上播放的媒体内容,并且在显示文本形式的结果时媒体内容继续播放。
在一些示例中,该处理单元1108被进一步配置为响应于获取用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定,获取至少部分地满足用户意图的媒体内容(例如,利用获取单元1122),并且确定所显示的内容是否包括在电子设备上播放的媒体内容(例如,利用确定单元1114)。该处理单元1108被进一步配置为根据确定所显示的内容包括媒体内容而确定媒体内容是否可被暂停(例如,确定单元1114)。该处理单元1108被进一步配置为根据确定媒体内容不可被暂停而在显示单元上显示包含第二结果的一部分的第二用户界面(例如,显示启用单元1110)。第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。
在一些示例中,该用户意图包括对特定位置的天气预报的请求。该用户意图包括对与运动队或运动员相关联的信息的请求。在一些示例中,该用户意图不是媒体搜索查询,并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。在一些示例中,该第二结果还包括至少部分地满足用户意图的非媒体数据。在一些示例中,该用户意图是媒体搜索查询,并且第二结果包括与媒体搜索查询对应的多个媒体项。
在一些示例中,该处理单元1108被进一步配置为根据确定所显示的内容不包括在电子设备上播放的媒体内容而在显示单元上显示包含第二结果的一部分的第三用户界面(例如,利用显示启用单元1110),其中第三用户界面占据显示单元的大部分显示区域。
在一些示例中,该显示内容包括主菜单用户界面。
在一些示例中,所显示的内容包括具有先前结果的第三用户界面,该先前结果与在检测用户输入之前所接收的先前用户请求相关。根据确定所显示的内容不包括在电子设备上播放的媒体内容,利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。
在一些示例中,该处理单元1108被进一步配置为根据确定所显示的内容包括在电子设备上播放的媒体内容而确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面(例如,利用确定单元1114)。根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面,利用第二结果来替换先前结果。
在一些示例中,该处理单元1108被进一步配置为根据确定媒体内容可被暂停,暂停播放电子设备上的媒体内容(例如,利用任务执行单元1120),并且在显示单元上显示包含第二结果的一部分的第三用户界面(例如,利用显示启用单元1110),其中第三用户界面占据显示单元的大部分显示区域。
在一些示例中,该处理单元1108被进一步配置为将音频数据传输至服务器以执行自然语言处理(例如,利用传输单元1126并使用通信单元1107),并且向服务器指示音频数据与媒体应用程序相关联(例如,利用传输单元1126)。该指示使自然语言处理偏向与媒体相关的用户意图。
在一些示例中,该处理单元1108被进一步配置为将音频数据传输至服务器以执行语音转文本处理(例如,传输单元1126)。
在一些示例中,该处理单元1108被进一步配置为向服务器指示音频数据与媒体应用程序相关联(例如,利用传输单元1126)。该指示将语音转文本处理偏向于与媒体相关的文本结果。
在一些示例中,该处理单元1108被进一步配置为获取用户话语的文本表示(例如,利用获取单元1122),其中该文本表示基于在对音频数据进行采样之前所接收的先前用户话语。
在一些示例中,文本表示基于在对音频数据进行采样之前接收到先前用户话语的时间。
在一些示例中,该处理单元1108被进一步配置为(例如,利用获取单元1122)获取用户意图不对应于与电子设备相关联的多个核心竞争力中一个核心竞争力的确定。该处理单元1108被进一步配置为使得第二电子设备执行促成满足用户意图的任务(例如,利用任务执行单元1120)。
在一些示例中,该处理单元1108被进一步配置为获取用户话语是否包括模糊术语的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户话语包括模糊术语的确定而基于模糊术语获取两个或更多个候选用户意图(例如,利用获取单元1122)来;以及在显示单元上显示两个或更多个候选用户意图(例如,利用显示启用单元1110)。
在一些示例中,该处理单元1108被进一步配置为在显示两个或更多个候选用户意图时,接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择(例如,利用检测单元1112)。基于用户选择来确定用户意图。
在一些示例中,该处理单元1108被进一步配置为检测第二用户输入(例如,利用检测单元)。该处理单元1108被进一步配置为响应于检测到第二用户输入而对第二音频数据进行采样(例如,利用采样单元1116)。该第二音频数据包括表示用户选择的第二用户话语。
在一些示例中,显示两个或更多个解译,而无需输出与两个或更多个候选用户意图相关联的语音。
根据一些实施方案,该处理单元1108被进一步配置为在显示单元(例如,显示单元1102或独立显示单元)上显示内容(例如,利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而在显示单元上显示虚拟键盘界面(例如,利用显示启用单元1110)。该处理单元1108被进一步配置为使得可选择示能表示出现在第二电子设备的显示器上(例如,利用任务执行单元1120)。对示能表示的选择使得电子设备经由第二电子设备的键盘来接收文本输入(例如,使用通信单元1107)。
在一些示例中,该处理单元1108被进一步配置为经由第二电子设备的键盘来接收文本输入(例如,利用检测单元1112),其中该文本输入表示用户请求。该处理单元1108被进一步配置为获取至少部分地满足用户请求的结果(例如,利用获取单元1122),并在显示单元上显示用户界面且(例如,利用显示启用单元1110),其中该用户界面包括该结果的至少一部分。
在一些示例中,所显示的内容包括具有多个示例性自然语言请求的第二用户界面。在一些示例中,所显示的内容包括媒体内容。在一些示例中,所显示的内容包括具有来自先前用户请求的结果的第三用户界面,其中第三用户界面占据显示单元的至少大部分显示区域。在一些示例中,该虚拟键盘界面覆盖在第三用户界面的至少一部分上。在一些示例中,经由电子设备的遥控器来检测用户输入,并且遥控器和第二电子设备是不同的设备。在一些示例中,该用户输入包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中,经由第二电子设备来检测用户输入。
以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A中所示的部件来实现。以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A至图4B所示的部件来实现。例如,显示操作702,716,732,736,738,742,746,902,906,914、检测操作704,718,904,910、确定操作708,710,712,714,720,724,728,736,740、采样操作706、执行操作722,726,744,908、获取操作730,734,912,以及切换操作552,564可由操作系统252,352、GUI模块256,356、应用程序模块262,362、数字助理模块426和一个或多个处理器204,304,404中的一者或多者来实现。本领域的技术人员将清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。
根据一些具体实施,提供了一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述的任何方法的指令。
根据一些具体实施,提供了一种包括用于执行本文所述的任何方法的装置的电子设备(例如,便携式电子设备)。
根据一些具体实施,提供了一种包括被配置为执行本文所述的任何方法的处理单元的电子设备(例如,便携式电子设备)。
根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储有供一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所述的任何方法的指令。
在以下项目中陈述了示例性方法、非暂态计算机可读存储介质、系统和电子设备:
1.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
检测用户输入;
确定用户输入是否对应于第一输入类型;以及
根据确定用户输入对应于第一输入类型:
在显示单元上显示多个示例性自然语言请求,多个示例性自然语言请求与所显示的内容上下文相关,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。
2.根据项目1所述的方法,其中在电子设备的遥控器上检测用户输入。
3.根据项目2所述的方法,其中第一输入类型包括按压遥控器的按钮并在预先确定的持续时间内释放按钮。
4.根据项目1至项目3中任一项所述的方法,其中多个示例性自然语言请求经由第一用户界面而被显示在显示单元上,并且其中第一用户界面覆盖在所显示的内容上。
5.根据项目1至项目4中任一项所述的方法,其中所显示的内容包括媒体内容,并且其中在显示多个示例性自然语言请求时,媒体内容继续播放。
6.根据项目1至项目5中任一项所述的方法,还包括:
根据确定用户输入对应于第一输入类型,在显示单元上显示用于指示数字助理并未正在处理音频输入的视觉指示符。
7.根据项目1至项目6中任一项所述的方法,其中在确定用户输入对应于第一输入类型之后,在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。
8.根据项目1至项目7中任一项所述的方法,其中多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序并且在不同的时间单独显示。
9.根据项目1至项目8中任一项所述的方法,其中显示多个示例性自然语言请求包括:
显示示例性自然语言请求的多个列表,其中每个列表在不同的时间并且轮番被显示。
10.根据项目1至项目9中任一项所述的方法,还包括:
根据确定用户输入不对应于第一输入类型:
确定用户输入是否对应于第二输入类型;以及
根据确定用户输入对应于第二输入类型:
对音频数据进行采样;
确定音频数据是否包含用户请求;以及
根据确定音频数据包含用户请求,执行至少部分地满足用户请求的任务。
11.根据项目10所述的方法,其中第二输入类型包括按压电子设备的遥控器的按钮并按住按钮超过预先确定的持续时间。
12.根据项目10至项目11中任一项所述的方法,还包括:
根据确定音频数据不包含用户请求,在显示单元上显示用于澄清用户意图的请求。
13.根据项目10至项目12中任一项所述的方法,其中所显示的内容包括媒体内容,并且其中在对音频数据进行采样时以及在执行任务时,媒体内容在电子设备上继续播放。
14.根据项目13所述的方法,还包括:
输出与媒体内容相关联的音频;以及
根据确定用户输入对应于第二输入类型,减小音频的振幅。
15.根据项目10至项目14中任一项所述的方法,其中任务被执行,而无需从电子设备输出与任务相关的语音。
16.根据项目10至项目15中任一项所述的方法,其中在检测到用户输入时对音频数据进行采样。
17.根据项目10至项目15中任一项所述的方法,其中在检测到用户输入之后,在预先确定的持续时间内对音频数据进行采样。
18.根据项目10至项目17中任一项所述的方法,其中经由电子设备的遥控器上的第一麦克风来对音频数据进行采样,并且还包括:
在对音频数据进行采样时,经由遥控器上的第二麦克风来对背景音频数据进行采样;以及
使用背景音频数据来消除音频数据中的背景噪声。
19.根据项目10至项目18中任一项所述的方法,其中与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出,并且还包括:
使用音频信号来消除音频数据中的背景噪声。
20.根据项目10至项目19中任一项所述的方法,还包括:
响应于检测到用户输入,在显示单元上显示用于提示用户提供口头请求的视觉提示。
21.根据项目10至项目20中任一项所述的方法,其中所执行的任务包括:
获取至少部分地满足用户请求的结果;以及
在显示单元上显示第二用户界面,第二用户界面包括结果的一部分,其中在显示第二用户界面时继续显示内容的至少一部分,并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。
22.根据项目21所述的方法,其中第二用户界面覆盖在所显示的内容上。
23.根据项目21至项目22中任一项所述的方法,其中结果的一部分包括一个或多个媒体项,并且还包括:
经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择;以及
在显示单元上显示与所选择的媒体项相关联的媒体内容。
24.根据项目21至项目22中任一项所述的方法,还包括:
在显示第二用户界面时,检测第二用户输入;以及
响应于检测到第二用户输入,停止显示第二用户界面。
25.根据项目24所述的方法,其中在电子设备的遥控器上检测第二用户输入,并且其中第二用户输入包括遥控器的触敏表面上的第一预先确定的动作模式。
26.根据项目21至项目22中任一项所述的方法,还包括:
在显示第二用户界面时,检测第三用户输入;以及
响应于检测到第三用户输入,利用对显示单元上的第三用户界面的显示来替换对第二用户界面的显示,第三用户界面包括结果的至少一部分,其中第三用户界面占据显示单元的至少大部分显示区域。
27.根据项目26所述的方法,其中在电子设备的遥控器上检测第三用户输入,并且其中第三用户输入包括遥控器的触敏表面上的第二预先确定的动作模式。
28.根据项目26至项目27中任一项所述的方法,还包括:
响应于检测到第三用户输入:
获取与结果不同的第二结果,其中第二结果至少部分地满足用户请求,并且其中第三用户界面包括第二结果的至少一部分。
29.根据项目28所述的方法,其中第二结果基于在检测到用户输入之前所接收的用户请求。
30.根据项目28至项目29中任一项所述的方法,其中在检测到第三用户输入时,第二用户界面的焦点位于结果的一部分的项目上,并且其中第二结果与项目上下文相关。
31.根据项目26至项目30中任一项所述的方法,其中所显示的内容包括媒体内容,并且其中响应于检测到第三用户输入,暂停播放电子设备上的媒体内容。
32.根据项目26至项目31中任一项所述的方法,其中结果的至少一部分包括一个或多个媒体项,并且还包括:
经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择;以及
在显示单元上显示与媒体项相关联的媒体内容。
33.根据项目26至项目32中任一项所述的方法,还包括:
在显示第三用户界面时,检测与显示单元上的方向相关联的第四用户输入;
响应于检测到第四用户输入:
在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目,第二项目被定位在相对于第一项目的方向上。
34.根据项目26至项目33中任一项所述的方法,还包括:
在显示第三用户界面时,检测第五用户输入;以及
响应于检测到第五用户输入:
显示搜索字段;以及
在显示单元上显示虚拟键盘界面,其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。
35.根据项目26至项目34中任一项所述的方法,还包括:
在显示第三用户界面时,检测第六用户输入;以及
响应于检测到第六用户输入:
对第二音频数据进行采样,第二音频数据包含第二用户请求;
确定第二用户请求是否是用于细化用户请求的结果的请求;以及
根据确定第二用户请求是用于细化用户请求的结果的请求:
经由第三用户界面来显示结果的子组。
36.根据项目35所述的方法,其中结果的所述子组被显示在第三用户界面的顶行处。
37.根据项目35至项目36中任一项所述的方法,还包括:
根据确定第二用户请求不是用于细化用户请求的结果的请求:
获取至少部分地满足第二用户请求的第三结果;以及
经由第三用户界面来显示第三结果的一部分。
38.根据项目37所述的方法,其中第三结果的一部分被显示在第三用户界面的顶行处。
39.根据项目35至项目38中任一项所述的方法,还包括:
获取至少部分地满足用户请求或第二用户请求的第四结果;以及
经由第三用户界面来显示第四结果的一部分。
40.根据项目39所述的方法,其中第四结果的一部分被显示在第三用户界面的顶行之后的行处。
41.根据项目39至项目40中任一项所述的方法,其中在检测到第六用户输入时,第三用户界面的焦点位于第三用户界面的一个或多个项目上,并且其中第四结果与一个或多个项目上下文相关。
42.根据项目26至项目41中任一项所述的方法,还包括:
在显示第三用户界面时,检测第七用户输入;
响应于检测到第七用户输入,停止显示第三用户界面。
43.根据项目42所述的方法,其中所显示的内容是媒体内容,其中响应于检测到第三用户输入而暂停播放电子设备上的媒体内容,并且其中响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。
44.根据项目42至项目43中任一项所述的方法,其中第七用户输入包括按压电子设备的遥控器的菜单按钮。
45.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示内容时,检测用户输入;
响应于检测到所述用户输入:
在显示单元上显示用户界面,用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求,其中接收与多个示例性自然语言请求中的一个例性自然语言请求对应的用户话语使得数字助理执行相应动作。
46.根据项目45所述的方法,其中所显示的内容包括媒体内容。
47.根据项目46所述的方法,其中多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。
48.根据项目46至项目47中任一项所述的方法,其中在显示用户界面时,媒体内容继续播放。
49.根据项目46至项目41中任一项所述的方法,还包括:
输出与媒体内容相关联的音频,其中音频的振幅不响应于检测到用户输入而减小。
50.根据项目45所述的方法,其中所显示的内容包括主菜单用户界面。
51.根据项目50所述的方法,其中多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。
52.根据项目45所述的方法,其中所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。
53.根据项目52所述的方法,其中多个示例性自然语言请求包括用于细化结果的自然语言请求。
54.根据项目45至项目53中任一项所述的方法,其中用户界面包括用于调用数字助理并与其进行交互的文本指令。
55.根据项目45至项目54中任一项所述的方法,其中用户界面包括指示数字助理并未正在接收音频输入的视觉指示符。
56.根据项目45至项目55中任一项所述的方法,其中用户界面覆盖在所显示的内容上。
57.根据项目45至项目56中任一项所述的方法,还包括:
响应于检测到用户输入,减小所显示的内容的亮度以突出显示用户界面。
58.根据项目45至项目57中任一项所述的方法,其中在电子设备的遥控器上检测用户输入。
59.根据项目58所述的方法,其中用户输入包括按压遥控设备的按钮并且在按压按钮之后的预先确定的持续时间内释放按钮。
60.根据项目59所述的方法,其中按钮被配置为调用数字助理。
61.根据项目45至项目60中任一项所述的方法,其中用户界面包括用于显示虚拟键盘界面的文本指令。
62根据项目45至项目61中任一项所述的方法,还包括:
在显示用户界面之后,检测第二用户输入;以及
响应于检测到第二用户输入,在显示单元上显示虚拟键盘界面。
63.根据项目62所述的方法,还包括:
将用户界面的焦点改变到用户界面上的搜索字段。
64.根据项目63所述的方法,其中搜索字段被配置为经由虚拟键盘界
面来接收文本搜索查询。
65.根据项目45至项目64中任一项所述的方法,其述虚拟键盘界面不可用于与数字助理进行交互。
66.根据项目45至项目65中任一项所述的方法,其中第二用户输入包括电子设备的遥控设备的触敏表面上的预先确定的动作模式。
67.根据项目45至项目66中任一项所述的方法,其中多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。
68.根据项目45至项目67中任一项所述的方法,其中显示多个示例性自然语言请求进一步包括:
以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求。
69.根据项目68所述的方法,其中按顺序显示进一步包括:
利用多个示例性自然语言请求中的后续示例性自然语言请求来替换对多个示例性自然语言请求中的先前所显示的示例性自然语言请求的显示。
70.根据项目45至项目69中任一项所述的方法,其中内容包括具有一个或多个项目的第二用户界面,其中在检测到用户输入时,第二用户界面的焦点位于一个或多个项目中的项目上,并且其中多个示例性自然语言请求与一个或多个项目中的项目上下文相关。
71.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
检测用户输入;以及
响应于检测到用户输入:
显示自然语言话语的一个或多个所建议的示例,一个或多个所建议的示例与所显示的内容上下文相关并且当由用户说出时使得数字助理执行对应动作。
72.根据项目71所述的方法,还包括:
检测第二用户输入;
响应于检测到第二用户输入:
对音频数据进行采样;
确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例;以及
根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例,对话语执行对应动作。
73.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示内容时,检测用户输入;
响应于检测到用户输入,对音频数据进行采样,其中音频数据包括用户话语;
获取对与用户话语对应的用户意图的确定;
获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定;以及
响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定,调整应用程序的状态或设置以满足用户意图。
74.根据项目73所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求,并且其中调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。
75.根据项目74所述的方法,其中所显示的内容包括具有媒体项的用户界面,其中用户话语未明确定义要播放的特定媒体项,并且还包括:
确定用户界面的焦点是否位于媒体项上;以及
根据确定用户界面的焦点位于媒体项上,将媒体项识别为要播放的特定媒体项。
76.根据项目73所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。
77.根据项目73所述的方法,其中所显示的内容包括正在电子设备上播放的媒体内容,并且其中状态或设置与正在电子设备上播放的媒体内容相关。
78.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于使正在电子设备上播放的媒体内容快进或快退的请求。
79.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。
80.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于暂停播放电子设备上的媒体内容的请求。
81.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。
82.根据项目73所述的方法,其中:
所显示的内容包括具有第一媒体项和第二媒体项的用户界面;
用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求;并且
调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。
83.根据项目73所述的方法,其中:
所显示的内容包括正在媒体设备上播放的媒体内容;
用户话语是指示用户未听到与=媒体内容相关联的音频的一部分的自然语言表达;
用于调整电子设备上的应用程序的状态或设置的请求包括用于重放与用户未听到的音频的所述一部分对应的媒体内容的一部分的请求;并且
调整应用程序的状态或设置包括:
使媒体内容向媒体内容的先前部分快退预先确定的量;以及
从先前部分重新开始播放媒体内容。
84.根据项目83所述的方法,其中调整应用程序的状态或设置进一步包括:
在从先前部分重新开始播放媒体内容之前打开隐藏式字幕。
85.根据项目83至项目84中任一项所述的方法,其中:
用于调整电子设备上的应用程序的状态或设置的请求进一步包括用于增大与媒体内容相关联的音频的音量的请求;并且
调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容之前,增大与媒体内容相关联的音频的音量。
86.根据项目83至项目84中任一项所述的方法,其中:
与媒体内容相关联的音频中的语音被转换成文本;并且
调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容时,显示文本的一部分。
87.根据项目73至项目85中任一项所述的方法,其中获取对与用户话语对应的用户意图的确定进一步包括:
获取对与用户话语相关联的用户情绪的确定,其中基于所确定的用户情绪来确定用户意图。
88.根据项目73至项目87中任一项所述的方法,还包括:
响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定,获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定;以及
响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定:
获取至少部分地满足用户意图的结果;以及
在显示单元上以文本形式显示结果。
89.根据项目88所述的方法,其中多个预先确定的请求类型包括对特定位置处的当前时间的请求。
90.根据项目88所述的方法,其中多个预先确定的请求类型包括用于呈现笑话的请求。
91.根据项目88所述的方法,其中所述多个预先确定的请求类型包括对关于正在电子设备上播放的媒体内容的信息的请求。
92.根据项目88至项目91中任一项所述的方法,其中文本形式的结果覆盖在所显示的内容上。
93.根据项目88至项目92中任一项所述的方法,其中所显示的内容包括正在电子设备上播放的媒体内容,并且其中在显示文本形式的结果时,媒体内容继续播放。
94.根据项目88至项目93中任一项所述的方法,还包括:
响应于获取用户意图不是多个预先确定的请求类型中的一种的确定:
获取至少部分地满足用户意图的第二结果;
确定所显示的内容是否包括正在电子设备上播放的媒体内容;以及
根据确定所显示的内容包括媒体内容:
确定媒体内容是否可被暂停;以及
根据确定媒体内容不可被暂停,在显示单元上显示具有第二结果的一部分的第二用户界面,其中第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。
95.根据项目94所述的方法,其中用户意图包括对特定位置处的天气预报的请求。
96.根据项目94所述的方法,其中用户意图包括对与运动队或运动员相关联的信息的请求。
97.根据项目94至项目96中任一项所述的方法,其中用户意图不是媒体搜索查询,并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。
98.根据项目97中的任一项所述的方法,其中第二结果进一步包括至少部分地满足用户意图的非媒体数据。
99.根据项目94所述的方法,其中用户意图是媒体搜索查询,并且第二结果包括与媒体搜索查询对应的多个媒体项。
100.根据项目94至项目99中任一项所述的方法,还包括:
根据确定所显示的内容不包括正在电子设备上播放的媒体内容,在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。
101.根据项目100所述的方法,其中显示内容包括主菜单用户界面。
102.根据项目100所述的方法,其中:
所显示的内容包括具有先前结果的所述第三用户界面,先前结果与在检测到用户输入之前所接收的先前用户请求相关;并且
根据确定所显示的内容不包括正在电子设备上播放的媒体内容,利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。
103.根据项目94至项目102中任一项所述的方法,还包括:
根据确定所显示的内容包括正在电子设备上播放的媒体内容:
确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面,其中根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面,利用第二结果来替换先前结果。
104.根据项目94至项目103中任一项所述的方法,还包括:
根据确定媒体内容可被暂停:
暂停播放电子设备上的媒体内容;
在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。
105.根据项目73至项目104中任一项所述的方法,还包括:
将音频数据传输至服务器,以执行自然语言处理;以及
向服务器指示音频数据与媒体应用程序相关联,其中指示使自然语言处理偏向于媒体相关的用户意图。
106.根据项目73至项目105中任一项所述的方法,还包括:
将音频数据传输至服务器,以执行语音转文本处理。
107.根据项目106所述的方法,还包括:
向服务器指示所述音频数据与媒体应用程序相关联,其中指示使语音转文本处理偏向于媒体相关的文本结果。
108.根据项目106至项目107中任一项所述的方法,还包括:
获取用户话语的文本表示,文本表示基于在对音频数据进行采样之前所接收的先前用户话语。
109.根据项目108所述的方法,其中文本表示基于在对音频数据进行采样之前接收先前用户话语的时间。
110.根据项目73至项目109中任一项所述的方法,还包括:
获取用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力的确定;以及
使得第二电子设备执行促成满足用户意图的任务。
111.根据项目73至项目110中任一项所述的方法,其中获取对用户意图的确定进一步包括:
获取对用户话语是否包括模糊术语的确定;
响应于获取用户话语包括模糊术语的确定:
基于模糊术语来获取两个或更多个候选用户意图;以及
在显示单元上显示两个或更多个候选用户意图。
112.根据项目111所述的方法,还包括:
在显示两个或更多个候选用户意图时,接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择,并且其中基于所用户选择来确定用户意图。
113.根据项目112所述的方法,其中接收用户选择还包括:
检测第二用户输入;以及
响应于检测到第二用户输入,对第二音频数据进行采样,其中第二音频数据包括表示用户选择的第二用户话语。
114.根据项目111至项目113中任一项所述的方法,其中两个或更多个解译被显示,而无需输出与两个或更多个候选用户意图相关联的语音。
115.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示内容时,检测用户输入;
响应于检测到用户输入,对音频数据进行采样,其中音频数据包括表示媒体搜索请求的用户话语;
获取满足媒体搜索请求的多个媒体项;以及
经由用户界面来在所述显示单元上显示所述多个媒体项的至少一部分。
116.根据项目115所述的方法,其中在显示多个媒体项的至少一部分时,内容继续被显示在显示单元上,并且其中用户界面所占据的显示区域小于内容所占据的显示区域。
117.根据项目115至项目116中任一项所述的方法,还包括:
确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量,其中根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量,多个媒体项的至少一部分包括多个媒体项。
118.根据项目117所述的方法,其中根据确定多个媒体项中的媒体项的数量大于预先确定的数量,多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。
119.根据项目115至项目118中任一项所述的方法,其中多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联,并且其中多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。
120.根据项目115至项目119中任一项所述的方法,其中多个媒体项的至少一部分中的每个媒体项与流行度评级相关联,并且其中多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。
121.根据项目115至项目120中任一项所述的方法,还包括:
在显示多个媒体项的至少一部分时,检测第二用户输入;以及
响应于检测到第二用户输入,扩展用户界面以占据显示单元的至少大部分显示区域。
122.根据项目121所述的方法,还包括:
响应于检测到第二用户输入:
确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量;以及
根据确定多个媒体项中的媒体项的数量小于或等于预先确定数量:
获取至少部分地满足媒体搜索请求的第二多个媒体项,第二多个媒体项不同于媒体项的至少一部分;以及
经由经扩展的用户界面来在显示单元上显示第二多个媒体项。
123.根据项目122所述的方法,还包括:
确定媒体搜索请求是否包括多于一个搜索参数,其中根据确定媒体搜索请求包括多于一个搜索参数,第二多个媒体项在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数而被组织。
124.根据项目122至项目123中任一项所述的方法,还包括:
根据确定多个媒体项中的媒体项的数量大于预先确定的数量:
经由经扩展的用户界面来显示多个媒体项的至少第二部分,其中多个媒体项的至少第二部分不同于多个媒体项的至少一部分。
125.根据项目124所述的方法,其中多个媒体项的至少第二部分包括两个或更多个媒体类型,并且其中多个媒体项的至少第二部分在经扩展的用户界面中根据两个或更多个媒体类型中的每个媒体类型而被组织。
126.根据项目122至项目125中任一项所述的方法,还包括:
检测第三用户输入;
响应于检测到第三用户输入,使得经扩展的用户界面滚动;
确定经扩展的用户界面是否已滚动超过经扩展的用户界面上的预先确定的位置;以及
响应于确定经扩展的用户界面已滚动超过经扩展的用户界面上的预先确定的位置,在经扩展的用户界面上显示多个媒体项的至少第三部分,其中多个媒体项的至少第三部分在经扩展的用户界面上根据与第三多个媒体项相关联的一个或多个媒体内容提供方而被组织。
127.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示内容时,检测用户输入;以及
响应于检测到用户输入:
在显示单元上显示虚拟键盘界面;以及
使得可选择示能表示出现在第二电子设备的显示器上,其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。
128.根据项目127所述的方法,还包括:
经由所述第二电子设备的键盘来接收文本输入,文本输入表示用户请求;
获取至少部分地满足用户请求的结果;以及
在显示单元上显示用户界面,用户界面包括结果的至少一部分。
129.根据项目127至项目128中任一项所述的方法,其中所显示的内容包括具有多个示例性自然语言请求的第二用户界面。
130.根据项目129所述的方法,其中所显示的内容包括媒体内容。
131.根据项目127至项目128中任一项所述的方法,其中所显示的内容包括具有来自先前用户请求的结果的第三用户界面,第三用户界面占据显示单元的至少大部分显示区域。
132.根据项目131所述的方法,其中虚拟键盘界面覆盖在第三用户界面的至少一部分上。
133.根据项目127至项目132中任一项所述的方法,其中经由电子设备的遥控器来检测用户输入,并且其中遥控器和第二电子设备是不同的设备。
134.根据项目133所述的方法,其中用户输入包括遥控设备的触敏表面上的预先确定的动作模式。
135.根据项目127至项目132中任一项所述的方法,其中经由第二电子设备来检测用户输入。
136.一种非暂态计算机可读存储介质,非暂态计算机可读存储介质包含用于执行根据项目1至项目135中任一项所述的方法的计算机可执行指令。
137.一种系统,包括:
根据项目136所述的非暂态计算机可读存储介质;以及
被配置为执行计算机可执行指令的处理器。
138.一种装置,装置包括用于执行根据项目1至项目135中任一项所述的方法的部件。
139.一种电子设备,包括:
被配置为接收用户输入的输入单元;
耦接至输入单元的处理单元,其中处理单元被配置为:
在显示单元上显示内容;
经由输入单元来检测用户输入;
确定用户输入是否对应于第一输入类型;以及
根据确定用户输入对应于第一输入类型:
在显示单元上显示多个示例性自然语言请求,多个示例性自然语言请求与所显示的内容上下文相关,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。
140.根据项目139所述的电子设备,还包括耦接至处理单元的音频输入单元,其中处理单元被进一步配置为:
根据确定用户输入不对应于第一输入类型:
确定用户输入是否对应于第二输入类型;以及
根据确定用户输入对应于第二输入类型:
使用音频输入单元来对音频数据进行采样;
确定音频数据是否包含用户请求;
根据确定音频数据包含用户请求,执行至少部分地满足用户请求的任务。
141.根据项目139至项目140中任一项所述的电子设备,其中处理单元被进一步配置为:
获取至少部分地满足用户请求的结果;以及
在显示单元上显示第二用户界面,第二用户界面包括结果的一部分,其中在显示第二用户界面时继续显示内容的至少一部分,并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。
142.根据项目141所述的电子设备,其中处理单元被进一步配置为:
在显示第二用户界面时,经由输入单元来检测第二用户输入;以及
响应于检测到第二用户输入,停止显示第二用户界面。
143.根据项目141至项目142中任一项所述的电子设备,其中处理单元被进一步配置为:
在显示第二用户界面时,经由输入单元来检测第三用户输入;以及
响应于检测到第三用户输入,利用对显示单元上的第三用户界面的显示来替换对第二用户界面的显示,第三用户界面包括结果的至少一部分,其中第三用户界面占据显示单元的至少大部分显示区域。
144.根据项目143所述的电子设备,其中处理单元被进一步配置为:
在显示第三用户界面时,经由输入单元来检测与显示单元上的方向相关联的第四用户输入;以及
响应于检测到第四用户输入:
在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目,第二项目被定位在相对于第一项目的方向上。
145.根据项目143至项目144中任一项所述的电子设备,其中处理单元被进一步配置为:
在显示第三用户界面时,经由输入单元来检测第五用户输入;以及
响应于检测到第五用户输入:
显示搜索字段;以及
在显示单元上显示虚拟键盘界面,其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。
146.根据项目143至项目145中任一项所述的电子设备,其中处理单元被进一步配置为:
在显示第三用户界面时,经由输入单元来检测第六用户输入;以及
响应于检测到第六用户输入:
对第二音频数据进行采样,该第二音频数据包含第二用户请求;
确定第二用户请求是否是用于细化用户请求的结果的请求;以及
根据确定第二用户请求是用于细化所述用户请求的结果的请求:
经由第三用户界面来显示结果的子组。
147.一种电子设备,包括:
被配置为接收用户输入的输入单元;
被配置为接收音频数据的音频输入单元;
耦接至输入单元和音频输入单元的处理单元,其中处理单元被配置为:
在显示单元上显示内容;
在显示内容时,经由输入单元来检测用户输入;
响应于检测到用户输入,使用音频输入单元来对音频数据进行采样,其中经采样的音频数据包括用户话语;
获取对与用户话语对应的用户意图的确定;
获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定;以及
响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定,调整应用程序的状态或设置以满足用户意图。
148.根据项目147所述的电子设备,其中处理单元被进一步配置为:
响应于获取用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求的确定,获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定;以及
响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定:
获取至少部分地满足用户意图的结果;以及
在显示单元上以文本形式显示结果。
149.根据项目148所述的电子设备,其中处理单元被进一步配置为:
响应于获取用户意图不是多个预先确定的请求类型中的一种的确定:
获取至少部分地满足用户意图的第二结果;
确定所显示的内容是否包括正在电子设备上播放的媒体内容;以及
根据确定所显示的内容包括媒体内容:
确定媒体内容是否可被暂停;以及
根据确定媒体内容不可被暂停,在显示单元上显示具有第二结果的一部分的第二用户界面,其中第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。
150.根据项目149所述的电子设备,其中处理单元被进一步配置为:
根据确定所显示的内容不包括正在电子设备上播放的媒体内容,在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。
151.根据项目149所述的电子设备,其中处理单元被进一步配置为:
根据确定媒体内容可被暂停:
暂停播放电子设备上的媒体内容;
在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。
152.一种电子设备,包括:
被配置为接收用户输入的输入单元;
耦接至输入单元的处理单元,其中处理单元被配置为:
在显示单元上显示内容;
在显示内容时,经由输入单元来检测用户输入;以及
响应于检测到用户输入:
在显示单元上显示虚拟键盘界面;以及
使得可选择示能表示出现在第二电子设备的显示器上,其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。
153.根据项目152所述的电子设备,其中处理单元被进一步配置为:
经由第二电子设备的键盘来接收文本输入,文本输入表示用户请求;
获取至少部分地满足用户请求的结果;以及
在显示单元上显示用户界面,用户界面包括结果的至少一部分。
虽然以上描述使用“第一”、“第二”等术语来描述了各种元件,但是这些元件不应受到这些术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如,在不脱离各种所描述的实施方案的范围的情况下,第一用户输入可被命名为第二用户输入,并且类似地第二用户输入可被命名为第一用户输入。第一用户输入和第二用户输入都是用户输入,但它们不是相同的触摸。
在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的,而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样,单数形式“一个”(“a”、“an”)和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。
根据上下文,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
此外,出于解释的目的,前面的描述是参考具体的实施方案来描述的。然而,上面的示例性讨论并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。
虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解,此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。
此外,在本文所讨论的各种示例中的任何一个示例中,各个方面可针对特定用户可被个性化定制。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令,并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等以各种其他方式来修改本文所讨论的各种过程。此外,此类偏好和设置可基于用户交互(例如,频繁发出的命令、频繁选择的应用程序等)而随时间更新。可利用收集和使用可从各种源获取的用户数据来改进向用户递送邀请内容或者他们感兴趣的任何其他内容。本公开预期,在一些示例中,这些所收集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址、或任何其他识别信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。
本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常呈现。例如,可通过基于非个人信息数据或绝对最低限度的个人信息(例如,由与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息、或公开可用信息)来推断偏好,从而选择内容并递送给用户。
用于媒体搜索和回放的智能自动化助理
相关专利申请的交叉引用
本专利申请要求2015年9月8日提交的名称为“Intelligent AutomatedAssistant for Media Search and Playback”的美国临时序列号62/215,575的优先权,该专利申请据此全文以引用方式并入本文以用于所有目的。
本专利申请与以下共同未决的专利申请相关:于2015年12月8日提交的美国非临时专利申请序列号________,“Intelligent Automated Assistant in a MediaEnvironment”(代理人案卷号106842130800(P25817US1));于2014年9月26日提交的美国非临时专利申请序列号14/498,503,“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106842065100(P18133US1));以及于2014年9月26日提交的美国非临时专利申请序列号14/498,391,“Real-time Digital Assistant KnowledgeUpdates”(代理人案卷号106842097900(P22498US1)),这三个专利申请据此全文以引用方式并入本文以用于所有目的。
技术领域
本发明整体涉及智能自动化助理,并且更具体地涉及用于媒体搜索和回放的智能自动化助理。
背景技术
智能自动化助理(或数字助理)可在用户与电子设备之间提供直观的界面。这些助理可允许用户使用自然语言以口头形式和/或文本形式与设备或系统进行交互。例如,用户可通过将口头用户输入以自然语言形式提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理,以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务,并且在一些示例中,可将相关的输出以自然语言形式返回给用户。
可能期望在媒体环境(例如,电视机、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)中对数字助理进行集成,以帮助用户执行与媒体消费相关的任务。例如,可利用数字助理来协助搜索所需的媒体内容以进行消费。然而,用户通常不清楚他们想要消费的特定媒体项,并且可能花费相当多的时间浏览媒体项以发现新的有趣的内容。此外,现有的搜索界面可能是复杂的并且不是用户友好的,这可进一步增加用户在最终选择所需的项目来消费之前在浏览媒体项上所花费的时间。
发明内容
本发明公开了一种用于在媒体环境中操作数字助理的系统和方法。在一个示例性过程中,初级媒体项组可被显示在显示单元上。响应于检测到用户输入,可接收音频输入。该音频输入可包含自然语言语音形式的媒体相关的请求。可确定与媒体相关的请求对应的初级用户意图。该过程可确定初级用户意图是否包括缩窄与初级媒体项组对应的初级媒体搜索查询的用户意图。根据确定初级用户意图包括缩窄初级媒体搜索查询的用户意图,可生成与初级用户意图对应的第二初级媒体搜索查询。该第二初级媒体搜索查询可基于媒体相关的请求和初级媒体搜索查询。可执行第二初级媒体搜索查询以获取第二初级媒体项组。可利用对第二初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示。
附图说明
图1是示出根据各种示例的用于实现数字助理的系统和环境的框图。
图2是示出根据各种示例的媒体系统的框图。
图3是示出根据各种示例的用户设备的框图。
图4A是示出根据各种示例的数字助理系统或其服务器部分的框图。
图4B示出了根据各种示例的图4A中所示的数字助理的功能。
图4C示出了根据各种示例的知识本体的一部分。
图5A至图5E示出了根据各种示例的用于操作媒体系统的数字助理的过程。
图6A至图6K示出了根据各种示例的在图5A至图5E中所示过程的各个阶段由媒体设备在显示单元上显示的屏幕截图。
图7示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。
具体实施方式
在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。
本公开涉及一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中,可接收自然语言话语形式的媒体搜索请求。可确定与媒体搜索请求对应的初级用户意图。可根据初级用户意图来获取初级媒体项组。该过程可确定是否存在一个或多个先前用户意图,其中该一个或多个先前用户意图对应于在媒体搜索请求之前所接收的一个或多个先前媒体搜索请求。响应于确定存在一个或多个先前用户意图,可基于初级用户意图和一个或多个先前用户意图来确定一个或多个次级用户意图。一个或多个次级用户意图可基于各种其他因素,诸如媒体浏览历史、相关搜索属性\和多个用户中的受欢迎的媒体属性。可获取多个次级媒体项组,其中每个次级媒体项组对应于一个或多个次级用户意图中相应次级用户意图。可经由用户界面来在显示单元上显示所获取的初级媒体项组和多个次级媒体项组,以供用户选择。可智能地确定初级用户意图和次级用户意图,从而提高预测用户实际意图的概率。通过基于初级用户意图和次级用户意图提供各种媒体项,用户可更有可能遇到引起用户兴趣的媒体项。这对于通过减少浏览媒体项所花费的时间量并且随后增加享受媒体内容所花费的时间量来改善用户体验而言是可取的。
1.系统和环境
图1示出了根据各种示例的用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指用于解译口头形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了根据推断出的用户意图采取行动,系统可执行以下内容中的一者或多者:利用被设计以实现所推断出的用户意图的步骤和参数来识别任务流;将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、应用编程接口(API)等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。
具体地,数字助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问形式的用户请求。通常,用户请求可寻求数字助理作出信息性回答或者寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如,用户可向数字助理提问,诸如“Paris现在是几点?”数字助理可检索所请求的信息并回答“Paris现在是下午4:00。”。用户还可请求执行任务,例如“为我查找由Reese Witherspoon主演的电影。”。作为响应,数字助理可执行所请求的搜索查询,并显示相关电影名称以供用户从中选择。在执行所请求的任务期间,数字助理有时可在很长时间段内在涉及多次信息交换的持续对话过程中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应和采取所编程的动作之外,数字助理还可提供其他视觉形式或音频形式的响应,例如言语、警报、音乐、图像、视频、动画等形式的响应。此外,如本文所讨论的,示例性数字助理可控制媒体内容的回放(例如,在电视机顶盒上),并且将媒体内容或其他信息显示在显示单元(例如,电视机)上。
如图1中所示,在一些示例中,数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(后文称作“DA客户端102”),以及在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。此外,在一些示例中,客户端侧部分还可在用户设备122上执行。DA客户端102可通过一个或多个网络110来DA服务器106进行通信。DA客户端102可提供客户端侧功能,诸如面向用户的输入和输出处理,以及与DA服务器106的通信。DA服务器106可为各自驻留在相应设备(例如,媒体设备104和用户设备122)上的任意数量的DA客户端102提供服务器侧功能。
媒体设备104可以是被配置为管理和控制媒体内容的任何合适的电子设备。例如,媒体设备104可包括电视机顶盒,诸如电缆盒设备、卫星盒设备、视频播放器设备、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray DiscTM播放器、此类设备的组合等。如图1所示,媒体设备104可以是媒体系统128的一部分。除了媒体设备104之外,媒体系统128可包括遥控器124和显示单元126。媒体设备104可在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,媒体设备104可连接到可与显示单元126集成或分开的音频系统(例如,音频接收器)和扬声器(未示出)。在其他示例中,显示单元126和媒体设备104可一起并入单个设备中,诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中,媒体设备104的功能可作为组合设备上的应用程序来执行。
在一些示例中,媒体设备104可用作针对媒体内容的多种类型和来源的媒体控制中心。例如,媒体设备104可便于用户访问电视直播(例如,无线电视、卫星电视或有线电视)。因此,媒体设备104可包括电缆调谐器或卫星调谐器等。在一些示例中,媒体设备104还可记录电视节目以供稍后时移观看。在其他示例中,媒体设备104可提供对一个或多个流媒体服务的访问,诸如访问有线递送的点播电视节目、视频和音乐,以及互联网递送的电视节目、视频和音乐(例如,来自各种免费、付费和订阅式流服务)。在其他示例中,媒体设备104可方便回放或显示来自任何其他来源的媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。媒体设备104还可根据需要包括本文所讨论的媒体控制特征部的各种其他组合。下文参考图2详细描述了媒体设备104。
用户设备122可以是任何个人电子设备,诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、手表、胸针、臂带等),等等。下文参考图3详细描述了用户设备122。
在一些示例中,用户可通过用户设备122、遥控器124或与媒体设备104集成的接口元件(例如,按钮、麦克风、相机、操纵杆等)来与媒体设备104进行交互。例如,可在用户设备122和/或遥控器124处接收包括用于数字助理的媒体相关查询或命令的语音输入,并且该语音输入可用于使得媒体相关的任务将在媒体设备104上执行。同样,可在用户设备122和/或遥控器124(以及未示出的其他设备)处接收用于控制媒体设备104上的媒体的触觉命令。因此,可采用各种方式来控制媒体设备104的各种功能,从而给予用户控制来自多个设备的媒体内容的多种选择。
一个或多个通信网络110的示例可包括局域网(LAN)和广域网(WAN),例如互联网。一个或多个通信网络110可使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网语音协议(VoIP)、Wi-MAX、或任何其他合适的通信协议。
DA服务器106可包括面向客户端的输入/输出I/O接口112、一个或多个处理模块114、数据与模型116、以及至外部服务的I/O接口118。面向客户端的I/O接口112可有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据与模型116来处理语音输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114可基于推断出的用户意图来执行任务。在一些示例中,DA服务器106可通过一个或多个网络110来与外部服务120(诸如,电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务、媒体搜索服务等)进行通信,以完成任务或获取信息。至外部服务的I/O接口118可促进此类通信。
服务器系统108可在计算机的一个或多个独立式数据处理装置或分布式网络上实现。在一些示例中,服务器系统108还可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。
虽然图1中所示的数字助理可包括客户端侧部分(例如,DA客户端102)和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,在用户设备122或媒体设备104上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。
2.媒体系统
图2示出了根据各种示例的媒体系统128的框图。媒体系统128可包括通信地耦接至显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可经由遥控器124来接收用户输入。来自媒体设备104的媒体内容可被显示在显示单元126上。
在本示例中,如图2所示,媒体设备104可包括存储器接口202、一个或多个处理器204、和外围设备接口206。媒体设备104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。媒体设备104还可包括耦接至外围设备接口206的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。
例如,媒体设备104可包括通信子系统224。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,这些通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。
在一些示例中,媒体设备104还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括音频/视频输出控制器270。音频/视频输出控制器270可耦接至显示单元126和扬声器268,或者能够以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统240还可包括远程控制器242。远程控制器242可通信地耦接至遥控器124(例如,经由有线连接、蓝牙、Wi-Fi等)。
遥控器124可包括用于捕获音频数据(例如,来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274,以及用于促进经由远程控制器242与媒体设备104的通信的收发器276。此外,遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可检测触敏表面278上的接触(以及接触的任何移动或中断),并将检测到的接触(例如,手势、接触动作等)转换成与被显示在显示单元126上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交互。在一些示例中,遥控器124还可包括其他输入机构,诸如键盘、操纵杆等。在一些示例中,遥控器124还可包括输出机构,诸如灯、显示器、扬声器等。在遥控器124处所接收的输入(例如,用户语音、按钮按压、接触动作等)可经由遥控器124而被传送到媒体设备104。I/O子系统240还可包括一个或多个其他输入控制器244。可将一个或多个其他输入控制器244耦接至其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。
在一些示例中,媒体设备104还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备内置媒体模块258、设备外置媒体模块260、和应用程序模块262。操作系统252可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。设备内置媒体模块258可促进在媒体设备104上本地存储的媒体内容的存储和回放。设备外置媒体模块260可促进从外部源(例如,在远程服务器上、在用户设备122上等)获取的媒体内容的流式回放或下载。此外,设备外置媒体模块260可促进接收广播和有线内容(例如,频道调谐)。应用程序模块262可促进媒体相关应用程序的各种功能,诸如网页浏览、媒体处理、游戏和/或其他过程和功能。
如本文所述,存储器250还可存储客户端侧数字助理指令(例如,在数字助理客户端模块264中)和各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的媒体搜索历史、媒体观看列表、最近观看的列表、喜爱的媒体项等),从而例如提供数字助理的客户端侧功能。用户数据266还可用于执行语音识别来支持数字助理或用于任何其他应用程序。
在各种示例中,数字助理客户端模块264可能够通过媒体设备104的各种用户界面(例如,I/O子系统240等)来接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出作提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如,DA服务器106)进行通信。
在一些示例中,数字助理客户端模块264可利用各种子系统和外围设备来从媒体设备104的周围环境收集与媒体设备104相关的附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自用户设备122的信息。在一些示例中,数字助理客户端模块264可将上下文信息或其子组与用户输入一起提供至数字助理服务器,以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将该输出递送至用户。上下文信息还可由媒体设备104或服务器系统108用于支持准确的语音识别。
在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、至另一个对象的距离等。上下文信息还可包括与媒体设备104的物理状态(例如,设备位置、设备温度、功率电平等)或媒体设备104的软件状态(例如,运行过程、已安装应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括从用户接收的信息(例如,语音输入)、用户请求的信息、和呈现给用户的信息(例如,当前或先前由媒体设备显示的信息)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,在用户设备122上显示的内容、用户设备122上的可播放内容等)。这些类型的上下文信息中的任何一种上下文信息可作为与用户输入相关的上下文信息而被提供至DA服务器106(或用于媒体设备104本身)。
在一些示例中,数字助理客户端模块264可响应于来自DA服务器106的请求而选择性地提供被存储在媒体设备104上的信息(例如,用户数据266)。除此之外或作为另外一种选择,该信息可在媒体设备104本身上用于执行语音识别和/或数字助理功能。数字助理客户端模块264还可在由DA服务器106进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块264可将附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。
在各种示例中,存储器250可包括附加指令或更少的指令。。此外,可在硬件和/或固件中(包括在一个或多个信号处理电路和/或专用集成电路中)实现媒体设备104的各种功能。
3.用户设备
图3示出了根据各种示例的示例性用户设备122的框图。如图所示,用户设备122可包括存储器接口302、一个或多个处理器304、以及外围设备接口306。用户设备122中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备122还可包括耦接至外围设备接口306的各种传感器、子系统、以及外围设备。传感器、子系统以及外围设备可采集信息和/促进用户设备122的各种功能。
例如,用户设备122可包括运动传感器310、光传感器312以及接近传感器314,这些传感器耦接至外围设备接口306,以促进取向、照明和接近感测功能。一个或多个其他传感器316(诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等)也可连接至外围设备接口306以促进相关功能。
在一些示例中,相机子系统320和光学传感器322可用于促进相机功能,诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。可将音频子系统326耦接至扬声器328和麦克风330,以促进支持语音的功能,诸如语音识别、语音复制、数字记录和电话功能。
在一些示例中,用户设备122还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括触摸屏控制器342和/或一个或多个其他输入控制器344。触摸屏控制器342可耦接至触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。
在一些示例中,用户设备122还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用程序模块362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。传感器处理模块358可促进与传感器相关的处理和功能。电话模块360可促进与电话相关的过程和功能。应用程序模块362可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。
如本文所述,存储器350还可存储客户端侧数字助理指令(例如,存储在数字助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供数字助理的客户端侧功能。用户数据366还可用于执行语音识别来支持数字助理或用于任何其他应用程序。数字助理客户端模块364和用户数据366可分别与数字助理客户端模块264和用户数据266类似或相同,如上面参考图2所述。
在各种示例中,存储器350可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备122的各种功能。
在一些示例中,用户设备122可被配置为控制媒体设备104的各个方面。例如,用户设备122可用作遥控器(例如,遥控器124)。经由用户设备122接收的用户输入可(例如,使用通信子系统)被传输到媒体设备104,以使得媒体设备104执行对应的动作。此外,用户设备122可被配置为从媒体设备104接收指令。例如,媒体设备104可将任务移交给用户设备122,以执行并使得对象(例如,可选择示能表示)被显示在用户设备122上。
应当理解,系统100和媒体系统128不限于图1和图2所示的部件和配置,并且用户设备122、媒体设备104和遥控器124同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中,系统100、媒体系统128、用户设备122、媒体设备104和遥控器124可全部包括更少的部件,或包括其他部件。
4.数字助理系统
图4A示出根据各种示例的数字助理系统400的框图。在一些示例中,数字助理系统400可在独立式计算机系统上实现。在一些示例中,数字助理系统400可跨多个计算机分布。在一些示例中,数字助理的一些模块和功能可被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户设备(例如,设备104或设备122)上并通过一个或多个网络与服务器部分(例如,服务器系统108)进行通信,例如如图1中所示。在一些示例中,数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出,数字助理系统400仅为数字助理系统的一个示例,并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件,或者可具有部件的不同配置或布局。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)或者它们的组合中实现。
数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口406、以及网络通信接口408。这些部件可通过一条或多条通信总线或者信号线410而彼此通信。
在一些示例中,存储器402可包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。
在一些示例中,I/O接口406可将数字助理系统400的I/O设备416诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如,声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如当数字助理在独立式用户设备上实现时,数字助理系统400可包括相对于图2或图3中各自的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中,数字助理系统400可代表数字助理具体实施的服务器部分,并且可通过位于客户端设备(例如,设备104或设备122)上的客户端侧部分与用户进行交互。
在一些示例中,网络通信接口408可包括一个或多个有线通信端口412、和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络及其他通信设备接收RF信号和/或光学信号,并且将该RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使数字助理系统400通过网络诸如互联网、内联网以及/或者无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN)来与其他设备之间的通信成为可能。
在一些示例中,存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构,其包括以下内容中的全部或其子组:操作系统418、通信模块420、用户界面模块422、一个或多个应用程序424和数字助理模块426。具体地,存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令,并且可从数据结构读取数据或将数据写到数据结构。
操作系统418(例如,Darwin、RTXC、LINUX、UNIX、iOS、OSX、WINDOWS或者嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器,并且促进各种硬件、固件与软件组件之间的通信。
通信模块420可促进数字助理系统400与其他设备之间通过网络通信接口408进行的通信。例如,通信模块420可与电子设备(例如,104,122)的通信子系统(例如,224,324)进行通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。
用户界面模块422可经由I/O接口406来从用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入,并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等),并经由I/O接口406(例如,通过显示器、音频通道、扬声器和触摸板等)将其递送至用户。
应用程序424可包括被配置为由一个或多个处理器404执行的程序和/或模块。例如,如果数字助理系统400在独立式用户设备上实现,则应用程序424可包括用户应用程序,诸如游戏、日历应用程序、导航应用程序、或电子邮件应用程序。如果数字助理系统400在服务器上实现,则应用程序424可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。
存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中,数字助理模块426可包括以下子模块,或包括它们的子集或超集:I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438、以及语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456、和自动语音识别(ASR)系统431。
在一些示例中,使用在数字助理模块426中实现的处理模块、数据和模型,该数字助理可执行以下操作中的至少一些操作:将语音输入转换成文本;识别从用户接收的在自然语言输入中表达的用户意图;主动引出并获取充分推断用户意图所需的信息(例如,通过对字词、游戏、意向等消歧);确定用于满足推断出的意图的任务流;以及执行任务流以满足推断出的意图。
在一些示例中,如图4B中所示,I/O处理模块428可通过图4A中的I/O设备416与用户进行交互或通过图4A中的网络通信接口408与电子设备(例如,设备104或设备122)进行交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语音输出)。I/O处理模块428在接收到用户输入时或在接收到用户输入之后不久可以可选地获取与来自电子设备的用户输入相关联的上下文信息。该上下文信息可包括特定于用户的数据、词汇和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的电子设备的软件和硬件状态,和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中,I/O处理模块428还可向用户发送与用户请求有关的跟进问题,并从用户接收回答。在用户请求被I/O处理模块428接收并且用户请求可包括语音输入时,I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器),以进行语音文本转换。
STT处理模块430可包括一个或多个ASR系统(例如,ASR系统431)。一个或多个ASR系统可处理通过I/O处理模块428所接收的语音输入,以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入中提取代表性特征。例如,前端语音预处理器可对语音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外,每个ASR系统可包括一个或多个语音识别模型(例如,声音模型和/或语言模型),并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征,以产生中间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串或符号的序列)。在一些示例中,语音输入可至少部分地由第三方服务处理或在电子设备(例如,设备104设备122)上处理以产生识别结果。一旦STT处理模块430产生包含文本串(例如,字词、字词的序列或符号的序列)的识别结果,该识别结果便可被传送至自然语言处理模块432以供意图推断。
在一些示例中,一个或多个ASR系统的一个或多个语言模型可被配置为偏向于媒体相关结果。在一个示例中,可使用媒体相关的文本的语料库来训练一个或多个语言模型。在另一个示例中,ASR系统可被配置为有利于媒体相关的识别结果。在一些示例中,一个或多个ASR系统可包括静态语言模型和动态语言模型。静态语言模型可使用文本的一般语料库来训练,而动态语言模型可使用特定于用户的文本来训练。例如,可使用与从用户所接收的先前语音输入的文本来生成动态语言模型。在一些示例中,一个或多个ASR系统可被配置为基于静态语言模型和/或动态语言模型来生成识别结果。此外,在一些示例中,一个或多个ASR系统可被配置为有利于与最近接收的先前语音输入对应的识别结果。
有关语音转文本处理的更多细节在于2011年9月20日提交的名为“ConsolidatingSpeech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,STT处理模块430可包括可识别字词的词汇和/或可经由语音字母转换模块431访问该词汇。每个词汇字词可与以语音识别语音字母表示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇可包括与多个候选发音相关联的字词。例如,该词汇可包括与的候选发音相关联的字词“tomato”。此外,词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中,可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定字词的候选发音。在一些示例中,候选发音可手动生成,例如,基于已知的标准发音而手动生成。
在一些示例中,可基于候选发音的普遍性来对候选发音进行排名。例如,候选发音可比排名更高,因为(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子组而言)前者是更常用的发音。在一些示例中,可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如,自定义候选发音的排名可高于标准候选发音。这可用于识别具有偏离标准发音的独特发音的专有名词。在一些示例中,候选发音可与一个或多个语音特征相关联,诸如地理起源、国家或种族。例如,候选发音可与美国相关联,而候选发音可与英国相关联。此外,候选发音的排名可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于该用户与美国相关联,候选发音(与美国相关联)可比候选发音(与英国相关联)排名高。在一些示例中,经排名的候选发音中的一个候选发音可被选作预测发音(例如,最可能的发音)。
在接收到语音输入时,STT处理模块430可用于(例如,使用声音模型)确定与该语音输入对应的音素,并且然后可尝试(例如,使用语言模型)确定与该音素匹配的字词。例如,如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。
在一些示例中,STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块430可确定音素序列对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。
数字助理的自然语言处理模块432(“自然语言处理器”)可采用由STT处理模块430生成的字词或符号的序列(“符号序列”),并尝试使该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联的任务流的任务。相关联的任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454中实现并存储的任务流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。
在一些示例中,除从STT处理模块430获取的字词或符号的序列之外,自然语言处理器432还可(例如,从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可以可选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如:用户偏好;用户设备的硬件和/或软件状态;在用户请求之前、期间或之后不久收集的传感器信息;数字助理与用户之间的先前交互(例如,对话)等。如本文所述,上下文信息可以是动态的,并且可随对话的时间、位置、内容以及其他因素而变化。
在一些示例中,自然语言处理可基于例如知识本体460。知识本体460可以是包含许多节点的分级结构,每个节点表示“可执行意图”或者与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”可表示数字助理能够执行的任务,即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的连接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。
在一些示例中,知识本体460可由可执行意图节点和属性节点组成。在知识本体460内,每个可执行意图节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地,每个属性节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如,如图4C所示,知识本体460可包括“媒体”节点(即,可执行意图节点)。属性节点“一个或多个演员”、“媒体分类”和“媒体标题”可各自直接连接到可执行意图节点(即,“媒体搜索”节点)。另外,属性节点“名称”、“年龄”、“Ulmer scale排名”和“国籍”可以是属性节点“演员”的子节点。
在另一个示例中,如图4C所示,知识本体460还可包括“天气”节点(即,另一可执行意图节点)。属性节点“日期/时间”和“位置”可各自连接到“天气搜索”节点。应当认识到,在一些示例中,一个或多个属性节点可与两个或更多个可执行意图相关。在这些示例中,该一个或多个属性节点可连接到与知识本体460中的两个或更多个可执行意图对应的相应节点。
可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中,每个域可与相应可执行意图相关联,并且可涉及与特定可执行意图相关联的一组节点(以及彼此间的关系)。例如,图4C中所示的知识本体460可包括知识本体460内的媒体域462的示例和天气域464的示例。媒体域462可包括可执行意图节点“媒体搜索”和属性节点“一个或多个演员”、“媒体分类”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”,以及属性节点“位置”和“日期/时间”。在一些示例中,知识本体460可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。
虽然图4C示出了知识本体460内的两个示例性域,但其他域可包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”、“时间”、以及“讲笑话”等。域“运动员”可与可执行意图节点“搜索运动员信息”相关联,并且可还包括属性节点诸如“运动员名称”、“运动员所属队”和“运动员统计信息”。
在一些示例中,知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中,知识本体460可诸如通过添加或移除整个域或节点或者通过修改知识本体460内的节点之间的关系而被修改。
在一些示例中,知识本体460中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语可被存储在与由节点所代表的属性或可执行意图相关联的词汇索引444中。例如,返回图4C,与“演员”的属性的节点相关联的词汇可包括字词诸如“A列表”、“Reese Witherspoon”、“ArnoldSchwarzenegger”、“Brad Pitt”等。在另一个示例中,与“天气搜索”的可执行意图的节点相关联的词汇可包括字词和短语诸如“天气”、“天气如何”、“预报”等。词汇索引444可以可选地包括不同语言的字词和短语。
自然语言处理模块432可从STT处理模块430接收符号序列(例如,文本串),并确定符号序列中的字词牵涉哪些节点。在一些示例中,如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联,则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中,可选择具有最多“已触发”节点的域。在一些示例中,可(例如,基于其各个已触发节点的相对重要性)选择具有最高置信度的域。在一些示例中,可基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还要考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。
用户数据448可包括用户特定的信息,诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块432可使用用户特定的信息来补充被包含在用户输入中的信息,以进一步限定用户意图。例如,对于用户请求“本周天气如何”,自然语言处理模块432可访问用户数据448来确定用户位于何处,而不是要求用户在其请求中明确地提供此类信息。
基于符号串搜索知识本体的其他细节在于2008年12月22日提交的名为“Methodand Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用方式并入本文。
在一些示例中,一旦自然语言处理模块432基于用户请求识别出可执行意图(或域),自然语言处理模块432便可生成结构化查询来表示所识别的可执行意图。在一些示例中,结构化查询可包括域内针对可执行意图的一个或多个节点的参数,并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如,用户可以说“找出这个电视连续剧的其他几个季”。在这种情况下,自然语言处理模块432可基于用户输入来将可执行意图正确地识别为“媒体搜索”。根据知识本体,用于“媒体”域的结构化查询可包括参数,诸如{媒体演员}、{媒体分类}、{媒体标题}等。在一些示例中,基于语音输入和使用STT处理模块430从语音输入得出的文本,自然语言处理模块432可针对餐厅预订域来生成部分结构化查询,其中该部分结构化查询包括参数{媒体分类=“电视连续剧”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询中可能未指定其他必要参数,诸如{媒体标题}。在一些示例中,自然语言处理模块432可使用所接收的上下文信息来填充结构化查询的一些参数。例如,当前在媒体设备上正在播放电视连续剧“Mad Men”。基于该上下文信息,自然语言处理模块432可使用“Mad Men”来填充结构化查询中的{媒体标题}参数。
在一些示例中,自然语言处理模块432可将结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为从自然语言处理模块432接收结构化查询,并且在必要时完成结构化查询,并且执行“完成”用户最终请求所需的动作。在一些示例中,可在任务流模型454中提供完成这些任务所必需的各种过程。在一些示例中,任务流模型454可包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。
如上所述,为了完成结构化查询,任务流处理模块436可能需要发起与用户的附加对话,以便获取附加信息和/或对可能有歧义的话语进行消歧。当有必要进行此类交互时,任务流处理模块436可调用对话流处理模块434来参与和用户的对话。在一些示例中,对话流处理模块434可确定如何(和/或何时)向用户请求附加信息,并且可接收和处理用户响应。通过I/O处理模块428可将问题提供至用户并可从用户接收回答。在一些示例中,对话流处理模块434可经由音频和/或视频输出来向用户呈现对话输出,并且可接收经由口头或物理(例如,点击)响应的来自用户的输入。例如,用户可以问“Paris的天气如何?”当任务流处理模块436调用对话流处理模块434来确定与域“天气搜索”相关联的结构化查询的“位置”信息时,对话流处理模块434可生成诸如“哪个Paris?”等问题传送给用户。此外,对话流处理模块434可使得与“得克萨斯州的Paris”和“法国的Paris”相关联的示能表示将被呈现,以供用户选择。一旦接收到来自用户的响应,对话流处理模块434便可利用缺失信息来填充结构化查询,或将信息传送给任务流处理模块436以来自完成结构化查询的缺失信息。
一旦任务流处理模块436已针对可执行意图完成结构化查询,任务流处理模块436便可开始执行与可执行意图相关联的最终任务。因此,任务流处理模块436可根据结构化查询中包含的特定参数来执行任务流模型454中的步骤和指令。例如,“媒体搜索”的可执行意图的任务流模型可包括用于执行媒体搜索查询以获取相关媒体项的步骤和指令。例如,通过使用结构化查询诸如:{媒体搜索,媒体分类=电视连续剧,媒体标题=Mad Men},任务流处理模块436可执行以下步骤:(1)使用媒体数据库来执行媒体搜索查询以获取相关媒体项;(2)根据相关性和/或流行度来对所获取的媒体项进行排名,以及(3)根据相关性和/或流行度来显示经分类的媒体项。
在一些示例中,任务流处理模块436可在服务处理模块438(“服务处理模块”)的帮助下完成在用户输入中所请求的任务或提供在用户输入中所请求的信息性回答。例如,服务处理模块438可代表任务流处理模块436来执行媒体搜索、检索天气信息、调用被安装在其他用户设备上的应用程序或与其进行交互,并且调用第三方服务(例如,社交网站、媒体评论网站、媒体订阅服务等)或与所述第三方服务进行交互。在一些示例中,可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型,并依服务模型根据该服务所需的协议和API来生成针对该服务的请求。
例如,第三方媒体搜索服务可提交用于指定用于执行媒体搜索的必要参数的服务模型,以及用于将必要参数的值传送到媒体搜索服务的API。当任务流处理模块436发出请求时,服务处理模块438可建立与媒体搜索服务的网络连接,并且以根据媒体搜索服务的API的格式来向在线预订界面发送媒体搜索的必要参数(例如,媒体演员、媒体类型、媒体标题)。
在一些示例中,自然语言处理模块432、对话流处理模块434以及任务流处理模块436可被共同并且反复地使用,以推断并限定用户的意图、获取信息以进一步明确并细化用户意图,并且最终生成响应(即,输出至用户或完成任务)以满足用户的意图。所生成的响应可以是至少部分地满足用户的意图的对语音输入的对话响应。此外,在一些示例中,所生成的响应可被输出为语音输出。在这些示例中,所生成的响应可被发送至语音合成模块440(例如,语音合成器),其中该响应可被处理,以将该对话响应合成为语音形式。在其他示例中,所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。
语音合成模块440可被配置为合成语音输出,以供呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应可以是文本串的形式。语音合成模块440可将文本串转换成可听语音输出。语音合成模块440可使用任何适当的语音合成技术,以便从文本生成语音输出,所述技术包括但不限于:拼接合成、单位选择合成、双音子合成、域特定合成、格式合成、发音合成、基于隐马尔可夫模型(HMM)的合成,以及正弦波合成。在一些示例中,语音合成模块440可被配置为基于与字词对应的音素串来合成各个字词。例如,音素串可与所生成的对话响应中的字词相关联。该音素串可被存储在与字词相关联的元数据中。语音合成模块440可被配置为直接处理元数据中的音素串,以合成语音形式的字词。
在一些示例中,替代使用语音合成模块440(或除此之外),语音合成可在远程设备(例如,服务器系统108)上执行,并且合成的语音可发送至用户设备,以供输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获取比客户端侧合成将实现的质量更高的语音输出。
有关数字助理的更多细节可见于2011年1月10日提交的名称为“IntelligentAutomated Assistant”的美国实用新型专利申请号12/987,982,以及2011年9月30日提交的名称为“Generating and Processing Task Items That Represent Tasks toPerform”的美国实用新型专利申请号13/251,088中,这两个专利申请的全部公开内容以引用方式并入本文。
4.用于在媒体环境中操作数字助理的过程
图5A至图5E示出了根据各种示例的用于操作媒体系统的数字助理的过程500。可使用实现数字助理的一个或多个电子设备来执行过程500。例如,可使用上述系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程500。图6A至图6K描绘了根据各种示例的在过程50的0各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图5A至图5E和图6A至图6K来对过程500进行描述。应当理解,过程500中的一些操作可组合,一些操作的顺序可改变,而一些操作可省略。
在过程500的框502处并且参考图6A,初级媒体项组604可被显示在显示单元上。每个媒体项可对应于特定的媒体内容(例如,电影、视频、电视节目/连续剧、视频游戏等)。可响应于先前接收的媒体搜索请求来显示初级媒体项组604。在一些示例中,先前接收的媒体搜索请求可以是与数字助理的口头交互。在其他示例中,先前接收的媒体搜索请求可以是经由媒体设备的键盘界面所接收的与数字助理的文本交互。
可通过根据先前接收的媒体搜索请求来执行初级媒体搜索查询以获取初级媒体项组604。在一些示例中,初级媒体搜索查询可以是基于一个或多个参数值的结构化搜索,该一个或多个参数值是在先前接收的媒体搜索请求中定义的。在这些示例中,初级媒体项组604中的每个媒体项可包括一个或多个参数值,该一个或多个参数值与先前接收的媒体搜索请求中定义的一个或多个参数值匹配。在其他示例中,初级媒体搜索查询可以是以先前接收的媒体搜索请求的文本输入字符串为基础的字符串搜索。在这些示例中,初级媒体项组604中的每个媒体项可与文本相关联,该文本与先前接收的媒体搜索请求的文本输入字符串匹配。
媒体项604可共享与先前接收的媒体搜索请求对应的公共属性或参数值。在图6A所示的本示例中,先前接收的媒体搜索请求可以是对最近10年的动作电影的请求。可获取初级媒体项组604,以满足先前接收的媒体搜索请求。在该示例中,初级媒体项组604可包括在最近10年中发行的动作电影,诸如“The Amazing Spider Man 2”、“Furious 7”和“IronMan 3”。用于描述与先前接收的媒体搜索请求对应的属性或参数值的文本612可与初级媒体项组612相关联地显示。
如图6A所示,可经由用户界面602O来显示初级媒体项组604。用户界面602可被配置为使得用户能够在用户界面602中的媒体项中进行导航并选择特定媒体项以供消费。在一些示例中,一个或多个次级媒体项组606可与用户界面602中的初级媒体项组604一起显示。应当认识到,次级媒体项组可不始终显示。在一些示例中,用户界面602可至少占据显示单元的大部分显示区域。在其他示例中,显示单元可在显示用户界面602时显示正在媒体设备上播放的媒体内容(未示出)。在这些示例中,用户界面602在显示单元上占据的显示区域可小于显示单元上的媒体内容占据的显示区域。此外,在这些示例中,用户界面602可不包括次级媒体项组606。具体地,经由用户界面602而显示的仅有的媒体项可以是初级媒体项组604。
初级媒体项组604和次级媒体项组606中的所显示的每个媒体项可与参数的参数值相关联,该参数为例如媒体类型、媒体标题、演员、媒体人物、导演、媒体发行日期、媒体持续时间、媒体质量评级、媒体流行度评级等。在一些示例中,每个媒体项的一个或多个参数值可经由用户界面602而被显示为相应媒体项上或邻近相应媒体项的文本。
在本示例中,一个或多个次级媒体项组606可基于初级媒体项组604。具体地,一个或多个次级媒体项组606可与初级媒体项组604共享公共属性或参数值。如图6A所示,次级媒体项组608可以是动作电影,并且次级媒体项组610可以是外国动作电影。因此,在该示例中,初级媒体项组604和次级媒体项组606都可与动作电影媒体分类相关。应当认识到,在其他示例中,次级媒体项组606可基于源于其他信息的参数值,诸如先前的媒体搜索请求或者流行趋向的媒体项和类别。
在过程500的框504处,可检测用户输入。在框502处,可在显示初级媒体项组604时检测用户输入。在一些示例中,可在媒体设备的遥控器(例如,遥控器124)上检测用户输入。具体地,用户输入可以是用户与遥控器的交互,诸如按压按钮(例如,按钮274)或接触遥控器的触敏表面(例如,触敏表面278)。在一些示例中,可经由被配置为与媒体设备进行交互的第二电子设备(例如,设备122)来检测用户输入。用户输入可与调用媒体设备的数字助理相关联。响应于检测到用户输入,可执行框506至框510中的一个或多个框。
在过程500的框506处,可接收音频输入。音频输入可包含媒体相关的请求。例如,响应于在框504处检测到用户输入,可经由媒体设备的麦克风(例如,麦克风272)来对音频输入进行采样。经采样的音频输入可包括呈用户话语形式的媒体相关的请求。在一些示例中,可接收包含媒体相关的请求的音频输入,同时显示初级媒体项组604的至少一部分。媒体相关的请求可以是自然语言形式。在一些示例中,可部分指定媒体相关的请求,其中并非满足请求所需的所有信息均作了明确定义。例如,媒体相关的请求可以是:“Jack Ryan”。在该示例中,请求没有明确指定其为对具有人物Jack Ryan的电影的新媒体搜索请求还是对基于人物Jack Ryan筛选当前显示的媒体项的请求。
在一些示例中,媒体相关的请求可包括一个或多个模糊术语。例如,媒体相关的请求可以是:“哪一些比较好?”在该示例中,媒体相关的请求包括旨在指代正在显示的媒体项(例如,初级媒体项组604和/或次级媒体项组606)的模糊术语“一些”。此外,在该示例中,媒体相关的请求使用模糊术语(例如,“好”)来定义媒体项的参数值(例如,用户评级或评论等级)。
媒体相关的请求可定义与媒体项相关联的一个或多个参数值。可在媒体相关的请求中定义的参数值的示例包括媒体类型、媒体标题、演员、媒体人物、媒体导演、媒体发行日期、媒体持续时间、媒体质量评级、媒体流行度评级等。
在一些示例中,媒体相关的请求可以是媒体搜索请求。在一些示例中,媒体相关的请求可以是用于校正初级媒体搜索查询的请求。在其他示例中,媒体相关的请求可以是用于导航通过在用户界面602上显示的媒体项的请求。在其他示例中,媒体相关的请求可以是用于调整媒体设备的应用程序的状态或设置的请求。
虽然在本示例中,媒体相关的请求是在音频输入中接收的,但是应当理解,在其他示例中,媒体相关的请求可作为文本输入被接收。具体地,可在框506处经由键盘界面接收包含媒体相关的请求的文本输入来取代音频输入。应当认识到,在其中媒体相关的请求作为文本输入被接收的示例中不需要执行框508。相反,可在框510处直接从文本输入确定初级用户意图。
在过程500的框508处,可确定媒体相关的请求的文本表示。例如,可通过对框506处接收的音频输入执行语音转文本(STT)处理来确定文本表示。具体地,可使用STT处理模块(例如,STT处理模块430)来处理音频输入,以将音频输入中的媒体相关的请求转换成文本表示。文本表示可以是表示对应文本字符串的令牌字符串。在一些示例中,文本表示可被显示在显示单元上。具体地,文本表示可在框506处接收音频输入时被实时显示。
在STT处理期间可使用一个或多个语言模型来确定文本表示。在一些示例中,STT处理可偏向于媒体相关的文本结果。具体地,用于确定文本表示的一个或多个语言模型可偏向于媒体相关的文本结果。例如,可使用媒体相关的文本的语料库来训练一个或多个语言模型。除此之外或作为另外一种选择,可通过对与媒体相关的候选文本结果进行更重的加权来实现偏置。这样,与媒体相关的候选文本结果在利用偏置时可比没有偏置时排名更高。对于增加对媒体相关的请求中的媒体相关字词或短语(例如,电影名称、电影演员等)的STT处理的准确性,偏置可能是可取的。例如,在不偏向媒体相关de文本结果的情况下,在典型的文本语料库中可能很少找到某些媒体相关的字词或短语,例如“Jurassic Park”、“Arnold Schwarzenegger”和“Shrek”,并因此可能无法在STT处理期间成功识别这些字词或短语。
如上所述,与框502处显示的媒体项(例如,初级媒体项组604和次级媒体项组606)相关联的文本可经由用户界面602而被显示。文本可描述用户界面602中的每个媒体项的一个或多个属性或参数值。例如,初级媒体项组604可包括与电影“Iron Man 3”对应的媒体项。在该示例中,所显示的文本可包括标题“Iron Man 3”、演员“Robert Downey Jr”和“Gwyneth Paltrow”、以及导演“Shane Black”。在一些示例中,可使用与所显示的媒体项相关联的所显示的文本来生成自定义语言模型。然后可使用自定义语言模型来执行STT处理以确定文本表示。具体地,当确定文本表示时,相对于来自其他语言模型的候选文本结果,可给予来自自定义语言模型的候选文本结果更大的权重。应当认识到,在一些示例中,并非与初级媒体项组604和次级媒体项组606相关联的所有属性或参数值均可作为文本而被显示在显示单元上。在这些示例中,未被显示在显示单元上的初级媒体项组604和次级媒体项组606的属性或参数值的文本也可用于生成自定义语言模型。
在一些示例中,可使用文本表示来确定预测文本。例如,语言模型可用于基于文本表示中的字词序列来预测一个或多个后续字词。可在接收到音频输入时确定预测文本。此外,预测文本可与显示单元上的文本表示一起被显示。具体地,预测文本可在框506处接收音频输入时被实时显示。
预测文本可基于检测到音频输入的终点而被用户接受。在一些示例中,一旦不再检测到框504的用户输入,便可检测到终点。在其他示例中,可在音频输入的一个或多个音频特征不再满足预先确定标准之后的预先确定的持续时间内检测到终点。可确定是否在显示预测文本之后检测到音频输入的终点。根据确定在显示预测文本之后检测到音频输入的终点,可确定预测文本将被用户接受。具体地,在框510处,文本表示和所接受的预测文本可用于确定初级用户意图。
在一些示例中,用于确定文本表示的一个或多个语言模型可被配置为以多种语言识别媒体相关术语。具体地,媒体相关术语(例如,媒体标题、演员名称等)在不同语种中可具有唯一翻译。例如,演员“Arnold Schwarzenegger”对应于中文“阿诺德施瓦辛格”和印地语 可使用各种语言的媒体相关文本的语料库来训练用于确定文本表示的一个或多个语言模型。因此,一个或多个语言模型可被配置为识别媒体相关的术语在各种语言中的对应翻译。
在过程500的框510处,可确定与媒体相关的请求对应的初级用户意图。可通过对文本表示执行自然语言处理来确定初级用户意图。具体地,可使用自然语言处理模块(例如,自然语言处理模块432)来解析和处理文本表示,以确定与媒体相关的请求对应的多个候选用户意图。可根据概率来对候选用户意图进行排名,并且可将概率最高的候选用户意图确定为初级用户意图。
确定初级用户意图可包括确定与文本表示相关联的相关域或可执行意图。在一些示例中,可在框510处确定与媒体相关的请求相关联的媒体类型,并且可基于与媒体相关的请求相关联的所确定的媒体类型来确定相关域或可执行意图。例如,基于媒体相关的请求“James Bond”,媒体类型可被确定为“电影/电视节目”,并且对应的可执行意图或域可被确定为“查找电影/电视节目”。在该示例中,可通过根据媒体类型“电影/电视节目”执行针对“James Bond”的媒体搜索来实现媒体相关的请求。具体地,可针对媒体人物“James Bond”搜索电影和电视节目数据库来实现媒体相关的请求。在另一个示例中,基于媒体相关的请求“Taylor Swift”,媒体类型可被确定为“音乐”,并且对应的可执行意图或域可被确定为“查找音乐”。在该示例中,可通过针对歌手“Taylor Swift”搜索音乐数据库(例如,在iTunes音乐服务上执行搜索)来实现媒体相关的请求。
在一些示例中,用于确定初级用户意图的自然语言处理可偏向于媒体相关的用户意图。具体地,可训练自然语言处理模块来识别用于触发知识本体中的媒体相关的节点的媒体相关的字词和短语(例如,媒体标题、媒体分类、演员、MPAA电影评级标签等)。例如,自然语言处理模块可将文本表示中的短语“Jurassic Park”识别为电影标题,并由此触发与搜索媒体项的可执行意图相关联的知识本体中的“媒体搜索”节点。在一些示例中,可通过将知识本体中的节点限制于预先确定组的媒体相关的节点来实现偏置。例如,该组媒体相关的节点可以是与媒体设备的应用程序相关联的节点。此外,在一些示例中,相比于与媒体不相关的候选用户意图,可对与媒体相关的候选用户意图进行更重的加权来实现偏置。
在一些示例中,可从独立设备(例如,DA服务器106)获取初级用户意图。具体地,音频数据可被传输到独立设备以执行自然语言处理。在这些示例中,媒体设备可(例如,经由被传输到具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使自然语言处理偏向媒体相关的用户意图。
可进一步训练自然语言处理模块以识别各种语言和区域中的媒体相关的术语的语义。例如,自然语言处理模块可识别出“Arnold Schwarzenegger”、“阿诺德施瓦辛格”和均指同一演员。此外,电影标题可因不同的语言和地区而异。例如,美国电影“Live Free or Die Hard”在英国被命名为“Die Hard 4.0”。在另一个示例中,美国电影“Top Gun”在以色列被命名为“Love in the Skies”。因此,自然语言处理模块可被配置为识别英语中的“Top Gun”和希伯来语中的“Love in the Skies”均指同一电影。
在一些示例中,自然语言处理模块可被配置为基于媒体相关的请求中的模糊术语来识别预期参数值。具体地,自然语言处理模块可确定模糊术语与一个或多个参数值之间的联系强度(例如,相关性、突出性、语义相似性等)。可将与模糊术语联系度最强的参数值确定为预期参数值。例如,媒体相关的请求可以是:“为我显示一些好的电影。”术语“好”可以是模糊的,因为其没有明确定义特定的参数值。在该示例中,基于与术语“好”的联系强度,自然语言处理模块可确定“好”是指大于预先确定值的平均用户评级参数值。
在一些示例中,可在确定初级用户意图之前确定初步用户意图。初步用户意图可包括使用在框506处接收的音频输入的一部分(但不是整个音频输入)来确定可执行意图或域。确定初步用户意图的过程可不太稳健,并且因此比确定初级用户意图更快。这可允许在仍在接收音频输入时确定初步用户意图。确定初步用户意图可允许预取到满足媒体相关的请求所需的数据,从而减少数字助理的响应时间。例如,媒体相关的请求可以是:“下午7点有什么在播放?”基于该请求的第一部分“……有什么在播放”可确定初步用户意图为“搜索频道节目”。基于该初步用户意图,可识别满足该初步用户意图所需的数据。具体地,可确定的是将需要用户的订阅信息来确定对于用户可用的频道。然后可确定与那些频道对应的节目。数字助理可初始确定所需数据是否已被存储在媒体系统或数字助理服务器上。根据确定在确定初步用户意图时数据被存储在媒体系统或数字助理服务器上,可在确定初级用户意图时检索数据。根据确定在确定初步用户意图时数据未被存储在媒体系统或数字助理上,可在确定初级用户意图时获取所需数据。例如,数字助理可在没有用户干预的情况下自动地与用户的订阅服务提供方进行通信并检索对于用户可用的频道。
如图5A所示,过程500的框510可包括框512至框518中的一个或多个框。在过程500的框512处,可确定初级用户意图是否包括用于缩窄与初级媒体项组604对应的初级媒体搜索查询的用户意图。换句话讲,可在框510处确定框506的媒体相关的请求是否是用于将先前接收的媒体搜索请求缩窄的请求。在一些示例中,确定初级用户意图是否包括缩窄初级媒体搜索查询的用户意图可包括确定媒体相关的请求是否包括与缩窄初级媒体搜索查询的用户意图对应的预先确定的字词或短语。预先确定的字词或短语可包括多个细化术语中的一个细化术语。例如,预先确定的字词或短语可指示用于缩窄在媒体搜索请求之前所接收的先前媒体搜索请求的显式请求。此外,在一些示例中,可基于媒体相关的请求中的预先确定的字词或短语的位置(例如,在媒体相关的请求的起始、中间或结束时)而进行确定。
在图6B至图6C所示的示例中,媒体相关的请求可以是:“仅需要Jack Ryan出演的那些电影。”可在自然语言处理期间解析与该媒体相关的请求对应的文本表示612,以确定媒体相关的请求是否包括与缩窄初级媒体搜索查询的用户意图对应的预先确定的字词或短语。与缩窄初级媒体搜索查询的用户意图对应的预先确定的字词或短语的示例可包括“仅”、“只”、“用……筛选”,“哪些”等。在该示例中,基于位于媒体相关的请求的开始处的预先确定的字词“仅”可确定初级用户意图包括缩窄与初级媒体项组604对应的初级媒体搜索查询的用户意图。具体地,可确定初级用户意图是缩窄对最近10年中发行的动作电影的搜索范围以便仅包括具有人物Jack Ryan的媒体项。应当认识到,可实施其他技术来确定初级用户意图是否包括缩窄与初级媒体项组604对应的初级媒体搜索查询的用户意图。此外,应当认识到,初级用户意图可基于一个或多个先前用户意图,该一个或多个先前用户意图对应于在框506的媒体搜索请求之前所接收的一个或多个先前媒体搜索请求。
根据确定初级用户意图包括缩窄与初级媒体项组604对应的初级媒体搜索查询的用户意图,可执行框520至框534中的一个或多个框。
在过程500的框520处,可获取第二初级媒体项组612以满足初级用户意图。框520可包括生成与初级用户意图对应的第二初级媒体搜索查询。该第二初级媒体搜索查询可基于媒体相关的请求(例如,“仅需要Jack Ryan出演的那些电影”)和初级媒体搜索查询(例如,“最近10年的动作电影”)。具体地,第二初级媒体搜索查询可包括参数值组。该参数值组可包括在媒体相关的请求中定义的一个或多个参数值以及初级媒体搜索查询的一个或多个参数值。例如,第二初级媒体搜索查询可以是用于搜索媒体类型为“电影”、媒体分类为“动作”、发行日期为“最近10年”并且具有媒体人物“Jack Ryan”的媒体项的查询。作为另外一种选择,第二初级媒体搜索查询可以是用于筛选初级媒体项组604的查询,并且仅识别媒体项组604的具有媒体人物“Jack Ryan”的媒体项。第二初级媒体搜索查询可由自然语言处理模块(例如,自然语言处理模块432)基于初级用户意图生成。
框520还可包括执行第二初级媒体搜索查询,以获取第二初级媒体项组612。可通过在一个或多个媒体数据库中搜索满足第二初级媒体搜索查询的参数值要求的媒体项来执行第二初级媒体搜索查询。该第二初级媒体项组中的每个媒体项可与参数值组相关联。该参数值组可包括初级媒体搜索查询中的一个或多个参数值以及在框506的媒体相关的请求中定义的一个或多个参数值。此外,第二初级媒体项组612中的每个媒体项可与相关性得分相关联。相关性得分可指示媒体项满足初级用户意图的可能性。例如,较高的相关性得分可指示媒体项满足初级用户意图的可能性较高。第二初级媒体搜索查询可由任务流处理模块(例如,任务流处理模块436)执行。
在通过基于(例如,经由键盘界面接收的)先前接收的媒体搜索请求执行字符串搜索来获取初级媒体项组604的示例中,可通过搜索初级媒体项组604来执行第二初级媒体搜索查询,以用于满足媒体相关的请求(例如,“Jack Ryan”)中所定义的参数值要求的媒体项。具体地,可首先获取与初级媒体项组604相关联的参数值。然后,可通过使用所得的参数值并基于媒体相关的请求中所定义的参数值执行结构化搜索来获取第二初级媒体项组612。
在过程500的框522处,可经由用户界面602来在显示单元上显示第二初级媒体项组612。具体地,如图6C所示,可利用对第二初级媒体项组612的显示来替换对显示单元上的初级媒体项组604的显示。可根据与每个媒体项相关联的相关性得分来显示第二初级媒体项组612。例如,参考图6C,第二初级媒体项组612可在用户界面602上从左到右按相关性得分降序排列。
在过程500的框524处,可获取附加媒体项组。可获取附加媒体项组来向用户提供可能与初级用户意图有关的另选选项。如图5B所示,框524可包括框526至框532。
在过程500的框526处,可识别与第二初级媒体项组612相关联的核心参数值组。可从第二初级媒体搜索查询中的参数值组识别核心参数值组。具体地,可识别和忽略参数值组中的非突出参数值。忽略非突出参数值之后,参数值组中的剩余参数值可被识别为核心参数值组。非突出参数值可以是预先确定的参数值,诸如例如媒体发行日期范围、媒体类型、媒体提供方、媒体质量评级、免费或付费媒体、直播或点播媒体等。核心参数值组的参数值可比参数值组的参数值少。
在图6C的示例中,第二初级媒体搜索查询中的参数值组包括参数值“动作电影”、“最近10年”和“Jack Ryan”。在该示例中,参数值“最近10年”可被识别为非突出参数值(例如,媒体发行日期范围)并被移除。因此,剩余的参数值“动作电影”和“Jack Ryan”可被识别为核心参数值组。
在过程500的框528处,可识别一个或多个附加参数值。可基于可能反映用户媒体消费兴趣的信息来识别一个或多个附加参数值。例如,可基于用户的媒体选择历史、用户的媒体搜索历史、或用户观看列表中的媒体项来识别一个或多个附加参数值。除此之外或作为另外一种选择,可基于多个用户的媒体选择历史来识别一个或多个附加参数值,这可指示当前在媒体设备的用户中最流行的媒体项的参数值。在一些示例中,识别一个或多个附加参数值的方法可类似于在框560处描述的确定其他相关的参数值的方法。
返回到图6C的示例,可确定由Ben Affleck主演的动作电影受媒体设备的用户欢迎。此外,可确定用户最近搜索或选择过由Ben Affleck主演的电影。因此,在该示例中,“Ben Affleck”可被识别为一个或多个附加参数值中的参数值。
在过程500的框530处,可生成一个或多个附加媒体搜索查询。该附加媒体搜索查询可基于框526处所识别的核心参数值组。此外,附加媒体搜索查询可基于在框528处识别的一个或多个附加参数值。例如,在图6C中,一个或多个附加媒体搜索查询可包括对JackRyan(核心参数值组)出演的动作电影的搜索和对由Ben Affleck(在框528处识别的附加参数值)主演的动作电影的搜索。
框526至框530可由自然语言处理模块(例如,自然语言处理模块432)执行。具体地,自然语言处理模块可识别核心参数值组(在框526处)和一个或多个附加媒体搜索查询(在框528处),以确定一个或多个附加用户意图。然后,自然语言处理模块可基于一个或多个附加用户意图来生成一个或多个附加媒体搜索查询(例如,上面参考图4B描述的结构化查询)。
在过程500的框532处,可执行框530的一个或多个附加媒体搜索查询。例如,可通过在一个或多个媒体数据库中搜索满足附加媒体搜索查询的媒体项来执行一个或多个附加媒体搜索查询。所使用的媒体数据库可基于正在搜索的媒体类型。例如,音乐数据库可用于涉及音乐的媒体搜索查询,并且电影/电视节目数据库可用于涉及音乐/电视节目的媒体搜索查询。因此,可通过执行框530的一个或多个附加媒体搜索查询来获取一个或多个附加媒体项组614。具体地,在图6C中,可通过搜索Jack Ryan出演的动作电影来获取附加媒体项组616(例如,电影“Patriot Games”、“Clear and Present Danger”等),并且可通过搜索由youBen Affleck主演的动作电影来获取附加媒体项组618(例如,电影“The Sum of AllFears”、“Daredevil”等)。框532可由任务流处理模块(例如,任务流处理模块436)执行。
应当认识到,上述框524的某些方面可类似地应用于框546或框562。
在过程500的框534处,可在显示单元上显示一个或多个附加媒体项组。例如,如图6C所示,可经由用户界面602来显示附加媒体项组616和618。附加媒体项组616和618可用于向用户提供可能使用户感兴趣的附加选项。增加用户找到和选择媒体项以用于消费而不必请求其他搜索的可能性可能是期望的,这可减少浏览时间并改善用户体验。
显示媒体项组的方式可反映相应用户意图对应于用户实际意图的可能性。例如,如图6C所示,第二初级媒体项组与初级用户意图(最可能反映实际用户意图的用户意图)相关联,并且被显示在用户界面602的顶行中。一个或多个附加媒体项组616和618与附加用户意图(不太可能反映实际用户意图的用户意图)相关联,并且被显示在用户界面602中的顶行下方的一个或多个后续行中。此外,相比于与附加媒体项组618相关联的附加用户意图,与附加媒体项组616相关联的附加用户意图可更可能反映实际的用户意图。因此,在该示例中,可将附加媒体项组618显示在附加媒体项组616下面的行中。虽然在本示例中,媒体项组以行显示,但应当认识到,在其他示例中,还可实现其他显示布局。
再次参考框512,根据确定初级用户意图不包括缩窄初级媒体搜索查询的用户意图,可执行框514至框518或框536至框548中的一个或多个框。
在过程500的框514处,可确定初级用户意图是否包括执行新的媒体搜索查询的用户意图。在一些示例中,可基于媒体相关的请求中的显式字词或短语来进行确定。具体地,可确定媒体相关的请求是否包括与执行新的媒体搜索查询的用户意图对应的字词或短语。该字词或短语可以是预先确定的自此,例如“为我显示”、“查找”、“搜索”、“……出演的其他电影”等。此外,在一些示例中,可基于媒体相关的请求中的字词或短语的位置(例如,媒体相关的请求的起始、中间或结束时)来进行确定。在特定示例中,媒体相关的请求可以是:“为我显示一些Jack Ryan的电影。”基于在该媒体相关的请求开始处的字词“为我显示”,可确定初级用户意图是对Jack Ryan出演的电影执行新的媒体搜索查询。
在不存在指示用户意图的显式字词或短语(例如,“为我显示”、“查找”、“搜索”等)的情况下,框514处的确定可基于与一个或多个媒体项的参数值对应的字词或短语。例如,如图6D所示,媒体相关的请求可以是:“Jack Ryan”。在该示例中,媒体相关的请求不包括用户意图是否缩窄初级媒体搜索查询或执行新搜索的任何明确指示。然而,数字助理可识别出“Jack Ryan”对应于一个或多个媒体项的参数值。具体地,可确定“Jack Ryan”是与多个电子书和电影相关联的媒体人物。基于这些参数值,初级用户意图可被确定为对具有人物Jack Ryan的电子书和电影执行新的媒体搜索查询。与一个或多个媒体项的参数值对应的字词或短语的其他示例可包括“Tom Cruise”、“Jurassic Park”、“Spy movies”、“SeanConnery”、“卡通”、“Frozen”等。
根据确定初级用户意图包括执行新的媒体搜索查询的用户意图,可执行框536至框548中的一个或多个框。在过程500的框536处,可根据初级用户意图来获取第三初级媒体项组。框536可类似于框520。具体地,框536可包括基于媒体相关的请求来生成第三初级媒体搜索查询。该第三初级媒体搜索查询可对应于执行新的媒体搜索查询的初级用户意图。具体地,第二初级媒体搜索查询可包括在媒体相关的请求中定义的一个或多个参数值。例如,参考图6D,所生成的第三初级媒体搜索查询可以是用于搜索具有媒体人物“Jack Ryan”的媒体项的查询。
框536还可包括执行第三初级媒体搜索查询,以获取第三初级媒体项组620。可通过在一个或多个媒体数据库中搜索满足第三初级媒体搜索查询的参数值要求的媒体项来执行第三初级媒体搜索查询。第三初级媒体项组620中的每个媒体项可包括在媒体相关的请求中定义的一个或多个参数值。具体地,在本示例中,第三初级媒体项组620中的每个媒体项可包括作为媒体人物的“Jack Ryan”。
在一些示例中,可根据与媒体相关的请求相关联的媒体类型来执行第三初级媒体搜索查询。如上所述,可在框510处确定与媒体相关的请求相关联的媒体类型,同时确定初级用户意图。用于执行第三初级媒体搜索查询的应用程序或数据库可特定于所确定的媒体类型。在一个示例中,如果确定媒体类型为音乐,则可使用音乐搜索应用程序和/或音乐数据库(例如,iTunes商店应用程序)来执行第三初级媒体搜索查询,而不是例如电影数据库。
在一些示例中,媒体相关的请求可与多于一种媒体类型相关联。例如,媒体相关的请求“Frozen”可与若干个媒体类型诸如电影/电视节目、音乐(例如,原声带)和电子书相关联。当执行第三初级媒体搜索查询时,可从一个或多个媒体数据库获取与各种媒体类型相关联的多个媒体项。每个媒体项可与相关性得分相关联。相关性得分可指示相应媒体项相对于第三初级媒体搜索查询的相关程度。此外,相关性得分可特定于从中获取候选媒体项的媒体数据库。在一些示例中,为了基于同一标准比较来自不同数据库的媒体项,可对多个候选媒体项执行归一化排名。具体地,可在一个或多个媒体数据库中对相关性得分进行归一化,并且归一化的相关性得分可用于对候选媒体项执行归一化排名。例如,通用媒体搜索应用程序或数据库(例如,Apple OS X或iOS的Spotlight)可用于执行第三初级媒体搜索查询。通用媒体搜索应用程序或数据库可以是数字助理外部的服务。使用通用媒体搜索应用程序或数据库,可从各种源或数据库(例如,iTunes商店、应用商店、iBook、存储在用户设备上的媒体项等)获取相关媒体项,并且可基于归一化的相关性得分来对相关媒体项进行排名。然后,可在框540处根据归一化排名对媒体项进行排序和显示,以供用户选择。
用于获取第三初级媒体项组的一个或多个数据库可包括从各种源导出的信息。在一些示例中,一个或多个数据库可包括来自一个或多个媒体评论家评论的信息。媒体评论家评论可由例如专业媒体评论家、记者、博主、社交媒体服务用户等创作。在示例性示例中,一个或多个媒体评论家评论可包括某个短语诸如“飞车追逐”来描述电影诸如“Bullitt”、“The Bourne Identity”或“Fast Five”。可从一个或多个媒体评论家评论中提取短语“飞车追逐”作为参数值,并且该参数值可与媒体数据库中这些电影中的一个或多个电影相关联。因此,对于媒体相关的请求“为我显示具有精彩的飞车追逐的电影”,所生成的对应第三初级媒体搜索查询可以是搜索具有参数值“飞车追逐”的电影。如此,在搜索一个或多个数据库时,可获取候选媒体项诸如“Bullitt”、“The Bourne Identity”或“Fast Five”。
在其他示例中,一个或多个数据库可包括从各种电影、视频或电视节目的隐藏式字幕中导出的信息。具体地,可基于隐藏式字幕来提取一个或多个参数值。例如,电影诸如“Bullitt”,“The Bourne Identity”或“Fast Five”的隐藏式字幕可包括字幕“[Tirescreeching(轮胎吱嘎尖啸)]”)的若干个示例,以指示与飞车追逐相关联的声音。基于该字幕,这些电影中的一个或多个电影可与媒体数据库中的参数值“飞车追逐”相关联。因此,当执行第三初级媒体搜索查询时,可识别与该参数值相关联的候选媒体项(例如,“Bullitt”、“The Bourne Identity”、“Fast Five”等)。
在一些示例中,媒体相关的请求可以是以用户界面602所聚焦的媒体项为基础的媒体搜索请求。例如,在框506处接收到媒体相关的请求时,用户界面602的光标609可位于媒体项611上。可确定媒体相关的请求是否是请求获取类似于媒体项611的一组另选媒体项。在一个示例中,媒体相关的请求可以是:“与这个更加类似”。在该示例中,可基于光标609的位置上下文来确定“这个”是指媒体项611。因此,可确定媒体相关的请求是请求获取类似于媒体项611的一组另选媒体项。响应于确定媒体相关的请求是请求获取类似于媒体项611的一组另选媒体项,可在框536处获取第三初级媒体项组,其中第三初级媒体项组中的每个媒体项包括媒体项611的一个或多个参数值。例如,在一个示例中,媒体项611可以是动作电影“卧虎藏龙”。在该示例中,所得第三初级媒体项组可包括共享该电影的一个或多个参数值的媒体项。具体地,所得的第三初级媒体项组可例如包括由Ang Lee导演的电影,包括武术场景,或者明星Chow Yun-Fat、Michelle Yeoh或Zhang Ziyi。
应当认识到,框536的某些方面可类似地应用于框520、框524、框546、框562或框566。
在过程500的框538处,可确定是否可获取与第三初级媒体搜索查询对应的至少一个媒体项。在框536处执行第三初级媒体搜索查询时,可确定通过搜索查询获取(或可获取)的媒体项的数量。如果获取的媒体项的数量是一个或多个,则可确定可获取与第三初级媒体搜索查询对应的至少一个媒体项。例如,针对媒体相关的请求“Jack Ryan”的第三初级媒体搜索查询可返回至少电影“Patriot Games”和“Clear and Present Danger”。因此,在该示例中,可确定可获取与第三初级媒体搜索查询对应的至少一个媒体项。根据确定可获取与第三初级媒体搜索查询对应的至少一个媒体项,可执行框540。如在下面的描述中将变得显而易见的,框538处的确定可能是期望的,以确保在框536处执行的第三初级媒体搜索查询获取至少一个媒体项。这样可防止出现针对媒体搜索请求没有媒体项显示的情况,并且可使用户省去必须提供另一媒体搜索请求的麻烦,这改善了用户体验。
在过程500的框540处,可经由用户界面602来在显示单元上显示第三初级媒体项组620。具体地,如图6E所示,可利用对第三初级媒体项组620的显示来替换对显示单元上的初级媒体项组604的显示。框540可类似于框522。可根据与每个媒体项相关联的相关性得分来显示第三初级媒体项组620。例如,参考图6E,第三初级媒体项组612可在用户界面602上从左到右按相关性得分降序排列。
再次参考框538,在一些示例中,可确定不能获取与第三初级媒体搜索查询对应的至少一个媒体项。例如,来自STT处理的媒体相关的请求或对应文本表示可定义不正确的参数值或与用户实际想要的那些参数值不同的参数值。在一个此类示例中,如图6F所示,媒体相关的请求可以是“Jackie Chan和Chris Rucker”。在该示例中,通过执行与该媒体相关的请求对应的第三初级媒体搜索查询无法获取媒体项,因此可确定不能获取与第三初级媒体搜索查询对应的至少一个媒体项。在其他示例中,媒体相关的请求可定义不兼容的参数,诸如“Jackie Chan”和“Spiderman”或“暴力画面”和“适合幼儿”。根据确定不能获取与第三初级媒体搜索查询对应的至少一个媒体项,可执行框542至框548以向用户呈现可能满足用户实际意图的另选结果。
在过程500的框542处,可识别第三初级媒体搜索查询的最不相关的参数值。具体地,可基于诸如具有参数值的媒体项的流行度、参数值在先前媒体搜索请求中的出现频率或参数值在媒体项总体中的出现频率等因素来确定第三初级媒体搜索查询中的每个参数值的突出性得分。最不相关的参数值可被识别为突出性得分最低的参数值。例如,在参数值“Jackie Chan”和“Chris Rucker”之间,参数值“Chris Rucker”可具有较低的突出性得分,因为Chris Rucker是足球运动员,而Jackie Chan是受欢迎的演员。因此,与Chris Rucker相比,Jackie Chan与更多媒体项和先前媒体搜索查询相关联。因此,在该示例中,可将参数值“Chris Rucker”确定为最不相关的参数值。
在过程500的框544处,可确定一个或多个另选参数值。可基于所识别的最不相关的参数值来确定一个或多个另选参数值。例如,可在所识别的最不相关的参数值与数据结构中的多个媒体相关的参数值之间执行模糊字符串匹配。具体地,数据结构中的在预先确定的阈值内具有最短编辑距离的参数值可被确定为另选参数值。例如,基于参数值“ChrisRucker”的模糊字符串匹配,可确定参数值“Chris Tucker”在数据结构中的多个媒体相关的参数值中具有最短编辑距离。因此,在该示例中,可将“Chris Tucker”确定为另选参数值。
除此之外或作为另外一种选择,可基于第三初级媒体搜索查询中的其他参数值(例如,除最不相关的参数值之外的参数值)来确定一个或多个另选参数值。具体地,可确定与第三初级媒体搜索查询中的其他参数值密切相关的参数值。例如,基于存在由“JackieChan”主演并且具有参数值“动作电影”和“武术”的多个媒体项,可确定参数值诸如“动作电影”和“武术”与参数值“Jackie Chan”密切相关。
在过程500的框546处,可获取第四初级媒体项组以满足初级用户意图。框546可类似于框520。具体地,可生成一个或多个另选初级媒体搜索查询。可使用在框544处确定的一个或多个另选参数值来生成一个或多个另选初级搜索查询。例如,在图6F至图6G中,其中媒体相关的请求是“Jackie Chan和Chris Rucker”,并且另选参数值被确定为“ChrisTucker”,另选初级搜索查询可以是搜索具有参数值“Jackie Chan”和“Chris Tucker”的媒体项。因此,在该示例中,最不相关的参数值可被更可能反映用户实际意图的另选参数值替换。然后,可执行一个或多个另选初级媒体搜索查询,以获取第四初级媒体项组628。在搜索具有参数值“Jackie Chan”和“Chris Tucker”的媒体项的本示例中,第四初级媒体项组628可包括电影,诸如“Rush Hour”、“Rush Hour 2”或“Rush Hour3”。
在过程500的框548处,可经由用户界面602在显示单元上显示第四初级媒体项组628。框548可类似于框522。具体地,如图6G所示,可利用对第四初级媒体项组628的显示来替换对显示单元上的初级媒体项组604的显示。
在过程500的框550处,可确定一个或多个先前用户意图是否存在。一个或多个先前用户意图可对应于在框506的媒体相关的请求之前所接收的一个或多个先前媒体相关的请求。先前媒体相关的请求的示例可包括与初级媒体搜索查询和框502的初级媒体项组604对应的先前接收的媒体相关的请求。可基于分析被存储在媒体设备(例如,媒体设备104)或服务器(例如,DA服务器106)上的先前用户意图的历史记录来作出确定。在一些示例中,当确定是否存在一个或多个先前用户意图时,仅考虑相关时间范围内的先前用户意图。相关时间范围可指代在接收到框506的媒体相关的请求之前的预先确定的时间范围。在其他示例中,相关时间范围可基于与数字助理的交互式会话。具体地,框506的媒体相关的请求可以是与数字助理的交互式会话的包括媒体相关的请求序列的一部分。在这些示例中,相关时间范围可以是从交互式会话发起的时间到交互式会话终止的时间。可确定交互式会话是否包含在框506的媒体相关的请求之前所接收的一个或多个先前媒体相关的请求。如果交互式会话包含一个或多个先前媒体相关的请求,则可确定存在一个或多个先前用户意图。因此,一个或多个先前用户意图和初级用户意图可与与数字助理的相同交互式会话相关联。相反,如果交互式会话不包含一个或多个先前媒体相关的请求,则可确定一个或多个先前用户意图不存在。响应于确定存在一个或多个先前用户意图,可执行框552。作为另外一种选择,响应于确定不存在一个或多个先前用户意图,可执行框560。
在过程500的框552处,可确定一个或多个次级用户意图。可基于框510的初级用户意图和在框550处确定存在的一个或多个先前用户意图来确定一个或多个次级用户意图。具体地,该一个或多个次级用户意图可包括初级用户意图和一个或多个先前用户意图的组合。在一些示例中,可基于用户在媒体设备上的媒体相关的请求历史来确定一个或多个先前用户意图。
返回到图6D至图6E的示例,初级用户意图可以是搜索具有人物“Jack Ryan”的媒体项的意图。在一个示例中,第一先前用户意图可以是搜索过去10年的动作电影的意图。此外,第二先前用户意图可以是搜索由Ben Affleck主演的媒体项的意图。因此,次级用户意图可以是这些用户意图中的两个或更多个用户意图的组合。具体地,一种次级用户意图可以是初级用户意图和第一先前用户意图的组合(例如,搜索过去10年中Jack Ryan出演的动作电影的用户意图)。另一次级用户意图可以是第一先前用户意图和第二先前用户意图的组合(例如,搜索最近10年中Ben Affleck主演的动作电影的用户意图)。可使用媒体设备的自然语言处理模块(自然语言处理模块432)来执行框552。如图5D所示,框552可包括框554至框560。
在过程500的框554处,可识别一个或多个先前用户意图中的不正确的用户意图。具体地,可分析一个或多个先前用户意图,以确定是否包括任何不正确的用户意图。如果先前用户意图被后续的先前用户意图显式地或隐式地指示为不正确,则可将先前用户意图确定为不正确。例如,一个或多个先前用户意图可包括与先前媒体相关的请求的以下序列对应的用户意图:
[A]“为我显示一些James Bond的电影。”
[B]“仅需要Daniel Smith出演的那些电影。”
[C]“不,我的意思是Daniel Craig。”
在该示例中,基于显式短语“不,我的意思是……”,可确定与请求[C]相关联的先前用户意图为校正与请求[B]相关联的先前用户意图的意图。因此,在该示例中,可确定与请求[C]之前的请求[B]相关联的先前用户意图不正确。应当理解,在其他示例中,请求[C]可隐式地指示请求[B]不正确。例如,请求[C]可仅为“Daniel Craig”。基于字符串“DanielCraig”到“Daniel Smith”的相似性以及与“Daniel Smith”相对的与参数值“DanielCraig”相关联的改进的相关性,可确定与请求[C]相关联的先前用户意图是校正与请求[B]相关联的先前用户意图的意图。
在其他示例中,可基于与先前用户意图不一致的媒体项的用户选择来确定先前用户意图是不正确的。例如,先前的请求可以是:“为我显示Russell Simmons制作的视频。”响应于此先前请求,包括由Russell Simmons制作的视频的初级媒体项组可能已被显示出来,以供用户选择。此外,与先前请求相关的附加媒体项组可与初级媒体项组一起显示。在该示例中,可确定用户选择了由“Richard Simmons”而不是“Russell Simmons”制作的附加媒体项组中的媒体项。基于对媒体项的用户选择与搜索由Russell Simmons制作的视频的先前用户意图不一致,可确定先前用户意图不正确。换句话讲,可确定正确的用户意图应当是搜索由“Richard Simmons”而不是“Russell Simmons”制作的视频。
根据确定一个或多个先前用户意图包括不正确的先前用户意图,不正确的先前用户意图不可用于确定一个或多个次级用户意图。具体地,可排除不正确的先前用户意图,因此不正确的先前用户意图不会用于在框556处生成用户意图的组合,以用于确定一个或多个次级用户意图。然而,在一些示例中,经校正的用户意图可用于生成用户意图的组合并确定一个或多个次级用户意图。例如,在上述各个示例中,与“Daniel Craig”相关联的经校正的先前用户意图(例如,搜索Daniel Craig出演的James Bond电影)以及与“RichardSimmons”相关联的校正后先前用户意图(例如,搜索由Richard Simmons制作的视频)可用于确定一个或多个次级用户意图。
在过程500的框556处,可基于初级用户意图和一个或多个先前用户意图来生成多个用户意图组合。在示例性示例中,媒体设备可能已接收到以下媒体相关的请求序列,其中初级用户意图与请求[G]相关联,并且一个或多个先前用户意图与请求[D]至[F]相关联。
[D]“电影主演Keanu Reeves。”
[E]“包含暴力画面的节目。”
[F]“适合幼儿的电影”
[G]“卡通。”
在该示例中,多个用户意图组合可包括初级用户意图和与请求[D]到[G]相关联的一个或多个先前用户意图的任何组合。一个示例性用户意图组合可以是搜索Keanu Reeves主演的有暴力画面的电影(例如,基于请求[D]和[E]的组合)。另一示例性用户意图组合可以是搜索适合幼儿的卡通电影(例如,基于请求[F]和[G]的组合)。
在过程500的框558处,可排除不兼容的用户意图组合。具体地,可识别不兼容的用户意图组合,并且基于所识别的不兼容的用户意图组合不可确定一个或多个次级用户意图。在一些示例中,不兼容的用户意图组合可以是不与任何媒体项对应的用户意图组合。具体地,对于每个用户意图组合,可执行相应媒体搜索。如果特定媒体搜索没有获取媒体项,则可将相应用户意图组合确定为不兼容的用户意图组合。例如,用户意图组合可基于上述请求[E]和[F]。在该示例中,可对包含暴力画面的适合儿童的电影执行相应媒体搜索。然而,此类媒体搜索可能不会得出任何媒体项。因此,在该示例中,基于请求[E]和[F]的用户意图组合可被确定为不兼容的用户意图组合。应当理解,在其他示例中,可建立不同的预先确定的阈值,以用于确定不兼容的用户意图组合。例如,无法与大于预先确定数量的媒体项对应的用户意图组合可被确定为不兼容。
在其他示例中,可基于与用户意图组合相关联的参数值来确定不兼容的用户意图组合。具体地,某些参数值可被预先确定为不兼容。例如,参数值“暴力画面”可被预先确定为与参数值“适合幼儿”不兼容。因此,包含被预先确定为不兼容的两个或更多个参数值的用户意图组合可被确定为不兼容的用户意图组合。此外,还可预先确定某些参数需要单一值。例如,“媒体标题”、“媒体类型”和“美国电影协会电影评级”的参数在用户意图组合中可各自与不多于一个参数值相关联。具体地,用于搜索电影的第一用户意图和用于搜索歌曲的第二用户意图的组合将是不兼容的组合。因此,如果用户意图组合对于被预先确定为需要单一值的参数包含多于一个参数值,则可确定该用户意图组合是不兼容的。可排除不兼容的用户意图组合,使得这些组合不会在框552处用于确定一个或多个次级用户意图。具体地,一个或多个次级用户意图不会包括任何不兼容的用户意图组合。从考虑范围中去除不兼容的用户意图组合可能是期望的,以增加针对用户选择显示的媒体项的相关性。
可基于未被确定为不兼容的剩余用户意图组合来确定一个或多个次级用户意图。具体地,可合并每个剩余用户意图组合中的用户意图,以生成一个或多个次级用户意图。此外,剩余用户意图组合中的每个用户意图可与至少一个媒体项(或至少预先确定数量的媒体项)相关联。在一些示例中,一个或多个次级意图可包括一个或多个剩余用户意图组合。
返回到上述具有请求[D]至[G]的示例,一个或多个次级用户意图中的次级用户意图可包括初级用户意图(例如,与请求[G]相关联的初级用户意图)和一个或多个先前用户意图中的先前用户意图(例如,与请求[F]相关联的先前用户意图)的组合。例如,次级用户意图可以是针对适合幼儿的卡通电影的媒体搜索。另外,一个或多个次级用户意图中的次级用户意图可包括一个或多个先前用户意图中的两个或更多个先前用户意图(例如,与请求[D]和[E]相关联的先前用户意图)的组合。例如,次级用户意图可以是对Keanu Reeves主演的具有暴力画面的电影的媒体搜索。
在过程500的框560处,可基于其他相关的参数值来生成一个或多个次级用户意图。在框560处确定的一个或多个次级用户意图可以是在框552处确定的一个或多个次级意图的补充或替代。其他相关的参数值可基于除用户在媒体设备上的媒体搜索历史之外的信息。具体地,用于确定其他相关的参数值的信息可反映用户的媒体兴趣和习惯,由此可合理地预测用户的实际意图。
在一些示例中,其他相关的参数值可基于用户在媒体设备上的媒体选择历史。具体地,其他相关的参数值可包括与先前由用户选择以用于消费的(例如,在框506处接收媒体相关的请求之前选择的)媒体项相关联的参数值。在一些示例中,其他相关的参数值可基于用户在媒体设备上的媒体观看列表。媒体观看列表可以是媒体项的用户定义的列表,该媒体项是用户感兴趣的或希望在不久的将来消费的。因此,与用户选择历史或用户媒体观看列表相关联的参数值可反映用户的媒体兴趣或习惯。在一些示例中,其他相关参数可基于用户在媒体设备外部的设备上的媒体搜索历史。具体地,可从外部媒体设备获取在外部媒体设备(例如,用户设备122)上执行的媒体相关搜索的历史记录。这些媒体相关搜索可以是网页搜索、iTunes商店搜索、在设备上的本地媒体文件搜索等。因此,其他相关的参数值可包括从外部媒体设备的媒体相关搜索历史导出的参数值。
在一些示例中,其他相关的参数值可基于用户界面所聚焦的媒体项。例如,参考图6A,在框506处接收到媒体相关的请求时,光标609可位于媒体项611上。因此,可确定在框506处接收到媒体相关的请求时,用户界面602的焦点位于媒体项611上。在该示例中,其他相关的参数值可与媒体项611上下文相关。具体地,其他相关的参数值可包括媒体项611的一个或多个参数值。在一些示例中,在框506处接收到媒体相关的请求时,其他相关的参数值可基于与被显示在显示单元上的媒体项相关联的文本。例如,在图6A中,在框506处接收到媒体相关的请求时,可在显示单元上显示与初级媒体项组604和次级媒体项组606相关联的多个文本。该多个文本可描述相关联的媒体项的参数值。因此,其他相关的参数值可包括由该多个文本描述的一个或多个参数值。
应当认识到,媒体设备内部或外部的其他信息可用于确定其他相关的参数值。例如,在一些示例中,可与在框528处识别的附加参数值类似的方式来确定其他相关的参数值。
可针对框552和框560的一个或多个次级用户意图中的每个次级用户意图来确定排名得分。排名得分可表示次级用户意图对应于用户的实际用户意图的可能性。在一些示例中,较高的排名得分可表示相应次级用户意图对应于实际用户意图的较高可能性。如下所述,可基于用于导出一个或多个次级用户意图的类似信息来确定排名得分。
在一些示例中,可基于用户或多个用户的媒体相关的请求历史(例如,媒体搜索历史)来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。具体地,可基于媒体相关的请求中的每个媒体相关的请求和一个或多个先前媒体相关的请求被接收的时间和顺序来确定排名得分。相比于基于更早接收的媒体相关的请求的次级用户意图,基于更近期接收的媒体搜索请求的次级用户意图可更有可能具有更高的排名得分。例如,在上述请求[D]至[G]的示例中,请求[G]可以是最近接收的媒体相关的请求,而请求[D]可以是最早接收的媒体相关的请求。在该示例中,相比于基于请求[D]的次级用户意图,基于请求[G]的次级用户意图可更有可能具有更高的排名得分。
此外,排名得分可基于用户或多个用户的媒体相关的请求历史中的参数值的出现频率。例如,如果在用户的媒体相关的请求历史或多个用户的媒体相关的请求历史中,参数值“Keanu Reeves”比参数值“暴力画面”出现更频繁,则相比于包含参数值“暴力画面”的次级用户意图,包含参数值“Keanu Reeves”的次级用户意图可更可能具有更高的排名得分。
在一些示例中,可基于用户或多个用户的选择历史来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。用户选择历史可包括先前由用户或多个用户选择用于消费的媒体项的列表。相比于不包括任何先前选择的媒体项的参数值的次级用户意图,包括一个或多个先前选择的媒体项的参数值的次级用户意图可更有可能具有更高的排名得分。另外,相比于包括更早选择的媒体项的参数值的次级用户意图,包括更近期选择的媒体项的参数值的次级用户意图可更有可能具有更高的排名得分。此外,相比于参数值在先前选择的媒体项中出现频率较低的次级用户意图,参数值在先前选择的媒体项中出现频率较高的次级用户意图可更有可能具有更高的排名得分。
在一些示例中,可基于用户或多个用户的媒体观看列表来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。例如,相比于不包括媒体观看列表上的任何媒体项的参数值的次级用户意图,包括媒体观看列表上的一个或多个媒体项的参数值的次级用户意图可更有可能具有更高的排名得分。
在过程500的框562处,可获取一个或多个次级媒体项组。框562可类似于框520。具体地,可生成与框552和/或框560的一个或多个次级用户意图对应的一个或多个次级媒体搜索查询。可执行一个或多个次级媒体搜索查询,以获取一个或多个次级媒体项组。例如,再次参考图6E,可针对最近10年中Jack Ryan出演的动作电影生成并执行第一次级媒体搜索查询来获取次级媒体项组624。另外,可针对最近10年中由Ben Affleck主演的动作电影生成并执行第二次级媒体搜索查询来获取次级媒体项组626。
在过程500的框564处,可在显示单元上显示一个或多个次级媒体项组。框564可类似于框534。如图6E所示,第三初级媒体项组620可被显示在用户界面602的顶行处。次级媒体项组624和626可被显示在用户界面602中的顶行下方的后续行中。后续行中的每一行可对应于框552和/或框560的一个或多个次级用户意图中的次级用户意图。
可根据对应的一个或多个次级用户意图的排名得分来显示一个或多个次级媒体项组。具体地,相比于与具有较低排名得分的次级用户意图对应的次级媒体项组,与具有较高排名得分的次级用户意图对应的次级媒体项组可更突出地显示(例如,在更靠近顶行的较高行中)。
再次参考框510,根据确定初级用户意图不包括执行新的媒体搜索查询的用户意图,可执行框516至框518中的一个或多个框。在过程500的框516处,可确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图。可基于指示校正初级媒体搜索查询的一部分的用户意图的显式字词或短语来进行确定。具体地,可确定媒体相关的请求是否包括指示修正初级媒体搜索查询的一部分的用户意图的预先确定的字词或短语。例如,参考图6H至图6I,媒体相关的请求可以是:“不,我的意思是冒险电影。”在该示例中,基于在媒体相关的请求开始处出现的显式短语“不,我的意思是……”可确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图。具体地,可确定初级用户意图为将初级媒体搜索查询从搜索最近10年的动作电影校正成搜索最近10年的冒险电影的用户意图。指示校正初级媒体搜索查询的一部分的用户意图的预先确定的字词或短语的其他示例可包括“不”、“不是”、“我的意思是”、“错误”等。
在其他示例中,可基于媒体相关的请求中的参数值和初级媒体搜索查询中的参数值之间的相似性来作出框516处的确定。例如,在一个示例中,与初级媒体搜索查询相关联的先前接收的媒体相关的请求可以是:“Jackie Chan和Chris Rucker”,媒体相关的请求可以是:“Chris Tucker”。基于所确定的参数值“Chris Rucker”和“Chris Tucker”之间的编辑距离小于预先确定的值,可确定初级用户意图包括将初级媒体搜索查询中的参数值“Chris Rucker”校正为“Chris Tucker”的用户意图。除此之外或作为另外一种选择,可比较表示“Chris Rucker”和“Chris Tucker”的音素序列。基于表示“Chris Rucker”的音素序列基本上类似于表示“Chris Tucker”的音素序列,可确定初级用户意图包括将初级媒体搜索查询中的“Chris Rucker”校正为“Chris Tucker”的用户意图。
此外,可比较参数值“Chris Rucker”与参数值“Chris Tucker”相对于参数值“Jackie Chan”的突出性。具体地,可使用参数值“Jackie Chan”来执行媒体搜索,以识别与Jackie Chan相关的媒体项组。“Chris Rucker”和“Chris Tucker”相对于“Jackie Chan”的突出性可基于与Jackie Chan相关的媒体项组中的与这两个参数值中的每个参数值相关联的媒体项的数量。例如,可确定相比于“Chris Rucker”,“Chris Tucker”在与Jackie Chan相关的媒体项组中与显著更多的媒体项相关联。因此,可确定相对于“Jackie Chan”,“Chris Tucker”的突出性显著大于“Chris Rucker”的突出性。基于该比较突出性,可确定初级用户意图包括在初级媒体搜索查询中校正“Chris Rucker”的用户意图。
根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图,当确定与媒体相关的请求相关联的一个或多个次级用户意图时(例如,框552),可将与初级媒体搜索查询相关联的先前用户意图从考虑范围中去除。例如,当确定一个或多个次级用户意图时,可从考虑范围中去除与先前接收的媒体相关的请求“Jackie Chan和Chris Rucker”相关联的先前用户意图。相反,当确定一个或多个次级用户意图时,可考虑与经校正的媒体相关的请求“Jackie Chan和Chris Tucker”相关联的用户意图。
另外,根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图,可执行框566至框568中的一个或多个框。在过程500的框566处,可获取第五初级媒体项组。框566可类似于框520。具体地,可生成与初级用户意图对应的第五初级媒体搜索查询。第五初级媒体搜索查询可基于媒体相关的请求和初级媒体搜索查询。具体地,可根据媒体相关的请求来校正初级媒体搜索查询的一部分,以生成第五初级媒体搜索查询。返回到初级媒体搜索查询为搜索由“Jackie Chan”和“Chris Rucker”主演的媒体项并且媒体相关的请求是“Chris Tucker”的示例,可校正初级媒体搜索查询以生成搜索由“Jackie Chan”和“Chris Tucker”主演的媒体项的第五初级媒体搜索查询。然后可执行第五初级媒体搜索查询,以获取第五初级媒体项组。
在过程500的框568处,可经由用户界面(例如,用户界面602)来在显示单元上显示第五初级媒体项组。具体地,可利用对第五初级媒体项组的显示来替换对初级媒体项组(例如,初级媒体项组604)的显示。框540可类似于框522。此外,在一些示例中,可执行框550至框564,以与第五初级媒体项组一起获取并显示一个或多个次级媒体项组,从而向用户提供附加选项。
再次参考510,根据确定初级用户意图不包括校正初级媒体搜索查询的一部分的用户意图,可执行框518。在过程500的框518处,可确定初级用户意图是否包括改变被显示在显示单元上的用户界面(例如,用户界面602)的焦点的用户意图。用户界面可包括多个媒体项。在一些示例中,可基于媒体相关的请求中的与改变用户界面焦点的用户意图对应的显式字词或短语来进行框518处的确定。在一个示例中,媒体相关的请求可以是:“转到TheDark Knight。”在该示例中,可确定短语“转到……”是与改变用户界面焦点的用户意图对应的预先确定的短语。与改变用户界面焦点的用户意图对应的预先确定的字词或短语的其他示例可包括“选择”、“移动到”、“跳转到”、“播放”、“购买”等。基于预先确定的字词或短语,可确定初级用户意图包括改变用户界面焦点的用户意图。
在其他示例中,可基于与用户界面中显示的媒体项对应的文本来隐式地作出框518处的确定。例如,参考图6A,媒体项604和606可与描述媒体项604和606的一个或多个参数值的文本相关联。具体地,文本可描述媒体项604和606的参数值,诸如媒体标题、演员、发行日期等。如上所述,该文本的至少一部分可结合相应媒体项而被显示在用户界面602上。可基于描述媒体项604和606的一个或多个参数值的文本来进行框518处的确定。在本示例中,媒体项613可以是电影“The Dark Knight”,并且文本可包括与媒体项613相关联的媒体标题“The Dark Knight”。基于确定媒体相关的请求中定义的参数值“The Dark Knight”匹配与媒体项613相关联的文本的媒体标题“The Dark Knight”,可确定初级用户意图包括将用户界面602的焦点从媒体项611改变到媒体项613的用户意图。应当认识到,在一些示例中,所显示的文本可不包括经由用户界面602而显示的媒体项的所有参数值。在这些示例中,框518处的确定还可基于未在所显示文本中描述的所显示媒体项的参数值。
根据确定初级用户意图包括改变用户界面的焦点的用户意图,可执行框570。在过程500的框570处,用户界面的焦点可从第一媒体项改变到第二媒体项。例如,参考图6K,用户界面602的光标609的位置可从媒体项611改变到媒体项613。在一些示例中,改变用户界面602的焦点可包括选择媒体项。例如,可在框570处选择媒体项613。选择媒体项613可使得与媒体项613相关联的信息将被显示(例如,电影预览信息)。除此之外或作为另外一种选择,选择媒体项613可使得与媒体项613相关联的媒体内容将在媒体设备上播放并将被显示在显示单元上。
虽然上面将过程500的某些框描述为由设备或系统(例如,媒体设备104、用户设备122或数字助理系统400)执行,但是应当认识到,在一些示例中,可将多于一个设备用于执行框。例如,在作出确定的框中,第一设备(例如,媒体设备104)可从第二设备(例如,服务器系统108)获取确定。因此,在一些示例中,进行确定可指获取确定。类似地,在显示内容、对象、文本或用户界面的框中,第一设备(例如,媒体设备104)可使得内容、对象、文本或用户界面显示在第二设备上(例如,显示单元126)。因此,在一些示例中,进行显示可指使得显示。
此外,应当认识到,在一些示例中,在用户界面中显示的项目(例如,媒体项、文本、对象、图形等)还可指被包括在用户界面中但不是直接对用户可见的项目。例如,可通过滚动到用户界面的适当区域,使用户界面中的所显示的项目变得对用户可见。
5.电子设备
根据一些示例,图7示出了电子设备700的功能框图,该电子设备根据所描述的各种示例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图7中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图7所示,电子设备700可包括:被配置为接收用户输入诸如触觉输入、手势输入和文本输入的输入单元703(例如,遥控器124等);被配置为接收音频数据的音频接收单元704(例如,麦克风272等);被配置为输出音频的扬声器单元706(例如,扬声器268等);以及被配置为经由网络从外部设备发送和接收信息的通信单元707(例如,通信子系统224等)。在一些示例中,电子设备700可以可选地包括被配置为显示媒体、用户界面和其他内容的显示单元702(例如,显示单元126等)。在一些示例中,显示单元702可位于电子设备700的外部。电子设备700还可包括耦接至输入单元703、音频接收单元704、扬声器单元706、通信单元707、以及可选的显示单元702的处理单元708。在一些示例中,处理单元708可包括显示启用单元710、检测单元712、确定单元714、音频接收启用单元716、获取单元718、识别单元720、接收单元722、排除单元724和生成单元726。
根据一些实施方案,处理单元708被配置为(例如,利用显示启用单元710)在显示单元上(例如,利用显示单元702或独立显示单元)显示初级媒体项组。处理单元708被进一步配置为检测用户输入(例如,利用检测单元712)。处理单元708被进一步配置为响应于检测到用户输入而在音频接收单元704处接收音频输入(例如,利用音频接收启用单元716)。该音频输入包含自然语言语音形式的媒体相关的请求。处理单元708被进一步配置为确定与媒体相关的请求对应的初级用户意图(例如,利用确定单元714)。处理单元708被进一步配置为确定初级用户意图是否包括缩窄与初级媒体项组对应的初级媒体搜索查询的用户意图(例如,利用确定单元714)。处理单元708被进一步配置为根据确定初级用户意图包括缩窄初级媒体搜索查询的用户意图,基于媒体相关的请求和初级媒体搜索查询来生成与初级用户意图对应的第二初级媒体搜索查询(例如,利用获取单元718),执行第二初级媒体搜索查询以获取第二初级媒体项组(例如,利用识别单元720)。处理单元708被进一步配置为利用对第二初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如,利用显示启用单元710)。
在一些示例中,确定初级用户意图是否包括缩窄初级媒体搜索查询的用户意图包括确定媒体相关的请求是否包括与缩窄初级媒体搜索查询的用户意图对应的字词或短语。
在一些示例中,第二初级媒体搜索查询包括在媒体相关的请求中定义的一个或多个参数值以及初级媒体搜索查询的一个或多个参数值。在一些示例中,基于初级媒体项组来获取第二初级媒体项组。
在一些示例中,第二初级媒体搜索查询包括参数值组。处理单元708被进一步配置为从该参数值组识别核心参数值组(例如,利用识别单元720),该核心参数值组的参数值比参数值组的参数值少。处理单元708被进一步配置为基于该核心参数值组来生成一个或多个附加媒体搜索查询(例如,利用获取单元718)。处理单元708被进一步配置为执行一个或多个附加媒体搜索查询以获取一个或多个附加媒体项组(例如,利用获取单元718)。处理单元708被进一步配置为在显示单元上显示一个或多个附加媒体项组(例如,利用显示启用单元710)。
在一些示例中,处理单元708被进一步配置为基于多个用户的媒体选择历史来来识别一个或多个附加参数值(例如,利用识别单元720)。使用一个或多个附加参数值来生成一个或多个附加媒体搜索查询。
在一些示例中,第二初级媒体项组被显示在显示单元上用户界面的顶行处,并且一个或多个附加媒体项组被显示在显示单元上的用户界面的一个或多个后续行处。
在一些示例中,处理单元708被进一步配置为根据确定初级用户意图不包括缩窄初级媒体搜索查询的用户意图,确定初级用户意图是否包括执行新的媒体搜索查询的用户意图(例如,利用确定单元714)。处理单元708被进一步配置为根据确定初级用户意图包括执行新的媒体搜索查询的用户意图,基于媒体相关的请求来生成与初级用户意图对应的第三初级媒体搜索查询(例如,利用获取单元718),确定是否可获取与第三初级媒体搜索查询对应的至少一个媒体项(例如,利用确定单元714)。处理单元708被进一步配置为根据确定可获取与第三初级媒体搜索查询对应的至少一个媒体项,执行第三初级媒体搜索查询以获取第三初级媒体项组(例如,利用获取单元718),并利用对第三初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如,利用显示启用单元710)。
在一些示例中,确定初级用户意图是否包括执行新的媒体搜索查询的用户意图还包括确定媒体相关的请求是否包括与执行新的媒体搜索查询的用户意图对应的字词或短语。在一些示例中,确定初级用户意图是否包括执行新的媒体搜索查询的用户意图还包括确定媒体相关的请求是否包括与一个或多个媒体项的参数值对应的字词或短语。
在一些示例中,处理单元708被进一步配置为执行第三初级媒体搜索查询(例如,利用获取单元718),其包括对多个候选媒体项执行归一化排名,其中该多个候选媒体项包括多个媒体类型。
在一些示例中,确定初级用户意图包括确定与媒体相关的请求相关联的媒体类型,其中根据所确定的媒体类型来执行第三初级媒体搜索查询。
在一些示例中,执行第三初级媒体搜索查询包括识别与参数值相关联的候选媒体项,该参数值被包括在所识别的候选媒体项的一个或多个媒体评论家评论中。
在一些示例中,执行第三初级媒体搜索查询包括识别与参数值相关联的候选媒体项,该参数值源于所识别的候选媒体项的隐藏式字幕信息。
在一些示例中,处理单元708被进一步配置为根据确定没有与第三初级媒体搜索查询对应的媒体项而识别第三初级媒体搜索查询的最不相关的参数值(例如,利用识别单元720)。处理单元708被进一步配置为基于所识别的最不相关的参数值来确定一个或多个另选参数值(例如,利用确定单元714)。处理单元708被进一步配置为使用一个或多个另选参数值来执行一个或多个另选初级媒体搜索查询以获取第四初级媒体项组(例如,利用获取单元718)。处理单元708被进一步配置为利用对第四初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如,利用显示启用单元710)。
在一些示例中,处理单元708被进一步配置为根据确定初级用户意图不包括缩窄初级媒体搜索查询的用户意图,基于初级用户意图和一个或多个先前用户意图来确定一个或多个次级用户意图(例如,利用确定单元714),该一个或多个先前用户意图对应于在媒体相关的请求之前接收的一个或多个先前媒体相关的请求。处理单元708被进一步配置为生成与一个或多个次级用户意图对应的一个或多个次级媒体搜索查询(例如,利用获取单元718)。处理单元708被进一步配置为执行一个或多个次级媒体搜索查询以获取一个或多个次级媒体项组(例如,利用获取单元718)。处理单元708被进一步配置为在显示单元上显示一个或多个次级媒体项组(例如,利用显示启用单元710)。
在一些示例中,一个或多个先前媒体相关的请求包括与初级媒体项组对应的先前媒体相关的请求。
在一些示例中,处理单元708被进一步配置为确定初级用户意图和一个或多个先前用户意图的一个或多个组合(例如,利用确定单元714),其中该一个或多个组合中的每个组合与至少一个媒体项相关联,并且其中该一个或多个次级意图包括该一个或多个组合。
在一些示例中,一个或多个先前用户意图和初级用户意图与和数字助理的同一交互式会话相关联。在一些示例中,基于用户在一个或多个电子设备上的媒体搜索历史来生成一个或多个次级用户意图。在一些示例中,基于用户在一个或多个电子设备上的媒体选择历史(媒体选择历史)来生成一个或多个次级用户意图。
在一些示例中,处理单元708被进一步配置为(例如,经由通信单元)从第二电子设备接收媒体搜索历史(例如,利用接收单元722)。基于从第二电子设备接收的媒体搜索历史来生成一个或多个次级用户意图。
在一些示例中,基于用户在一个或多个电子设备上的媒体观看列表来生成一个或多个次级用户意图。在一些示例中,在接收到音频输入时在显示单元上显示多个文本,该多个文本在接收音频输入时与被显示在显示单元上的多个媒体项相关联,并且基于所显示的多个文本来生成一个或多个次级用户意图。
在一些示例中,处理单元708被进一步配置为确定一个或多个次级用户意图中的每个次级用户意图的排名得分(例如,利用确定单元714),其中根据一个或多个次级用户意图中的每个次级用户意图的排名得分来显示一个或多个次级媒体项组。
在一些示例中,一个或多个次级用户意图中的每个次级用户意图的排名得分基于媒体相关的请求中的每个媒体相关的请求以及一个或多个先前媒体相关的请求被接收的时间。在一些示例中,一个或多个次级用户意图中的每个次级用户意图的排名得分基于用户在一个或多个电子设备上的媒体搜索历史。在一些示例中,一个或多个次级用户意图中的每个次级用户意图的排名得分基于用户在一个或多个电子设备上的媒体选择历史。在一些示例中,一个或多个次级用户意图中的每个次级用户意图的排名得分基于用户在一个或多个电子设备上的媒体观看列表。
在一些示例中,处理单元708被进一步配置为根据确定初级用户意图不包括执行新的媒体搜索查询的用户意图,确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图(例如,利用确定单元714)。处理单元708被进一步配置为根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图,基于媒体相关的请求和初级媒体搜索查询请求来生成与初级用户意图对应的第五初级媒体搜索查询(例如,利用获取单元718)。处理单元708被进一步配置为执行第五初级媒体搜索查询以获取第五初级媒体项组(例如,利用获取单元718)。处理单元708被进一步配置为利用对第五初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如,利用显示启用单元710)。
在一些示例中,确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图包括确定媒体相关的请求是否包括与校正初级媒体搜索查询的一部分的用户意图对应的字词或短语。在一些示例中,确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图包括确定表示媒体相关的请求的一部分的音素序列是否基本上类似于表示先前媒体相关的请求的一部分的音素序列,该先前媒体相关的请求对应于初级媒体搜索查询。
在一些示例中,生成第五初级媒体搜索查询包括识别与初级媒体搜索查询中的将不被校正的一部分相关联的媒体项组,其中基于与初级媒体搜索查询的将不被校正的一部分相关联的该媒体项组的一个或多个参数值来生成第五初级媒体搜索查询。
在一些示例中,处理单元708被进一步配置为根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图而在确定与媒体相关的请求对应的次级用户意图时从考虑中排除初级媒体搜索查询(例如,利用排除单元724)。
在一些示例中,处理单元708被进一步配置为根据确定初级用户意图不包括校正初级媒体搜索查询的一部分的用户意图而(例如,利用确定单元714)确定初级用户意图是否包括改变被显示在显示单元上的用户界面的焦点的用户意图,其中该用户界面包括多个媒体项。处理单元708被进一步配置为根据确定初级用户意图包括改变被显示在显示单元上的用户界面的焦点的用户意图而将用户界面的焦点从多个媒体项中的第一媒体项改变到多个媒体项中的第二媒体项(例如,利用显示启用单元710)。
在一些示例中,确定初级用户意图是否包括改变被显示在显示单元上的用户界面的焦点的用户意图包括确定媒体相关的请求是否包括与改变被显示在显示单元上的用户界面的焦点的用户意图对应的字词或短语。
在一些示例中,用户界面包括与用户界面中的多个媒体项对应的多个文本,并且其中确定初级用户意图是否包括改变被显示在显示单元上的用户界面的焦点的用户意图是基于该多个文本。
在一些示例中,处理单元708被进一步配置为确定媒体相关的请求的文本表示(例如,利用确定单元714),并在显示单元上显示文本表示(例如,利用显示启用单元710)。在一些示例中,文本表示是使用一个或多个语言模型来确定的。在一些示例中,一个或多个语言模型偏向于媒体相关的文本结果。在一些示例中,一个或多个语言模型被配置为识别多种语言的媒体相关的文本。
在一些示例中,多个媒体项和与多个媒体项相关联的文本被显示在显示单元上。处理单元708被进一步配置为使用与多个媒体项相关联的文本来生成第二语言模型(例如,利用生成单元726),其中文本表示是使用第二语言模型来确定的。
在一些示例中,处理单元708被进一步配置为使用文本表示来确定预测文本(例如,利用确定单元714),并在显示单元上显示具有文本表示的预测文本(例如,利用显示启用单元710)。
在一些示例中,在接收到音频输入时,基于被显示在显示单元上的文本来确定预测文本。
在一些示例中,处理单元708被进一步配置为确定在显示预测文本之后是否检测到音频输入的终点(例如,利用确定单元714),其中根据确定在显示预测文本之后检测到音频输入的终点,文本表示和预测文本被用于确定初级用户意图。
在一些示例中,处理单元708被进一步配置为在接收音频输入时基于所接收的音频输入部分来确定初步用户意图(例如,利用确定单元714),识别满足初步用户意图所需的数据(例如,利用识别单元720),在确定初步用户意图时确定数据是否被存储在一个或多个电子设备上(例如,利用确定单元714),并且根据确定在确定初步用户意图时数据未被存储在一个或多个电子设备上,获取数据(例如,利用获取单元718)。
根据一些实施方案,处理单元708被配置为(例如,在输入单元703或音频接收单元704处,并且使用接收单元722或音频接收启用单元716)从用户接收自然语言语音形式的媒体搜索请求。处理单元708被进一步配置为确定与媒体搜索请求对应的初级用户意图(例如,利用确定单元714),根据该初级用户意图来获取初级媒体项组。处理单元708被进一步配置为确定一个或多个先前用户意图是否存在(例如,利用确定单元714),其中一个或多个先前用户意图对应于在媒体搜索请求之前接收的一个或多个先前媒体搜索请求。处理单元708被进一步配置为响应于确定存在一个或多个先前用户意图,基于初级用户意图和一个或多个先前用户意图(例如,利用确定单元714)确定一个或多个次级用户意图。处理单元708被进一步配置为获取多个次级媒体项组(例如,利用获取单元718),其中每个次级媒体项组对应于一个或多个次级用户意图的相应次级用户意图。处理单元708被进一步配置为显示初级媒体项组和多个次级媒体项组(例如,利用显示启用单元710)。
在一些示例中,确定初级用户意图还包括确定媒体搜索请求是否包含缩窄在媒体搜索请求之前接收的先前媒体搜索请求的显式请求,其中根据确定媒体搜索请求包含缩窄先前媒体搜索请求的显式请求。从媒体搜索请求以及一个或多个先前用户意图中的至少一个先前用户意图来确定初级用户意图。
在一些示例中,响应于确定媒体搜索请求不包含缩窄先前媒体搜索请求的显式请求,从媒体搜索请求确定初级用户意图。
在一些示例中,媒体搜索请求是与数字助理的交互式会话的一部分。确定一个或多个先前用户意图是否存在还包括确定交互式会话是否包括在媒体搜索请求之前接收的一个或多个先前媒体搜索请求,其中该一个或多个先前媒体搜索请求对应于一个或多个先前用户意图。根据确定交互式会话包含在媒体搜索请求之前接收的一个或多个先前媒体搜索请求,确定一个或多个先前用户意图。根据确定交互式会话不包含在媒体搜索请求之前接收的一个或多个先前媒体搜索请求,确定不存在一个或多个先前用户意图。
在一些示例中,处理单元708被进一步配置为响应于确定不存在一个或多个先前媒体用户意图,显示初级媒体项组(例如,利用显示启用单元710)。
在一些示例中,一个或多个次级用户意图中的次级用户意图包括初级用户意图和一个或多个先前用户意图中的先前用户意图的组合。
在一些示例中,一个或多个次级用户意图中的次级用户意图包括一个或多个先前用户意图中的第一先前用户意图和一个或多个先前用户意图中的第二先前用户意图的组合。
在一些示例中,确定一个或多个次级用户意图还包括生成初级用户意图和一个或多个先前用户意图的多个组合。
在一些示例中,确定一个或多个次级用户意图还包括确定多个组合是否包括不能被合并的组合。根据确定多个组合包括不能被合并的用户意图组合,一个或多个次级用户意图不包括不能被合并的组合。
在一些示例中,不能被合并的组合包括需要单一值的参数的多于一个值。
在一些示例中,确定一个或多个次级用户意图还包括确定一个或多个先前用户意图是否包括不正确的用户意图。根据确定一个或多个先前用户意图包括不正确的用户意图。一个或多个次级用户意图不基于不正确的用户意图。
在一些示例中,确定一个或多个先前用户意图是否包括不正确的用户意图包括确定一个或多个先前用户意图是否包括校正一个或多个先前用户意图中第四用户意图的第三用户意图。根据确定一个或多个先前用户意图包括校正一个或多个先前用户意图中第四用户意图的第三用户意图,确定一个或多个先前用户意图包括不正确的用户意图。第四用户意图被确定为不正确的用户意图。
在一些示例中,确定一个或多个先前用户意图是否包括不正确的用户意图包括确定一个或多个先前用户意图是否包括第五用户意图,该第五用户意图与对媒体项的用户选择相关联,该媒体项与第五用户意图不一致。根据确定一个或多个先前用户意图包括校正不正确的用户意图的第三用户意图,确定一个或多个先前用户意图包括不正确的用户意图,其中第五用户意图被确定为不正确的用户意图。
在一些示例中,处理单元708被进一步配置为确定多个组合是否包括与小于预先确定数量的媒体项相关联的组合(例如,利用确定单元714)。根据确定多个组合包括与小于预先确定数量的媒体项相关联的组合,一个或多个次级用户意图不包括与小于预先确定数量的媒体项相关联的组合。
在一些示例中,处理单元708被进一步配置为确定一个或多个次级用户意图中的每个次级用户意图的排名得分(例如,利用确定单元714),其中根据所述一个或多个次级用户意图中的每个次级用户意图的排名得分来显示多个次级媒体项组。
在一些示例中,基于媒体搜索请求和一个或多个先前媒体搜索请求的接收顺序来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。在一些示例中,基于用户的选择历史确定一个或多个次级用户意图中的每个次级用户意图的排名得分,该选择历史包括由用户先前选择的媒体项。在一些示例中,基于用户的媒体搜索历史来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。
在一些示例中,初级媒体项组被显示在用户界面的顶行处,多个次级媒体项组被显示在用户界面的后续行中,该后续行在顶行下方,并且后续行中的每个行对应于一个或多个次级用户意图的相应次级用户意图。
在一些示例中,根据一个或多个次级用户意图中的每个次级用户意图的排名得分来对后续行进行排序。
根据一些实施方案,处理单元708被配置为(例如,在输入单元703或音频接收单元704处,并且利用接收单元722或音频接收启用单元716)接收第一媒体搜索请求。处理单元708被进一步配置为获取满足媒体搜索请求的第一媒体项组(例如,利用获取单元718)。处理单元708被进一步配置为经由用户界面来在显示单元上显示第一媒体项组(例如,利用显示启用单元)。在显示第一媒体项组的至少一部分时,处理单元708被进一步配置为(例如,在输入单元703或音频接收单元704处,并且利用接收单元722或音频接收启用单元716)接收第二媒体搜索请求,并获取对第二媒体搜索请求是否是缩窄第一媒体搜索请求的请求的确定(例如,利用获取单元718)。处理单元708被进一步配置为响应于获取对第二媒体搜索请求是缩窄第一媒体搜索请求的请求的确定,获取满足第二媒体搜索请求的第二媒体项组(例如,利用获取单元718),该第二媒体项组是多个媒体项的子组,并且经由用户界面利用对第二媒体项组的至少一部分的显示来替换对显示单元上的第一媒体项组的至少一部分的显示(例如,利用显示启用单元710)。
在一些示例中,第二媒体项组中的每个媒体项与第一媒体搜索请求的一个或多个参数值和第二媒体搜索请求的一个或多个参数值相关联。
在一些示例中,处理单元708被进一步配置为在显示第一媒体项组时以及在显示第二媒体项组的至少一部分时在显示单元上显示媒体内容(例如,利用显示器启用单元710)。
在一些示例中,用户界面至少占据显示单元的大部分显示区域。处理单元708被进一步配置为获取至少部分地满足第二媒体搜索请求的第三媒体项组(例如,利用获取单元718),其中第二媒体项组和第三媒体项组是不同的。处理单元708被进一步配置为经由用户界面来在显示单元上显示第三媒体项组的至少一部分(例如,利用显示启用单元710)。
在一些示例中,第三媒体项组中的每个媒体项与第一媒体搜索请求或第二媒体搜索请求中所定义的至少一个参数值相关联。在一些示例中,第二媒体项组的至少一部分被显示在用户界面的顶行处,并且其中第三媒体项组的至少一部分被显示在用户界面上的一个或多个后续行处。
在一些示例中,当接收到第二媒体搜索请求时,用户界面的焦点位于第一媒体项组的媒体项上,并且第三媒体项组与第一媒体项组的该媒体项上下文相关。
在一些示例中,获取对第二媒体搜索请求是否是缩窄媒体搜索请求的请求的确定包括获取对第二媒体搜索请求是否包含多个细化术语中的一个细化术语的确定。
在一些示例中,第二媒体搜索请求是自然语言形式。在一些示例中,第二媒体搜索请求使用模糊术语定义参数值。
在一些示例中,处理单元708被进一步配置为使用自然语言处理来识别基于模糊术语和参数值之间的联系强度的参数值(例如,利用识别单元720)。
在一些示例中,第一媒体项组中的每个媒体项与质量评级相关联,并且第二媒体搜索请求定义与质量评级相关联的参数值。在一些示例中,第一媒体项组中的每个媒体项与持续时间相关联,并且其中第二媒体搜索请求定义与持续时间相关联的参数值。
在一些示例中,第一媒体项组中的每个媒体项与流行度评级相关联,并且第二媒体搜索请求定义与流行度评级相关联的参数值。
在一些示例中,第一媒体项组中的每个媒体项与发行日期相关联,并且第二媒体搜索请求定义与发行日期相关联的参数值。
在一些示例中,处理单元708被进一步配置为响应于获取对第二媒体搜索请求不是缩窄第一媒体搜索请求的请求的确定,获取满足第二媒体搜索请求的第四媒体项组(例如,利用获取单元718),该第四媒体项组不同于第一媒体项组,并且经由用户界面利用对第四媒体项组的至少一部分的显示来替换对显示单元上的第一媒体项组的至少一部分的显示(例如,利用显示启用单元710)。
在一些示例中,第四媒体项组中的每个媒体项与在第二媒体搜索请求中定义的一个或多个参数相关联。
在一些示例中,处理单元708被进一步配置为在显示第一媒体项组时以及在显示第四媒体项组的至少一部分时,在显示单元上显示媒体内容(例如,利用显示器启用单元710)。
在一些示例中,用户界面至少占据显示单元的大部分显示区域。处理单元708被进一步配置为获取第五媒体项组(例如,利用获取单元718),其中第五媒体项组中的每个媒体项与在第一媒体搜索请求中定义的一个或多个参数以及在第二媒体搜索请求中定义的一个或多个参数相关联。处理单元708被进一步配置为经由用户界面来在显示单元上显示第五媒体项组(例如,利用显示启用单元710)。
在一些示例中,当接收到第二媒体搜索请求时,用户界面的焦点位于第一媒体项组的第二媒体项上,并且第五多个媒体项中的一个或多个媒体项包括与第一媒体项组的第二媒体项相关联的参数值。
在一些示例中,当检测到第二媒体搜索请求时,用户界面的焦点位于第一媒体项组的第三媒体项上。处理单元708被进一步配置为响应于获取对第二媒体搜索请求不是缩窄第一媒体搜索请求的请求的确定,获取对第二媒体搜索请求是否是获取类似于第一媒体项组中的第三媒体项的一组另选媒体项的请求的确定(例如,利用获取单元718)。处理单元708被进一步配置为响应于获取对第二媒体搜索请求是获取类似于第一媒体项组中的第三媒体项的一组另选媒体项的请求的确定,获取第六媒体项组(例如,利用获取单元718),其中第六媒体项组中的每个媒体项与第三媒体项的一个或多个参数值相关联,并且经由用户界面来在显示单元上显示第六媒体项组(例如,利用显示启用单元710)。
在一些示例中,通过基于第一媒体搜索请求执行字符串搜索来获取第一媒体项组,并且通过基于在第二媒体搜索请求中所定义的一个或多个参数值来执行结构化搜索以获取第二媒体项组。
在一些示例中,经由键盘界面来接收第一媒体搜索请求,并且以自然语言语音形式来接收第二媒体搜索请求。在一些示例中,使用第一媒体项组来执行结构化搜索。
以上参考图5A至图5E所述的操作可选地由图1至图3和图4A至图4B所示的部件实现。例如,显示操作502,522,534,540,548,564,568、检测操作504、确定操作508,510,538,544,550,552,560、获取操作520,524,536,546,562,566、识别操作526,528,542,554、排除操作558以及生成操作530,556可由操作系统252、GUI模块256、应用程序模块262、I/O处理模块428、STT处理模块430、自然语言处理模块432、任务流处理模块436、服务处理模块438或者一个或多个处理器204,404中的一者或多者来实现。本领域的技术人员会清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。
根据一些具体实施,提供了一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所描述的任何方法的指令。
根据一些具体实施,提供了一种包括用于执行本文所述的任何方法的装置的电子设备(例如,便携式电子设备)。
根据一些具体实施,提供了一种包括被配置为执行本文所述的任何方法的处理单元的电子设备(例如,便携式电子设备)。
根据一些具体实施,提供了一种包括一个或多个处理器和存储有供一个或多个处理器执行的一个或多个程序的存储器的电子设备(例如,便携式电子设备),该一个或多个程序包括用于执行本文所述的任何方法的指令。
虽然以上描述使用“第一”、“第二”等术语来描述了各种元件,但是这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开。例如,在不脱离各种所描述的实施方案的范围的情况下,第一用户输入可被命名为第二用户输入,并且类似地,第二用户输入可被命名为第一用户输入。
在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的,而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样,单数形式“一个”(“a”,“an”)和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、“including”、“comprises"和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。
根据上下文,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
此外,出于解释的目的,前面的描述是参考具体的实施方案来描述的。然而,上面的示例性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。
虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。此类变化和修改应被理解为被包括在由权利要求书所限定的本公开和示例的范围内。
此外,在本文所讨论的各种示例中的任何一个示例中,可为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令,并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等,以各种其他方式修改本文所讨论的各种过程。此外,基于用户交互(例如,频繁说出的命令、频繁选择的应用程序等),此类偏好和设置可随时间更新。对可得自各种来源的用户数据的收集和使用可用于改善将邀请内容或用户可能感兴趣的任何其他内容传送到用户。本公开预期在一些示例中,这些经采样的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址、或任何其他识别信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。
本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常呈现。例如,可通过基于非个人信息数据或绝对最低限度的个人信息(例如,由与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息、或公开可用信息)来推断偏好,从而选择内容并递送给用户。
用于电视用户交互的智能自动化助理
相关专利申请的交叉引用
本专利申请要求于2014年6月30日提交的名称为“INTELLIGENT AUTOMATEDASSISTANT FOR TV USER INTERACTIONS”的美国临时序列号62/019,312的优先权,该专利申请据此全文以引用方式并入本文以用于所有目的。
本专利申请还与以下共同未决的临时专利申请相关:于2014年6月30日提交的美国专利申请序列号62/019,292,“Real-time Digital Assistant Knowledge Updates”(代理人案卷号106843097900(P22498USP1)),该专利申请据此全文以引用方式并入本文。
技术领域
本发明整体涉及控制电视用户交互,并且更具体地涉及处理用于虚拟助理的语音以控制电视用户交互。
背景技术
智能自动化助理(或虚拟助理)提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过将自然语言形式的口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理,以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务,并且在一些示例中,可将相关的输出以自然语言形式返回给用户。
尽管移动电话(例如,智能电话)、平板电脑等已从虚拟助理控制中获取益处,然而许多其他用户设备仍缺乏这种便利的控制机制。例如,用户与媒体控制设备(例如,电视、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)的交互可能是复杂且难懂的。此外,随着可由这些设备(例如,无线电视、电视订阅服务、流视频服务、有线视频点播服务、基于网络的视频服务等)提供的媒体源的不断增加,对一些用户来说,找到想要的媒体内容来消费可能会很繁琐,甚至面对海量内容无从下手。因此,许多媒体控制设备能够提供的用户体验较差,可能会令许多用户感到失望。
发明内容
本发明公开了一种用于使用虚拟助理来控制电视交互的系统和过程。在一个示例中,可从用户接收语音输入。可基于语音输入来确定媒体内容。可显示具有第一尺寸的第一用户界面,并且第一用户界面可包括至媒体内容的可选链接。可接收对可选链接中的一个可选链接的选择。响应于该选择,可显示第二用户界面,该第二用户界面具有大于第一尺寸的第二尺寸,并且该第二用户界面可包括与该选择相关联的媒体内容。
在另一示例中,可在具有第一显示器的第一设备处从用户接收语音输入。可基于在第一显示器上显示的内容来确定语音输入的用户意图。可基于用户意图来确定媒体内容。该媒体内容可在与第二显示器相关联的第二设备上播放。
在另一示例中,可从用户接收语音输入,并且语音输入可包括与电视显示器上所示的内容相关联的查询。可基于电视显示器上所示的内容和/或媒体内容的观看历史来确定查询的用户意图。可基于所确定的用户意图来显示查询的结果。
在另一示例中,可在显示器上显示媒体内容。可从用户接收输入。可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。虚拟助理查询可被显示在显示器上。
附图说明
图1示出了用于使用虚拟助理控制电视用户交互的示例性系统。
图2示出了根据各种示例的示例性用户设备的框图。
图3示出了用于控制电视用户交互的系统中的示例性媒体控制设备的框图。
图4A至图4E示出了视频内容上的示例性语音输入界面。
图5示出了视频内容上的示例性媒体内容界面。
图6A至图6B示出了视频内容上的示例性媒体详情界面。
图7A至图7B示出了示例性媒体过渡界面。
图8A至图8B示出了菜单内容上的示例性语音输入界面。
图9示出了菜单内容上的示例性虚拟助理结果界面。
图10示出了使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的示例性过程。
图11示出了移动用户设备上的示例性电视媒体内容。
图12示出了使用虚拟助理的示例性电视控制。
图13示出了移动用户设备上的示例性图片和视频内容。
图14示出了使用虚拟助理的示例性媒体显示控制。
图15示出了示例性虚拟助理交互,其中结果在移动用户设备和媒体显示设备上。
图16示出了示例性虚拟助理交互,其中媒体结果在媒体显示设备和移动用户设备上。
图17示出了基于接近度的示例性媒体设备控制。
图18示出了使用虚拟助理和多个用户设备来控制电视交互的示例性过程。
图19示出了具有关于背景视频内容的虚拟助理查询的示例性语音输入界面。
图20示出了视频内容上的示例性信息性虚拟助理响应。
图21示出了具有针对与背景视频内容相关联的媒体内容的虚拟助理查询的示例性语音输入界面。
图22示出了具有可选媒体内容的示例性虚拟助理响应界面。
图23A至图23B示出了节目菜单的示例性页面。
图24示出了被划分为多个类别的示例性媒体菜单。
图25示出了使用媒体内容观看历史和在显示器上所示的媒体内容来控制电视交互的示例性过程。
图26示出了具有基于背景视频内容的虚拟助理查询建议的示例性界面。
图27示出了用于确认对所建议的查询的选择的示例性界面。
图28A至图28B示出了基于所选择的查询的示例性虚拟助理回答界面。
图29示出了媒体内容通知和具有基于该通知的虚拟助理查询建议的示例性界面。
图30示出了具有能够在媒体控制设备上播放的示例性图片和视频内容的移动用户设备。
图31示出了具有基于可播放用户设备内容并且基于在独立显示器上所示的视频内容的虚拟助理查询建议的示例性移动用户设备界面。
图32示出了具有基于来自独立用户设备的可播放内容的虚拟助理查询建议的示例性界面。
图33示出了用于建议用于控制媒体内容的虚拟助理交互的示例性过程。
图34示出了根据各种示例的被配置为使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的电子设备的功能框图。
图35示出了根据各种示例的被配置为使用虚拟助理和多个用户设备来控制电视交互的电子设备的功能框图。
图36示出了根据各种示例的被配置为使用显示器上所示的媒体内容和媒体内容观看历史来控制电视交互的电子设备的功能框图。
图37示出了根据各种示例的被配置为建议用于控制媒体内容的虚拟助理交互的电子设备的功能框图。
具体实施方式
在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。
本发明涉及一种使用虚拟助理来控制电视用户交互的系统和过程。在一个示例中,虚拟助理可用于与媒体控制设备(诸如,控制电视显示器上所示的内容的电视机顶盒)进行交互。可使用移动用户设备或带有麦克风的遥控器接收用于虚拟助理的语音输入。可从该语音输入确定用户意图,并且虚拟助理可根据用户意图来执行任务,包括使得媒体在连接的电视上回放以及控制电视机顶盒或类似设备的任何其他功能(例如,管理视频记录、搜索媒体内容、对菜单进行导航等)。
虚拟助理交互可在连接的电视或其他显示器上示出。在一个示例中,可基于从用户处接收的语音输入来确定媒体内容。可显示具有第一小尺寸的第一用户界面,该第一用户界面该包括至所确定的媒体内容的可选链接。在接收到对媒体链接的选择之后,可显示具有第二较大尺寸的第二用户界面,该第二用户界面包括与选择相关联的媒体内容。在其他示例中,用于传达虚拟助理交互的界面可展开或收缩,以在传达所需信息时占据最小量的空间。
在一些示例中,与多个显示器相关联的多个设备可用于从语音输入确定用户意图,并且以不同的方式来向用户传达信息。例如,可在具有第一显示器的第一设备处从用户接收语音输入。可基于第一显示器上所显示的内容来从语音输入确定用户意图。可基于用户意图来确定媒体内容,并且可在与第二显示器相关联的第二设备上播放媒体内容。
电视显示内容还可用作用于从语音输入确定用户意图的上下文输入。例如,可从用户接收语音输入,该语音输入包括与电视显示器上所示的内容相关联的查询。可基于在电视显示器上所示的内容以及电视显示器上的媒体内容观看历史来确定查询的用户意图(例如,基于正在播放的电视节目中的人物来对查询消歧)。然后,可基于所确定的用户意图来显示查询的结果。
在一些示例中,可向用户提供虚拟助理查询建议(例如,以使用户熟悉可用命令、建议有趣的内容等)。例如,媒体内容可被显示在显示器上,并且可从请求虚拟助理查询建议的用户接收输入。可基于显示器上所示媒体内容和显示器上所示媒体内容的观看历史来确定虚拟助理查询建议(例如,建议与正在播放的电视节目有关的查询)。然后,所建议的虚拟助理查询可被显示在显示器上。
根据本文所讨论的各种示例使用虚拟助理来控制电视用户交互可提供有效且令人愉快的用户体验。通过使用能够接收自然语言查询或命令的虚拟助理,用户可简单直观地与媒体控制设备进行交互。可根据需要来向用户建议可用的功能(包括基于播放内容的有意义的查询建议),这可帮助用户了解控制能力。此外,可使用直观的口头命令来轻易地访问可用媒体。然而,应当理解,根据本文所讨论的各种示例,还可实现许多其他优点。
图1示出了用于使用虚拟助理来控制电视用户交互的示例性系统100。应当理解,如本文所讨论的控制电视用户交互仅仅是采用某种类型的显示技术来控制媒体的一个示例并且仅用于参考,本文所讨论的概念通常可用于控制任何媒体内容交互,包括控制各种设备和相关联显示器(例如,监视器、膝上型显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此,术语“电视”可指与各种设备中的任一种设备相关联的任何类型的显示器。此外,术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了根据推断出的用户意图采取行动,系统可执行以下内容中的一者或多者:通过设计以实现所推断出的用户意图的步骤和参数来识别任务流;将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、API等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。
虚拟助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求虚拟助理作出信息性回答,要么寻求虚拟助理执行任务(例如,使得显示特定媒体)。对用户请求的令人满意的响应可包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如,用户可向虚拟助理提出问题,诸如:“我现在在哪里?”基于用户的当前位置,虚拟助理可回答:“你在中央公园。”用户还可请求执行任务,例如:“请在今天下午4点提醒我给妈妈打电话。”作为响应,虚拟助理可确认该请求,并且然后在用户的电子日程表中创建适当的提醒项目。在执行所请求的任务期间,虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,虚拟助理还可提供其他视觉形式或音频形式(例如,作为文本、警报、音乐、视频、动画等)的响应。此外,如本文所述,示例性虚拟助理可控制媒体内容(例如,电视上正在播放的视频)的回放,并使信息被显示在显示器上。
虚拟助理的示例在于2011年1月10日提交的名称为“Intelligent AutomatedAssistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述,该专利申请的全部公开内容以引用方式并入本文。
如图1中所示,在一些示例中,虚拟助理可根据客户端-服务器模型来实现。虚拟助理可包括在用户设备102上执行的客户端侧部分和在服务器系统110上执行的服务器侧部分。可与遥控器106结合的客户端侧部分还在电视机顶盒104上被执行。用户设备102可包括任何电子设备,诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、手表、胸针、臂带等),等等。电视机顶盒104可包括任何媒体控制设备,诸如电缆盒、卫星盒、视频播放器、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray DiscTM播放器、此类设备的组合等。电视机顶盒104可经由有线连接或无线连接而被连接至显示器112和扬声器111。显示器112(具有或不具有扬声器111)可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,电视机顶盒104可连接到音频系统(例如,音频接收器),并且扬声器111可与显示器112分开。在其他示例中,显示器112、扬声器111和电视机顶盒104可一起并入单个设备中,诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中,电视机顶盒104的功能可作为组合设备上的应用程序来执行。
在一些示例中,电视机顶盒104可用作针对多种类型和来源的媒体内容的媒体控制中心。例如,电视机顶盒104可使用户便于访问电视直播(例如,无线电视、卫星电视或有线电视)。因此,电视机顶盒104可包括电缆调谐器或卫星调谐器等。在一些示例中,电视机顶盒104还可录下电视节目以供稍后时移观看。在其他示例中,电视机顶盒104可提供对一个或多个流媒体服务的访问,诸如访问有线递送的点播电视节目、视频和音乐,以及互联网递送的电视节目、视频和音乐(例如,来自各种免费、付费和订阅式流服务)。在其他示例中,电视机顶盒104可方便回放或显示来自任何其他源的媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。电视机顶盒104还可根据需要包括本文所讨论的媒体控制特征的各种其他组合。
用户设备102和电视机顶盒104可通过一个或多个网络108与服务器系统110进行通信,该网络可包括互联网、内联网或任何其他有线或无线的公共网络或专用网络。另外,用户设备102可通过网络108或直接通过任何其他有线或无线通信机构(例如,蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104进行通信。如图所示,遥控器106可使用任何类型的通信方式诸如有线连接或任何类型的无线通信(例如,蓝牙、Wi-Fi、射频、红外传输等)(包括经由网络108)来与电视机顶盒104进行通信。在一些示例中,用户可通过用户设备102、遥控器106或集成在电视机顶盒104内的接口元件(例如,按钮、麦克风、相机、操纵杆等)来与电视机顶盒104进行交互。例如,可在用户设备102和/或遥控器106处接收语音输入,该语音输入包括用于虚拟助理的媒体相关的查询或命令,并且该语音输入可用于使得媒体相关的任务在电视机顶盒104上执行。同样,可在用户设备102和/或遥控器106(以及未示出的其他设备)处接收用于控制电视机顶盒104上的媒体的触觉命令。因此,可采用各种方式来控制电视机顶盒104的各种功能,从而为用户提供从多个设备控制媒体内容的多种选项。
在用户设备102和/或具有遥控器106的电视机顶盒104上执行的示例性虚拟助理的客户端侧部分可提供客户端侧功能,诸如面向用户的输入和输出处理以及与服务器系统110的通信。服务器系统110可为驻留在相应用户设备102或相应电视机顶盒104上的任何数量的客户端提供服务器侧功能。
服务器系统110可包括一个或多个虚拟助理服务器114,该一个或多个虚拟助理服务器可包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型存储器120、以及至外部服务的I/O接口116。面向客户端的I/O接口122可有利于虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可利用数据与模型储存器120基于自然语言输入来确定用户的意图,并可基于推断出的用户意图来进行任务执行。在一些示例中,虚拟助理服务器114可通过一个或多个网络108来与外部服务124(诸如,电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务等)进行通信,以用于完成任务或获取信息。至外部服务的I/O接口116可促成此类通信。
服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实现。在一些示例中,服务器系统110可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110的潜在计算资源和/或基础结构资源。
虽然图1中所示的虚拟助理的功能包括客户端侧部分和服务器侧部分两者,但在一些示例中,助理的功能(或者一般来讲,语音识别和媒体控制)可被实现为被安装在用户设备、电视机顶盒、智能电视等上的独立式应用程序。此外,虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可以是不同的。例如,在一些示例中,在用户设备102或电视机顶盒104上执行的客户端可以是仅提供面向用户的输入和输出处理功能并且将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。
图2示出了根据各种示例的示例性用户设备102的框图。如图所示,用户设备102可包括存储器接口202、一个或多个处理器204、以及外围设备接口206。用户设备102中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备102可还包括耦接至外围设备接口206的各种传感器、子系统和外围设备。传感器、子系统以及外围设备可采集信息和/或促进用户设备102的各种功能。
例如,用户设备102可包括耦接至外围设备接口206以方便取向、照明和接近感测功能的运动传感器210、光传感器212、以及接近传感器214。一个或多个其他传感器216,诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等也可连接至外围设备接口206,以促进相关功能。
在一些示例中,相机子系统220和光学传感器222可用于促进相机功能,诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如,红外)接收器与发射器。可将音频子系统226耦接至扬声器228和麦克风230以方便支持语音的功能,诸如语音识别、语音复制、数字记录和电话功能。
在一些示例中,用户设备102还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括触摸屏控制器242和/或一个或多个其他输入控制器244。触摸屏控制器242可耦接至触摸屏246。触摸屏246和触摸屏控制器242例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将其他输入控制器244耦接至其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口、和/或指针设备(诸如触笔)。
在一些示例中,用户设备102还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与它们结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面模块256、传感器处理模块258、电话模块260和应用程序262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。传感器处理模块258可促进与传感器相关的处理和功能。电话模块260可促进与电话相关的过程和功能。应用程序模块262可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。
如本文所述,存储器250还可存储客户端侧虚拟助理指令(例如,存储在虚拟助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供虚拟助理的客户端侧功能。用户数据266还可用于执行支持虚拟助理或用于任何其他应用程序的语音识别。
在各种示例中,虚拟助理客户端模块264可能够通过用户设备102的各种用户界面(例如,I/O子系统240、音频子系统226等)来接受声音输入(例如,语音输入)、文本输入、触摸输入、和/或手势输入。虚拟助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块264可使用通信子系统224来与虚拟助理服务器进行通信。
在一些示例中,虚拟助理客户端模块264可利用各种传感器、子系统和外围设备lai从用户设备102的周围环境采集附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自电视机顶盒104的信息。在一些示例中,虚拟助理客户端模块264可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被用户设备102或服务器系统110用于支持准确的语音识别。
在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、周围环境的图像或视频、到另一个对象的距离等。该上下文信息还可包括与用户设备102的物理状态(例如,设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等)或者用户设备102的软件状态(例如,运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,由电视机顶盒104显示的媒体内容、电视机顶盒104可用的媒体内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114(或用于用户设备102本身)。
在一些示例中,虚拟助理客户端模块264可响应于来自虚拟助理服务器114的请求而选择性地提供被存储在用户设备102上的信息(例如,用户数据266)(或者该虚拟助理客户端模块可在用户设备102本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264可将附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。
在各种示例中,存储器250可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备102的各种功能。
图3示出了用于控制电视用户交互的系统300中的示例性电视机顶盒104的框图。系统300可包括系统100的元件的子集。在一些示例中,系统300可单独执行某些功能,并且也可与系统100的其他元件一起运行来执行其他功能。例如,系统300的元件可在不与服务器系统110进行交互的情况下处理某些媒体控制功能(例如,回放本地存储的媒体、记录功能、频道调谐等),并且系统300可结合服务器系统110和系统100的其他元件来处理其他媒体控制功能(例如,回放远程存储的媒体、下载媒体内容、进行某些虚拟助理查询等)。在其他示例中,系统300的元件可执行较大系统100的功能,包括通过网络来访问外部服务124。应当理解,可通过各种其他方式来在本地设备和远程服务器设备之间划分功能。
如图3所示,在一个示例中,电视机顶盒104可包括存储器接口302、一个或多个处理器304、和外围设备接口306。电视机顶盒104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。电视机顶盒104还可包括耦接至外围设备接口306的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104的各种功能。
例如,电视机顶盒104可包括通信子系统324。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,这些通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如,红外)接收器与发射器。
在一些示例中,电视机顶盒104还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括音频/视频输出控制器370。音频/视频输出控制器370可耦接至显示器112和扬声器111,或者能够以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统340还可包括远程控制器342。远程控制器342可(例如,经由有线连接、蓝牙、Wi-Fi等)通信地耦接至遥控器106。遥控器106可包括用于捕获音频输入(例如,来自用户的语音输入)的麦克风372、用于捕获触觉输入的一个或多个按钮374、以及用于促进经由远程控制器342与电视机顶盒104进行通信的收发器376。遥控器106还可包括其他输入机构,诸如键盘、操纵杆、触摸板等。遥控器106还可包括输出机构,诸如灯、显示器、扬声器等。在遥控器106处接收的输入(例如,用户语音、按钮按压等)可经由远程控制器342而被传送到电视机顶盒104。I/O子系统340还可包括一个或多个其他输入控制器344。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。
在一些示例中,电视机顶盒104还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面模块356、设备内置媒体模块358、设备外置媒体模块360和应用程序362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。设备内置的媒体模块358可促进在电视机顶盒104上本地存储的媒体内容以及本地可用的其他媒体内容(例如,有线频道调谐)的存储和回放。设备外置媒体模块360可促进远程存储(例如,在远程服务器上、在用户设备102上等)的媒体内容的流回放或下载。应用程序模块362可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、游戏和/或其他过程和功能。
如本文所述,存储器350还可存储客户端侧虚拟助理指令(例如,存储在虚拟助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供虚拟助理的客户端侧功能。用户数据366还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。
在各种示例中,虚拟助理客户端模块364能够通过电视机顶盒104的各种用户界面(例如,I/O子系统340等)来接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块364可使用通信子系统324来与虚拟助理服务器进行通信。
在一些示例中,虚拟助理客户端模块364可利用各种子系统和外围设备来从电视机顶盒104的周围环境采集附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自用户设备102的信息。在一些示例中,虚拟助理客户端模块364可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被电视机顶盒104或服务器系统110用于支持准确的语音识别。
在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、到另一个对象的距离等。上下文信息还可包括与电视机顶盒104的物理状态(例如,设备位置、设备温度、功率电平等)或电视机顶盒104的软件状态(例如,运行过程、已安装的应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息可还包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,在用户设备102上显示的内容、用户设备102上的可播放内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114(或用于电视机顶盒104本身)。
在一些示例中,虚拟助理客户端模块364可响应于来自虚拟助理服务器114的请求,选择性地提供被存储在电视机顶盒104上的信息(例如,用户数据366)(或者该虚拟助理客户端模块可在电视机顶盒104本身上,以用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364还可在虚拟助理服务器114请求时引出来自用户的经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块364可将附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。
在各种示例中,存储器350可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行电视机顶盒104的各种功能。
应当理解,系统100和系统300不限于图1和图3中所示的部件和配置,并且用户设备102、电视机顶盒104和遥控器106同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中,系统100、系统300、用户设备102、电视机顶盒104和遥控器106全部可包括更少部件,或包括其他部件。
通览本公开内容,对“系统”进行引用,该系统可包括系统100、系统300、或系统100或系统300的一个或多个元件。例如,本文中提到的典型系统可至少包括从遥控器106和/或用户设备102接收用户输入的电视机顶盒104。
图4A至图4E示出了可在显示器(例如,显示器112)上示出以向用户传达语音输入信息的示例性语音输入界面484。在一个示例中,语音输入界面484可在视频480上示出,该视频可包括任何移动图像或暂停视频。例如,视频480可包括电视直播、正在播放的视频、流电影、录制节目的回放等。语音输入界面484可被配置为占据最小量的空间,以免显著干扰用户观看视频480。
在一个示例中,可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理,或开始实时处理语音输入)。可以各种方式来触发监听,包括指示,诸如:用户按压遥控器106上的物理按钮,用户按压用户设备102上的物理按钮,用户按压用户设备102上的虚拟按钮,用户说出可被始终监听的设备识别的触发短语(例如,说出“嘿,助理”以开始监听命令),用户执行可被传感器检测的手势(例如,在相机前面做动作)等。在另一示例中,用户可按压并保持遥控器106或用户设备102上的物理按钮以发起监听。在其他示例中,用户可在说出查询或命令时按压并保持遥控器106或用户设备102上的物理按钮,并且可在完成时释放该按钮。同样可接收各种其他指示,以发起从用户接收语音输入。
响应于接收到监听语音输入的指示,可显示语音输入界面484。图4A示出了从显示器112的底部部分向上展开的通知区域482。在接收到监听语音输入的指示时,可在通知区域482中显示语音输入界面484,并且如图所示,界面可以动画方式从显示器112的观看区域的底部边缘向上滑动。图4B示出了在向上滑入视图之后的语音输入界面484。语音输入界面484可被配置为在显示器112的底部占据最小量的空间,以避免显著干扰视频480。响应于接收到监听语音输入的指示,可显示准备就绪确认486。准备就绪确认486可包括如图所示的麦克风符号,或者可包括任何其他图像、图标、动画或符号,以传达系统(例如,系统100的一个或多个元件)准备好捕获来自用户的语音输入。
当用户开始讲话时,可显示图4C所示的正在监听确认487,以确认系统正在捕获语音输入。在一些示例中,可响应于接收到语音输入(例如,捕获语音)来显示正在监听确认487。在其他示例中,准备就绪确认486可显示预先确定量的时间(例如,500毫秒、1秒、3秒等),在其之后可显示正在监听确认487。听力确认487可包括如图所示的波形符号,或者可包括响应于用户语音而移动(例如,改变频率)的活动波形动画。在其他示例中,正在监听确认487可包括任何其他图像、图标、动画或符号,以传达系统正在捕获来自用户的语音输入。
在(例如,基于暂停、指示查询结束的语音解译或任何其他端点检测方法)检测到用户已完成讲话时,可显示图4D所示的正在处理确认488,以确认系统已完成捕获语音输入并且正在处理语音输入(例如,解译语音输入、确定用户意图、和/或执行相关联的任务)。正在处理确认488可包括如图所示的沙漏符号,或者可包括任何其他图像、图标、动画或符号,以传达系统正在处理所捕获的语音输入。在另一示例中,正在处理确认488可包括旋转圆圈或彩色/发光点围绕圆圈移动的动画。
在所捕获的语音输入被解译成文本之后(或响应于将语音输入成功地转换成文本),可显示图4E中所示的命令接收确认490和/或转录492,以确认系统已接收并解译语音输入。转录492可包括所接收的语音输入的转录(例如,“现在正在进行的体育赛事有哪些?”)。在一些示例中,转录492可以动画形式从显示器112的底部向上滑动,可在图4E所示的位置暂时显示(例如,几秒),并且然后可在从视图中消失之前向上滑动到语音输入界面484的顶部(例如,如同文本向上滚动并最终离开视图)。在其他示例中,可不显示转录,并且可处理用户的命令或查询并可在不显示经转录的情况下执行相关联的任务(例如,可立即执行简单的频道改变而不显示用户语音的转录)。
在其他示例中,可在用户讲话时实时地执行语音转录。转录出字词时,可将其显示在语音输入界面484中。例如,字词可被显示在正在监听确认487旁边。在用户完成讲话之后,可在执行与用户命令相关联的任务之前简要地显示命令接收确认490。
此外,在其他示例中,命令接收确认490可传达关于所接收和理解的命令的信息。例如,对于改变到另一个频道的简单请求,当频道改变时,与频道相关联的标志或数字可短暂地被显示为命令接收确认490(例如,几秒钟)。在另一个示例中,对于暂停视频(例如,视频480)的请求,可显示暂停符号(例如,两个垂直平行条)作为命令接收确认490。暂停符号可保持在显示器上,直到例如用户执行另一动作(例如,发出播放命令以恢复回放)。对于任何其他命令,同样可显示符号、标志、动画等(例如,用于快退、快进、停止、播放等的符号)。因此,命令接收确认490可用于传送命令特定信息。
在一些示例中,语音输入界面484可在接收到用户查询或命令之后隐藏。例如,语音输入界面484可被动画表示为向下滑动,直到其从显示器112的底部离开视图。在不需要向用户显示进一步的信息的情况下,可隐藏语音输入界面484。例如,对于通用或直接的命令(例如,换成频道十、换成体育频道、播放、暂停、快进、快退等),语音输入界面484可在确认命令接收之后立即隐藏,并且可立即执行相关联的一个或多个任务。尽管本文的各种示例示出和描述了显示器的底部或顶部边缘处的界面,但是应当理解,各种界面中的任何界面可位于显示器周围的其他位置。例如,语音输入界面484可出现自显示器112的侧边缘、在显示器112的中心、在显示器112的角落里等。类似地,本文描述的各种其他界面示例可在显示器上的多种不同位置中以多种不同的取向进行布置。此外,虽然本文所述的各种界面被示为不透明的,但是各种界面中的任何界面可以是透明的,或者允许透过界面来观看图像(模糊或全部)(例如,将界面内容覆盖在媒体内容上,而无需完全遮蔽下面的媒体内容)。
在其他示例中,查询的结果可被显示在语音输入界面484内或不同的界面中。图5示出了具有图4E的经转录的查询的示例性结果的视频480上的示例性媒体内容界面510。在一些示例中,虚拟助理查询的结果可包括代替文本内容或除文本内容之外的媒体内容。例如,虚拟助理查询的结果可包括电视节目、视频、音乐等。一些结果可包括立即可用于回放的媒体,而其他结果可包括可用于购买的媒体等。
如图所示,媒体内容界面510的尺寸可比语音输入界面484的尺寸大。在一个示例中,语音输入界面484可具有较小的第一尺寸以适应语音输入信息,而媒体内容界面510可具有较大的第二尺寸以适应查询结果,其可包括文本、静止图像和移动图像。这样,用于传达虚拟助理信息的界面可根据要传达的内容来缩放尺寸,从而限制所占用的屏幕实际使用空间(例如,最低限度地阻挡其他内容,诸如视频480)。
如图所示,媒体内容界面510可包括(作为虚拟助理查询的结果)可选视频链接512、可选文本链接514和附加内容链接513。在一些示例中,可通过将焦点、光标等导航到特定元素并使用遥控器(例如,遥控器106)进行选择来选择链接。在其他示例中,可使用对虚拟助理的语音命令来选择链接(例如,观看足球比赛,显示关于篮球比赛的详情等)。可选视频链接512可包括静止或移动图像,并且可以可选择以使得回放相关联的视频。在一个示例中,可选视频链接512可包括相关联的视频内容的正在播放的视频。在另一示例中,可选视频链接512可包括电视频道的实况馈送。例如,作为关于当前在电视上进行的体育赛事的虚拟助理查询的结果,可选视频链接512可包括体育频道上的足球比赛的实况馈送。可选视频链接512还可包括任何其他视频、动画、图像等(例如,三角形播放符号)。此外,链接512可链接到任何类型的媒体内容,诸如电影、电视节目、体育赛事、音乐等。
可选文本链接514可包括与可选视频链接512相关联的文本内容,或者可包括虚拟助理查询的结果的文本表示。在一个示例中,可选文本链接514可包括对得自虚拟助理查询的媒体的描述。例如,可选文本链接514可包括电视节目的名称、电影的标题、体育赛事的描述、电视频道名称或号码等。在一个示例中,对文本链接514的选择可使得回放相关联的媒体内容。在另一示例中,对文本链接514的选择可提供关于媒体内容或其他虚拟助理查询结果的附加详细信息。附加内容链接513可链接到虚拟助理查询的附加结果并使其被显示。
虽然在图5中示出了某些媒体内容示例,但应当理解,可包括任何类型的媒体内容作为对媒体内容的虚拟助理查询的结果。例如,可作为虚拟助理的结果返回的媒体内容可包括视频、电视节目、音乐、电视频道等。另外,在一些示例中,可在本文所述的界面中的任一种界面中提供类别筛选器,以允许用户筛选搜索或查询结果或者所显示的媒体选项。例如,可提供可选筛选器以按类型(例如,电影、音乐专辑、书籍、电视节目等)来筛选结果。在其他示例中,可选筛选器可包括分类描述符或内容描述符(例如喜剧、访谈、特定节目等)。在其他示例中,可选筛选器可包括时间(例如,本周、上周、去年等)。应当理解,可在本文所述的各种界面中的任一种界面中提供筛选器,以允许用户基于与所显示的内容相关的类别来筛选结果(例如,在媒体结果具有不同类型的情况下按类型进行筛选,在媒体结果具有不同分类的情况下按分类进行筛选,在媒体结果具有不同的时间的情况下按时间进行筛选,等等)。
在其他示例中,除媒体内容结果之外,媒体内容界面510还可包括查询的改述。例如,可在媒体内容结果上方(可选视频链接512和可选文本链接514上方)显示用户查询的改述。在图5的示例中,用户查询的此类改述可包括以下内容:“这是一些现在正进行的体育赛事。”同样可显示介绍媒体内容结果的其他文本。
在一些示例中,在显示任何界面(包括界面510)之后,用户可使用新的查询(与先前的查询可相关或可不相关)来发起对附加语音输入的捕获。用户查询可包括作用于界面元素的命令,诸如选择视频链接512的命令。在另一示例中,用户语音可包括与所显示的内容相关联的查询,诸如所显示的菜单信息、正在播放的视频(例如,视频480)等。可基于所示信息(例如,所显示的文本)和/或与所显示的内容相关联的元数据(例如,与正在播放的视频相关联的元数据)来确定对此类查询的响应。例如,用户可询问界面(例如,界面510)中所示的媒体结果,并且可搜索与该媒体相关联的元数据以提供回答或结果。然后,可在另一界面中或在同一界面内(例如,在本文所讨论的界面中的任一界面中)提供此类回答或结果。
如上所述,在一个示例中,可响应于对文本链接514的选择来显示关于媒体内容的附加详细信息。图6A和图6B示出了选择文本链接514之后的视频480上的示例性媒体详情界面618。在一个示例中,在提供附加详细信息时,媒体内容界面510可扩展成媒体详情界面618,如图6A的界面扩展过渡616所示的。具体地,如图6A所示,可扩展所选择的内容的大小并且可通过在显示器112上向上展开界面以占据更多的屏幕实际使用空间来提供附加文本信息。界面可被展开以适应用户所需的附加详细信息。这样,界面的尺寸可与用户所需的内容量成比例,从而在仍然传达所需内容时使所占用的屏幕实际使用空间最小化。
图6B示出了完全展开之后的详情界面618。如图所示,详情界面618可具有比媒体内容界面510或语音输入界面484更大的尺寸,以适应所需的详细信息。详情界面618可包括详细媒体信息622,该详细媒体信息622可包括与媒体内容或虚拟助理查询的另一结果相关联的各种详细信息。详细媒体信息622可包括节目标题、节目描述、节目开播时间、频道、剧集概要、电影描述、演员名称、人物名称、体育赛事参与者、制作人名称、导演名称、或与虚拟助理查询结果相关联的任何其他详细信息。
在一个示例中,详情界面618可包括可选视频链接620(或用于播放媒体内容的另一链接)该可选视频链接620可包括相应可选视频链接512的较大版本。因此,可选视频链接620可包括静止或移动图像,并且可以可选择以使得回放相关联的视频。可选视频链接620可包括相关联的视频内容的正在播放的视频、电视频道的实况馈送(例如,体育频道上的足球比赛的实况馈送)等。可选视频链接620还可包括任何其他视频、动画、图像等(例如,三角形播放符号)。
如上所述,可响应于对视频链接(诸如视频链接620或视频链接512)的选择来播放视频。图7A和图7B示出了可响应于对视频链接的选择(或其他播放视频内容的命令)而显示的示例性媒体过渡界面。如图所示,可将视频480替换为视频726。在一个示例中,可展开视频726来代替或覆盖视频480,如图7A中的界面扩展过渡724所示的。过渡的结果可包括图7B的扩展媒体界面728。与其他界面一样,扩展媒体界面728的尺寸可足以向用户提供所需的信息;在此,可包括扩展到填满显示器112。因此,扩展媒体界面728可大于任何其他界面,因为所需信息可包括跨整个显示器的正在播放的媒体内容。尽管未示出,但在一些示例中,描述性信息可简略地(例如,沿屏幕的底部)覆盖在视频726上。此类描述性信息可包括相关联的节目、视频、频道等的名称。然后可(例如,在几秒钟之后)从视图中隐藏描述性信息。
图8A和图8B示出了可在显示器112上示出以向用户传达语音输入信息的示例性语音输入界面836。在一个示例中,语音输入界面836可被显示在菜单830上。菜单830可包括各种媒体选项832,并且语音输入界面836可类似地被显示在任何其他类型的菜单(例如,内容菜单、类别菜单、控制菜单、设置菜单、程序菜单等)上。在一个示例中,语音输入界面836可被配置为占据显示器112的相对较大量的屏幕实际使用空间。例如,语音输入界面836可大于上文所讨论的语音输入界面484。在一个示例中,可基于背景内容来确定要使用的语音输入界面的尺寸(例如,较小界面484或较大界面836)。当背景内容包括移动图像时,例如,可显示小尺寸的语音输入界面(例如,界面484)。另一方面,当背景内容包括静止图像(例如,暂停的视频)或菜单时,例如可显示大尺寸的语音输入界面(例如,界面836)。这样,如果用户正在观看视频内容,则可显示较小语音输入界面,其仅最低限度地占用屏幕实际使用空间;而如果用户正在导航菜单或者观看暂停的视频或其他静止图像,则可显示较大语音输入界面,其可通过占据附加实际使用空间来传达更多信息或起到更深远的影响。同样可基于背景内容以不同方式来确定本文中讨论的其他界面的尺寸。
如上所述,可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理,或开始实时处理语音输入)。可以各种方式来触发监听,包括指示,诸如:用户按压遥控器106上的物理按钮,用户按压用户设备102上的物理按钮,用户按压用户设备102上的虚拟按钮,用户说出可被始终监听的设备识别的触发短语(例如,说出“嘿,助理”以开始监听命令),用户执行可被传感器检测的手势(例如,在相机前面做动作)等。在另一示例中,用户可按压并保持遥控器106或用户设备102上的物理按钮以发起监听。在其他示例中,用户可在说出查询或命令时按压并保持遥控器106或用户设备102上的物理按钮,并且可在完成时释放该按钮。同样可接收各种其他指示,以发起从用户接收语音输入。
响应于接收到监听语音输入的指示,可在菜单830上显示语音输入界面836。图8A示出了从显示器112的底部部分向上展开的大的通知区域834。在接收到监听语音输入的指示时,可在大的通知区域834中显示语音输入界面836,并且如图所示,界面可以动画方式从显示器112的观看区域的底部边缘向上滑动。在一些示例中,当(例如,响应于接收到监听语音输入的指示)显示重叠界面时,背景菜单、暂停的视频、静止图像或其他背景内容可在z方向上收缩和/或向后移动(好像进一步进入显示器112中)。背景界面收缩过渡831和相关联的向内指向的箭头示出背景内容(例如,菜单830)可如何收缩(缩窄所显示的菜单、图像、文本等)。这可提供看起来像背景内容远离用户移动的视觉效果,使新的前景界面(例如,界面836)显露出来。图8B示出了包括收缩(缩窄)版本的菜单830的收缩的背景界面833。如图所示,收缩的背景界面833(其可包括边框)可在将焦点转移到前景界面836时显得进一步远离用户。当显示重叠界面时,本文所讨论的其他示例中的任一个示例中的背景内容(包括背景视频内容)可类似地在z方向上收缩和/或向后移动。
图8B示出了在向上滑入视图之后的语音输入界面836。如上所述,可在接收语音输入时显示各种确认。尽管在此未示出,但语音输入界面836可以与上面参考图4B、图4C和图4D所讨论的语音输入界面484相似的方式,类似地显示准备就绪确认486、正在监听确认487、和/或正在处理确认488的较大版本。
如图8B所示,可示出命令接收确认838(如上面讨论的较小尺寸的命令接收确认490),以确认系统接收和解译的语音输入。还可示出转录840,并且该转录可包括所接收的语音输入的转录(例如,“New York的天气如何?”)。在一些示例中,转录840可以动画形式从显示器112的底部向上滑动,可在图8B所示的位置暂时显示(例如,几秒),并且然后可在从视图中消失之前向上滑动到语音输入界面836的顶部(例如,如同文本向上滚动并最终离开视图)。在其他示例中,可不显示转录,并且可处理用户的命令或查询并可在不显示经转录的情况下执行相关联的任务。
在其他示例中,可在用户讲话时实时地执行语音转录。转录出字词时,可将其显示在语音输入界面836中。例如,字词可被显示在上述较大版本的正在监听确认487旁边。在用户完成讲话之后,可在执行与用户命令相关联的任务之前简要地显示命令接收确认838。
此外,在其他示例中,命令接收确认838可传达关于所接收和理解的命令的信息。例如,对于调谐到特定频道的简单请求,当对频道进行调谐时,与频道相关联的标志或数字可短暂地被显示为命令接收确认838(例如,几秒钟)。在另一个示例中,对于选择所显示菜单项(例如,媒体选项832中的一个)的请求,与所选择的菜单项相关联的图像可被显示为命令接收确认838。因此,命令接收确认838可用于传送命令特定信息。
在一些示例中,语音输入界面836可在接收到用户查询或命令之后隐藏。例如,语音输入界面836可被动画表示为向下滑动,直到其从显示器112的底部离开视图。在不需要向用户显示进一步信息的情况下,可隐藏语音输入界面836。例如,对于通用或直接的命令(例如,换成频道十、换成体育频道、播放该电影等),语音输入界面836可在确认命令接收之后立即隐藏,并且可立即执行相关联的一个或多个任务。
在其他示例中,查询的结果可被显示在语音输入界面836内或不同的界面中。图9示出了菜单830上(具体地,收缩的背景界面833上)的具有图8B中经转录的查询的示例性结果的示例性虚拟助理结果界面942。在一些示例中,虚拟助理查询结果可包括文本回答,诸如文本回答944。虚拟助理查询的结果还可包括解决用户查询的媒体内容,诸如与可选视频链接946和购买链接948相关联的内容。具体地,在该示例中,用户可请求New York指定位置的天气信息。虚拟助理可提供直接回答用户查询的文本回答944(例如,表示天气看起来很好并提供温度信息)。作为文本回答944的替代或补充,虚拟助理可将可选视频链接946连同购买链接948和相关联的文本一起提供。与链接946和948相关联的媒体还可提供对用户查询的响应。在此,与链接946和948相关联的媒体可包括指定位置处天气信息的十分钟剪辑(具体地,来自被称为天气预报频道的电视频道的New York的未来五天的天气预报)。
在一个示例中,解决用户查询的剪辑可包括先前所播内容(其可从记录或从流服务获取)的时间提示部分。在一个示例中,虚拟助理可基于与语音输入相关联的用户意图并通过搜索关于可用媒体内容的详细信息(例如,包括录制节目的元数据、以及详细定时信息、或关于流内容的详细信息)来识别此类内容。在一些示例中,用户对某些内容可不具有访问权限或者可没有订阅。在这种情况下,可例如经由购买链接948来提供内容以供购买。在选择购买链接948或视频链接946时,内容的费用可从用户帐户中自动扣除或者记入用户帐户的账目。
图10示出了使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的示例性过程1000。在框1002处,可从用户接收语音输入。例如,可在系统100的用户设备102或遥控器106处接收语音输入。在一些示例中,语音输入(或者语音输入中的一些或全部的数据表示)可被传输到服务器系统110和/或电视机顶盒104并且由该服务器系统和/或电视机顶盒接收。响应于用户发起对语音输入的接收,可在显示器(诸如显示器112)上显示各种通知。例如,可如上文参考图4A至图4E所讨论的那样,显示准备就绪确认、正在监听确认、正在处理确认、和/或命令接收确认。此外,可转录所接收的用户语音输入并且可显示转录。
再次参考图10的过程1000,在框1004处,可基于语音输入来确定媒体内容。例如,可(例如,通过搜索可用媒体内容等)确定用于解决在虚拟助理处引导的用户查询的媒体内容。例如,可确定与图4E的转录492相关的媒体内容(“现在正进行的体育赛事有哪些?”)。此类媒体内容可包括在可供用户观看的一个或多个电视频道上显示的直播体育赛事。
在框1006处,可显示具有可选媒体链接的第一尺寸的第一用户界面。例如,具有可选视频链接512和可选文本链接514的媒体内容界面510可被显示在显示器112上,如图5所示。如上所述,媒体内容界面510可具有较小尺寸,以避免干扰背景视频内容。
在框1008处,可接收对链接中的一个链接的选择。例如,可接收对链接512和/或链接514中的一个链接的选择。在框1010处,可显示具有与选择相关联的媒体内容的较大第二尺寸的第二用户界面。例如,可显示具有可选视频链接620和详细媒体信息622的详情界面618,如图6B所示。如上所述,详情界面618可具有较大尺寸,以传达所需的附加详细媒体信息。类似地,在选择视频链接620时,扩展媒体界面728可与视频726一起显示,如图7B所示。如上所述,扩展媒体界面728可具有较大尺寸,以向用户提供所需的媒体内容。这样,本文所讨论的各种界面可调节尺寸以适应所需的内容(包括扩展成较大尺寸的界面或收缩成较小尺寸的界面),而另一方面占据有限的屏幕实际使用空间。因此,过程1000可用于使用虚拟助理控制电视交互,并使用不同界面显示相关联的信息。
在另一个示例中,可在控制菜单上显示尺寸比背景视频内容上的界面的尺寸更大的界面。例如,如图8B所示,语音输入界面836可被显示在菜单830上方,并且如图9所示,助理结果界面942可被显示在菜单830上方,而如图5所示,较小媒体内容界面510可被显示在视频480上方。这样,可至少部分地通过背景内容的类型来确定界面的尺寸(例如,由界面占据的屏幕实际使用空间量)。
图11示出了用户设备102上的示例性电视媒体内容,该用户设备102可包括具有触摸屏246(或另一显示器)的移动电话、平板电脑、遥控器等。图11示出了包括具有多个电视节目1152的电视列表的界面1150。界面1150可例如对应于用户设备102上的特定应用程序,诸如电视控制应用程序、电视内容列表应用程序、互联网应用程序等。在一些示例中,在用户设备102上(例如,触摸屏246上)所示的内容可用于从与该内容相关的语音输入确定用户意图,并且用户意图可用于使内容在另一设备和显示器上(例如,在电视机顶盒104和显示器112和/或扬声器111上)播放或显示。例如,在用户设备102上的界面1150中所示的内容可用于对用户请求进行消歧,并且从语音输入确定用户意图,并且然后可使用所确定的用户意图经由电视机顶盒104来播放或显示媒体。
图12示出了使用虚拟助理的示例性电视控制。图12示出了可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面的界面1254。例如,界面1254可包括提示用户作出请求的助理问候1256。然后,可转录随后接收的用户语音诸如经转录的用户语音1258,从而显示来回会话。在一些示例中,响应于触发发起对语音输入(触发例如按钮按压、关键短语等)的接收,界面1254可出现在用户设备102上。
在一个示例中,用于经由电视机顶盒104(例如,在显示器112和扬声器111上)播放内容的用户请求可包括对用户设备102上所示的某些内容的模糊引用。例如,经转录的用户语音1258包括对“那个”足球比赛的引用(“播放那个足球比赛。”)。单从语音输入来看,所期望的特定足球比赛可能并不清楚。然而,在一些示例中,在用户设备102上所示的内容可用于对用户请求进行消歧并确定用户意图。在一个示例中,在用户发出请求之前(例如,在界面1254出现在触摸屏246上之前),在用户设备102上所示的内容可用于确定用户意图(如可以是在界面1254内出现的内容,诸如先前的查询和结果)。在例示的示例中,在图11的界面1150中所示的内容可用于从播放“那个”足球比赛的命令确定用户意图。电视节目1152的电视列表包括各种不同的节目,其中的一个节目标题为出现在第5频道上的“足球”。足球列表的出现可用于根据说出“那个”足球比赛来确定用户的意图。具体地,用户对“那个”足球比赛的引用可被解析为出现在界面1150的电视列表中的足球节目。因此,虚拟助理可(例如,通过使电视机顶盒104调谐到适当的频道并显示比赛)使得回放用户所期望的特定足球比赛。
在其他示例中,用户可以各种其他方式引用在界面1150中所示的电视节目(例如,频道八上的节目、新闻、戏剧节目、广告、第一节目等),并且可类似地基于所显示的内容来确定用户意图。应当理解,与所显示的内容相关联的元数据(例如,电视节目描述)、模糊匹配技术、同义词匹配等还可与所显示的内容结合用于确定用户意图。例如,可(例如,使用同义词和/或模糊匹配技术)将术语“广告”与描述“付费节目”匹配,以从显示“广告”的请求来确定用户意图。同样,可在确定用户意图时分析对特定电视节目的描述。例如,可在法庭剧的详细描述中识别术语“法律”,并且可基于与界面1150中所示的内容相关联的详细描述来从观看“法律”节目的用户请求确定用户意图。因此,所显示的内容和与其相关联的数据可用于对用户请求消歧并确定用户意图。
图13示出了用户设备102上的示例性图片和视频内容,该用户设备可包括具有触摸屏246(或另一显示器)的移动电话、平板电脑、遥控器等。图13示出了包括照片和视频列表的界面1360。界面1360可例如对应于用户设备102上的特定应用程序,诸如媒体内容应用程序、文件导航应用程序、存储应用程序、远程存储管理应用程序、相机应用程序等。如图所示,界面1360可包括视频1362、相册1364(例如,一组多张照片)和照片1366。如上面参考图11和图12所讨论的,在用户设备102上所示的内容可用于从与该内容相关的语音输入确定用户意图。然后,可将用户意用于使内容在另一设备和显示器上(例如,在电视机顶盒104和显示器112和/或扬声器111上)回放或显示。例如,在用户设备102上的界面1360中所示的内容可用于对用户请求消歧,并且用于从语音输入确定用户意图,并且然后可使用所确定的用户意图经由电视机顶盒104来播放或显示媒体。
图14示出了使用虚拟助理的示例性媒体显示控制。图14示出了可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面的界面1254。如图所示,界面1254可包括提示用户作出请求的助理问候1256。然后,可在对话内转录用户语音,如图14的示例所示的。在一些示例中,响应于触发发起对语音输入(触发例如按钮按压、关键短语等)的接收,界面1254可出现在用户设备102上。
在一个示例中,用于经由电视机顶盒104(例如,在显示器112和扬声器111上)播放媒体内容或显示媒体的用户请求可包括对用户设备102上所示的某些内容的模糊引用。例如,经转录的用户语音1468包括对“那个”视频的引用(“显示那个视频。”)。单从语音输入来看,所引用的具体视频可能并不清楚。然而,在一些示例中,在用户设备102上所示的内容可用于对用户请求进行消歧并确定用户意图。在一个示例中,在用户发出请求之前(例如,在界面1254出现在触摸屏246上之前),在用户设备120上所示的内容可用于确定用户意图(如可以是在界面1254内出现的内容,诸如先前的查询和结果)。在用户语音1468的示例中,在图13的界面1360中所示的内容可用于从显示“那个”视频的命令确定用户意图。界面1360中的照片和视频列表包括多种不同的照片和视频,包括视频1362、相册1354和照片1366。当界面1360中仅出现一个视频(例如,视频1362)时,界面1360中视频1362的出现可用于根据说出“那个”视频来确定用户的意图。具体地,用户对“那个”视频的引用可被解析为出现在界面1360中的视频1362(标题为“毕业视频”)。因此,虚拟助理可(例如,通过使视频1362从用户设备102或远程存储器传输到电视机顶盒104并且使重放开始)使视频1362重放。
在另一个示例中,经转录的用户语音1470包括对“那个”相册的引用(“播放那个相册的幻灯片。”)。单从语音输入来看,所引用的具体相册可能并不清楚。在用户设备102上所示的内容可再次用于对用户请求进行消歧。具体地,在图13的界面1360中所示的内容可用于从播放“那个”相册的幻灯片的命令确定用户意图。界面1360中的照片和视频列表包括相册1354。界面1360中相册1364的出现可用于根据说出“那个”相册来确定用户的意图。具体地,用户对“那个”相册的引用可被解析为出现在界面1360中的相册1364(标题为“毕业相册”)。因此,响应于用户语音1470,虚拟助理可(例如,通过使相册1364的照片从用户设备102或远程存储器传输到电视机顶盒104并使照片的幻灯片放映开始)使包括来自相册1364的照片的幻灯片将被显示。
在又一示例中,经转录的用户语音1472包括对“最后”一张照片的引用(“在厨房电视上显示最后一张照片”)。单从语音输入来看,所引用的具体照片可能并不清楚。在用户设备102上所示的内容可再次用于对用户请求进行消歧。具体地,在图13的界面1360中所示的内容可用于从显示“最后”一张照片的命令确定用户意图。界面1360中的照片和视频列表包括两张单独的照片1366。界面1360中的照片1366的出现(特别是界面内的照片1366的出现的顺序)可用于根据说出“最后”一张照片来确定用户的意图。具体地,用户对“最后”一张照片的引用可被解析为出现在界面1360底部的照片1366(日期为2014年6月21日)。因此,响应于用户语音1472,虚拟助理可(例如,通过使最后一张照片1366从用户设备102或远程存储器传输到电视机顶盒104并使照片将被显示)使在界面1360中所示的最后一张照片1366将被显示。
在其他示例中,用户可以各种其他方式来引用在界面1360中所示的媒体内容(例如,最后一对照片、所有视频、所有照片、毕业专辑、毕业视频、从6月21日起的照片等),并且可类似地基于所显示的内容来确定用户意图。应当理解,与所显示的内容相关联的元数据(例如,时间戳、位置信息、标题、描述等)、模糊匹配技术、同义词匹配等还可与所显示的内容结合,以确定用户意图。因此,所显示的内容和与其相关联的数据可用于对用户请求消歧并确定用户意图。
应当理解,任何应用程序的任何应用界面中的任何类型的是所显示的内容可用于确定用户意图。例如,可在语音输入中引用在互联网浏览器应用程序中的网页上显示的图像,并且可分析所显示的网页内容以识别所需的图像。类似地,可按标题、流派、艺术家、乐队名等在语音输入中引用音乐应用程序中的音乐列表中的音乐曲目,并且可将音乐应用中的所显示的内容(并且在一些示例中,相关联的元数据)用于从语音输入确定用户意图。如上所述,然后可经由另一设备(例如,经由电视机顶盒104来)将所确定的用户意图用于使得显示或回放媒体。
在一些示例中,可采用用户识别、用户认证和/或设备认证来确定是否可允许媒体控制、确定可用于显示的媒体内容、确定访问许可等。例如,可确定特定用户设备(例如,用户设备102)是否被授权控制例如电视机顶盒104上的媒体。可基于注册、配对、信任确定、密码、安全问题、系统设置等来对用户设备进行授权。响应于确定特定用户设备已被授权,可允许尝试控制电视机顶盒104(例如,可响应于确定请求设备被授权控制媒体而播放媒体内容)。相反,可忽略来自未授权设备的媒体控制命令或请求,和/或可提示这些设备的用户注册其设备以用于控制特定电视机顶盒104。
在另一个示例中,可识别特定用户,并且可使用与该用户相关联的个人数据来确定请求的用户意图。例如,可基于语音输入来识别用户,诸如通过使用用户声纹的语音识别来识别用户。在一些示例中,用户可说出被分析用于语音识别的特定短语。在其他示例中,可使用语音识别来分析针对虚拟助理的语音输入请求,以识别讲话者。还可基于语音输入样本的源(例如,在用户的个人设备102上)来识别用户。还可基于口令、密码、菜单选择等来识别用户。然后,可基于所识别的用户的个人数据来解译从用户处接收的语音输入。例如,可基于来自用户的先前请求、用户拥有的媒体内容、被存储在用户设备上的媒体内容、用户偏好、用户设置、用户人口统计学特征(例如,所用语言等)、用户个人资料信息、用户支付方法或者与特定识别用户相关联的各种其他个人信息来确定语音输入的用户意图。例如,可基于个人数据来对引用收藏列表等的语音输入进行消歧,并且可识别用户的个人收藏列表。同样可基于用户识别来对引用“我的”照片、“我的”视频、“我的”节目等语音输入进行消歧,以正确地识别与所识别的用户相关联的照片、视频和演出(例如,被存储在个人用户设备上的照片等)。类似地,可对请求购买内容的语音输入进行消歧,以确定所识别的用户的支付方法(而不是另一用户的支付方法)应当为购买付费。
在一些示例中,用户认证可用于确定是否允许用户访问媒体内容、购买媒体内容等。例如,语音识别可用于(例如,使用用户的声纹)验证特定用户的身份,以允许用户使用用户的支付方法来进行购买。类似地,口令等可用于验证用户以允许购买。在另一个示例中,语音识别可用于验证特定用户的身份,以确定是否允许用户观看特定节目(例如,具有特定家长指导评级的节目、具有特定年龄适合性评级的电影等)。例如,可基于指示请求者不是能够查看此类内容的授权用户(例如,父母)的语音识别来拒绝孩子对特定节目的请求。在其他示例中,语音识别可用于确定用户是否能够访问特定订阅内容(例如,基于语音识别限制对优质频道内容的访问)。在一些示例中,用户可说出被分析用于语音识别的特定短语。在其他示例中,可使用语音识别来分析针对虚拟助理的语音输入请求,以识别讲话者。因此,可响应于首先确定用户以多种方式中的任一种方式被授权来播放某些媒体内容。
图15示出了示例性虚拟助理交互,其中结果在移动用户设备和媒体显示设备上。在一些示例中,虚拟助理可在多于一个设备上提供信息和控制,诸如在用户设备102上以及在电视机顶盒104上提供信息和控制。此外,在一些示例中,用于用户设备102上的控制和信息的虚拟助理界面同样可用于发出控制电视机顶盒104上的媒体的请求。因此,虚拟助理系统可确定是在用户设备102上还是在电视机顶盒104上显示结果或执行任务。在一些示例中,当采用用户设备102来控制电视机顶盒104时,可通过在用户设备102(例如,在触摸屏246上)上显示信息来使虚拟助理界面在与电视机顶盒104相关联的显示器(例如,显示器112)上占用的空间最小化。在其他示例中,虚拟助理信息可单独被显示在显示器112上,或者虚拟助理信息可被显示在用户设备102和显示器112两者上。
在一些示例中,可确定虚拟助理查询的结果是应当直接被显示在用户设备102上还是被显示在与电视机顶盒104相关联的显示器112上。在一个示例中,响应于确定查询的用户意图包括对信息的请求,可在用户设备102上显示信息性响应。在另一示例中,响应于确定查询的用户意图包括用于播放媒体内容的请求,可经由电视机顶盒104来播放响应于查询的媒体内容。
图15示出了包含虚拟助理和用户之间的会话式对话示例的虚拟助理界面1254。助理问候1256可提示用户作出请求。在第一查询中,经转录的用户语音1574(其也可被键入或以其他方式输入)包括对与所显示媒体内容相关联的信息性回答的请求。具体地,经转录的用户语音1574询问正在进行足球比赛的是谁,该足球比赛例如可能被显示在用户设备102上的界面上(例如,在图11的界面1150中列出)或被显示在在显示器112上(例如,在图5的界面510中列出,或作为图7B中显示器112上的视频726播放)。可基于所显示的媒体内容来确定经转录的用户语音1574的用户意图。例如,可基于用户设备102上或显示器112上所示的内容来识别所讨论的特定足球比赛。经转录的用户语音1574的用户意图可包括获取详细说明正在进行足球比赛的球队的信息性回答,该正在进行足球比赛的球队基于所显示的内容而被识别。响应于确定用户意图包括对信息性回答的请求,系统可确定在图15中的界面1254内(而不是在显示器112上)显示响应。在一些示例中,可基于与所显示的内容相关联的元数据(例如,基于电视列表中足球比赛的描述)来确定对查询的响应。如图所示,助理响应1576因此可在界面1254中在用户设备102的触摸屏246上被显示,从而将Alpha队和Zeta队识别为正在进行比赛的球队。因此,在一些示例中,可基于确定查询包括信息性请求而在用户设备102上的界面1254内显示信息性响应。
然而,界面1254中的第二查询包括媒体请求。具体地,经转录的用户语音1578请求将显示的媒体内容改为“比赛”。可基于所显示的内容来确定经转录的用户语音1578的用户意图(例如,以识别用户期望的是哪个比赛),诸如在图5的界面510中列出的比赛、在图11的界面1150中列出的比赛、在先前查询中(例如,在经转录的用户语音1574中)引用的比赛等。因此,经转录的用户语音1578的用户意图可包括将所显示的内容改为特定比赛(在此是有Alpha队和Zeta队参加的足球比赛)。在一个示例中,比赛可被显示在用户设备102上。然而,在其他示例中,基于包括请求播放媒体内容的查询,比赛可经由电视机顶盒104而被示出。具体地,响应于确定用户意图包括播放媒体内容的请求,系统可确定经由电视机顶盒104来在显示器112上(而不是在图15中的界面1254内)显示媒体内容结果。在一些示例中,确认虚拟助理的预期动作的响应或改述可在界面1254中或在显示器112上示出(例如,“改为足球比赛。”)。
图16示出了示例性虚拟助理交互,其中媒体结果在媒体显示设备和移动用户设备上。在一些示例中,虚拟助理可提供对用户设备102和电视机顶盒104两者上的媒体的访问。此外,在一些示例中,用于用户设备102上的媒体的虚拟助理界面同样可用于发出对电视机顶盒104上的媒体的请求。因此,虚拟助理系统可确定是在用户设备102上还是经由电视机顶盒104在显示器112上显示媒体结果。
在一些示例中,可基于媒体结果格式、用户偏好、默认设置、请求本身中的表达命令等来确定是在设备102上还是在显示器112上显示媒体。例如,查询的媒体结果的格式可用于(例如,在没有具体指令的情况下)确定默认在哪个设备上显示媒体结果。电视节目可更适合于在电视上显示,大格式视频可更适合于在电视上显示,缩略图照片可更适合于在用户设备上显示,小格式网络视频可更适合于在用户设备上显示,而各种其他媒体格式可更适合于在相对较大的电视屏幕或相对较小的用户设备显示器上显示。因此,响应于(例如,基于媒体格式)确定媒体内容应当被显示在特定显示器上,可默认在该特定显示器上显示媒体内容。
图16示出了虚拟助理界面1254,其中查询的示例与正在播放或正在显示的媒体内容相关。助理问候1256可提示用户作出请求。在第一查询中,经转录的用户语音1680包括用于显示足球比赛的请求。如在上文所讨论的示例中,可基于所显示的内容来确定经转录的用户语音1680的用户意图(例如,以识别用户期望的是哪个比赛),诸如在图5的界面510中列出的比赛、在图11的界面1150中列出的比赛、先前查询中引用的比赛等。因此,经转录的用户语音1680的用户意图可包括显示可例如在电视上播出的特定足球比赛。响应于确定用户意图包括用于显示被格式化以适于电视的媒体(例如,电视播放的足球比赛)的请求,系统可自动确定经由电视机顶盒104在显示器112上(而不是在用户设备102本身上)显示期望的媒体。然后,虚拟助理系统可(例如,通过执行必要的任务和/或发送适当的命令)使电视机顶盒104调谐到足球比赛并在显示器112上显示该足球比赛。
然而,在第二查询中,经转录的用户语音1682包括显示球队队员图片的请求(例如,“Alpha队”的图片)。如在上文所讨论的示例中,可确定经转录的用户语音1682的用户意图。经转录的用户语音1682的用户意图可包括对与“Alpha队”相关联的图片执行搜索(例如,网络搜索)以及显示所得到的图片。响应于确定用户意图包括用于显示可以缩略图格式呈现的媒体或者与网络搜索相关联的媒体或者不具有特定格式的其他非特定媒体的请求,系统可自动确定在界面1254中在用户设备102的触摸屏246上显示期望的媒体结果(而不是经由电视机顶盒104在显示器112上显示所得到的图片)。例如,如图所示,可响应于用户查询而在用户设备102上的界面1254内显示缩略图照片1684。因此,虚拟助理系统可使得特定格式的媒体或者可以特定格式(例如,在一组缩略图中)呈现的媒体被默认显示在用户设备102上。
应当理解,在一些示例中,在用户语音1680中所引用的足球比赛可被显示在用户设备102上,并且照片1684可经由电视机顶盒104而被显示在显示器112上。然而,可基于媒体格式来自动确定用于进行显示的默认设备,从而简化用户的媒体命令。在其他示例中,可基于用户偏好、默认设置、最近用于显示内容的设备、识别用户和与该用户相关联的设备的语音识别等,来确定用于显示所请求的媒体内容的默认设备。例如,用户可设置偏好或者可设置默认配置,以经由电视机顶盒104来在显示器112上显示某些类型的内容(例如,视频、幻灯片、电视节目等)并在用户设备102的触摸屏246上显示其他类型的内容(例如,缩略图、照片、网络视频等)。类似地,可设置偏好或默认配置,以通过在一个设备或另一设备上显示内容来对某些查询进行响应。在另一个示例中,所有内容可被显示在用户设备102上,除非用户另有指示。
在其他示例中,用户查询可包括在特定显示器上显示内容的命令。例如,图14的用户语音1472包括在厨房电视上显示照片的命令。因此,系统可使照片在与用户厨房相关联的电视显示器上显示,而不是在用户设备102上显示照片。在其他示例中,用户可以多种其他方式来指示使用哪个显示设备(例如,在电视上、在大屏幕上、在客厅中、在卧室中、在我的平板电脑上、在我的电话上等)。因此,可以多种不同方式来确定用于显示虚拟助理查询的媒体内容结果的显示设备。
图17示出了基于接近度的示例性媒体设备控制。在一些示例中,用户在同一家庭内或在同一网络上可具有多个电视和电视机顶盒。例如,家庭可将电视和机顶盒设置在客厅中,另一个设置在卧室中,并且又一个设置在厨房中。在其他示例中,多个机顶盒可连接到同一网络,诸如公寓或办公楼中的公共网络。尽管用户可针对特定机顶盒对遥控器106和用户设备102进行配对、连接或以其他方式授权以避免未经授权的访问,但在其他示例中,遥控器和/或用户设备可用于控制多于一个机顶盒。用户可例如使用单个用户设备102来控制卧室、客厅和厨房中的机顶盒。用户还可例如使用单个用户设备102来控制其自己公寓中的自己的机顶盒,并且控制邻居公寓中的邻居的机顶盒(例如,与邻居共享来自用户设备102的内容,诸如在邻居的电视上显示被存储在用户设备102上的照片的幻灯片)。因为用户可使用单个用户设备102来控制多个不同的机顶盒,因此系统可确定向多个机顶盒中的哪个机顶盒发送命令。同样,因为家庭可具有可操作多个机顶盒的多个遥控器106,所以系统可类似地确定向多个机顶盒中的哪个机顶盒发送命令。
在一个示例中,设备的接近度可用于确定向多个机顶盒中的哪个机顶盒发送命令(或在哪个显示器上显示所请求的媒体内容)。可在用户设备102或遥控器106与多个机顶盒中的每个机顶盒之间确定接近度。然后,可将发出的命令发送到最近的机顶盒(或者可在最近的显示器上显示所请求的媒体内容)。可以多种方式中的任一种方式来确定(或至少估计)接近度,该方式诸如飞行时间测量(例如,使用射频)、蓝牙LE、电子脉冲信号、接近传感器、声路测量等。然后,可比较测量的或估计的距离,并且可向距离最短的设备(例如,最近的机顶盒)发出命令。
图17示出了包括具有第一显示器1786的第一机顶盒1792和具有第二显示器1788的第二机顶盒1794的多设备系统1790。在一个示例中,用户可从用户设备102发出显示媒体内容的命令(例如,而不必指定在哪儿或在哪个设备上进行显示)。然后,可确定(或估计)到第一机顶盒1792的距离1795和到第二机顶盒1794的距离1796。如图所示,距离1796可大于距离1795。基于接近度,来自用户设备102的命令可被发至第一机顶盒1792,该第一机顶盒为最近的设备并且最有可能匹配用户的意图。在一些示例中,单个遥控器106还可用于控制多于一个机顶盒。可基于接近度来确定用于在给定时间进行控制的所需设备。可确定(或估计)到第二机顶盒1794的距离1797和到第一机顶盒1792的距离1798。如图所示,距离1798可大于距离1797。基于接近度,来自遥控器106的命令可被发至第二机顶盒1794,该第二机顶盒为最近的设备并且最有可能匹配用户的意图。可定期地或用每个命令刷新距离测量结果,以适应例如用户移动到不同的房间以及期望控制不同的设备。
应当理解,用户可针对命令指定不同的设备,在一些情况下覆写接近度。例如,可在用户设备102上显示可用显示设备的列表(例如,通过设置名称、指定房间等列出第一显示器1786和第二显示器1788,或通过设置名称、指定房间等列出第一机顶盒1792和第二机顶盒1794)。用户可从列表中选择设备中的一个设备,并且然后可将命令发送到所选择的设备。然后,可通过在所选择的设备上显示期望的媒体来处理在用户设备102处发出的对媒体内容的请求。在其他示例中,用户可讲出期望的设备作为口头命令的一部分(例如,在厨房电视上显示比赛,变化到客厅中的卡通频道等)。
在其他示例中,可基于与特定设备相关联的状态信息来确定用于显示所请求的媒体内容的默认设备。例如,可确定耳机(或头戴式耳机)是否附接到用户设备102。响应于确定当接收到显示媒体内容的请求时耳机附接到用户设备102,可默认(例如,假设用户正在用户设备102上而不是在电视上消费内容)在用户设备102上显示所请求的内容。响应于确定当接收到显示媒体内容的请求时耳机未附接到用户设备102,可根据本文所讨论的各种确定方法中的任一种方法来在用户设备102上或在电视机上显示所请求的内容。可类似地使用其他设备状态信息来确定所请求的媒体内容是应该在用户设备102上还是机顶盒104上显示,该其他设备状态信息诸如用户设备102或机顶盒104周围的环境照明、其他设备到用户设备102或机顶盒104的接近度、用户设备102的取向(例如,横向取向更可能指示期望在用户设备102上观看)、机顶盒104的显示状态(例如,处于休眠模式)、自特定设备上最后一次交互以来的时间、或者用于用户设备102和/或机顶盒104的各种其他状态指示符中的任一状态指示符。
图18示出了使用虚拟助理和多个用户设备来控制电视交互的示例性过程1800。在框1802处,可在具有第一显示器的第一设备处从用户接收语音输入。例如,可在系统100的用户设备102或遥控器106处从用户接收语音输入。在一些示例中,第一显示器可包括用户设备102的触摸屏246或与遥控器106相关联的显示器。
在框1804处,可基于第一显示器上所显示的内容来从语音输入确定用户意图。例如,可对内容(诸如图11的界面1150中的电视节目1152或者图13的界面1360中的照片和视频)进行分析,并将其用于确定用于语音输入的用户意图。在一些示例中,用户可以模糊的方式引用在第一显示器上所示的内容,并且可通过分析在第一显示器上所示的内容来对引用进行消歧,以解析引用(例如,确定“那个”视频、“那个”相册、“那个”比赛等的用户意图),如上面参考图12和图14所讨论的。
再次参考图18的过程1800,在框1806处,可基于用户意图来确定媒体内容。例如,可基于用户意图来识别特定视频、照片、相册、电视节目、体育赛事、音乐曲目等。在上文所讨论的图11和图12的示例中,例如可基于用户意图是指图11的界面1150中所示的“那个”足球比赛来识别在频道五上所示的特定足球比赛。在上文所讨论的图13和图14的示例中,可基于从图14的语音输入示例确定的用户意图来识别标题为“毕业视频”的特定视频1362、标题为“毕业相册”的特定相册1364或特定照片1366。
再次参考图18的过程1800,在框1808处,可在与第二显示器相关联的第二设备上播放媒体内容。例如,可经由电视机顶盒104在具有扬声器111的显示器112上播放所确定的媒体内容。播放媒体内容可包括在电视机顶盒104或另一装置上调谐到特定电视频道、播放特定视频、显示照片幻灯片、显示特定照片、播放特定音轨等。
在一些示例中,可确定对针对虚拟助理的语音输入的响应是应当被显示在与第一设备(例如,用户设备102)相关联的第一显示器上还是应当被显示在与第二设备(例如,电视机顶盒104)相关联的第二显示器上。例如,如上面参考图15和图16所讨论的,适于在较小屏幕上显示的信息性回答或媒体内容可被显示在用户设备102上,而适于在较大屏幕上显示的媒体响应或媒体内容可被显示在与机顶盒104相关联的显示器上。如上面参考图17所讨论的,在一些示例中,用户设备102和多个机顶盒之间的距离可用于确定在哪个机顶盒上播放媒体内容或者向哪个机顶盒发出命令。类似地,可作出各种其他确定,以提供可多个设备交互的方便且用户友好的体验。
在一些示例中,由于在用户设备102上所示的内容可如上所述用于告知对语音输入的解译,因此在显示器112上所示的内容同样可用于告知对语音输入的解译。具体地,在与电视机顶盒104相关联的显示器上所示的内容可连同与该内容相关联的元数据一起用于从语音输入确定用户意图、对用户查询进行消歧、对内容相关的查询进行响应等。
图19示出了具有关于在背景中所示的视频480的虚拟助理查询的示例性语音输入界面484(如上所述)。在一些示例中,用户查询可包括关于在显示器112上所示的媒体内容的问题。例如,转录1916包括请求识别女演员的查询(“那些女演员是谁?”)。在显示器112上所示的内容(连同关于内容的元数据或其他描述性信息)可用于从与该内容相关的语音输入确定用户意图,还可用于确定对查询的响应(响应包括信息性响应以及向用户提供媒体选择的媒体响应)。例如,可使用视频480、对视频480的描述、视频480的人物和演员列表、视频480的评级信息、视频480的分类信息、以及与视频480相关联的多种其他描述性信息来对用户请求进行消歧并确定对用户查询的响应。相关联的元数据可包括例如人物1910、人物1912和人物1914的识别信息(例如,人物名称以及扮演人物的女演员的名称)。任何其他内容的元数据可类似地包括与显示器上所示内容相关联的标题、描述、人物列表、演员列表、队员列表、分类、制作人名称、导演名称或显示时间表,或者显示器上的媒体内容的观看历史(例如,最近显示的媒体)。
在一个示例中,针对虚拟助理的用户查询可包括对在显示器112上所示的某些内容的模糊引用。例如,转录1916包括对“那些”女演员的引用(“那些女演员是谁?”)。单从语音输入来看,用户正在询问的具体女演员可能并不清楚。然而,在一些示例中,在显示器112上所示的内容和相关联的元数据可用于对用户请求进行消歧并确定用户意图。在例示的示例中,在显示器112上所示的内容可用于从对“那些”女演员的引用来确定用户意图。在一个示例中,电视机顶盒104可识别正在播放的内容以及与内容相关联的详情。在这种情况下,电视机顶盒104可识别视频480的标题以及多种描述性内容。在其他示例中,可示出可与相关联的元数据结合以用于确定用户意图的电视节目、体育赛事或其他内容。另外,在本文所讨论的各种示例中的任一个示例中,相比于另选项,语音识别结果和意图确定可给予与所显示的内容相关联的项更高的权重。例如,屏幕人物的演员名称在那些演员出现在屏幕上时(或者在有他们出现的节目正在播放时)可被加以更高的权重,这可提供以用于对与所显示的内容相关联的可能的用户请求进行准确的语音识别和意图确定。
在一个示例中,与视频480相关联的人物和/或演员列表可用于识别视频480中出现的所有或最突出的女演员,其可包括女演员1910,1912和1914。可返回所识别的女演员作为可能的结果(如果元数据分辨率粗糙,则包括较少或更多的女演员)。然而,在另一示例中,与视频480相关联的元数据可包括对在给定时间在屏幕上出现哪些演员和女演员的识别,并且可从该元数据确定在查询的时间出现的女演员(例如,具体识别的女演员1910,1912和1914)。在又一示例中,可将面部识别应用程序用于从显示器112上所示的图像识别女演员1910,1912和1914。在其他示例中,可将与视频480和各种其他识别方法相关联的各种其他元数据用于识别用户引用“那些”女演员的可能意图。
在一些示例中,在显示器112上所示的内容可在提交查询和确定响应的过程中改变。如此,可将媒体内容的观看历史用于确定用户意图并确定对查询的响应。例如,如果视频480在生成对查询的响应之前移动到(例如,具有其他人物的)另一视图,则可基于用户在说出查询时的视图来确定查询的结果(例如,用户发起查询时屏幕上显示的人物)。在某些情况下,用户可暂停播放媒体以发出查询,并且在暂停时示出的内容可与相关联的元数据一起用于确定用户意图和对查询的响应。
给定所确定的用户意图之后,则可向用户提供查询的结果。图20示出了包括助理响应2020的示例性助理响应界面2018,该助理响应可包括从图19的转录1916的查询确定的响应。如图所示,助理响应2020可包括视频480中的每个女演员的名称及其相关人物的列表(“女演员Jennifer Jones扮演人物Blanche;女演员Elizabeth Arnold扮演人物Julia;并且女演员Whitney Davidson扮演人物Melissa。”)。在响应2020中所列出的女演员和人物可对应于出现在显示器112上的人物1910,1912和1914。如上所述,在一些示例中,在显示器112上所示的内容可在提交查询和确定响应的过程中改变。因此,响应2020可包括关于可能不会再出现在显示器112上的内容或人物的信息。
如被显示在显示器112上的其他界面一样,助理响应界面2018可占据最小量的屏幕实际使用空间,同时提供足够的空间来传达所需信息。在一些示例中,如在显示器112上的界面中显示的其他文本一样,助理响应2020可从显示器112的底部向上滚动到图20所示的位置,显示一定量的时间(例如,基于响应长度的延迟),并且向上滚动到视图外。在其他示例中,界面2018可在延迟之后向下滑动到视图之外。
图21和图22示出了基于在显示器112上所显示的内容来确定用户意图和响应查询的另一示例。图21示出了包含针对与视频480相关联的媒体内容的虚拟助理查询的示例性语音输入界面484。在一些示例中,用户查询可包括对与在显示器112上所示的媒体相关联的媒体内容的请求。例如,用户可基于例如人物、演员、分类等来请求与特定媒体相关联的其他电影、电视节目、体育赛事等。例如,转录2122包括请求与视频480中的女演员相关联的其他媒体的查询,其中通过该女演员在视频480中的人物名称来对其进行引用(“Blanche还出演过什么?”)。在显示器112上所示的内容(连同关于内容的元数据或其他描述性信息)可再次用于从与该内容相关的语音输入确定用户意图,还可用于确定对查询的响应(信息性响应或导致媒体选择的响应)。
在一些示例中,针对虚拟助理的用户查询可包括使用人物名称、演员名称、节目名称、队员名称等进行的模糊引用。在没有在显示器112上所示的内容及其相关联元数据的上下文,此类引用可难以精确解析。例如,转录2122包括对来自视频480的名为“Blanche”的人物的引用。单从语音输入来看,用户正在询问的具体女演员或其他个体可能并不清楚。然而,在一些示例中,在显示器112上所示的内容和相关联的元数据可用于对用户请求进行消歧并确定用户意图。在例示的示例中,在显示器112上所示的内容和相关联的元数据可用于从人物名称“Blanche”确定用户意图。在这种情况下,与视频480相关联的人物列表可用于确定“Blanche”可能指代视频480中的人物“Blanche”。在另一示例中,可将详细的元数据和/或面部识别用于确定具有名称“Blanche”的人物出现在屏幕上(或者在用户查询发起时在屏幕上出现过),使得与那个人物相关联的女演员为最可能的用户查询意图。例如,可确定人物1910,1912和1914出现在显示器112上(或者在用户查询发起时在显示器112上出现过),并且然后可引用其相关联的人物名称来确定引用人物Blanche的查询的用户意图。然后,可使用演员列表来识别扮演Blanche的女演员,并且可进行搜索以识别有所识别的女演员出现的其他媒体。
给定所确定的用户意图(例如,对人物引用“Blanche”的解析)和查询结果确定(例如,与扮演“Blanche”的女演员相关联的其他媒体)之后,可向用户提供响应。图22示出了包括助理文本响应2226和可选视频链接2228的示例性助理响应界面2224,其可响应于对图21的转录2122的查询。如图所示,助理文本响应2226可包括对引入可选视频链接2228的用户请求的改述。助理文本响应2226还可包括对用户查询进行消歧的指示(具体地,将女演员Jennifer Jones识别为扮演视频480中的人物Blanche)。此类改述可向用户确认虚拟助理正确地解译了用户查询并且正在提供期望的结果。
助理响应界面2224还可包括可选视频链接2228。在一些示例中,可将各种类型的媒体内容提供为虚拟助理查询的结果,其包括电影(例如,界面2224的电影A和电影B)。作为查询的结果而显示的媒体内容可包括可供用户消费(免费、购买或作为订阅的一部分)的媒体。用户可选择所显示的媒体来观看或消费所得到的内容。例如,用户可(例如,使用遥控器、语音命令等)选择可选视频链接2228中的一个可选视频链接以观看有演员JenniferJones在其中出现的其他电影中的一个电影。响应于对可选视频链接2228中的一个可选视频链接的选择,可播放与该选择相关联的视频,从而替换显示器112上的视频480。因此,所显示的媒体内容和相关联的元数据可用于从语音输入确定用户意图,并且在一些示例中,可提供可播放媒体作为结果。
应当理解,用户可在形成查询时引用演员、队员、人物、位置、团队、体育赛事详情、电影主题、或者与所显示的内容相关联的各种其他信息,并且虚拟助理系统可类似地对此类请求进行消歧并基于所显示的内容和相关联元数据来确定用户意图。同样地,应当理解,在一些示例中,结果可包括与查询相关联的媒体建议,诸如与作为查询的主题的人相关联的电影、电视节目、或体育赛事(无论用户是否特别地请求此类媒体内容)。
此外,在一些示例中,用户查询可包括对与媒体内容本身相关联的信息的请求,诸如关于人物、剧集、电影剧情、先前场景等的查询。与上面所讨论的示例一样,所显示的内容和相关联的元数据可用于从此类查询确定用户意图并确定响应。例如,用户可请求对人物的描述(例如,“Blanche在这部电影中是做什么的?”)。然后,虚拟助理系统可从与所显示的内容相关联的元数据识别关于人物的所请求的信息,诸如人物描述或角色(例如,“Blanche是一群律师中的一个律师并且被称为Hartford的麻烦制造者。”)。类似地,用户可请求剧集概要(例如,“在上一集中发生了什么?”),而虚拟助理系统可搜索并提供对情节的描述。
在一些示例中,被显示在显示器112上的内容可包括菜单内容,并且此类菜单内容可类似地用于确定语音输入的用户意图和对用户查询的响应。图23A至图23B示出了节目菜单830的示例性页面。图23A示出了媒体选项832的第一页面,并且图23B示出了媒体选项832的第二页面(其可包括延伸超出单个页面的内容列表中的连续的下一页)。
在一个示例中,用于播放内容的用户请求可包括对在菜单830中显示器112上所示的某些内容的模糊引用。例如,用于查看菜单830的用户可请求观看“那个”足球比赛、“那个”篮球比赛、真空吸尘器广告、法律节目等。单从语音输入来看,所期望的特定节目可能并不清楚。然而,在一些示例中,在显示器112上所示的内容可用于对用户请求进行消歧并确定用户意图。在例示的示例中,菜单830中的媒体选项(在一些示例中,以及与媒体选项相关联的元数据)可用于从包括模糊引用的命令确定用户意图。例如,“那个”足球比赛可被解析为体育频道上的足球比赛。“那个”篮球比赛可被解析为大学体育频道上的篮球比赛。真空吸尘器广告可(例如,基于与描述真空吸尘器的节目相关联的元数据)被解析为付费播出的节目。法律节目可基于与节目相关联的元数据和/或同义词匹配、模糊匹配或其他匹配技术而被解析为法庭剧。因此,显示器112上的菜单830中的各种媒体选项832的出现可用于对用户请求进行消歧。
在一些示例中,所显示的菜单可利用光标、操纵杆、箭头、按钮、手势等来进行导航。在此类情况下,可在所选择的项目上显示焦点。例如,可通过以粗体、带下划线、以边界勾勒、以大于其他菜单项的尺寸、带阴影、带倒影、发光和/或带任何其他特征显示所选择的项目来强调被选中并具有焦点的菜单项。例如,图23A中的所选择的媒体选项2330作为当前选择的媒体选项可具有焦点,并且利用大号、带下划线的字体以及边框来显示。
在一些示例中,用于播放内容或选择菜单项的请求可包括对具有焦点的菜单项的模糊引用。例如,观看图23A所示菜单830的用户可请求播放“那个”节目(例如,“播放那个节目。”)。类似地,用户可请求与具有焦点的菜单项相关联的各种其他命令,诸如播放、删除、隐藏、提醒我观看、记录等。单从语音输入来看,所期望的特定菜单项或节目可能并不清楚。然而,在显示器112上所示的内容可用于对用户请求进行消歧并确定用户意图。具体地,所选择的媒体选项2330在菜单830中具有焦点的事实可用于识别以下命令中的任一种命令所期望的媒体主题:引用“那个”项目的命令、没有主题的命令(例如,播放、删除、隐藏等)、或者引用具有焦点的媒体内容的任何其他模糊命令。因此,具有焦点的菜单项可用于从语音输入确定用户意图。
如可用于对用户请求进行消歧的媒体内容的观看历史(例如,在用户发起请求时显示但是后来已经过去的内容)一样,先前显示的菜单或搜索结果内容可类似地用于在继续移动(例如,移动至稍后的菜单或搜索结果内容)之后可用于对稍后用户请求进行消歧。例如,图23B示出了具有附加媒体选项832的菜单830的第二页面。用户可前进到图23B所示的第二页面,但回头引用在图23A所示的第一页面中所示出的内容(例如,图23A中所示媒体选项832)。例如,尽管已移动到菜单830的第二页面,但用户可请求观看“那个”足球比赛、“那个”篮球比赛或法律节目,所有这些都是最近显示在菜单830的前一页面上的媒体选项832。这种引用可以是模糊的,但是可使用来自菜单830第一页面的最近显示的菜单内容来确定用户意图。具体地,可分析图23A的最近显示的媒体选项832,以识别在模糊示例请求中引用的特定足球比赛、篮球比赛或法庭剧。在一些示例中,可基于内容是多久显示的来偏置结果(例如,对最近查看的结果页面的加权超过较早查看的结果)。这样,最近在显示器112上所示的内容的观看历史可用于确定用户意图。应当理解,可使用任何最近显示的内容,诸如先前显示的搜索结果、先前显示的节目、先前显示的菜单等。这可允许用户返回到他们之前看到的某些内容而不必找到并导航到他们看到该内容的特定视图。
在其他示例中,显示器112上的菜单或结果列表中所示的各种显示提示可用于对用户请求进行消歧并确定用户意图。图24示出了被划分为多个类别的示例性媒体菜单,其中一个类别的示例性媒体菜单具有焦点(电影)。图24示出了可包括经归类的媒体选项的旋转台式界面的类别界面2440,该经归类的媒体选项包括电视选项2442、电影选项2444和音乐选项2446。如图所示,音乐类别仅被部分地显示,并且可偏移旋转台界面以向右显示附加内容(例如,如箭头所示),就像在旋转台中旋转媒体一样。在例示的示例中,电影类别具有由带下划线的标题和边框所指示的焦点,但是可以多种其他方式中的任一种方式来指示焦点(例如,使得该类别比其他类别更大,以显得接近用户、发光等)。
在一些示例中,用于播放内容或选择菜单项的请求可包括对一组项目(例如类别)中的菜单项的模糊引用。例如,查看类别界面2440的用户可请求播放足球节目(“播放足球节目。”)。单从语音输入来看,所期望的特定菜单项或节目可能并不清楚。此外,查询可解析为在显示器112上显示的多于一个节目。例如,对足球节目的请求可指在电视节目类别中所列出的足球比赛或在电影类别中所列出的足球电影。在显示器112上所示的内容(包括显示提示)可用于对用户请求进行消歧并确定用户意图。具体地,电影类别在类别界面2440中具有焦点的事实可用于识别所期望的特定足球节目,如果焦点在电影类别上,则所期望的特定足球节目很可能是足球电影。因此,具有如在显示器112上所示焦点的媒体类别(或任何其他媒体分组)可用于从语音输入确定用户意图。还应当理解,用户可作出与类别相关联的各种其他请求,诸如请求显示某些类别内容(例如,为我显示喜剧电影,为我显示恐怖电影,等等)。
在其他示例中,用户可以各种其他方式来引用在显示器112上所示的菜单或媒体项,并且可类似地基于所显示的内容来确定用户意图。应当理解,与显示内容相关联的元数据(例如,电视节目描述、电影描述等)、模糊匹配技术、同义词匹配等还可与所显示的内容结合以从语音输入确定用户意图。因此,可适应各种形式的用户请求(包括自然语言请求),并且可根据本文所讨论的各种示例来确定用户意图。
应当理解,在确定用户意图时,在显示器112上所显示的内容可单独使用,或者与在用户设备102上或在与遥控器106相关联的显示器上所显示的内容结合使用。同样地,应当理解,可在通信地耦接至电视机顶盒104的各种设备中的任一设备处接收虚拟助理查询,并且不管是哪个设备接收查询,均可使用被显示在显示器112上的内容来确定用户意图。查询结果同样可被显示在显示器112上或另一显示器上(例如,在用户设备102上)。
另外,在本文所讨论的各种示例中的任一个示例中,虚拟助理系统可在不需要用户特别地打开菜单并导航到菜单项的情况下对菜单进行导航并选择菜单选项。例如,选项菜单可在选择媒体内容或菜单按钮(诸如选择图24中的电影选项2444)之后出现。菜单选项可包括播放媒体以及简单地播放媒体的另选形式,诸如设置提醒稍后观看媒体、建立媒体记录、将媒体添加到收藏列表、从另外的视图隐藏媒体等。用户在查看具有子菜单选项的菜单或内容上的内容时,可发出虚拟助理命令,否则将需要导航到菜单或子菜单以进行选择。例如,查看图24的类别界面2440的用户可发出与电影选项2444相关联的任何菜单命令,而无需手动打开相关联的菜单。例如,用户可请求将足球电影添加到收藏列表、记录夜间新闻以及设置提醒以观看电影B,而无需导航到与那些媒体选项相关联的菜单或子菜单(此类命令在其中可能可用)。因此,虚拟助理系统可导航菜单和子菜单,以便代表用户来执行命令,而无论这些菜单选项是否出现在显示器112上。这可简化用户请求并减少用户必须进行以实现所需菜单功能的点击或选择的数量。
图25示出了使用显在示器上所示的媒体内容和媒体内容观看历史来控制电视交互的示例性过程2500。在框2502处,可接收从用户接收语音输入,该语音输入包括与在电视显示器上所示的内容相关联的查询。例如,语音输入可包括关于出现在系统100的显示器112(由电视机顶盒104示出)上的人物、演员、电影、电视节目、体育赛事、队员等的查询。图19的转录1916例如包括与在显示器112上的视频480中所示的女演员相关联的查询。类似地,图21的转录2122包括与在显示器112上所示的视频480中的人物相关联的查询。语音输入还可包括与出现在显示器112上的菜单或搜索内容相关联的查询,诸如用于选择特定菜单项或获取关于特定搜索结果的信息的查询。例如,所显示的菜单内容可包括图23A和图23B中的菜单830的媒体选项832。所显示的菜单内容同样可包括出现在图24的类别界面2440中的电视选项2442、电影选项2444和/或音乐选项2446。
再次参考图25的过程2500,在框2504处,可基于所示的内容和媒体内容的观看历史来确定查询的用户意图。例如,可基于电视节目、体育赛事、电影等所显示或最近显示的场景来确定用户意图。还可基于所显示或最近显示的菜单或搜索内容来确定用户意图。还可将所显示的内容连同与该内容相关联的元数据一起进行分析,以确定用户意图。例如,参考图19、图21、图23A、图23B和图24所示和所述的内容可单独使用,或者结合与所显示的内容相关联的元数据一起使用,以确定用户意图。
在框2506处,可基于所确定的用户意图来显示查询的结果。例如,与图20所示的助理响应界面2018中的助理响应2020相似的结果可被显示在显示器112上。在另一个示例中,可提供文本和可选媒体作为结果,诸如图22所示的助理响应界面2224中的助理文本响应2226和可选视频链接2228。再如,显示查询结果可包括显示或播放所选择的媒体内容(例如,经由电视机顶盒104在显示器112上播放所选择的视频)。因此,可使用所显示的内容和相关联的元数据作为上下文以各种方式从语音输入确定用户意图。
在一些示例中,可向用户提供虚拟助理查询建议,以例如告知用户可用的查询、建议用户可能喜欢的内容、教导用户如何使用系统、鼓励用户查找附加媒体消费的内容,等等。在一些示例中,查询建议可包括可能命令的通用建议(例如,查找喜剧,为我显示电视指南,搜索动作电影,打开隐藏式字幕,等等)。在其他示例中,查询建议可包括与所显示的内容相关的目标建议(例如,将该节目添加到观看列表,通过社交媒体分享该节目,为我显示该电影的原声带,为我显示该嘉宾正在出售的书,为我显示那个嘉宾正在推荐的电影的预告片等)、用户偏好(例如,隐藏式字幕使用等)、用户拥有的内容、被存储在用户设备上的内容、通知、警报、媒体内容的观看历史(例如,最近显示的菜单项、最近显示的演出场景、演员最近的出场等)等。可在任何设备上显示建议,包括经由电视机顶盒104来在显示器112上、在用户设备102上、或在与遥控器106相关联的显示器上显示建议。另外,可基于在特定时间哪些设备在附近并/或与电视机顶盒104进行通信来确定建议(例如,从在特定时间在房间中观看电视的用户的设备建议内容)。在其他示例中,可基于各种其他上下文信息来确定建议,该其他上下文信息包括一天中的时间、源自群众的信息(例如,在给定时间观看的流行节目)、直播的节目(例如,直播体育赛事)、媒体内容的观看历史(例如,观看的最后几个节目、最近观看的搜索结果组、最近观看的媒体选项组等)、或多种其他上下文信息中的任一种其他上下文信息。
图26示出了包括基于内容的虚拟助理查询建议2652的示例性建议界面2650。在一个示例中,可在界面(诸如界面2650)中响应于从请求建议的用户处接收的输入来提供查询建议。可例如从用户设备102或遥控器106接收用于请求查询建议的输入。在一些示例中,输入可包括在用户设备102或遥控器106处接收的按钮按压、按钮双击、菜单选择、语音命令(例如,为我显示一些建议,你能为我做什么,有些什么选项等)等。例如,用户可双击遥控器106上的物理按钮来请求查询建议,或者可在查看与电视机顶盒104相关联的界面时双击用户设备102上的物理或虚拟按钮来请求查询建议。
建议界面2650可被显示在移动图像诸如视频480上方,或可被显示在任何其他背景内容(例如,菜单、静止图像、暂停的视频等)上方。如本文所讨论的其他界面一样,建议界面2650可以动画形式从显示器112的底部向上滑动,并且可在充分传达所需信息时占据最小量的空间,以便限制对背景中的视频480的干扰。在其他示例中,当背景内容静止时(例如,暂停的视频、菜单、图像等),可提供更大的建议界面。
在一些示例中,可基于所显示的媒体内容或媒体内容的观看历史(例如,电影、电视节目、体育赛事、最近观看的节目、最近查看的菜单、最近观看的电影场景、正在播放的电视剧的最近场景等)来确定虚拟助理查询建议。例如,图26示出了可基于在背景中示出的所显示视频480来确定的基于内容的建议2652,其中人物1910,1912和1914出现在显示器112上。与所显示的内容相关联的元数据(例如,媒体内容的描述性详情)也可用于确定查询建议。元数据可包括与所显示的内容相关联的各种信息,其包括节目标题、人物列表、演员列表、剧集描述、团队名单、团队排名、节目概要、电影详情、剧情描述、导演名称、制作人名称、演员出场时间、体育比赛、体育比分、分类、季集列表、相关媒体内容、或各种其他相关联的信息。例如,与视频480相关联的元数据可包括人物1910,1912和1914的人物名称以及扮演这些人物的女演员。元数据还可包对视频480的剧情描述、对前一集或下一集的描述(其中视频480是电视连续剧中的一集)等。
图26示出了可基于视频480和与视频480相关联的元数据在建议界面2650中示出的各种基于内容的建议2652。例如,视频480的人物1910可被命名为“Blanche”,并且人物名称可用于制定关于人物Blanche或扮演该人物的女演员的信息的查询建议(例如,“扮演Blanche的女演员是谁?”)。可根据与视频480相关联的元数据(例如,人物列表、演员列表、与演员出场相关联的时间等)来识别人物1910。在其他示例中,面部识别可用于识别在给定时间出现在显示器112上的女演员和/或人物。可提供与媒体本身中的人物相关联的各种其他查询建议,诸如与人物角色、个人资料信息、与其他人物的关系等相关的查询。
在另一示例中,可(例如,基于元数据和/或面部识别)识别出现在显示器112上的演员或女演员,并且可提供与该演员或女演员相关联的查询建议。此类查询建议可包括所扮演的一个或多个角色、表演奖项、年龄、有其出现的其他媒体、历史、家庭成员、人际关系或者关于演员、或女演员的各种其他详情中的任一个其他详情。例如,人物1914可由名为Whitney Davidson的女演员扮演,并且女演员的名称Whitney Davidson可用于制定查询建议以识别有女演员Whitney Davidson出现的其他电影、电视节目或其他媒体(例如,“Whitney Davidson还出演过什么?”)。
在其他示例中,关于节目的详情可用于制定查询建议。可使用剧集概要、剧情简介、剧集列表、剧集标题、系列标题等制定查询建议。例如,可提供建议以描述在电视节目的上一集中发生的事件(例如,“上一集中发生了什么?”),虚拟助理系统可向其提供前一集的剧集概要作为响应,该前一集是基于当前显示器112上显示的剧集(及其相关联的元数据)识别的。在另一个示例中,可提供建议以设置记录下一集,这可通过系统基于在显示器112上所示的当前播放剧集识别下一集来实现。再如,可提供建议以获取关于出现在显示器112上的当前剧集或节目的信息,并且可使用从元数据获取的节目的标题来制定查询建议(例如,“这集‘Their Show’的内容是什么?”或“‘Their Show’的内容是什么?”)。
在另一示例中,可使用与所显示的内容相关联的类别、分类、评级、奖项、描述等来制定查询建议。例如,视频480可对应于被描述为具有女性主角的喜剧的电视节目。可根据该信息来制定查询建议,以识别具有类似特征的其他节目(例如,“为我查找有女主角的其他喜剧。”)。在其他示例中,可基于用户订阅、可用于回放的内容(例如,电视机顶盒104上的内容、用户设备102上的内容、可用于流传输的内容等)等来确定建议。例如,可基于信息性或媒体结果是否可用来筛选可能的查询建议。可排除可能不会得到可播放媒体内容或信息性回答的查询建议,和/或可提供具有易得信息性回答或可播放媒体内容的查询建议(或在确定要提供哪些建议时更重地加权)。因此,可以多种方式使用所显示的内容和相关联的元数据来确定查询建议。
图27示出了用于确认对所建议查询的选择的示例性选择界面2754。在一些示例中,用户可通过说出查询、利用按钮选择查询、利用光标导航到查询等来选择所显示的查询建议。响应于选择,可在确认界面(诸如选择界面2754)中简要地显示所选择的建议。在一个示例中,所选择的建议2756可以动画形式从其在建议界面2650中出现的任何位置移动到图27所示的命令接收确认490旁边的位置(例如,如箭头所示),并且可从显示器中隐藏其他未选择的建议。
图28A至图28B示出了基于所选择的查询的示例性虚拟助理回答界面2862。在一些示例中,对所选择的查询的信息性回答可被显示在回答界面诸如回答界面2862中。在从建议界面2650或选择界面2754切换时,可示出如图28A所示的过渡界面2858。具体地,当下一内容从显示器112的底部向上滚动时,界面内的先前所显示的内容可向上滚动离开界面。例如,所选择的建议2756可向上滑动或向上滚动,直到其在虚拟助理界面的顶部边缘消失,并且助理结果2860可从显示器112的底部向上滑动或滚动,直到其到达如图28B所示的位置。
回答界面2862可包括响应于所选择的查询建议(或响应于任何其他查询)的信息性回答和/或媒体结果。例如,响应于所选择的查询建议2756,可确定和提供助理结果2860。具体地,响应于对先前剧集概要的请求,可基于所显示的内容来识别先前剧集,并且可识别相关联的描述或概要并将其提供至用户。在例示的示例中,助理结果2860可描述与显示器112上的视频480对应的节目的上一集(例如,“在第203集‘Their Show’中,Blanche受邀作为嘉宾到大学心理学课程上演讲,Julia和Melissa突然露面,引起骚动。”)。信息性回答和媒体结果(例如,可选视频链接)也可以本文所讨论的任何其他方式呈现,或者结果可以各种其他方式呈现(例如,大声朗读回答、立即播放内容、显示动画、显示图像等)。
在另一示例中,可使用通知或警报来确定虚拟助理查询建议。图29示出了媒体内容通知2964(但在确定建议时可考虑任何通知)和建议界面2650,该建议界面具有基于通知的建议2966和基于内容的建议2652两者(其可包括与上面参考图26所讨论的相同的一些概念)。在一些示例中,可分析通知的内容以识别相关媒体的相关名称、标题、主题、动作等。在例示的示例中,通知2964包括通知用户关于可用于显示的另选媒体内容的警报——具体地,体育赛事是直播的,并且比赛的内容可能是用户感兴趣的(例如,“比赛还剩五分钟,Zeta队和Alpha队打成平局。”)。在一些示例中,可在显示器112的顶部暂时显示通知。通知可从显示器112的顶部向下滑动(如箭头所示)到图29所示的位置,显示一段时间,并且滑回到显示器112的顶部再次消失。
通知或警报可向用户通知各种信息,诸如可用的另选媒体内容(例如,当前可在显示器112上示出的替代物)、可用的直播电视节目、新下载的媒体内容、最近添加的订阅内容、从朋友处接收的建议、从另一设备发送的对媒体的接收等。还可基于家庭或所识别的用户观看媒体(例如,基于使用帐户选择的用户认证、语音识别、口令等来识别)来使通知个性化。在一个示例中,系统可中断显示并基于可能期望的内容来显示通知,诸如基于用户个人资料信息、喜爱的一个或多个团队、偏好的一种或多种体育运动、观看历史等为可能期望通知内容的用户显示通知2964。例如,可从体育数据馈送、新闻发布、社交媒体讨论等获取体育赛事得分、比赛状态、剩余时间等,并且可用于识别可能的另选媒体内容以通知用户。
在其他示例中,可经由警报或通知来提供(例如,在多名用户中)流行的媒体内容,以建议当前所观看内容的替代物(例如,通知用户流行的节目或用户喜欢的分类中刚刚开始的节目或以其他方式可用于观看的节目)。在例示的示例中,用户可追踪Zeta队和Alpha队中的一者或两者(或者可追踪足球或特定的运动、联盟等)。系统可确定可用的直播内容匹配用户的偏好(例如,另一频道上的比赛匹配用户的偏好,比赛几乎没有剩余时间,并且比分接近)。然后,系统可确定经由通知2964警告用户可能期望的内容。在一些示例中,用户可(例如,使用遥控按钮、光标、语音请求等)选择通知2964(或通知2964内的链接)来切换到建议的内容。
可通过分析通知内容来基于通知确定虚拟助理查询建议,以识别相关媒体的相关术语、名称、标题、主题、动作等。然后,可使用所识别的信息制定适当的虚拟助理查询建议,诸如基于通知2964的基于通知的建议2966。例如,可显示关于令人兴奋的直播体育赛事结尾的通知。然后,如果用户请求查询建议,则可显示建议界面2650,包括观看体育赛事、查询团队统计数据或者查找与通知相关的内容(例如,换到Zeta/Alpha比赛,Zeta队的统计数据如何,另外还有哪些足球比赛在进行,等等)的查询建议。基于在通知中识别的感兴趣的特定术语,同样可确定各种其他查询建议并将其提供至用户。
还可从用户设备上的内容确定与媒体内容相关的虚拟助理查询建议(例如,用于经由电视机顶盒104消费),并且还可在用户设备上提供建议。在一些示例中,可在连接到电视机顶盒104或与该电视机顶盒通信的用户设备上识别可播放设备内容。图30示出了界面1360中具有示例性图片和视频内容的用户设备102。可确定什么内容可用于在用户设备上回放,或者可能期望回放什么内容。例如,可基于活动应用程序(例如,照片和视频应用程序)来识别可播放媒体3068,或者可基于存储的内容来识别该可播放媒体是否显示在界面1360上(例如,在一些示例中可根据活动应用程序识别内容,或者在其他示例中在给定时间不显示)。可播放媒体3068可包括例如视频1362、相册1364和照片1366,其中每一者可包括可被传输到电视机顶盒104以用于显示或回放的个人用户内容。在其他示例中,存储或显示在用户设备102上的任何照片、视频、音乐、游戏界面、应用界面或其他媒体内容可被识别并用于确定查询建议。
在识别出可播放媒体3068的情况下,可确定虚拟助理查询建议并将其提供至用户。图31示出了用户设备102上的示例性电视助理界面3170,其包含基于可播放用户设备内容并且基于独立显示器(例如,与电视机顶盒104相关联的显示器112)上所示视频内容的虚拟助理查询建议。电视助理界面3170可包括专门用于与媒体内容和/或电视机顶盒104交互的虚拟助理界面。用户可通过例如在查看界面3170时双击物理按钮来请求用户设备102上的查询建议。其他输入可类似地用于指示对查询建议的请求。如图所示,助理问候3172可介绍所提供的查询建议(例如,“这是一些对于控制您电视体验的建议。”)。
用户设备102上所提供的虚拟助理查询建议可包括基于各种源设备的建议以及一般建议。例如,基于设备的建议3174可包括基于用户设备102上所存储内容(包括用户设备102上所显示的内容)的查询建议。基于内容的建议2652可基于与电视机顶盒104相关联的显示器112上所显示的内容。一般建议3176可包括可不与特定媒体内容或带有媒体内容的特定设备相关联的一般建议。
基于设备的建议3174可例如基于用户设备102上所识别的可播放内容(例如,视频、音乐、照片、游戏界面、应用界面等)来确定。在例示的示例中,可基于图30所示的可播放媒体3068来确定基于设备的建议3174。例如,假定相册1364被识别为可播放媒体3068,则可使用相册1364的详情制定查询。系统可将内容识别为可在幻灯片中显示的多张照片的相册,并且然后可(在一些情况下)使用相册的标题来制定查询建议,以示出特定相册的幻灯片,(例如,“通过幻灯片放映显示您照片中的‘毕业相册’”。)。在一些示例中,建议可包括内容来源的指示(例如,“您照片中的”,“Jennifer电话中的”,“Daniel平板电脑中的”等)。该建议还可使用其他详情来引用特定内容,例如查看特定日期以后的照片的建议(例如,显示您从6月21日起的照片)。在另一示例中,视频1362可被识别为可播放媒体3068,并且视频的标题(或其他识别信息)可用于制定播放视频的查询建议(例如,显示您视频中的“毕业视频”。)。
在其他示例中,可识别在其他连接的设备上可用的内容并将其用于制定虚拟助理查询建议。例如,可识别来自连接到公共电视机顶盒104的两个用户设备102中的每个用户设备的内容并将其用于制定虚拟助理查询建议。在一些示例中,用户可选择使哪些内容对于系统可见以供共享,并且可从系统中隐藏其他内容,以便不将其包括在查询建议中或以其他方式使其可用于回放。
在图31的界面3170中所示的基于内容的建议2652可例如基于在与电视机顶盒104相关联的显示器112上所显示的内容来确定。在一些示例中,基于内容的建议2652可以与上面参考图26所描述的相同的方式来确定。在例示的示例中,图31中所示的基于内容的建议2652可基于显示器112上所示的视频480(例如,如图26所示)。这样,可基于在任何数量的连接的设备上显示或可用的内容来导出虚拟助理查询建议。除了目标建议之外,可预先确定和提供一般建议3176(例如,为我显示指南,在进行的体育比赛有哪些,频道三在演什么,等等)。
图32示出了示例性建议界面2650,其包含在与电视机顶盒104相关联的显示器112上示出的基于所连接设备的建议3275以及基于内容的建议2652。在一些示例中,基于内容的建议2652可以与上面参考图26所描述的相同的方式来确定。如上所述,可基于任何数量的所连接设备上的内容来制定虚拟助理查询建议,并且可在任何数量的所连接设备上提供建议。图32示出了可从用户设备102上的内容导出的基于所连接设备的建议3275。例如,可在用户设备102上识别可播放内容,诸如图30中在界面1360中显示为可播放媒体3068的照片和视频内容。然后,可使用用户设备102上的所识别的可播放内容制定可在与电视机顶盒104相关联的显示器112上显示的建议。在一些示例中,基于所连接设备的建议3275可以与上面参考图31所描述的基于设备的建议3174相同的方式来确定。此外,如上所述,在一些示例中,识别源信息可包括在建议中,诸如在基于所连接设备的建议3275中所示的“Jake电话中的”。因此,可基于来自另一设备的内容(例如,所显示的内容、所存储的内容等)导出在一个设备上提供的虚拟助理查询建议。应当理解,所连接设备可包括电视机顶盒104和/或用户设备102能够访问的远程存储设备(例如,访问存储在云中的媒体内容以制定建议)。
应当理解,响应于对建议的请求,可提供来自各种源的虚拟助理查询建议的任何组合。例如,可随机组合来自各种源的建议,或者可基于流行度、用户偏好、选择历史等来呈现。此外,可以各种其他方式确定查询并且基于各种其他因素(诸如查询历史、用户偏好、查询流行度等)来呈现查询。另外,在一些示例中,可通过在延迟之后将显示的建议替换为新的另选建议来自动地循环查询建议。还应当理解,用户可通过例如轻击触摸屏、说出查询、使用导航键选择查询、使用按钮选择查询、使用光标选择查询等来选择任何界面上显示的建议,并且然后可提供相关联的响应(例如,信息和/或媒体响应)。
在各种示例中的任一个示例中,还可基于可用内容来筛选虚拟助理查询建议。例如,将得到不可用媒体内容(例如,没有有线电视订阅)或可不具有相关联的信息性回答的可能查询建议可被取消作为建议的资格并阻止显示。另一方面,将得到用户有权访问的可立即播放的媒体内容的可能查询建议可相对于其他可能建议被更重地加权或以其他方式被偏置以用于显示。这样,用于用户观看的媒体内容的可用性还可用于确定用于显示的虚拟助理查询建议。
另外,在各种示例中的任一个示例中,可替代建议或者除建议之外(例如,在建议界面2650中)提供预加载的查询回答。可基于个人使用和/或当前上下文来选择和提供这种预加载的查询回答。例如,观看特定节目的用户可轻击按钮、双击按钮、长按按钮等以接收建议。作为查询建议的替代或补充,可自动提供基于上下文的信息,诸如识别正在播放的歌曲或原声带(例如,“这首歌是Performance Piece”)、识别当前播放的剧集的演员成员(例如,“女演员Janet Quinn扮演Genevieve”)、识别类似媒体(例如,“节目Q与这个相似”)或提供本文所讨论的其他查询中的任何查询的结果。
此外,可在各种界面中的任一个界面中为用户提供对媒体内容进行评级的示能表示(例如,可选评级量表),以向虚拟助理告知用户偏好。在其他示例中,用户可将评级信息作为自然语言命令讲出(例如,“我爱这个”、“我讨厌这个”、“我不喜欢这个节目”等)。在其他示例中,在本文所示和所述的各种界面中的任一者中,可提供各种其他功能性和信息性元素。例如,界面还可包括至重要功能和位置的链接,诸如搜索链接、购买链接、媒体链接等。在另一个示例中,界面还可包括基于当前播放内容(例如,选择类似内容)的对下一个要观看的其他内容的推荐。再如,界面还可包括基于个性化品味和/或近期活动(例如,基于用户评级、用户输入的偏好、最近观看的节目等选择内容)的对下一个要观看的其他内容的推荐。再如,界面还可包括用于用户交互的指令(例如,“按压并保持可与虚拟助理通话”、“轻击一次可获取建议”等)。在一些示例中,提供预加载的回答、建议等可提供愉快的用户体验,同时使得内容对于各种各样的用户(例如,不论语言或其他控制障碍,对于各种技能水平的用户)来说都是易得的。
图33示出了建议用于控制媒体内容的虚拟助理交互(例如,虚拟助理查询)的示例性过程3300。在框3302处,可在显示器上显示媒体内容。例如,如图26所示,可经由电视机顶盒104在显示器112上显示视频480,或者可如图30所示在用户设备102的触摸屏246上显示界面1360。在框3304处,可从用户接收输入。输入可包括对虚拟助理查询建议的请求。输入可包括按钮按压、按钮双击、菜单选择、对于建议的口头查询等。
在框3306处,可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。例如,可基于所显示的节目、菜单、应用程序、媒体内容列表、通知等来确定虚拟助理查询。在一个示例中,基于内容的建议2652可基于视频480和相关联的元数据来确定,如参考图26所述。在另一示例中,基于通知的建议2966可基于通知2964来确定,如参考图29所述。在又一示例中,基于设备的建议3174可基于用户设备102上的可播放媒体3068来确定,如参考图30和图31所述。在其他示例中,基于所连接设备的建议3275可基于用户设备102上的可播放媒体3068来确定,如参考图32所述。
再次参考图33的过程3300,在框3308处,可在显示器上显示虚拟助理查询。例如,可显示所确定的查询建议,如参考图26、图27、图29、图31和图32所示和所述。如上所述,可基于各种其他信息来确定和显示查询建议。此外,可基于来自具有另一显示器的另一设备的内容来导出在一个显示器上提供的虚拟助理查询建议。因此,可向用户提供定向的虚拟助理查询建议,从而帮助用户了解可能的查询以及提供所需内容建议,还有其他益处。
此外,在本文所讨论的各种示例中的任何一个示例中,可以为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令,并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等,以各种其他方式修改本文所讨论的各种过程。此外,基于用户交互(例如,频繁说出的命令、频繁选择的应用程序等),此类偏好和设置可以随时间更新。可得自各种来源的用户数据的收集和使用可用于改善将邀请内容或用户可能感兴趣的任何其他内容传送到用户。本公开预期,在一些示例中,这些经采样的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。
本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低限度的个人信息(例如,与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息)来推断偏好,从而选择内容并递送给用户。
根据一些示例,图34示出了电子设备3400的功能框图,所述电子设备根据各种所述示例的原理配置,以便例如使用虚拟助理控制电视交互并使用不同的界面显示相关联的信息。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图34中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图34所示,电子设备3400可包括被配置为显示媒体、界面和其他内容的显示单元3402(例如,显示器112、触摸屏246等)。电子设备3400还可包括输入单元3404,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3400还可包括耦接至显示单元3402和输入单元3404的处理单元3406。在一些示例中,处理单元3406可包括语音输入接收单元3408、媒体内容确定单元3410、第一用户界面显示单元3412、选择接收单元3414和第二用户界面显示单元3416。
处理单元3406可被配置为(例如,经由输入单元3404)从用户接收语音输入。处理单元3406可被进一步配置为(例如,使用媒体内容确定单元3410)基于语音输入来确定媒体内容。处理单元3406可被进一步配置为使用具有第一尺寸的第一用户界面(例如,使用第一用户界面显示单元3412在显示单元3402上)显示,其中第一用户界面包括至媒体内容的一个或多个可选链接。处理单元3406可被进一步配置为(例如,使用选择接收单元3414从输入单元3404)接收对一个或多个可选链接中的一个可选链接的选择。处理单元3406可被进一步配置为响应于该选择,(例如,使用第二用户界面显示单元3416在显示单元3402上)显示具有第二尺寸的第二用户界面,该第二尺寸大于第一尺寸,其中第二用户界面包括与所述选择相关联的媒体内容。
在一些示例中,响应于(例如,选择接收单元3414的)选择,(例如,第一用户界面显示单元3412的)第一用户界面扩展成(例如,第二用户界面显示单元3416的)第二用户界面。在其他示例中,第一用户界面覆盖在正在显示的内容上。在一个示例中,第二用户界面覆盖在正在显示的内容上。在另一示例中,(例如,来自输入单元3404的语音输入接收单元3408的)语音输入包括查询,并且(例如,媒体内容确定单元3410的)媒体内容包括查询的结果。在又一个示例中,第一用户界面包括到查询结果的链接,该链接在至媒体内容的一个或多个可选链接之外。在其他示例中,查询包括关于天气的查询,并且第一用户界面包括到与关于天气的查询相关联的媒体内容的链接。在另一示例中,查询包括位置,并且到与关于天气的查询相关联的媒体内容的链接包括到与该位置处的天气相关联的媒体内容的一部分的链接。
在一些示例中,响应于选择,处理单元3406可被配置为播放与该选择相关联的媒体内容。在一个示例中,媒体内容包括电影。在另一示例中,媒体内容包括电视节目。在另一示例中,媒体内容包括体育赛事。在一些示例中,(例如,第二用户界面显示单元3416的)第二用户界面包括与选择相关联的媒体内容的描述。在其他示例中,第一用户界面包括购买媒体内容的链接。
处理单元3406可被进一步配置为(例如,经由输入单元3404)从用户接收附加语音输入,其中附加语音输入包括与所显示的内容相关联的查询。处理单元3406可被进一步配置为基于与所显示的内容相关联的元数据来确定对与所显示的内容相关联的查询的响应。处理单元3406可被进一步配置为响应于接收到附加语音输入,(例如,在显示单元3402上)显示第三用户界面,其中第三用户界面包括对与所显示的内容相关联的查询的所确定的响应。
处理单元3406可被进一步配置为接收用于发起(例如,经由输入单元3404)对语音输入的接收的指示。处理单元3406可被进一步配置为响应于接收到指示,(例如,在显示单元3402上)显示准备就绪确认。处理单元3406可被进一步配置为响应于接收到语音输入,显示正在监听确认。处理单元3406可被进一步配置为检测语音输入的结束,并且响应于检测到语音输入的结束,显示正在处理确认。在一些示例中,处理单元3406可被进一步配置为显示语音输入的转录。
在一些示例中,电子设备3400包括电视。在其他示例中,电子设备3400包括电视机顶盒。在其他示例中,电子设备3400包括遥控器。在其他示例中,电子设备3400包括移动电话。
在一个示例中,(例如,第一用户界面显示单元3412的)第一用户界面中的一个或多个可选链接包括与媒体内容相关联的移动图像。在一些示例中,与媒体内容相关联的移动图像包括媒体内容的实况馈送。在其他示例中,第一用户界面中的一个或多个可选链接包括与媒体内容相关联的静止图像。
在一些示例中,处理单元3406可被进一步配置为确定当前显示的内容是包括移动图像还是控制菜单;响应于确定当前显示的内容包括移动图像,选择小尺寸作为(例如,第一用户界面显示单元3412的)第一用户界面的第一尺寸;而响应于确定当前显示的内容包括控制菜单,选择大于小尺寸的大尺寸作为(例如,第一用户界面显示单元3412的)第一用户界面的第一尺寸。在其他示例中,处理单元3406可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容,并且显示包括所确定的另选媒体内容的通知。
根据一些示例,图35示出了电子设备3500的功能框图,所述电子设备根据各种所述示例的原理配置,以便例如使用虚拟助理和多个用户设备控制电视交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图35中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图35所示,电子设备3500可包括被配置为显示媒体、界面和其他内容的显示单元3502(例如,显示器112、触摸屏246等)。电子设备3500还可包括输入单元3504,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3500还可包括耦接至显示单元3502和输入单元3504的处理单元3506。在一些示例中,处理单元3506可包括语音输入接收单元3508、用户意图确定单元3510、媒体内容确定单元3512和媒体内容播放单元3514。
处理单元3506可被配置为在具有第一显示器(例如,在一些示例中,显示单元3502)的第一设备(例如,设备3500)处(例如,利用语音输入接收单元3508从输入单元3504)从用户接收语音输入。处理单元3506可被进一步配置为基于第一显示器上所显示的内容(例如,使用用户意图确定单元3510)来确定语音输入的用户意图。处理单元3506可被进一步配置为(例如,使用媒体内容确定单元3512)基于用户意图来确定媒体内容。处理单元3506可被进一步配置为在与第二显示器(例如,在一些示例中,显示单元3502)相关联的第二装置上(例如,使用媒体内容播放单元3514)播放媒体内容。
在一个示例中,第一设备包括遥控器。在另一示例中,第一设备包括移动电话。在另一示例中,第一设备包括平板电脑。在一些示例中,第二设备包括电视机顶盒。在其他示例中,第二显示器包括电视。
在一些示例中,显示在第一显示器上的内容包括应用界面。在一个示例中,(例如,来自输入单元3504的语音输入接收单元3508的)语音输入包括显示与应用界面相关联的媒体的请求。在一个示例中,媒体内容包括与应用界面相关联的媒体。在另一示例中,应用界面包括相册,并且媒体包括相册中的一张或多张照片。在又一示例中,应用界面包括一个或多个视频的列表,并且媒体包括一个或多个视频中的一个。在其他示例中,应用界面包括电视节目列表,并且媒体包括电视节目列表中的电视节目。
在一些示例中,处理单元3506可被进一步配置为确定第一设备是否被授权;其中响应于确定第一设备被授权,在第二设备上播放媒体内容。处理单元3506可被进一步配置为基于语音输入来识别用户,并且基于与所识别用户相关联的数据(例如,使用用户意图确定单元3510)来确定语音输入的用户意图。处理单元3506可被进一步配置为基于语音输入来确定用户是否被授权;其中响应于确定用户是授权用户,在第二设备上播放媒体内容。在一个示例中,确定用户是否被授权包括使用语音识别来分析语音输入。
在其他示例中,处理单元3506可被进一步配置为响应于确定用户意图包括对信息的请求,在第一设备的第一显示器上显示与媒体内容相关联的信息。处理单元3506可被进一步配置为响应于确定用户意图包括播放媒体内容的请求,在第二设备上播放媒体内容。
在一些示例中,语音输入包括在第二设备上播放内容的请求,并且响应于在第二设备上播放内容的请求,在第二设备上播放媒体内容。处理单元3506可被进一步配置为基于媒体格式、用户偏好或默认设置来确定所确定的媒体内容是应当显示在第一显示器还是第二显示器上。在一些示例中,响应于确定所确定的媒体内容应当显示在第二显示器上,在第二显示器上显示媒体内容。在其他示例中,响应于确定所确定的媒体内容应当显示在第一显示器上,在第一显示器上显示媒体内容。
在其他示例中,处理单元3506可被进一步配置为确定两个或更多个装置(包括第二装置和第三装置)中的每个装置的接近度。在一些示例中,基于相对于第三设备接近度的第二设备接近度,在与第二显示器相关联的第二设备上播放媒体内容。在一些示例中,确定两个或更多个设备中的每个设备的接近度包括基于蓝牙LE确定接近度。
在一些示例中,处理单元3506可被进一步配置为显示包括与第二显示器相关联的第二设备的显示设备列表,并且接收对显示设备列表中的第二设备的选择。在一个示例中,响应于接收到对第二设备的选择,在第二显示器上显示媒体内容。处理单元3506可被进一步配置为确定耳机是否附接到第一设备。处理单元3506可被进一步配置为响应于耳机附接到第一设备的确定,在第一显示器上显示媒体内容。处理单元3506可被进一步配置为响应于耳机未附接到第一设备的确定,在第二显示器上显示媒体内容。在其他示例中,处理单元3506可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容,并且显示包括所确定的另选媒体内容的通知。
根据一些示例,图36示出了电子设备3600的功能框图,所述电子设备根据各种所述示例的原理配置,以便例如使用显示器上所显示的媒体内容和媒体内容的观看历史来控制电视交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图36中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图36所示,电子设备3600可包括被配置为显示媒体、界面和其他内容的显示单元3602(例如,显示器112、触摸屏246等)。电子设备3600还可包括输入单元3604,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3600还可包括耦接至显示单元3602和输入单元3604的处理单元3606。在一些示例中,处理单元3606可包括语音输入接收单元3608、用户意图确定单元3610和查询结果显示单元3612。
处理单元3606可被配置为(例如,利用语音输入接收单元3608从输入单元3604)从用户接收语音输入,其中语音输入包括与电视显示器(例如,在一些示例中,显示单元3602)上所显示的内容相关联的查询。处理单元3606可被进一步配置为基于电视显示器上所示的内容和媒体内容观看历史中的一者或多者(例如,使用用户意图确定单元3610)来确定查询的用户意图。处理单元3606可被进一步配置为基于所确定的用户意图(例如,使用查询结果显示单元3612)显示查询的结果。
在一个示例中,在遥控器处接收语音输入。在另一示例中,在移动电话处接收语音输入。在一些示例中,在电视显示器上显示查询的结果。在另一示例中,在电视显示器上示出的内容包括电影。在又一示例中,在电视显示器上示出的内容包括电视节目。在又一示例中,在电视显示器上示出的内容包括体育赛事。
在一些示例中,查询包括对关于与电视显示器上所示内容相关联的人的信息的请求,并且查询的(例如,查询结果显示单元3612的)结果包括关于人的信息。在一个示例中,查询的结果包括与人相关联的媒体内容。在另一示例中,媒体内容包括与人相关联的电影、电视节目或体育赛事中的一者或多者。在一些示例中,查询包括对关于电视显示器上所示内容中人物的信息的请求,并且查询的结果包括关于人物的信息或关于扮演人物的演员的信息。在一个示例中,查询的结果包括与扮演人物的演员相关联的媒体内容。在另一示例中,媒体内容包括与扮演人物的演员相关联的电影、电视节目或体育赛事中的一者或多者。
在一些示例中,处理单元3606可被进一步配置为基于与电视显示器上所示内容或媒体内容观看历史相关联的元数据来确定查询的结果。在一个示例中,元数据包括与电视显示器上所示内容或媒体内容观看历史相关联的标题、描述、人物列表、演员列表、队员列表、分类或显示时间表中的一者或多者。在另一示例中,电视显示器上所示出的内容包括媒体内容的列表,并且查询包括显示列表中的项目中的一个项目的请求。在又一示例中,电视显示器上所示出的内容还包括具有焦点的媒体内容列表中的项目,并且(例如,使用用户意图确定单元3610)确定查询的用户意图包括识别具有焦点的项目。在一些示例中,处理单元3606可被进一步配置为基于最近在电视显示器上显示的菜单或搜索内容(例如,使用用户意图确定单元3610)来确定查询的用户意图。在一个示例中,电视显示器上所示出的内容包括所列媒体的页面,并且最近显示的菜单或搜索内容包括所列媒体的前一页面。在另一示例中,在电视显示器上示出的内容包括一个或多个类别的媒体,并且一个或多个类别的媒体中的一个具有焦点。在一个示例中,处理单元3606可被进一步配置为基于一个或多个媒体类别中具有焦点的一个(例如,使用用户意图确定单元3610)来确定查询的用户意图。在另一示例中,媒体的类别包括电影、电视节目和音乐。在其他示例中,处理单元3606可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容,并且显示包括所确定的另选媒体内容的通知。
根据一些示例,图37示出了电子设备3700的功能框图,所述电子设备根据各种所述示例的原理配置,以便例如建议用于控制媒体内容的虚拟助理交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图37中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图37所示,电子设备3700可包括被配置为显示媒体、界面和其他内容的显示单元3702(例如,显示器112、触摸屏246等)。电子设备3700还可包括输入单元3704,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3700还可包括耦接至显示单元3702和输入单元3704的处理单元3706。在一些示例中,处理单元3706可包括媒体内容显示单元3708、输入接收单元3710、查询确定单元3712和查询显示单元3714。
处理单元3706可被配置为在显示器(例如,显示单元3702)上(例如,使用媒体内容显示单元3708)显示媒体内容。处理单元3706可被进一步配置为(例如,使用输入接收单元3710从输入单元3704)从用户接收输入。处理单元3706可被进一步配置为基于媒体内容和媒体内容观看历史中的一个或多个(例如,使用查询确定单元3712)来确定一个或多个虚拟助理查询。处理单元3706可被进一步配置为在显示器上(例如,使用查询显示单元3714)显示一个或多个虚拟助理查询。
在一个示例中,在遥控器上从用户接收输入。在一个示例中,在移动电话上从用户接收输入。在一些示例中,一个或多个虚拟助理查询覆盖在移动图像上。在另一示例中,输入包括双击按钮。在一个示例中,媒体内容包括电影。在另一示例中,媒体内容包括电视节目。在又一示例中,媒体内容包括体育赛事。
在一些示例中,一个或多个虚拟助理查询包括关于出现在媒体内容中的人的查询。在其他示例中,一个或多个虚拟助理查询包括关于出现在媒体内容中的人物的查询。在另一示例中,一个或多个虚拟助理查询包括对与出现在媒体内容中的人相关联的媒体内容的查询。在一些示例中,媒体内容或媒体内容观看历史包括一集电视节目,并且一个或多个虚拟助理查询包括关于另一集电视节目的查询。在一些示例中,媒体内容或媒体内容观看历史包括一集电视节目,并且一个或多个虚拟助理查询包括设置提醒观看或记录媒体内容后续剧集的请求。在又一示例中,一个或多个虚拟助理查询包括对媒体内容的描述性详情的查询。在一个示例中,描述性详情包括节目标题、人物列表、演员列表、剧集描述、团队名册、团队排名或者节目概要中的一者或多者。
在一些示例中,处理单元3706可被进一步配置为接收对一个或多个虚拟助理查询中的一个虚拟助理查询的选择。处理单元3706可被进一步配置为显示在一个或多个虚拟助理查询中所选择的一个虚拟助理查询的结果。在一个示例中,确定一个或多个虚拟助理查询包括基于查询历史、用户偏好或查询流行度中的一者或多者来确定一个或多个虚拟助理查询。在另一示例中,确定一个或多个虚拟助理查询包括基于可供用户观看的媒体内容来确定一个或多个虚拟助理查询。在又一示例中,确定一个或多个虚拟助理查询包括基于所接收的通知确定一个或多个虚拟助理查询。在又一示例中,确定一个或多个虚拟助理查询包括基于活动应用程序确定一个或多个虚拟助理查询。在其他示例中,处理单元3706可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容,并且显示包括所确定的另选媒体内容的通知。
虽然已参考附图完整地描述了示例,但是需注意,对于本领域技术人员来说,各种变化和修改将是显而易见的(例如,根据本文所描述的与本文所讨论的任何其他系统或过程有关的概念,修改本文所讨论的任一系统或过程)。应当理解,此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。
实时数字助理知识更新
相关申请的交叉引用
本专利申请要求于2014年6月30日提交的名称为“REAL-TIME DIGITAL ASSISTANTKNOWLEDGE UPDATES”的美国临时序列号62/019,292的优先权,该申请的全文据此出于所有目的以引用方式并入本文中。
本专利申请还与以下共同未决的临时申请相关:2014年6月30日提交的美国专利申请序列号62/019,312,“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106843065100(P18133USP1)),其全文据此以引用方式并入本文中。
技术领域
本发明整体涉及电视用户交互的语音控制,更具体地,涉及虚拟助理媒体知识的实时更新。
背景技术
智能自动化助理(或虚拟助理)提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过将口头用户输入以自然语言形式提供至与电子设备相关联的虚拟助理来访问电子设备的服务。虚拟助理可对口头用户输入执行自然语言处理,以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务,并且在一些示例中,可将相关的输出以自然语言形式返回给用户。
尽管移动电话(例如,智能电话)、平板电脑等已从虚拟助理控制中获取益处,然而许多其他用户设备仍缺乏这种便利的控制机制。例如,用户与媒体控制设备(例如,电视、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)的交互可能是复杂且难懂的。此外,随着可由这些设备(例如,无线电视、电视订阅服务、流视频服务、有线视频点播服务、基于网络的视频服务等)提供的媒体源的不断增加,对一些用户来说,找到想要的媒体内容来消费可能会很繁琐,甚至面对海量内容无从下手。此外,粗略的时移和提示控制可使用户很难获取所需内容,诸如电视节目中的特定时刻。获取与直播媒体内容相关联的适时信息也会具有一定难度。因此,许多媒体控制设备能够提供的用户体验较差,可能会令许多用户感到失望。
发明内容
本发明公开了用于实时更新虚拟助理媒体知识的系统和过程。在一个示例中,可利用与正在播放媒体相关联的适时信息来更新虚拟助理知识。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于语音输入接收用户请求,并且所述用户请求可与媒体流或节目中的事件相关联。响应于接收到请求,可提示媒体流从媒体流中与请求中所引用的事件相关联的时间开始回放。
在另一示例中,可将适时信息整合到数字助理知识中,从而为涉及当前事件的查询提供回答。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于来自用户的语音输入接收用户请求,并且该用户请求可与事件中的一个相关联。可基于与该事件相关联的数据来生成对用户请求的响应。然后可以各种方式(例如,大声朗读、在电视上显示、在移动用户设备上显示等)向用户递送该响应。
附图说明
图1示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统。
图2示出了根据各种示例的示例性用户设备的框图。
图3示出了用于提供媒体回放的语音控制的系统中示例性媒体控制设备的框图。
图4示出了根据各种示例的对媒体回放进行语音控制的示例性过程。
图5示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性数据馈送。
图6示出了基于媒体流中的事件来提示视频回放的示例性虚拟助理查询响应。
图7示出了在回放位置之前和之后出现的可用于解译用户查询的示例性事件。
图8示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性颁奖典礼数据馈送。
图9示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性电视节目数据馈送。
图10示出了与视频中的特定时间相关联的示例性隐藏式字幕文本,其可用于响应用户查询。
图11A示出了具有可用于解译用户查询的示例性视频内容的电视显示器。
图11B示出了具有可用于解译用户查询的示例性图像和文本内容的移动用户设备。
图12示出了用于将信息整合到数字助理知识中并响应用户请求的示例性过程。
图13示出了根据各种示例的电子设备的功能框图,该电子设备被配置为提供对媒体回放的语音控制和虚拟助理知识的实时更新。
图14示出了根据各种示例的电子设备的功能框图,该电子设备被配置为将信息整合到数字助理知识中并响应用户请求。
具体实施方式
在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。
本发明涉及用于实时更新虚拟助理媒体知识的系统和方法。实时虚拟助理知识更新可例如实现对电视用户交互的精确语音控制,并适时地为媒体相关查询提供准确的虚拟助理响应。在一个示例中,虚拟助理可用于与媒体控制设备(诸如,控制电视显示器上所示内容的电视机顶盒)进行交互。可使用移动用户设备或带有麦克风的遥控器接收用于虚拟助理的语音输入。可从该语音输入确定用户意图,并且虚拟助理可根据用户意图执行任务,包括使得媒体在连接的电视上回放以及控制电视机顶盒或类似设备的任何其他功能(例如,使得直播媒体内容回放、使得录制媒体内容回放、管理视频记录、搜索媒体内容、菜单导航等)。
在一个示例中,可利用与正在播放的媒体(例如,体育赛事、电视节目等)相关联的适时信息甚至实时信息来更新虚拟助理知识。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。例如,该数据馈送可指示在电视播放的足球比赛中的某一时刻进球了。在另一个示例中,该数据馈送可指示节目主持人在电视节目的某个时间进行了独白。可基于语音输入接收用户请求,并且所述用户请求可与媒体流或节目中的事件相关联。响应于接收到请求,可提示媒体流从媒体流中与请求中所引用的事件相关联的时间开始回放。
在另一个示例中,可将适时或实时信息整合到数字助理知识中,从而为涉及当前事件的查询提供回答。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于来自用户的语音输入接收用户请求,并且该用户请求可与事件中的一个相关联。可基于与该事件相关联的数据来生成对用户请求的响应。然后可以各种方式(例如,大声朗读、在电视上显示、在移动用户设备上显示等)向用户递送该响应。
根据本文所讨论的各种示例,利用适时的媒体信息更新虚拟助理知识可提供有效且令人愉快的用户体验。通过使用能够接收与媒体内容相关联的自然语言查询或命令的虚拟助理,用户可简单直观地与媒体控制设备进行交互。实时虚拟助理知识更新可例如实现对电视用户交互的精确语音控制,并适时地为媒体相关查询提供准确的虚拟助理响应。另外,可使用与所显示的媒体相关的直观口头命令,从而轻松访问媒体的所需部分或场景。然而,应当理解,根据本文所讨论的各种示例,还可以实现许多其他优点。
图1示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统100。应当理解,如本文所讨论在电视上对媒体回放进行语音控制仅仅是采用某种类型的显示技术来控制媒体的一个示例,并且仅用于参考,本文所讨论的概念通常可用于控制任何媒体内容交互,包括控制各种设备和相关联显示器(例如,监视器、膝上型电脑显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此,术语“电视”可指与各种设备中的任一种设备相关联的任何类型的显示器。此外,术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了根据推断出的用户意图采取行动,系统可执行以下内容中的一者或多者:通过设计以实现所推断出的用户意图的步骤和参数来识别任务流;将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、API等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。
虚拟助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求虚拟助理作出信息性回答,要么寻求虚拟助理执行任务(例如,使得显示特定媒体)。对用户请求的令人满意的响应可包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如,用户可向虚拟助理提出问题,诸如:“我现在在哪里?”基于用户的当前位置,虚拟助理可回答:“你在中央公园。”用户还可请求执行任务,例如:“请在今天下午4点提醒我给妈妈打电话。”作为响应,虚拟助理可确认该请求,并且然后在用户的电子日程表中创建适当的提醒项目。在执行所请求的任务期间,虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,虚拟助理还可提供其他视觉形式或音频形式(例如,作为文本、警报、音乐、视频、动画等)的响应。此外,如本文所述,示例性虚拟助理可控制媒体内容(例如,电视上正在播放的视频)的回放,并使信息被显示在显示器上。
虚拟助理的示例在于2011年1月10日提交的名称为“Intelligent AutomatedAssistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述,该专利申请的全部公开内容以引用方式并入本文。
如图1中所示,在一些示例中,虚拟助理可根据客户端-服务器模型来实现。虚拟助理可包括在用户设备102上执行的客户端侧部分和在服务器系统110上执行的服务器侧部分。可与遥控器106结合的客户端侧部分还在电视机顶盒104上被执行。用户设备102可包括任何电子设备,诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、手表、胸针、臂带等),等等。电视机顶盒104可包括任何媒体控制设备,诸如电缆盒、卫星盒、视频播放器、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray DiscTM播放器、此类设备的组合等。电视机顶盒104可经由有线连接或无线连接而被连接至显示器112和扬声器111。显示器112(具有或不具有扬声器111)可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,电视机顶盒104可连接到音频系统(例如,音频接收器),并且扬声器111可与显示器112分开。在其他示例中,显示器112、扬声器111和电视机顶盒104可一起并入单个设备中,诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中,电视机顶盒104的功能可作为组合设备上的应用程序来执行。
在一些示例中,电视机顶盒104可用作针对多种类型和来源的媒体内容的媒体控制中心。例如,电视机顶盒104可使用户便于访问电视直播(例如,无线电视、卫星电视或有线电视)。因此,电视机顶盒104可包括电缆调谐器或卫星调谐器等。在一些示例中,电视机顶盒104还可录下电视节目以供稍后时移观看。在其他示例中,电视机顶盒104可提供对一个或多个流媒体服务的访问,诸如访问有线递送的点播电视节目、视频和音乐,以及互联网递送的电视节目、视频和音乐(例如,来自各种免费、付费和订阅式流服务)。在其他示例中,电视机顶盒104可方便回放或显示来自任何其他源的媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。电视机顶盒104还可根据需要包括本文所讨论的媒体控制特征的各种其他组合。
用户设备102和电视机顶盒104可通过一个或多个网络108与服务器系统110进行通信,该网络可包括互联网、内联网或任何其他有线或无线的公共网络或专用网络。另外,用户设备102可通过网络108或直接通过任何其他有线或无线通信机构(例如,蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104进行通信。如图所示,遥控器106可使用任何类型的通信方式诸如有线连接或任何类型的无线通信(例如,蓝牙、Wi-Fi、射频、红外传输等)(包括经由网络108)来与电视机顶盒104进行通信。在一些示例中,用户可通过用户设备102、遥控器106或集成在电视机顶盒104内的接口元件(例如,按钮、麦克风、相机、操纵杆等)与电视机顶盒104进行交互。例如,可在用户设备102和/或遥控器106处接收语音输入,该语音输入包括用于虚拟助理的媒体相关的查询或命令,并且该语音输入可用于使得媒体相关的任务在电视机顶盒104上执行。同样,可在用户设备102和/或遥控器106(以及未示出的其他设备)处接收用于控制电视机顶盒104上的媒体的触觉命令。因此,可采用各种方式来控制电视机顶盒104的各种功能,从而为用户提供从多个设备控制媒体内容的多种选项。
在用户设备102和/或具有遥控器106的电视机顶盒104上执行的示例性虚拟助理的客户端侧部分可提供客户端侧功能,诸如面向用户的输入和输出处理以及与服务器系统110的通信。服务器系统110可为驻留在相应用户设备102或相应电视机顶盒104上的任何数量的客户端提供服务器侧功能。
服务器系统110可包括一个或多个虚拟助理服务器114,该一个或多个虚拟助理服务器可包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型存储器120、以及至外部服务的I/O接口116。面向客户端的I/O接口122可有利于虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可利用数据与模型储存器120基于自然语言输入来确定用户的意图,并可基于推断出的用户意图来进行任务执行。在一些示例中,虚拟助理服务器114可通过一个或多个网络108来与外部服务124(诸如,电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务等)进行通信,以用于完成任务或获取信息。至外部服务的I/O接口116可促成此类通信。
服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实现。在一些示例中,服务器系统110可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110的潜在计算资源和/或基础结构资源。
虽然图1中所示的虚拟助理的功能包括客户端侧部分和服务器侧部分两者,但在一些示例中,助理的功能(或者一般来讲,语音识别和媒体控制)可被实现为被安装在用户设备、电视机顶盒、智能电视等上的独立式应用程序。此外,虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可以是不同的。例如,在一些示例中,在用户设备102或电视机顶盒104上执行的客户端可以是仅提供面向用户的输入和输出处理功能并且将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。
图2示出了根据各种示例的示例性用户设备102的框图。如图所示,用户设备102可包括存储器接口202、一个或多个处理器204、以及外围设备接口206。用户设备102中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备102可还包括耦接至外围设备接口206的各种传感器、子系统和外围设备。传感器、子系统以及外围设备可采集信息和/或促进用户设备102的各种功能。
例如,用户设备102可包括耦接至外围设备接口206以方便取向、照明和接近感测功能的运动传感器210、光传感器212、以及接近传感器214。一个或多个其他传感器216,诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等也可连接至外围设备接口206,以促进相关功能。
在一些示例中,相机子系统220和光学传感器222可用于促进相机功能,诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如,红外)接收器与发射器。可将音频子系统226耦接至扬声器228和麦克风230以方便支持语音的功能,诸如语音识别、语音复制、数字记录和电话功能。
在一些示例中,用户设备102还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括触摸屏控制器242和/或一个或多个其他输入控制器244。触摸屏控制器242可耦接至触摸屏246。触摸屏246和触摸屏控制器242例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将其他输入控制器244耦接至其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口、和/或指针设备(诸如触笔)。
在一些示例中,用户设备102还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与它们结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面模块256、传感器处理模块258、电话模块260和应用程序262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。传感器处理模块258可促进与传感器相关的处理和功能。电话模块260可促进与电话相关的过程和功能。应用程序模块262可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。
如本文所述,存储器250还可存储客户端侧虚拟助理指令(例如,存储在虚拟助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供虚拟助理的客户端侧功能。用户数据266还可用于执行支持虚拟助理或用于任何其他应用程序的语音识别。
在各种示例中,虚拟助理客户端模块264可能够通过用户设备102的各种用户界面(例如,I/O子系统240、音频子系统226等)来接受声音输入(例如,语音输入)、文本输入、触摸输入、和/或手势输入。虚拟助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块264可使用通信子系统224来与虚拟助理服务器进行通信。
在一些示例中,虚拟助理客户端模块264可利用各种传感器、子系统和外围设备lai从用户设备102的周围环境采集附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自电视机顶盒104的信息。在一些示例中,虚拟助理客户端模块264可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被用户设备102或服务器系统110用于支持准确的语音识别。
在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、周围环境的图像或视频、到另一个对象的距离等。该上下文信息还可包括与用户设备102的物理状态(例如,设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等)或者用户设备102的软件状态(例如,运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,由电视机顶盒104显示的媒体内容、电视机顶盒104可用的媒体内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114(或用于用户设备102本身)。
在一些示例中,虚拟助理客户端模块264可响应于来自虚拟助理服务器114的请求而选择性地提供被存储在用户设备102上的信息(例如,用户数据266)(或者该虚拟助理客户端模块可在用户设备102本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264可将附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。
在各种示例中,存储器250可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备102的各种功能。
图3示出了用于提供媒体回放的语音控制的系统300中的示例性电视机顶盒104的框图。系统300可包括系统100的元件的子集。在一些示例中,系统300可单独执行某些功能,并且也可与系统100的其他元件一起运行来执行其他功能。例如,系统300的元件可在不与服务器系统110进行交互的情况下处理某些媒体控制功能(例如,回放本地存储的媒体、记录功能、频道调谐等),并且系统300可结合服务器系统110和系统100的其他元件来处理其他媒体控制功能(例如,回放远程存储的媒体、下载媒体内容、进行某些虚拟助理查询等)。在其他示例中,系统300的元件可执行较大系统100的功能,包括通过网络来访问外部服务124。应当理解,可通过各种其他方式来在本地设备和远程服务器设备之间划分功能。
如图3所示,在一个示例中,电视机顶盒104可包括存储器接口302、一个或多个处理器304、和外围设备接口306。电视机顶盒104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。电视机顶盒104还可包括耦接至外围设备接口306的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104的各种功能。
例如,电视机顶盒104可包括通信子系统324。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,这些通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如,红外)接收器与发射器。
在一些示例中,电视机顶盒104还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括音频/视频输出控制器370。音频/视频输出控制器370可耦接至显示器112和扬声器111,或者能够以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统340还可包括远程控制器342。远程控制器342可(例如,经由有线连接、蓝牙、Wi-Fi等)通信地耦接至遥控器106。遥控器106可包括用于捕获音频输入(例如,来自用户的语音输入)的麦克风372、用于捕获触觉输入的一个或多个按钮374、以及用于促进经由远程控制器342与电视机顶盒104进行通信的收发器376。遥控器106还可包括其他输入机构,诸如键盘、操纵杆、触摸板等。遥控器106还可包括输出机构,诸如灯、显示器、扬声器等。在遥控器106处接收的输入(例如,用户语音、按钮按压等)可经由远程控制器342而被传送到电视机顶盒104。I/O子系统340还可包括一个或多个其他输入控制器344。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。
在一些示例中,电视机顶盒104还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。
在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面模块356、设备内置媒体模块358、设备外置媒体模块360和应用程序362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。设备内置的媒体模块358可促进在电视机顶盒104上本地存储的媒体内容以及本地可用的其他媒体内容(例如,有线频道调谐)的存储和回放。设备外置媒体模块360可促进远程存储(例如,在远程服务器上、在用户设备102上等)的媒体内容的流回放或下载。应用程序模块362可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、游戏和/或其他过程和功能。
如本文所述,存储器350还可存储客户端侧虚拟助理指令(例如,存储在虚拟助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供虚拟助理的客户端侧功能。用户数据366还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。
在各种示例中,虚拟助理客户端模块364能够通过电视机顶盒104的各种用户界面(例如,I/O子系统340等)来接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块364可使用通信子系统324来与虚拟助理服务器通信。
在一些示例中,虚拟助理客户端模块364可利用各种子系统和外围设备来从电视机顶盒104的周围环境采集附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自用户设备102的信息。在一些示例中,虚拟助理客户端模块364可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被电视机顶盒104或服务器系统110用于支持准确的语音识别。
在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、到另一个对象的距离等。上下文信息还可包括与电视机顶盒104的物理状态(例如,设备位置、设备温度、功率电平等)或电视机顶盒104的软件状态(例如,运行过程、已安装的应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息可还包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,在用户设备102上显示的内容、用户设备102上的可播放内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114(或用于电视机顶盒104本身)。
在一些示例中,虚拟助理客户端模块364可响应于来自虚拟助理服务器114的请求,选择性地提供被存储在电视机顶盒104上的信息(例如,用户数据366)(或者该虚拟助理客户端模块可在电视机顶盒104本身上,以用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364还可在虚拟助理服务器114请求时引出来自用户的经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块364可将附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。
在各种示例中,存储器350可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行电视机顶盒104的各种功能。
应当理解,系统100和系统300不限于图1和图3中所示的部件和配置,并且用户设备102、电视机顶盒104和遥控器106同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中,系统100、系统300、用户设备102、电视机顶盒104和遥控器106全部可包括更少部件,或包括其他部件。
通览本公开内容,对“系统”进行引用,该系统可包括系统100、系统300、或系统100或系统300的一个或多个元件。例如,本文中提到的典型系统可包括从遥控器106和/或用户设备102接收用户输入的电视机顶盒104。
在一些示例中,虚拟助理查询可包括对于被提示跳转到特定时间的特定媒体的请求。例如,用户可能想看到比赛中的特定进程、演出期间的特定表演、电影中的特定场景等。为了处理这种查询,虚拟助理系统可确定与查询相关联的用户意图,识别响应于该查询的相关媒体,并根据用户请求(例如,提示在某人将要进球得分前开始回放比赛)在适当时间提示媒体进行回放。详细媒体信息可被并入虚拟助理知识库以支持各种媒体相关的查询。例如,可将详细媒体信息并入系统100的虚拟助理服务器114的数据和模型120中,以支持特定媒体查询。在一些示例中,也可从系统100的外部服务124获取详细媒体信息。
然而,能够处理相关用户请求的响应系统可包括将实时或近实时的媒体数据并入虚拟助理知识中。例如,直播体育赛事可包括用户可能希望看到的各种兴趣点。另外,用户当前正在观看的视频可包括用户可在查询中引用的许多兴趣点。相似地,电视节目可包括用户可能想要提示回放或标识为与朋友共享的流行场景、特别嘉宾出场、广泛讨论的时刻等。各种其他媒体内容同样可包括用户的相关兴趣点(例如,音乐、基于网络的视频剪辑等)。因此,根据本文的各种示例,详细且适时的媒体数据可被并入虚拟助理知识中,以支持与媒体相关联的各种用户请求,甚至包括对内容和媒体相关信息的近实时请求。
图4示出了根据各种示例的用于媒体回放的语音控制的示例性过程400,包括并入详细且/或适时的媒体数据。在框402处,可接收包括与媒体流中的时间相关联的事件的数据馈送。可以多种不同形式中的任一种,从各种不同的源接收数据馈送。例如,数据馈送可包括使特定媒体中的事件与时间关联的表、时间与事件在其中相关的数据库、使特定媒体中的事件与时间相关联的文本文件、响应于事件请求提供时间的信息服务器等。数据馈送可来自各种不同的源,诸如,系统100的外部服务124。在一些示例中,数据馈送可由与特定媒体相关联的组织提供,诸如提供详细体育赛事信息的体育联盟、提供详细视频和场景信息的视频提供方、从多个体育数据源提取的体育数据整合器等。在其他示例中,可通过分析媒体内容(诸如,分析演员外表、隐藏式字幕文本、场景变化等)来获取数据馈送。在其他示例中,可从社交媒体获取数据馈送,诸如节目中被普遍讨论的时刻、比赛中被频繁引用的事件等。因此,本文所使用的术语数据馈送可指各种形式的各种数据,包括可从媒体本身挖掘的数据。
图5示出了将媒体流512中的事件与该媒体流中的特定时间514关联起来的示例性数据馈送510。应当理解,提供图5是出于说明目的,并且数据馈送510可采用各种其他形式(例如,文本文件、表文件、信息服务器数据、数据库、消息、信息性馈送等)。媒体流512可包括任何类型的可播放媒体,诸如体育赛事、视频、电视节目、音乐等。在图5的示例中,媒体流512可包括电视播放的冰球比赛。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联,它们都可包括在数据馈送510中(例如,可包括在标头等中)。在例示的示例中,在5:01(UTC)时在第一框中提供描述性概述信息,包括媒体标题(例如,“冰球比赛”)、媒体描述(“A队与B队在Ice Arena对战”)和媒体源(例如,电视“第7频道”上播送)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除图5中所示的信息外,还可获取各种其他媒体信息,诸如比赛队伍中的队员名单、出现在剧集中的演员列表、制作人、导演、艺术家等。各种概要和描述性信息都可并入虚拟助理知识中并用于支持相关查询。
如图所示,数据馈送510可包括与媒体流时间514相关的媒体流事件516。可以各种不同的方式指定媒体流时间514,包括使用协调世界时间(缩写为“UTC”)、用户的本地时间、虚拟助理服务器处的时间、媒体服务器处的时间、媒体源处的时间(例如,体育场地)或各种其他时区。在其他示例中,可提供媒体流时间514作为自媒体内容开始(例如,自电影、剧集、体育赛事、音轨等开始)的进度。在其他示例中,媒体流时间514可被提供为比赛时钟时间等。在各种示例中的任一个示例中,应当理解,媒体流时间514可包括精确的时间指定,诸如秒、毫秒甚至更精细的分级。为了易于参考,本文中媒体流时间514的示例提供有UTC小时和分钟指定,虽然通常可使用秒,但也可使用毫秒或更精细的分级。
媒体流事件516可包括媒体流512中的各种事件或兴趣点。在体育赛事中,例如媒体流事件516可包括比赛、罚分、进球、赛段分段(例如,一周期、四分之一、一半等)、比赛阵容(击球手、冰上队员、四分卫、场上踢球手等)等。在电视节目(例如,情景喜剧、谈话节目等)中,媒体流事件516可包括片头、人物出场、演员出场(例如,屏幕上的时间指定)、节目情节内的事件(例如,特定场景)、嘉宾出场、嘉宾表演、独白、广告插播等。在颁奖典礼(例如,电影奖、戏剧奖等)中,媒体流事件516可包括独白、颁奖仪式、获奖者演讲、艺术家表演、广告插播等。在广播节目中,媒体流事件516可包括开场白、嘉宾演讲者、讨论主题等。因此应当理解,可在多种媒体类型中的任一种当中识别各种事件或兴趣点,并且那些事件可与媒体中的特定时间相关联。
在其他示例中,可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如,可使用与特定媒体(例如,直播体育赛事)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如,在对主题进行首次评论之前不久)。在另一个示例中,观众可通过(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如,可从与其他人共享媒体(诸如,共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此,可从媒体提供方、用户、社交网络讨论和各种其他源识别数据馈送510中的媒体流事件516。
在图5的示例中,数据馈送510可包括与冰球比赛中的事件相关联的媒体流事件516。例如,第一局比赛开始时的掷球可发生在5:07(UTC),并且数据馈送510可在该事件的特定媒体流时间514处包括相关联的媒体流事件516。在5:18(UTC)时,可能判了队员X用杆击打队员Z犯规,罚其停赛两分钟。判罚详情(例如,判罚类型、涉及的队员、判罚时间等)可被包括在与特定媒体流时间514时的判罚相关联的媒体流事件516中。在5:19(UTC)时,A队可能已经开始以多打少,并且可包括媒体流事件516,该媒体流事件可使以多打少的开始与特定媒体流时间514关联起来。如图所示,各种其他媒体流事件516同样可被包括并与特定媒体流时间514关联起来。不同事件的详情可各异,并且部分或全部信息可被并入虚拟助理知识中。例如,进球的详情可包括进球队员和助攻队员。集中攻势结束的详情可包括识别失去以多打少状态的球队以及全力回击的球队的信息。屏幕上的队员的详情可包括队员在屏幕上的坐标位置。另外,媒体流事件516可包括比赛的时间段指定,诸如在5:31(UTC)时第一局结束。
在其他示例中,具有附加详细信息的各种其他媒体流事件516可被包括在数据馈送510中,和/或从媒体流512本身确定。例如,冰上队员可与媒体流时间514相关联,比分变化可与媒体流时间514相关联,比赛中止可与媒体流时间514相关联,冰上斗殴以及参与斗殴者可与媒体流时间514相关联,等等。另外,各种其他详情可包括在特定事件中,或者可与媒体流相关联,诸如各种统计信息、队员信息、参与者信息(例如,裁判、教练等)、赛段指示符等。这样,数据馈送510便可包括在各个时间514时在媒体流512中发生的各种事件516的详细文本描述。
应当理解,要将媒体流事件516和媒体流时间514的知识并入到虚拟助理知识库中,无需接收媒体流512。在一些示例中,在没有媒体流512的情况下,数据馈送510的信息可由虚拟助理服务器114接收,以将信息并入虚拟助理知识(例如,并入数据和模型120中)。另一个方面,媒体流512可被直接提供至用户设备102、电视机顶盒104或另一用户设备。如下所述,在一些示例中,媒体事件516的虚拟助理知识可用于提示媒体流512在用户设备上(例如,用户设备102、电视机顶盒104等上)的回放,以及响应于其他虚拟助理查询。在其他示例中,媒体流512、媒体流512的部分和/或与媒体流512相关联的元数据,可由虚拟助理服务器114接收并被并入虚拟助理的知识库中。
再次参考图4中的过程400,在框404处,可接收与媒体流中的事件相关联的口头用户请求。如上所述,可通过各种方式(诸如,经由用户设备102、遥控器106或系统100中的另一用户设备)从用户接收语音输入。针对虚拟助理的语音输入可包括各种用户请求,包括与特定媒体内的媒体和/或事件相关联的请求。例如,用户请求可包括对本文所讨论的媒体流事件516中的任一个媒体流事件的引用,诸如与图5中所示冰球比赛事件相关联的查询。在一些示例中,用户请求可包括向特定兴趣点提示媒体的请求。例如,用户可请求观看冰球比赛中的斗殴(例如,“为我显示队员Y和队员Q之间的斗殴”)、跳到一局的开始(例如,“跳到第一局的掷球”)、观看进球(例如,“为我显示队员M的进球”)、观看特定判罚导致的结果(例如,“为我显示对队员X用杆打人的判罚”)等。
再次参考图4的过程400,在框406处,可从媒体流中与用户请求中的事件相关联的时间开始回放媒体流。例如,来自数据馈送510的并入到虚拟助理知识库中的知识可用于确定与用户对特定内容的请求相关联的媒体流中的特定时间。图6示出了基于媒体流中响应于查询的事件来提示视频回放的示例性虚拟助理查询响应。在例示的示例中,用户可正在观看具有由电视机顶盒104控制的内容的显示器112。用户可正在观看视频620,该视频可包括与上述数据馈送510相关联的冰球比赛。如参考过程400的框404所讨论的,接着用户可请求观看与事件相关联的特定媒体内容。例如,用户可请求观看进球(例如,“再次为我显示那个进球”、“为我显示队员M的进球”、“为我显示A队的进球”、“为我显示第一局中的进球”、“为我显示A/B冰球比赛中的第一个进球”、“重放最近一次进球”等)。
响应于用户请求,可确定响应于用户的请求的媒体流中(例如,视频620中)的特定时间。在该示例中,使用来自图5中数据馈送510的被并入虚拟助理知识库中的知识,该系统可识别如图5所示的在5:21(UTC)时A队队员M在队员Q助攻下的进球。然后,系统可使视频620的时间进度移到正确的时间来显示所需内容。在该示例中,系统可移动视频620的时间进度,在回放指示符622上指示的提示时间624开始回放。如图所示,提示时间624可不同于实况转播时间626(例如,与电视直播或以其他方式实况播出的内容流相关联的时间)。在一些示例中,提示时间624可对应于与对应的媒体流事件516相关联的媒体流时间514。在其他示例中,根据媒体流事件516与媒体流时间514的关联方式,可将提示时间624移动至早于或晚于媒体流时间514。例如,提示时间624可比相应媒体流时间514早三十秒、一分钟、两分钟或另一个量,以使用户在即将进球得分之前看到比赛。在一些示例中,数据馈送510可包括对于何时开始回放特定事件的精确时间指定(例如,指定冰球队员何时开始为最后一球猛攻、指定何时首次看到犯规行为等)。因此,可响应于用户虚拟助理请求,从提示时间624开始为用户播放视频620。
在一些示例中,视频620可替换显示器112上所示的另一视频,或者可响应于用户请求而被检索以用于回放。例如,观看其他内容的用户可发出请求以观看另一频道上冰球比赛中得分的最近一个进球(例如,“为我显示在频道七上冰球比赛中得分的最近一个进球”、“为我显示A/B冰球比赛的最近一个进球”、“为我显示Ice Arena比赛中的第一个进球”等)。如上所述,如果用户请求不能被解析到特定媒体,虚拟助理便可根据需要提示更多信息或确认(例如,“您是指第7频道正在播出的A队与B队在Ice Arena的冰球比赛吗?”)随着请求被解析到特定内容,电视机顶盒104可检索视频620以用于回放,并提示它转到提示时间624。应当理解,视频620可在用户设备102或任何其他设备上播放,并且虚拟助理可类似地(例如,基于特定的用户命令、基于用户正在观看视频620的设备、基于用户请求的来源等)提示用户设备102或另一设备上的视频620转到提示时间624。
在一些示例中,针对虚拟助理的用户请求可包括对由电视机顶盒104在显示器112上示出或者在用户设备102的触摸屏246上示出的某些内容的模糊引用。例如,与图6中的显示器112上所示出的视频620相关的请求可包括对屏幕上的队员628或屏幕上的队员630的模糊引用。单从语音输入上看,用户正在询问或引用的具体队员可能并不清楚。在另一示例中,单从语音输入上看较为模糊的用户请求可包括其他引用。例如,在不知道用户正在观看的特定球队参加的特定比赛的情况下,查看团队名单的请求可能是模糊的;在不知道用户正在观看的特定比赛的情况下,观看下一个进球的请求可能是模糊的;等等。因此,显示器112上所示的内容和(例如,来自数据馈送510或其他的)相关联的元数据可用于消除用户请求的歧义并确定用户意图。例如,屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表、团队名单等可用以解译用户请求。
在例示的示例中,在显示器112上所示的内容和相关联的元数据可用于从对“守门员”、“那个队员”、“八号”、“他”、“M”、昵称的引用或与特定比赛和/或屏幕上的特定队员相关的任何其他引用来确定用户意图。例如,如上所述,数据馈送510可包括对哪些队员在特定时间出现在屏幕上、哪些队员参与特定事件、哪些队员在特定时间在冰场上等的指示。在与图6相关联的时间处,例如,从数据馈送510并入虚拟助理知识库中的知识可指示队员M(例如,屏幕上的队员628)和守门员(例如,屏幕上的队员630)在该特定时间在屏幕上、在那段时间在冰场上、在进行那场比赛或者至少可能在屏幕上或与该特定时间相关。然后,可基于该信息消除引用“守门员”、“那个队员”、“八号”、“他”、“M”或昵称等的请求的歧义。
例如,对于观看“守门员的”最近防守的请求(例如,“为我显示守门员的最近防守”)可被解析为该特定守门员对应于屏幕上的队员630(而不是替补队员或另一个队的守门员),并且他的名字或其他识别信息可被用来识别响应于用户查询的内容(例如,当前比赛中该特定守门员的最近防守,先前比赛中该特定守门员的最近防守,等等)。在另一示例中,基于数据馈送510和相关联的元数据,观看“八号的”下一个进球的请求(例如,“为我显示八号的下一个进球”)可被解析为带有数字八或昵称为八的特定队员(例如,屏幕上的队员628)。然后,可基于对应于“八”的队员的识别信息来识别响应于查询的内容(例如,队员M在该比赛中的下一个进球、队员M在后续比赛中的下一个进球等)。在其他示例中,可分析在显示器112上或在用户设备102上示出的内容,以便以其他方式解译用户请求。例如,可使用面部识别、图像识别(识别球衣号码)等来识别屏幕上的队员628和630,以解译相关联的用户请求。应当理解,对用户请求的响应可包括信息性响应和/或媒体内容响应,并且响应可显示在任何设备(例如,显示器112、触摸屏246等)上。
虽然本文已提供了各种示例,但应当理解,用户可通过各种不同方式来指示队员(以及演员、人物等),所有这些方式都可根据本文所讨论的示例来消除歧义。例如,用户可引用名称(例如,名字、姓氏、全名、昵称等)、号码、位置、团队、场上位置(例如,“替补四分卫”)、比赛特定的标识符(例如,先发投手、替补队员、中继投手、救援投手等)、参赛经验(例如,新队员、第一年队员、第二年队员等)、队中头衔(例如,队长、副队长等)、比赛风格(例如,彪悍、快速等)、前团队、大学(例如,“来自Q大学的四分卫”)、统计信息(例如,“上演帽子戏法的队员的作战”、“球队最高得分手的罚球”等)、传记信息(例如,“名人堂成员O的儿子”、“在来自西弗吉尼亚的那个投球手之后下一个击球的队员”等)、外貌(例如,高、矮、肤色、着装等)、赞助商(例如,“五金店汽车的冲撞”),等等。
在其他示例中,针对虚拟助理的用户请求可包括模糊引用,该模糊引用基于由电视机顶盒104在显示器112上示出或者在用户设备102的触摸屏246上示出的某些内容的当前回放位置。例如,用户可引用“下一个”进球、“前一个”判罚、“下一个”广告、“最近一个”表演、“下一个”演员出场等。单从语音输入上看,用户意图(例如,特定的所需内容)可能并不清楚。然而,在一些示例中,媒体流中的当前回放位置可用于消除用户请求的歧义并确定用户意图。例如,指示当前回放位置的媒体流时间可被发送到虚拟助理系统,并由虚拟助理系统用于解译用户请求。
图7示出了媒体流512,其中示例性媒体流事件516出现在当前回放位置732之前和之后,该媒体流可用于解译用户查询(例如,以消除用户请求的歧义并确定用户意图)。如图所示,实况转播时间626可晚于当前回放位置732,并且在一些示例中,媒体流512可包括不再为实况的内容的记录。给定如图所示的当前回放位置732的情况下,可解译对媒体流事件516的各种引用,诸如“下一个”和“前一个”事件。例如,单基于语音输入而言,观看前一个或最近一个进球(例如,“为我显示最近一个进球”)的用户请求可能是模糊的,但是可使用当前回放位置732解译用户请求(例如,解析引用“最近一个”),并将前一个进球734识别为所需的媒体流事件516。在另一个示例中,单基于语音输入而言,观看下一个判罚(例如,“为我显示下一个判罚”)的用户请求可能是模糊的,但是可使用当前回放位置732解译用户请求(例如,解析引用“下一个”),并将下一个判罚738识别为所需的媒体流事件516。当前回放位置732不但可用于以类似方式解译对前一个判罚736和下一个进球740的请求,还可用于解译各种其他位置引用(例如,接下来两个、最近三个等)。
图8示出了将媒体流812中的事件与该媒体流中的特定时间514关联起来的示例性数据馈送810。数据馈送810可包括与如上所述的数据馈送510相似的特征,并且数据馈送810可类似地在框402处被接收,并用于在上面所讨论的过程400的框406处使媒体回放。在图8的示例中,媒体流812可包括电视播放的颁奖典礼。在其他示例中,类似的媒体流可包括基于互联网的颁奖典礼、广播节目表演、综艺节目等。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联,它们都可包括在数据馈送810中(例如,可包括在标头等中)。在例示的示例中,在10:59(UTC)时在第一框中提供描述性概述信息,包括媒体标题(例如,“电影颁奖典礼”)、媒体描述(“由喜剧演员Whitney Davidson主持的年度电影颁奖典礼”)和媒体源(例如,在电视“第31频道”上播送)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除了图8中所示的信息之外,还可获取各种其他媒体信息,诸如参与者名称、表演描述、所获奖项等。各种概述和描述性信息可全部并入虚拟助理知识并用于支持相关查询。
如图所示,数据馈送810可包括与媒体流时间514相关的媒体流事件516,这可类似于上文参考图5所讨论的事件516和时间514。数据馈送810中的媒体流事件516可包括媒体流812中的各种事件或兴趣点。例如,在颁奖典礼(例如,电影奖、戏剧奖等)如媒体流812中,媒体流事件516可包括独白、颁奖仪式、获奖者演讲、参与者出场、表演描述、广告插播等。
在其他示例中,可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如,可使用与特定媒体(例如,颁奖典礼直播)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如,在对主题进行首次评论之前不久)。在另一个示例中,观众可通过(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如,可从与其他人共享媒体(诸如,共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此,可从媒体提供方、用户、社交网络讨论和各种其他源识别数据馈送810中的媒体流事件516。
在图8的示例中,数据馈送810可包括与颁奖典礼中的事件相关联的媒体流事件516。例如,名为Whitney Davidson的喜剧演员的开场独白可发生在11:00(UTC)时,并且数据馈送810可在该事件的特定媒体流时间514处包括相关联的媒体流事件516。在11:08(UTC)时,名为Jane Doe和John Richards的演员可向一位名为Jennifer Lane的获奖设计师颁发了最佳服装设计奖。颁奖仪式详情(例如,奖项名称、颁奖嘉宾、获奖者等)可被包括在与该特定媒体流时间514的颁奖仪式相关联的媒体流事件516中。在11:10(UTC)时,最佳服装设计奖获得者可发表了演讲,并且在该时间处可包括带有相关联详情(例如,奖项类型、获奖者、演讲者等)的媒体流事件516。在11:12(UTC)时,名为David Holmes的歌手献上了题为“Unforgettable”的音乐表演,并且在对应时间514处可包括带有相关联详情的媒体流事件516。如图所示,各种其他媒体流事件516同样可被包括并与特定媒体流时间514关联起来。不同事件的详情可各异,并且部分或全部信息可被并入虚拟助理知识中。
在其他示例中,具有附加详细信息的各种其他媒体流事件516可被包括在数据馈送810中,和/或从媒体流812本身确定。例如,可将正出现在屏幕上的演员或参与者与媒体流时间514关联起来。此类信息可源于所提供的数据或可通过(例如,使用面部识别等)分析媒体流812得出。另外,各种其他详情可包括在特定事件中,或者可与媒体流相关联,诸如各种统计信息、参与者信息(例如,观众、制片人、导演等)等。这样,数据馈送810便可包括在各个时间514时在媒体流812中发生的各种事件516的详细文本描述。如上所述,该信息可被并入虚拟助理的知识库,并用于响应用户请求,诸如根据上面参考过程400的框406所讨论的用户请求来提示视频。
图9示出了将媒体流912中的事件与该媒体流中的特定时间514关联起来的示例性数据馈送910。数据馈送910可包括与如上所述的数据馈送510和数据馈送810相似的特征,并且数据馈送910可类似地在框402处被接收,并用于在上面所讨论的过程400的框406处使媒体回放。在图9的示例中,媒体流912可包括电视节目,诸如情景喜剧。在其他示例中,类似的媒体流可包括游戏节目、新闻节目、谈话节目、综艺节目、知识竞赛节目、虚拟现实节目、戏剧、肥皂剧等。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联,它们都可包括在数据馈送910中(例如,可包括在标头等中)。在例示的示例中,在14:00(UTC)时在第一框中提供了描述性概述信息,包括媒体标题(例如,“电视节目”)、媒体描述(有演员Jane Holmes(人物A)和David Doe(人物B)出演的情景喜剧)和媒体源(例如,流传输自网络源)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除了图9中所示的信息之外,还可获取各种其他媒体信息,诸如制片人、导演、主持人、参与者名称、参与者特征、演员、剧情描述、嘉宾等。各种概述和描述性信息可全部并入虚拟助理知识并用于支持相关查询。
如图所示,数据馈送910可包括与媒体流时间514相关的媒体流事件516,这可类似于上文参考图5所讨论的事件516和时间514。数据馈送910中的媒体流事件516可包括媒体流912中的各种事件或兴趣点。例如,在电视节目(例如,电视剧、新闻节目、谈话节目等)如媒体流912中,媒体流事件516可包括表演描述(例如,场景描述、表演者出场等)、节目段指示符(例如,独白、欢送、片头、嘉宾出场、颁奖环节)、广告插播等。
在其他示例中,可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如,可使用与特定媒体(例如,流行情景喜剧的新一集、夜间谈话节目等)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如,在对主题进行首次评论之前不久)。在另一个示例中,观众可通过(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如,可从与其他人共享媒体(诸如,共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此,可从媒体提供方、用户、社交网络讨论和各种其他源识别数据馈送910中的媒体流事件516。
在图9的示例中,数据馈送810可包括与情景喜剧电视节目中的事件相关联的媒体流事件516。例如,片头部分可出现在14:01(UTC)时,并且数据馈送910可在该事件的特定媒体流时间514处包括相关联的媒体流事件516。在14:03(UTC)时,在节目的剧情中,两个人物可能为争夺停车位而打了一架。情节中场景或时刻的详情(例如,屏幕上的人物、屏幕上的演员、所发生的事情描述等)可包括在与特定媒体流时间514的颁奖仪式相关联的媒体流事件516中。在14:06(UTC)时,嘉宾可出现在节目中并演唱了歌曲,并且在对应时间514处可包括带有相关联详情的媒体流事件516。如图所示,各种其他媒体流事件516同样可被包括并与特定媒体流时间514关联起来。不同事件的详情可各异,并且部分或全部信息可被并入虚拟助理知识中。
在其他示例中,具有附加详细信息的各种其他媒体流事件516可被包括在数据馈送910中,和/或从媒体流912本身确定。例如,可将正出现在屏幕上的演员或参与者与媒体流时间514关联起来。此类信息可源于所提供的数据或可通过(例如,使用面部识别等)分析媒体流912得出。另外,各种其他详情可包括在特定事件中,或者可与媒体流相关联,诸如各种统计信息、参与者信息(例如,观众、制片人、导演等)等。这样,数据馈送910便可包括在各个时间514时在媒体流912中发生的各种事件516的详细文本描述。如上所述,该信息可被并入虚拟助理的知识库,并用于响应用户请求,诸如根据上面参考过程400的框406所讨论的用户请求来提示视频。
在本文所讨论的各种示例中的任一示例中,附加虚拟助理知识可源于与特定媒体内容相关联的隐藏式字幕文本。例如,本文所讨论的任何数据馈送的信息可由隐藏式字幕文本补充或源于隐藏式字幕文本。可基于与媒体回放中的特定时间相关联的隐藏式字幕文本在媒体流时间514处添加附加媒体流事件516(例如,识别何时说出特定短语、识别特定人物何时讲话等)。另外,根据本文所讨论的各种示例(例如,基于说出的名字),可使用隐藏式字幕文本来消除用户请求的歧义并确定用户意图。
图10示出了与视频1050中的特定时间相关联的示例性隐藏式字幕文本1054,其可用于响应虚拟助理查询。在例示的示例中,隐藏式字幕界面1052可包括在显示器112上所示视频1050的当前回放位置1056处的隐藏式字幕文本1054。在当前回放位置1056处,屏幕上可出现人物1060、1062和1064,并且他们当中有些人可在说以隐藏式字幕文本1054示出的文本。在得出用于虚拟助理知识的信息时,可将隐藏式字幕文本1054与当前回放位置1056关联。在一些示例中,时间偏移1058可被用作参考(例如,隐藏式字幕文本1054的文本可在视频1050中出现两分钟,或者类似地,相当的语音可在视频1050中讲两分钟)。
可从隐藏式字幕文本1054得出各种信息,并且其中一些信息可作为特定媒体流事件516与时间偏移1058相关联。例如,说出的名称可用于推断特定时间屏幕上的人物出场。说出的字词“Blanche”可例如用于推断名为“Blanche”的人物可能在视频1050中的时间偏移1058处或附近出现在屏幕上。然后,得出的信息可用于响应与人物名称“Blanche”或从元数据识别的对应女演员相关联的用户请求(例如,“为我显示Blanche出场的一幕”)。在另一个示例中,可识别说出的短语并将其与说出这些短语的特定时间相关联。说出的短语“背景显赫”可例如被识别为在视频1050中的时间偏移1058处或附近说出。然后,得出的信息可用于响应与说出的短语“背景显赫”相关联的用户请求(例如,“为我显示Blanche说了背景显赫的一幕”)。因此,可分析隐藏式字幕文本并将其与特定时间相关联,并且该组合可被并入虚拟助理知识以响应相关用户请求。
应当理解,无论是否在界面(诸如,界面1052)中示出了隐藏式字幕文本1054,都可从该隐藏式字幕文本中得出信息。例如,可在不实际播放对应视频的情况下分析隐藏式字幕文本,并且可从与隐藏式字幕相关联的元数据得出时间。此外,虽然在图10中的显示器112上示出了隐藏式字幕,但应当理解,在实际播放或不实际播放相关联视频的情况下,可对隐藏式字幕进行分析,从而在服务器或另一设备处得出虚拟助理知识。
如上所述,从用户处接收的语音输入可能是模糊的。除了可用于解译用户请求的上述信息(例如,屏幕上的队员、屏幕上的演员、回放位置等)之外,各种其他上下文信息也可用于解译用户请求。例如,关于用户的个人信息可用于解译用户请求。可基于语音识别、登录设备、输入口令、使用特定帐户、选择个人资料信息(例如,年龄和性别)等来识别用户。然后可使用所识别的用户(或特定家庭)的用户特定数据来解译用户请求。此类用户特定数据可包括用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学特征、用户的观看历史、用户的订阅数据等。另外,用户特定数据(或家庭特定数据)可包括媒体内容观看历史,其反映了通常观看的节目、通常观看的体育比赛、偏好的分类等。此外,在一些示例中,可从用户语音(例如,基于音高、用词等)推断出通用的年龄和性别数据,然后可使用该数据根据个人资料信息来偏置结果(例如,基于年龄和性别资料的可能偏好来偏置字词、表演、名称、查询结果等)。
在一些示例中,用户请求可特别地引用用户特定数据。例如,用户可引用“我的团队”(例如,“我的团队表现如何?”)。然后可使用用户特定数据将引用“我的团队”解析为被指定为用户喜爱的团队的特定运动队。在其他示例中,用户特定数据可用于偏置语音识别和用户意图确定(例如,基于最近观看的电影推断特定用户可能询问特定演员,其中所述电影中出现了该演员)。例如,可在用户特定数据中识别用户喜欢的、观看的或以其他方式相关联的演员或队员的名称,并在语音识别和意图确定过程中使用这些名称,从而使结果偏向有利于那些演员或队员名称。这可有助于准确地识别唯一名称、听起来像其他字词或其他名称的名称等。
除了本文所讨论的用于准确识别语音输入和解译用户请求的各种其他上下文源之外,来自与用户相关联的多个设备的信息可被用作准确语音识别和确定用户意图的上下文。例如,(例如,在显示器112上)观看电视的用户也可在另一设备上(例如,在用户设备102上)消费内容。然后可使用来自两个设备的内容来解译用户请求。
图11A示出了显示有视频1150的电视显示器112。图11B示出了带有触摸屏246的用户设备102,该设备示出了显示的图像1170和显示的文本1172。可(例如,经由遥控器106或用户设备102)接收引用来自任一设备的内容的用户请求。例如,用户可请求示出“Jennifer的”最近一个进球。仅来自语音输入的对“Jennifer”的引用可能是模糊的。然而,显示的文本1172可用于消除请求的歧义,并将Jennifer识别为出现在用户设备102上所示内容中的队员。然后可基于特定队员来识别响应于请求的视频内容,并且可为用户播放该内容。显示器112或用户设备102上可(例如,基于特定命令、用户偏好等)提供响应内容。
在另一个示例中,可在语音识别过程中使用与图11A中视频1150相关联的名称以及与图11B中所显示的图像1170和所显示的文本1172相关联的名称,以使结果偏向可能的名称候选项或识别可能难以识别的名称。例如,用户请求可包括可能模糊的名称,但可使用与任一设备上所显示的内容相关联的名称来准确识别用户意图。在其他示例中,可类似地使用与任一设备上所显示的内容相关联的演员、颁奖嘉宾、表演者、制片人、导演、参与者、处罚、体育术语等的列表,来提高语音识别准确度并确定用户意图。
在一些示例中,图11B中所显示的图像1170可包括移动图像或视频。例如,图11B中所示内容可包括次级屏幕体验数据(例如,旨在伴随另一节目的数据和视频)、次级相机视图数据(例如,针对特定节目的视频,该视频相比于主要显示的视频具有可选视图或有利位置)等。此类信息可用于提高语音识别准确度,并以与上文所述类似的方式确定用户意图。此外,无论是否在独立用户设备上示出,次级屏幕体验数据、次级相机视图数据等都可被接收并作为数据馈送的一部分用来识别媒体流中的相关兴趣点和相关联时间。例如,次级屏幕体验可包括对比赛精彩镜头的说明。那些说明可作为带有相关联媒体流时间的相关媒体流事件包括在虚拟助理知识中,并可用于响应用户请求。类似地,次级相机视图数据可作为识别特定媒体流时间的相关媒体流事件包括在虚拟助理知识中,在该特定媒体流时间内另选相机内容是可用的(这可例如用于响应某些用户请求)。
如上所述,响应于某些用户请求,可从特定提示时间开始回放媒体。在一些示例中,可响应于一些用户请求而连续回放一个或多个媒体流中的多个段。例如,用户可请求观看比赛精彩镜头、比赛中所有的进球、比赛中所有的斗殴、节目中特定演员的所有出场、节目中特定人物的所有场景、多个谈话节目中的每个谈话节目的开场独白、多个比赛节目中的每个比赛节目的颁奖环节、一个节目的最佳时刻或一个或多个节目的多种其他媒体片段。通过采用与上述相同的方式,可在一个或多个节目中识别出与所需事件相关联的特定时间,并且可开始回放,其中第一段后面连续跟着其他所识别的段。在一些示例中,可基于书签流行度、社交媒体讨论、重放计数等来确定精彩镜头、最佳时刻等。可通过各种方式来识别每段的结束,诸如通过广告插播、相关媒体流中的另一媒体事件、默认播放时间、媒体事件详情中的特定端点条目等。这样,用户可请求例如他们想看的特定内容的精彩镜头集锦,并且系统可自动识别所需精彩镜头并连续回放(或以任何其他顺序等提供这些精彩镜头以用于可选的播放)。
在一些示例中,用户可能想要与朋友、家人等共享媒体流中特定段。在一个示例中,用户可指示媒体流中与媒体流中特定回放位置对应的书签位置。然后,该定制书签位置可被传送到服务器,并通过社交网络、消息、其他电视机顶盒104、其他用户设备102等与朋友共享。用户可使用物理按钮、虚拟按钮、语音输入或使用遥控器106和/或用户设备102的任何其他条目来指示书签。例如,用户可将请求导向到虚拟助理系统以对某个媒体片段添加书签,并将其发送给用户通讯录中的联系人(例如,对其添加书签并发送给Corey)。然后,系统可识别特定媒体片段(例如,媒体标识符以及UTC参考、偏移等),并将其传输给所需联系人。在一些示例中,用户既可识别所需段的起始位置,也能识别所需段的结束位置。在其他示例中,用户可引用并共享特定媒体流事件(例如,与Jordan共享此进球、向Susan发送此表演等)。在其他示例中,书签和媒体流事件可通过社交网络等来共享。
如上所述,响应于媒体相关的虚拟助理查询,系统可提示视频回放和/或用信息性回答进行响应(例如,通过在显示器112或用户设备102上显示文本响应、大声朗读响应等)。在一些示例中,可通过类似的方式使用如本文所讨论的用于提示视频回放的各种数据馈送和其他信息,以确定对用户请求的信息性响应。图12示出了用于将信息整合到数字助理知识中,并响应用户请求的示例性过程1200。在框1202处,可接收包括与媒体流中的时间相关联的事件的数据馈送。数据馈送可包括本文所讨论的具有对应媒体流事件516中的任一个对应媒体流事件的数据馈送中的任一个数据馈送,诸如参考图5讨论的数据馈送510、参考图8讨论的数据馈送810以及参考图9讨论的数据馈送910。
再次参考图12中的过程1200,在框1204处,可接收到与数据馈送中的事件相关联的口头用户请求。用户可请求关于任何媒体流事件、当前播放媒体、屏幕上的队员、屏幕上的演员等的信息。例如,用户可请求识别得分的队员(例如,“谁进球得了那分?”)、识别鸣哨判罚(例如,“为什么要判罚?”)、识别屏幕上的表演者(“那是谁?”)、识别歌名(例如,“她在唱什么?”)、识别屏幕上节目中的人物(例如,“这些人物叫什么名字?”)、识别节目中的人物(例如,“这个节目中都有谁?”)、剧情描述(例如,“这集的内容是什么?”)、系列描述(例如,“这个系列的内容是什么?”)或与媒体内容相关联的各种其他查询。
在框1206处,可基于与事件相关的数据(例如,来自本文所讨论的数据馈送中的任一个数据馈送的数据)生成对用户请求的响应。可例如搜索本文所讨论的媒体流事件516中的任一个来获取对各种查询(例如,诸如上文参考框1204所提到的各种查询示例)的信息性响应。在一些示例中,可基于当前播放媒体(例如,正在播放的节目、暂停的节目、屏幕上所示出的节目等)生成响应。例如,单基于语音输入而言,引用当前播放媒体的用户请求可能是模糊的。当前播放媒体可用于消除用户请求的歧义,并通过解析关于当前内容的引用来确定用户意图。例如,用户可请求“这个”节目的演员列表(例如,“这个节目中都有谁?”),但由于从语音输入来看所提及的节目并不明显,因此该请求可能并不清楚。然而,可使用当前播放的节目解析对“这个”的引用并识别用户意图。例如,如果正在播放图9的电视节目示例,则可使用在14:00(UTC)时列出的概述信息通过识别演员Jane Holmes和David Doe来响应用户查询。
在其他示例中,可基于当前播放媒体的当前回放位置和/或先前由用户消费的媒体内容来生成响应。例如,用户可请求识别刚被示出为进球的队员,并且可在请求中引用“那个”进球(例如,“谁进了那个球?”)。可使用当前播放媒体的当前回放位置来确定用户意图,并且不论稍后是否有其他进球出现在媒体流中,都会通过将“那个”进球解析为显示给用户的最近进球来生成响应。在图7的示例中,当前回放位置732可用于将“那个”进球解析为前一个进球734,并且对应媒体流事件的内容可用于回答查询。具体地,队员M可被识别为获取了用户看到的最近的进球得分。如上文参考图7所讨论的,当前回放位置还可用于从各种其他模糊引用(例如,下一个、前一个等)确定用户意图,并且所识别的媒体流事件信息可用于制定对查询的响应。
另外,在一些示例中,用户可能想要改变他们的观看体验并延迟了解直播或更新的信息。例如,用户可在体育赛事已经开始之后甚至在其已经结束之后开始观看。然而,用户可能想要像现场直播那样体验整个比赛。在这种情况下,可过滤可用的虚拟助理知识,以引用与当前回放位置同时可用的信息,并避免引用来自当前回放位置之后的点的信息。例如,再次参考图7的示例,假设用户正在当前回放位置732处观看,则系统可避免在响应中包括下一个进球740。用户可请求例如当前回放位置732处的进球(例如,“到目前为止比分为多少?”)。作为响应,系统可基于先前观看的事件(例如,前一个进球734)提供比分,同时排除当前回放位置732之后的事件(例如,下一个进球740)。
在一些示例中,用户请求可(例如,通过说“到目前为止”、“直到现在”、“此刻比赛中”、“迄今为止”等)规定响应信息应当与当前回放位置同步,或者(例如,通过说“直播的”、“更新的”、“当前”等)规定响应信息应当是可用的最新更新的信息。在其他示例中,设置、用户偏好等可确定响应是包括最新更新的信息还是替代地仅包括与回放位置同步的信息。此外,在一些示例中,可(例如,基于术语、名称等)与特定比赛相关联的警报、通知、消息、社交媒体馈送条目等可根据需要被阻止发送给用户,并且仅在用户到达对应于各种消息的相关联内容中的回放位置之后递送。例如,来自朋友的评论直播体育赛事的消息(例如,用于在用户设备102或任何其他设备上递送)可被有意延迟,直到用户在延迟观看体育赛事时到达与发送消息的时间对应的点,消息可在该点被递送给用户。这样,观看体育赛事(或消费任何其他媒体)的整个体验可根据需要进行时移(例如,以避免破坏结果)。
在其他示例中,可基于由电视机顶盒104在显示器112上示出的内容、在用户设备102的触摸屏246上示出的内容和/或与所显示的内容中的任何内容相关联的元数据来生成响应。例如,可基于屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表、团队名单等来生成响应。如上文参考图6、图11A和图11B所讨论的那样,可从所显示的内容和相关联的元数据得出各种信息,并且该信息可用于消除用户请求的歧义,确定用户意图,并生成对用户请求的响应。例如,可基于当前回放位置附近的媒体流事件、面部识别、隐藏式字幕文本等来生成用于识别屏幕上的队员的用户请求(例如,“那位是谁?”)的响应。在图6的示例中,例如,可使用提示时间624附近的媒体流事件(例如,附近的A队进球)将屏幕上的队员628识别为队员M。在另一示例中,可使用图像处理来识别屏幕上队员628的球衣号码,以将其从名单识别为队员M。
再次参考图12中的过程1200,在框1208处,可使得在框1206处确定的响应被递送。在一些示例中,递送该响应可包括使得响应经由电视机顶盒104在显示器112上、在用户设备102上或在另一设备上显示或播放。例如,文本响应和/或媒体响应可在设备上的虚拟助理界面中显示或播放。在另一示例中,递送响应可包括(例如,从服务器)向电视机顶盒104、用户设备102或另一设备传输响应信息。在其他示例中,用户可请求识别图像或视频内的信息(例如,“哪一个是Jennifer?”),并且响应可包括基于例如在相关联的媒体流事件中所识别的坐标,显示重叠在图像或视频上的指示符(例如,箭头、点、轮廓等)。因此,过程1200可用于通过采用并入虚拟助理知识库中的适时数据,以多种方式响应各种用户查询。
此外,在本文所讨论的各种示例中的任何一个示例中,可以为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令,并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等,以各种其他方式修改本文所讨论的各种过程。此外,基于用户交互(例如,频繁说出的命令、频繁选择的应用程序等),此类偏好和设置可以随时间更新。可得自各种来源的用户数据的收集和使用可用于改善将邀请内容或用户可能感兴趣的任何其他内容传送到用户。本公开预期,在一些示例中,这些经采样的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。
本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。
不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低限度的个人信息(例如,与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息)来推断偏好,从而选择内容并递送给用户。
根据一些示例,图13示出了电子设备1300的功能框图,所述电子设备根据所描述的各种示例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图13中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图13所示,电子设备1300可包括被配置为显示媒体、界面和其他内容的显示单元1302(例如,显示器112、触摸屏246等)。电子设备1300还可包括输入单元1304,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如,麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1300还可包括耦接至显示单元1302和输入单元1304的处理单元1306。在一些示例中,处理单元1306可包括数据馈送接收单元1308、用户请求接收单元1310以及媒体回放单元1312。
处理单元1306可被配置为(例如,使用数据馈送接收单元1308从输入单元1304)接收数据馈送,其中数据馈送包括与事件相关的数据,该事件与媒体流中的时间相关联。处理单元1306可被进一步配置为基于语音输入(例如,使用用户请求接收单元1310从输入单元1304)接收用户请求,其中所述用户请求与事件相关联。处理单元1306可被进一步配置为响应于接收到用户请求,(例如,使用媒体回放单元1312)使得媒体流在媒体流中与事件相关联的时间处(例如,在显示单元1302上)开始回放。
在一些示例中,处理单元1306可被进一步配置为基于当前播放媒体来解译用户请求。在其他示例中,处理单元1306可被进一步配置为基于当前播放媒体的当前回放位置来解译用户请求。在其他示例中,处理单元1306可被进一步配置为基于屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表、节目中的人物列表或团队名单中的一者或多者来解译用户请求。在一些示例中,媒体流包括体育赛事,并且与该事件相关的数据包括队员特征(例如,名称、昵称、号码、位置、团队、场上位置、经验、风格、传记信息等)、得分、判罚、统计信息或赛段指示符(例如,四分之一、一局、一半、一圈、警告标志、停车进站、落后、比赛等)中的一者或多者。在其他示例中,媒体流包括颁奖典礼,并且与该事件相关的数据包括参与者特征(例如,名称、昵称、人物名称、传记信息等)、表演描述或颁奖仪式指示符中的一者或多者。在其他示例中,媒体流包括电视节目,并且与该事件相关的数据包括表演描述或节目段指示符中的一者或多者。
在一个示例中,(例如,用户请求接收单元1310的)用户请求包括对媒体流中精彩镜头的请求。在一些示例中,处理单元1306可被进一步配置为响应于接收到请求,使媒体流的多个段连续回放。在其他示例中,使媒体流回放包括在除电子设备之外的回放设备上使媒体回放。在一些示例中,电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他示例中,回放设备包括机顶盒、智能电话、平板电脑或电视。处理单元1306可被进一步配置为基于由电子设备显示的信息来解译用户请求。处理单元1306可被进一步配置为基于由回放设备显示的信息来解译用户请求。
在一些示例中,与事件相关的数据包括隐藏式字幕文本。处理单元1306可被进一步配置为基于隐藏式字幕文本来确定媒体流中与事件相关联的时间。在一个示例中,与事件相关的数据包括次级屏幕体验数据、次级相机视图数据或社交网络馈送数据中的一者或多者。处理单元1306可被进一步配置为从用户接收书签指示,其中该书签对应于媒体流中的特定回放位置。处理单元1306可被进一步配置为接收用于共享书签的用户请求,并且响应于接收到用于共享书签的用户请求,使得与特定回放位置相关联的提示信息传输到服务器。处理单元1306可被进一步配置为基于用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学特征、用户的观看历史或用户的订阅数据中的一者或多者来解译用户请求。
根据一些示例,图14示出了电子设备1300的功能框图,所述电子设备根据各种所述示例的原理配置,以便例如使信息整合到数字助理知识中并响应用户请求。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图14中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。
如图14所示,电子设备1400可包括被配置为显示媒体、界面和其他内容的显示单元1402(例如,显示器112、触摸屏246等)。电子设备1400还可包括输入单元1404,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如,麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1400还可包括耦接至显示单元1402和输入单元1404的处理单元1406。在一些示例中,处理单元1306可包括数据馈送接收单元1408、用户请求接收单元1410、响应生成单元1412以及响应递送单元1414。
处理单元1406可被配置为(例如,使用数据馈送接收单元1408从输入单元1404)接收数据馈送,其中数据馈送包括与事件相关的数据,该事件与媒体流中的时间相关联。处理单元1406可被进一步配置为基于来自用户的语音输入(例如,使用用户请求接收单元1410从输入单元1404)接收用户请求,其中所述用户请求与事件相关联。处理单元1406可被进一步配置为基于与赛事相关的数据(例如,使用响应生成单元1412)生成对用户请求的响应。处理单元1408可被进一步配置为(例如,使用响应递送单元1414)使得响应被递送。
在一些示例中,(例如,使用响应生成单元1412)生成响应还包括基于当前播放媒体生成响应。在其他示例中,(例如,使用响应生成单元1412)生成响应还包括基于当前播放媒体的当前回放位置生成响应。在其他示例中,(例如,使用响应生成单元1412)生成响应还包括基于用户先前消费的媒体内容生成响应。在一些示例中,(例如,使用响应生成单元1412)生成响应还包括基于屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表或团队名单中的一者或多者来生成响应。
在一些示例中,处理单元1406可被进一步配置为响应于用户请求包括对与当前播放媒体的当前回放位置同步的信息的请求,基于与当前回放位置同步的数据来生成响应,其中与当前回放位置同步的数据不包括与当前回放位置之后的时间相关联的数据;并且,响应于用户请求包括对实况信息的请求,基于实况数据生成响应。在一些示例中,(例如,使用响应递送单元1414)使得响应被递送包括使得响应在除电子设备之外的回放设备上显示或播放。在其他示例中,(例如,使用响应递送单元1414)使得响应被递送包括使得响应被递送到除电子设备之外的回放设备。在一些示例中,电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他示例中,回放设备包括机顶盒、智能电话、平板电脑或电视。在一些示例中,处理单元1406可被进一步配置为基于由电子设备显示的信息来解译用户请求。在其他示例中,处理单元1406可被进一步配置为基于由回放设备显示的信息来解译用户请求。
虽然已参考附图完整地描述了示例,但是需注意,对于本领域技术人员来说,各种变化和修改将是显而易见的(例如,根据本文所描述的与本文所讨论的任何其他系统或过程有关的概念,修改本文所讨论的任一系统或过程)。应当理解,此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。

Claims (153)

1.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
检测用户输入;
确定所述用户输入是否对应于第一输入类型;以及
根据确定所述用户输入对应于所述第一输入类型:
在所述显示单元上显示多个示例性自然语言请求,所述多个示例性自然语言请求与所显示的内容上下文相关,其中接收与所述多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得所述数字助理执行相应动作。
2.根据权利要求1所述的方法,其中在所述电子设备的遥控器上检测所述用户输入。
3.根据权利要求2所述的方法,其中所述第一输入类型包括按压所述遥控器的按钮并在预先确定的持续时间内释放所述按钮。
4.根据权利要求1所述的方法,其中所述多个示例性自然语言请求经由第一用户界面而被显示在所述显示单元上,并且其中所述第一用户界面覆盖在所显示的内容上。
5.根据权利要求1所述的方法,其中所显示的内容包括媒体内容,并且其中在显示所述多个示例性自然语言请求时,所述媒体内容继续播放。
6.根据权利要求1所述的方法,还包括:
根据确定所述用户输入对应于第一输入类型,在所述显示单元上显示用于指示所述数字助理并未正在处理音频输入的视觉指示符。
7.根据权利要求1所述的方法,其中在确定所述用户输入对应于第一输入类型之后,在预先确定量的时间之后在所述显示单元上显示所述多个示例性自然语言请求。
8.根据权利要求1所述的方法,其中所述多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序并且在不同的时间单独显示。
9.根据权利要求1所述的方法,其中显示所述多个示例性自然语言请求包括:
显示示例性自然语言请求的多个列表,其中每个列表在不同的时间并且轮番被显示。
10.根据权利要求1所述的方法,还包括:
根据确定所述用户输入不对应于第一输入类型:
确定所述用户输入是否对应于第二输入类型;以及
根据确定所述用户输入对应于所述第二输入类型:
对音频数据进行采样;
确定所述音频数据是否包含用户请求;以及
根据确定所述音频数据包含所述用户请求,执行至少部分地满足所述用户请求的任务。
11.根据权利要求10所述的方法,其中所述第二输入类型包括按压所述电子设备的遥控器的按钮并按住所述按钮超过预先确定的持续时间。
12.根据权利要求10所述的方法,还包括:
根据确定所述音频数据不包含用户请求,在所述显示单元上显示用于澄清用户意图的请求。
13.根据权利要求10所述的方法,其中所显示的内容包括媒体内容,并且其中在对所述音频数据进行采样时以及在执行所述任务时,所述媒体内容在所述电子设备上继续播放。
14.根据权利要求13所述的方法,还包括:
输出与所述媒体内容相关联的音频;以及
根据确定所述用户输入对应于第二输入类型,减小所述音频的振幅。
15.根据权利要求10所述的方法,其中所述任务被执行,而无需从所述电子设备输出与所述任务相关的语音。
16.根据权利要求10所述的方法,其中在检测到所述用户输入时对所述音频数据进行采样。
17.根据权利要求10所述的方法,其中在检测到所述用户输入之后,在预先确定的持续时间内对所述音频数据进行采样。
18.根据权利要求10所述的方法,其中经由所述电子设备的遥控器上的第一麦克风来对所述音频数据进行采样,并且还包括:
在对所述音频数据进行采样时,经由所述遥控器上的第二麦克风来对背景音频数据进行采样;以及
使用所述背景音频数据来消除所述音频数据中的背景噪声。
19.根据权利要求10所述的方法,其中与所显示的内容相关联的音频经由来自所述电子设备的音频信号而被输出,并且还包括:
使用所述音频信号来消除所述音频数据中的背景噪声。
20.根据权利要求10所述的方法,还包括:
响应于检测到所述用户输入,在所述显示单元上显示用于提示用户提供口头请求的视觉提示。
21.根据权利要求10所述的方法,其中所执行的任务包括:
获取至少部分地满足所述用户请求的结果;以及
在所述显示单元上显示第二用户界面,所述第二用户界面包括所述结果的一部分,其中在显示所述第二用户界面时继续显示所述内容的至少一部分,并且其中所述显示单元上的所述第二用户界面的显示区域小于所述显示单元上的所述内容的所述至少一部分的显示区域。
22.根据权利要求21所述的方法,其中所述第二用户界面覆盖在所显示的内容上。
23.根据权利要求21所述的方法,其中所述结果的所述一部分包括一个或多个媒体项,并且还包括:
经由所述第二用户界面来接收对所述一个或多个媒体项中的媒体项的选择;以及
在所述显示单元上显示与所选择的媒体项相关联的媒体内容。
24.根据权利要求21所述的方法,还包括:
在显示所述第二用户界面时,检测第二用户输入;以及
响应于检测到所述第二用户输入,停止显示所述第二用户界面。
25.根据权利要求24所述的方法,其中在所述电子设备的遥控器上检测所述第二用户输入,并且其中所述第二用户输入包括所述遥控器的触敏表面上的第一预先确定的动作模式。
26.根据权利要求21所述的方法,还包括:
在显示所述第二用户界面时,检测第三用户输入;以及
响应于检测到所述第三用户输入,利用对所述显示单元上的第三用户界面的显示来替换对所述第二用户界面的显示,所述第三用户界面包括所述结果的至少所述一部分,其中所述第三用户界面占据所述显示单元的至少大部分显示区域。
27.根据权利要求26所述的方法,其中在所述电子设备的遥控器上检测所述第三用户输入,并且其中所述第三用户输入包括所述遥控器的触敏表面上的第二预先确定的动作模式。
28.根据权利要求26所述的方法,还包括:
响应于检测到所述第三用户输入:
获取与所述结果不同的第二结果,其中所述第二结果至少部分地满足所述用户请求,并且其中所述第三用户界面包括所述第二结果的至少一部分。
29.根据权利要求28所述的方法,其中所述第二结果基于在检测到所述用户输入之前所接收的用户请求。
30.根据权利要求28所述的方法,其中在检测到所述第三用户输入时,所述第二用户界面的焦点位于结果的所述一部分的项目上,并且其中所述第二结果与所述项目上下文相关。
31.根据权利要求26所述的方法,其中所显示的内容包括媒体内容,并且其中响应于检测到所述第三用户输入,暂停播放所述电子设备上的所述媒体内容。
32.根据权利要求26所述的方法,其中所述结果的至少所述一部分包括一个或多个媒体项,并且还包括:
经由所述第三用户界面来接收对所述一个或多个媒体项中的媒体项的选择;以及
在所述显示单元上显示与所述媒体项相关联的媒体内容。
33.根据权利要求26所述的方法,还包括:
在显示所述第三用户界面时,检测与所述显示单元上的方向相关联的第四用户输入;
响应于检测到所述第四用户输入:
在所述第三用户界面上将所述第三用户界面的焦点从第一项目切换至第二项目,所述第二项目被定位在相对于所述第一项目的所述方向上。
34.根据权利要求26所述的方法,还包括:
在显示所述第三用户界面时,检测第五用户输入;以及
响应于检测到所述第五用户输入:
显示搜索字段;以及
在所述显示单元上显示虚拟键盘界面,其中经由所述虚拟键盘界面所接收的输入导致所述搜索字段中的文本输入。
35.根据权利要求26所述的方法,还包括:
在显示所述第三用户界面时,检测第六用户输入;以及
响应于检测到所述第六用户输入:
对第二音频数据进行采样,所述第二音频数据包含第二用户请求;
确定所述第二用户请求是否是用于细化所述用户请求的所述结果的请求;以及
根据确定所述第二用户请求是用于细化所述用户请求的所述结果的请求:
经由所述第三用户界面来显示所述结果的子组。
36.根据权利要求35所述的方法,其中所述结果的所述子组被显示在所述第三用户界面的顶行处。
37.根据权利要求35所述的方法,还包括:
根据确定所述第二用户请求不是用于细化所述用户请求的所述结果的请求:
获取至少部分地满足所述第二用户请求的第三结果;以及
经由所述第三用户界面来显示所述第三结果的一部分。
38.根据权利要求37所述的方法,其中所述第三结果的所述一部分被显示在所述第三用户界面的顶行处。
39.根据权利要求35所述的方法,还包括:
获取至少部分地满足所述用户请求或所述第二用户请求的第四结果;以及
经由所述第三用户界面来显示所述第四结果的一部分。
40.根据权利要求39所述的方法,其中所述第四结果的所述一部分被显示在所述第三用户界面的所述顶行之后的行处。
41.根据权利要求39所述的方法,其中在检测到所述第六用户输入时,所述第三用户界面的焦点位于所述第三用户界面的一个或多个项目上,并且其中所述第四结果与所述一个或多个项目上下文相关。
42.根据权利要求26所述的方法,还包括:
在显示所述第三用户界面时,检测第七用户输入;
响应于检测到所述第七用户输入,停止显示所述第三用户界面。
43.根据权利要求42所述的方法,其中所显示的内容是媒体内容,其中响应于检测到所述第三用户输入而暂停播放所述电子设备上的所述媒体内容,并且其中响应于检测到所述第七用户输入而恢复播放所述电子设备上的媒体内容。
44.根据权利要求42所述的方法,其中所述第七用户输入包括按压所述电子设备的遥控器的菜单按钮。
45.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示所述内容时,检测用户输入;
响应于检测到所述用户输入:
在所述显示单元上显示用户界面,所述用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求,其中接收与所述多个示例性自然语言请求中的一个例性自然语言请求对应的用户话语使得所述数字助理执行相应动作。
46.根据权利要求45所述的方法,其中所显示的内容包括媒体内容。
47.根据权利要求46所述的方法,其中所述多个示例性自然语言请求包括用于修改与所述媒体内容相关联的一个或多个设置的自然语言请求。
48.根据权利要求46所述的方法,其中在显示所述用户界面时,所述媒体内容继续播放。
49.根据权利要求46所述的方法,还包括:
输出与所述媒体内容相关联的音频,其中所述音频的振幅不响应于检测到所述用户输入而减小。
50.根据权利要求45所述的方法,其中所显示的内容包括主菜单用户界面。
51.根据权利要求50所述的方法,其中所述多个示例性自然语言请求包括与所述数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。
52.根据权利要求45所述的方法,其中所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。
53.根据权利要求52所述的方法,其中所述多个示例性自然语言请求包括用于细化所述结果的自然语言请求。
54.根据权利要求45所述的方法,其中所述用户界面包括用于调用所述数字助理并与其进行交互的文本指令。
55.根据权利要求45所述的方法,其中所述用户界面包括指示所述数字助理并未正在接收音频输入的视觉指示符。
56.根据权利要求45所述的方法,其中所述用户界面覆盖在所显示的内容上。
57.根据权利要求45所述的方法,还包括:
响应于检测到所述用户输入,减小所显示的内容的亮度以突出显示所述用户界面。
58.根据权利要求45所述的方法,其中在所述电子设备的遥控器上检测所述用户输入。
59.根据权利要求58所述的方法,其中所述用户输入包括按压遥控设备的按钮并且在按压所述按钮之后的预先确定的持续时间内释放所述按钮。
60.根据权利要求59所述的方法,其中所述按钮被配置为调用所述数字助理。
61.根据权利要求45所述的方法,其中所述用户界面包括用于显示虚拟键盘界面的文本指令。
62.根据权利要求45所述的方法,还包括:
在显示所述用户界面之后,检测第二用户输入;以及
响应于检测到所述第二用户输入,在所述显示单元上显示虚拟键盘界面。
63.根据权利要求62所述的方法,还包括:
将所述用户界面的焦点改变到所述用户界面上的搜索字段。
64.根据权利要求63所述的方法,其中所述搜索字段被配置为经由所述虚拟键盘界面来接收文本搜索查询。
65.根据权利要求45所述的方法,其中所述虚拟键盘界面不可用于与所述数字助理进行交互。
66.根据权利要求45所述的方法,其中所述第二用户输入包括所述电子设备的遥控设备的触敏表面上的预先确定的动作模式。
67.根据权利要求45所述的方法,其中所述多个示例性自然语言请求在检测到所述用户输入之后的预先确定量的时间被显示。
68.根据权利要求45所述的方法,其中显示所述多个示例性自然语言请求进一步包括:
以预先确定的顺序一次一个地显示所述多个示例性自然语言请求中的每个示例性自然语言请求。
69.根据权利要求68所述的方法,其中按顺序显示进一步包括:
利用所述多个示例性自然语言请求中的后续示例性自然语言请求来替换对所述多个示例性自然语言请求中的先前所显示的示例性自然语言请求的显示。
70.根据权利要求45所述的方法,其中所述内容包括具有一个或多个项目的第二用户界面,其中在检测到所述用户输入时,所述第二用户界面的焦点位于所述一个或多个项目中的项目上,并且其中所述多个示例性自然语言请求与所述一个或多个项目中的所述项目上下文相关。
71.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
检测用户输入;以及
响应于检测到所述用户输入:
显示自然语言话语的一个或多个所建议的示例,所述一个或多个所建议的示例与所显示的内容上下文相关并且当由所述用户说出时使得所述数字助理执行对应动作。
72.根据权利要求71所述的方法,还包括:
检测第二用户输入;
响应于检测到所述第二用户输入:
对音频数据进行采样;
确定经采样的音频数据是否包含自然语言话语的所述一个或多个所建议的示例中的一个所建议的示例;以及
根据确定经采样的音频数据包含自然语言话语的所述一个或多个所建议的示例中的一个所建议的示例,对所述话语执行所述对应动作。
73.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示所述内容时,检测用户输入;
响应于检测到所述用户输入,对音频数据进行采样,其中所述音频数据包括用户话语;
获取对与所述用户话语对应的用户意图的确定;
获取对所述用户意图是否包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定;以及
响应于获取所述用户意图是否包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定,调整所述应用程序的所述状态或所述设置以满足所述用户意图。
74.根据权利要求73所述的方法,其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于播放特定媒体项的请求,并且其中调整所述应用程序的所述状态或所述设置以满足所述用户意图包括播放所述特定媒体项。
75.根据权利要求74所述的方法,其中所显示的内容包括具有媒体项的用户界面,其中所述用户话语未明确定义要播放的所述特定媒体项,并且还包括:
确定所述用户界面的焦点是否位于所述媒体项上;以及
根据确定所述用户界面的焦点位于所述媒体项上,将所述媒体项识别为要播放的所述特定媒体项。
76.根据权利要求73所述的方法,其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于启动所述电子设备上的所述应用程序的请求。
77.根据权利要求73所述的方法,其中所显示的内容包括正在所述电子设备上播放的媒体内容,并且其中所述状态或所述设置与正在所述电子设备上播放的所述媒体内容相关。
78.根据权利要求77所述的方法,其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于使正在所述电子设备上播放的所述媒体内容快进或快退的请求。
79.根据权利要求77所述的方法,其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于在所述媒体内容中向前或向后跳转以播放所述媒体内容的特定部分的请求。
80.根据权利要求77所述的方法,其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于暂停播放所述电子设备上的所述媒体内容的请求。
81.根据权利要求77所述的方法,其中用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于打开或关闭所述媒体内容的字幕的请求。
82.根据权利要求73所述的方法,其中:
所显示的内容包括具有第一媒体项和第二媒体项的用户界面;
用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于将所述用户界面的焦点从所述第一媒体项切换至所述第二媒体项的请求;并且
调整所述应用程序的所述状态或所述设置以满足所述用户意图包括将所述用户界面的焦点从所述第一媒体项切换至所述第二媒体项。
83.根据权利要求73所述的方法,其中:
所显示的内容包括正在所述媒体设备上播放的媒体内容;
所述用户话语是指示用户未听到与所述媒体内容相关联的音频的一部分的自然语言表达;
用于调整所述电子设备上的应用程序的状态或设置的所述请求包括用于重放与所述用户未听到的所述音频的所述一部分对应的所述媒体内容的一部分的请求;并且
调整所述应用程序的所述状态或所述设置包括:
使所述媒体内容向所述媒体内容的先前部分快退预先确定的量;以及
从所述先前部分重新开始播放所述媒体内容。
84.根据权利要求83所述的方法,其中调整所述应用程序的所述状态或所述设置进一步包括:
在从所述先前部分重新开始播放所述媒体内容之前打开隐藏式字幕。
85.根据权利要求83所述的方法,其中:
用于调整所述电子设备上的应用程序的状态或设置的所述请求进一步包括用于增大与所述媒体内容相关联的所述音频的音量的请求;并且
调整所述应用程序的所述状态或所述设置进一步包括在从所述先前部分重新开始播放所述媒体内容之前,增大与所述媒体内容相关联的所述音频的所述音量。
86.根据权利要求83所述的方法,其中:
与所述媒体内容相关联的所述音频中的语音被转换成文本;并且
调整所述应用程序的所述状态或所述设置进一步包括在从所述先前部分重新开始播放所述媒体内容时,显示所述文本的一部分。
87.根据权利要求73所述的方法,其中获取对与所述用户话语对应的用户意图的确定进一步包括:
获取对与所述用户话语相关联的用户情绪的确定,其中基于所确定的用户情绪来确定所述用户意图。
88.根据权利要求73所述的方法,还包括:
响应于获取所述用户意图不包括调整所述电子设备上的应用程序的状态或设置的请求的确定,获取对所述用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定;以及
响应于获取所述用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定:
获取至少部分地满足所述用户意图的结果;以及
在所述显示单元上以文本形式来显示所述结果。
89.根据权利要求88所述的方法,其中所述多个预先确定的请求类型包括对特定位置处的当前时间的请求。
90.根据权利要求88所述的方法,其中所述多个预先确定的请求类型包括用于呈现笑话的请求。
91.根据权利要求88所述的方法,其中所述多个预先确定的请求类型包括对关于正在所述电子设备上播放的媒体内容的信息的请求。
92.根据权利要求88所述的方法,其中文本形式的所述结果覆盖在所显示的内容上。
93.根据权利要求88所述的方法,其中所显示的内容包括正在所述电子设备上播放的媒体内容,并且其中在显示文本形式的所述结果时,所述媒体内容继续播放。
94.根据权利要求88所述的方法,还包括:
响应于获取用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定:
获取至少部分地满足用户意图的第二结果;
确定所显示的内容是否包括正在所述电子设备上播放的媒体内容;以及
根据确定所显示的内容包括媒体内容:
确定所述媒体内容是否可被暂停;以及
根据确定所述媒体内容不可被暂停,在所述显示单元上显示具有所述第二结果的一部分的第二用户界面,其中所述第二用户界面在所述显示单元上占据的显示区域小于所述媒体内容在所述显示单元上占据的显示区域。
95.根据权利要求94所述的方法,其中所述用户意图包括对特定位置处的天气预报的请求。
96.根据权利要求94所述的方法,其中所述用户意图包括对与运动队或运动员相关联的信息的请求。
97.根据权利要求94所述的方法,其中所述用户意图不是媒体搜索查询,并且其中所述第二结果包括具有至少部分地满足所述用户意图的媒体内容的一个或多个媒体项。
98.根据权利要求97所述的方法,其中所述第二结果进一步包括至少部分地满足所述用户意图的非媒体数据。
99.根据权利要求94所述的方法,其中所述用户意图是媒体搜索查询,并且所述第二结果包括与所述媒体搜索查询对应的多个媒体项。
100.根据权利要求94所述的方法,还包括:
根据确定所显示的内容不包括正在所述电子设备上播放的媒体内容,在所述显示单元上显示具有所述第二结果的一部分的第三用户界面,其中所述第三用户界面占据所述显示单元的大部分所述显示区域。
101.根据权利要求100所述的方法,其中显示内容包括主菜单用户界面。
102.根据权利要求100所述的方法,其中:
所显示的内容包括具有先前结果的所述第三用户界面,所述先前结果与在检测到所述用户输入之前所接收的先前用户请求相关;并且
根据确定所显示的内容不包括正在所述电子设备上播放的媒体内容,利用对所述第二结果的所述显示来替换对所述第三用户界面中的所述先前结果的显示。
103.根据权利要求94所述的方法,还包括:
根据确定所显示的内容包括正在所述电子设备上播放的媒体内容:
确定所显示的内容是否包括具有来自先前用户请求的先前结果的所述第二用户界面,其中根据确定所显示的内容包括具有来自先前用户请求的先前结果的所述第二用户界面,利用所述第二结果来替换所述先前结果。
104.根据权利要求94所述的方法,还包括:
根据确定所述媒体内容可被暂停:
暂停播放所述电子设备上的所述媒体内容;
在所述显示单元上显示具有所述第二结果的一部分的所述第三用户界面,其中所述第三用户界面占据所述显示单元的大部分所述显示区域。
105.根据权利要求73所述的方法,还包括:
将所述音频数据传输至服务器,以执行自然语言处理;以及
向所述服务器指示所述音频数据与媒体应用程序相关联,其中所述指示使所述自然语言处理偏向于媒体相关的用户意图。
106.根据权利要求73所述的方法,还包括:
将所述音频数据传输至服务器,以执行语音转文本处理。
107.根据权利要求106所述的方法,还包括:
向所述服务器指示所述音频数据与媒体应用程序相关联,其中所述指示使所述语音转文本处理偏向于媒体相关的文本结果。
108.根据权利要求106所述的方法,还包括:
获取所述用户话语的文本表示,所述文本表示基于在对所述音频数据进行采样之前所接收的先前用户话语。
109.根据权利要求108所述的方法,其中所述文本表示基于在对所述音频数据进行采样之前接收所述先前用户话语的时间。
110.根据权利要求73所述的方法,还包括:
获取所述用户意图不对应于与所述电子设备相关联的多个核心竞争力中的一个核心竞争力的确定;以及
使得第二电子设备执行促成满足所述用户意图的任务。
111.根据权利要求73所述的方法,其中获取对所述用户意图的确定进一步包括:
获取对所述用户话语是否包括模糊术语的确定;
响应于获取所述用户话语包括模糊术语的确定:
基于所述模糊术语来获取两个或更多个候选用户意图;以及
在所述显示单元上显示所述两个或更多个候选用户意图。
112.根据权利要求111所述的方法,还包括:
在显示所述两个或更多个候选用户意图时,接收对所述两个或更多个候选用户意图中的一个候选用户意图的用户选择,并且其中基于所述用户选择来确定所述用户意图。
113.根据权利要求112所述的方法,其中接收所述用户选择进一步包括:
检测第二用户输入;以及
响应于检测到所述第二用户输入,对第二音频数据进行采样,其中所述第二音频数据包括表示所述用户选择的第二用户话语。
114.根据权利要求111所述的方法,其中所述两个或更多个解译被显示,而无需输出与所述两个或更多个候选用户意图相关联的语音。
115.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示所述内容时,检测用户输入;
响应于检测到所述用户输入,对音频数据进行采样,其中所述音频数据包括表示媒体搜索请求的用户话语;
获取满足所述媒体搜索请求的多个媒体项;以及
经由用户界面来在所述显示单元上显示所述多个媒体项的至少一部分。
116.根据权利要求115所述的方法,其中在显示所述多个媒体项的所述至少一部分时,所述内容继续被显示在所述显示单元上,并且其中所述用户界面所占据的显示区域小于所述内容所占据的显示区域。
117.根据权利要求115所述的方法,还包括:
确定所述多个媒体项中的媒体项的数量是否小于或等于预先确定的数量,其中根据确定所述多个媒体项中的媒体项的数量小于或等于预先确定的数量,所述多个媒体项的所述至少一部分包括所述多个媒体项。
118.根据权利要求117所述的方法,其中根据确定所述多个媒体项中的媒体项的数量大于预先确定的数量,所述多个媒体项的所述至少一部分中的媒体项的数量等于所述预先确定的数量。
119.根据权利要求115所述的方法,其中所述多个媒体项中的每个媒体项与相对于所述媒体搜索请求的相关性得分相关联,并且其中所述多个媒体项的所述至少一部分的所述相关性得分在所述多个媒体项中是最高的。
120.根据权利要求115所述的方法,其中所述多个媒体项的所述至少一部分中的每个媒体项与流行度评级相关联,并且其中所述多个媒体项的所述至少一部分基于所述流行度评级而被布置在所述用户界面中。
121.根据权利要求115所述的方法,还包括:
在显示所述多个媒体项的所述至少一部分时,检测第二用户输入;以及
响应于检测到所述第二用户输入,扩展所述用户界面以占据所述显示单元的至少大部分显示区域。
122.根据权利要求121所述的方法,还包括:
响应于检测到所述第二用户输入:
确定所述多个媒体项中的媒体项的数量是否小于或等于预先确定的数量;以及
根据确定所述多个媒体项中的媒体项的数量小于或等于预先确定的数量:
获取至少部分地满足所述媒体搜索请求的第二多个媒体项,所述第二多个媒体项不同于所述媒体项的所述至少一部分;以及
经由经扩展的用户界面来在所述显示单元上显示所述第二多个媒体项。
123.根据权利要求122所述的方法,还包括:
确定所述媒体搜索请求是否包括多于一个搜索参数,其中根据确定所述媒体搜索请求包括多于一个搜索参数,所述第二多个媒体项在经扩展的用户界面中根据所述媒体搜索请求的所述多于一个搜索参数而被组织。
124.根据权利要求122所述的方法,还包括:
根据确定所述多个媒体项中的媒体项的数量大于所述预先确定的数量:
经由经扩展的用户界面来显示所述多个媒体项的至少第二部分,其中所述多个媒体项的所述至少第二部分不同于所述多个媒体项的所述至少一部分。
125.根据权利要求124所述的方法,其中所述多个媒体项的所述至少第二部分包括两个或更多个媒体类型,并且其中所述多个媒体项的所述至少第二部分在经扩展的用户界面中根据所述两个或更多个媒体类型中的每个媒体类型而被组织。
126.根据权利要求122所述的方法,还包括:
检测第三用户输入;
响应于检测到所述第三用户输入,使得经扩展的用户界面滚动;
确定经扩展的用户界面是否已滚动超过经扩展的用户界面上的预先确定的位置;以及
响应于确定经扩展的用户界面已滚动超过经扩展的用户界面上的预先确定的位置,在经扩展的用户界面上显示所述多个媒体项的至少第三部分,其中所述多个媒体项的所述至少第三部分在经扩展的用户界面上根据与第三多个媒体项相关联的一个或多个媒体内容提供方而被组织。
127.一种用于操作媒体系统的数字助理的方法,所述方法包括:
在具有存储器和一个或多个处理器的电子设备处:
在显示单元上显示内容;
在显示所述内容时,检测用户输入;以及
响应于检测到所述用户输入:
在所述显示单元上显示虚拟键盘界面;以及
使得可选择示能表示出现在第二电子设备的显示器上,
其中对所述示能表示的选择使得文本输入将由所述电子设备经由所述第二电子设备的键盘接收。
128.根据权利要求127所述的方法,还包括:
经由所述第二电子设备的所述键盘来接收文本输入,所述文本输入表示用户请求;
获取至少部分地满足所述用户请求的结果;以及
在所述显示单元上显示用户界面,所述用户界面包括所述结果的至少一部分。
129.根据权利要求127所述的方法,其中所显示的内容包括具有多个示例性自然语言请求的第二用户界面。
130.根据权利要求129所述的方法,其中所显示的内容包括媒体内容。
131.根据权利要求127所述的方法,其中所显示的内容包括具有来自先前用户请求的结果的第三用户界面,所述第三用户界面占据所述显示单元的至少大部分显示区域。
132.根据权利要求131所述的方法,其中所述虚拟键盘界面覆盖在所述第三用户界面的至少一部分上。
133.根据权利要求127所述的方法,其中经由所述电子设备的遥控器来检测所述用户输入,并且其中所述遥控器和所述第二电子设备是不同的设备。
134.根据权利要求133所述的方法,其中所述用户输入包括所述遥控设备的触敏表面上的预先确定的动作模式。
135.根据权利要求127所述的方法,其中经由所述第二电子设备来检测所述用户输入。
136.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包含用于执行根据权利要求1至135中任一项所述的方法的计算机可执行指令。
137.一种系统,包括:
根据权利要求136所述的非暂态计算机可读存储介质;和
被配置为执行所述计算机可执行指令的处理器。
138.一种设备,所述装置包括用于执行根据权利要求1至135中任一项所述的方法的装置。
139.一种电子设备,包括:
输入单元,所述输入单元被配置为接收用户输入;
耦接至所述输入单元的处理单元,其中所述处理单元被配置为:
在显示单元上显示内容;
经由所述输入单元来检测用户输入;
确定所述用户输入是否对应于第一输入类型;以及
根据确定所述用户输入对应于第一输入类型:
在所述显示单元上显示多个示例性自然语言请求,所述多个示例性自然语言请求与所显示的内容上下文相关,其中接收与所述多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得所述数字助理执行相应动作。
140.根据权利要求139所述的电子设备,还包括耦接至所述处理单元的音频输入单元,其中所述处理单元被进一步配置为:
根据确定所述用户输入不对应于第一输入类型:
确定所述用户输入是否对应于第二输入类型;以及
根据确定所述用户输入对应于第二输入类型:
使用所述音频输入单元来对音频数据进行采样;
确定所述音频数据是否包含用户请求;
根据确定所述音频数据包含用户请求,执行至少部分地满足所述用户请求的任务。
141.根据权利要求139所述的电子设备,其中所述处理单元被进一步配置为:
获取至少部分地满足所述用户请求的结果;以及
在所述显示单元上显示第二用户界面,所述第二用户界面包括所述结果的一部分,其中在显示所述第二用户界面时继续显示所述内容的至少一部分,并且其中所述显示单元上的所述第二用户界面的显示区域小于所述显示单元上的所述内容的所述至少一部分的显示区域。
142.根据权利要求141所述的电子设备,其中所述处理单元被进一步配置为:
在显示所述第二用户界面时,经由所述输入单元来检测第二用户输入;以及
响应于检测到所述第二用户输入,停止显示所述第二用户界面。
143.根据权利要求141所述的电子设备,其中所述处理单元被进一步配置为:
在显示所述第二用户界面时,经由所述输入单元来检测第三用户输入;以及
响应于检测到所述第三用户输入,利用对所述显示单元上的第三用户界面的显示来替换对所述第二用户界面的显示,所述第三用户界面包括所述结果的至少所述一部分,其中所述第三用户界面占据所述显示单元的至少大部分显示区域。
144.根据权利要求143所述的电子设备,其中所述处理单元被进一步配置为:
在显示所述第三用户界面时,经由所述输入单元来检测与所述显示单元上的方向相关联的第四用户输入;以及
响应于检测到所述第四用户输入:
在所述第三用户界面上将所述第三用户界面的焦点从第一项目切换至第二项目,所述第二项目被定位在相对于所述第一项目的所述方向上。
145.根据权利要求143所述的电子设备,其中所述处理单元被进一步配置为:
在显示所述第三用户界面时,经由所述输入单元来检测第五用户输入;以及
响应于检测到所述第五用户输入:
显示搜索字段;以及
在所述显示单元上显示虚拟键盘界面,其中经由所述虚拟键盘界面所接收的输入导致所述搜索字段中的文本输入。
146.根据权利要求143所述的电子设备,其中所述处理单元被进一步配置为:
在显示所述第三用户界面时,经由所述输入单元来检测第六用户输入;以及
响应于检测到所述第六用户输入:
对第二音频数据进行采样,所述第二音频数据包含第二用户请求;
确定所述第二用户请求是否是用于细化所述用户请求的所述结果的请求;以及
根据确定所述第二用户请求是用于细化所述用户请求的所述结果的请求:
经由所述第三用户界面来显示所述结果的子组。
147.一种电子设备,包括:
输入单元,所述输入单元被配置为接收用户输入;
音频输入单元,所述音频输入单元被配置为接收音频数据;
耦接至所述输入单元和所述音频输入单元的处理单元,其中所述处理单元被配置为:
在显示单元上显示内容;
在显示所述内容时,经由所述输入单元来检测用户输入;
响应于检测到所述用户输入,使用所述音频输入单元来对音频数据进行采样,其中经采样的音频数据包括用户话语;
获取对与所述用户话语对应的用户意图的确定;
获取对所述用户意图是否包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定;以及
响应于获取所述用户意图是否包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定,调整所述应用程序的所述状态或所述设置以满足所述用户意图。
148.根据权利要求147所述的电子设备,其中所述处理单元被进一步配置为:
响应于获取所述用户意图不包括用于调整所述电子设备上的应用程序的状态或设置的请求的确定,获取对所述用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定;以及
响应于获取所述用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定:
获取至少部分地满足所述用户意图的结果;以及
在所述显示单元上以文本形式显示所述结果。
149.根据权利要求148所述的电子设备,其中所述处理单元被进一步配置为:
响应于获取所述用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定:
获取至少部分地满足所述用户意图的第二结果;
确定所显示的内容是否包括正在所述电子设备上播放的媒体内容;以及
根据确定所显示的内容包括媒体内容:
确定所述媒体内容是否可被暂停;以及
根据确定所述媒体内容不可被暂停,在所述显示单元上显示具有所述第二结果的一部分的第二用户界面,其中所述第二用户界面在所述显示单元上占据的显示区域小于所述媒体内容在所述显示单元上占据的显示区域。
150.根据权利要求149所述的电子设备,其中所述处理单元被进一步配置为:
根据确定所显示的内容不包括正在所述电子设备上播放的媒体内容,在所述显示单元上显示具有所述第二结果的一部分的第三用户界面,其中所述第三用户界面占据所述显示单元的大部分所述显示区域。
151.根据权利要求149所述的电子设备,其中所述处理单元被进一步配置为:
根据确定所述媒体内容可被暂停:
暂停播放所述电子设备上的所述媒体内容;
在所述显示单元上显示具有所述第二结果的一部分的所述第三用户界面,其中所述第三用户界面占据所述显示单元的大部分所述显示区域。
152.一种电子设备,包括:
输入单元,所述输入单元被配置为接收用户输入;
耦接至所述输入单元的处理单元,其中所述处理单元被配置为:
在显示单元上显示内容;
在显示所述内容时,经由所述输入单元来检测用户输入;以及
响应于检测到所述用户输入:
在所述显示单元上显示虚拟键盘界面;以及
使得可选择示能表示出现在第二电子设备的显示器上,
其中对所述示能表示的选择使得文本输入将由所述电子设备经由所述第二电子设备的键盘接收。
153.根据权利要求152所述的电子设备,其中所述处理单元被进一步配置为:
经由所述第二电子设备的所述键盘来接收文本输入,所述文本输入表示用户请求;
获取至少部分地满足所述用户请求的结果;以及
在所述显示单元上显示用户界面,所述用户界面包括所述结果的至少一部分。
CN201680003291.7A 2015-09-08 2016-08-16 媒体环境中的智能自动化助理 Active CN107003797B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710551469.8A CN107577385B (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN202110968828.6A CN113687747A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN202110968356.4A CN113687746A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562215676P 2015-09-08 2015-09-08
US62/215,676 2015-09-08
US14/963,094 2015-12-08
US14/963,094 US10331312B2 (en) 2015-09-08 2015-12-08 Intelligent automated assistant in a media environment
PCT/US2016/047184 WO2017044257A1 (en) 2015-09-08 2016-08-16 Intelligent automated assistant in a media environment

Related Child Applications (3)

Application Number Title Priority Date Filing Date
CN202110968356.4A Division CN113687746A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN202110968828.6A Division CN113687747A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN201710551469.8A Division CN107577385B (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理

Publications (2)

Publication Number Publication Date
CN107003797A true CN107003797A (zh) 2017-08-01
CN107003797B CN107003797B (zh) 2021-08-13

Family

ID=58189472

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201680003291.7A Active CN107003797B (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN202110968356.4A Pending CN113687746A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN201710551469.8A Active CN107577385B (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN202110968828.6A Pending CN113687747A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN202110968356.4A Pending CN113687746A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN201710551469.8A Active CN107577385B (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理
CN202110968828.6A Pending CN113687747A (zh) 2015-09-08 2016-08-16 媒体环境中的智能自动化助理

Country Status (8)

Country Link
US (5) US10331312B2 (zh)
EP (2) EP3167618A1 (zh)
JP (5) JP2018502345A (zh)
KR (6) KR102385459B1 (zh)
CN (4) CN107003797B (zh)
AU (6) AU2016247040B2 (zh)
DK (4) DK178888B1 (zh)
WO (1) WO2017044257A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107396160A (zh) * 2017-08-24 2017-11-24 韩明 多功能机顶盒控制平台
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN107895578A (zh) * 2017-11-15 2018-04-10 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN108039173A (zh) * 2017-12-20 2018-05-15 深圳安泰创新科技股份有限公司 语音信息输入方法、移动终端、系统以及可读存储介质
CN108920128A (zh) * 2018-07-12 2018-11-30 苏州思必驰信息科技有限公司 演示文稿的操作方法及系统
WO2019024100A1 (zh) * 2017-08-04 2019-02-07 深圳市智晟达科技有限公司 一种数字电视频道锁定方法及系统
CN109600625A (zh) * 2018-12-20 2019-04-09 深圳创维-Rgb电子有限公司 一种节目搜索方法、装置、设备及介质
CN109729141A (zh) * 2017-10-30 2019-05-07 埃森哲环球解决方案有限公司 用于企业的混合bot框架
CN109947993A (zh) * 2019-03-14 2019-06-28 百度国际科技(深圳)有限公司 基于语音识别的情节跳转方法、装置及计算机设备
CN110149810A (zh) * 2017-12-08 2019-08-20 谷歌有限责任公司 限制在网络环境中操纵内容的传输
CN110149402A (zh) * 2018-05-23 2019-08-20 谷歌有限责任公司 在自动化助理的实例之间提供通信信道
CN110201404A (zh) * 2018-02-28 2019-09-06 索尼互动娱乐有限责任公司 在多用户平台上整合评论内容和游戏玩耍内容
CN110431513A (zh) * 2018-01-25 2019-11-08 腾讯科技(深圳)有限公司 媒体内容发送方法、装置及存储介质
CN110741652A (zh) * 2018-05-21 2020-01-31 青岛海信电器股份有限公司 具有智能用户界面的显示设备
CN110942518A (zh) * 2018-09-24 2020-03-31 苹果公司 上下文计算机生成现实(cgr)数字助理
CN111903138A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理装置、信息处理方法、发送装置以及发送方法
CN112119372A (zh) * 2018-06-15 2020-12-22 三星电子株式会社 电子设备及其控制方法
CN112204655A (zh) * 2018-05-22 2021-01-08 三星电子株式会社 用于通过使用应用输出对语音输入的响应的电子装置及其操作方法
CN113365124A (zh) * 2020-03-06 2021-09-07 海信视像科技股份有限公司 一种显示设备及显示方法
CN113452975A (zh) * 2020-03-26 2021-09-28 精工爱普生株式会社 图像显示系统和图像显示系统的控制方法
CN113557566A (zh) * 2019-03-01 2021-10-26 谷歌有限责任公司 动态地适配助理响应
CN113759430A (zh) * 2020-05-29 2021-12-07 同方威视技术股份有限公司 一种非车载式货物/车辆检查系统及其通信方法
CN114822005A (zh) * 2022-06-28 2022-07-29 深圳市矽昊智能科技有限公司 基于人工智能的遥控意图预测方法、装置、设备及介质

Families Citing this family (267)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10956485B2 (en) 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US10630751B2 (en) 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US20180210911A1 (en) * 2017-01-23 2018-07-26 Oliver Wendel Gamble Method and System for Interactive Notation, Text Data Storage and Management on a Mobile Device.
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN114663131A (zh) * 2016-01-25 2022-06-24 索尼公司 通信系统、通信控制方法和计算机可读存储介质
US11176930B1 (en) 2016-03-28 2021-11-16 Amazon Technologies, Inc. Storing audio commands for time-delayed execution
US10235997B2 (en) 2016-05-10 2019-03-19 Google Llc Voice-controlled closed caption display
US20170329397A1 (en) * 2016-05-12 2017-11-16 Rovi Guides, Inc. Systems and methods for navigating a media guidance application using gaze control
EP3455720B1 (en) 2016-05-13 2023-12-27 Google LLC Led design language for visual affordance of voice user interfaces
US10783178B2 (en) 2016-05-17 2020-09-22 Google Llc Generating a personal database entry for a user based on natural language user interface input of the user and generating output based on the entry in response to further natural language user interface input of the user
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
US10915234B2 (en) * 2016-06-01 2021-02-09 Motorola Mobility Llc Responsive, visual presentation of informational briefs on user requested topics
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
AU2017100670C4 (en) 2016-06-12 2019-11-21 Apple Inc. User interfaces for retrieving contextually relevant media content
US10257314B2 (en) * 2016-06-22 2019-04-09 Microsoft Technology Licensing, Llc End-to-end user experiences with a digital assistant
US10271093B1 (en) 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10931999B1 (en) * 2016-06-27 2021-02-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US11093834B2 (en) * 2016-07-06 2021-08-17 Palo Alto Research Center Incorporated Computer-implemented system and method for predicting activity outcome based on user attention
US20180012230A1 (en) * 2016-07-11 2018-01-11 International Business Machines Corporation Emotion detection over social media
US20180039478A1 (en) * 2016-08-02 2018-02-08 Google Inc. Voice interaction services
US9922649B1 (en) * 2016-08-24 2018-03-20 Jpmorgan Chase Bank, N.A. System and method for customer interaction management
US10481861B2 (en) 2016-08-30 2019-11-19 Google Llc Using user input to adapt search results provided for presentation to the user
USD861030S1 (en) * 2016-08-30 2019-09-24 Canon Kabushiki Kaisha Display screen with animated graphical user interface
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
USD860244S1 (en) * 2016-09-08 2019-09-17 Canon Kabushiki Kaisha Display screen with animated graphical user interface
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
AU2017101431B4 (en) * 2016-10-26 2018-05-17 Apple Inc. User interfaces for browsing content from multiple content applications on an electronic device
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10313531B2 (en) * 2016-12-13 2019-06-04 Bullhead Innovations Ltd. Voice controlled room system
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
EP3358462A1 (en) * 2017-02-06 2018-08-08 Tata Consultancy Services Limited Context based adaptive virtual reality (vr) assistant in vr environments
US10389884B2 (en) * 2017-02-10 2019-08-20 David Clark Company Incorporated Browser based digital intercom system
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10609453B2 (en) * 2017-02-21 2020-03-31 The Directv Group, Inc. Customized recommendations of multimedia content streams
USD814485S1 (en) * 2017-03-02 2018-04-03 Hulu, LLC Display screen or portion thereof with animated graphical user interface
USD814486S1 (en) * 2017-03-02 2018-04-03 Hulu, LLC Display screen or portion thereof with animated graphical user interface
KR102304701B1 (ko) * 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法
JP7026449B2 (ja) 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
US11150922B2 (en) * 2017-04-25 2021-10-19 Google Llc Initializing a conversation with an automated agent via selectable graphical element
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
EP4060659B1 (en) * 2017-05-12 2024-04-24 Apple Inc. Low-latency intelligent automated assistant
DK201770432A1 (en) * 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10009666B1 (en) * 2017-05-16 2018-06-26 Google Llc Cross-device handoffs
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
KR101968725B1 (ko) * 2017-05-19 2019-04-12 네이버 주식회사 음성요청에 대응하는 정보 제공을 위한 미디어 선택
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10607606B2 (en) * 2017-06-19 2020-03-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for execution of digital assistant
CN109844708B (zh) * 2017-06-21 2022-06-21 微软技术许可有限责任公司 通过聊天机器人推荐媒体内容
US11601715B2 (en) * 2017-07-06 2023-03-07 DISH Technologies L.L.C. System and method for dynamically adjusting content playback based on viewer emotions
US10847148B2 (en) 2017-07-14 2020-11-24 International Business Machines Corporation Dynamic personalized multi-turn interaction of cognitive models
RU2663706C1 (ru) * 2017-07-20 2018-08-08 Общество С Ограниченной Ответственностью "Центр Разработки И Внедрения Инновационных Технологий" Самонастраивающаяся интерактивная система, способ и считываемый компьютером носитель данных оценки доверия контенту
US10762161B2 (en) * 2017-08-08 2020-09-01 Accenture Global Solutions Limited Intelligent humanoid interactive content recommender
KR102371752B1 (ko) * 2017-08-31 2022-03-07 삼성전자주식회사 가전 기기 및 그의 제어방법
KR20190024190A (ko) * 2017-08-31 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
US11777875B2 (en) * 2017-09-15 2023-10-03 Microsoft Technology Licensing, Llc Capturing and leveraging signals reflecting BOT-to-BOT delegation
JP7299299B2 (ja) * 2017-09-18 2023-06-27 アリス エンタープライジズ エルエルシー リモートコントロール入力デバイスおよびセットトップボックスを介したテレビ上のマルチメディアバレットスクリーン
WO2019059598A1 (en) 2017-09-20 2019-03-28 Samsung Electronics Co., Ltd. METHOD AND APPARATUS FOR MANAGING SERVICE REQUEST IN BLOCK CHAIN NETWORK
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10048973B1 (en) * 2017-09-22 2018-08-14 Harman International Industries, Incorporated Sequential activity intelligent personal assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US10546584B2 (en) * 2017-10-29 2020-01-28 International Business Machines Corporation Creating modular conversations using implicit routing
US10171877B1 (en) * 2017-10-30 2019-01-01 Dish Network L.L.C. System and method for dynamically selecting supplemental content based on viewer emotions
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
CN107945815B (zh) * 2017-11-27 2021-09-07 歌尔科技有限公司 语音信号降噪方法及设备
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10558426B2 (en) * 2017-12-08 2020-02-11 Google Llc Graphical user interface rendering management by voice-driven computing infrastructure
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10540971B2 (en) 2017-12-15 2020-01-21 Blue Jeans Network, Inc. System and methods for in-meeting group assistance using a virtual assistant
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11886823B2 (en) * 2018-02-01 2024-01-30 International Business Machines Corporation Dynamically constructing and configuring a conversational agent learning model
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US11676062B2 (en) * 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制系统
JP6988608B2 (ja) * 2018-03-16 2022-01-05 大日本印刷株式会社 フォトブック作製システム及びサーバ装置
JP6988606B2 (ja) * 2018-03-16 2022-01-05 大日本印刷株式会社 フォトブック作製システム及びサーバ装置
JP6988607B2 (ja) * 2018-03-16 2022-01-05 大日本印刷株式会社 フォトブック作製システム及びサーバ装置
KR20200135324A (ko) * 2018-03-26 2020-12-02 소니 주식회사 정보 처리 장치, 정보 처리 장치 및 프로그램
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108600911B (zh) * 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) * 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10997963B1 (en) * 2018-05-17 2021-05-04 Amazon Technologies, Inc. Voice based interaction based on context-based directives
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11704533B2 (en) * 2018-05-23 2023-07-18 Ford Global Technologies, Llc Always listening and active voice assistant and vehicle operation
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
KR102488285B1 (ko) * 2018-06-01 2023-01-13 애플 인크. 디지털 어시스턴트를 이용한 오디오 정보 제공
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN112204937A (zh) 2018-06-25 2021-01-08 三星电子株式会社 使数字助理能够生成环境感知响应的方法和系统
KR102582332B1 (ko) 2018-06-27 2023-09-25 삼성전자주식회사 전자 장치, 이의 모바일 장치 제어 방법 및 컴퓨터 판독가능 기록 매체
US11132681B2 (en) 2018-07-06 2021-09-28 At&T Intellectual Property I, L.P. Services for entity trust conveyances
CN109325097B (zh) * 2018-07-13 2022-05-27 海信集团有限公司 一种语音引导方法及装置、电子设备、存储介质
US11532007B2 (en) * 2018-08-16 2022-12-20 Frank S. Maggio Systems and methods for implementing user-responsive reactive advertising via voice interactive input/output devices
US10971144B2 (en) * 2018-09-06 2021-04-06 Amazon Technologies, Inc. Communicating context to a device using an imperceptible audio identifier
CN109348353B (zh) * 2018-09-07 2020-04-14 百度在线网络技术(北京)有限公司 智能音箱的服务处理方法、装置和智能音箱
US10802872B2 (en) * 2018-09-12 2020-10-13 At&T Intellectual Property I, L.P. Task delegation and cooperation for automated assistants
US20200090816A1 (en) * 2018-09-17 2020-03-19 Vet24seven Inc. Veterinary Professional Animal Tracking and Support System
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
DE102018216621B3 (de) * 2018-09-27 2020-03-05 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bereitstellen eines interaktiven Feedbacks für Fahrzeuginsassen, eine Steuereinheit, eine Sprachausgabeeinrichtung und ein Fahrzeug
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11481186B2 (en) 2018-10-25 2022-10-25 At&T Intellectual Property I, L.P. Automated assistant context and protocol
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US20200143805A1 (en) * 2018-11-02 2020-05-07 Spotify Ab Media content steering
US10958698B2 (en) 2018-11-16 2021-03-23 Spotify Ab Responding to ambiguous play requests
US10839167B2 (en) * 2018-12-04 2020-11-17 Verizon Patent And Licensing Inc. Systems and methods for dynamically expanding natural language processing agent capacity
US10861446B2 (en) * 2018-12-10 2020-12-08 Amazon Technologies, Inc. Generating input alternatives
US11100693B2 (en) * 2018-12-26 2021-08-24 Wipro Limited Method and system for controlling an object avatar
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020142681A1 (en) * 2019-01-04 2020-07-09 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11003419B2 (en) 2019-03-19 2021-05-11 Spotify Ab Refinement of voice query interpretation
CN111724775B (zh) * 2019-03-22 2023-07-28 华为技术有限公司 一种语音交互方法及电子设备
US11544475B2 (en) 2019-03-22 2023-01-03 Predictika Inc. System and method for providing a model-based intelligent conversational agent
US20200320449A1 (en) * 2019-04-04 2020-10-08 Rylti, LLC Methods and Systems for Certification, Analysis, and Valuation of Music Catalogs
US11960847B2 (en) * 2019-04-04 2024-04-16 Verint Americas Inc. Systems and methods for generating responses for an intelligent virtual
US10930284B2 (en) 2019-04-11 2021-02-23 Advanced New Technologies Co., Ltd. Information processing system, method, device and equipment
JP7287459B2 (ja) * 2019-04-18 2023-06-06 日本電信電話株式会社 発話画像化装置、発話画像化方法及びプログラム
US20210337274A1 (en) * 2019-05-02 2021-10-28 Lg Electronics Inc. Artificial intelligence apparatus and method for providing visual information
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
EP3942399B1 (en) * 2019-05-06 2024-04-10 Google LLC Automated assistant for generating, in response to a request from a user, application input content using application data from other sources
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110442391A (zh) * 2019-06-28 2019-11-12 华为技术有限公司 一种调用服务的方法及装置
US11894129B1 (en) 2019-07-03 2024-02-06 State Farm Mutual Automobile Insurance Company Senior living care coordination platforms
US11494434B2 (en) 2019-07-31 2022-11-08 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
US11410656B2 (en) 2019-07-31 2022-08-09 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
EP4004913A1 (en) * 2019-07-31 2022-06-01 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
CN110619873A (zh) 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
US11367527B1 (en) 2019-08-19 2022-06-21 State Farm Mutual Automobile Insurance Company Senior living engagement and care support platforms
CN110516083B (zh) * 2019-08-30 2022-07-12 京东方科技集团股份有限公司 相册管理方法、存储介质及电子设备
US20220286726A1 (en) * 2019-09-03 2022-09-08 Lg Electronics Inc. Display device and control method therefor
US11061638B2 (en) 2019-09-17 2021-07-13 The Toronto-Dominion Bank Dynamically determining an interface for presenting information to a user
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
WO2021062438A1 (en) * 2019-09-27 2021-04-01 Snap Inc. Content item module arrangements
US11636438B1 (en) 2019-10-18 2023-04-25 Meta Platforms Technologies, Llc Generating smart reminders by assistant systems
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
US11410649B2 (en) * 2019-10-31 2022-08-09 International Business Machines Corporation Voice commands to facilitate in-game communication
US11748415B2 (en) * 2019-11-18 2023-09-05 Lenovo (Singapore) Pte. Ltd. Digital assistant output attribute modification
US11412271B2 (en) 2019-11-25 2022-08-09 International Business Machines Corporation AI response to viewers of live stream video
US11367444B2 (en) 2020-01-07 2022-06-21 Rovi Guides, Inc. Systems and methods for using conjunctions in a voice input to cause a search application to wait for additional inputs
US11604830B2 (en) 2020-01-07 2023-03-14 Rovi Guides, Inc. Systems and methods for performing a search based on selection of on-screen entities and real-world entities
US11290834B2 (en) 2020-03-04 2022-03-29 Apple Inc. Determining head pose based on room reverberation
CN111341315B (zh) * 2020-03-06 2023-08-04 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机设备和存储介质
JP7430091B2 (ja) * 2020-03-25 2024-02-09 株式会社日立製作所 データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111797212A (zh) * 2020-06-10 2020-10-20 宁波真了么知识产权服务有限公司 一种法律服务系统
US11451598B1 (en) * 2020-07-06 2022-09-20 Meta Platforms, Inc. Systems and methods for digital media storage
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11847724B2 (en) * 2020-07-21 2023-12-19 Verint Americas Inc. Near real-time visualizations for intelligent virtual assistant responses
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112004157B (zh) * 2020-08-11 2022-06-21 海信电子科技(武汉)有限公司 一种多轮语音交互方法及显示设备
US11783827B2 (en) * 2020-11-06 2023-10-10 Apple Inc. Determining suggested subsequent user actions during digital assistant interaction
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
KR102408303B1 (ko) * 2020-11-17 2022-06-10 주식회사 카카오 컨텐츠 정보 제공 방법 및 컨텐츠 정보를 제공하는 사용자 단말
US20220232353A1 (en) * 2021-01-19 2022-07-21 Gluroo Imaginations, Inc. Messaging-based logging and alerting system
US11688516B2 (en) 2021-01-19 2023-06-27 State Farm Mutual Automobile Insurance Company Alert systems for senior living engagement and care support platforms
US11762871B2 (en) 2021-01-29 2023-09-19 Walmart Apollo, Llc Methods and apparatus for refining a search
KR102581000B1 (ko) * 2021-01-29 2023-09-21 네이버 주식회사 어시스턴트 서비스 제공 방법 및 시스템
CN112883212A (zh) * 2021-02-25 2021-06-01 北京有竹居网络技术有限公司 多媒体内容展示的控制方法、装置、电子设备和介质
US20220301549A1 (en) * 2021-03-17 2022-09-22 Samsung Electronics Co., Ltd. Electronic device and method for providing voice recognition service
US20220374110A1 (en) * 2021-05-15 2022-11-24 Apple Inc. Contextual action predictions
US11475058B1 (en) * 2021-10-19 2022-10-18 Rovi Guides, Inc. Systems and methods for generating a dynamic timeline of related media content based on tagged content
WO2023110280A1 (en) * 2021-12-16 2023-06-22 Interdigital Ce Patent Holdings, Sas Method and apparatus for fixing a voice query
US11995457B2 (en) 2022-06-03 2024-05-28 Apple Inc. Digital assistant integration with system interface
US20230402033A1 (en) * 2022-06-08 2023-12-14 Comcast Cable Communications, Llc Device Language Configuration Based on Audio Data

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6504990B1 (en) * 1998-11-12 2003-01-07 Max Abecassis Randomly and continuously playing fragments of a video segment
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
US20100312547A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Contextual voice commands
CN103414949A (zh) * 2013-08-09 2013-11-27 冠捷显示科技(厦门)有限公司 一种基于智能电视的多媒体编辑系统与方法
US20140074482A1 (en) * 2012-09-10 2014-03-13 Renesas Electronics Corporation Voice guidance system and electronic equipment
US20140122059A1 (en) * 2012-10-31 2014-05-01 Tivo Inc. Method and system for voice based media search
US20140244263A1 (en) * 2013-02-22 2014-08-28 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands

Family Cites Families (2817)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073695B1 (en) 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US6122482A (en) 1995-02-22 2000-09-19 Global Communications, Inc. Satellite broadcast receiving and distribution system
US5901287A (en) 1996-04-01 1999-05-04 The Sabre Group Inc. Information aggregation and synthesization system
JPH09325796A (ja) 1996-06-06 1997-12-16 Oki Electric Ind Co Ltd 文書朗読装置
US6622148B1 (en) * 1996-10-23 2003-09-16 Viacom International Inc. Interactive video title selection system and method
IL119948A (en) 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US8479122B2 (en) 2004-07-30 2013-07-02 Apple Inc. Gestures for touch sensitive input devices
IL140805A0 (en) 1998-10-02 2002-02-10 Ibm Structure skeletons for efficient voice navigation through generic hierarchical objects
US6163794A (en) 1998-10-23 2000-12-19 General Magic Network system extensible by users
US7447637B1 (en) 1998-12-23 2008-11-04 Eastern Investments, Llc System and method of processing speech within a graphic user interface
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7881936B2 (en) 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
AU5299700A (en) 1999-05-27 2000-12-18 America Online, Inc. Keyboard system with automatic correction
JP2003505778A (ja) 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
US20140098247A1 (en) 1999-06-04 2014-04-10 Ip Holdings, Inc. Home Automation And Smart Home Control Using Mobile Devices And Wireless Enabled Electrical Switches
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
AUPQ138199A0 (en) 1999-07-02 1999-07-29 Telstra R & D Management Pty Ltd A search system
US7925610B2 (en) 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US8271336B2 (en) 1999-11-22 2012-09-18 Accenture Global Services Gmbh Increased visibility during order management in a network-based supply chain environment
US8032409B1 (en) 1999-11-22 2011-10-04 Accenture Global Services Limited Enhanced visibility during installation management in a network-based supply chain environment
US7130807B1 (en) 1999-11-22 2006-10-31 Accenture Llp Technology sharing during demand and supply planning in a network-based supply chain environment
US7337389B1 (en) 1999-12-07 2008-02-26 Microsoft Corporation System and method for annotating an electronic document independently of its content
US6976215B1 (en) * 1999-12-20 2005-12-13 Vulcan Patents Llc Pushbutton user interface with functionality preview
US8271287B1 (en) 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6757362B1 (en) 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8024415B2 (en) 2001-03-16 2011-09-20 Microsoft Corporation Priorities generation and management
US7917366B1 (en) 2000-03-24 2011-03-29 Exaudios Technologies System and method for determining a personal SHG profile by voice analysis
US6765557B1 (en) * 2000-04-10 2004-07-20 Interlink Electronics, Inc. Remote control having touch pad to screen mapping
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
US7277853B1 (en) 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
CA2408625A1 (en) 2001-03-14 2002-09-19 At&T Corp. Method for automated sentence planning in a task classification system
US7209880B1 (en) 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6721411B2 (en) 2001-04-30 2004-04-13 Voyant Technologies, Inc. Audio conference platform with dynamic speech detection threshold
US6975304B1 (en) 2001-06-11 2005-12-13 Handspring, Inc. Interface for processing of an alternate symbol in a computer device
US8831949B1 (en) 2001-06-28 2014-09-09 At&T Intellectual Property I, L.P. Voice recognition for performing authentication and completing transactions in a systems interface to legacy systems
US20050134578A1 (en) 2001-07-13 2005-06-23 Universal Electronics Inc. System and methods for interacting with a control environment
US7987151B2 (en) 2001-08-10 2011-07-26 General Dynamics Advanced Info Systems, Inc. Apparatus and method for problem solving using intelligent agents
US7920682B2 (en) 2001-08-21 2011-04-05 Byrne William J Dynamic interactive voice interface
US11004114B2 (en) 2001-08-21 2021-05-11 Bookit Oy Components, system, platform and methodologies for mediating and provisioning services and product delivery and orchestrating, mediating and authenticating transactions and interactions
US7403938B2 (en) 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US6985865B1 (en) 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7913185B1 (en) 2001-10-25 2011-03-22 Adobe Systems Incorporated Graphical insertion of JavaScript pop-up menus
US20030101054A1 (en) 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
US7260538B2 (en) 2002-01-08 2007-08-21 Promptu Systems Corporation Method and apparatus for voice control of a television control device
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US8374879B2 (en) 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7221287B2 (en) 2002-03-05 2007-05-22 Triangle Software Llc Three-dimensional traffic report
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7869998B1 (en) 2002-04-23 2011-01-11 At&T Intellectual Property Ii, L.P. Voice-enabled dialog system
US8135115B1 (en) 2006-11-22 2012-03-13 Securus Technologies, Inc. System and method for multi-channel recording
US7221937B2 (en) 2002-05-06 2007-05-22 Research In Motion Limited Event reminder method
US8611919B2 (en) 2002-05-23 2013-12-17 Wounder Gmbh., Llc System, method, and computer program product for providing location based services and mobile e-commerce
JP4109902B2 (ja) * 2002-05-27 2008-07-02 キヤノン株式会社 表示装置
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7001979B2 (en) * 2002-06-14 2006-02-21 H.B. Fuller Licensing & Financing Inc. Polyamide and composition and article including same
US8219608B2 (en) 2002-06-20 2012-07-10 Koninklijke Philips Electronics N.V. Scalable architecture for web services
US7079713B2 (en) 2002-06-28 2006-07-18 Microsoft Corporation Method and system for displaying and linking ink objects with recognized text and objects
WO2004003887A2 (en) 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7665024B1 (en) * 2002-07-22 2010-02-16 Verizon Services Corp. Methods and apparatus for controlling a user interface based on the emotional state of a user
US6876727B2 (en) 2002-07-24 2005-04-05 Sbc Properties, Lp Voice over IP method for developing interactive voice response system
US7027842B2 (en) 2002-09-24 2006-04-11 Bellsouth Intellectual Property Corporation Apparatus and method for providing hands-free operation of a device
US9342829B2 (en) 2002-10-01 2016-05-17 Andrew H B Zhou Systems and methods for mobile application, wearable application, transactional messaging, calling, digital multimedia capture and payment transactions
US7822611B2 (en) 2002-11-12 2010-10-26 Bezar David B Speaker intent analysis system
US8972266B2 (en) 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
US8005919B2 (en) 2002-11-18 2011-08-23 Aol Inc. Host-based intelligent results related to a character stream
US8661112B2 (en) 2002-12-20 2014-02-25 Nuance Communications, Inc. Customized interactive voice response menus
GB0230125D0 (en) * 2002-12-24 2003-01-29 Lg Philips Displays Netherland Oxide cathode
US8064753B2 (en) 2003-03-05 2011-11-22 Freeman Alan D Multi-feature media article and method for manufacture of same
US8244712B2 (en) 2003-03-18 2012-08-14 Apple Inc. Localized viewing of file system names
US7623892B2 (en) 2003-04-02 2009-11-24 Palm, Inc. System and method for enabling a person to switch use of computing devices
US7941009B2 (en) 2003-04-08 2011-05-10 The Penn State Research Foundation Real-time computerized annotation of pictures
US8224757B2 (en) 2003-04-15 2012-07-17 Sap Ag Curriculum management system
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7407384B2 (en) 2003-05-29 2008-08-05 Robert Bosch Gmbh System, method and device for language education through a voice portal server
US7496230B2 (en) 2003-06-05 2009-02-24 International Business Machines Corporation System and method for automatic natural language translation of embedded text regions in images during information transfer
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US7539619B1 (en) 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US7917364B2 (en) 2003-09-23 2011-03-29 Hewlett-Packard Development Company, L.P. System and method using multiple automated speech recognition engines
US7386440B2 (en) 2003-10-01 2008-06-10 International Business Machines Corporation Method, system, and apparatus for natural language mixed-initiative dialogue processing
CN101661754B (zh) 2003-10-03 2012-07-11 旭化成株式会社 数据处理单元和数据处理单元控制方法
US20090018918A1 (en) 2004-11-04 2009-01-15 Manyworlds Inc. Influence-based Social Network Advertising
JP3734815B2 (ja) 2003-12-10 2006-01-11 任天堂株式会社 携帯ゲーム装置及びゲームプログラム
US7427024B1 (en) 2003-12-17 2008-09-23 Gazdzinski Mark J Chattel management apparatus and methods
CN1898721B (zh) 2003-12-26 2011-12-07 株式会社建伍 设备控制装置以及设备控制方法
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US8281339B1 (en) 2004-01-12 2012-10-02 United Video Properties, Inc. Customizable flip and browse overlays in an interactive television system
US7433876B2 (en) 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
US8654936B1 (en) 2004-02-24 2014-02-18 At&T Intellectual Property I, L.P. Home control, monitoring and communication system using remote voice commands
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
JP2005293352A (ja) 2004-04-01 2005-10-20 Seiko Epson Corp 制御装置、制御方法及び制御プログラム
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8130929B2 (en) 2004-05-25 2012-03-06 Galileo Processing, Inc. Methods for obtaining complex data in an interactive voice response system
US7873149B2 (en) 2004-06-01 2011-01-18 Verizon Business Global Llc Systems and methods for gathering information
US8224649B2 (en) 2004-06-02 2012-07-17 International Business Machines Corporation Method and apparatus for remote command, control and diagnostics of systems using conversational or audio interface
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8321786B2 (en) 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
US8099395B2 (en) 2004-06-24 2012-01-17 Oracle America, Inc. System level identity object
US20060004192A1 (en) * 2004-07-02 2006-01-05 Fuji Photo Film Co., Ltd. Method of preparing a cellulose acylate, cellulose acylate film, polarizing plate, and liquid crystal display device
US8589156B2 (en) 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7936861B2 (en) 2004-07-23 2011-05-03 At&T Intellectual Property I, L.P. Announcement system and method of use
US8381135B2 (en) 2004-07-30 2013-02-19 Apple Inc. Proximity detector in handheld device
US7728821B2 (en) 2004-08-06 2010-06-01 Touchtable, Inc. Touch detecting interactive display
US7869999B2 (en) 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US8407239B2 (en) 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US7895531B2 (en) 2004-08-16 2011-02-22 Microsoft Corporation Floating command object
US8117542B2 (en) 2004-08-16 2012-02-14 Microsoft Corporation User interface for displaying selectable software functionality controls that are contextually relevant to a selected object
US7912699B1 (en) 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
US20060048055A1 (en) 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
US20060059424A1 (en) 2004-09-15 2006-03-16 Petri Jonah W Real-time data localization
US8107401B2 (en) 2004-09-30 2012-01-31 Avaya Inc. Method and apparatus for providing a virtual assistant to a communication participant
US7936863B2 (en) 2004-09-30 2011-05-03 Avaya Inc. Method and apparatus for providing communication tasks in a workflow
US8744852B1 (en) 2004-10-01 2014-06-03 Apple Inc. Spoken interfaces
US7885844B1 (en) 2004-11-16 2011-02-08 Amazon Technologies, Inc. Automatically generating task recommendations for human task performers
US8498865B1 (en) 2004-11-30 2013-07-30 Vocera Communications, Inc. Speech recognition system and method using group call statistics
GB0426347D0 (en) 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
KR100654445B1 (ko) 2004-12-17 2006-12-06 삼성전자주식회사 멀티미디어 컨텐츠에 대한 썸네일 리스트를 제공하는 장치및 그 방법
US7987244B1 (en) 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
US8478589B2 (en) 2005-01-05 2013-07-02 At&T Intellectual Property Ii, L.P. Library of existing spoken dialog data for use in generating new natural language spoken dialog systems
US8069422B2 (en) 2005-01-10 2011-11-29 Samsung Electronics, Co., Ltd. Contextual task recommendation system and method for determining user's context and suggesting tasks
US7913184B1 (en) * 2005-01-20 2011-03-22 Verizon Laboratories Inc. Intelligent auto-tabbing systems and methods
US7873654B2 (en) 2005-01-24 2011-01-18 The Intellection Group, Inc. Multimodal natural language query system for processing and analyzing voice and proximity-based queries
US8150872B2 (en) 2005-01-24 2012-04-03 The Intellection Group, Inc. Multimodal natural language query system for processing and analyzing voice and proximity-based queries
US8228299B1 (en) 2005-01-27 2012-07-24 Singleton Technology, Llc Transaction automation and archival system using electronic contract and disclosure units
EP1849099B1 (en) 2005-02-03 2014-05-07 Apple Inc. Recommender system for identifying a new set of media items responsive to an input set of media items and knowledge base metrics
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8577683B2 (en) 2008-08-15 2013-11-05 Thomas Majchrowski & Associates, Inc. Multipurpose media players
WO2006090732A1 (ja) 2005-02-24 2006-08-31 Fuji Xerox Co., Ltd. 単語翻訳装置、翻訳方法および翻訳プログラム
US7933399B2 (en) 2005-03-22 2011-04-26 At&T Intellectual Property I, L.P. System and method for utilizing virtual agents in an interactive voice response application
US7925525B2 (en) 2005-03-25 2011-04-12 Microsoft Corporation Smart reminders
US8346757B1 (en) 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US9471566B1 (en) 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US8260617B2 (en) 2005-04-18 2012-09-04 Nuance Communications, Inc. Automating input when testing voice-enabled applications
US7996589B2 (en) 2005-04-22 2011-08-09 Microsoft Corporation Auto-suggest lists and handwritten input
US7684990B2 (en) 2005-04-29 2010-03-23 Nuance Communications, Inc. Method and apparatus for multiple value confirmation and correction in spoken dialog systems
US8046374B1 (en) 2005-05-06 2011-10-25 Symantec Corporation Automatic training of a database intrusion detection system
US7886233B2 (en) 2005-05-23 2011-02-08 Nokia Corporation Electronic text input involving word completion functionality for predicting word candidates for partial word inputs
US8041570B2 (en) 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US8477323B2 (en) 2005-06-22 2013-07-02 Xerox Corporation System and method for conveying rendering intents
US8024195B2 (en) 2005-06-27 2011-09-20 Sensory, Inc. Systems and methods of performing speech recognition using historical information
US8396715B2 (en) 2005-06-28 2013-03-12 Microsoft Corporation Confidence threshold tuning
GB0513225D0 (en) 2005-06-29 2005-08-03 Ibm Method and system for building and contracting a linguistic dictionary
US7873523B2 (en) 2005-06-30 2011-01-18 Microsoft Corporation Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US7885390B2 (en) 2005-07-01 2011-02-08 Soleo Communications, Inc. System and method for multi-modal personal communication services
US7881283B2 (en) 2005-07-13 2011-02-01 Research In Motion Limited Customizability of event notification on telephony-enabled devices
US9094636B1 (en) 2005-07-14 2015-07-28 Zaxcom, Inc. Systems and methods for remotely controlling local audio devices in a virtual wireless multitrack recording system
US7912720B1 (en) 2005-07-20 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for building emotional machines
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8694322B2 (en) 2005-08-05 2014-04-08 Microsoft Corporation Selective confirmation for execution of a voice activated user interface
US7844037B2 (en) 2005-08-08 2010-11-30 Palm, Inc. Method and device for enabling message responses to incoming phone calls
JP5394738B2 (ja) 2005-08-09 2014-01-22 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
EP1915677A2 (en) 2005-08-11 2008-04-30 Philips Intellectual Property & Standards GmbH Method of driving an interactive system and user interface system
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8265939B2 (en) 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US8635073B2 (en) 2005-09-14 2014-01-21 At&T Intellectual Property I, L.P. Wireless multimodal voice browser for wireline-based IPTV services
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US7505784B2 (en) 2005-09-26 2009-03-17 Barbera Melvin A Safety features for portable electronic device
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US8270933B2 (en) 2005-09-26 2012-09-18 Zoomsafer, Inc. Safety features for portable electronic device
US9009046B1 (en) 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
JP4908094B2 (ja) 2005-09-30 2012-04-04 株式会社リコー 情報処理システム、情報処理方法及び情報処理プログラム
US7930168B2 (en) 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
US8401163B1 (en) 2005-10-18 2013-03-19 Callwave Communications, Llc Methods and systems for call processing and for providing call progress status over a network
US20070094024A1 (en) 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
US7395959B2 (en) 2005-10-27 2008-07-08 International Business Machines Corporation Hands free contact database information entry at a communication device
KR100755678B1 (ko) 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
US9026915B1 (en) 2005-10-31 2015-05-05 At&T Intellectual Property Ii, L.P. System and method for creating a presentation using natural language
US7936339B2 (en) 2005-11-01 2011-05-03 Leapfrog Enterprises, Inc. Method and system for invoking computer functionality by interaction with dynamically generated interface regions of a writing surface
US8042048B2 (en) 2005-11-17 2011-10-18 Att Knowledge Ventures, L.P. System and method for home automation
US8055707B2 (en) 2005-11-30 2011-11-08 Alcatel Lucent Calendar interface for digital communications
US9330668B2 (en) 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup
US8234494B1 (en) 2005-12-21 2012-07-31 At&T Intellectual Property Ii, L.P. Speaker-verification digital signatures
US7996228B2 (en) 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
US7685144B1 (en) 2005-12-29 2010-03-23 Google Inc. Dynamically autocompleting a data entry
US7890330B2 (en) 2005-12-30 2011-02-15 Alpine Electronics Inc. Voice recording tool for creating database used in text to speech synthesis system
KR101265263B1 (ko) 2006-01-02 2013-05-16 삼성전자주식회사 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
US8006180B2 (en) 2006-01-10 2011-08-23 Mircrosoft Corporation Spell checking in network browser based applications
US9600568B2 (en) 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
US9275129B2 (en) 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US7929805B2 (en) 2006-01-31 2011-04-19 The Penn State Research Foundation Image-based CAPTCHA generation system
US8352183B2 (en) 2006-02-04 2013-01-08 Microsoft Corporation Maps for social networking and geo blogs
US9101279B2 (en) 2006-02-15 2015-08-11 Virtual Video Reality By Ritchey, Llc Mobile user borne brain activity data and surrounding environment data correlation system
US7983910B2 (en) 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US9250703B2 (en) 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
US8532678B2 (en) 2006-03-08 2013-09-10 Tomtom International B.V. Portable GPS navigation device
JP4734155B2 (ja) 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US8018431B1 (en) 2006-03-29 2011-09-13 Amazon Technologies, Inc. Page turner for handheld electronic book reader device
US7930183B2 (en) 2006-03-29 2011-04-19 Microsoft Corporation Automatic identification of dialog timing problems for an interactive speech dialog application using speech log data indicative of cases of barge-in and timing problems
US8244545B2 (en) 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
US7283072B1 (en) 2006-03-30 2007-10-16 International Business Machines Corporation Methods of creating a dictionary for data compression
US7996769B2 (en) 2006-04-05 2011-08-09 Research In Motion Limited Handheld electronic device and method for performing spell checking during text entry and for providing a spell-check learning feature
US8046363B2 (en) 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
KR100744380B1 (ko) 2006-04-17 2007-07-30 삼성전자주식회사 외부 디스플레이 장치로 영상을 출력할 수 있는 기능을구비한 이동 단말기에서의 디스플레이 제어 장치 및 방법
US8077153B2 (en) 2006-04-19 2011-12-13 Microsoft Corporation Precise selection techniques for multi-touch screens
US8103947B2 (en) 2006-04-20 2012-01-24 Timecove Corporation Collaborative system and method for generating biographical accounts
US8214213B1 (en) 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7523108B2 (en) 2006-06-07 2009-04-21 Platformation, Inc. Methods and apparatus for searching with awareness of geography and languages
US20070288898A1 (en) 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US9219767B2 (en) 2006-06-22 2015-12-22 Linkedin Corporation Recording and indicating preferences
JP5218052B2 (ja) 2006-06-26 2013-06-26 日本電気株式会社 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
US8050500B1 (en) 2006-07-06 2011-11-01 Senapps, LLC Recognition method and system
US8279171B2 (en) 2006-07-06 2012-10-02 Panasonic Corporation Voice input device
US20080022208A1 (en) 2006-07-18 2008-01-24 Creative Technology Ltd System and method for personalizing the user interface of audio rendering devices
US7646296B2 (en) 2006-08-11 2010-01-12 Honda Motor Co., Ltd. Method and system for receiving and sending navigational data via a wireless messaging service on a navigation system
US8134481B2 (en) 2006-08-11 2012-03-13 Honda Motor Co., Ltd. Method and system for receiving and sending navigational data via a wireless messaging service on a navigation system
US9071701B2 (en) 2006-08-31 2015-06-30 Qualcomm Incorporated Using wireless characteristic to trigger generation of position fix
US8170790B2 (en) 2006-09-05 2012-05-01 Garmin Switzerland Gmbh Apparatus for switching navigation device mode
US8564544B2 (en) * 2006-09-06 2013-10-22 Apple Inc. Touch screen device, method, and graphical user interface for customizing display of content category icons
US7996792B2 (en) 2006-09-06 2011-08-09 Apple Inc. Voicemail manager for portable multifunction device
US8589869B2 (en) 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
TWI322610B (en) 2006-09-08 2010-03-21 Htc Corp Handheld electronic device
US8014308B2 (en) 2006-09-28 2011-09-06 Microsoft Corporation Hardware architecture for cloud services
US7528713B2 (en) 2006-09-28 2009-05-05 Ektimisi Semiotics Holdings, Llc Apparatus and method for providing a task reminder based on travel history
US7649454B2 (en) 2006-09-28 2010-01-19 Ektimisi Semiotics Holdings, Llc System and method for providing a task reminder based on historical travel information
US8214208B2 (en) 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US7930197B2 (en) 2006-09-28 2011-04-19 Microsoft Corporation Personal data mining
US7945470B1 (en) 2006-09-29 2011-05-17 Amazon Technologies, Inc. Facilitating performance of submitted tasks by mobile task performers
JP2008092269A (ja) 2006-10-02 2008-04-17 Matsushita Electric Ind Co Ltd ハンズフリー通話装置
JP2008096541A (ja) 2006-10-06 2008-04-24 Canon Inc 音声処理装置およびその制御方法
US8434133B2 (en) 2006-10-06 2013-04-30 Fmr Llc Single-party, secure multi-channel authentication
US7937075B2 (en) 2006-10-06 2011-05-03 At&T Intellectual Property I, L.P. Mode changing of a mobile communications device and vehicle settings when the mobile communications device is in proximity to a vehicle
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8255216B2 (en) 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
WO2008061903A1 (en) 2006-11-22 2008-05-29 Agfa Healthcate Inc. Method and system for client / server distributed image processing
US8055502B2 (en) 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
GB0623915D0 (en) 2006-11-30 2007-01-10 Ibm Phonetic decoding and concatentive speech synthesis
US8731610B2 (en) 2006-12-13 2014-05-20 Samsung Electronics Co., Ltd. Method for adaptive user interface in mobile devices
US8010367B2 (en) 2006-12-22 2011-08-30 Nuance Communications, Inc. Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines
US7865817B2 (en) 2006-12-29 2011-01-04 Amazon Technologies, Inc. Invariant referencing in digital works
US8019271B1 (en) 2006-12-29 2011-09-13 Nextel Communications, Inc. Methods and systems for presenting information on mobile devices
US7889185B2 (en) 2007-01-05 2011-02-15 Apple Inc. Method, system, and graphical user interface for activating hyperlinks
US7889184B2 (en) 2007-01-05 2011-02-15 Apple Inc. Method, system and graphical user interface for displaying hyperlink information
WO2008086216A2 (en) 2007-01-05 2008-07-17 Johnson Controls Technology Company System and method for customized audio prompting
US8060824B2 (en) 2007-01-05 2011-11-15 Starz Entertainment Llc User interface for a multimedia service
US8391844B2 (en) 2007-01-07 2013-03-05 Apple Inc. Voicemail systems and methods
EP2119205A2 (en) 2007-01-09 2009-11-18 Spinvox Limited Detection of unanswered call in order to give calling party the option to alternatively dictate a text message for delivery to the called party
US8056070B2 (en) 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US7912724B1 (en) 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
US9524355B2 (en) 2007-01-22 2016-12-20 Mozy, Inc. Methods for delivering task-related digital content based on task-oriented user activity
JP2008185805A (ja) 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
US20110047605A1 (en) 2007-02-06 2011-02-24 Vidoop, Llc System And Method For Authenticating A User To A Computer System
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8078978B2 (en) 2007-10-19 2011-12-13 Google Inc. Method and system for predicting text
US7912828B2 (en) 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
EP2135231A4 (en) 2007-03-01 2014-10-15 Adapx Inc SYSTEM AND METHOD FOR DYNAMIC LEARNING
TWI321313B (en) 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20110060587A1 (en) 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054894A1 (en) 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8219406B2 (en) 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
CN101636784B (zh) 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
US8702433B2 (en) 2007-03-28 2014-04-22 Breakthrough Performancetech, Llc Systems and methods for computerized interactive training
US8370145B2 (en) 2007-03-29 2013-02-05 Panasonic Corporation Device for extracting keywords in a conversation
US8775931B2 (en) 2007-03-30 2014-07-08 Blackberry Limited Spell check function that applies a preference to a spell check algorithm based upon extensive user selection of spell check results generated by the algorithm, and associated handheld electronic device
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN105117376B (zh) 2007-04-10 2018-07-10 谷歌有限责任公司 多模式输入法编辑器
US8695074B2 (en) 2007-04-26 2014-04-08 Microsoft Corporation Pre-authenticated calling for voice applications
JP2010531478A (ja) 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー 感情に訴える助言システム及び方法
US7983915B2 (en) 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US8005664B2 (en) 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
US7912289B2 (en) 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US8032383B1 (en) 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
US7899666B2 (en) 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US8886521B2 (en) 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
US8099418B2 (en) 2007-05-28 2012-01-17 Panasonic Corporation Information search support method and information search support device
US8055708B2 (en) 2007-06-01 2011-11-08 Microsoft Corporation Multimedia spaces
US8204238B2 (en) 2007-06-08 2012-06-19 Sensory, Inc Systems and methods of sonic communication
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US7987176B2 (en) 2007-06-25 2011-07-26 Sap Ag Mixed initiative semantic search
US8577417B2 (en) * 2007-06-26 2013-11-05 Sony Corporation Methods, devices, and computer program products for limiting search scope based on navigation of a menu screen
US8090621B1 (en) 2007-06-27 2012-01-03 Amazon Technologies, Inc. Method and system for associating feedback with recommendation rules
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
US8050919B2 (en) 2007-06-29 2011-11-01 Microsoft Corporation Speaker recognition via voice sample based on multiple nearest neighbor classifiers
KR100930802B1 (ko) 2007-06-29 2009-12-09 엔에이치엔(주) 이미지를 이용한 브라우저 제어 방법 및 시스템
AU2008201643B1 (en) 2007-07-24 2008-08-28 Rambrandt Messaging Technologies, LP Messaging service in a wireless communications network
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US7983919B2 (en) 2007-08-09 2011-07-19 At&T Intellectual Property Ii, L.P. System and method for performing speech synthesis with a cache of phoneme sequences
US7983478B2 (en) 2007-08-10 2011-07-19 Microsoft Corporation Hidden markov model based handwriting/calligraphy generation
JP2009048245A (ja) 2007-08-14 2009-03-05 Konami Digital Entertainment:Kk 入力受付装置、領域制御方法、および、プログラム
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
WO2009029910A2 (en) 2007-08-31 2009-03-05 Proxpro, Inc. Situation-aware personal information management for a mobile device
US8661340B2 (en) 2007-09-13 2014-02-25 Apple Inc. Input methods for device having multi-language environment
US8042053B2 (en) 2007-09-24 2011-10-18 Microsoft Corporation Method for making digital documents browseable
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8036901B2 (en) 2007-10-05 2011-10-11 Sensory, Incorporated Systems and methods of performing speech recognition using sensory inputs of human position
US9532164B2 (en) 2007-10-12 2016-12-27 Empire Ip Llc Mashing mapping content displayed on mobile devices
CN101414226A (zh) * 2007-10-15 2009-04-22 南京国触科技有限公司 触划式语音输入方法及触划式即时语音输入装置
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8126863B2 (en) 2007-10-25 2012-02-28 Apple Inc. Search control combining classification and text-based searching techniques
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US7840447B2 (en) 2007-10-30 2010-11-23 Leonard Kleinrock Pricing and auctioning of bundled items among multiple sellers and buyers
US9063979B2 (en) 2007-11-01 2015-06-23 Ebay, Inc. Analyzing event streams of user sessions
US8010614B1 (en) 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
US7983997B2 (en) 2007-11-02 2011-07-19 Florida Institute For Human And Machine Cognition, Inc. Interactive complex task teaching system that allows for natural language input, recognizes a user's intent, and automatically performs tasks in document object model (DOM) nodes
US8055296B1 (en) 2007-11-06 2011-11-08 Sprint Communications Company L.P. Head-up display communication system and method
US8065152B2 (en) 2007-11-08 2011-11-22 Demand Media, Inc. Platform for enabling voice commands to resolve phoneme based domain name registrations
DE102008051756A1 (de) 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8112280B2 (en) 2007-11-19 2012-02-07 Sensory, Inc. Systems and methods of performing speech recognition with barge-in for use in a bluetooth system
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US20110246471A1 (en) 2010-04-06 2011-10-06 Selim Shlomo Rakib Retrieving video annotation metadata using a p2p network
US20150046537A1 (en) 2007-11-21 2015-02-12 Vdoqwest, Inc., A Delaware Corporation Retrieving video annotation metadata using a p2p network and copyright free indexes
US8190596B2 (en) 2007-11-28 2012-05-29 International Business Machines Corporation Method for assembly of personalized enterprise information integrators over conjunctive queries
US8543622B2 (en) 2007-12-07 2013-09-24 Patrick Giblin Method and system for meta-tagging media content and distribution
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5327054B2 (ja) 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
KR101300839B1 (ko) 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8019604B2 (en) 2007-12-21 2011-09-13 Motorola Mobility, Inc. Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US8583416B2 (en) 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US7870133B2 (en) 2008-01-14 2011-01-11 Infosys Technologies Ltd. Method for semantic based storage and retrieval of information
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
ITPO20080002A1 (it) 2008-01-22 2009-07-23 Riccardo Vieri Sistema e metodo per la generazione di pubblicita' contestuale durante l'invio di sms, relativo dispositivo e interfaccia.
US20120284015A1 (en) 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US20090210391A1 (en) 2008-02-14 2009-08-20 Hall Stephen G Method and system for automated search for, and retrieval and distribution of, information
US8595119B2 (en) 2008-02-15 2013-11-26 New York Mercantile Exchange, Inc. Symbolic language for trade matching
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8706474B2 (en) 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8015144B2 (en) 2008-02-26 2011-09-06 Microsoft Corporation Learning transportation modes from raw GPS data
US8068604B2 (en) 2008-12-19 2011-11-29 Computer Product Introductions Corporation Method and system for event notifications
US9049255B2 (en) 2008-02-29 2015-06-02 Blackberry Limited Visual event notification on a handheld communications device
US8205157B2 (en) 2008-03-04 2012-06-19 Apple Inc. Methods and graphical user interfaces for conducting searches on a portable multifunction device
US8201109B2 (en) 2008-03-04 2012-06-12 Apple Inc. Methods and graphical user interfaces for editing on a portable multifunction device
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8380512B2 (en) * 2008-03-10 2013-02-19 Yahoo! Inc. Navigation using a search engine and phonetic voice recognition
US20090234655A1 (en) 2008-03-13 2009-09-17 Jason Kwon Mobile electronic device with active speech recognition
US20090235176A1 (en) 2008-03-14 2009-09-17 Madhavi Jayanthi Social interaction system for facilitating display of current location of friends and location of businesses of interest
US7958136B1 (en) 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
EP2274895A1 (en) 2008-03-27 2011-01-19 Markport Limited Processing of messaging service attributes in communication systems
US7472061B1 (en) 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8140368B2 (en) 2008-04-07 2012-03-20 International Business Machines Corporation Method and system for routing a task to an employee based on physical and emotional state
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
WO2009125710A1 (ja) 2008-04-08 2009-10-15 株式会社エヌ・ティ・ティ・ドコモ メディア処理サーバ装置およびメディア処理方法
US8311188B2 (en) 2008-04-08 2012-11-13 Cisco Technology, Inc. User interface with voice message summary
US8285737B1 (en) 2008-04-10 2012-10-09 Google Inc. Selecting content for publication
JP4656177B2 (ja) 2008-04-14 2011-03-23 トヨタ自動車株式会社 ナビゲーション装置、操作部表示方法
US7889101B2 (en) 2008-04-14 2011-02-15 Alpine Electronics, Inc Method and apparatus for generating location based reminder message for navigation system
US8433778B1 (en) 2008-04-22 2013-04-30 Marvell International Ltd Device configuration
US8972432B2 (en) 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8194827B2 (en) 2008-04-29 2012-06-05 International Business Machines Corporation Secure voice transaction method and system
US8254829B1 (en) 2008-05-09 2012-08-28 Sprint Communications Company L.P. Network media service with track delivery adapted to a user cadence
US8219115B1 (en) 2008-05-12 2012-07-10 Google Inc. Location based reminders
US8516562B2 (en) 2008-05-13 2013-08-20 Veritrix, Inc. Multi-channel multi-factor authentication
US20130275899A1 (en) 2010-01-18 2013-10-17 Apple Inc. Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9965035B2 (en) 2008-05-13 2018-05-08 Apple Inc. Device, method, and graphical user interface for synchronizing two or more displays
US10203861B2 (en) 2008-05-21 2019-02-12 Please Don't Go, LLC. Messaging window overlay for a browser
US20130100268A1 (en) 2008-05-27 2013-04-25 University Health Network Emergency detection and response system and method
US8082498B2 (en) 2008-05-27 2011-12-20 Appfolio, Inc. Systems and methods for automatic spell checking of dynamically generated web pages
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US9626363B2 (en) * 2008-06-08 2017-04-18 Apple Inc. System and method for placeshifting media playback
DE602008005428D1 (de) 2008-06-11 2011-04-21 Exb Asset Man Gmbh Vorrichtung und Verfahren mit verbessertem Texteingabemechanismus
US8140330B2 (en) 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US8219555B1 (en) 2008-06-13 2012-07-10 Ustringer LLC Method and apparatus for distributing content
US8195460B2 (en) 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
DE102008028885A1 (de) 2008-06-18 2009-12-31 Epcos Ag Verfahren zur Abstimmung einer Resonanzfrequenz eines piezoelektrischen Bauelementes
US9510044B1 (en) 2008-06-18 2016-11-29 Gracenote, Inc. TV content segmentation, categorization and identification and time-aligned applications
GB2462800A (en) 2008-06-20 2010-02-24 New Voice Media Ltd Monitoring a conversation between an agent and a customer and performing real time analytics on the audio signal for determining future handling of the call
US8300801B2 (en) 2008-06-26 2012-10-30 Centurylink Intellectual Property Llc System and method for telephone based noise cancellation
US20110106736A1 (en) 2008-06-26 2011-05-05 Intuitive User Interfaces Ltd. System and method for intuitive user interaction
US8423288B2 (en) 2009-11-30 2013-04-16 Apple Inc. Dynamic alerts for calendar events
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20110112837A1 (en) 2008-07-03 2011-05-12 Mobiter Dicta Oy Method and device for converting speech
US20100005085A1 (en) 2008-07-03 2010-01-07 Oracle International Corporation Creating relationship maps from enterprise application system data
KR20100006495A (ko) * 2008-07-09 2010-01-19 최종덕 음성인식을 이용한 웹페이지 정보 제공 방법 및 장치
US9716774B2 (en) * 2008-07-10 2017-07-25 Apple Inc. System and method for syncing a user interface on a server device to a user interface on a client device
US8166019B1 (en) 2008-07-21 2012-04-24 Sprint Communications Company L.P. Providing suggested actions in response to textual communications
JP5791861B2 (ja) 2008-07-25 2015-10-07 シャープ株式会社 情報処理装置および情報処理方法
US8001125B1 (en) 2008-07-30 2011-08-16 Intuit Inc. Method and apparatus for defining relationships between tags
WO2010013369A1 (ja) 2008-07-30 2010-02-04 三菱電機株式会社 音声認識装置
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8386485B2 (en) 2008-07-31 2013-02-26 George Mason Intellectual Properties, Inc. Case-based framework for collaborative semantic search
US20110131038A1 (en) 2008-08-11 2011-06-02 Satoshi Oyaizu Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US8221125B2 (en) 2008-08-14 2012-07-17 World View Time Inc. Electronic presentation of world time zones
US8326630B2 (en) 2008-08-18 2012-12-04 Microsoft Corporation Context based online advertising
US8805110B2 (en) 2008-08-19 2014-08-12 Digimarc Corporation Methods and systems for content processing
JP5459214B2 (ja) 2008-08-20 2014-04-02 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US20110144901A1 (en) 2008-08-29 2011-06-16 Zhanyong Wang Method for Playing Voice Guidance and Navigation Device Using the Same
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8090616B2 (en) 2008-09-08 2012-01-03 Proctor Jr James Arthur Visual identification information used as confirmation in a wireless communication
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US20100063926A1 (en) 2008-09-09 2010-03-11 Damon Charles Hougland Payment application framework
US8259082B2 (en) 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
US8929877B2 (en) 2008-09-12 2015-01-06 Digimarc Corporation Methods and systems for content processing
JP5213605B2 (ja) 2008-09-17 2013-06-19 シャープ株式会社 通信装置、情報提示装置、通信方法、プログラム、および記録媒体
US8775154B2 (en) 2008-09-18 2014-07-08 Xerox Corporation Query translation through dictionary adaptation
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
WO2010037146A2 (en) 2008-09-29 2010-04-01 Fisher-Rosemount Systems, Inc. Efficient design and configuration of elements in a process control system
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8904345B2 (en) 2008-09-30 2014-12-02 Ebay Inc. System and method for orchestration of customization for a user experience
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8539342B1 (en) 2008-10-16 2013-09-17 Adobe Systems Incorporated Read-order inference via content sorting
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8644488B2 (en) 2008-10-27 2014-02-04 Nuance Communications, Inc. System and method for automatically generating adaptive interaction logs from customer interaction text
EP2353108A4 (en) 2008-11-04 2018-01-03 Strossle International AB Method and system for analyzing text
US8170966B1 (en) 2008-11-04 2012-05-01 Bitdefender IPR Management Ltd. Dynamic streaming message clustering for rapid spam-wave detection
US8122094B1 (en) 2008-11-05 2012-02-21 Kotab Dominic M Methods for performing an action relating to the scheduling of an event by performing one or more actions based on a response to a message
US20100205628A1 (en) 2009-02-12 2010-08-12 Davis Bruce L Media processing methods and arrangements
US8122353B2 (en) 2008-11-07 2012-02-21 Yahoo! Inc. Composing a message in an online textbox using a non-latin script
US9009053B2 (en) 2008-11-10 2015-04-14 Google Inc. Multisensory speech detection
US9202171B2 (en) 2008-11-11 2015-12-01 Digideal Corporation Virtual game assistant based on artificial intelligence
US8832319B2 (en) 2008-11-18 2014-09-09 Amazon Technologies, Inc. Synchronization of digital content
US8108214B2 (en) 2008-11-19 2012-01-31 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems
US8296124B1 (en) 2008-11-21 2012-10-23 Google Inc. Method and apparatus for detecting incorrectly translated text in a document
US8140328B2 (en) 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
US8489599B2 (en) 2008-12-02 2013-07-16 Palo Alto Research Center Incorporated Context and activity-driven content delivery and interaction
US8054180B1 (en) 2008-12-08 2011-11-08 Amazon Technologies, Inc. Location aware reminders
US9041660B2 (en) * 2008-12-09 2015-05-26 Microsoft Technology Licensing, Llc Soft keyboard control
EP2196989B1 (en) 2008-12-10 2012-06-27 Nuance Communications, Inc. Grammar and template-based speech recognition of spoken utterances
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8121842B2 (en) 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
CN102246136B (zh) 2008-12-16 2015-05-20 三菱电机株式会社 导航装置
US8918321B2 (en) 2012-04-13 2014-12-23 At&T Intellectual Property I, L.P. System and method for enhancing speech recognition accuracy
US8332205B2 (en) 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US10088976B2 (en) 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
JP5409656B2 (ja) 2009-01-22 2014-02-05 パナソニック株式会社 補聴装置
US8213911B2 (en) 2009-01-28 2012-07-03 Virtual Hold Technology Llc Mobile communication device for establishing automated call back
US8200489B1 (en) 2009-01-29 2012-06-12 The United States Of America As Represented By The Secretary Of The Navy Multi-resolution hidden markov model using class specific features
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US9070282B2 (en) 2009-01-30 2015-06-30 Altorr Corp. Smartphone control of electrical devices
US9183881B2 (en) 2009-02-02 2015-11-10 Porto Technology, Llc System and method for semantic trick play
US20110307491A1 (en) 2009-02-04 2011-12-15 Fisk Charles M Digital photo organizing and tagging method
US8254972B2 (en) 2009-02-13 2012-08-28 Sony Mobile Communications Ab Device and method for handling messages
US8428758B2 (en) 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
WO2010096376A2 (en) * 2009-02-18 2010-08-26 Shell Oil Company Skid beam assembly for loading and transporting large structures
CN102369724B (zh) 2009-02-18 2016-05-04 谷歌公司 自动捕获信息,例如使用文档感知设备捕获信息
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
WO2010099352A1 (en) 2009-02-25 2010-09-02 Miri Systems, Llc Payment system and method
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US9171284B2 (en) 2009-03-02 2015-10-27 Microsoft Technology Licensing, Llc Techniques to restore communications sessions for applications having conversation and meeting environments
CN102341843B (zh) 2009-03-03 2014-01-29 三菱电机株式会社 语音识别装置
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8165321B2 (en) 2009-03-10 2012-04-24 Apple Inc. Intelligent clip mixing
CN102349087B (zh) 2009-03-12 2015-05-06 谷歌公司 自动提供与捕获的信息例如实时捕获的信息关联的内容
US8589374B2 (en) 2009-03-16 2013-11-19 Apple Inc. Multifunction device with integrated search and application selection
US9026426B2 (en) 2009-03-19 2015-05-05 Google Inc. Input method editor
US8924156B2 (en) 2009-03-26 2014-12-30 Nokia Corporation Method, apparatus, computer program and user interface
KR101078864B1 (ko) 2009-03-26 2011-11-02 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
GB201016385D0 (en) 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US8798255B2 (en) 2009-03-31 2014-08-05 Nice Systems Ltd Methods and apparatus for deep interaction analysis
US8166032B2 (en) 2009-04-09 2012-04-24 MarketChorus, Inc. System and method for sentiment-based text classification and relevancy ranking
US8275736B2 (en) 2009-04-17 2012-09-25 International Business Machines Corporation Increasing knowledge sharing success rates using real time match making
US20110065456A1 (en) 2009-04-20 2011-03-17 Brennan Joseph P Cellular device deactivation system
US8660970B1 (en) 2009-04-23 2014-02-25 The Boeing Company Passive learning and autonomously interactive system for leveraging user knowledge in networked environments
US8660924B2 (en) 2009-04-30 2014-02-25 Navera, Inc. Configurable interactive assistant
JP5911796B2 (ja) 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
KR101032792B1 (ko) 2009-04-30 2011-05-06 주식회사 코오롱 에어백용 폴리에스테르 원단 및 그의 제조 방법
WO2010129939A1 (en) 2009-05-08 2010-11-11 Obdedge, Llc Systems, methods, and devices for policy-based control and monitoring of use of mobile devices by vehicle operators
WO2010131256A1 (en) 2009-05-13 2010-11-18 Rajesh Mehra A keyboard for linguistic scripts
US8498857B2 (en) 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
US8583511B2 (en) 2009-05-19 2013-11-12 Bradley Marshall Hendrickson Systems and methods for storing customer purchasing and preference data and enabling a customer to pre-register orders and events
US20150294377A1 (en) 2009-05-30 2015-10-15 Edmond K. Chow Trust network effect
US20120310652A1 (en) 2009-06-01 2012-12-06 O'sullivan Daniel Adaptive Human Computer Interface (AAHCI)
US8095119B2 (en) 2009-06-02 2012-01-10 Microsoft Corporation In-call contact information display
US8560313B2 (en) 2010-05-13 2013-10-15 General Motors Llc Transient noise rejection for speech recognition
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120327009A1 (en) 2009-06-07 2012-12-27 Apple Inc. Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8484027B1 (en) 2009-06-12 2013-07-09 Skyreader Media Inc. Method for live remote narration of a digital book
US20130219333A1 (en) 2009-06-12 2013-08-22 Adobe Systems Incorporated Extensible Framework for Facilitating Interaction with Devices
US8290777B1 (en) 2009-06-12 2012-10-16 Amazon Technologies, Inc. Synchronizing the playing and displaying of digital content
US11012732B2 (en) 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110002487A1 (en) 2009-07-06 2011-01-06 Apple Inc. Audio Channel Assignment for Audio Output in a Movable Device
US8700399B2 (en) 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US8943423B2 (en) 2009-07-07 2015-01-27 International Business Machines Corporation User interface indicators for changed user interface elements
KR101083540B1 (ko) 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US8344847B2 (en) 2009-07-09 2013-01-01 Medtronic Minimed, Inc. Coordination of control commands in a medical device system having at least one therapy delivery device and at least one wireless controller device
KR101061443B1 (ko) 2009-07-13 2011-09-02 엘지전자 주식회사 전자 기기, 이동 단말기 및 이를 이용한 기능 수행 방법
US8892439B2 (en) 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US8588378B2 (en) 2009-07-15 2013-11-19 Google Inc. Highlighting of voice message transcripts
US9998552B1 (en) 2010-04-30 2018-06-12 Open Invention Network Llc Dynamic creation, data population, and communication establishment across various mediums
US20110016421A1 (en) 2009-07-20 2011-01-20 Microsoft Corporation Task oriented user interface platform
US20110016150A1 (en) 2009-07-20 2011-01-20 Engstroem Jimmy System and method for tagging multiple digital images
US8213962B2 (en) 2009-07-21 2012-07-03 Verizon Patent And Licensing Inc. Vehicle computer link to mobile phone
US7953679B2 (en) 2009-07-22 2011-05-31 Xerox Corporation Scalable indexing for layout based document retrieval and ranking
CA2761700C (en) 2009-07-24 2014-12-02 Research In Motion Limited Method and apparatus for a touch-sensitive display
US9117448B2 (en) 2009-07-27 2015-08-25 Cisco Technology, Inc. Method and system for speech recognition using social networks
US8239129B2 (en) 2009-07-27 2012-08-07 Robert Bosch Gmbh Method and system for improving speech recognition accuracy by use of geographic information
US9489577B2 (en) 2009-07-27 2016-11-08 Cxense Asa Visual similarity for video content
US20110029616A1 (en) 2009-07-29 2011-02-03 Guanming Wang Unified auto-reply to an email coming from unified messaging service
US8229488B2 (en) 2009-07-30 2012-07-24 Sony Ericsson Mobile Communications Ab Methods, apparatuses and computer programs for media content distribution
US8875219B2 (en) 2009-07-30 2014-10-28 Blackberry Limited Apparatus and method for controlled sharing of personal information
US9015818B2 (en) 2009-07-31 2015-04-21 Adobe Systems Incorporated Software application operational transfer
JP2011033874A (ja) 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
KR101608770B1 (ko) 2009-08-03 2016-04-04 엘지전자 주식회사 이동단말기 및 그 제어방법
US8340312B2 (en) 2009-08-04 2012-12-25 Apple Inc. Differential mode noise cancellation with active real-time control for microphone-speaker combinations used in two way audio communications
US8532574B2 (en) 2009-08-05 2013-09-10 Honda Motor Co., Ltd. Destination information sharing for the automobile environment
US8160877B1 (en) 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US20110047072A1 (en) 2009-08-07 2011-02-24 Visa U.S.A. Inc. Systems and Methods for Propensity Analysis and Validation
US8233919B2 (en) 2009-08-09 2012-07-31 Hntb Holdings Ltd. Intelligently providing user-specific transportation-related information
JP5201599B2 (ja) 2009-08-11 2013-06-05 Necカシオモバイルコミュニケーションズ株式会社 端末装置、および、プログラム
US20110040707A1 (en) 2009-08-12 2011-02-17 Ford Global Technologies, Llc Intelligent music selection in vehicles
US8768313B2 (en) 2009-08-17 2014-07-01 Digimarc Corporation Methods and systems for image or audio recognition processing
US8626133B2 (en) 2009-08-19 2014-01-07 Cisco Technology, Inc. Matching a location of a contact with a task location
US8654952B2 (en) 2009-08-20 2014-02-18 T-Mobile Usa, Inc. Shareable applications on telecommunications devices
EP2341450A1 (en) 2009-08-21 2011-07-06 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9277021B2 (en) 2009-08-21 2016-03-01 Avaya Inc. Sending a user associated telecommunication address
KR101496649B1 (ko) 2009-08-21 2015-03-02 삼성전자주식회사 복합 네트워크 망을 통한 외부 디바이스의 기능 공유 방법 및 그 장치
JP2011045005A (ja) 2009-08-24 2011-03-03 Fujitsu Toshiba Mobile Communications Ltd 携帯電話機
US20120150544A1 (en) 2009-08-25 2012-06-14 Mcloughlin Ian Vince Method and system for reconstructing speech from an input signal comprising whispers
US20110054647A1 (en) 2009-08-26 2011-03-03 Nokia Corporation Network service for an audio interface unit
JP2011048671A (ja) 2009-08-27 2011-03-10 Kyocera Corp 入力装置および入力装置の制御方法
US8583638B2 (en) 2009-08-27 2013-11-12 Apple Inc. Adaptive mapping of search results
CN101996631B (zh) 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
US20110238407A1 (en) 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
US8451238B2 (en) 2009-09-02 2013-05-28 Amazon Technologies, Inc. Touch-screen user interface
WO2011028844A2 (en) 2009-09-02 2011-03-10 Sri International Method and apparatus for tailoring the output of an intelligent automated assistant to a user
US8624851B2 (en) 2009-09-02 2014-01-07 Amazon Technologies, Inc. Touch-screen user interface
TW201110108A (en) 2009-09-04 2011-03-16 Chunghwa Telecom Co Ltd Voice noise elimination method for microphone array
US8675084B2 (en) 2009-09-04 2014-03-18 Apple Inc. Systems and methods for remote camera control
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US20120265535A1 (en) 2009-09-07 2012-10-18 Donald Ray Bryant-Rich Personal voice operated reminder system
US8560300B2 (en) 2009-09-09 2013-10-15 International Business Machines Corporation Error correction using fact repositories
US8788267B2 (en) 2009-09-10 2014-07-22 Mitsubishi Electric Research Laboratories, Inc. Multi-purpose contextual control
US20110060812A1 (en) 2009-09-10 2011-03-10 Level 3 Communications, Llc Cache server with extensible programming framework
US8321527B2 (en) 2009-09-10 2012-11-27 Tribal Brands System and method for tracking user location and associated activity and responsively providing mobile device updates
US20110066468A1 (en) 2009-09-11 2011-03-17 Internationl Business Machines Corporation Dynamic event planning through location awareness
US9140569B2 (en) 2009-09-11 2015-09-22 Telenav, Inc Location based system with contextual contact manager mechanism and method of operation thereof
US9264758B2 (en) 2009-09-14 2016-02-16 Tivo Inc. Method and an apparatus for detecting media content recordings
EP2478433A4 (en) 2009-09-16 2016-09-21 Ab Initio Technology Llc MAPPING DATA SET ELEMENTS
US10587833B2 (en) 2009-09-16 2020-03-10 Disney Enterprises, Inc. System and method for automated network search and companion display of result relating to audio-video metadata
US8972878B2 (en) 2009-09-21 2015-03-03 Avaya Inc. Screen icon manipulation by context and frequency of Use
US9015148B2 (en) 2009-09-21 2015-04-21 Microsoft Corporation Suggesting related search queries during web browsing
US8473558B2 (en) 2009-09-22 2013-06-25 Thwapr, Inc. Progressive registration for mobile media sharing
US9595257B2 (en) 2009-09-28 2017-03-14 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US8768308B2 (en) 2009-09-29 2014-07-01 Deutsche Telekom Ag Apparatus and method for creating and managing personal schedules via context-sensing and actuation
US8995625B2 (en) 2009-09-30 2015-03-31 T-Mobile Usa, Inc. Unified interface and routing module for handling audio input
US9111538B2 (en) 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
TW201113741A (en) 2009-10-01 2011-04-16 Htc Corp Lock-state switching method, electronic apparatus and computer program product
KR20110036385A (ko) 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US20110083079A1 (en) 2009-10-02 2011-04-07 International Business Machines Corporation Apparatus, system, and method for improved type-ahead functionality in a type-ahead field based on activity of a user within a user interface
US9338274B2 (en) 2009-10-02 2016-05-10 Blackberry Limited Method of interacting with electronic devices in a locked state and handheld electronic device configured to permit interaction when in a locked state
JP5609884B2 (ja) 2009-10-05 2014-10-22 日本電気株式会社 電子メール送信機能を有する通信端末、電子メールの送信方法、及びプログラム
JP5473520B2 (ja) 2009-10-06 2014-04-16 キヤノン株式会社 入力装置及びその制御方法
US20110087685A1 (en) 2009-10-09 2011-04-14 Microsoft Corporation Location-based service middleware
KR101058525B1 (ko) * 2009-10-09 2011-08-23 삼성전자주식회사 텍스트 입력방법 및 이를 적용한 디스플레이 장치
US8335689B2 (en) 2009-10-14 2012-12-18 Cogi, Inc. Method and system for efficient management of speech transcribers
EP2488963A1 (en) 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
US8611876B2 (en) 2009-10-15 2013-12-17 Larry Miller Configurable phone with interactive voice response engine
US8510103B2 (en) 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
US8255217B2 (en) 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US8451112B2 (en) 2009-10-19 2013-05-28 Qualcomm Incorporated Methods and apparatus for estimating departure time based on known calendar events
US8332748B1 (en) 2009-10-22 2012-12-11 Google Inc. Multi-directional auto-complete menu
US8554537B2 (en) 2009-10-23 2013-10-08 Samsung Electronics Co., Ltd Method and device for transliteration
US8326624B2 (en) 2009-10-26 2012-12-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US20110099507A1 (en) 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
AU2010319860B2 (en) 2009-10-28 2014-10-02 Google Inc. Computer-to-computer communication
US8386574B2 (en) 2009-10-29 2013-02-26 Xerox Corporation Multi-modality classification for one-class classification in social networks
US20110106536A1 (en) 2009-10-29 2011-05-05 Rovi Technologies Corporation Systems and methods for simulating dialog between a user and media equipment device
US9247421B2 (en) 2009-10-30 2016-01-26 Samsung Electronics Co., Ltd Mobile device, content delivery apparatus, content providing apparatus and control method thereof
US8315617B2 (en) 2009-10-31 2012-11-20 Btpatent Llc Controlling mobile device functions
US8832205B2 (en) 2009-11-02 2014-09-09 Lextine Software, Llc System and method for extracting calendar events from free-form email
US8279052B2 (en) 2009-11-04 2012-10-02 Immersion Corporation Systems and methods for haptic confirmation of commands
CN102483918B (zh) 2009-11-06 2014-08-20 株式会社东芝 声音识别装置
CN102056026B (zh) 2009-11-06 2013-04-03 中国移动通信集团设计院有限公司 音视频同步检测方法及其系统、语音检测方法及其系统
US20120137367A1 (en) 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US8358747B2 (en) 2009-11-10 2013-01-22 International Business Machines Corporation Real time automatic caller speech profiling
KR20120091325A (ko) 2009-11-10 2012-08-17 둘세타 인코포레이티드 전자식 시각자료에 대한 사운드트랙의 동적 오디오 재생
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US20110111724A1 (en) 2009-11-10 2011-05-12 David Baptiste Method and apparatus for combating distracted driving
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
US8732180B2 (en) 2009-11-12 2014-05-20 Apple Inc. Recommending media items
EP2499839B1 (en) 2009-11-12 2017-01-04 Robert Henry Frater Speakerphone with microphone array
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8712759B2 (en) 2009-11-13 2014-04-29 Clausal Computing Oy Specializing disambiguation of a natural language expression
US20130166303A1 (en) 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US8989086B2 (en) 2009-11-13 2015-03-24 Samsung Electronics Co., Ltd. Methods and apparatus to support interference management in multi-tier wireless communication systems
KR20110052997A (ko) 2009-11-13 2011-05-19 삼성전자주식회사 디스플레이 장치와 클라이언트 단말 및 이의 제어 방법
KR20110052863A (ko) 2009-11-13 2011-05-19 삼성전자주식회사 모바일 기기 및 그 제어 신호 생성 방법
TWI391915B (zh) 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
KR101595029B1 (ko) 2009-11-18 2016-02-17 엘지전자 주식회사 이동단말기 및 그 제어방법
CN102074234B (zh) 2009-11-19 2012-07-25 财团法人资讯工业策进会 语音变异模型建立装置、方法及语音辨识系统和方法
US8358752B2 (en) 2009-11-19 2013-01-22 At&T Mobility Ii Llc User profile based speech to text conversion for visual voice mail
US8630971B2 (en) 2009-11-20 2014-01-14 Indian Institute Of Science System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns
US8358749B2 (en) 2009-11-21 2013-01-22 At&T Intellectual Property I, L.P. System and method to search a media content database based on voice input data
KR101960835B1 (ko) 2009-11-24 2019-03-21 삼성전자주식회사 대화 로봇을 이용한 일정 관리 시스템 및 그 방법
US8346688B2 (en) 2009-11-25 2013-01-01 International Business Machines Corporation Predicting states of subjects
US20110153330A1 (en) 2009-11-27 2011-06-23 i-SCROLL System and method for rendering text synchronized audio
US8731901B2 (en) 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
US8396888B2 (en) 2009-12-04 2013-03-12 Google Inc. Location-based searching using a search area that corresponds to a geographical location of a computing device
AU2010325897A1 (en) 2009-12-04 2012-06-21 Tivo Inc. Multifunction multimedia device
US20110137664A1 (en) 2009-12-09 2011-06-09 International Business Machines Corporation Providing Schedule Related Information to External Entities
US8737975B2 (en) 2009-12-11 2014-05-27 At&T Mobility Ii Llc Audio-based text messaging
US8812990B2 (en) 2009-12-11 2014-08-19 Nokia Corporation Method and apparatus for presenting a first person world view of content
US8543917B2 (en) 2009-12-11 2013-09-24 Nokia Corporation Method and apparatus for presenting a first-person world view of content
US8224300B2 (en) 2009-12-11 2012-07-17 Alpine Electronics, Inc. Method and apparatus to enhance navigation user experience for a smart phone device
KR101622111B1 (ko) 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US20110144857A1 (en) 2009-12-14 2011-06-16 Theodore Charles Wingrove Anticipatory and adaptive automobile hmi
US9766089B2 (en) 2009-12-14 2017-09-19 Nokia Technologies Oy Method and apparatus for correlating and navigating between a live image and a prerecorded panoramic image
US8892443B2 (en) 2009-12-15 2014-11-18 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
KR101211796B1 (ko) 2009-12-16 2012-12-13 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
US8341037B2 (en) 2009-12-18 2012-12-25 Apple Inc. Mixed source media playback
US8922485B1 (en) 2009-12-18 2014-12-30 Google Inc. Behavioral recognition on mobile devices
US8385982B2 (en) 2009-12-21 2013-02-26 At&T Intellectual Property I, L.P. Controlling use of a communications device in accordance with motion of the device
US20110154193A1 (en) 2009-12-21 2011-06-23 Nokia Corporation Method and Apparatus for Text Input
US9100809B2 (en) 2009-12-21 2015-08-04 Julia Olincy Olincy Automatic response option mobile system for responding to incoming texts or calls or both
US8805711B2 (en) 2009-12-22 2014-08-12 International Business Machines Corporation Two-layer data architecture for reservation management systems
US9222798B2 (en) 2009-12-22 2015-12-29 Modena Enterprises, Llc Systems and methods for identifying an activity of a user based on a chronological order of detected movements of a computing device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
KR20110072847A (ko) 2009-12-23 2011-06-29 삼성전자주식회사 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법
JP5531612B2 (ja) * 2009-12-25 2014-06-25 ソニー株式会社 情報処理装置、情報処理方法、プログラム、制御対象機器および情報処理システム
US20110161309A1 (en) 2009-12-29 2011-06-30 Lx1 Technology Limited Method Of Sorting The Result Set Of A Search Engine
US8479107B2 (en) 2009-12-31 2013-07-02 Nokia Corporation Method and apparatus for fluid graphical user interface
US8988356B2 (en) 2009-12-31 2015-03-24 Google Inc. Touch sensor and touchscreen user input combination
US20110166862A1 (en) 2010-01-04 2011-07-07 Eyal Eshed System and method for variable automated response to remote verbal input at a mobile device
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
WO2011082521A1 (en) 2010-01-06 2011-07-14 Zoran Corporation Method and apparatus for voice controlled operation of a media player
US20110167350A1 (en) 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
WO2011085387A2 (en) 2010-01-11 2011-07-14 Everspeech, Inc. Integrated data processing and transcription service
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US20110179372A1 (en) 2010-01-15 2011-07-21 Bradford Allen Moore Automatic Keyboard Layout Determination
US8334842B2 (en) 2010-01-15 2012-12-18 Microsoft Corporation Recognizing user intent in motion capture system
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8417575B2 (en) 2010-01-19 2013-04-09 Apple Inc. On-device offline purchases using credits
US20110179002A1 (en) 2010-01-19 2011-07-21 Dell Products L.P. System and Method for a Vector-Space Search Engine
US8301121B2 (en) 2010-01-22 2012-10-30 Sony Ericsson Mobile Communications Ab Regulating alerts generated by communication terminals responsive to sensed movement
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US20110184736A1 (en) 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8375034B2 (en) 2010-01-27 2013-02-12 Google Inc. Automatically schedule and re-schedule meetings using reschedule factors for conflicting calendar events
US8406745B1 (en) 2010-01-28 2013-03-26 Sprint Communications Company L.P. Synchronization of voice mail greeting and email auto-reply by a wireless communication device
JP5633042B2 (ja) 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US20120330662A1 (en) 2010-01-29 2012-12-27 Nec Corporation Input supporting system, method and program
JP2013519162A (ja) 2010-02-01 2013-05-23 ジャンプタップ,インコーポレイテッド 統合化された広告システム
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
EP2531912A4 (en) 2010-02-02 2015-01-21 4D Retail Technology Corp SYSTEMS AND METHODS FOR PERSONALLY SUPPORTING HUMAN INTELLIGENCE
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8600967B2 (en) 2010-02-03 2013-12-03 Apple Inc. Automatic organization of browsing histories
US8886541B2 (en) 2010-02-04 2014-11-11 Sony Corporation Remote controller with position actuatated voice transmission
US8645287B2 (en) 2010-02-04 2014-02-04 Microsoft Corporation Image tagging based upon cross domain context
US8179370B1 (en) 2010-02-09 2012-05-15 Google Inc. Proximity based keystroke resolution
US8751218B2 (en) 2010-02-09 2014-06-10 Siemens Aktiengesellschaft Indexing content at semantic level
US9413869B2 (en) 2010-02-10 2016-08-09 Qualcomm Incorporated Mobile device having plurality of input modes
US8812056B2 (en) 2010-02-12 2014-08-19 Christopher D. Higginbotham Voice-based command driven computer implemented method
US8898219B2 (en) 2010-02-12 2014-11-25 Avaya Inc. Context sensitive, cloud-based telephony
US8402018B2 (en) 2010-02-12 2013-03-19 Korea Advanced Institute Of Science And Technology Semantic search system using semantic ranking scheme
US8782556B2 (en) 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US20120297341A1 (en) 2010-02-16 2012-11-22 Screenovate Technologies Ltd. Modified Operating Systems Allowing Mobile Devices To Accommodate IO Devices More Convenient Than Their Own Inherent IO Devices And Methods For Generating Such Systems
US9965165B2 (en) 2010-02-19 2018-05-08 Microsoft Technology Licensing, Llc Multi-finger gestures
US8850360B2 (en) 2010-02-23 2014-09-30 Hewlett-Packard Development Company, L.P. Skipping through electronic content on an electronic device
US9665344B2 (en) 2010-02-24 2017-05-30 GM Global Technology Operations LLC Multi-modal input system for a voice-based menu and content navigation service
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US20120066303A1 (en) 2010-03-03 2012-03-15 Waldeck Technology, Llc Synchronized group location updates
US20110218855A1 (en) 2010-03-03 2011-09-08 Platformation, Inc. Offering Promotions Based on Query Analysis
US8502837B2 (en) 2010-03-04 2013-08-06 Research In Motion Limited System and method for activating components on an electronic device using orientation data
US8903847B2 (en) 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8948515B2 (en) 2010-03-08 2015-02-03 Sightera Technologies Ltd. Method and system for classifying one or more images
US9104312B2 (en) 2010-03-12 2015-08-11 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
US8521513B2 (en) 2010-03-12 2013-08-27 Microsoft Corporation Localization for interactive voice response systems
US20110228913A1 (en) 2010-03-16 2011-09-22 Telcordia Technologies, Inc. Automatic extraction of information from ongoing voice communication system and methods
US8374864B2 (en) 2010-03-17 2013-02-12 Cisco Technology, Inc. Correlation of transcribed text with corresponding audio
US20110231218A1 (en) 2010-03-18 2011-09-22 Tovar Tom C Systems and Methods for Providing Reminders for a Task List
US20110231189A1 (en) 2010-03-19 2011-09-22 Nuance Communications, Inc. Methods and apparatus for extracting alternate media titles to facilitate speech recognition
JP5843207B2 (ja) 2010-03-19 2016-01-13 ディジマーク コーポレイション 直観的コンピューティング方法及びシステム
US9323756B2 (en) 2010-03-22 2016-04-26 Lenovo (Singapore) Pte. Ltd. Audio book and e-book synchronization
US8554280B2 (en) 2010-03-23 2013-10-08 Ebay Inc. Free-form entries during payment processes
US20110239111A1 (en) 2010-03-24 2011-09-29 Avaya Inc. Spell checker interface
US9628831B2 (en) 2010-03-25 2017-04-18 Whatsapp, Inc. Multimedia transcoding method and system for mobile devices
US20110238676A1 (en) 2010-03-25 2011-09-29 Palm, Inc. System and method for data capture, storage, and retrieval
US8428759B2 (en) 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US20110238412A1 (en) 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US9026443B2 (en) 2010-03-26 2015-05-05 Nuance Communications, Inc. Context based voice activity detection sensitivity
US20120198380A1 (en) 2010-03-31 2012-08-02 Shimshon Czertok Contextual user interface
US8930176B2 (en) 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US8296380B1 (en) 2010-04-01 2012-10-23 Kel & Partners LLC Social media based messaging systems and methods
US20110242007A1 (en) 2010-04-01 2011-10-06 Gray Theodore W E-Book with User-Manipulatable Graphical Objects
EP2556485A4 (en) 2010-04-07 2013-12-25 Max Value Solutions Intl Llc METHOD AND SYSTEM FOR PROVIDING GUIDANCE SERVICES IN NAME PRONUNCIATION
US9929982B2 (en) 2010-04-08 2018-03-27 Microsoft Technology Licensing, Llc Designating automated agents as friends in a social network service
US8810684B2 (en) 2010-04-09 2014-08-19 Apple Inc. Tagging images in a mobile communications device using a contacts list
KR101369810B1 (ko) 2010-04-09 2014-03-05 이초강 로봇을 위한 경험적 상황인식 방법을 실행하는 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
CN102214187B (zh) 2010-04-12 2017-03-01 阿里巴巴集团控股有限公司 复合事件处理方法及装置
JP5315289B2 (ja) 2010-04-12 2013-10-16 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法
JP5921527B2 (ja) 2010-04-12 2016-05-24 グーグル インコーポレイテッド インプットメソッドエディタのための拡張フレームワーク
US8140567B2 (en) 2010-04-13 2012-03-20 Microsoft Corporation Measuring entity extraction complexity
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8756233B2 (en) 2010-04-16 2014-06-17 Video Semantics Semantic segmentation and tagging engine
US8595014B2 (en) 2010-04-19 2013-11-26 Qualcomm Incorporated Providing audible navigation system direction updates during predetermined time windows so as to minimize impact on conversations
WO2011131785A1 (en) 2010-04-21 2011-10-27 Université Catholique de Louvain Normalisation of noisy typewritten texts
US20110260829A1 (en) 2010-04-21 2011-10-27 Research In Motion Limited Method of providing security on a portable electronic device having a touch-sensitive display
WO2011133543A1 (en) 2010-04-21 2011-10-27 Proteus Biomedical, Inc. Diagnostic system and method
US20110264495A1 (en) 2010-04-22 2011-10-27 Apple Inc. Aggregation of tagged media item information
WO2011133195A1 (en) 2010-04-22 2011-10-27 Zipit Wireless, Inc. System and method for administration and operation of one or more mobile electronic communications devices
US20110264999A1 (en) 2010-04-23 2011-10-27 Research In Motion Limited Electronic device including touch-sensitive input device and method of controlling same
US20110264530A1 (en) 2010-04-23 2011-10-27 Bryan Santangelo Apparatus and methods for dynamic secondary content and data insertion and delivery
US8874432B2 (en) 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
US8452037B2 (en) 2010-05-05 2013-05-28 Apple Inc. Speaker clip
US8380504B1 (en) 2010-05-06 2013-02-19 Sprint Communications Company L.P. Generation of voice profiles
US8756571B2 (en) 2010-05-07 2014-06-17 Hewlett-Packard Development Company, L.P. Natural language text instructions
US8938436B2 (en) 2010-05-10 2015-01-20 Verizon Patent And Licensing Inc. System for and method of providing reusable software service information based on natural language queries
JP2011238022A (ja) 2010-05-11 2011-11-24 Panasonic Corp 端末、コンテンツの利用の把握方法およびコンテンツの利用システム
JP5595112B2 (ja) 2010-05-11 2014-09-24 本田技研工業株式会社 ロボット
US20110283189A1 (en) 2010-05-12 2011-11-17 Rovi Technologies Corporation Systems and methods for adjusting media guide interaction modes
US20110279368A1 (en) 2010-05-12 2011-11-17 Microsoft Corporation Inferring user intent to engage a motion capture system
US9420055B2 (en) 2010-05-13 2016-08-16 Futurewei Technologies, Inc. System, apparatus for content delivery for internet traffic and methods thereof
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US9015139B2 (en) 2010-05-14 2015-04-21 Rovi Guides, Inc. Systems and methods for performing a search based on a media content snapshot image
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US8694313B2 (en) 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
WO2011146276A2 (en) 2010-05-19 2011-11-24 Google Inc. Television related searching
US9552355B2 (en) 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8522283B2 (en) 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer
US20110288917A1 (en) 2010-05-21 2011-11-24 James Wanek Systems and methods for providing mobile targeted advertisements
US9236047B2 (en) 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
US9552125B2 (en) 2010-05-21 2017-01-24 Google Inc. Input method editor
US8606579B2 (en) 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
JP2011250027A (ja) 2010-05-25 2011-12-08 Panasonic Electric Works Co Ltd リモートコントロール機器及び情報通信システム
US9569549B1 (en) 2010-05-25 2017-02-14 Amazon Technologies, Inc. Location based recommendation and tagging of media content items
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
WO2011150730A1 (zh) 2010-05-31 2011-12-08 百度在线网络技术(北京)有限公司 一种用于英文与另一种文字混合输入的方法和设备
EP2393056A1 (en) 2010-06-02 2011-12-07 Layar B.V. Acquiring, ranking and displaying points of interest for use in an augmented reality service provisioning system and graphical user interface for displaying such ranked points of interests
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8707195B2 (en) 2010-06-07 2014-04-22 Apple Inc. Devices, methods, and graphical user interfaces for accessibility via a touch-sensitive surface
US10204625B2 (en) 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US8954425B2 (en) 2010-06-08 2015-02-10 Microsoft Corporation Snippet extraction and ranking
US8458115B2 (en) 2010-06-08 2013-06-04 Microsoft Corporation Mining topic-related aspects from user generated content
ES2534047T3 (es) 2010-06-08 2015-04-16 Vodafone Holding Gmbh Tarjeta inteligente con micrófono
US20110306426A1 (en) 2010-06-10 2011-12-15 Microsoft Corporation Activity Participation Based On User Intent
US9529918B2 (en) 2010-06-11 2016-12-27 Doat Media Ltd. System and methods thereof for downloading applications via a communication network
US20110307810A1 (en) 2010-06-11 2011-12-15 Isreal Hilerio List integration
US8234111B2 (en) 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US20120136572A1 (en) 2010-06-17 2012-05-31 Norton Kenneth S Distance and Location-Aware Reminders in a Calendar System
US20110314003A1 (en) 2010-06-17 2011-12-22 Microsoft Corporation Template concatenation for capturing multiple concepts in a voice query
US9443071B2 (en) 2010-06-18 2016-09-13 At&T Intellectual Property I, L.P. Proximity based device security
US8620890B2 (en) 2010-06-18 2013-12-31 Accelerated Vision Group Llc System and method of semantic based searching
US9009592B2 (en) 2010-06-22 2015-04-14 Microsoft Technology Licensing, Llc Population of lists and tasks from captured voice and audio content
EP2400373A1 (en) 2010-06-22 2011-12-28 Vodafone Holding GmbH Inputting symbols into an electronic device having a touch-screen
US8375320B2 (en) 2010-06-22 2013-02-12 Microsoft Corporation Context-based task generation
US20110313803A1 (en) 2010-06-22 2011-12-22 Microsoft Corporation Social Task Lists
US8655901B1 (en) 2010-06-23 2014-02-18 Google Inc. Translation-based query pattern mining
US8581844B2 (en) 2010-06-23 2013-11-12 Google Inc. Switching between a first operational mode and a second operational mode using a natural motion gesture
US8812299B1 (en) 2010-06-24 2014-08-19 Nuance Communications, Inc. Class-based language model and use
CN103038818B (zh) 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
US11068657B2 (en) 2010-06-28 2021-07-20 Skyscanner Limited Natural language question answering system and method based on deep semantics
KR20120000663A (ko) 2010-06-28 2012-01-04 주식회사 팬택 3d 객체 처리 장치
JP5323770B2 (ja) 2010-06-30 2013-10-23 日本放送協会 ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US8411874B2 (en) 2010-06-30 2013-04-02 Google Inc. Removing noise from audio
US8250071B1 (en) 2010-06-30 2012-08-21 Amazon Technologies, Inc. Disambiguation of term meaning
EP2402867B1 (en) 2010-07-02 2018-08-22 Accenture Global Services Limited A computer-implemented method, a computer program product and a computer system for image processing
US20120005602A1 (en) 2010-07-02 2012-01-05 Nokia Corporation Methods and apparatuses for facilitating task switching
US8885978B2 (en) 2010-07-05 2014-11-11 Apple Inc. Operating a device to capture high dynamic range images
US20120010886A1 (en) 2010-07-06 2012-01-12 Javad Razavilar Language Identification
US8848882B2 (en) 2010-07-07 2014-09-30 Verizon Patent And Licensing Inc. System for and method of measuring caller interactions during a call session
US8249556B2 (en) 2010-07-13 2012-08-21 Google Inc. Securing a mobile computing device
JP5548542B2 (ja) 2010-07-13 2014-07-16 富士通テン株式会社 携帯端末装置および駐車位置案内プログラム
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8260247B2 (en) 2010-07-21 2012-09-04 Research In Motion Limited Portable electronic device and method of operation
US9786159B2 (en) 2010-07-23 2017-10-10 Tivo Solutions Inc. Multi-function remote control device
US8528072B2 (en) 2010-07-23 2013-09-03 Apple Inc. Method, apparatus and system for access mode control of a device
EP2596647B1 (en) 2010-07-23 2016-01-06 Sonova AG Hearing system and method for operating a hearing system
US9633656B2 (en) 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
CN102340590A (zh) 2010-07-27 2012-02-01 上海闻泰电子科技有限公司 一种用于手机的感光加解锁装置及其实现方法
US8463592B2 (en) 2010-07-27 2013-06-11 International Business Machines Corporation Mode supporting multiple language input for entering text
US8861925B1 (en) 2010-07-28 2014-10-14 Intuit Inc. Methods and systems for audio-visual synchronization
JP5606205B2 (ja) 2010-07-28 2014-10-15 京セラ株式会社 携帯端末装置
US8521526B1 (en) 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
CN102346557B (zh) 2010-07-28 2016-08-03 深圳市世纪光速信息技术有限公司 一种输入法和输入法系统
US8694537B2 (en) 2010-07-29 2014-04-08 Soundhound, Inc. Systems and methods for enabling natural language processing
KR101699720B1 (ko) 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
BRPI1004128A2 (pt) 2010-08-04 2012-04-10 Magneti Marelli Sist S Automotivos Ind E Com Ltda definição dos parámetros chave de nìvel superior para sensor lógico de biodiesel
JP2012037619A (ja) 2010-08-04 2012-02-23 Nec Corp 話者適応化装置、話者適応化方法および話者適応化用プログラム
US9349368B1 (en) 2010-08-05 2016-05-24 Google Inc. Generating an audio notification based on detection of a triggering event
US8775156B2 (en) 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8402533B2 (en) 2010-08-06 2013-03-19 Google Inc. Input to locked computing device
WO2012019637A1 (en) 2010-08-09 2012-02-16 Jadhav, Shubhangi Mahadeo Visual music playlist creation and visual music track exploration
US8802957B2 (en) 2010-08-16 2014-08-12 Boardwalk Technology Group, Llc Mobile replacement-dialogue recording system
CN101951553B (zh) 2010-08-17 2012-10-10 深圳市车音网科技有限公司 基于语音命令的导航方法及系统
KR20130050369A (ko) 2010-08-27 2013-05-15 인텔 코포레이션 터치 감지 장치 및 방법
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8478519B2 (en) 2010-08-30 2013-07-02 Google Inc. Providing results to parameterless search queries
WO2012030838A1 (en) 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
US8225137B2 (en) 2010-09-04 2012-07-17 Cisco Technology, Inc. System and method for providing media server redundancy in a network environment
KR20120024247A (ko) * 2010-09-06 2012-03-14 삼성전자주식회사 사용자의 제스처를 인식하여 이동 장치를 동작하는 방법 및 그 이동 장치
US9800721B2 (en) 2010-09-07 2017-10-24 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8341142B2 (en) 2010-09-08 2012-12-25 Nuance Communications, Inc. Methods and apparatus for searching the Internet
US20120059655A1 (en) 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
JP5851507B2 (ja) 2010-09-08 2016-02-03 ニュアンス コミュニケーションズ,インコーポレイテッド インターネット検索に関する方法及び装置
US8700987B2 (en) 2010-09-09 2014-04-15 Sony Corporation Annotating E-books / E-magazines with application results and function calls
US9878240B2 (en) 2010-09-13 2018-01-30 Sony Interactive Entertainment America Llc Add-on management methods
CN102402985A (zh) 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 提高声纹识别安全性的声纹认证系统及其实现方法
US8560229B1 (en) 2010-09-15 2013-10-15 Google Inc. Sensor based activity detection
JP5480760B2 (ja) 2010-09-15 2014-04-23 株式会社Nttドコモ 端末装置、音声認識方法および音声認識プログラム
US9538229B2 (en) * 2010-09-15 2017-01-03 Verizon Patent And Licensing Inc. Media experience for touch screen devices
WO2012034273A1 (en) 2010-09-15 2012-03-22 Empire Technology Development Llc Task assignment in cloud computing environment
US20120068937A1 (en) 2010-09-16 2012-03-22 Sony Ericsson Mobile Communications Ab Quick input language/virtual keyboard/ language dictionary change on a touch screen device
US20120078635A1 (en) 2010-09-24 2012-03-29 Apple Inc. Voice control system
US8836638B2 (en) 2010-09-25 2014-09-16 Hewlett-Packard Development Company, L.P. Silent speech based command to a computing device
CN101937194B (zh) 2010-09-27 2012-12-19 鸿富锦精密工业(深圳)有限公司 具有学习功能的智能控制系统和方法
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US8594997B2 (en) 2010-09-27 2013-11-26 Sap Ag Context-aware conversational user interface
US20120114108A1 (en) 2010-09-27 2012-05-10 Voxer Ip Llc Messaging communication application
KR20120031722A (ko) 2010-09-27 2012-04-04 삼성전자주식회사 동적 응답 생성 장치 및 방법
WO2012040872A1 (en) 2010-09-29 2012-04-05 Yahoo! Inc. Training search query intent classifier using wiki article titles and search click log
CN102436456B (zh) 2010-09-29 2016-03-30 国际商业机器公司 用于对命名实体进行分类的方法和装置
US10037319B2 (en) 2010-09-29 2018-07-31 Touchtype Limited User input prediction
CN101958958A (zh) 2010-09-29 2011-01-26 中兴通讯股份有限公司 一种回复信息的方法和终端
US8515736B1 (en) 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
US20120084248A1 (en) 2010-09-30 2012-04-05 Microsoft Corporation Providing suggestions based on user intent
US8965545B2 (en) 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio
US8812321B2 (en) 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US8644519B2 (en) 2010-09-30 2014-02-04 Apple Inc. Electronic devices with improved audio
US20120084634A1 (en) 2010-10-05 2012-04-05 Sony Corporation Method and apparatus for annotating text
US8606293B2 (en) 2010-10-05 2013-12-10 Qualcomm Incorporated Mobile device location estimation using environmental information
WO2012045496A2 (en) 2010-10-05 2012-04-12 International Business Machines Corporation Probabilistic data mining model comparison engine
US9043386B2 (en) 2010-10-06 2015-05-26 Hbr Labs Inc. System and method for synchronizing collaborative form filling
US9679256B2 (en) 2010-10-06 2017-06-13 The Chancellor, Masters And Scholars Of The University Of Cambridge Automated assessment of examination scripts
US9465798B2 (en) 2010-10-08 2016-10-11 Iq Technology Inc. Single word and multi-word term integrating system and a method thereof
US10900799B2 (en) 2010-10-12 2021-01-26 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for determining a destination location from a communication
DE112011103447T5 (de) 2010-10-15 2013-08-22 Intelligent Mechatronic Systems, Inc. Durch implizite Zuordnung und Polymorphismus gesteuerte Mensch-Maschine-Wechselwirkung
JP5572059B2 (ja) 2010-10-21 2014-08-13 京セラ株式会社 表示装置
JP5017441B2 (ja) 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
US20120108221A1 (en) 2010-10-28 2012-05-03 Microsoft Corporation Augmenting communication sessions with applications
US8335774B2 (en) 2010-10-28 2012-12-18 Google Inc. Replacing a master media file
WO2012056463A1 (en) 2010-10-29 2012-05-03 Hewlett-Packard Development Company, L.P. Content recommendation for groups
CN102971787B (zh) 2010-10-29 2014-04-23 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
US9058105B2 (en) 2010-10-31 2015-06-16 International Business Machines Corporation Automated adjustment of input configuration
US9348417B2 (en) 2010-11-01 2016-05-24 Microsoft Technology Licensing, Llc Multimodal input system
US20120110456A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Integrated voice command modal user interface
US9743149B2 (en) 2010-11-02 2017-08-22 Sony Corporation Search query column for internet-connected TV's
US8660531B2 (en) 2010-11-03 2014-02-25 Blackberry Limited Access to locked functions
US8831947B2 (en) 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US20120116770A1 (en) 2010-11-08 2012-05-10 Ming-Fu Chen Speech data retrieving and presenting device
US8881057B2 (en) 2010-11-09 2014-11-04 Blackberry Limited Methods and apparatus to display mobile device contexts
WO2012063260A2 (en) 2010-11-09 2012-05-18 Mango Technologies Pvt Ltd. Virtual secretary on a smart device
US20120124172A1 (en) 2010-11-15 2012-05-17 Google Inc. Providing Different Versions of a Media File
US8352576B2 (en) 2010-11-15 2013-01-08 Google Inc. Media file access
WO2012066571A1 (en) 2010-11-16 2012-05-24 Shardul Suresh Shroff System and method for providing virtual arbitration
US10144440B2 (en) 2010-11-17 2018-12-04 General Electric Company Methods and systems for data communications
US20120124126A1 (en) 2010-11-17 2012-05-17 Microsoft Corporation Contextual and task focused computing
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9484018B2 (en) 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US8938216B2 (en) 2010-11-24 2015-01-20 Cisco Technology, Inc. Geographical location information/signal quality-context based recording and playback of multimedia data from a conference session
US8489625B2 (en) 2010-11-29 2013-07-16 Microsoft Corporation Mobile query suggestions with time-location awareness
US9105008B2 (en) 2010-11-29 2015-08-11 Yahoo! Inc. Detecting controversial events
US20120135714A1 (en) 2010-11-29 2012-05-31 Toyota Motor Engineering & Manufacturing North America, Inc. Information system for motor vehicle
US8862458B2 (en) 2010-11-30 2014-10-14 Sap Ag Natural language interface
GB2486002A (en) 2010-11-30 2012-06-06 Youview Tv Ltd Media Content Provision
CN103299292B (zh) 2010-12-02 2016-01-20 Sk电信有限公司 用于处理自然语言和数学公式的方法及其设备
JP5652913B2 (ja) 2010-12-03 2015-01-14 アイシン・エィ・ダブリュ株式会社 車載端末装置
US9092425B2 (en) 2010-12-08 2015-07-28 At&T Intellectual Property I, L.P. System and method for feature-rich continuous space language models
US9135241B2 (en) 2010-12-08 2015-09-15 At&T Intellectual Property I, L.P. System and method for learning latent representations for natural language tasks
US8312096B2 (en) 2010-12-08 2012-11-13 Google Inc. Priority inbox notifications and synchronization for mobile messaging application
KR101330328B1 (ko) 2010-12-14 2013-11-15 한국전자통신연구원 음성 인식 방법 및 이를 위한 시스템
US9158775B1 (en) 2010-12-18 2015-10-13 Google Inc. Scoring stream items in real time
US9244606B2 (en) 2010-12-20 2016-01-26 Apple Inc. Device, method, and graphical user interface for navigation of concurrently open software applications
WO2012084003A1 (en) 2010-12-20 2012-06-28 Tomtom Belgium N.V. Method for generating map data
US20120158422A1 (en) 2010-12-21 2012-06-21 General Electric Company Methods and systems for scheduling appointments in healthcare systems
US20120158293A1 (en) 2010-12-21 2012-06-21 General Electric Company Methods and systems for dynamically providing users with appointment reminders
US8666726B2 (en) 2010-12-21 2014-03-04 Nuance Communications, Inc. Sample clustering to reduce manual transcriptions in speech recognition system
US8532377B2 (en) 2010-12-22 2013-09-10 Xerox Corporation Image ranking based on abstract concepts
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20130035086A1 (en) 2010-12-22 2013-02-07 Logitech Europe S.A. Remote control system for providing content suggestions
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US20120166944A1 (en) 2010-12-23 2012-06-28 Stephen Hayden Cotterill Device, Method, and Graphical User Interface for Switching Between Two User Interfaces
US8838449B2 (en) 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US8731902B2 (en) 2010-12-23 2014-05-20 Sap Ag Systems and methods for accessing applications based on user intent modeling
US20120166959A1 (en) 2010-12-23 2012-06-28 Microsoft Corporation Surfacing content including content accessed from jump list tasks and items
JP2012142744A (ja) 2010-12-28 2012-07-26 Sanyo Electric Co Ltd 通信装置
KR20120075845A (ko) * 2010-12-29 2012-07-09 삼성전자주식회사 터치스크린 단말기에서 메모 방법 및 장치
WO2012092562A1 (en) 2010-12-30 2012-07-05 Ambientz Information processing using a population of data acquisition devices
TWI413105B (zh) 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
KR101828273B1 (ko) 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
US8626681B1 (en) 2011-01-04 2014-01-07 Google Inc. Training a probabilistic spelling checker from structured data
WO2012092709A1 (en) 2011-01-05 2012-07-12 Google Inc. Method and system for facilitating text input
US8589950B2 (en) 2011-01-05 2013-11-19 Blackberry Limited Processing user input events in a web browser
ES2707789T3 (es) 2011-01-05 2019-04-05 Connecthings Dispositivo para accionar un terminal portable
US8781456B2 (en) 2011-01-07 2014-07-15 Blackberry Limited System and method for controlling mobile communication devices
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
JP5712618B2 (ja) 2011-01-07 2015-05-07 サクサ株式会社 電話システム
US9183843B2 (en) 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US20120176255A1 (en) 2011-01-10 2012-07-12 Deutsche Telekom Ag Mobile device-based automatic parking location recorder and reminder using on-board diagnostics
US20130283283A1 (en) 2011-01-13 2013-10-24 Htc Corporation Portable electronic device and control method therefor
TWI546700B (zh) 2011-01-13 2016-08-21 宏達國際電子股份有限公司 手持電子裝置及其控制方法與電腦程式產品
US8689116B2 (en) 2011-01-14 2014-04-01 Apple Inc. Email user interface
US8863256B1 (en) 2011-01-14 2014-10-14 Cisco Technology, Inc. System and method for enabling secure transactions using flexible identity management in a vehicular environment
KR101242073B1 (ko) 2011-01-20 2013-03-11 주식회사 웨이브애프터 사용자단말의 터치스크린의 사용자 인터페이스 방법 및 그 기록매체
US20120192096A1 (en) 2011-01-25 2012-07-26 Research In Motion Limited Active command line driven user interface
US9031970B1 (en) 2011-01-26 2015-05-12 Google Inc. Query autocompletions
JP2014064048A (ja) * 2011-01-27 2014-04-10 Panasonic Corp ネットワーク制御システム、ネットワーク制御機器、ネットワーク被制御機器及び機器制御方法
US8943054B2 (en) 2011-01-31 2015-01-27 Social Resolve, Llc Social media content management system and method
FI126119B (fi) 2011-01-31 2016-06-30 Waertsilae Finland Oy Massavaimennin
US8666895B2 (en) 2011-01-31 2014-03-04 Bank Of America Corporation Single action mobile transaction device
AU2012212517A1 (en) 2011-02-04 2013-08-22 Google Inc. Posting to social networks by voice
JP5772023B2 (ja) * 2011-02-04 2015-09-02 ソニー株式会社 情報処理システム及び情報処理方法
US9452735B2 (en) 2011-02-10 2016-09-27 Ford Global Technologies, Llc System and method for controlling a restricted mode in a vehicle
US8862612B2 (en) 2011-02-11 2014-10-14 Sony Corporation Direct search launch on a second display
US9628842B2 (en) 2011-02-11 2017-04-18 Sony Corporation Method and apparatus for identifying content using IPTV devices
US20120209650A1 (en) 2011-02-11 2012-08-16 Avaya Inc. Context-based mobile activity assistant
US10631246B2 (en) 2011-02-14 2020-04-21 Microsoft Technology Licensing, Llc Task switching on mobile devices
TW201241640A (en) 2011-02-14 2012-10-16 Microsoft Corp Dormant background applications on mobile devices
US10429869B2 (en) 2011-02-16 2019-10-01 Kortek Industries Pty Ltd Wireless power, light and automation control
CN103477592A (zh) 2011-02-16 2013-12-25 科泰克工业有限公司 无线电源、照明和自动化控制
US20130318478A1 (en) 2011-02-17 2013-11-28 Nec Casio Mobile Communications Ltd. Electronic device, display method and non-transitory storage medium
US9916420B2 (en) 2011-02-18 2018-03-13 Nuance Communications, Inc. Physician and clinical documentation specialist workflow integration
US8694335B2 (en) 2011-02-18 2014-04-08 Nuance Communications, Inc. Methods and apparatus for applying user corrections to medical fact extraction
US9686732B2 (en) 2011-02-22 2017-06-20 Theatrolabs, Inc. Observation platform for using structured communications with distributed traffic flow
US10145960B2 (en) 2011-02-24 2018-12-04 Ford Global Technologies, Llc System and method for cell phone restriction
KR101178310B1 (ko) 2011-02-24 2012-08-29 포항공과대학교 산학협력단 대화 관리 방법 및 이를 실행하는 시스템
CN102651217A (zh) 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US8688453B1 (en) 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US20120221552A1 (en) 2011-02-28 2012-08-30 Nokia Corporation Method and apparatus for providing an active search user interface element
US9632677B2 (en) 2011-03-02 2017-04-25 The Boeing Company System and method for navigating a 3-D environment using a multi-input interface
US8972275B2 (en) 2011-03-03 2015-03-03 Brightedge Technologies, Inc. Optimization of social media engagement
EP2498250B1 (en) 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
CN102122506B (zh) 2011-03-08 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
US9081760B2 (en) 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US20120233266A1 (en) 2011-03-11 2012-09-13 Microsoft Corporation Peer-to-peer group with renegotiation of group owner
CN202092650U (zh) 2011-03-14 2011-12-28 深圳市车乐数码科技有限公司 一种带按键的语音导航的车载多媒体
US8849931B2 (en) 2011-03-15 2014-09-30 Idt Messaging, Llc Linking context-based information to text messages
US8606090B2 (en) 2011-03-17 2013-12-10 Sony Corporation Sport program chaptering
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20140012205A1 (en) * 2011-03-23 2014-01-09 Sanofi-Aventis Deutschland Gmbh Drug Delivery Device with Pivoting Protective Cap
US20120246133A1 (en) 2011-03-23 2012-09-27 Microsoft Corporation Online spelling correction/phrase completion system
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US8868111B1 (en) 2011-03-23 2014-10-21 Dp Technologies, Inc. Method and apparatus to enable the use of a personal communication device with an integrated vehicle interface
US20120246064A1 (en) 2011-03-23 2012-09-27 Ebay, Inc. Customer refunds using payment service providers
US8766793B2 (en) 2011-03-25 2014-07-01 Microsoft Corporation Contextually-appropriate task reminders
US9202465B2 (en) 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
CN202035047U (zh) 2011-03-29 2011-11-09 张磊 一种提取地址信息进行导航的移动终端
US9171546B1 (en) 2011-03-29 2015-10-27 Google Inc. Performing functions based on commands in context of telephonic communication
US9154555B2 (en) 2011-03-30 2015-10-06 Paypal, Inc. Device specific remote disabling of applications
JP2012211932A (ja) 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法
US9280535B2 (en) 2011-03-31 2016-03-08 Infosys Limited Natural language querying with cascaded conditional random fields
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
WO2012135614A1 (en) 2011-03-31 2012-10-04 Aol Inc. Systems and methods for transferring application state between devices based on gestural input
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
KR101922744B1 (ko) 2011-03-31 2018-11-27 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 위치-기반 대화 해석 기법
US9337999B2 (en) 2011-04-01 2016-05-10 Intel Corporation Application usage continuum across platforms
KR101929533B1 (ko) 2011-04-01 2018-12-17 인터디지탈 패튼 홀딩스, 인크 공통 pdp 컨텍스트를 공유하기 위한 시스템 및 방법
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US20120252367A1 (en) 2011-04-04 2012-10-04 Meditalk Devices, Llc Auditory Speech Module For Medical Devices
CN103562863A (zh) 2011-04-04 2014-02-05 惠普发展公司,有限责任合伙企业 创建定义事件类型之间关系的相关规则
US20120316955A1 (en) 2011-04-06 2012-12-13 Yahoo! Inc. System and Method for Mobile Application Search
US8914275B2 (en) 2011-04-06 2014-12-16 Microsoft Corporation Text prediction
CN102137193A (zh) 2011-04-13 2011-07-27 深圳凯虹移动通信有限公司 一种移动通讯终端及其通讯控制方法
US9292877B2 (en) 2011-04-13 2016-03-22 Longsand Limited Methods and systems for generating concept-based hash tags
US20120265784A1 (en) 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US9366749B2 (en) 2011-04-15 2016-06-14 Qualcomm Incorporated Device position estimates from motion and ambient light classifiers
US9493130B2 (en) 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
US9648107B1 (en) 2011-04-22 2017-05-09 Angel A. Penilla Methods and cloud systems for using connected object state data for informing and alerting connected vehicle drivers of state changes
KR20140039194A (ko) 2011-04-25 2014-04-01 비비오, 인크. 지능형 개인용 타임라인 보조 시스템 및 방법
US9444692B2 (en) 2011-04-26 2016-09-13 Openet Telecom Ltd. Systems, devices and methods of crowd-sourcing across multiple domains
US9065660B2 (en) 2011-04-26 2015-06-23 Alcatel Lucent Usage monitoring after rollover
US9110556B2 (en) 2011-04-28 2015-08-18 Nokia Technologies Oy Method and apparatus for increasing the functionality of an electronic device in a locked state
CN102981746A (zh) 2011-05-03 2013-03-20 宏达国际电子股份有限公司 手持式电子装置及其网址输入校正方法
CA2834914C (en) 2011-05-04 2016-06-28 Research In Motion Limited Methods for adjusting a presentation of graphical data displayed on a graphical user interface
KR101257479B1 (ko) 2011-05-04 2013-04-24 허순영 텔레비젼 리모컨 기능을 가진 스마트폰 및 스마트 폰에서 실행 가능한 프로그램으로 구현되는 텔레비젼의 원격 제어 방법
US8171137B1 (en) 2011-05-09 2012-05-01 Google Inc. Transferring application state across devices
US8150385B1 (en) 2011-05-09 2012-04-03 Loment, Inc. Automated reply messages among end user communication devices
US9165074B2 (en) 2011-05-10 2015-10-20 Uber Technologies, Inc. Systems and methods for performing geo-search and retrieval of electronic point-of-interest records using a big index
KR101760422B1 (ko) 2011-05-11 2017-07-31 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR101233561B1 (ko) 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
EP2707872A2 (en) 2011-05-12 2014-03-19 Johnson Controls Technology Company Adaptive voice recognition systems and methods
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US20120290291A1 (en) 2011-05-13 2012-11-15 Gabriel Lee Gilbert Shelley Input processing for character matching and predicted word matching
US8839303B2 (en) 2011-05-13 2014-09-16 Google Inc. System and method for enhancing user search results by determining a television program currently being displayed in proximity to an electronic device
JP2014524059A (ja) 2011-05-13 2014-09-18 プリンプトン,デーヴィッド カレンダベースの検索エンジン
US8793624B2 (en) 2011-05-18 2014-07-29 Google Inc. Control of a device using gestures
US8972240B2 (en) 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
EP2712189A4 (en) 2011-05-20 2015-04-01 Japan Broadcasting Corp DEVICE AND PROGRAM FOR CONTROLLING PROGRAM SWITCHES
US10522133B2 (en) 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
US20120304124A1 (en) 2011-05-23 2012-11-29 Microsoft Corporation Context aware input engine
WO2012161359A1 (ko) 2011-05-24 2012-11-29 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US8731936B2 (en) 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
US9164983B2 (en) 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
TWI488174B (zh) 2011-06-03 2015-06-11 Apple Inc 自動地建立文字資料與音訊資料間之映射
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9268857B2 (en) 2011-06-03 2016-02-23 Facebook, Inc. Suggesting search results to users before receiving any search query from the users
US8751971B2 (en) 2011-06-05 2014-06-10 Apple Inc. Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface
US8781841B1 (en) 2011-06-07 2014-07-15 Cisco Technology, Inc. Name recognition of virtual meeting participants
US20120317498A1 (en) 2011-06-07 2012-12-13 Research In Motion Limited Electronic communication device and method for displaying icons
US20120316774A1 (en) 2011-06-09 2012-12-13 Microsoft Corporation Automatic navigation to a prior known location
US20120316875A1 (en) 2011-06-10 2012-12-13 Red Shift Company, Llc Hosted speech handling
WO2012170817A1 (en) 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
US8732319B2 (en) 2011-06-10 2014-05-20 Qualcomm Incorporated Context awareness proximity-based establishment of wireless communication connection
US9082408B2 (en) 2011-06-13 2015-07-14 Mmodal Ip Llc Speech recognition using loosely coupled components
US20130158977A1 (en) 2011-06-14 2013-06-20 Andrew Senior System and Method for Evaluating Speech Exposure
US20120323967A1 (en) 2011-06-14 2012-12-20 Microsoft Corporation Spelling Using a Fuzzy Pattern Search
US20120321112A1 (en) 2011-06-16 2012-12-20 Apple Inc. Selecting a digital stream based on an audio sample
US20120324391A1 (en) 2011-06-16 2012-12-20 Microsoft Corporation Predictive word completion
US9201862B2 (en) 2011-06-16 2015-12-01 Asociacion Instituto Tecnologico De Informatica Method for symbolic correction in human-machine interfaces
CN102237088B (zh) 2011-06-17 2013-10-23 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法
US20120329529A1 (en) 2011-06-21 2012-12-27 GreatCall, Inc. Gesture activate help process and system
KR101850124B1 (ko) 2011-06-24 2018-04-19 구글 엘엘씨 교차-언어 쿼리 제안을 위한 쿼리 번역 평가
US10984387B2 (en) 2011-06-28 2021-04-20 Microsoft Technology Licensing, Llc Automatic task extraction and calendar entry
US20130007240A1 (en) 2011-06-30 2013-01-03 At&T Intellectual Property I, L.P. Systems and methods to provide availability notifications for denied content requests
EP2892209B1 (en) 2011-06-30 2016-11-09 Huawei Technologies Co., Ltd. Method, apparatus, and system for transmitting media data based on OTT
US20130006633A1 (en) 2011-07-01 2013-01-03 Qualcomm Incorporated Learning speech models for mobile device users
DE102011078642A1 (de) 2011-07-05 2013-01-10 Robert Bosch Gmbh Verfahren zum Prüfen eines m aus n Codes
US9582598B2 (en) 2011-07-05 2017-02-28 Visa International Service Association Hybrid applications utilizing distributed models and views apparatuses, methods and systems
US9367824B2 (en) 2011-07-05 2016-06-14 Sap Se Provisioning and performing action items
DE112011105407T5 (de) 2011-07-05 2014-04-30 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Navigationsvorrichtung
US8209183B1 (en) 2011-07-07 2012-06-26 Google Inc. Systems and methods for correction of text from different input types, sources, and contexts
US8682670B2 (en) 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
US20130010575A1 (en) 2011-07-07 2013-01-10 International Business Machines Corporation Systems and methods of managing electronic calendar applications
US8665212B2 (en) 2011-07-08 2014-03-04 Blackberry Limited Systems and methods for locking an electronic device
US20130018659A1 (en) 2011-07-12 2013-01-17 Google Inc. Systems and Methods for Speech Command Processing
US8812474B2 (en) 2011-07-14 2014-08-19 Nuance Communications, Inc. Methods and apparatus for identifying and providing information sought by a user
US20130024277A1 (en) 2011-07-18 2013-01-24 Teletech Holdings, Inc. Platform to provide advertisements to users of registered products
DE102012212514A1 (de) 2011-07-18 2013-02-21 Logitech Europe S.A. Fernbedienungs-Benutzerschnittstelle für Handgerät
CA2747153A1 (en) 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
US20130024576A1 (en) 2011-07-22 2013-01-24 Microsoft Corporation Proximity-Based Detection
US8781810B2 (en) 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US20130031476A1 (en) 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
US8260117B1 (en) 2011-07-26 2012-09-04 Ooyala, Inc. Automatically recommending content
US9009041B2 (en) 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US8732028B2 (en) 2011-07-26 2014-05-20 Expose Retail Strategies Inc. Scheduling of order processing for remotely ordered goods
EP2551784A1 (en) 2011-07-28 2013-01-30 Roche Diagnostics GmbH Method of controlling the display of a dataset
US9292112B2 (en) 2011-07-28 2016-03-22 Hewlett-Packard Development Company, L.P. Multimodal interface
US20130030966A1 (en) 2011-07-28 2013-01-31 American Express Travel Related Services Company, Inc. Systems and methods for generating and using a digital pass
US9983785B2 (en) * 2011-07-28 2018-05-29 Hewlett-Packard Development Company, L.P. Input mode of a device
EP2737476A4 (en) 2011-07-28 2014-12-10 Blackberry Ltd METHOD AND DEVICES FOR COMMUNICATION RELIEF
US20130030913A1 (en) 2011-07-29 2013-01-31 Guangyu Zhu Deriving Ads Ranking of Local Advertisers based on Distance and Aggregate User Activities
US20130031162A1 (en) 2011-07-29 2013-01-31 Myxer, Inc. Systems and methods for media selection based on social metadata
US20130030789A1 (en) 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN102905499B (zh) 2011-07-29 2015-12-09 纬创资通股份有限公司 竖卡模块及电子装置
US20130035117A1 (en) 2011-08-04 2013-02-07 GM Global Technology Operations LLC System and method for restricting driver mobile device feature usage while vehicle is in motion
WO2013022218A2 (en) 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
WO2013022222A2 (en) 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on motion recognition, and electronic apparatus applying the same
EP4235365A3 (en) 2011-08-05 2023-11-01 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US9417754B2 (en) 2011-08-05 2016-08-16 P4tents1, LLC User interface system, method, and computer program product
US8595015B2 (en) 2011-08-08 2013-11-26 Verizon New Jersey Inc. Audio communication assessment
CN102929710B (zh) 2011-08-09 2017-10-27 中兴通讯股份有限公司 一种调用应用模块的方法及移动终端
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
WO2013022135A1 (en) 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
US8589160B2 (en) 2011-08-19 2013-11-19 Dolbey & Company, Inc. Systems and methods for providing an electronic dictation interface
KR101893151B1 (ko) 2011-08-21 2018-08-30 엘지전자 주식회사 영상 표시 장치, 단말 장치 및 그 동작 방법
US20130055099A1 (en) 2011-08-22 2013-02-28 Rose Yao Unified Messaging System with Integration of Call Log Data
JP5736276B2 (ja) 2011-08-23 2015-06-17 京セラ株式会社 携帯電子機器、制御方法、および、制御プログラム
US8943071B2 (en) 2011-08-23 2015-01-27 At&T Intellectual Property I, L.P. Automatic sort and propagation associated with electronic documents
US9195768B2 (en) 2011-08-26 2015-11-24 Amazon Technologies, Inc. Remote browsing session management
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130055147A1 (en) 2011-08-29 2013-02-28 Salesforce.Com, Inc. Configuration, generation, and presentation of custom graphical user interface components for a virtual cloud-based application
US20130054706A1 (en) 2011-08-29 2013-02-28 Mary Graham Modulation of Visual Notification Parameters Based on Message Activity and Notification Value
CN102955652A (zh) 2011-08-29 2013-03-06 王道平 一种拼音输入方法
US20130054631A1 (en) 2011-08-30 2013-02-28 Microsoft Corporation Adding social network data to search suggestions
US8819012B2 (en) 2011-08-30 2014-08-26 International Business Machines Corporation Accessing anchors in voice site content
US8554729B2 (en) 2011-08-31 2013-10-08 Google Inc. System and method for synchronization of actions in the background of an application
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
US20130061139A1 (en) 2011-09-01 2013-03-07 Google Inc. Server-based spell checking on a user device
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
KR101590386B1 (ko) * 2011-09-07 2016-02-01 네이버 주식회사 검색 서비스 제공 장치 및 방법
EP2774053A4 (en) 2011-09-09 2015-11-18 Google Inc USER INTERFACE FOR A TRANSLATION WEB PAGE
US9596084B2 (en) 2011-09-09 2017-03-14 Facebook, Inc. Initializing camera subsystem for face detection based on sensor inputs
US8788979B2 (en) 2011-09-10 2014-07-22 Microsoft Corporation Secondary actions on a notification
US20130066832A1 (en) 2011-09-12 2013-03-14 Microsoft Corporation Application state synchronization
US10075533B2 (en) 2011-09-15 2018-09-11 Paypal, Inc. Method and apparatus for transferring the state of content using short codes
US20130073346A1 (en) 2011-09-16 2013-03-21 David Chun Identifying companies most closely related to a given company
US20130073286A1 (en) 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US20130073293A1 (en) 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
CN103947219A (zh) 2011-09-21 2014-07-23 瑞典爱立信有限公司 用于传送或用于接收和播放媒体流的方法、设备和计算机程序
US8699963B2 (en) 2011-09-22 2014-04-15 Blackberry Limited Mobile communication device with receiver speaker
US9129606B2 (en) 2011-09-23 2015-09-08 Microsoft Technology Licensing, Llc User query history expansion for improving language model adaptation
US8798995B1 (en) 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
KR20130032966A (ko) 2011-09-26 2013-04-03 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US8812301B2 (en) 2011-09-26 2014-08-19 Xerox Corporation Linguistically-adapted structural query annotation
US20130080251A1 (en) 2011-09-26 2013-03-28 Accenture Global Services Limited Product registration and tracking system
US8996381B2 (en) 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20130086609A1 (en) 2011-09-29 2013-04-04 Viacom International Inc. Integration of an Interactive Virtual Toy Box Advertising Unit and Digital Media Content
AU2015203483A1 (en) 2011-09-30 2015-07-16 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8468022B2 (en) 2011-09-30 2013-06-18 Google Inc. Voice control for asynchronous notifications
KR101617665B1 (ko) 2011-09-30 2016-05-03 애플 인크. 핸즈-프리 상호작용을 위한 자동 적응식 사용자 인터페이스
CN103035251A (zh) 2011-09-30 2013-04-10 西门子公司 一种建立语音转换模型的方法、语音转换的方法及系统
EP2575128A3 (en) 2011-09-30 2013-08-14 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8452602B1 (en) 2011-09-30 2013-05-28 Google Inc. Structuring verbal commands to allow concatenation in a voice interface in a mobile device
US8452597B2 (en) 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US8386926B1 (en) 2011-10-06 2013-02-26 Google Inc. Network-based custom dictionary, auto-correction and text entry preferences
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
US9521175B2 (en) 2011-10-07 2016-12-13 Henk B. Rogers Media tagging
US8738363B2 (en) 2011-10-13 2014-05-27 Xerox Corporation System and method for suggestion mining
CN103858083A (zh) * 2011-10-13 2014-06-11 Lg电子株式会社 输入界面控制设备及其方法
US9021565B2 (en) 2011-10-13 2015-04-28 At&T Intellectual Property I, L.P. Authentication techniques utilizing a computing device
US20130097566A1 (en) 2011-10-17 2013-04-18 Carl Fredrik Alexander BERGLUND System and method for displaying items on electronic devices
US9253282B2 (en) 2011-10-18 2016-02-02 Qualcomm Incorporated Method and apparatus for generating, using, or updating an enriched user profile
US9686088B2 (en) 2011-10-19 2017-06-20 Facebook, Inc. Notification profile configuration based on device orientation
KR101873741B1 (ko) 2011-10-26 2018-07-03 엘지전자 주식회사 휴대 단말기 및 그 제어 방법
US8738376B1 (en) 2011-10-28 2014-05-27 Nuance Communications, Inc. Sparse maximum a posteriori (MAP) adaptation
US20130111330A1 (en) 2011-11-01 2013-05-02 Research In Motion Limited Accelerated compositing of fixed position elements on an electronic device
US9223948B2 (en) 2011-11-01 2015-12-29 Blackberry Limited Combined passcode and activity launch modifier
EP3157205B1 (en) 2011-11-02 2019-03-27 BlackBerry Limited System and method for enabling voice and video communications using a messaging application
US20130110943A1 (en) 2011-11-02 2013-05-02 Apple Inc. Notification and reminder generation, distribution, and storage system
US9471666B2 (en) 2011-11-02 2016-10-18 Salesforce.Com, Inc. System and method for supporting natural language queries and requests against a user's personal data cloud
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
CN103093334A (zh) 2011-11-04 2013-05-08 周超然 活动通知文本识别并自动转换为日历项的方法
JP5681611B2 (ja) 2011-11-09 2015-03-11 株式会社日立製作所 ナビゲーションシステム、ナビゲーション装置、方法及びサーバ
US9711137B2 (en) 2011-11-10 2017-07-18 At&T Intellectual Property I, Lp Network-based background expert
US8863202B2 (en) 2011-11-11 2014-10-14 Sony Corporation System and method for voice driven cross service search using second display
US8996651B2 (en) 2011-11-12 2015-03-31 Yang Pan System and method for delivering media assets in a cloud environment
US8972263B2 (en) 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
WO2013075071A1 (en) 2011-11-18 2013-05-23 Ayman Hammad Mobile wallet store and service injection platform apparatuses, methods and systems
KR101467519B1 (ko) 2011-11-21 2014-12-02 주식회사 케이티 음성 정보를 이용한 컨텐츠 검색 서버 및 방법
CN102510426A (zh) 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
CN103135916A (zh) 2011-11-30 2013-06-05 英特尔公司 手持无线设备中的智能图形界面
KR101830656B1 (ko) 2011-12-02 2018-02-21 엘지전자 주식회사 이동 단말기 및 이의 제어방법
KR101193668B1 (ko) 2011-12-06 2012-12-14 위준성 스마트 기기를 이용한 상황 인식 기반 외국어 습득 및 학습 서비스 제공 방법
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9323746B2 (en) 2011-12-06 2016-04-26 At&T Intellectual Property I, L.P. System and method for collaborative language translation
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US9646313B2 (en) 2011-12-13 2017-05-09 Microsoft Technology Licensing, Llc Gesture-based tagging to view related content
US20130159847A1 (en) 2011-12-14 2013-06-20 International Business Machines Corporation Dynamic Personal Dictionaries for Enhanced Collaboration
WO2013090839A1 (en) 2011-12-14 2013-06-20 Realnetworks, Inc. Customizable media auto-reply systems and methods
US8868529B2 (en) 2011-12-16 2014-10-21 Sap Se N-dimensional locking
US9408011B2 (en) 2011-12-19 2016-08-02 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
CN202453859U (zh) 2011-12-20 2012-09-26 安徽科大讯飞信息科技股份有限公司 一种用于家电的语音交互装置
US20150039295A1 (en) 2011-12-20 2015-02-05 Alona Soschen Natural language processor
US8622836B2 (en) 2011-12-22 2014-01-07 Igt Use of wireless signal strength to determine connection
JP2013131087A (ja) * 2011-12-22 2013-07-04 Sharp Corp 表示装置
JP5715042B2 (ja) 2011-12-27 2015-05-07 京セラ株式会社 装置、方法、及びプログラム
JP2013134430A (ja) 2011-12-27 2013-07-08 Toyota Motor Corp コマンド処理装置、方法、及びプログラム
US8996729B2 (en) 2012-04-12 2015-03-31 Nokia Corporation Method and apparatus for synchronizing tasks performed by multiple devices
US8818810B2 (en) 2011-12-29 2014-08-26 Robert Bosch Gmbh Speaker verification in a health monitoring system
US9218122B2 (en) 2011-12-29 2015-12-22 Rovi Guides, Inc. Systems and methods for transferring settings across devices based on user gestures
US20130173610A1 (en) 2011-12-29 2013-07-04 Microsoft Corporation Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
US9094534B2 (en) 2011-12-29 2015-07-28 Apple Inc. Device, method, and graphical user interface for configuring and implementing restricted interactions with a user interface
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US9189252B2 (en) 2011-12-30 2015-11-17 Microsoft Technology Licensing, Llc Context-based device action prediction
US10739938B2 (en) 2012-01-05 2020-08-11 International Business Machines Corporation Customizing a tag cloud
JP5790509B2 (ja) 2012-01-05 2015-10-07 富士通株式会社 画像再生装置、画像再生プログラム、及び画像再生方法
US8994560B2 (en) 2012-01-06 2015-03-31 International Business Machines Corporation Managing parking space availability
JP5547216B2 (ja) * 2012-01-06 2014-07-09 株式会社東芝 電子機器及び表示制御方法
JP5887937B2 (ja) 2012-01-06 2016-03-16 株式会社リコー 出力制御システム、出力制御方法、出力制御装置、および出力制御プログラム
KR101590332B1 (ko) 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US9547832B2 (en) 2012-01-10 2017-01-17 Oracle International Corporation Identifying individual intentions and determining responses to individual intentions
US8825020B2 (en) 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
CN103209369A (zh) 2012-01-16 2013-07-17 晨星软件研发(深圳)有限公司 电子装置的声控系统以及相关控制方法
US8812302B2 (en) 2012-01-17 2014-08-19 Google Inc. Techniques for inserting diacritical marks to text input via a user device
US9418674B2 (en) 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
JP2013148419A (ja) 2012-01-18 2013-08-01 Clarion Co Ltd 誘導システム、携帯端末装置および車載装置
CA2786502C (en) 2012-01-19 2017-11-21 Research In Motion Limited Next letter prediction for virtual keyboard
US20130204813A1 (en) 2012-01-20 2013-08-08 Fluential, Llc Self-learning, context aware virtual assistants, systems and methods
US9099098B2 (en) 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
US8571528B1 (en) 2012-01-25 2013-10-29 Intuit Inc. Method and system to automatically create a contact with contact details captured during voice calls
EP2807454A4 (en) 2012-01-26 2015-08-19 Telecomm Systems Inc NAVIGATION GUIDANCE
US20130197914A1 (en) 2012-01-26 2013-08-01 Microtechnologies Llc D/B/A Microtech Voice activated audio control system and associated method of use
JP5682578B2 (ja) 2012-01-27 2015-03-11 日本電気株式会社 音声認識結果修正支援システム、音声認識結果修正支援方法および音声認識結果修正支援プログラム
US8745760B2 (en) 2012-01-30 2014-06-03 Cisco Technology, Inc. Malware classification for unknown executable files
US20140310365A1 (en) 2012-01-31 2014-10-16 Global Relay Communications Inc. System and Method for Tracking Messages in a Messaging Service
US8626748B2 (en) 2012-02-03 2014-01-07 International Business Machines Corporation Combined word tree text visualization system
US9253135B2 (en) 2012-02-07 2016-02-02 Google Inc. Notification management
KR101900319B1 (ko) 2012-02-07 2018-09-19 삼성전자 주식회사 서비스 연동 수행 방법과 이를 위한 시스템
CN102629246B (zh) 2012-02-10 2017-06-27 百纳(武汉)信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
US8995960B2 (en) 2012-02-10 2015-03-31 Dedo Interactive, Inc. Mobile device authentication
US10209954B2 (en) 2012-02-14 2019-02-19 Microsoft Technology Licensing, Llc Equal access to speech and touch input
US8533266B2 (en) 2012-02-14 2013-09-10 Google Inc. User presence detection and event discovery
CN103247290A (zh) 2012-02-14 2013-08-14 富泰华工业(深圳)有限公司 通信装置及其控制方法
CN103259907A (zh) 2012-02-15 2013-08-21 深圳富泰宏精密工业有限公司 情景模式切换系统及方法
JP2013167806A (ja) 2012-02-16 2013-08-29 Toshiba Corp 情報通知支援装置、情報通知支援方法、および、プログラム
US8682932B2 (en) 2012-02-16 2014-03-25 Oracle International Corporation Mechanisms for searching enterprise data graphs
US8793136B2 (en) 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US8832092B2 (en) 2012-02-17 2014-09-09 Bottlenose, Inc. Natural language processing optimized for micro content
JP6215845B2 (ja) * 2012-02-17 2017-10-18 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 急性肺損傷(ali)/急性呼吸窮迫症候群(ards)アセスメント及びモニタリング
US8453058B1 (en) 2012-02-20 2013-05-28 Google Inc. Crowd-sourced audio shortcuts
US9064497B2 (en) 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
KR101889836B1 (ko) 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
JP2013174987A (ja) * 2012-02-24 2013-09-05 Hitachi Consumer Electronics Co Ltd ネットワーク端末システム、及び端末装置
WO2013123572A1 (en) 2012-02-24 2013-08-29 Research In Motion Limited Touchscreen keyboard providing word predictions in partitions of the touchscreen keyboard in proximate association with candidate letters
JP6053097B2 (ja) 2012-02-28 2016-12-27 シャープ株式会社 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム
US9026441B2 (en) 2012-02-29 2015-05-05 Nant Holdings Ip, Llc Spoken control for user construction of complex behaviors
US10984337B2 (en) 2012-02-29 2021-04-20 Microsoft Technology Licensing, Llc Context-based search query formation
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US20130235987A1 (en) 2012-03-06 2013-09-12 Jose Arroniz-Escobar Automatic machine to machine distribution of subscriber contact information
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
EP2648364B1 (en) 2012-03-07 2018-06-06 Accenture Global Services Limited Communication collaboration
US20130238326A1 (en) 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US9639174B2 (en) 2012-03-09 2017-05-02 Paypal, Inc. Mobile device display content based on shaking the device
US20150006157A1 (en) 2012-03-14 2015-01-01 Nec Corporation Term synonym acquisition method and term synonym acquisition apparatus
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
KR101980173B1 (ko) 2012-03-16 2019-05-20 삼성전자주식회사 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법
US9223497B2 (en) 2012-03-16 2015-12-29 Blackberry Limited In-context word prediction and word correction
EP2639792A1 (en) 2012-03-16 2013-09-18 France Télécom Voice control of applications by associating user input with action-context idendifier pairs
US8898064B1 (en) 2012-03-19 2014-11-25 Rawles Llc Identifying candidate passwords from captured audio
JP5870790B2 (ja) 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9414183B2 (en) 2012-03-20 2016-08-09 Nokia Technologies Oy Method and apparatus for providing group context sensing and inference
CN102663016B (zh) 2012-03-21 2015-12-16 上海触乐信息科技有限公司 电子设备上输入候选框进行输入信息扩展的系统及其方法
JP2013200423A (ja) 2012-03-23 2013-10-03 Toshiba Corp 音声対話支援装置、方法、およびプログラム
US9609395B2 (en) 2012-03-26 2017-03-28 Max Abecassis Second screen subtitles function
US9147433B2 (en) 2012-03-26 2015-09-29 Max Abecassis Identifying a locale depicted within a video
JP5965175B2 (ja) 2012-03-27 2016-08-03 ヤフー株式会社 応答生成装置、応答生成方法および応答生成プログラム
US8681950B2 (en) 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
US10237696B2 (en) 2012-03-29 2019-03-19 Intel Corporation Location-based assistance for personal planning
US9230257B2 (en) 2012-03-30 2016-01-05 Sap Se Systems and methods for customer relationship management
US8881269B2 (en) 2012-03-31 2014-11-04 Apple Inc. Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader
CN103366741B (zh) 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
ITRM20120142A1 (it) 2012-04-05 2013-10-06 X2Tv S R L Procedimento e sistema per la raccolta in tempo reale di un feedback da parte del pubblico di una trasmissione televisiva o radiofonica
US8996356B1 (en) 2012-04-10 2015-03-31 Google Inc. Techniques for predictive input method editors
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US8892419B2 (en) 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
US20130275117A1 (en) 2012-04-11 2013-10-17 Morgan H. Winer Generalized Phonetic Transliteration Engine
US10964320B2 (en) 2012-04-13 2021-03-30 View, Inc. Controlling optically-switchable devices
US9685160B2 (en) 2012-04-16 2017-06-20 Htc Corporation Method for offering suggestion during conversation, electronic device using the same, and non-transitory storage medium
US20130282709A1 (en) 2012-04-18 2013-10-24 Yahoo! Inc. Method and system for query suggestion
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US20130279724A1 (en) 2012-04-19 2013-10-24 Sony Computer Entertainment Inc. Auto detection of headphone orientation
EP2839391A4 (en) 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
US20130283199A1 (en) 2012-04-24 2013-10-24 Microsoft Corporation Access to an Application Directly from a Lock Screen
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9785883B2 (en) 2012-04-27 2017-10-10 Excalibur Ip, Llc Avatars for use with personalized generalized content recommendations
CN102682771B (zh) 2012-04-27 2013-11-20 厦门思德电子科技有限公司 一种适用于云平台的多语音控制方法
TWI511537B (zh) 2012-04-27 2015-12-01 Wistron Corp 智慧型電視系統、智慧型電視、行動裝置及其輸入操作方法
JP6001758B2 (ja) 2012-04-27 2016-10-05 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. ユーザからのオーディオ入力
US20130285916A1 (en) 2012-04-30 2013-10-31 Research In Motion Limited Touchscreen keyboard providing word predictions at locations in association with candidate letters
US20130289991A1 (en) 2012-04-30 2013-10-31 International Business Machines Corporation Application of Voice Tags in a Social Media Context
KR101946364B1 (ko) 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
CN103384290A (zh) 2012-05-03 2013-11-06 中兴通讯股份有限公司 具备定位导航功能的移动终端及其快捷定位导航的方法
US9058332B1 (en) 2012-05-04 2015-06-16 Google Inc. Blended ranking of dissimilar populations using an N-furcated normalization technique
CN102694909A (zh) 2012-05-07 2012-09-26 深圳桑菲消费通信有限公司 一种手机的智能锁屏系统和方法
KR101977072B1 (ko) 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US9406299B2 (en) 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US8732560B2 (en) 2012-05-08 2014-05-20 Infineon Technologies Ag Method and device for correction of ternary stored binary data
WO2013169842A2 (en) 2012-05-09 2013-11-14 Yknots Industries Llc Device, method, and graphical user interface for selecting object within a group of objects
WO2013169843A1 (en) 2012-05-09 2013-11-14 Yknots Industries Llc Device, method, and graphical user interface for manipulating framed graphical objects
AU2013259606B2 (en) 2012-05-09 2016-06-02 Apple Inc. Device, method, and graphical user interface for displaying additional information in response to a user contact
US8725808B2 (en) 2012-05-10 2014-05-13 Intel Mobile Communications GmbH Method for transferring data between a first device and a second device
US9467202B2 (en) 2012-05-10 2016-10-11 Lg Electronics Inc. Method and apparatus for downloading content using NFC
JP2013238935A (ja) * 2012-05-11 2013-11-28 Sharp Corp 入力装置、入力装置の制御方法、制御プログラム、および記録媒体
JP5996262B2 (ja) 2012-05-11 2016-09-21 シャープ株式会社 文字入力装置、電子機器、制御方法、制御プログラムおよび記録媒体
US20130304476A1 (en) 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9002768B2 (en) 2012-05-12 2015-04-07 Mikhail Fedorov Human-computer interface system
US8897822B2 (en) 2012-05-13 2014-11-25 Wavemarket, Inc. Auto responder
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US20130308922A1 (en) 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
US20130307855A1 (en) 2012-05-16 2013-11-21 Mathew J. Lamb Holographic story telling
CN103426428B (zh) 2012-05-18 2016-05-25 华硕电脑股份有限公司 语音识别方法及系统
TWI466101B (zh) 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US20120296638A1 (en) 2012-05-18 2012-11-22 Ashish Patwa Method and system for quickly recognizing and responding to user intents and questions from natural language input using intelligent hierarchical processing and personalized adaptive semantic interface
US9247306B2 (en) 2012-05-21 2016-01-26 Intellectual Ventures Fund 83 Llc Forming a multimedia product using video chat
US9406084B2 (en) 2012-05-23 2016-08-02 Specialty's Café & Bakery, Inc. Methods for submitting a food order remotely
US8484573B1 (en) 2012-05-23 2013-07-09 Google Inc. Predictive virtual keyboard
US8850037B2 (en) 2012-05-24 2014-09-30 Fmr Llc Communication session transfer between devices
US9374448B2 (en) 2012-05-27 2016-06-21 Qualcomm Incorporated Systems and methods for managing concurrent audio messages
US9173074B2 (en) 2012-05-27 2015-10-27 Qualcomm Incorporated Personal hub presence and response
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9582146B2 (en) 2012-05-29 2017-02-28 Nokia Technologies Oy Causing display of search results
US20130325436A1 (en) 2012-05-29 2013-12-05 Wright State University Large Scale Distributed Syntactic, Semantic and Lexical Language Models
US9307293B2 (en) 2012-05-30 2016-04-05 Palo Alto Research Center Incorporated Collaborative video application for remote servicing
TWI492221B (zh) 2012-05-30 2015-07-11 友達光電股份有限公司 遙控裝置、遙控系統及遙控裝置之控制方法
US20130325447A1 (en) 2012-05-31 2013-12-05 Elwha LLC, a limited liability corporation of the State of Delaware Speech recognition adaptation systems based on adaptation data
US8843371B2 (en) 2012-05-31 2014-09-23 Elwha Llc Speech recognition adaptation systems based on adaptation data
CN102750087A (zh) 2012-05-31 2012-10-24 华为终端有限公司 控制语音识别功能的方法、装置和终端设备
US8768693B2 (en) 2012-05-31 2014-07-01 Yahoo! Inc. Automatic tag extraction from audio annotated photos
CN103455234A (zh) 2012-06-01 2013-12-18 腾讯科技(深圳)有限公司 显示应用程序界面的方法及装置
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US20130321267A1 (en) 2012-06-04 2013-12-05 Apple Inc. Dynamically changing a character associated with a key of a keyboard
US9311750B2 (en) 2012-06-05 2016-04-12 Apple Inc. Rotation operations in a mapping application
US9997069B2 (en) 2012-06-05 2018-06-12 Apple Inc. Context-aware voice guidance
US9230556B2 (en) 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US9043150B2 (en) 2012-06-05 2015-05-26 Apple Inc. Routing applications for navigation
US8725823B2 (en) 2012-06-05 2014-05-13 Forget You Not, LLC Location-based communications
US8515750B1 (en) 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
US20130325343A1 (en) 2012-06-05 2013-12-05 Apple Inc. Mapping application with novel search field
US10444836B2 (en) 2012-06-07 2019-10-15 Nook Digital, Llc Accessibility aids for users of electronic devices
US9071564B2 (en) 2012-06-07 2015-06-30 Apple Inc. Data synchronization using mail and push notification services
US9674331B2 (en) 2012-06-08 2017-06-06 Apple Inc. Transmitting data from an automated assistant to an accessory
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US20130332168A1 (en) 2012-06-08 2013-12-12 Samsung Electronics Co., Ltd. Voice activated search and control for applications
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9002380B2 (en) 2012-06-08 2015-04-07 Apple Inc. Proximity-based notifications in a mobile device
WO2013185107A1 (en) 2012-06-08 2013-12-12 Spotify Ab Systems and methods for recognizing ambiguity in metadata
US20130332159A1 (en) 2012-06-08 2013-12-12 Apple Inc. Using fan throttling to enhance dictation accuracy
EP2675147B1 (en) 2012-06-11 2022-03-23 Samsung Electronics Co., Ltd. Service providing system in a vehicle including display device and mobile device, and method for providing service using the same
US9916514B2 (en) 2012-06-11 2018-03-13 Amazon Technologies, Inc. Text recognition driven functionality
US9183845B1 (en) 2012-06-12 2015-11-10 Amazon Technologies, Inc. Adjusting audio signals based on a specific frequency range associated with environmental noise characteristics
JP5921348B2 (ja) 2012-06-13 2016-05-24 三菱電機株式会社 映像表示端末
CN104603773A (zh) 2012-06-14 2015-05-06 诺基亚公司 基于用户之间的社交扩散使兴趣标签与媒体项关联的方法和设备
CN104488275B (zh) 2012-06-14 2018-07-03 弗莱克斯电子有限责任公司 用于定制电视内容的方法和系统
US20130339454A1 (en) 2012-06-15 2013-12-19 Michael Walker Systems and methods for communicating between multiple access devices
JP5819261B2 (ja) 2012-06-19 2015-11-18 株式会社Nttドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
US9734839B1 (en) 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
US9185501B2 (en) 2012-06-20 2015-11-10 Broadcom Corporation Container-located information transfer module
US20140012574A1 (en) 2012-06-21 2014-01-09 Maluuba Inc. Interactive timeline for presenting and organizing tasks
US20130347018A1 (en) 2012-06-21 2013-12-26 Amazon Technologies, Inc. Providing supplemental content with active media
US20130347029A1 (en) 2012-06-21 2013-12-26 United Video Properties, Inc. Systems and methods for navigating to content without an advertisement
US20130346347A1 (en) 2012-06-22 2013-12-26 Google Inc. Method to Predict a Communicative Action that is Most Likely to be Executed Given a Context
US9813882B1 (en) 2012-06-25 2017-11-07 Amazon Technologies, Inc. Mobile notifications based upon notification content
US20130346068A1 (en) 2012-06-25 2013-12-26 Apple Inc. Voice-Based Image Tagging and Searching
WO2014002128A1 (ja) 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
US20130342672A1 (en) 2012-06-25 2013-12-26 Amazon Technologies, Inc. Using gaze determination with device input
US8606577B1 (en) 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
US8819841B2 (en) 2012-06-26 2014-08-26 Google Inc. Automated accounts for media playback
US20150201064A1 (en) 2012-06-26 2015-07-16 Blackberry Limited Methods and apparatus to detect and add impact events to a calendar program
US20140006153A1 (en) 2012-06-27 2014-01-02 Infosys Limited System for making personalized offers for business facilitation of an entity and methods thereof
CN102801853B (zh) 2012-06-27 2017-02-15 宇龙计算机通信科技(深圳)有限公司 移动终端和自动触发任务执行方法
US9141504B2 (en) 2012-06-28 2015-09-22 Apple Inc. Presenting status data received from multiple devices
JP6050625B2 (ja) 2012-06-28 2016-12-21 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置及び情報処理方法、コンピューター・プログラム、並びに情報通信システム
US20140002338A1 (en) 2012-06-28 2014-01-02 Intel Corporation Techniques for pose estimation and false positive filtering for gesture recognition
KR101961139B1 (ko) 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
JP5852930B2 (ja) 2012-06-29 2016-02-03 Kddi株式会社 入力文字推定装置およびプログラム
US9195383B2 (en) 2012-06-29 2015-11-24 Spotify Ab Systems and methods for multi-path control signals for media presentation devices
US9426229B2 (en) 2012-06-29 2016-08-23 Nokia Technologies Oy Apparatus and method for selection of a device for content sharing operations
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9996628B2 (en) 2012-06-29 2018-06-12 Verisign, Inc. Providing audio-activated resource access for user devices based on speaker voiceprint
US10620797B2 (en) 2012-06-29 2020-04-14 Spotify Ab Systems and methods for multi-context media control and playback
US20140006012A1 (en) 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
CN103533143A (zh) 2012-07-03 2014-01-22 联想(北京)有限公司 一种信息处理方法及电子设备
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
KR20140004515A (ko) 2012-07-03 2014-01-13 삼성전자주식회사 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법
KR101972955B1 (ko) 2012-07-03 2019-04-26 삼성전자 주식회사 음성을 이용한 사용자 디바이스들 간 서비스 연결 방법 및 장치
US9064493B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
CN103543902A (zh) 2012-07-09 2014-01-29 上海博路信息技术有限公司 一种短信地址的地图显示方法
CN103544140A (zh) 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
US20140019460A1 (en) 2012-07-12 2014-01-16 Yahoo! Inc. Targeted search suggestions
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
WO2014015305A1 (en) 2012-07-20 2014-01-23 Intertrust Technologies Corporation Information targeting systems and methods
US20140026101A1 (en) 2012-07-20 2014-01-23 Barnesandnoble.Com Llc Accessible Menu Navigation Techniques For Electronic Devices
US9442687B2 (en) 2012-07-23 2016-09-13 Korea Advanced Institute Of Science And Technology Method and apparatus for moving web object based on intent
US20140028477A1 (en) 2012-07-24 2014-01-30 Apple Inc. Vehicle location system
US9953584B2 (en) 2012-07-24 2018-04-24 Nook Digital, Llc Lighting techniques for display devices
US8892480B2 (en) 2012-07-25 2014-11-18 Aro, Inc. Contextual information provider
US8589911B1 (en) 2012-07-26 2013-11-19 Google Inc. Intent fulfillment
JP2014026629A (ja) 2012-07-26 2014-02-06 Panasonic Corp 入力装置及び入力支援方法
US8949334B2 (en) 2012-07-26 2015-02-03 Microsoft Corporation Push-based recommendations
US8922034B2 (en) 2012-07-27 2014-12-30 Illinois Tool Works Inc. Power converter for engine generator
US8442821B1 (en) 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
RU2635046C2 (ru) 2012-07-27 2017-11-08 Сони Корпорейшн Система обработки информации и носитель информации
US8990343B2 (en) 2012-07-30 2015-03-24 Google Inc. Transferring a state of an application from a first computing device to a second computing device
US20140039893A1 (en) 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US20140035823A1 (en) 2012-08-01 2014-02-06 Apple Inc. Dynamic Context-Based Language Determination
US8831957B2 (en) 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US10108725B2 (en) 2012-08-02 2018-10-23 Rule 14 Real-time and adaptive data mining
US8953757B2 (en) 2012-08-06 2015-02-10 Angel.Com Incorporated Preloading contextual information for applications using a conversation assistant
US9390174B2 (en) 2012-08-08 2016-07-12 Google Inc. Search result ranking and presentation
CN104704797B (zh) 2012-08-10 2018-08-10 纽昂斯通讯公司 用于电子设备的虚拟代理通信
TWI442081B (zh) 2012-08-10 2014-06-21 Acer Inc 多裝置間轉移工作的方法及手持通訊裝置
US20140052791A1 (en) 2012-08-14 2014-02-20 International Business Machines Corporation Task Based Filtering of Unwanted Electronic Communications
US10163058B2 (en) 2012-08-14 2018-12-25 Sri International Method, system and device for inferring a mobile user's current context and proactively providing assistance
US20140053101A1 (en) 2012-08-15 2014-02-20 Ge Aviation Systems Llc Methods for displaying on a graphical user interface
WO2014028735A2 (en) 2012-08-15 2014-02-20 Ie Business Plains, Llc Online collaborative suite
CN104170397B (zh) 2012-08-16 2017-10-24 纽昂斯通讯公司 一种在电子设备上呈现搜索结果的方法和计算机存储介质
US9031848B2 (en) 2012-08-16 2015-05-12 Nuance Communications, Inc. User interface for searching a bundled service content data source
US9497515B2 (en) 2012-08-16 2016-11-15 Nuance Communications, Inc. User interface for entertainment systems
US9292487B1 (en) 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
KR101922464B1 (ko) 2012-08-16 2018-11-27 삼성전자주식회사 메시지 송수신 방법 및 그 전자장치
CN102820033B (zh) 2012-08-17 2013-12-04 南京大学 一种声纹识别方法
US20160357790A1 (en) 2012-08-20 2016-12-08 InsideSales.com, Inc. Resolving and merging duplicate records using machine learning
US20140279739A1 (en) 2013-03-15 2014-09-18 InsideSales.com, Inc. Resolving and merging duplicate records using machine learning
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US20150199960A1 (en) 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition
US20150227505A1 (en) 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
JP6393021B2 (ja) 2012-08-28 2018-09-19 京セラ株式会社 電子機器、制御方法、及び制御プログラム
US9049295B1 (en) 2012-08-28 2015-06-02 West Corporation Intelligent interactive voice response system for processing customer communications
WO2014033350A1 (en) 2012-08-28 2014-03-06 Nokia Corporation Discovery method and apparatuses and system for discovery
US9390370B2 (en) 2012-08-28 2016-07-12 International Business Machines Corporation Training deep neural network acoustic models using distributed hessian-free optimization
US9026425B2 (en) 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
KR102081925B1 (ko) 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
CN102866828B (zh) 2012-08-29 2015-11-25 腾讯科技(深圳)有限公司 一种终端控制方法和设备
US9218333B2 (en) 2012-08-31 2015-12-22 Microsoft Technology Licensing, Llc Context sensitive auto-correction
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US20140074589A1 (en) 2012-09-02 2014-03-13 Aaron David NIELSEN System and method for the selection and delivery of a customized consumer offer or engagement dialog by a live customer service representative in communication with a consumer
KR101398218B1 (ko) 2012-09-03 2014-05-22 경희대학교 산학협력단 감정 음성 인식장치 및 방법
CN103493500A (zh) 2012-09-04 2014-01-01 华为终端有限公司 媒体播放方法、控制点和终端
US8826415B2 (en) 2012-09-04 2014-09-02 Apple Inc. Automated device access
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US9325809B1 (en) 2012-09-07 2016-04-26 Mindmeld, Inc. Audio recall during voice conversations
US8600746B1 (en) 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
EP2706458A1 (en) 2012-09-10 2014-03-12 Canon Kabushiki Kaisha Method and device for controlling communication between applications in a web runtime environment
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US20150088523A1 (en) 2012-09-10 2015-03-26 Google Inc. Systems and Methods for Designing Voice Applications
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US20140074470A1 (en) 2012-09-11 2014-03-13 Google Inc. Phonetic pronunciation
US20140074472A1 (en) 2012-09-12 2014-03-13 Chih-Hung Lin Voice control system with portable voice control device
WO2014040263A1 (en) 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
US20140078065A1 (en) 2012-09-15 2014-03-20 Ahmet Akkok Predictive Keyboard With Suppressed Keys
JP6057637B2 (ja) 2012-09-18 2017-01-11 株式会社アイ・オー・データ機器 携帯型情報端末装置、機能切替方法、および機能切替プログラム
US9081482B1 (en) 2012-09-18 2015-07-14 Google Inc. Text input suggestion ranking
US10656808B2 (en) 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
WO2014047161A2 (en) 2012-09-18 2014-03-27 Google Inc. Posture-adaptive selection
US9519641B2 (en) 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9105268B2 (en) 2012-09-19 2015-08-11 24/7 Customer, Inc. Method and apparatus for predicting intent in IVR using natural language queries
US8769651B2 (en) 2012-09-19 2014-07-01 Secureauth Corporation Mobile multifactor single-sign-on authentication
US8823507B1 (en) 2012-09-19 2014-09-02 Amazon Technologies, Inc. Variable notification alerts
US10042603B2 (en) 2012-09-20 2018-08-07 Samsung Electronics Co., Ltd. Context aware service provision method and apparatus of user device
KR101919792B1 (ko) 2012-09-20 2018-11-19 엘지전자 주식회사 휴대 단말기 및 그 제어 방법
US9076450B1 (en) 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
US20140211944A1 (en) 2012-09-24 2014-07-31 Daniel Joseph Lutz System and method of protecting, storing and decrypting keys over a computerized network
US8983383B1 (en) 2012-09-25 2015-03-17 Rawles Llc Providing hands-free service to multiple devices
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9092415B2 (en) 2012-09-25 2015-07-28 Rovi Guides, Inc. Systems and methods for automatic program recommendations based on user interactions
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
JP6068901B2 (ja) 2012-09-26 2017-01-25 京セラ株式会社 情報端末、音声操作プログラムおよび音声操作方法
JP2014072586A (ja) 2012-09-27 2014-04-21 Sharp Corp 表示装置、表示方法、テレビジョン受像機、プログラム、および、記録媒体
CN104469255A (zh) 2013-09-16 2015-03-25 杜比实验室特许公司 改进的音频或视频会议
US8498864B1 (en) 2012-09-27 2013-07-30 Google Inc. Methods and systems for predicting a text
US20140087711A1 (en) 2012-09-27 2014-03-27 Aegis Mobility, Inc. Mobile device context incorporating near field communications
KR20140042994A (ko) 2012-09-28 2014-04-08 한국전자통신연구원 가상 에이전트와의 대화 내용에서 자동으로 추출되는 개인 프로파일링 정보를 이용한 자동학습 기반의 인공지능 대화 시스템
US10824310B2 (en) 2012-12-20 2020-11-03 Sri International Augmented reality virtual personal assistant for external representation
US9052964B2 (en) 2012-09-28 2015-06-09 International Business Machines Corporation Device operability enhancement with alternative device utilization
US10096316B2 (en) 2013-11-27 2018-10-09 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US8806613B2 (en) 2012-09-28 2014-08-12 Intel Corporation Intelligent task assignment and authorization systems and methods
US10276157B2 (en) 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US20140095171A1 (en) 2012-10-01 2014-04-03 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US20140095172A1 (en) 2012-10-01 2014-04-03 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US8645128B1 (en) 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9367236B2 (en) 2012-10-05 2016-06-14 Google Inc. System and method for processing touch actions
US9230560B2 (en) 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
KR102009423B1 (ko) 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
US8606568B1 (en) 2012-10-10 2013-12-10 Google Inc. Evaluating pronouns in context
CN102915731B (zh) 2012-10-10 2019-02-05 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
JP6066471B2 (ja) 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
US10275513B1 (en) 2012-10-12 2019-04-30 Google Llc Providing application functionality
KR101451942B1 (ko) 2012-10-16 2014-10-22 크루셜텍 (주) 카테고리를 변경하는 화면 제어 방법 및 이를 구현하는 셋톱박스
US8713433B1 (en) 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
CN103727948B (zh) 2012-10-16 2016-08-17 北京掌行通信息技术有限公司 乘车导航的实时诱导方法
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
CN102882752A (zh) 2012-10-19 2013-01-16 天津光宏科技有限公司 基于物联网及安卓系统的智能家居系统及控制方法
WO2014064531A1 (en) 2012-10-22 2014-05-01 Spotify Ab Systems and methods for pre-fetching media content
EP2909699A1 (en) 2012-10-22 2015-08-26 VID SCALE, Inc. User presence detection in mobile devices
US9305439B2 (en) 2012-10-25 2016-04-05 Google Inc. Configurable indicator on computing device
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9459176B2 (en) 2012-10-26 2016-10-04 Azima Holdings, Inc. Voice controlled vibration data analyzer systems and methods
US20140122086A1 (en) 2012-10-26 2014-05-01 Microsoft Corporation Augmenting speech recognition with depth imaging
US8655307B1 (en) 2012-10-26 2014-02-18 Lookout, Inc. System and method for developing, updating, and using user device behavioral context models to modify user, device, and application state, settings and behavior for enhanced user security
US9158560B2 (en) 2012-10-26 2015-10-13 Verizon Patent And Licensing Inc. Dynamic application arranger
US20150228274A1 (en) 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
KR20140054643A (ko) 2012-10-29 2014-05-09 삼성전자주식회사 음성인식장치 및 음성인식방법
KR102117841B1 (ko) 2012-10-30 2020-06-02 삼성전자주식회사 전자장치 및 그 제어방법
KR101967917B1 (ko) 2012-10-30 2019-08-13 삼성전자주식회사 음성을 인식하는 전자 장치 및 방법
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
WO2014070872A2 (en) 2012-10-30 2014-05-08 Robert Bosch Gmbh System and method for multimodal interaction with reduced distraction in operating vehicles
WO2014071043A1 (en) 2012-10-31 2014-05-08 DoWhatILikeBest, LLC Favorite and serendipitous event correlation and notification
US8606576B1 (en) 2012-11-02 2013-12-10 Google Inc. Communication log with extracted keywords from speech-to-text processing
US9093069B2 (en) 2012-11-05 2015-07-28 Nuance Communications, Inc. Privacy-sensitive speech model creation via aggregation of multiple user models
JP6018881B2 (ja) 2012-11-07 2016-11-02 株式会社日立製作所 ナビゲーション装置、及びナビゲーション方法
US9734249B2 (en) 2012-11-07 2017-08-15 Intertrust Technologies Corporation Personalized data management systems and methods
KR101510860B1 (ko) 2012-11-08 2015-04-10 아주대학교산학협력단 사용자 의도 파악 어플리케이션 서비스 방법 및 서버와 이를 이용한 사용자 의도 파악 어플리케이션 서비스 시스템
US20140136987A1 (en) 2012-11-09 2014-05-15 Apple Inc. Generation of a user interface based on contacts
EP2917823B1 (en) * 2012-11-09 2019-02-06 Microsoft Technology Licensing, LLC Portable device and control method thereof
US9275642B2 (en) 2012-11-13 2016-03-01 Unified Computer Intelligence Corporation Voice-operated internet-ready ubiquitous computing device and method thereof
KR20140060995A (ko) 2012-11-13 2014-05-21 삼성전자주식회사 상황별 거절 메시지 제공 방법 및 이를 지원하는 단말기
US9247387B2 (en) 2012-11-13 2016-01-26 International Business Machines Corporation Proximity based reminders
US9235321B2 (en) 2012-11-14 2016-01-12 Facebook, Inc. Animation sequence associated with content item
KR20140061803A (ko) 2012-11-14 2014-05-22 삼성전자주식회사 프로젝션 장치
KR101709187B1 (ko) 2012-11-14 2017-02-23 한국전자통신연구원 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
US9798799B2 (en) 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
US9085303B2 (en) 2012-11-15 2015-07-21 Sri International Vehicle personal assistant
US9032219B2 (en) 2012-11-16 2015-05-12 Nuance Communications, Inc. Securing speech recognition data
KR102028702B1 (ko) 2012-11-16 2019-10-04 삼성전자주식회사 현재의 상태에 따른 응답 메시지를 송신하는 전자 장치 및 방법
US9378456B2 (en) 2012-11-19 2016-06-28 Microsoft Technology Licensing, Llc Task completion
JP2014102669A (ja) 2012-11-20 2014-06-05 Toshiba Corp 情報処理装置、情報処理方法およびプログラム
KR20140064246A (ko) 2012-11-20 2014-05-28 한국전자통신연구원 착용형 디스플레이 장치
US11237719B2 (en) 2012-11-20 2022-02-01 Samsung Electronics Company, Ltd. Controlling remote electronic device with wearable electronic device
US10551928B2 (en) 2012-11-20 2020-02-04 Samsung Electronics Company, Ltd. GUI transitions on wearable electronic device
US9251713B1 (en) 2012-11-20 2016-02-02 Anthony J. Giovanniello System and process for assessing a user and for assisting a user in rehabilitation
KR101995428B1 (ko) 2012-11-20 2019-07-02 엘지전자 주식회사 이동 단말기 및 그 제어방법
US8965754B2 (en) 2012-11-20 2015-02-24 International Business Machines Corporation Text prediction using environment hints
WO2014078965A1 (en) 2012-11-22 2014-05-30 8303142 Canada Inc. System and method for managing several mobile devices simultaneously
US9875741B2 (en) 2013-03-15 2018-01-23 Google Llc Selective speech recognition for chat and digital personal assistant systems
WO2014084413A1 (ko) 2012-11-28 2014-06-05 엘지전자 주식회사 가전 기기 구동 장치 및 방법
US20140146200A1 (en) 2012-11-28 2014-05-29 Research In Motion Limited Entries to an electronic calendar
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US20140149118A1 (en) 2012-11-28 2014-05-29 Lg Electronics Inc. Apparatus and method for driving electric device using speech recognition
MX350344B (es) 2012-11-29 2017-09-05 Edsense Llc Sistema y metodo para mostrar multiples aplicaciones.
JP2014109889A (ja) 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム
US9589149B2 (en) 2012-11-30 2017-03-07 Microsoft Technology Licensing, Llc Combining personalization and privacy locally on devices
US9549323B2 (en) 2012-12-03 2017-01-17 Samsung Electronics Co., Ltd. Method and mobile terminal for controlling screen lock
US9159319B1 (en) 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9026429B2 (en) 2012-12-05 2015-05-05 Facebook, Inc. Systems and methods for character string auto-suggestion based on degree of difficulty
US9819786B2 (en) 2012-12-05 2017-11-14 Facebook, Inc. Systems and methods for a symbol-adaptable keyboard
US8930181B2 (en) 2012-12-06 2015-01-06 Prashant Parikh Automatic dynamic contextual data entry completion
US8615221B1 (en) 2012-12-06 2013-12-24 Google Inc. System and method for selection of notification techniques in an electronic device
US20140164476A1 (en) 2012-12-06 2014-06-12 At&T Intellectual Property I, Lp Apparatus and method for providing a virtual assistant
US9244905B2 (en) 2012-12-06 2016-01-26 Microsoft Technology Licensing, Llc Communication context based predictive-text suggestion
US20140163951A1 (en) 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition
KR102091003B1 (ko) 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US9471559B2 (en) 2012-12-10 2016-10-18 International Business Machines Corporation Deep analysis of natural language questions for question answering system
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US20140164532A1 (en) 2012-12-11 2014-06-12 Nuance Communications, Inc. Systems and methods for virtual agent participation in multiparty conversation
US9148394B2 (en) 2012-12-11 2015-09-29 Nuance Communications, Inc. Systems and methods for user interface presentation of virtual agent
EP2912567A4 (en) 2012-12-11 2016-05-18 Nuance Communications Inc SYSTEM AND METHODS FOR VIRTUAL AGENT RECOMMENDATION FOR MULTIPLE PEOPLE
US9679300B2 (en) 2012-12-11 2017-06-13 Nuance Communications, Inc. Systems and methods for virtual agent recommendation for multiple persons
US20140164953A1 (en) 2012-12-11 2014-06-12 Nuance Communications, Inc. Systems and methods for invoking virtual agent
US9276802B2 (en) 2012-12-11 2016-03-01 Nuance Communications, Inc. Systems and methods for sharing information between virtual agents
US9697827B1 (en) 2012-12-11 2017-07-04 Amazon Technologies, Inc. Error reduction in speech processing
US9659298B2 (en) 2012-12-11 2017-05-23 Nuance Communications, Inc. Systems and methods for informing virtual agent recommendation
US9190057B2 (en) 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9117450B2 (en) 2012-12-12 2015-08-25 Nuance Communications, Inc. Combining re-speaking, partial agent transcription and ASR for improved accuracy / human guided ASR
US9185742B2 (en) 2012-12-13 2015-11-10 Google Technology Holdings LLC System and methods for a cloud based wireless personal area network service enabling context activity handoffs between devices
US9558275B2 (en) 2012-12-13 2017-01-31 Microsoft Technology Licensing, Llc Action broker
KR102090269B1 (ko) 2012-12-14 2020-03-17 삼성전자주식회사 정보 검색 방법, 그와 같은 기능을 갖는 디바이스 및 기록 매체
KR102014778B1 (ko) 2012-12-14 2019-08-27 엘지전자 주식회사 텍스트 메시징 서비스를 제공하는 디지털 디바이스 및 그 제어 방법
US9141660B2 (en) 2012-12-17 2015-09-22 International Business Machines Corporation Intelligent evidence classification and notification in a deep question answering system
US9213754B1 (en) 2012-12-17 2015-12-15 Google Inc. Personalizing content items
EP3691179A1 (en) 2012-12-18 2020-08-05 Samsung Electronics Co., Ltd. Method and device for controlling home device remotely in home network system
US9070366B1 (en) 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US9098467B1 (en) 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
US8645138B1 (en) 2012-12-20 2014-02-04 Google Inc. Two-pass decoding for speech recognition of search and action requests
US20140179295A1 (en) 2012-12-20 2014-06-26 Enno Luebbers Deriving environmental context and actions from ad-hoc state broadcast
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
WO2014096506A1 (en) 2012-12-21 2014-06-26 Nokia Corporation Method, apparatus, and computer program product for personalizing speech recognition
KR20140082157A (ko) 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
JP2014126600A (ja) 2012-12-25 2014-07-07 Panasonic Corp 音声認識装置、音声認識方法、およびテレビ
JP2014124332A (ja) 2012-12-26 2014-07-07 Daiichi Shokai Co Ltd 遊技機
CN105264479B (zh) 2012-12-29 2018-12-25 苹果公司 用于对用户界面分级结构进行导航的设备、方法和图形用户界面
WO2014105275A1 (en) 2012-12-29 2014-07-03 Yknots Industries Llc Device, method, and graphical user interface for forgoing generation of tactile output for a multi-contact gesture
EP2939095B1 (en) 2012-12-29 2018-10-03 Apple Inc. Device, method, and graphical user interface for moving a cursor according to a change in an appearance of a control icon with simulated three-dimensional characteristics
EP2939096B1 (en) 2012-12-29 2019-08-28 Apple Inc. Device, method, and graphical user interface for determining whether to scroll or select contents
CN103049567A (zh) 2012-12-31 2013-04-17 威盛电子股份有限公司 检索方法、检索系统以及自然语言理解系统
US8571851B1 (en) 2012-12-31 2013-10-29 Google Inc. Semantic interpretation using user gaze order
CN103020047A (zh) 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
CN103021403A (zh) 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
CN103077165A (zh) 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
KR20140088449A (ko) 2013-01-02 2014-07-10 엘지전자 주식회사 중앙 제어 장치 및 그것의 제어 방법
KR101892734B1 (ko) 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US9497137B2 (en) 2013-01-04 2016-11-15 Sookbox, LLC Digital content connectivity and control via a plurality of controllers that are treated discriminatively
KR20140093303A (ko) 2013-01-07 2014-07-28 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
KR20140089862A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
US20140195233A1 (en) 2013-01-08 2014-07-10 Spansion Llc Distributed Speech Recognition System
WO2014109104A1 (ja) 2013-01-08 2014-07-17 クラリオン株式会社 音声認識装置、音声認識プログラム及び音声認識方法
US9639322B2 (en) 2013-01-09 2017-05-02 Mitsubishi Electric Corporation Voice recognition device and display method
US20140198047A1 (en) 2013-01-14 2014-07-17 Nuance Communications, Inc. Reducing error rates for touch based keyboards
US9292489B1 (en) 2013-01-16 2016-03-22 Google Inc. Sub-lexical language models with word level pronunciation lexicons
US8731912B1 (en) 2013-01-16 2014-05-20 Google Inc. Delaying audio notifications
US8942674B2 (en) 2013-01-18 2015-01-27 Blackberry Limited Responding to incoming calls
JP2014140121A (ja) 2013-01-21 2014-07-31 Sharp Corp 会議支援システム
US20140203939A1 (en) 2013-01-21 2014-07-24 Rtc Inc. Control and monitoring of light-emitting-diode (led) bulbs
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9148499B2 (en) 2013-01-22 2015-09-29 Blackberry Limited Method and system for automatically identifying voice tags through user operation
US9530409B2 (en) 2013-01-23 2016-12-27 Blackberry Limited Event-triggered hands-free multitasking for media playback
EP4236281A3 (en) 2013-01-23 2023-10-11 BlackBerry Limited Event-triggered hands-free multitasking for media playback
US9165566B2 (en) 2013-01-24 2015-10-20 Microsoft Technology Licensing, Llc Indefinite speech inputs
CN103971680B (zh) 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
JP2014142566A (ja) * 2013-01-25 2014-08-07 Alpine Electronics Inc 音声認識システムおよび音声認識方法
DE102013001219B4 (de) 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
US9971495B2 (en) 2013-01-28 2018-05-15 Nook Digital, Llc Context based gesture delineation for user interaction in eyes-free mode
JP6251958B2 (ja) 2013-01-28 2017-12-27 富士通株式会社 発話解析装置、音声対話制御装置、方法、及びプログラム
JP6115152B2 (ja) 2013-01-29 2017-04-19 コニカミノルタ株式会社 情報処理システム、情報処理装置、情報処理端末及びプログラム
JP2014150323A (ja) 2013-01-31 2014-08-21 Sharp Corp 文字入力装置
KR20140098947A (ko) 2013-01-31 2014-08-11 삼성전자주식회사 광고 제공 시스템, 사용자 단말 및 광고 제공 방법
WO2014119889A1 (en) 2013-01-31 2014-08-07 Samsung Electronics Co., Ltd. Method of displaying user interface on device, and device
US20140222435A1 (en) 2013-02-01 2014-08-07 Telenav, Inc. Navigation system with user dependent language mechanism and method of operation thereof
US10055091B2 (en) 2013-02-01 2018-08-21 Microsoft Technology Licensing, Llc Autosave and manual save modes for software applications
US9292492B2 (en) 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
US20140218372A1 (en) * 2013-02-05 2014-08-07 Apple Inc. Intelligent digital assistant in a desktop environment
US8694315B1 (en) 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US20140222967A1 (en) 2013-02-07 2014-08-07 Opanga Networks, Inc. Transparent media delivery and proxy
US20140223481A1 (en) 2013-02-07 2014-08-07 United Video Properties, Inc. Systems and methods for updating a search request
US9519858B2 (en) 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9842489B2 (en) 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US9408040B2 (en) 2013-02-14 2016-08-02 Fuji Xerox Co., Ltd. Systems and methods for room-level location using WiFi
US9791921B2 (en) 2013-02-19 2017-10-17 Microsoft Technology Licensing, Llc Context-aware augmented reality object commands
US10078437B2 (en) 2013-02-20 2018-09-18 Blackberry Limited Method and apparatus for responding to a notification via a capacitive physical keyboard
US9019129B2 (en) 2013-02-21 2015-04-28 Apple Inc. Vehicle location in weak location signal scenarios
US9621619B2 (en) 2013-02-21 2017-04-11 International Business Machines Corporation Enhanced notification for relevant communications
US20140236986A1 (en) 2013-02-21 2014-08-21 Apple Inc. Natural language document search
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9484023B2 (en) 2013-02-22 2016-11-01 International Business Machines Corporation Conversion of non-back-off language models for efficient speech decoding
US20140245140A1 (en) 2013-02-22 2014-08-28 Next It Corporation Virtual Assistant Transfer between Smart Devices
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
US20140304086A1 (en) 2013-02-25 2014-10-09 Turn Inc. Methods and systems for modeling campaign goal adjustment
US9330659B2 (en) 2013-02-25 2016-05-03 Microsoft Technology Licensing, Llc Facilitating development of a spoken natural language interface
US9172747B2 (en) 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
KR101383552B1 (ko) 2013-02-25 2014-04-10 미디어젠(주) 다중 명령어가 포함된 단일 문장의 음성인식방법
CN104007832B (zh) 2013-02-25 2017-09-01 上海触乐信息科技有限公司 连续滑行输入文本的方法、系统及设备
US9865266B2 (en) 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9280981B2 (en) 2013-02-27 2016-03-08 Blackberry Limited Method and apparatus for voice control of a mobile device
US10354677B2 (en) 2013-02-28 2019-07-16 Nuance Communications, Inc. System and method for identification of intent segment(s) in caller-agent conversations
US9691382B2 (en) 2013-03-01 2017-06-27 Mediatek Inc. Voice control device and method for deciding response of voice control according to recognized speech command and detection output derived from processing sensor data
US9218819B1 (en) 2013-03-01 2015-12-22 Google Inc. Customizing actions based on contextual data and voice-based inputs
US9251467B2 (en) 2013-03-03 2016-02-02 Microsoft Technology Licensing, Llc Probabilistic parsing
US9554050B2 (en) 2013-03-04 2017-01-24 Apple Inc. Mobile device using images and location for reminders
US9460715B2 (en) 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9886968B2 (en) 2013-03-04 2018-02-06 Synaptics Incorporated Robust speech boundary detection system and method
KR101952179B1 (ko) 2013-03-05 2019-05-22 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US9293129B2 (en) 2013-03-05 2016-03-22 Microsoft Technology Licensing, Llc Speech recognition assisted evaluation on text-to-speech pronunciation issue detection
US9454957B1 (en) 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
US10223411B2 (en) 2013-03-06 2019-03-05 Nuance Communications, Inc. Task assistant utilizing context for improved interaction
CN104038621A (zh) 2013-03-06 2014-09-10 三星电子(中国)研发中心 在通信终端中管理事件信息的装置及方法
US10795528B2 (en) 2013-03-06 2020-10-06 Nuance Communications, Inc. Task assistant having multiple visual displays
US9313261B2 (en) 2013-03-07 2016-04-12 Qualcomm Incorporated System and methods of transferring tasks from a first mobile device to a second mobile device
US20140279622A1 (en) 2013-03-08 2014-09-18 Sudhakar Bharadwaj System and method for semantic processing of personalized social data and generating probability models of personal context to generate recommendations in searching applications
US9496968B2 (en) 2013-03-08 2016-11-15 Google Inc. Proximity detection by mobile devices
US20140257902A1 (en) 2013-03-08 2014-09-11 Baydin, Inc. Systems and methods for incorporating calendar functionality into electronic messages
US9990611B2 (en) 2013-03-08 2018-06-05 Baydin, Inc. Systems and methods for incorporating calendar functionality into electronic messages
US8964947B1 (en) 2013-03-11 2015-02-24 Amazon Technologies, Inc. Approaches for sharing data between electronic devices
KR102113272B1 (ko) 2013-03-11 2020-06-02 삼성전자주식회사 전자장치에서 복사/붙여넣기 방법 및 장치
US9761225B2 (en) 2013-03-11 2017-09-12 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
WO2014159581A1 (en) 2013-03-12 2014-10-02 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US10229697B2 (en) 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9477753B2 (en) 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
US9129013B2 (en) 2013-03-12 2015-09-08 Nuance Communications, Inc. Methods and apparatus for entity detection
US10219100B2 (en) 2013-03-13 2019-02-26 Aliphcom Determining proximity for devices interacting with media devices
US9378739B2 (en) 2013-03-13 2016-06-28 Nuance Communications, Inc. Identifying corresponding positions in different representations of a textual work
US9282423B2 (en) 2013-03-13 2016-03-08 Aliphcom Proximity and interface controls of media devices for media presentations
US20140274005A1 (en) 2013-03-13 2014-09-18 Aliphcom Intelligent connection management in wireless devices
US9135248B2 (en) 2013-03-13 2015-09-15 Arris Technology, Inc. Context demographic determination system
US9514741B2 (en) 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US20140278349A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Language Model Dictionaries for Text Predictions
US9524489B2 (en) 2013-03-14 2016-12-20 Samsung Electronics Co., Ltd. Computing system with task transfer mechanism and method of operation thereof
US9189196B2 (en) 2013-03-14 2015-11-17 Google Inc. Compartmentalized self registration of external devices
US9123345B2 (en) 2013-03-14 2015-09-01 Honda Motor Co., Ltd. Voice interface systems and methods
US20140267599A1 (en) 2013-03-14 2014-09-18 360Brandvision, Inc. User interaction with a holographic poster via a secondary mobile device
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9842584B1 (en) 2013-03-14 2017-12-12 Amazon Technologies, Inc. Providing content on multiple devices
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9247309B2 (en) 2013-03-14 2016-01-26 Google Inc. Methods, systems, and media for presenting mobile content corresponding to media content
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014160309A1 (en) 2013-03-14 2014-10-02 Advanced Search Laboratories, Inc. Method and apparatus for human-machine interaction
KR20140112910A (ko) 2013-03-14 2014-09-24 삼성전자주식회사 입력 제어 방법 및 이를 지원하는 전자 장치
US10133546B2 (en) 2013-03-14 2018-11-20 Amazon Technologies, Inc. Providing content on multiple devices
CN105431809B (zh) 2013-03-15 2018-12-18 谷歌有限责任公司 用于国际语言的虚拟键盘输入
EP3101392B1 (en) 2013-03-15 2021-12-15 Apple Inc. Mapping application with turn-by-turn navigation mode for output to vehicle display
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US20140267933A1 (en) 2013-03-15 2014-09-18 Toshiba America Information Systems, Inc. Electronic Device with Embedded Macro-Command Functionality
US20140279787A1 (en) 2013-03-15 2014-09-18 Ximplar Limited Systems And Methods for an Adaptive Application Recommender
US10638198B2 (en) 2013-03-15 2020-04-28 Ebay Inc. Shoppable video
US9378065B2 (en) 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US9355472B2 (en) 2013-03-15 2016-05-31 Apple Inc. Device, method, and graphical user interface for adjusting the appearance of a control
US9990471B2 (en) 2013-03-15 2018-06-05 Adityo Prakash Systems and methods for facilitating integrated behavioral support
US9317585B2 (en) 2013-03-15 2016-04-19 Google Inc. Search query suggestions based on personal information
US9176649B2 (en) 2013-03-15 2015-11-03 American Megatrends, Inc. Method and apparatus of remote management of computer system using voice and gesture based input
US20150314454A1 (en) 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US9886160B2 (en) 2013-03-15 2018-02-06 Google Llc Managing audio at the tab level for user notification and control
US9631930B2 (en) 2013-03-15 2017-04-25 Apple Inc. Warning for frequently traveled trips based on traffic
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
WO2014143959A2 (en) 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Volume control for mobile device using a wireless device
US20140282203A1 (en) 2013-03-15 2014-09-18 Research In Motion Limited System and method for predictive text input
US9558743B2 (en) 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US9201865B2 (en) 2013-03-15 2015-12-01 Bao Tran Automated assistance for user request that determines semantics by domain, task, and parameter
US9299041B2 (en) 2013-03-15 2016-03-29 Business Objects Software Ltd. Obtaining data from unstructured data for a structured data collection
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US9189157B2 (en) 2013-03-15 2015-11-17 Blackberry Limited Method and apparatus for word prediction selection
US20160132046A1 (en) 2013-03-15 2016-05-12 Fisher-Rosemount Systems, Inc. Method and apparatus for controlling a process plant with wearable mobile control devices
US20140282178A1 (en) 2013-03-15 2014-09-18 Microsoft Corporation Personalized community model for surfacing commands within productivity application user interfaces
US20140288939A1 (en) 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
US9479499B2 (en) 2013-03-21 2016-10-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for identity authentication via mobile capturing code
US20140298395A1 (en) 2013-03-27 2014-10-02 Tencent Technology (Shenzhen) Company Limited Methods and systems for playing video on multiple terminals
JP6115941B2 (ja) 2013-03-28 2017-04-19 Kddi株式会社 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
JP6221301B2 (ja) 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
EP2784774A1 (en) 2013-03-29 2014-10-01 Orange Telephone voice personnal assistant
CN103236260B (zh) 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
KR102050814B1 (ko) 2013-04-02 2019-12-02 삼성전자주식회사 그룹 대화에서 사적 대화 제공 장치 및 방법
JP2014203207A (ja) 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP6023874B2 (ja) 2013-04-04 2016-11-09 パイオニア株式会社 表示制御装置、表示制御方法、表示制御プログラムおよびコンピュータが読み取り可能な記録媒体
WO2014161091A1 (en) 2013-04-04 2014-10-09 Rand James S Unified communications system and method
US9300718B2 (en) 2013-04-09 2016-03-29 Avaya Inc. System and method for keyword-based notification and delivery of content
CN103198831A (zh) 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
US10027723B2 (en) 2013-04-12 2018-07-17 Provenance Asset Group Llc Method and apparatus for initiating communication and sharing of content among a plurality of devices
US10564815B2 (en) 2013-04-12 2020-02-18 Nant Holdings Ip, Llc Virtual teller systems and methods
CA2911719A1 (en) 2013-04-16 2014-10-23 Imageware Systems, Inc. Conditional and situational biometric authentication and enrollment
US8825474B1 (en) 2013-04-16 2014-09-02 Google Inc. Text suggestion output using past interaction data
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
US20150193392A1 (en) 2013-04-17 2015-07-09 Google Inc. User Interface for Quickly Checking Agenda and Creating New Events
US9760644B2 (en) 2013-04-17 2017-09-12 Google Inc. Embedding event creation link in a document
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
NL2010662C2 (en) 2013-04-18 2014-10-21 Bosch Gmbh Robert Remote maintenance.
US20140315492A1 (en) 2013-04-22 2014-10-23 Salesforce.Com, Inc. Content delivery to a secondary device via a primary device
US9075435B1 (en) 2013-04-22 2015-07-07 Amazon Technologies, Inc. Context-aware notifications
US9177318B2 (en) 2013-04-22 2015-11-03 Palo Alto Research Center Incorporated Method and apparatus for customizing conversation agents based on user characteristics using a relevance score for automatic statements, and a response prediction function
US9110889B2 (en) 2013-04-23 2015-08-18 Facebook, Inc. Methods and systems for generation of flexible sentences in a social networking system
CN104125322A (zh) 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 来电和短信控制方法及移动终端
DE102013007502A1 (de) 2013-04-25 2014-10-30 Elektrobit Automotive Gmbh Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen
EP2800345B1 (en) * 2013-04-29 2015-08-05 Swisscom AG Method, electronic device and system for remote text input
CN103280217B (zh) 2013-05-02 2016-05-04 锤子科技(北京)有限公司 一种移动终端的语音识别方法及其装置
US9384751B2 (en) 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
US9472205B2 (en) 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
US20140337621A1 (en) 2013-05-07 2014-11-13 Serguei Nakhimov Wearable communication device, security complex and user interface
US9064495B1 (en) 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
KR20140132246A (ko) 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
EP3640938B1 (en) 2013-05-07 2024-07-03 Veveo, Inc. Incremental speech input interface with real time feedback
US9223898B2 (en) 2013-05-08 2015-12-29 Facebook, Inc. Filtering suggested structured queries on online social networks
US9923849B2 (en) 2013-05-09 2018-03-20 Ebay Inc. System and method for suggesting a phrase based on a context
EP2801974A3 (en) 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
US9489625B2 (en) 2013-05-10 2016-11-08 Sri International Rapid development of virtual personal assistant applications
US9081411B2 (en) 2013-05-10 2015-07-14 Sri International Rapid development of virtual personal assistant applications
JP2014219614A (ja) 2013-05-10 2014-11-20 アルパイン株式会社 オーディオ装置、ビデオ装置及びコンピュータプログラム
CN103246638B (zh) 2013-05-13 2017-09-01 小米科技有限责任公司 一种信息粘贴方法和装置
US20140337751A1 (en) 2013-05-13 2014-11-13 Microsoft Corporation Automatic creation of calendar items
US8918272B2 (en) 2013-05-14 2014-12-23 Sony Corporation Method and apparatus for finding a lost vehicle
US20140343943A1 (en) 2013-05-14 2014-11-20 Saudi Arabian Oil Company Systems, Computer Medium and Computer-Implemented Methods for Authenticating Users Using Voice Streams
US9293138B2 (en) 2013-05-14 2016-03-22 Amazon Technologies, Inc. Storing state information from network-based user devices
US20140344205A1 (en) 2013-05-15 2014-11-20 Aliphcom Smart media device ecosystem using local and remote data sources
US20140347181A1 (en) 2013-05-21 2014-11-27 Michael Edward Smith Luna Sensor-enabled media device
US9495266B2 (en) 2013-05-16 2016-11-15 Advantest Corporation Voice recognition virtual test engineering assistant
KR101334342B1 (ko) 2013-05-16 2013-11-29 주식회사 네오패드 문자 입력 장치 및 문자 입력 방법
US9514470B2 (en) 2013-05-16 2016-12-06 Microsoft Technology Licensing, Llc Enhanced search suggestion for personal information services
US20140344687A1 (en) 2013-05-16 2014-11-20 Lenitra Durham Techniques for Natural User Interface Input based on Context
US9432499B2 (en) 2013-05-18 2016-08-30 Loralee Hajdu Peripheral specific selection of automated response messages
WO2014189486A1 (en) 2013-05-20 2014-11-27 Intel Corporation Natural human-computer interaction for virtual personal assistant systems
US9188445B2 (en) 2013-05-21 2015-11-17 Honda Motor Co., Ltd. System and method for storing and recalling location data
US9466294B1 (en) 2013-05-21 2016-10-11 Amazon Technologies, Inc. Dialog management system
US20150199077A1 (en) 2013-05-23 2015-07-16 Google Inc. Scheduling and viewing a calender event using time zones based on a user's location at event time
US20140351760A1 (en) 2013-05-24 2014-11-27 Google Inc. Order-independent text input
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US20140350933A1 (en) 2013-05-24 2014-11-27 Samsung Electronics Co., Ltd. Voice recognition apparatus and control method thereof
US9710147B2 (en) 2013-05-29 2017-07-18 Lg Electronics Inc. Mobile terminal and controlling method thereof
US20140358523A1 (en) 2013-05-30 2014-12-04 Wright State University Topic-specific sentiment extraction
US20140358519A1 (en) 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation
US20140359637A1 (en) 2013-06-03 2014-12-04 Microsoft Corporation Task continuance across devices
US10282213B2 (en) 2013-06-03 2019-05-07 Avaya Inc. System and method for conversational configuration of applications
US9294455B2 (en) 2013-06-04 2016-03-22 Google Inc. Maintaining video conference session continuity during transfer of session to alternative device
US9286029B2 (en) 2013-06-06 2016-03-15 Honda Motor Co., Ltd. System and method for multimodal human-vehicle interaction and belief tracking
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
KR102369784B1 (ko) 2013-06-07 2022-03-03 애플 인크. 지능형 자동 어시스턴트
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9267805B2 (en) 2013-06-07 2016-02-23 Apple Inc. Modeling significant locations
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US20140365459A1 (en) 2013-06-08 2014-12-11 Apple Inc. Harvesting Addresses
KR101816375B1 (ko) 2013-06-08 2018-01-08 애플 인크. 제한된 주의 산만 및 비제한된 주의 산만 컨텍스트에 대해 상이한 사용자 인터페이스를 제공하는 애플리케이션 게이트웨이
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10481769B2 (en) 2013-06-09 2019-11-19 Apple Inc. Device, method, and graphical user interface for providing navigation and search functionalities
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9477393B2 (en) 2013-06-09 2016-10-25 Apple Inc. Device, method, and graphical user interface for displaying application status information
US9495620B2 (en) 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
WO2014199596A1 (ja) 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
KR20140144104A (ko) 2013-06-10 2014-12-18 삼성전자주식회사 전자기기 및 이의 서비스 제공 방법
CN104240701B (zh) * 2013-06-10 2019-12-06 青海科瑞特富创业管理股份有限公司 汉语自然人语音控制洗衣机工作的方法
US9892115B2 (en) 2013-06-11 2018-02-13 Facebook, Inc. Translation training with cross-lingual multi-media support
US9449600B2 (en) 2013-06-11 2016-09-20 Plantronics, Inc. Character data entry
US9508040B2 (en) 2013-06-12 2016-11-29 Microsoft Technology Licensing, Llc Predictive pre-launch for applications
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9665662B1 (en) 2013-06-13 2017-05-30 DataRPM Corporation Methods and system for providing real-time business intelligence using natural language queries
US9311414B2 (en) 2013-06-14 2016-04-12 Google Inc. Systems and methods of selecting content based on aggregate entity co-occurrence
CN103292437B (zh) 2013-06-17 2016-01-20 广东美的制冷设备有限公司 语音交互式空调器及其控制方法
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
JP6389171B2 (ja) 2013-06-19 2018-09-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び機器
US9437186B1 (en) 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
KR20140147587A (ko) 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US20140379334A1 (en) 2013-06-20 2014-12-25 Qnx Software Systems Limited Natural language understanding automatic speech recognition post processing
US10474961B2 (en) 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
US9633317B2 (en) 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
KR102160767B1 (ko) 2013-06-20 2020-09-29 삼성전자주식회사 제스처를 감지하여 기능을 제어하는 휴대 단말 및 방법
US10051072B2 (en) 2013-06-21 2018-08-14 Google Llc Detecting co-presence in the physical world
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
JP6171617B2 (ja) 2013-06-24 2017-08-02 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2015012301A (ja) 2013-06-26 2015-01-19 京セラ株式会社 携帯電話機、携帯端末、音声操作プログラムおよび音声操作方法
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
RU2637874C2 (ru) 2013-06-27 2017-12-07 Гугл Инк. Генерирование диалоговых рекомендаций для чатовых информационных систем
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US20150006148A1 (en) 2013-06-27 2015-01-01 Microsoft Corporation Automatically Creating Training Data For Language Identifiers
US8947596B2 (en) 2013-06-27 2015-02-03 Intel Corporation Alignment of closed captions
US10255930B2 (en) 2013-06-28 2019-04-09 Harman International Industries, Incorporated Wireless control of linked devices
US9741339B2 (en) 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
JP2015014960A (ja) 2013-07-05 2015-01-22 ソニー株式会社 情報処理装置、および記憶媒体
DE102014109121B4 (de) 2013-07-10 2023-05-04 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
CN103365279A (zh) 2013-07-10 2013-10-23 崔海伟 智能家居系统的状态反馈系统、方法及状态检测装置
JP6102588B2 (ja) 2013-07-10 2017-03-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9396727B2 (en) 2013-07-10 2016-07-19 GM Global Technology Operations LLC Systems and methods for spoken dialog service arbitration
WO2015006196A1 (en) 2013-07-11 2015-01-15 Mophie, Inc. Method and system for communicatively coupling a wearable computer with one or more non-wearable computers
CN105283836B (zh) 2013-07-11 2019-06-04 英特尔公司 用于设备唤醒的设备、方法、装置及计算机可读存储介质
TWI508057B (zh) 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9305554B2 (en) 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9711148B1 (en) 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US9311912B1 (en) 2013-07-22 2016-04-12 Amazon Technologies, Inc. Cost efficient distributed text-to-speech processing
US9407950B2 (en) 2013-07-23 2016-08-02 Microsoft Technology Licensing, Llc Controlling devices in entertainment environment
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US9772994B2 (en) 2013-07-25 2017-09-26 Intel Corporation Self-learning statistical natural language processing for automatic production of virtual personal assistants
KR102089444B1 (ko) 2013-07-25 2020-03-16 삼성전자 주식회사 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치
US9247219B2 (en) 2013-07-26 2016-01-26 SkyBell Technologies, Inc. Doorbell communication systems and methods
CN103412789B (zh) 2013-07-26 2016-09-21 宇龙计算机通信科技(深圳)有限公司 一种启动应用程序的方法、系统及移动终端
US8947530B1 (en) 2013-07-26 2015-02-03 Joseph Frank Scalisi Smart lock systems and methods
US9335983B2 (en) 2013-07-28 2016-05-10 Oded Haim Breiner Method and system for displaying a non-installed android application and for requesting an action from a non-installed android application
JP6370033B2 (ja) 2013-07-29 2018-08-08 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
US9311915B2 (en) 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
TWI516698B (zh) 2013-07-31 2016-01-11 Apex Medical Corp Air cushion device and its vent valve
US9575720B2 (en) 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
US20150039606A1 (en) 2013-08-01 2015-02-05 Vamsi Krishna Salaka Search phrase modification
TWI601032B (zh) 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
KR20150017156A (ko) 2013-08-06 2015-02-16 삼성전자주식회사 휴대단말기에서 추천어를 제공하는 방법 및 장치
US10674198B2 (en) 2013-08-06 2020-06-02 Saronikos Trading And Services, Unipessoal Lda System for controlling electronic devices by means of voice commands, more specifically a remote control to control a plurality of electronic devices by means of voice commands
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150046828A1 (en) 2013-08-08 2015-02-12 Samsung Electronics Co., Ltd. Contextualizing sensor, service and device data with mobile devices
US9264862B2 (en) 2013-08-15 2016-02-16 Apple Inc. Determining exit from a vehicle
KR20150020872A (ko) 2013-08-19 2015-02-27 현대자동차주식회사 차량 기능 제어를 위한 제어 장치 및 제어 방법
CN103780970B (zh) 2013-08-20 2018-03-16 华为终端(东莞)有限公司 一种媒体播放的方法、装置和系统
JP2015041845A (ja) 2013-08-21 2015-03-02 カシオ計算機株式会社 文字入力装置及びプログラム
US10054327B2 (en) 2013-08-21 2018-08-21 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
CN104426841A (zh) 2013-08-21 2015-03-18 阿里巴巴集团控股有限公司 设置背景图像的方法及相关的服务器和系统
US9161188B2 (en) 2013-08-22 2015-10-13 Yahoo! Inc. System and method for automatically suggesting diverse and personalized message completions
EP2862164B1 (en) 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
EP3040985B1 (en) 2013-08-26 2023-08-23 Samsung Electronics Co., Ltd. Electronic device and method for voice recognition
WO2015031486A1 (en) 2013-08-27 2015-03-05 Persais, Llc System and method for virtual assistants with shared capabilities and agent store
CN104423780B (zh) 2013-08-27 2020-07-14 北京三星通信技术研究有限公司 一种终端设备及其应用程序的关联显示方法
US9729592B2 (en) 2013-08-27 2017-08-08 Persais, Llc System and method for distributed virtual assistant platforms
CN104427104B (zh) 2013-08-28 2018-02-27 联想(北京)有限公司 一种信息处理方法及电子设备
WO2015029379A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法、表示制御方法及び購入決済方法
KR102147935B1 (ko) 2013-08-29 2020-08-25 삼성전자주식회사 데이터 처리 방법 및 그 전자 장치
US10127224B2 (en) 2013-08-30 2018-11-13 Intel Corporation Extensible context-aware natural language interactions for virtual personal assistants
US20150066506A1 (en) 2013-08-30 2015-03-05 Verint Systems Ltd. System and Method of Text Zoning
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US10001817B2 (en) 2013-09-03 2018-06-19 Apple Inc. User interface for manipulating user interface objects with magnetic properties
WO2015034969A2 (en) 2013-09-03 2015-03-12 Apple Inc. User interface for manipulating user interface objects with magnetic properties
US9316400B2 (en) 2013-09-03 2016-04-19 Panasonic Intellctual Property Corporation of America Appliance control method, speech-based appliance control system, and cooking appliance
US9633669B2 (en) 2013-09-03 2017-04-25 Amazon Technologies, Inc. Smart circular audio buffer
KR102065409B1 (ko) 2013-09-04 2020-01-13 엘지전자 주식회사 이동단말기 및 그 제어방법
EP3042328A2 (en) 2013-09-04 2016-07-13 Zero360, Inc. Processing system and method
GB2517952B (en) 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
US9460704B2 (en) 2013-09-06 2016-10-04 Google Inc. Deep networks for unit selection speech synthesis
JP6295554B2 (ja) 2013-09-06 2018-03-20 株式会社リコー プログラム、情報処理装置
US9208779B2 (en) 2013-09-06 2015-12-08 Google Inc. Mixture of n-gram language models
US9898642B2 (en) 2013-09-09 2018-02-20 Apple Inc. Device, method, and graphical user interface for manipulating user interfaces based on fingerprint sensor inputs
US20150074524A1 (en) 2013-09-10 2015-03-12 Lenovo (Singapore) Pte. Ltd. Management of virtual assistant action items
US9485708B2 (en) 2013-09-10 2016-11-01 Qualcomm Incorporated Systems and methods for concurrent service discovery and minimum spanning tree formation for service delivery
US20150140934A1 (en) 2013-09-10 2015-05-21 Playtabase, LLC Wireless motion activated user device with bi-modality communication
CN104700832B (zh) 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US9600228B2 (en) 2013-09-16 2017-03-21 Here Global B.V. Enhanced system and method for static query generation and entry
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
JP2015060423A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
US9755605B1 (en) 2013-09-19 2017-09-05 Amazon Technologies, Inc. Volume control
JP2016531375A (ja) 2013-09-20 2016-10-06 アマゾン テクノロジーズ インコーポレイテッド ローカルとリモートのスピーチ処理
CN104463552B (zh) 2013-09-22 2018-10-02 中国电信股份有限公司 日历提醒生成方法和装置
US20150088511A1 (en) 2013-09-24 2015-03-26 Verizon Patent And Licensing Inc. Named-entity based speech recognition
US10134395B2 (en) 2013-09-25 2018-11-20 Amazon Technologies, Inc. In-call virtual assistants
US9418650B2 (en) 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
US9401881B2 (en) 2013-09-26 2016-07-26 International Business Machines Corporation Automatic question generation and answering based on monitored messaging sessions
US9443527B1 (en) 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
US20150092520A1 (en) 2013-09-27 2015-04-02 Google Inc. Adaptive Trigger Point For Smartwatch Gesture-to-Wake
CN104516522B (zh) 2013-09-29 2018-05-01 北京三星通信技术研究有限公司 九宫格键盘输入的方法和装置
US9344755B2 (en) 2013-09-30 2016-05-17 Sonos, Inc. Fast-resume audio playback
US20150095031A1 (en) 2013-09-30 2015-04-02 At&T Intellectual Property I, L.P. System and method for crowdsourcing of word pronunciation verification
US20150095278A1 (en) 2013-09-30 2015-04-02 Manyworlds, Inc. Adaptive Probabilistic Semantic System and Method
US20150095268A1 (en) 2013-10-02 2015-04-02 Apple Inc. Intelligent multi-user task planning
KR101772044B1 (ko) 2013-10-02 2017-08-28 에스케이테크엑스 주식회사 거절메시지 전송 시스템 및 방법, 그리고 이를 위한 장치 및 컴퓨터 프로그램이 기록된 기록매체
US20150100537A1 (en) 2013-10-03 2015-04-09 Microsoft Corporation Emoji for Text Predictions
US20150100983A1 (en) 2013-10-06 2015-04-09 Yang Pan Personal Mobile Device as Ad hoc Set-Top Box for Television
US9436918B2 (en) 2013-10-07 2016-09-06 Microsoft Technology Licensing, Llc Smart selection of text spans
KR101480474B1 (ko) 2013-10-08 2015-01-09 엘지전자 주식회사 오디오 재생장치와 이를 포함하는 시스템
US20150100313A1 (en) 2013-10-09 2015-04-09 Verizon Patent And Licensing, Inc. Personification of computing devices for remote access
EP3055786A4 (en) 2013-10-09 2017-05-17 Google, Inc. Automatic definition of entity collections
KR101506510B1 (ko) 2013-10-10 2015-03-30 송철호 음성인식 홈 네트워크 시스템
KR102114219B1 (ko) 2013-10-10 2020-05-25 삼성전자주식회사 오디오 시스템 및 오디오 출력 방법, 그리고 스피커 장치
WO2015057586A1 (en) 2013-10-14 2015-04-23 Yahoo! Inc. Systems and methods for providing context-based user interface
US8996639B1 (en) 2013-10-15 2015-03-31 Google Inc. Predictive responses to incoming communications
US9063640B2 (en) 2013-10-17 2015-06-23 Spotify Ab System and method for switching between media items in a plurality of sequences of media items
US9461945B2 (en) 2013-10-18 2016-10-04 Jeffrey P. Phillips Automated messaging response
US9143907B1 (en) 2013-10-21 2015-09-22 West Corporation Providing data messaging support by intercepting and redirecting received short message service (SMS) messages
JP6280342B2 (ja) 2013-10-22 2018-02-14 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150120723A1 (en) 2013-10-24 2015-04-30 Xerox Corporation Methods and systems for processing speech queries
JP2015083938A (ja) 2013-10-25 2015-04-30 三菱電機株式会社 ナビゲーションシステム
EP3063687A4 (en) 2013-10-28 2017-04-19 Nant Holdings IP LLC Intent engines systems and method
US20150120296A1 (en) 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method for selecting network-based versus embedded speech processing
US20150123898A1 (en) 2013-10-31 2015-05-07 Lg Electronics Inc. Digital device and control method thereof
US10055681B2 (en) 2013-10-31 2018-08-21 Verint Americas Inc. Mapping actions and objects to tasks
US9942396B2 (en) 2013-11-01 2018-04-10 Adobe Systems Incorporated Document distribution and interaction
US9183830B2 (en) 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US10019985B2 (en) 2013-11-04 2018-07-10 Google Llc Asynchronous optimization for sequence training of neural networks
FR3012895B1 (fr) 2013-11-05 2015-12-25 Commissariat Energie Atomique Procede et programme d'ordinateur pour l'execution deportee de taches informatiques d'un equipement sans fil
US9547644B2 (en) 2013-11-08 2017-01-17 Google Inc. Presenting translations of text depicted in images
US10088973B2 (en) 2013-11-08 2018-10-02 Google Llc Event scheduling presentation in a graphical user interface environment
US9600474B2 (en) 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US10311482B2 (en) 2013-11-11 2019-06-04 At&T Intellectual Property I, Lp Method and apparatus for adjusting a digital assistant persona
JP6493866B2 (ja) 2013-11-12 2019-04-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、およびプログラム
US10430024B2 (en) 2013-11-13 2019-10-01 Microsoft Technology Licensing, Llc Media item selection using user-specific grammar
GB2520266A (en) 2013-11-13 2015-05-20 Ibm Cursor-Based Character input interface
US9361084B1 (en) 2013-11-14 2016-06-07 Google Inc. Methods and systems for installing and executing applications
US10454783B2 (en) 2014-02-05 2019-10-22 Apple Inc. Accessory management system using environment model
US9443522B2 (en) 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US10110932B2 (en) 2013-11-18 2018-10-23 Cable Television Laboratories, Inc. Session administration
US9898554B2 (en) 2013-11-18 2018-02-20 Google Inc. Implicit question query identification
US10162813B2 (en) 2013-11-21 2018-12-25 Microsoft Technology Licensing, Llc Dialogue evaluation via multiple hypothesis ranking
US10058777B2 (en) 2013-11-21 2018-08-28 Tencent Technology (Shenzhen) Company Limited Task execution method, apparatus and system
CN103593054B (zh) * 2013-11-25 2018-04-20 北京光年无限科技有限公司 一种结合情绪识别及输出的问答系统
US9451434B2 (en) 2013-11-27 2016-09-20 At&T Intellectual Property I, L.P. Direct interaction between a user and a communication network
US10079013B2 (en) 2013-11-27 2018-09-18 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US20150149354A1 (en) 2013-11-27 2015-05-28 Bank Of America Corporation Real-Time Data Recognition and User Interface Field Updating During Voice Entry
US9698999B2 (en) 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9110635B2 (en) 2013-12-03 2015-08-18 Lenova (Singapore) Pte. Ltd. Initiating personal assistant application based on eye tracking and gestures
US8719039B1 (en) 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
EP3077999B1 (en) 2013-12-06 2022-02-02 The ADT Security Corporation Voice activated application for mobile devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9215510B2 (en) 2013-12-06 2015-12-15 Rovi Guides, Inc. Systems and methods for automatically tagging a media asset based on verbal input and playback adjustments
CN103645876B (zh) 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置
US20150160855A1 (en) 2013-12-10 2015-06-11 Google Inc. Multiple character input with a single selection
US20150162001A1 (en) 2013-12-10 2015-06-11 Honeywell International Inc. System and method for textually and graphically presenting air traffic control voice information
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
GB201321927D0 (en) 2013-12-11 2014-01-22 Touchtype Ltd System and method for inputting text into electronic devices
US9696886B2 (en) 2013-12-12 2017-07-04 Google Technology Holdings LLC Systems and methods for communicating task reminders on portable electronic devices
US9208153B1 (en) 2013-12-13 2015-12-08 Symantec Corporation Filtering relevant event notifications in a file sharing and collaboration environment
US9251492B2 (en) 2013-12-16 2016-02-02 Nuiku, Inc. Customized-enterprise-software integration systems and methods
US20170017501A1 (en) 2013-12-16 2017-01-19 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9804820B2 (en) 2013-12-16 2017-10-31 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9571645B2 (en) 2013-12-16 2017-02-14 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9479931B2 (en) 2013-12-16 2016-10-25 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
KR20160101079A (ko) 2013-12-16 2016-08-24 뉘앙스 커뮤니케이션즈, 인코포레이티드 가상 어시스턴트를 제공하기 위한 시스템 및 방법
WO2015092943A1 (en) 2013-12-17 2015-06-25 Sony Corporation Electronic devices and methods for compensating for environmental noise in text-to-speech applications
US9721570B1 (en) 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
KR101510013B1 (ko) 2013-12-18 2015-04-07 현대자동차주식회사 자동차의 조작계 터치패드를 이용한 멀티 조작 시스템 및 방법
US10565268B2 (en) 2013-12-19 2020-02-18 Adobe Inc. Interactive communication augmented with contextual information
US9741343B1 (en) 2013-12-19 2017-08-22 Amazon Technologies, Inc. Voice interaction application selection
WO2015094369A1 (en) 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
US10811013B1 (en) 2013-12-20 2020-10-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
KR102179506B1 (ko) 2013-12-23 2020-11-17 삼성전자 주식회사 전자장치 및 그 제어방법
CN203721183U (zh) 2013-12-25 2014-07-16 安徽科大讯飞信息科技股份有限公司 一种语音唤醒装置
JP6121896B2 (ja) 2013-12-27 2017-04-26 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および情報処理システム
JP2015127758A (ja) 2013-12-27 2015-07-09 シャープ株式会社 応答制御装置、制御プログラム
KR102092164B1 (ko) * 2013-12-27 2020-03-23 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
US9640181B2 (en) 2013-12-27 2017-05-02 Kopin Corporation Text editing with gesture control and natural speech
US9460735B2 (en) 2013-12-28 2016-10-04 Intel Corporation Intelligent ancillary electronic device
US9390726B1 (en) 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US20150278737A1 (en) 2013-12-30 2015-10-01 Google Inc. Automatic Calendar Event Generation with Structured Data from Free-Form Speech
US10078489B2 (en) 2013-12-30 2018-09-18 Microsoft Technology Licensing, Llc Voice interface to a social networking service
US9778817B2 (en) 2013-12-31 2017-10-03 Findo, Inc. Tagging of images based on social network tags or comments
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
US9274673B2 (en) * 2013-12-31 2016-03-01 Google Inc. Methods, systems, and media for rewinding media content based on detected audio events
US9471875B2 (en) 2013-12-31 2016-10-18 International Business Machines Corporation Using ontologies to comprehend regular expressions
US9424241B2 (en) 2013-12-31 2016-08-23 Barnes & Noble College Booksellers, Llc Annotation mode including multiple note types for paginated digital content
US9152307B2 (en) 2013-12-31 2015-10-06 Google Inc. Systems and methods for simultaneously displaying clustered, in-line electronic messages in one display
US9742836B2 (en) 2014-01-03 2017-08-22 Yahoo Holdings, Inc. Systems and methods for content delivery
US20150193379A1 (en) 2014-01-06 2015-07-09 Apple Inc. System and method for cognizant time-based reminders
JP6318621B2 (ja) 2014-01-06 2018-05-09 株式会社デンソー 音声処理装置、音声処理システム、音声処理方法、音声処理プログラム
US9037455B1 (en) 2014-01-08 2015-05-19 Google Inc. Limiting notification interruptions
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9924215B2 (en) 2014-01-09 2018-03-20 Hsni, Llc Digital media content management system and method
US9443516B2 (en) 2014-01-09 2016-09-13 Honeywell International Inc. Far-field speech recognition systems and methods
US20150201077A1 (en) 2014-01-12 2015-07-16 Genesys Telecommunications Laboratories, Inc. Computing suggested actions in caller agent phone calls by using real-time speech analytics and real-time desktop analytics
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9514748B2 (en) 2014-01-15 2016-12-06 Microsoft Technology Licensing, Llc Digital personal assistant interaction with impersonations and rich multimedia in responses
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US20150199965A1 (en) 2014-01-16 2015-07-16 CloudCar Inc. System and method for recognition and automatic correction of voice commands
US9336300B2 (en) 2014-01-17 2016-05-10 Facebook, Inc. Client-side search templates for online social networks
CN104794122B (zh) 2014-01-20 2020-04-17 腾讯科技(北京)有限公司 一种位置信息推荐方法、装置和系统
KR102210433B1 (ko) 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US10162593B2 (en) 2014-01-22 2018-12-25 Apple Inc. Coordinated hand-off of audio data transmission
CN103744761B (zh) 2014-01-22 2017-02-08 广东欧珀移动通信有限公司 一种控制多台移动终端自动执行任务的方法及系统
US10171643B2 (en) 2014-01-22 2019-01-01 Sony Corporation Directing audio output based on gestures
CN103760984A (zh) 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话系统
US9858039B2 (en) 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
US11386886B2 (en) 2014-01-28 2022-07-12 Lenovo (Singapore) Pte. Ltd. Adjusting speech recognition using contextual information
US10019060B2 (en) 2014-01-30 2018-07-10 Duane Matthew Cash Mind-controlled virtual assistant on a smartphone device
JP6296813B2 (ja) 2014-01-30 2018-03-20 キヤノン株式会社 情報処理端末、情報処理端末の制御方法およびプログラム
US10096040B2 (en) 2014-01-31 2018-10-09 Walmart Apollo, Llc Management of the display of online ad content consistent with one or more performance objectives for a webpage and/or website
WO2015116151A1 (en) 2014-01-31 2015-08-06 Hewlett-Packard Development Company, L.P. Voice input command
US20160173960A1 (en) 2014-01-31 2016-06-16 EyeGroove, Inc. Methods and systems for generating audiovisual media items
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US10157272B2 (en) 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
US10028008B2 (en) 2014-02-04 2018-07-17 Google Llc Persistent media player
US10050926B2 (en) 2014-02-05 2018-08-14 Facebook, Inc. Ideograms based on sentiment analysis
JP2015149568A (ja) 2014-02-05 2015-08-20 キヤノン株式会社 画像形成装置、その制御方法およびプログラム
KR20150092996A (ko) 2014-02-06 2015-08-17 삼성전자주식회사 디스플레이 장치 및 이를 이용한 전자 장치의 제어 방법
DE112014006343T5 (de) 2014-02-06 2016-10-20 Mitsubishi Electric Corporation Sprachsuchvorrichtung und Sprachsuchverfahren
US20150334346A1 (en) 2014-05-16 2015-11-19 Elwha Llc Systems and methods for automatically connecting a user of a hands-free intercommunication system
US20150228281A1 (en) 2014-02-07 2015-08-13 First Principles,Inc. Device, system, and method for active listening
US9837075B2 (en) 2014-02-10 2017-12-05 Mitsubishi Electric Research Laboratories, Inc. Statistical voice dialog system and method
US9576588B2 (en) 2014-02-10 2017-02-21 Apple Inc. Close-talk detector for personal listening device with adaptive active noise control
US10083205B2 (en) 2014-02-12 2018-09-25 Samsung Electronics Co., Ltd. Query cards
US9037967B1 (en) 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US10469428B2 (en) 2014-02-21 2019-11-05 Samsung Electronics Co., Ltd. Apparatus and method for transmitting message
US9589562B2 (en) 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
WO2015127404A1 (en) 2014-02-24 2015-08-27 Microsoft Technology Licensing, Llc Unified presentation of contextually connected information to improve user efficiency and interaction performance
US20150243279A1 (en) 2014-02-26 2015-08-27 Toytalk, Inc. Systems and methods for recommending responses
US9495959B2 (en) 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
US20150248651A1 (en) 2014-02-28 2015-09-03 Christine E. Akutagawa Social networking event planning
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10757201B2 (en) 2014-03-01 2020-08-25 Microsoft Technology Licensing, Llc Document and content feed
WO2015133022A1 (ja) 2014-03-03 2015-09-11 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9582246B2 (en) 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
US9574890B2 (en) 2014-03-04 2017-02-21 Qualcomm Incorporated Reduced power consumption and improved user experience when navigating along familiar routes
US9489171B2 (en) * 2014-03-04 2016-11-08 Microsoft Technology Licensing, Llc Voice-command suggestions based on user identity
US20150256873A1 (en) 2014-03-04 2015-09-10 Microsoft Technology Licensing, Llc Relayed voice control of devices
US10409454B2 (en) 2014-03-05 2019-09-10 Samsung Electronics Co., Ltd. Smart watch device and user interface thereof
US9286910B1 (en) 2014-03-13 2016-03-15 Amazon Technologies, Inc. System for resolving ambiguous queries based on user context
CN103885663A (zh) 2014-03-14 2014-06-25 深圳市东方拓宇科技有限公司 一种生成和播放音乐的方法及其对应终端
US9405377B2 (en) 2014-03-15 2016-08-02 Microsoft Technology Licensing, Llc Trainable sensor-based gesture recognition
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN103841268A (zh) 2014-03-17 2014-06-04 联想(北京)有限公司 信息处理方法和信息处理装置
US10102274B2 (en) 2014-03-17 2018-10-16 NLPCore LLC Corpus search systems and methods
CN103885608A (zh) 2014-03-19 2014-06-25 百度在线网络技术(北京)有限公司 一种输入方法及系统
US9734817B1 (en) 2014-03-21 2017-08-15 Amazon Technologies, Inc. Text-to-speech task scheduling
US9336306B2 (en) 2014-03-21 2016-05-10 International Business Machines Corporation Automatic evaluation and improvement of ontologies for natural language processing tasks
US9966079B2 (en) 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
WO2015144621A1 (en) 2014-03-26 2015-10-01 Sony Corporation Electronic device and method for controlling the electronic device
US9431021B1 (en) 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
US9916839B1 (en) 2014-03-27 2018-03-13 Amazon Technologies, Inc. Shared audio functionality based on device grouping
RU2014111971A (ru) 2014-03-28 2015-10-10 Юрий Михайлович Буров Способ и система голосового интерфейса
IN2014DE00899A (zh) 2014-03-28 2015-10-02 Samsung Electronics Co Ltd
US9710546B2 (en) 2014-03-28 2017-07-18 Microsoft Technology Licensing, Llc Explicit signals personalized search
CA2943513C (en) 2014-03-29 2020-08-04 Thomson Reuters Global Resources Improved method, system and software for searching, identifying, retrieving and presenting electronic documents
US9196243B2 (en) 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN106663424B (zh) 2014-03-31 2021-03-05 三菱电机株式会社 意图理解装置以及方法
US9286892B2 (en) 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US20150278370A1 (en) 2014-04-01 2015-10-01 Microsoft Corporation Task completion for natural language input
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
KR101873671B1 (ko) 2014-04-02 2018-07-02 소니 주식회사 전력 효율적인 근접 검출
US10992609B2 (en) 2014-04-02 2021-04-27 CloLa, Inc. Text-messaging based concierge services
CN103902373B (zh) 2014-04-02 2017-09-29 百度在线网络技术(北京)有限公司 智能终端控制方法、服务器和智能终端
US20150286627A1 (en) 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
KR20150115555A (ko) 2014-04-04 2015-10-14 삼성전자주식회사 전자 장치 및 그의 정보 제공 방법
US9519644B2 (en) 2014-04-04 2016-12-13 Facebook, Inc. Methods and devices for generating media items
KR102249086B1 (ko) 2014-04-04 2021-05-10 삼성전자주식회사 레코딩 지원 전자장치 및 방법
US9383827B1 (en) 2014-04-07 2016-07-05 Google Inc. Multi-modal command display
CN104978963A (zh) 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
JP6282516B2 (ja) 2014-04-08 2018-02-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数機器の音声操作システム、音声操作方法及び、プログラム
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US20150294516A1 (en) 2014-04-10 2015-10-15 Kuo-Ching Chiang Electronic device with security module
US9888452B2 (en) 2014-04-10 2018-02-06 Twin Harbor Labs Llc Methods and apparatus notifying a user of the operating condition of a household appliance
WO2015157013A1 (en) 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
CN104980412B (zh) 2014-04-14 2018-07-13 阿里巴巴集团控股有限公司 一种应用客户端、服务端及对应的Portal认证方法
US9652453B2 (en) 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
US20150294086A1 (en) 2014-04-14 2015-10-15 Elwha Llc Devices, systems, and methods for automated enhanced care rooms
US10540979B2 (en) 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US20150302856A1 (en) 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US20150302316A1 (en) 2014-04-22 2015-10-22 Google Inc. System and method for determining unwanted phone messages
KR20150122561A (ko) 2014-04-23 2015-11-02 삼성전자주식회사 디바이스 및 상기 디바이스에서의 착신 호출 처리 방법
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US20150310862A1 (en) 2014-04-24 2015-10-29 Microsoft Corporation Deep learning for semantic parsing including semantic utterance classification
CN105025051A (zh) 2014-04-24 2015-11-04 深圳市赛格导航科技股份有限公司 一种云端语音服务提供方法和系统
US10845982B2 (en) 2014-04-28 2020-11-24 Facebook, Inc. Providing intelligent transcriptions of sound messages in a messaging application
US9478247B2 (en) 2014-04-28 2016-10-25 Sonos, Inc. Management of media content playback
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US8976063B1 (en) 2014-04-29 2015-03-10 Google Inc. Automated detection of vehicle parking and location
US9600600B2 (en) 2014-04-30 2017-03-21 Excalibur Ip, Llc Method and system for evaluating query suggestions quality
KR102248474B1 (ko) 2014-04-30 2021-05-07 삼성전자 주식회사 음성 명령 제공 방법 및 장치
US9501163B2 (en) 2014-05-06 2016-11-22 Symbol Technologies, Llc Apparatus and method for activating a trigger mechanism
US10789304B2 (en) 2014-05-06 2020-09-29 Oath Inc. Method and system for measuring user engagement with content items
KR102282487B1 (ko) 2014-05-08 2021-07-26 삼성전자주식회사 애플리케이션 실행 장치 및 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9459889B2 (en) 2014-05-19 2016-10-04 Qualcomm Incorporated Systems and methods for context-aware application control
US10726831B2 (en) 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
KR102223278B1 (ko) 2014-05-22 2021-03-05 엘지전자 주식회사 글래스 타입 단말기 및 이의 제어방법
WO2015179632A1 (en) 2014-05-22 2015-11-26 Scheffler Lee J Methods and systems for neural and cognitive processing
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
KR102329420B1 (ko) 2014-05-23 2021-11-22 엘지전자 주식회사 이동단말기 및 그 제어방법
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
US9380123B2 (en) 2014-05-30 2016-06-28 Apple Inc. Activity continuation between electronic devices
US10387451B2 (en) 2014-05-30 2019-08-20 Apple Inc. Synchronization system for multiple client devices
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10579212B2 (en) 2014-05-30 2020-03-03 Apple Inc. Structured suggestions
US10033818B2 (en) 2014-05-30 2018-07-24 Apple Inc. Using listen ranges to deliver content to electronic devices from local caching servers
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI520007B (zh) 2014-05-30 2016-02-01 由田新技股份有限公司 眼控密碼輸入設備、方法、電腦可讀取紀錄媒體及電腦程式產品
US11088807B2 (en) 2014-05-30 2021-08-10 Apple Inc. Application-level acknowledgements
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US20150350118A1 (en) 2014-05-30 2015-12-03 Apple Inc. Canned answers in messages
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10237711B2 (en) 2014-05-30 2019-03-19 Apple Inc. Dynamic types for activity continuation between electronic devices
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US11256294B2 (en) 2014-05-30 2022-02-22 Apple Inc. Continuity of applications across devices
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9519634B2 (en) 2014-05-30 2016-12-13 Educational Testing Service Systems and methods for determining lexical associations among words in a corpus
US9887949B2 (en) 2014-05-31 2018-02-06 Apple Inc. Displaying interactive notifications on touch sensitive devices
US10318016B2 (en) 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
GB2526805A (en) 2014-06-03 2015-12-09 Nokia Technologies Oy Methods, apparatuses and computer programs for adapting content
US9363255B2 (en) 2014-06-04 2016-06-07 Sonos, Inc. Cloud queue playhead
US8995972B1 (en) 2014-06-05 2015-03-31 Grandios Technologies, Llc Automatic personal assistance between users devices
JP6307356B2 (ja) 2014-06-06 2018-04-04 株式会社デンソー 運転コンテキスト情報生成装置
EP3158691A4 (en) 2014-06-06 2018-03-28 Obschestvo S Ogranichennoy Otvetstvennostiyu "Speactoit" Proactive environment-based chat information system
US10325205B2 (en) 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
EP3410257B1 (en) 2014-06-11 2020-01-08 Huawei Technologies Co., Ltd. Method for quickly starting application service, and terminal
CN104090652B (zh) 2014-06-13 2017-07-21 北京搜狗科技发展有限公司 一种语音输入方法和装置
US10127901B2 (en) 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US20150364140A1 (en) 2014-06-13 2015-12-17 Sony Corporation Portable Electronic Equipment and Method of Operating a User Interface
US10250538B2 (en) 2014-06-14 2019-04-02 Trisha N. Prabhu Detecting messages with offensive content
KR20150144668A (ko) 2014-06-17 2015-12-28 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US20150370787A1 (en) 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
CH709795B1 (fr) 2014-06-18 2021-02-26 Katia Sa Procédé et système de filtrage d'appels téléphoniques entrants indésirables.
US10186282B2 (en) 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9390706B2 (en) 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
US9462112B2 (en) 2014-06-19 2016-10-04 Microsoft Technology Licensing, Llc Use of a digital assistant in communications
CN104036774B (zh) 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
US20150371529A1 (en) 2014-06-24 2015-12-24 Bose Corporation Audio Systems and Related Methods and Devices
US9632748B2 (en) 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
US10783166B2 (en) 2014-06-24 2020-09-22 Google Llc List accumulation and reminder triggering
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9807559B2 (en) 2014-06-25 2017-10-31 Microsoft Technology Licensing, Llc Leveraging user signals for improved interactions with digital personal assistant
US10402453B2 (en) 2014-06-27 2019-09-03 Nuance Communications, Inc. Utilizing large-scale knowledge graphs to support inference at scale and explanation generation
US20150381923A1 (en) 2014-06-27 2015-12-31 United Video Properties, Inc. Methods and systems for adjusting a play length of a media asset based user actions
US20150379118A1 (en) 2014-06-27 2015-12-31 United Video Properties, Inc. Methods and systems for generating playlists based on activities being performed by a user
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016004396A1 (en) 2014-07-02 2016-01-07 Christopher Decharms Technologies for brain exercise training
US11330100B2 (en) 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US20160012038A1 (en) 2014-07-10 2016-01-14 International Business Machines Corporation Semantic typing with n-gram analysis
US10321204B2 (en) * 2014-07-11 2019-06-11 Lenovo (Singapore) Pte. Ltd. Intelligent closed captioning
US9665248B2 (en) 2014-07-15 2017-05-30 Google Inc. Adaptive background playback behavior
US10506273B2 (en) 2014-07-15 2019-12-10 Verizon Patent And Licensing Inc. Using a media client device to present media content from a mobile device
KR20160009344A (ko) 2014-07-16 2016-01-26 삼성전자주식회사 귓속말 인식 방법 및 장치
JP6434144B2 (ja) 2014-07-18 2018-12-05 アップル インコーポレイテッドApple Inc. デバイスにおけるレイズジェスチャ検出
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
CN104113471B (zh) 2014-07-18 2018-06-05 广州三星通信技术研究有限公司 通讯连接异常时的信息处理方法和装置
US9560402B2 (en) 2014-07-23 2017-01-31 Highlands Technologies Solutions Methods for displaying personalized messages, images and the like at event centers including cinema
US20160028666A1 (en) 2014-07-24 2016-01-28 Framy Inc. System and method for instant messaging
US9301256B2 (en) 2014-07-24 2016-03-29 Verizon Patent And Licensing Inc. Low battery indication for callers to mobile device
US20160086116A1 (en) 2014-07-27 2016-03-24 Supriya Rao Method and system of an automatically managed calendar and contextual task list
US9325842B1 (en) 2014-07-28 2016-04-26 Google Inc. Systems and methods for associating a string with a content item
US10178229B2 (en) 2014-07-29 2019-01-08 United Efficiency, Inc. System for limiting mobile phone distraction in motor vehicles and / or within fixed locations
CN104123191A (zh) 2014-07-31 2014-10-29 北京智谷睿拓技术服务有限公司 任务迁移控制方法、装置和系统
US20160034811A1 (en) 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
EP2998822B1 (en) 2014-07-31 2018-09-12 Samsung Electronics Co., Ltd Mobile communication device using a plurality of wearable devices in parallel
WO2016017997A1 (en) 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Wearable glasses and method of providing content using the same
US9377871B2 (en) 2014-08-01 2016-06-28 Nuance Communications, Inc. System and methods for determining keyboard input in the presence of multiple contact points
US9898175B2 (en) 2014-08-05 2018-02-20 Fibar Group S.A. Home network manager for home automation
US9874997B2 (en) 2014-08-08 2018-01-23 Sonos, Inc. Social playback queues
US9548066B2 (en) 2014-08-11 2017-01-17 Amazon Technologies, Inc. Voice application architecture
US9767794B2 (en) 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs
US9361442B2 (en) 2014-08-12 2016-06-07 International Business Machines Corporation Triggering actions on a user device based on biometrics of nearby individuals
US10243891B2 (en) 2014-08-14 2019-03-26 Oath Inc. Cross-device integration system and method
US9838999B2 (en) 2014-08-14 2017-12-05 Blackberry Limited Portable electronic device and method of controlling notifications
WO2016028793A1 (en) 2014-08-18 2016-02-25 Interdigital Patent Holdings, Inc. Injecting streaming media into a playlist
JP6044604B2 (ja) 2014-08-18 2016-12-14 カシオ計算機株式会社 端末装置、およびプログラム
US10345767B2 (en) 2014-08-19 2019-07-09 Samsung Electronics Co., Ltd. Apparatus and method for gamification of sensor data interpretation in smart home
KR20160023089A (ko) 2014-08-21 2016-03-03 엘지전자 주식회사 디지털 디바이스 및 그 제어 방법
US20160055240A1 (en) 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
WO2016032806A1 (en) 2014-08-26 2016-03-03 Apple Inc. User interface for limiting notifications and alerts
CN105472587A (zh) 2014-08-26 2016-04-06 小米科技有限责任公司 来电处理方法和装置
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10068008B2 (en) 2014-08-28 2018-09-04 Microsoft Technologies Licensing, LLC Spelling correction of email queries
US9990610B2 (en) 2014-08-29 2018-06-05 Google Llc Systems and methods for providing suggested reminders
CN105471705B (zh) 2014-09-03 2021-03-23 腾讯科技(深圳)有限公司 一种基于即时通讯的智能控制方法、设备及系统
CN104243699A (zh) 2014-09-04 2014-12-24 宇龙计算机通信科技(深圳)有限公司 一种来电拒接后的提醒方法、系统及移动终端
US9959863B2 (en) 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
WO2016037311A1 (en) 2014-09-09 2016-03-17 Microsoft Technology Licensing, Llc Variable-component deep neural network for robust speech recognition
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
US10204622B2 (en) 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10171558B2 (en) 2014-09-12 2019-01-01 Microsoft Technology Licensing, Llc Cross device application discovery and control
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10261672B1 (en) 2014-09-16 2019-04-16 Amazon Technologies, Inc. Contextual launch interfaces
CN105490890A (zh) 2014-09-16 2016-04-13 中兴通讯股份有限公司 智能家庭终端及其控制方法
US9548979B1 (en) 2014-09-19 2017-01-17 United Services Automobile Association (Usaa) Systems and methods for authentication program enrollment
US9778736B2 (en) 2014-09-22 2017-10-03 Rovi Guides, Inc. Methods and systems for calibrating user devices
JP6052814B2 (ja) 2014-09-24 2016-12-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
US9508028B2 (en) 2014-09-24 2016-11-29 Nuance Communications, Inc. Converting text strings into number strings, such as via a touchscreen input
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US20160094889A1 (en) 2014-09-29 2016-03-31 Rovi Guides, Inc. Systems and methods for determining whether to merge search queries based on contextual information
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9578156B2 (en) 2014-09-30 2017-02-21 Samsung Electronics Co., Ltd. Method and apparatus for operating an electronic device
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9378740B1 (en) 2014-09-30 2016-06-28 Amazon Technologies, Inc. Command suggestions during automatic speech recognition
JP6448971B2 (ja) 2014-09-30 2019-01-09 シャープ株式会社 対話装置
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646634B2 (en) 2014-09-30 2017-05-09 Google Inc. Low-rank hidden input layer for speech recognition neural network
US9830321B2 (en) 2014-09-30 2017-11-28 Rovi Guides, Inc. Systems and methods for searching for a media asset
JP6671379B2 (ja) 2014-10-01 2020-03-25 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
US9559993B2 (en) 2014-10-02 2017-01-31 Oracle International Corporation Virtual agent proxy in a real-time chat service
US20160099984A1 (en) 2014-10-03 2016-04-07 Across Lab, Inc. Method and apparatus for remote, multi-media collaboration, including archive and search capability
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9741344B2 (en) 2014-10-20 2017-08-22 Vocalzoom Systems Ltd. System and method for operating devices using voice commands
US20160117386A1 (en) 2014-10-22 2016-04-28 International Business Machines Corporation Discovering terms using statistical corpus analysis
CN104360990A (zh) 2014-10-27 2015-02-18 深圳市金立通信设备有限公司 一种编辑内容的方法
US9576575B2 (en) 2014-10-27 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Providing voice recognition shortcuts based on user verbal input
CN104464733B (zh) 2014-10-28 2019-09-20 百度在线网络技术(北京)有限公司 一种语音对话的多场景管理方法及装置
CN104460593B (zh) 2014-10-29 2017-10-10 小米科技有限责任公司 模式切换方法及装置
US9880714B2 (en) 2014-10-30 2018-01-30 Ebay Inc. Dynamic loading of contextual ontologies for predictive touch screen typing
CN105574067B (zh) 2014-10-31 2020-01-21 株式会社东芝 项目推荐装置以及项目推荐方法
CN104374399A (zh) 2014-10-31 2015-02-25 北京搜狗科技发展有限公司 一种导航信息显示方法和装置
US9646611B2 (en) 2014-11-06 2017-05-09 Microsoft Technology Licensing, Llc Context-based actions
US9678946B2 (en) 2014-11-10 2017-06-13 Oracle International Corporation Automatic generation of N-grams and concept relations from linguistic input data
US10572589B2 (en) 2014-11-10 2020-02-25 International Business Machines Corporation Cognitive matching of narrative data
GB2532075A (en) 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
CA3216868A1 (en) 2014-11-11 2016-05-19 Webee Corporation Systems and methods for smart spaces
US10228904B2 (en) 2014-11-12 2019-03-12 Lenovo (Singapore) Pte. Ltd. Gaze triggered voice recognition incorporating device velocity
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US20160139662A1 (en) 2014-11-14 2016-05-19 Sachin Dabhade Controlling a visual device based on a proximity between a user and the visual device
US10116748B2 (en) 2014-11-20 2018-10-30 Microsoft Technology Licensing, Llc Vehicle-based multi-modal interface
US9258604B1 (en) 2014-11-24 2016-02-09 Facebook, Inc. Commercial detection based on audio fingerprinting
US9361126B1 (en) 2014-11-24 2016-06-07 International Business Machines Corporation Device driver aggregation in operating system deployment
US9886430B2 (en) 2014-11-25 2018-02-06 Microsoft Technology Licensing, Llc Entity based content selection
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US10192549B2 (en) 2014-11-28 2019-01-29 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
KR20160065503A (ko) 2014-12-01 2016-06-09 엘지전자 주식회사 이동 단말기 및 그 제어 방법
AU2015355209B2 (en) 2014-12-01 2019-08-29 Inscape Data, Inc. System and method for continuous media segment identification
US10587541B2 (en) 2014-12-02 2020-03-10 Facebook, Inc. Device, method, and graphical user interface for lightweight messaging
US9466297B2 (en) 2014-12-09 2016-10-11 Microsoft Technology Licensing, Llc Communication system
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US20160162458A1 (en) 2014-12-09 2016-06-09 Idibon, Inc. Graphical systems and methods for human-in-the-loop machine intelligence
US9241073B1 (en) 2014-12-09 2016-01-19 Ringcentral, Inc. Systems and methods for managing an event scheduling request in a telephony system
US20160170966A1 (en) 2014-12-10 2016-06-16 Brian Kolo Methods and systems for automated language identification
CN111414222A (zh) 2014-12-11 2020-07-14 微软技术许可有限责任公司 能够实现可动作的消息传送的虚拟助理系统
KR20160071732A (ko) 2014-12-12 2016-06-22 삼성전자주식회사 음성 입력을 처리하는 방법 및 장치
US9912758B2 (en) 2014-12-16 2018-03-06 Yahoo Holdings, Inc. Continuing an application session on a different device
US9904673B2 (en) 2014-12-17 2018-02-27 International Business Machines Corporation Conversation advisor
CN107004405A (zh) 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
US9552816B2 (en) 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9911415B2 (en) 2014-12-19 2018-03-06 Lenovo (Singapore) Pte. Ltd. Executing a voice command during voice input
JP6504808B2 (ja) 2014-12-22 2019-04-24 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
KR20160076201A (ko) 2014-12-22 2016-06-30 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9690542B2 (en) 2014-12-22 2017-06-27 Microsoft Technology Licensing, Llc Scaling digital personal assistant agents across devices
US9811312B2 (en) 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
US10672390B2 (en) 2014-12-22 2020-06-02 Rovi Guides, Inc. Systems and methods for improving speech recognition performance by generating combined interpretations
US10229356B1 (en) 2014-12-23 2019-03-12 Amazon Technologies, Inc. Error tolerant neural network model compression
US9483388B2 (en) 2014-12-29 2016-11-01 Quixey, Inc. Discovery of application states
US9837081B2 (en) 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discovering capabilities of third-party voice-enabled resources
CN107112016B (zh) 2015-01-05 2020-12-29 谷歌有限责任公司 多模态状态循环
US9959129B2 (en) 2015-01-09 2018-05-01 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
CN113140215A (zh) 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
CN104575501B (zh) 2015-01-19 2017-11-03 北京云知声信息技术有限公司 一种收音机语音操控指令解析方法及系统
KR102305584B1 (ko) 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
CN105869641A (zh) 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
US9947313B2 (en) 2015-01-26 2018-04-17 William Drewes Method for substantial ongoing cumulative voice recognition error reduction
CN104573472A (zh) 2015-01-30 2015-04-29 深圳市中兴移动通信有限公司 移动终端及其操作方法
US20160224683A1 (en) 2015-01-30 2016-08-04 Cory Michael Hicks Blending of content item types in a social network
US9424412B1 (en) 2015-02-02 2016-08-23 Bank Of America Corporation Authenticating customers using biometrics
US20160227107A1 (en) 2015-02-02 2016-08-04 Lenovo (Singapore) Pte. Ltd. Method and device for notification preview dismissal
US20160225372A1 (en) 2015-02-03 2016-08-04 Samsung Electronics Company, Ltd. Smart home connected device contextual learning using audio commands
US9613022B2 (en) 2015-02-04 2017-04-04 Lenovo (Singapore) Pte. Ltd. Context based customization of word assistance functions
US10062061B2 (en) 2015-02-05 2018-08-28 Conduent Business Services, Llc Pay-by-phone parking system aided by a vision based monitoring device
CN104679472A (zh) 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
KR101678087B1 (ko) 2015-02-16 2016-11-23 현대자동차주식회사 차량 및 그 제어방법
KR20160101826A (ko) 2015-02-17 2016-08-26 삼성전자주식회사 멀티 유저 기반의 전자 장치
JP2016151928A (ja) 2015-02-18 2016-08-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016134183A1 (en) 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
US9554356B2 (en) 2015-02-19 2017-01-24 Microsoft Technology Licensing, Llc Personalized reminders
US9928232B2 (en) 2015-02-27 2018-03-27 Microsoft Technology Licensing, Llc Topically aware word suggestions
WO2016137272A1 (ko) 2015-02-27 2016-09-01 삼성전자 주식회사 복수의 운영체제가 설치된 디바이스를 제어하는 방법 및 디바이스
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9911412B2 (en) 2015-03-06 2018-03-06 Nuance Communications, Inc. Evidence-based natural language input recognition
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10254911B2 (en) 2015-03-08 2019-04-09 Apple Inc. Device configuration user interface
US20160266871A1 (en) 2015-03-11 2016-09-15 Adapx, Inc. Speech recognizer for multimodal systems and signing in/out with and /or for a digital pen
US9805713B2 (en) 2015-03-13 2017-10-31 Google Inc. Addressing missing features in models
US9984686B1 (en) 2015-03-17 2018-05-29 Amazon Technologies, Inc. Mapping device capabilities to a predefined set
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
CN104869342A (zh) * 2015-06-09 2015-08-26 柳州桂通科技股份有限公司 一种多媒体多信息同步重现的方法及其应用
WO2016150350A1 (zh) 2015-03-20 2016-09-29 柳州桂通科技股份有限公司 一种多媒体多信息同步重现的方法和系统
US20160286045A1 (en) 2015-03-23 2016-09-29 Vonage Network Llc System and method for providing an informative message when rejecting an incoming call
US10063510B2 (en) 2015-03-24 2018-08-28 Facebook, Inc. Techniques to share and remix media through a messaging system
US9703394B2 (en) 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
US10956957B2 (en) 2015-03-25 2021-03-23 Facebook, Inc. Techniques for automated messaging
US9672725B2 (en) 2015-03-25 2017-06-06 Microsoft Technology Licensing, Llc Proximity-based reminders
US10261482B2 (en) 2015-03-26 2019-04-16 Ca, Inc. Initiating actions on wearable devices
US10133538B2 (en) 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
TWI525532B (zh) 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
US10192546B1 (en) 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
US9484021B1 (en) 2015-03-30 2016-11-01 Amazon Technologies, Inc. Disambiguation in speech recognition
US20160293157A1 (en) 2015-03-30 2016-10-06 Google Inc. Contextual Voice Action History
WO2016157650A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US20160322044A1 (en) 2015-04-01 2016-11-03 Elwha Llc Networked User Command Recognition
US20170032783A1 (en) 2015-04-01 2017-02-02 Elwha Llc Hierarchical Networked Command Recognition
US10021209B2 (en) 2015-04-10 2018-07-10 Open Text Sa Ulc Systems and methods for caching of managed content in a distributed environment using a multi-tiered architecture
EP3282445A4 (en) 2015-04-10 2018-05-02 Huawei Technologies Co. Ltd. Voice recognition method, voice wake-up device, voice recognition device and terminal
US9678664B2 (en) 2015-04-10 2017-06-13 Google Inc. Neural network for keyboard input decoding
US10049099B2 (en) 2015-04-10 2018-08-14 Facebook, Inc. Spell correction with hidden markov models on online social networks
US10095683B2 (en) 2015-04-10 2018-10-09 Facebook, Inc. Contextual speller models on online social networks
US20160299977A1 (en) 2015-04-13 2016-10-13 Quixey, Inc. Action-Based App Recommendation Engine
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10218651B2 (en) 2015-04-20 2019-02-26 Oracle International Corporation Virtual assistance for chat agents
KR102269035B1 (ko) 2015-04-21 2021-06-24 삼성전자주식회사 서버 및 서버의 그룹 액션 제어방법
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10109277B2 (en) 2015-04-27 2018-10-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
US10083213B1 (en) 2015-04-27 2018-09-25 Intuit Inc. Method and system for routing a question based on analysis of the question content and predicted user satisfaction with answer content before the answer content is generated
CN104836909B (zh) 2015-04-27 2018-05-11 广东小天才科技有限公司 一种来电自动接通的方法及装置
WO2016175354A1 (ko) 2015-04-29 2016-11-03 주식회사 아카인텔리전스 인공지능 대화 장치 및 방법
GB2537903B (en) 2015-04-30 2019-09-04 Toshiba Res Europe Limited Device and method for a spoken dialogue system
US11010768B2 (en) 2015-04-30 2021-05-18 Oracle International Corporation Character-based attribute value extraction system
US9953063B2 (en) 2015-05-02 2018-04-24 Lithium Technologies, Llc System and method of providing a content discovery platform for optimizing social network engagements
US20160328205A1 (en) 2015-05-05 2016-11-10 Motorola Mobility Llc Method and Apparatus for Voice Operation of Mobile Applications Having Unnamed View Elements
CN104867492B (zh) 2015-05-07 2019-09-03 科大讯飞股份有限公司 智能交互系统及方法
US9892363B2 (en) 2015-05-07 2018-02-13 Truemotion, Inc. Methods and systems for sensor-based driving data collection
US9953648B2 (en) 2015-05-11 2018-04-24 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US10685471B2 (en) 2015-05-11 2020-06-16 Facebook, Inc. Methods and systems for playing video while transitioning from a content-item preview to the content item
US9906482B2 (en) 2015-05-13 2018-02-27 The Travelers Indemnity Company Predictive electronic message management systems and controllers
US20160337299A1 (en) 2015-05-13 2016-11-17 Google Inc. Prioritized notification display
US9761220B2 (en) 2015-05-13 2017-09-12 Microsoft Technology Licensing, Llc Language modeling based on spoken and unspeakable corpuses
US10133613B2 (en) 2015-05-14 2018-11-20 Microsoft Technology Licensing, Llc Digital assistant extensibility to third party applications
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
KR20160136013A (ko) 2015-05-19 2016-11-29 엘지전자 주식회사 이동 단말기 및 그 제어 방법
EP3591648B1 (en) 2015-05-19 2022-07-06 Sony Group Corporation Information processing apparatus, information processing method, and program
US10446142B2 (en) 2015-05-20 2019-10-15 Microsoft Technology Licensing, Llc Crafting feedback dialogue with a digital assistant
US10061848B2 (en) 2015-05-22 2018-08-28 Microsoft Technology Licensing, Llc Ontology-crowd-relevance deep response generation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10097973B2 (en) 2015-05-27 2018-10-09 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
WO2016191653A1 (en) 2015-05-27 2016-12-01 Orion Labs Intelligent agent features for wearable personal communication nodes
US9408182B1 (en) 2015-05-28 2016-08-02 Google Inc. Third party action triggers
US9552547B2 (en) 2015-05-29 2017-01-24 Sas Institute Inc. Normalizing electronic communications using a neural-network normalizer and a neural-network flagger
US10200543B2 (en) 2015-06-01 2019-02-05 Huawei Technologies Co., Ltd. Method and apparatus for customer service management for a wireless communication network
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US9529500B1 (en) 2015-06-05 2016-12-27 Apple Inc. Application recommendation based on detected triggering events
US10755032B2 (en) 2015-06-05 2020-08-25 Apple Inc. Indexing web pages with deep links
US10505884B2 (en) 2015-06-05 2019-12-10 Microsoft Technology Licensing, Llc Entity classification and/or relationship identification
EP4099148A1 (en) 2015-06-05 2022-12-07 Apple Inc. Changing companion communication device behavior based on status of wearable device
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9865265B2 (en) 2015-06-06 2018-01-09 Apple Inc. Multi-microphone speech recognition systems and related techniques
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160357861A1 (en) 2015-06-07 2016-12-08 Apple Inc. Natural language event detection
US20160365101A1 (en) 2015-06-15 2016-12-15 Motorola Mobility Llc Enabling Event Driven Voice Interaction with a Device
US20160371250A1 (en) 2015-06-16 2016-12-22 Microsoft Technology Licensing, Llc Text suggestion using a predictive grammar model
WO2016205338A1 (en) 2015-06-18 2016-12-22 Amgine Technologies (Us), Inc. Managing interactions between users and applications
US9818409B2 (en) 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
US9767386B2 (en) 2015-06-23 2017-09-19 Adobe Systems Incorporated Training a classifier algorithm used for automatically generating tags to be applied to images
CN104951077A (zh) 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN107667561B (zh) 2015-06-25 2021-01-08 苹果公司 移动通信设备和用于控制移动通信设备接收机的方法
KR102317526B1 (ko) 2015-06-25 2021-10-26 엘지전자 주식회사 헤드셋 및 그 제어 방법
US10325590B2 (en) 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US20160379638A1 (en) 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US10121471B2 (en) 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US9881613B2 (en) 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection
US10019992B2 (en) 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
US20160379641A1 (en) 2015-06-29 2016-12-29 Microsoft Technology Licensing, Llc Auto-Generation of Notes and Tasks From Passive Recording
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102371188B1 (ko) 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US9536527B1 (en) 2015-06-30 2017-01-03 Amazon Technologies, Inc. Reporting operational metrics in speech-based systems
US10374822B2 (en) 2015-06-30 2019-08-06 K4Connect Inc. Home automation (HA) system including desired scene implementation based upon user-selectable list of addressable HA devices and related methods
US9998597B2 (en) 2015-07-06 2018-06-12 Nuance Communications, Inc. Systems and methods for facilitating communication using an interactive communication system
US10073887B2 (en) 2015-07-06 2018-09-11 Conduent Business Services, Llc System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
CN105100356B (zh) 2015-07-07 2018-04-06 上海斐讯数据通信技术有限公司 一种音量自动调节的方法和系统
JP2017019331A (ja) 2015-07-08 2017-01-26 Ntn株式会社 車両用モータ駆動装置
US20170011303A1 (en) 2015-07-09 2017-01-12 Qualcomm Incorporated Contact-Based Predictive Response
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
CN104967748B (zh) 2015-07-13 2018-10-23 宁波萨瑞通讯有限公司 一种安全操作应用服务的方法
US10426037B2 (en) 2015-07-15 2019-09-24 International Business Machines Corporation Circuitized structure with 3-dimensional configuration
CN106373575B (zh) 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US10686738B2 (en) 2015-07-24 2020-06-16 Facebook, Inc. Providing personal assistant service via messaging
US10311384B2 (en) 2015-07-29 2019-06-04 Microsoft Technology Licensing, Llc Automatic creation and maintenance of a taskline
KR20170014297A (ko) 2015-07-29 2017-02-08 엘지전자 주식회사 와치 타입의 이동 단말기 및 그 제어 방법
US10255921B2 (en) 2015-07-31 2019-04-09 Google Llc Managing dialog data providers
US20170039283A1 (en) 2015-08-03 2017-02-09 Microsoft Technology Licensing, Llc Searching Based on the Persona of Another
US9691361B2 (en) 2015-08-03 2017-06-27 International Business Machines Corporation Adjusting presentation of content on a display
JP5906345B1 (ja) 2015-08-05 2016-04-20 株式会社Cygames 操作履歴に基づいてタッチ対象を予測するプログラム、電子装置、システム及び制御方法
US10248308B2 (en) 2015-08-10 2019-04-02 Apple Inc. Devices, methods, and graphical user interfaces for manipulating user interfaces with physical gestures
KR102386854B1 (ko) 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10572073B2 (en) 2015-08-24 2020-02-25 Sony Corporation Information processing device, information processing method, and program
US10362978B2 (en) 2015-08-28 2019-07-30 Comcast Cable Communications, Llc Computational model for mood
US20170061423A1 (en) 2015-09-01 2017-03-02 Bank Of America Corporation Use of wearable as an account control system
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US9531862B1 (en) 2015-09-04 2016-12-27 Vishal Vadodaria Contextual linking module with interactive intelligent agent for managing communications with contacts and navigation features
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN106534469A (zh) 2015-09-11 2017-03-22 昆明我行科技有限公司 一种为智能手机实现电话通讯功能扩展的方法及电子设备
US10026399B2 (en) 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US9736318B2 (en) 2015-09-16 2017-08-15 International Business Machines Corporation Adaptive voice-text transmission
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9665567B2 (en) 2015-09-21 2017-05-30 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
US20170085547A1 (en) 2015-09-22 2017-03-23 International Business Machines Corporation Storing, indexing and recalling data based on brain activity
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9990040B2 (en) 2015-09-25 2018-06-05 Immersion Corporation Haptic CAPTCHA
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US20170092278A1 (en) 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170091612A1 (en) 2015-09-30 2017-03-30 Apple Inc. Proactive assistant with memory assistance
US10425768B2 (en) 2015-09-30 2019-09-24 Lenovo (Singapore) Pte. Ltd. Adjusting audio output volume based on a detected presence of another device
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US20170102837A1 (en) 2015-10-07 2017-04-13 Spotify Ab Dynamic control of playlists using wearable devices
US10083685B2 (en) 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
US10891106B2 (en) 2015-10-13 2021-01-12 Google Llc Automatic batch voice commands
KR102405793B1 (ko) 2015-10-15 2022-06-08 삼성전자 주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
JP6960914B2 (ja) 2015-10-21 2021-11-05 グーグル エルエルシーGoogle LLC ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
WO2017070535A1 (en) 2015-10-22 2017-04-27 Knowles Electronics, Llc Microphone with programmable phone onset detection engine
EP3369002A4 (en) 2015-10-26 2019-06-12 24/7 Customer, Inc. METHOD AND DEVICE FOR FACILITATING THE PREDICTION OF CUSTOMER VISIONS
US10146874B2 (en) 2015-10-28 2018-12-04 Fujitsu Limited Refining topic representations
CN106657521A (zh) 2015-10-30 2017-05-10 中兴通讯股份有限公司 一种智能设备语音交流方法、装置和系统
US20170125016A1 (en) 2015-11-02 2017-05-04 Le Holdings (Beijing) Co., Ltd. Method and electronic device for processing voice messages
US9691378B1 (en) 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9804681B2 (en) 2015-11-10 2017-10-31 Motorola Mobility Llc Method and system for audible delivery of notifications partially presented on an always-on display
KR102432620B1 (ko) 2015-11-12 2022-08-16 삼성전자주식회사 외부 객체의 근접에 따른 동작을 수행하는 전자 장치 및 그 방법
US10769189B2 (en) 2015-11-13 2020-09-08 Microsoft Technology Licensing, Llc Computer speech recognition and semantic understanding from activity patterns
US9940934B2 (en) 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method
US10546028B2 (en) 2015-11-18 2020-01-28 International Business Machines Corporation Method for personalized breaking news feed
US10255611B2 (en) 2015-11-20 2019-04-09 International Business Machines Corporation Determining pricing using categorized costs with tree structures
US9697393B2 (en) 2015-11-20 2017-07-04 Symbol Technologies, Llc Methods and systems for adjusting mobile-device operating parameters based on housing-support type
CN106773742B (zh) 2015-11-23 2019-10-25 宏碁股份有限公司 语音控制方法及语音控制系统
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN105897675A (zh) 2015-11-27 2016-08-24 乐视云计算有限公司 视频服务提供方法、访问鉴权方法及服务器和系统
CN105430186A (zh) 2015-11-27 2016-03-23 东莞酷派软件技术有限公司 一种拒接短信的发送方法及系统
KR102450853B1 (ko) 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US10546015B2 (en) 2015-12-01 2020-01-28 Facebook, Inc. Determining and utilizing contextual meaning of digital standardized image characters
US9946862B2 (en) 2015-12-01 2018-04-17 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10229671B2 (en) 2015-12-02 2019-03-12 GM Global Technology Operations LLC Prioritized content loading for vehicle automatic speech recognition systems
KR102535044B1 (ko) 2015-12-08 2023-05-23 삼성전자주식회사 단말장치, 서버 및 이벤트 제안방법
US10796693B2 (en) 2015-12-09 2020-10-06 Lenovo (Singapore) Pte. Ltd. Modifying input based on determined characteristics
US9990921B2 (en) 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US9830449B1 (en) 2015-12-16 2017-11-28 Amazon Technologies, Inc. Execution locations for request-driven code
US10685170B2 (en) 2015-12-16 2020-06-16 Microsoft Technology Licensing, Llc Dynamic content layout generator
US10013416B1 (en) 2015-12-18 2018-07-03 Amazon Technologies, Inc. Language based solution agent
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102423588B1 (ko) 2015-12-28 2022-07-22 삼성전자주식회사 정보 제공 방법 및 장치
EP3398082A1 (en) 2015-12-29 2018-11-07 Mz Ip Holdings, Llc Systems and methods for suggesting emoji
US9716795B1 (en) 2015-12-30 2017-07-25 Qualcomm Incorporated Diversion of a call to a wearable device
US10002607B2 (en) 2016-01-05 2018-06-19 Microsoft Technology Licensing, Llc Cross device companion application for phone
US20170193083A1 (en) 2016-01-06 2017-07-06 International Business Machines Corporation Identifying message content related to an event utilizing natural language processing and performing an action pertaining to the event
US10382729B2 (en) 2016-01-06 2019-08-13 Vivint, Inc. Home automation system-initiated calls
JP2017123564A (ja) 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム
CN105718448B (zh) 2016-01-13 2019-03-19 北京新美互通科技有限公司 一种对输入字符进行自动翻译的方法和装置
US9792534B2 (en) 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
US9747289B2 (en) 2016-01-13 2017-08-29 Disney Enterprises, Inc. System and method for proximity-based personalized content recommendations
US20170206899A1 (en) 2016-01-20 2017-07-20 Fitbit, Inc. Better communication channel for requests and responses having an intelligent agent
US20170235361A1 (en) 2016-01-20 2017-08-17 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Interaction based on capturing user intent via eye gaze
KR102490548B1 (ko) 2016-01-25 2023-01-19 삼성전자주식회사 사용자 단말 장치 및 그 제어 방법
US9922647B2 (en) 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US10182155B2 (en) 2016-02-03 2019-01-15 At&T Intellectual Property I, L.P. Directing care calls using historical call backs, demographics and real time attributes
KR102495523B1 (ko) 2016-02-04 2023-02-03 삼성전자 주식회사 음성 명령을 처리하는 방법 및 이를 제공하는 전자 장치
US10055489B2 (en) 2016-02-08 2018-08-21 Ebay Inc. System and method for content-based media analysis
US9858927B2 (en) 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10431218B2 (en) 2016-02-15 2019-10-01 EVA Automation, Inc. Integration and probabilistic control of electronic devices
US9858129B2 (en) 2016-02-16 2018-01-02 International Business Machines Corporation Dynamic copy content retrieval
US11023680B2 (en) 2016-02-17 2021-06-01 The King Abdulaziz City For Science And Technology (Kacst) Method and system for detecting semantic errors in a text using artificial neural networks
KR20170096774A (ko) 2016-02-17 2017-08-25 이준영 전자기기의 사용자 행동기반 정황인식 작동모드
WO2017141502A1 (ja) 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US20180063308A1 (en) 2016-02-23 2018-03-01 Bioworld Merchandising System and Method for Voice Recognition
US9779735B2 (en) 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US20170249309A1 (en) 2016-02-29 2017-08-31 Microsoft Technology Licensing, Llc Interpreting and Resolving Conditional Natural Language Queries
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US20170263254A1 (en) 2016-03-10 2017-09-14 lntel IP Corporation Malware-proof privacy indicator
US10404829B2 (en) 2016-03-11 2019-09-03 Wipro Limited Method and system for achieving improved quality of service (QoS) for content delivery in a SDN controller based communication network
JP6725672B2 (ja) 2016-03-14 2020-07-22 アップル インコーポレイテッドApple Inc. クレデンシャルを提供する音声入力の識別
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DK201670539A1 (en) 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
US10176802B1 (en) 2016-03-21 2019-01-08 Amazon Technologies, Inc. Lattice encoding using recurrent neural networks
US10304444B2 (en) 2016-03-23 2019-05-28 Amazon Technologies, Inc. Fine-grained natural language understanding
US11089132B2 (en) 2016-03-29 2021-08-10 Microsoft Technology Licensing, Llc Extensibility for context-aware digital personal assistant
US20170286397A1 (en) 2016-03-30 2017-10-05 International Business Machines Corporation Predictive Embeddings
US10979843B2 (en) 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
CN109479172B (zh) 2016-04-21 2021-06-29 惠普发展公司,有限责任合伙企业 电子设备麦克风监听模式
US20170308609A1 (en) 2016-04-21 2017-10-26 Microsoft Technology Licensing, Llc Multi-result ranking exploration
US10353947B2 (en) 2016-04-25 2019-07-16 Adobe Inc. Relevancy evaluation for image search results
US20170311005A1 (en) 2016-04-26 2017-10-26 Szu-Tung Lin Method of wireless audio transmission and playback
US10431205B2 (en) 2016-04-27 2019-10-01 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
CN109475294B (zh) 2016-05-06 2022-08-19 斯坦福大学托管董事会 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台
US10866584B2 (en) 2016-05-09 2020-12-15 Strong Force Iot Portfolio 2016, Llc Methods and systems for data processing in an industrial internet of things data collection environment with large data sets
US10235997B2 (en) 2016-05-10 2019-03-19 Google Llc Voice-controlled closed caption display
RU2632144C1 (ru) 2016-05-12 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Компьютерный способ создания интерфейса рекомендации контента
US20170329466A1 (en) 2016-05-13 2017-11-16 Sap Se User interface application and digital assistant
US10534635B2 (en) 2016-05-13 2020-01-14 Sap Se Personal digital assistant
US10217464B2 (en) 2016-05-13 2019-02-26 Koninklijke Philips N.V. Vocabulary generation system
KR20170128820A (ko) 2016-05-16 2017-11-24 엘지전자 주식회사 이동단말기 및 그 제어방법
US11416212B2 (en) 2016-05-17 2022-08-16 Microsoft Technology Licensing, Llc Context-based user agent
CN107852436A (zh) 2016-05-20 2018-03-27 华为技术有限公司 通话中的交互方法和设备
US10417566B2 (en) 2016-05-22 2019-09-17 Microsoft Technology Licensing, Llc Self-learning technique for training a PDA component and a simulated user component
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10832665B2 (en) 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
US9922655B2 (en) 2016-05-31 2018-03-20 International Business Machines Corporation System, method, and recording medium for controlling dialogue interruptions by a speech output device
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
CN109313902A (zh) 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
CN107480161A (zh) 2016-06-08 2017-12-15 苹果公司 用于媒体探究的智能自动化助理
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10148546B2 (en) 2016-06-09 2018-12-04 Apple Inc. Scheduling processing tasks based on predicted context
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10592601B2 (en) 2016-06-10 2020-03-17 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10127926B2 (en) 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
AU2017100486C4 (en) 2016-06-11 2019-09-05 Apple Inc. Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN107491285B (zh) 2016-06-11 2019-01-01 苹果公司 智能设备仲裁和控制
CN107493374B (zh) 2016-06-11 2020-06-19 苹果公司 具有数字助理的应用集成装置及方法
WO2017218194A1 (en) 2016-06-12 2017-12-21 Apple Inc. User interfaces for retrieving contextually relevant media content
DK201670608A1 (en) 2016-06-12 2018-01-02 Apple Inc User interfaces for retrieving contextually relevant media content
US10117046B2 (en) 2016-06-12 2018-10-30 Apple Inc. Discrete location classification
US10257314B2 (en) 2016-06-22 2019-04-09 Microsoft Technology Licensing, Llc End-to-end user experiences with a digital assistant
US11232136B2 (en) 2016-06-27 2022-01-25 Google Llc Contextual voice search suggestions
US10271093B1 (en) 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10332513B1 (en) 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US10200397B2 (en) 2016-06-28 2019-02-05 Microsoft Technology Licensing, Llc Robust matching for identity screening
US9990176B1 (en) 2016-06-28 2018-06-05 Amazon Technologies, Inc. Latency reduction for content playback
US10783151B1 (en) 2016-06-29 2020-09-22 Amazon Technologies, Inc. Popularity-based content feed management system
US10491598B2 (en) 2016-06-30 2019-11-26 Amazon Technologies, Inc. Multi-factor authentication to access services
GB201611380D0 (en) 2016-06-30 2016-08-17 Microsoft Technology Licensing Llc Artificial neural network with side input for language modelling and prediction
US20180007096A1 (en) 2016-06-30 2018-01-04 Microsoft Technology Licensing, Llc Weighted data center reselection
US9934777B1 (en) 2016-07-01 2018-04-03 Amazon Technologies, Inc. Customized speech processing language models
EP4235645A3 (en) 2016-07-06 2023-10-04 DRNC Holdings, Inc. System and method for customizing smart home speech interfaces using personalized speech profiles
US10489516B2 (en) 2016-07-13 2019-11-26 Fujitsu Social Science Laboratory Limited Speech recognition and translation terminal, method and non-transitory computer readable medium
US10467114B2 (en) 2016-07-14 2019-11-05 International Business Machines Corporation Hierarchical data processor tester
US11211168B2 (en) 2016-07-19 2021-12-28 Northwestern University Systems and methods for identifying content based on user interactions
US9825801B1 (en) 2016-07-22 2017-11-21 Spotify Ab Systems and methods for using seektables to stream media items
US10303772B2 (en) 2016-07-29 2019-05-28 International Business Machines Corporation Measuring mutual understanding in human-computer conversation
US10387461B2 (en) 2016-08-16 2019-08-20 Google Llc Techniques for suggesting electronic messages based on user activity and other context
US10326869B2 (en) 2016-08-19 2019-06-18 Amazon Technologies, Inc. Enabling voice control of telephone device
US20180060312A1 (en) 2016-08-23 2018-03-01 Microsoft Technology Licensing, Llc Providing ideogram translation
US10110272B2 (en) 2016-08-24 2018-10-23 Centurylink Intellectual Property Llc Wearable gesture control device and method
US10313779B2 (en) 2016-08-26 2019-06-04 Bragi GmbH Voice assistant system for wireless earpieces
US11200026B2 (en) 2016-08-26 2021-12-14 Bragi GmbH Wireless earpiece with a passive virtual assistant
US10192551B2 (en) 2016-08-30 2019-01-29 Google Llc Using textual input and user state information to generate reply content to present in response to the textual input
US10217462B2 (en) 2016-08-31 2019-02-26 Microsoft Technology Licensing, Llc Automating natural language task/dialog authoring by leveraging existing content
US10546066B2 (en) 2016-08-31 2020-01-28 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN107809372A (zh) 2016-09-08 2018-03-16 阿里巴巴集团控股有限公司 活动提醒消息的生成方法、活动提醒方法及装置
US10403273B2 (en) 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
EP4131912A1 (en) 2016-09-09 2023-02-08 Honor Device Co., Ltd. Method and apparatus for pushing notification, mobile terminal, and graphical user interface
US10846618B2 (en) 2016-09-23 2020-11-24 Google Llc Smart replies using an on-device model
US20180089166A1 (en) 2016-09-23 2018-03-29 Apple Inc. User interface for providing text prediction
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180088969A1 (en) 2016-09-28 2018-03-29 Lenovo (Singapore) Pte. Ltd. Method and device for presenting instructional content
US9786271B1 (en) 2016-09-28 2017-10-10 International Business Machines Corporation Voice pattern coding sequence and cataloging voice matching system
US10304463B2 (en) 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device
WO2018067528A1 (en) 2016-10-03 2018-04-12 Google Llc Device leadership negotiation among voice interface devices
JP6683893B2 (ja) 2016-10-03 2020-04-22 グーグル エルエルシー デバイストポロジーに基づく音声コマンドの処理
JP2018063537A (ja) 2016-10-12 2018-04-19 株式会社東芝 ホームネットワーク、電子機器、処理装置および表示方法
US10372814B2 (en) 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US11392598B2 (en) 2016-10-19 2022-07-19 Ebay Inc. Applying a quantitative range for qualitative terms
CN106484139B (zh) 2016-10-19 2019-01-29 北京新美互通科技有限公司 表情符号推荐方法及装置
US10678502B2 (en) 2016-10-20 2020-06-09 Qualcomm Incorporated Systems and methods for in-ear control of remote devices
US10950230B2 (en) 2016-10-28 2021-03-16 Panasonic Intellectual Property Corporation Of America Information processing device and information processing method
US10469665B1 (en) 2016-11-01 2019-11-05 Amazon Technologies, Inc. Workflow based communications routing
US20180121432A1 (en) 2016-11-02 2018-05-03 Microsoft Technology Licensing, Llc Digital assistant integration with music services
US10783883B2 (en) 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US10776714B2 (en) 2016-11-04 2020-09-15 Google Llc Constructing and processing computational graphs for dynamically structured machine learning models
US10777201B2 (en) 2016-11-04 2020-09-15 Microsoft Technology Licensing, Llc Voice enabled bot platform
US10127908B1 (en) 2016-11-11 2018-11-13 Amazon Technologies, Inc. Connected accessory for a voice-controlled device
US10515632B2 (en) 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
KR102501714B1 (ko) 2016-11-16 2023-02-21 삼성전자주식회사 사용자의 음성 입력에 대한 답변 메시지를 제공하는 디바이스 및 방법
US10170110B2 (en) 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US10230841B2 (en) 2016-11-22 2019-03-12 Apple Inc. Intelligent digital assistant for declining an incoming call
US10242443B2 (en) 2016-11-23 2019-03-26 General Electric Company Deep learning medical systems and methods for medical procedures
US10147306B2 (en) 2016-11-23 2018-12-04 Alarm.Com Incorporated Detection of authorized user presence and handling of unauthenticated monitoring system commands
US10331791B2 (en) 2016-11-23 2019-06-25 Amazon Technologies, Inc. Service for developing dialog-driven applications
KR20180060328A (ko) 2016-11-28 2018-06-07 삼성전자주식회사 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
GB201620235D0 (en) 2016-11-29 2017-01-11 Microsoft Technology Licensing Llc Neural network data entry system
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US11144825B2 (en) 2016-12-01 2021-10-12 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US20180158548A1 (en) 2016-12-07 2018-06-07 B9 Systems, LLC Data processing systems for scheduling work shifts, such as physician work shifts
JP6795387B2 (ja) 2016-12-14 2020-12-02 パナソニック株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
US10521245B2 (en) 2016-12-18 2019-12-31 Oracle International Corporation Method and system for recursive plug-in application recipe generation
US11237696B2 (en) 2016-12-19 2022-02-01 Google Llc Smart assist for repeated actions
US10216832B2 (en) 2016-12-19 2019-02-26 Interactions Llc Underspecification of intents in a natural language processing system
US10109275B2 (en) 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model
JP2018101828A (ja) 2016-12-19 2018-06-28 船井電機株式会社 制御装置
US10032451B1 (en) 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
JP2018101242A (ja) 2016-12-20 2018-06-28 株式会社リコー 情報処理装置、情報処理方法及びプログラム。
US20190182176A1 (en) 2016-12-21 2019-06-13 Facebook, Inc. User Authentication with Voiceprints on Online Social Networks
US20180174576A1 (en) 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10186266B1 (en) 2016-12-28 2019-01-22 Amazon Technologies, Inc. Message playback using a shared device
WO2018123067A1 (ja) 2016-12-29 2018-07-05 ヤマハ株式会社 コマンドデータ送信装置、ローカルエリア装置、機器制御システム、コマンドデータ送信装置の制御方法、ローカルエリア装置の制御方法、機器制御方法、及びプログラム
US10831366B2 (en) 2016-12-29 2020-11-10 Google Llc Modality learning on mobile devices
US10210864B2 (en) 2016-12-29 2019-02-19 T-Mobile Usa, Inc. Voice command for communication between related devices
US10268680B2 (en) 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
US10115396B2 (en) 2017-01-03 2018-10-30 Logitech Europe, S.A. Content streaming system
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US9747083B1 (en) 2017-01-23 2017-08-29 Essential Products, Inc. Home device application programming interface
US9980183B1 (en) 2017-01-24 2018-05-22 Essential Products, Inc. Media and communications in a connected environment
US10146768B2 (en) 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
US11151130B2 (en) 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
CN106776581B (zh) 2017-02-21 2020-01-24 浙江工商大学 基于深度学习的主观性文本情感分析方法
US11314898B2 (en) 2017-02-28 2022-04-26 Samsung Electronics Co., Ltd. Operating method of electronic device for function execution based on voice command in locked state and electronic device supporting the same
KR20180101063A (ko) 2017-03-03 2018-09-12 삼성전자주식회사 사용자 입력을 처리하는 전자 장치 및 그 방법
DE102017203570A1 (de) 2017-03-06 2018-09-06 Volkswagen Aktiengesellschaft Verfahren und vorrichtung zur darstellung von empfohlenen bedienhandlungen eines vorschlagssystems und interaktion mit dem vorschlagssystem
US10096319B1 (en) 2017-03-13 2018-10-09 Amazon Technologies, Inc. Voice-based determination of physical and emotional characteristics of users
US10074371B1 (en) 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
US20180268106A1 (en) 2017-03-17 2018-09-20 Orbit Healthcare, Inc. System and method for connecting patients, medical service providers, and medical insurance providers
US20180270343A1 (en) 2017-03-20 2018-09-20 Motorola Mobility Llc Enabling event-driven voice trigger phrase on an electronic device
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
US20180285056A1 (en) 2017-03-28 2018-10-04 Microsoft Technology Licensing, Llc Accessory human interface device
US10468032B2 (en) 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US10013979B1 (en) 2017-04-17 2018-07-03 Essential Products, Inc. Expanding a set of commands to control devices in an environment
KR102414122B1 (ko) 2017-04-19 2022-06-29 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
KR102298947B1 (ko) 2017-04-28 2021-09-08 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US10282416B2 (en) 2017-05-05 2019-05-07 Apple Inc. Unified framework for text conversion and prediction
US10902855B2 (en) 2017-05-08 2021-01-26 Motorola Mobility Llc Methods and devices for negotiating performance of control operations with acoustic signals
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US20180330714A1 (en) 2017-05-12 2018-11-15 Apple Inc. Machine learned systems
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10366692B1 (en) 2017-05-15 2019-07-30 Amazon Technologies, Inc. Accessory for a voice-controlled device
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
EP3459076B1 (en) 2017-05-16 2020-07-22 Apple Inc. Far-field extension for digital assistant services
US11048995B2 (en) 2017-05-16 2021-06-29 Google Llc Delayed responses by computational assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10395659B2 (en) 2017-05-16 2019-08-27 Apple Inc. Providing an auditory-based interface of a digital assistant
WO2018213401A1 (en) 2017-05-16 2018-11-22 Apple Inc. Methods and interfaces for home media control
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10009666B1 (en) 2017-05-16 2018-06-26 Google Llc Cross-device handoffs
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10170137B2 (en) 2017-05-18 2019-01-01 International Business Machines Corporation Voice signal component forecaster
US20180336439A1 (en) 2017-05-18 2018-11-22 Intel Corporation Novelty detection using discriminator of generative adversarial network
US10521512B2 (en) 2017-05-26 2019-12-31 Bose Corporation Dynamic text-to-speech response from a smart speaker
US20180349447A1 (en) 2017-06-02 2018-12-06 Apple Inc. Methods and systems for customizing suggestions using user-specific information
US20180349472A1 (en) 2017-06-02 2018-12-06 Apple Inc. Methods and systems for providing query suggestions
US20180349346A1 (en) 2017-06-02 2018-12-06 Apple Inc. Lattice-based techniques for providing spelling corrections
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
US20180357073A1 (en) 2017-06-13 2018-12-13 Motorola Solutions, Inc Method, device, and system for electronic digital assistant for natural language detection of a user status change and corresponding modification of a user interface
US10990930B2 (en) 2017-06-19 2021-04-27 International Business Machines Corporation Autonomous event generator
US10453451B2 (en) 2017-07-05 2019-10-22 Comcast Cable Communications, Llc Methods and systems for using voice to control multiple devices
US20190013025A1 (en) 2017-07-10 2019-01-10 Google Inc. Providing an ambient assist mode for computing devices
US20190019077A1 (en) 2017-07-17 2019-01-17 Cisco Technology, Inc. Automatic configuration of cognitive assistant
CN107450800A (zh) 2017-07-25 2017-12-08 维沃移动通信有限公司 一种任务设置方法、移动终端及计算机可读存储介质
CN107545262B (zh) 2017-07-31 2020-11-06 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
US10467552B2 (en) 2017-07-31 2019-11-05 Pearson Education, Inc. System and method for automatic content provisioning
US10783149B2 (en) 2017-08-02 2020-09-22 Microsoft Technology Licensing, Llc Dynamic productivity content rendering based upon user interaction patterns
US11294530B2 (en) 2017-08-07 2022-04-05 Microsoft Technology Licensing, Llc Displaying a translucent version of a user interface element
US11972327B2 (en) 2017-08-25 2024-04-30 Samsung Electronics Co., Ltd. Method for automating actions for an electronic device
KR102426704B1 (ko) 2017-08-28 2022-07-29 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
JP6929168B2 (ja) 2017-08-31 2021-09-01 キヤノン株式会社 音声制御デバイス、印刷装置、それらの制御方法およびプログラム
US10796687B2 (en) 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices
US11004444B2 (en) 2017-09-08 2021-05-11 Amazon Technologies, Inc. Systems and methods for enhancing user experience by communicating transient errors
US10438594B2 (en) 2017-09-08 2019-10-08 Amazon Technologies, Inc. Administration of privileges by speech for voice assistant system
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10719507B2 (en) 2017-09-21 2020-07-21 SayMosaic Inc. System and method for natural language processing
CN107786730B (zh) 2017-09-27 2021-06-25 珠海市魅族科技有限公司 一种任务管理方法及终端
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11450314B2 (en) 2017-10-03 2022-09-20 Google Llc Voice user interface shortcuts for an assistant application
KR102269749B1 (ko) 2017-10-09 2021-06-29 보이스 라이프 인코포레이티드 무선 전력 수신을 가능하게 하는 수신기
KR102421255B1 (ko) 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
KR102299239B1 (ko) 2017-10-21 2021-09-06 애플 인크. 공동 디바이스 상의 가상 어시스턴트 시스템에 대한 개인 도메인
US10680978B2 (en) 2017-10-23 2020-06-09 Microsoft Technology Licensing, Llc Generating recommended responses based on historical message data
CN107623616A (zh) 2017-10-27 2018-01-23 成都密为科技有限公司 智能网关和具有智能网关的取电开关
US20190129615A1 (en) 2017-10-30 2019-05-02 Futurewei Technologies, Inc. Apparatus and method for simplifying repeat performance of a prior performed task based on a context of a mobile device
US10152966B1 (en) 2017-10-31 2018-12-11 Comcast Cable Communications, Llc Preventing unwanted activation of a hands free device
US9967381B1 (en) 2017-11-03 2018-05-08 Republic Wireless, Inc. Virtual telephony assistant
US10685648B2 (en) 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US10515640B2 (en) 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
CN107871500B (zh) 2017-11-16 2021-07-20 百度在线网络技术(北京)有限公司 一种播放多媒体的方法和装置
US10521946B1 (en) 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
US10013654B1 (en) 2017-11-29 2018-07-03 OJO Labs, Inc. Cooperatively operating a network of supervised learning processors to concurrently distribute supervised learning processor training and provide predictive responses to input data
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP6962158B2 (ja) 2017-12-01 2021-11-05 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
CN107919123B (zh) 2017-12-07 2022-06-03 北京小米移动软件有限公司 多语音助手控制方法、装置及计算机可读存储介质
KR20230004947A (ko) 2017-12-08 2023-01-06 구글 엘엘씨 디지털 음성 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱 조정
US11182122B2 (en) 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10971173B2 (en) 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10664540B2 (en) 2017-12-15 2020-05-26 Intuit Inc. Domain specific natural language understanding of customer intent in self-help
US11409816B2 (en) 2017-12-19 2022-08-09 Motorola Solutions, Inc. Methods and systems for determining an action to be taken in response to a user query as a function of pre-query context information
US11221669B2 (en) 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
US10170135B1 (en) 2017-12-29 2019-01-01 Intel Corporation Audio gait detection and identification
US10685225B2 (en) 2017-12-29 2020-06-16 Wipro Limited Method and system for detecting text in digital engineering drawings
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10524040B2 (en) 2018-01-29 2019-12-31 Apple Inc. Headphones with orientation sensors
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11195000B2 (en) 2018-02-13 2021-12-07 FLIR Belgium BVBA Swipe gesture detection systems and methods
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10674014B2 (en) 2018-03-15 2020-06-02 Ways Investments, LLC System, method, and apparatus for providing help
US11044364B2 (en) 2018-03-15 2021-06-22 Ways Investments, LLC System, method, and apparatus for providing help
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108647681B (zh) 2018-05-08 2019-06-14 重庆邮电大学 一种带有文本方向校正的英文文本检测方法
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
AU2019100576C4 (en) 2018-06-03 2020-01-30 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10818296B2 (en) 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
EP3821323A4 (en) 2018-07-10 2022-03-02 Microsoft Technology Licensing, LLC AUTOMATIC GENERATION OF MOVEMENTS OF AN AVATAR
US20200019609A1 (en) 2018-07-13 2020-01-16 Asapp, Inc. Suggesting a response to a message by selecting a template using a neural network
US10721190B2 (en) 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
GB2576016B (en) 2018-08-01 2021-06-23 Arm Ip Ltd Voice assistant devices
US10885277B2 (en) 2018-08-02 2021-01-05 Google Llc On-device neural networks for natural language understanding
JP7159355B2 (ja) 2018-08-23 2022-10-24 グーグル エルエルシー マルチアシスタント環境の特性によるアシスタント応答性の規制
TWI683306B (zh) 2018-08-28 2020-01-21 仁寶電腦工業股份有限公司 多語音助理之控制方法
US20200092625A1 (en) 2018-09-13 2020-03-19 Hayes S. Raffle Smart device cover
US10958301B2 (en) 2018-09-18 2021-03-23 Roku, Inc. Audio synchronization of a dumb speaker and a smart speaker using a spread code
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US20200127988A1 (en) 2018-10-19 2020-04-23 Apple Inc. Media intercom over a secure device to device communication channel
KR102608470B1 (ko) 2018-10-23 2023-12-01 삼성전자주식회사 데이터 인식 장치 및 방법과 트레이닝 장치 및 방법
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
CN109447234B (zh) 2018-11-14 2022-10-21 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
TWI682325B (zh) 2018-11-20 2020-01-11 新唐科技股份有限公司 辨識系統及辨識方法
US20200175566A1 (en) 2018-11-30 2020-06-04 International Business Machines Corporation Adding and prioritizing items in a product list
US11011171B2 (en) 2018-12-06 2021-05-18 Google Llc Pre-emptively initializing an automated assistant routine and/or dismissing a scheduled alarm
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
EP3791259A1 (en) 2018-12-07 2021-03-17 Google LLC Conditionally assigning various automated assistant function(s) to interaction with a peripheral assistant control device
CN109657629B (zh) 2018-12-24 2021-12-07 科大讯飞股份有限公司 一种文本行提取方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10937425B2 (en) 2019-01-10 2021-03-02 Dell Products L.P. Systems and methods for selectively activating and interacting with a speech recognition service during application runtime without interrupting execution of the application
US11501862B2 (en) 2019-03-01 2022-11-15 Cambia Health Solutions, Inc. Systems and methods for healthcare provider dashboards
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11467646B2 (en) 2019-03-28 2022-10-11 Lenovo (Singapore) Pte. Ltd. Context data sharing
US11258865B2 (en) 2019-03-28 2022-02-22 Servicenow, Inc. Automated integration with cloud-based services
CN110135411B (zh) 2019-04-30 2021-09-10 北京邮电大学 名片识别方法和装置
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US20200379640A1 (en) 2019-05-29 2020-12-03 Apple Inc. User-realistic path synthesis via multi-task generative adversarial networks for continuous path keyboard input
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180649B1 (en) 2019-05-31 2021-11-11 Apple Inc Voice assistant discoverability through on-device targeting and personalization
US20200380389A1 (en) 2019-05-31 2020-12-03 Apple Inc. Sentiment and intent analysis for customizing suggestions using user-specific information
US11887585B2 (en) 2019-05-31 2024-01-30 Apple Inc. Global re-ranker
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110647274A (zh) 2019-08-15 2020-01-03 华为技术有限公司 一种界面显示方法及设备
CN110531860B (zh) 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN110825469A (zh) 2019-09-18 2020-02-21 华为技术有限公司 语音助手显示方法及装置
CN110598671B (zh) 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
US20210090314A1 (en) 2019-09-25 2021-03-25 Apple Inc. Multimodal approach for avatar animation
US10757499B1 (en) 2019-09-25 2020-08-25 Sonos, Inc. Systems and methods for controlling playback and other features of a wireless headphone

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6504990B1 (en) * 1998-11-12 2003-01-07 Max Abecassis Randomly and continuously playing fragments of a video segment
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
US20100312547A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Contextual voice commands
US20140074482A1 (en) * 2012-09-10 2014-03-13 Renesas Electronics Corporation Voice guidance system and electronic equipment
US20140122059A1 (en) * 2012-10-31 2014-05-01 Tivo Inc. Method and system for voice based media search
US20140244263A1 (en) * 2013-02-22 2014-08-28 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
CN103414949A (zh) * 2013-08-09 2013-11-27 冠捷显示科技(厦门)有限公司 一种基于智能电视的多媒体编辑系统与方法

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024100A1 (zh) * 2017-08-04 2019-02-07 深圳市智晟达科技有限公司 一种数字电视频道锁定方法及系统
CN107396160A (zh) * 2017-08-24 2017-11-24 韩明 多功能机顶盒控制平台
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN109729141B (zh) * 2017-10-30 2021-08-10 埃森哲环球解决方案有限公司 对混合bot框架上ai助理的交互进行管理的方法、系统
CN109729141A (zh) * 2017-10-30 2019-05-07 埃森哲环球解决方案有限公司 用于企业的混合bot框架
US11113608B2 (en) 2017-10-30 2021-09-07 Accenture Global Solutions Limited Hybrid bot framework for enterprises
CN107895578A (zh) * 2017-11-15 2018-04-10 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN110149810A (zh) * 2017-12-08 2019-08-20 谷歌有限责任公司 限制在网络环境中操纵内容的传输
CN108039173A (zh) * 2017-12-20 2018-05-15 深圳安泰创新科技股份有限公司 语音信息输入方法、移动终端、系统以及可读存储介质
CN110431513A (zh) * 2018-01-25 2019-11-08 腾讯科技(深圳)有限公司 媒体内容发送方法、装置及存储介质
CN110431513B (zh) * 2018-01-25 2020-11-27 腾讯科技(深圳)有限公司 媒体内容发送方法、装置及存储介质
CN110201404A (zh) * 2018-02-28 2019-09-06 索尼互动娱乐有限责任公司 在多用户平台上整合评论内容和游戏玩耍内容
US11438650B2 (en) 2018-03-29 2022-09-06 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
CN111903138A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理装置、信息处理方法、发送装置以及发送方法
US11930248B2 (en) 2018-03-29 2024-03-12 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
CN110741652A (zh) * 2018-05-21 2020-01-31 青岛海信电器股份有限公司 具有智能用户界面的显示设备
CN112204655A (zh) * 2018-05-22 2021-01-08 三星电子株式会社 用于通过使用应用输出对语音输入的响应的电子装置及其操作方法
CN110149402A (zh) * 2018-05-23 2019-08-20 谷歌有限责任公司 在自动化助理的实例之间提供通信信道
US10957126B2 (en) 2018-05-23 2021-03-23 Google Llc Providing a communications channel between instances of automated assistants
US10861254B2 (en) 2018-05-23 2020-12-08 Google Llc Providing a communications channel between instances of automated assistants
US11721135B2 (en) 2018-05-23 2023-08-08 Google Llc Providing a communications channel between instances of automated assistants
CN112119372A (zh) * 2018-06-15 2020-12-22 三星电子株式会社 电子设备及其控制方法
CN112119372B (zh) * 2018-06-15 2024-05-07 三星电子株式会社 电子设备及其控制方法
CN108920128A (zh) * 2018-07-12 2018-11-30 苏州思必驰信息科技有限公司 演示文稿的操作方法及系统
CN110942518B (zh) * 2018-09-24 2024-03-29 苹果公司 上下文计算机生成现实(cgr)数字助理
CN110942518A (zh) * 2018-09-24 2020-03-31 苹果公司 上下文计算机生成现实(cgr)数字助理
CN109600625B (zh) * 2018-12-20 2021-06-01 深圳创维-Rgb电子有限公司 一种节目搜索方法、装置、设备及介质
CN109600625A (zh) * 2018-12-20 2019-04-09 深圳创维-Rgb电子有限公司 一种节目搜索方法、装置、设备及介质
CN113557566A (zh) * 2019-03-01 2021-10-26 谷歌有限责任公司 动态地适配助理响应
CN113557566B (zh) * 2019-03-01 2024-04-12 谷歌有限责任公司 动态地适配助理响应
US11875790B2 (en) 2019-03-01 2024-01-16 Google Llc Dynamically adapting assistant responses
CN109947993A (zh) * 2019-03-14 2019-06-28 百度国际科技(深圳)有限公司 基于语音识别的情节跳转方法、装置及计算机设备
CN113365124B (zh) * 2020-03-06 2023-01-20 海信视像科技股份有限公司 一种显示设备及显示方法
CN113365124A (zh) * 2020-03-06 2021-09-07 海信视像科技股份有限公司 一种显示设备及显示方法
CN113452975B (zh) * 2020-03-26 2023-11-24 精工爱普生株式会社 图像显示系统和图像显示系统的控制方法
CN113452975A (zh) * 2020-03-26 2021-09-28 精工爱普生株式会社 图像显示系统和图像显示系统的控制方法
CN113759430B (zh) * 2020-05-29 2023-05-26 同方威视技术股份有限公司 一种非车载式货物/车辆检查系统及其通信方法
CN113759430A (zh) * 2020-05-29 2021-12-07 同方威视技术股份有限公司 一种非车载式货物/车辆检查系统及其通信方法
CN114822005A (zh) * 2022-06-28 2022-07-29 深圳市矽昊智能科技有限公司 基于人工智能的遥控意图预测方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2017044257A1 (en) 2017-03-16
US10956006B2 (en) 2021-03-23
US20190310765A1 (en) 2019-10-10
DK201970273A1 (en) 2019-06-04
KR20210090727A (ko) 2021-07-20
KR20220047896A (ko) 2022-04-19
AU2022204891A1 (en) 2022-07-28
AU2016247040B2 (en) 2017-11-16
US20170068423A1 (en) 2017-03-09
KR20170036805A (ko) 2017-04-03
AU2017204359A1 (en) 2017-07-20
US10331312B2 (en) 2019-06-25
DK179111B1 (en) 2017-11-06
AU2016247040A1 (en) 2017-03-23
US11853536B2 (en) 2023-12-26
DK178888B1 (en) 2017-05-01
AU2018260958A1 (en) 2018-12-13
JP2018502345A (ja) 2018-01-25
US20210191603A1 (en) 2021-06-24
AU2024201697A1 (en) 2024-04-04
CN113687747A (zh) 2021-11-23
KR20200011555A (ko) 2020-02-03
JP6635982B2 (ja) 2020-01-29
KR20170100067A (ko) 2017-09-01
JP2023099020A (ja) 2023-07-11
JP2018190431A (ja) 2018-11-29
US20170285915A1 (en) 2017-10-05
EP3291564A1 (en) 2018-03-07
JP2017215971A (ja) 2017-12-07
AU2020207867A1 (en) 2020-08-13
KR20230151069A (ko) 2023-10-31
CN107577385B (zh) 2022-01-18
JP2021012728A (ja) 2021-02-04
AU2017204359B2 (en) 2018-08-09
CN107577385A (zh) 2018-01-12
JP6779257B2 (ja) 2020-11-04
KR102277920B1 (ko) 2021-07-16
US20240134506A1 (en) 2024-04-25
KR102385459B1 (ko) 2022-04-12
KR102594066B1 (ko) 2023-10-25
US10379715B2 (en) 2019-08-13
AU2018260958B2 (en) 2020-05-07
EP3167618A1 (en) 2017-05-17
CN113687746A (zh) 2021-11-23
AU2020207867B2 (en) 2022-04-07
AU2022204891B2 (en) 2023-12-14
DK201570826A1 (en) 2017-03-27
DK201770287A1 (en) 2017-05-08
CN107003797B (zh) 2021-08-13
DK201670575A1 (en) 2017-03-27

Similar Documents

Publication Publication Date Title
CN107003797A (zh) 媒体环境中的智能自动化助理
JP6542983B2 (ja) メディア検索及び再生のためのインテリジェント自動アシスタント
US11838579B2 (en) Intelligent automated assistant for TV user interactions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant