CN102682769A - 对数字网络进行基于自然语言的控制 - Google Patents
对数字网络进行基于自然语言的控制 Download PDFInfo
- Publication number
- CN102682769A CN102682769A CN2012100309016A CN201210030901A CN102682769A CN 102682769 A CN102682769 A CN 102682769A CN 2012100309016 A CN2012100309016 A CN 2012100309016A CN 201210030901 A CN201210030901 A CN 201210030901A CN 102682769 A CN102682769 A CN 102682769A
- Authority
- CN
- China
- Prior art keywords
- user
- client
- network
- equipment
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 52
- 230000000875 corresponding effect Effects 0.000 description 42
- 230000008451 emotion Effects 0.000 description 24
- 230000004044 response Effects 0.000 description 18
- 239000000284 extract Substances 0.000 description 14
- 230000006399 behavior Effects 0.000 description 12
- 230000001755 vocal effect Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000005406 washing Methods 0.000 description 10
- 238000000429 assembly Methods 0.000 description 9
- 230000000712 assembly Effects 0.000 description 9
- 230000002996 emotional effect Effects 0.000 description 9
- 230000036651 mood Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 230000008909 emotion recognition Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000004851 dishwashing Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 241000124008 Mammalia Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 238000005057 refrigeration Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/2818—Controlling appliance services of a home automation network by calling their functionalities from a device located outside both the home and the home network
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2807—Exchanging configuration information on appliance services in a home automation network
- H04L12/2814—Exchanging control software or macros for controlling appliance services in a home automation network
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C2201/00—Transmission systems of control signals via wireless link
- G08C2201/30—User interface
- G08C2201/31—Voice input
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L2012/2847—Home automation networks characterised by the type of home appliance used
- H04L2012/285—Generic home appliances, e.g. refrigerators
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及用于对数字网络进行基于自然语言的控制的计算机网络、计算机实现的方法、计算机程序产品、客户端和服务器。在一个方面中,用于对数字网络进行基于自然语言的控制的计算机网络包括:数字网络,可操作用于在该数字网络中连接的多个设备之间提供对网络访问的共享;客户端,安装在该数字网络中并且可操作用于向用户提供用于使用自然语言控制该数字网络的统一自然语言接口;服务器,通过该网络连接至该客户端并且可操作用于处理该用户通过该统一自然语言接口执行的用户请求;以及一个或者多个软件代理,可操作用于基于经处理的用户请求在该多个设备的至少一个设备上执行至少一个动作。
Description
技术领域
本发明总体上涉及诸如以数字方式连接的家庭或家庭网络之类的数字网络,并且具体地涉及用于对数字网络进行基于自然语言的控制的计算机网络、计算机系统、计算机实现的方法和计算机程序产品。
背景技术
与多个电子、电气和/或数字设备的交互正不断地增加。诸如包括多个设备(诸如个人计算机、笔记本、CD播放器、DVD播放器Blu-ray DiscTM回放设备、音响系统、电视、电话、移动电话、MP3播放器、洗衣机、烘干机、洗碗机、电灯和/或微波炉等)的家庭网络(也称为数字家庭网络或以数字方式连接的家庭)的数字网络正变得越来越普及。家庭网络可以涉及复合生态系统,包括能够管理起居(诸如家庭小气候、能量消耗、电器、多媒体内容、家庭娱乐、供暖和/或制冷系统等)的几乎任何方面的多个设备。数字网络也可以存在于包括办公室、电影院、汽车、博物馆等的其他区域中。换言之,数字网络可以存在于可适用人机接口的任何以数字方式连接的环境中。
然而,此类越来越复杂的数字网络缺乏可以由用户管理和/或控制的统一和有效的方式。此外,数字网络要求用户学习多个不同的、经常是异种的用户接口和/或与它们交互,以便令人满意地与在数字网络中相关联的不同设备交互。
因此,需要增强的人机交互以供用户与数字网络交互。
发明内容
根据一个总方面,提供了(一种框架,用于构建)计算机网络,该计算机网络用于对数字网络进行基于自然语言的控制。该网络可以包括:
数字网络,可操作用于在该数字网络中连接的多个设备之间提供对网络访问的共享(或共享的访问);
客户端,安装在该数字网络中并且可操作用于向用户提供用于使用自然语言控制该数字网络的统一自然语言接口;
服务器,通过该网络连接至该客户端并且可操作用于处理该用户通过该统一自然语言接口执行的用户请求;以及
一个或者多个软件代理,可操作用于基于经处理的用户请求在该多个设备的至少一个设备上执行至少一个动作。
该框架(或者构建的计算机网络)可以允许通过使用主动模式和/或被动模式的统一自然语言接口控制不同设备。用户能够向客户端执行自然语言请求(称为用户请求)以控制将在数字网络中的设备上执行的动作。可以被控制的动作包括例如打开该用户的房间中的台灯的灯光、在洗衣机上运行洗涤周期、为DVD播放器安排节目、为供暖系统设置温度等。
除了理解此类显式用户请求之外,该框架还可以能够从话音提取非语言信息(例如用户的情绪),并且允许触发由软件代理在一个或者多个设备上执行相应的动作。例如,如果用户高兴,则应当激活音乐播放器以播放快乐的音乐,和/或如果用户正在谈论他的上个假期,则家庭娱乐设备应当示出所述假期的照片。
统一自然语言接口可以由客户端通过实施包括向用户暴露(expose)的图形用户界面的一个或者多个组件来提供,以便允许用户从网络获得某些反馈和/或管理并且配置所控制的设备。为了降低成本和/或克服独立设备的限制,该框架可以基于包括用于该客户端的模块化方式的客户端-服务器架构。例如,该客户端可操作用于监听(自然语言的)用户请求。该客户端继而可以与服务器通信以解释和/或处理该用户请求。该服务器可以向该客户端发送回经处理的用户请求。可以处理该用户请求从而产生标签的列表,例如从句子(用户请求)提取的字词的列表,该列表通过省略停用词(stop-words)总结该句子的语义。基于从该服务器接收的该经处理的用户请求,该客户端可以选择并且执行动作以服务于该用户请求。该客户端可以通过触发一个或者多个软件代理(也称为软件集(bundles))以在该数字网络的一个或者多个设备上执行该动作来执行该动作。
客户端可以包括对设备、它们的能力、位置和/或其他相关信息的(大体上)完整的知识。所述知识可以在语义词典中指定。语义词典可以包括对设备、它们的关系和/或属性(例如可以在它们上执行的动作)进行描述的语义网络。语义词典还可以和/或备选地包括对数字网络的设备进行分类和/或归类的字典。客户端可以包括如下知识,该知识包括如何使用适当接口控制设备以用于通知和订阅(subscribe)可以执行动作的软件代理。
服务器可以从客户端接收通过用户请求生成的话音样本。服务器可以将话音样本转换为本文并且可以提取相关信息,客户端因此可以标识待采取的动作以服务于用户请求。
可以将相关信息作为包括在诸如XML和/或任何其他适合的格式之类的计算机可读格式中的标签的列表发送回客户端。可以(由客户端)使用该标签的列表以标识为了满足用户请求所需的一个或者多个动作和一个或者多个相应的设备。
换言之,当网络运作时,客户端可以从用户请求对用户的话音进行采样并且继而请求服务器从该用户请求提取相关信息以便标识将由一个或者多个软件代理针对一个或者多个目标设备执行的一个或者多个目标动作。包括在用户请求中的信息可以是语言的(例如字词、短语和/或句子)和/或非语言的(例如情感)。在用户已经选择了主动模式或者被动模式之后,框架可以处理来自用户请求的语言信息和/或非语言信息,并且可以相应地服务于该用户请求。
用户可能经常通过显式地触发网络(例如通过在表达请求时保持GUI上的软按钮(soft-button)被按下)来按照主动模式操作该网络。当计算机网络处于被动模式时,该网络持续地监听用户,从而产生对该用户正在谈论的主题和他的情感进行总结的标签的持续流。
用户也可能按照混合模式操作网络,其中处理用户的显式请求和用户的情感两者,以便决定将采取的动作。
由于中央服务器可以提供大部分所要求的计算能力,因此客户端可以在通常存在于用户的家庭网络中的设备(例如,接入网关、机顶盒等)上运行。
客户端也可以向如下软件代理(或者软件集)提供接口(模块管理组件),该软件代理(或者软件集)有兴趣为了用户请求进行动作。该软件代理转而可以控制数字网络中的任何种类的设备。
根据另一方面,客户端可以包括模块管理组件,该模块管理组件可操作用于向一个或者多个软件代理提供接口以用于发布由该一个或者多个软件代理向该客户端提供的一个或者多个动作。
根据又一方面,客户端可以包括向用户暴露的图形用户界面(GUI),该图形用户界面用于指定对将由多个软件代理在多个设备的至少一个设备上执行的动作的用户定义的设置,和/或选择操作模式(主动和/或被动)。
根据又一方面,模块管理组件可以进一步可操作用于向一个或者多个软件代理输出功能集合,以允许该一个或者多个软件代理访问GUI。
根据又一方面,客户端可以包括家庭知识组件,该家庭知识组件包括语义词典,其中该语义词典指定关于数字网络中的多个设备的、与控制该多个设备相关的信息。
根据又一方面,语义词典可以包括针对多个设备的设备类别、设备类别之间和/或该多个设备之间的关系以及该设备类别和/或该多个设备的属性。
根据又一方面,服务器可以可操作用于对用户请求进行处理以产生标签的列表,该标签的列表可由客户端使用以触发多个软件代理来在多个设备的至少一个设备上执行至少一个动作。
根据又一方面,服务器可以可操作用于通过解释从用户请求提取的语言信息和/或非语言信息来处理该用户请求。
根据另一总方面,提供了用于对数字网络进行基于自然语言的控制的客户端。该客户端包括:
统一自然语言接口,可操作用于接收用于使用自然语言控制数字网络的用户请求,其中该数字网络可操作用于在该数字网络中连接的多个设备之间提供对网络访问的共享;以及
模块管理组件,可操作用于向一个或者多个软件代理提供接口以用于向客户端发布由该一个或者多个软件代理提供的一个或者多个动作(和/或订阅在处于被动模式而检测到情感时将被通知的客户端),其中该一个或者多个软件代理可操作用于基于该用户请求在该多个设备的至少一个设备上执行至少一个动作,
其中该客户端安装在该数字网络中。
根据又一总方面,提供了用于对数字网络进行基于自然语言的控制的服务器。该服务器可以包括:
接口,可操作用于处理从客户端接收的用户请求,
其中该用户请求是通过在该客户端处、用于使用自然语言控制数字网络的统一自然语言接口处执行的,其中该数字网络可操作用于在该数字网络中连接的多个设备之间提供对网络访问的共享;以及
其中处理该用户请求以产生标签的列表,该标签的列表可由该客户端使用以触发多个软件代理基于经处理的用户请求在该多个设备的至少一个设备上执行至少一个动作。
根据又一方面,客户端和服务器可以包括如所描述的计算机网络的功能和/或组件。
根据又一总方面,提供了用于对数字网络进行基于自然语言的控制的计算机实现的方法。该方法可以包括:
在客户端向用户提供用于使用自然语言控制数字网络的统一自然语言接口,其中该数字网络可操作用于在该数字网络中连接的多个设备之间提供对网络访问的共享;
向服务器发送用户通过该统一自然语言接口执行的用户请求,其中该服务器通过该网络连接至该客户端并且可操作用于处理该用户请求;以及
触发一个或者多个软件代理基于经处理的用户请求在该多个设备的至少一个设备上执行至少一个动作。
根据又一方面,该计算机实现的方法可以包括如所描述的、用于在计算机网络中执行的功能和/或处理指令。
在又一总方面中,提供了包括计算机可读指令的计算机程序产品,当在计算机系统和/或计算机网络系统中加载并且执行该计算机可读指令时,使得该计算机系统和/或该计算机网络系统执行如所描述的方法。
在本说明书中描述的主题内容可以实现为方法或者系统,或者使用有形地体现在诸如CD-ROM、DVD-ROM、半导体存储器、信号和/或数据流以及硬盘之类的信息载体中的计算机程序产品来实现。此类计算机程序产品可以使得数据处理装置实施在本说明书中描述的一个或者多个操作。
此外,在本说明书中描述的主题内容也可以实现为包括处理器和耦合到该处理器的存储器的系统。该存储器可以对一个或者多个程序编码,该一个或者多个程序使得该处理器执行在本说明书中描述的一个或者多个方法动作。此外,可以使用各种MRI机器实现在本说明书中描述的主题内容。
在以下示例性描述和随附示例性附图中阐明了一个或者多个实现方式的细节。通过描述和附图,以及通过权利要求书,其他特征将变得容易理解。
附图说明
图1示出了可从使用自然语言形成(formulate)的用户请求提取的信息型内容的示例性示意图。
图2示出了用于提供对数字网络进行自然语言控制的系统的示例性框架架构。
图3A示出了按照主动模式操作时、框架中的交互的示例性流程图。
图3B示出了按照被动模式操作时、框架中的交互的示例性流程图。
图4涉及用于实现如图1、图2、图3A和图3B中所示的网络、方法、客户端和服务器的示例性计算机系统和/或计算机网络系统。
具体实施方式
技术术语
贯穿本说明书广泛使用以下技术术语。这些术语可以指示但并不限于随后给出的说明。
家庭网络
家庭网络(也称为家庭区域网络或者以数字方式连接的家庭)可以是数字网络的示例。家庭网络可以基于住宅局域网(LAN)。家庭网络可以用于包括个人计算机、笔记本、CD播放器、DVD播放器Blu-ray DiscTM回放设备、音响系统、电视、电话、移动电话、MP3播放器、洗衣机、烘干机、洗碗机、电灯和/或微波炉等的数字设备之间的通信和/或交互。家庭网络可以支持在家庭网络中连接的一个或者多个数字设备例如通过有线电视和/或数字用户线路(DSL)供应商的宽带服务访问因特网。为了增强的功能,可以向家庭网络添加家庭服务器。家庭网络可以使用有线或者无线通信技术。
语音识别
语音识别(也称为自动语音识别或者计算机语音识别)可以提供用于将口头词句转换为文本的机制。附加地,语音识别还可以包括需要被训练以识别特定发言者的特定话音的系统(称为发言者识别系统)。识别特定发言者的话音可以有容易化和/或简化将口头词句翻译和/或转化为文本的任务。可以获得语音识别的各种算法。可以在基于统计的语音识别算法中使用声学建模和/或语言建模。语音识别算法的示例可以包括隐式马可夫模型(HMM)。HMM可以涉及可以输出符号和/或量的序列的统计模型。HMM可以在语音识别中使用,因为可以将语音信号认为是短时间的(例如10毫秒的)平稳信号。在短时间中,可以将语音近似为平稳过程。在语音识别中,隐式马可夫模型可以输出n维实值(其中n为小整数,诸如10),每10毫秒输出它们中的一个。矢量将包括倒谱系数(cepstralcoefficient),其通过使用余弦变换对语音的短时间窗进行傅里叶变换并且对频谱进行解相关、继而获取第一个(最重要的)系数来获得。隐式马可夫模型将倾向于在每个状态中具有如下统计分布,该统计分布是对角协方差高斯的混合,其将针对每个所观察的矢量给出似然性。每个字词或者每个音素(对于更普通的语音识别系统)可以包括不同的输出分布。可以通过针对分离的字词和音素连结个别的、经训练的隐式马可夫模型来针对字词和/或音素的序列构建隐式马可夫模型。
语音识别系统使用多个标准技术的各种组合以便改进通过如上所述的方式的结果。大词汇量系统可能需要针对音素的语境依赖性(因而具有不同的左语境和右语境的音素具有如HMM状态的不同的实现)。系统也可以使用倒谱归一化来针对不同发言者和记录条件进行归一化。对于进一步的发言者归一化,语音识别系统可以针对男-女归一化使用声道长度归一化(VTLN)和/或针对更普通的发言者自适应使用最大似然性线性回归(MLLR)。语音识别系统还可以使用所谓的区别训练技术,其省略了用于HMM参数估计的纯粹的统计方式并且作为替代优化对训练数据的某些分类相关的测量。示例是最大互信息(MMI)、最小分类误差(MCE)和最小音素误差(MPE)。
对语音的解码(针对当向系统呈现新话语并且系统必须计算最可能的源句子时所发生的情况的术语)可以包括用于查找最佳路径的维特比算法,其中可以在动态创建包括声学模型信息和语言模型信息两者的组合隐式马可夫模型或者对其预先进行静态组合(有限状态转换器方式)之间提供选择。
话音中的情感识别
情感识别方案可以取决于机器应当识别哪些情感以及出于什么目的。可以被考虑的情感可以包括例如悲伤、厌烦、惊奇、高兴、愤怒、中性和/或其他已知的情感等。对语音的自动情感识别可以基于模式识别问题。由不同实验利用情感识别产生的结果可以由被认为与以下各项有关的特征来表征:发言者的情感状态、对系统感兴趣的情感类型、用于训练和/或测试所使用的分类器的数据库,和/或在实验中使用的分类器类型,其中分类器和/或分类器类型涉及在实验中使用以测试对话音的情感识别模式的情感类型。话音中的情感识别可以基于出于不同目的在人工智能中使用的算法,这些目的包括确定诸如神经网络之类的相似程度、支持向量机、支持最近邻居法(k-nearest neighbor)和/或支持决策树。
语音合成
语音合成可以涉及对人类语音的人工产生。出于这一目的而使用的计算机系统可以称为语音合成器,诸如文本转语音系统。文本转语音系统可以将正常语言文本转换为语音。其他系统可以将诸如语言抄本(transcription)之类的符号语言表示呈现为语音。可以通过连接可以存储在数据库中的所记录的语音片段来创建合成的语音。多个系统可以在所存储的语音单元的大小方面存在不同。例如,存储音素或者双音素的系统可以提供较大输出范围,但可能缺乏清晰度。对于具体使用领域,对整个字词或者句子的存储可以允许高质量输出。合成器可以并入声道和/或其他人类话音特征的模型、以创建完全“合成的”话音输出。
停用词(stop word)
在计算中,特别地,计算语言学包括用于语音识别和/或语音合成的方式,停用词可以是搜索机/自然语言处理系统在处理自然语言数据(例如文本、话音和/或语音)之前和/或之后过滤掉的字词。可以在可能的、非确定列表中定义停用词。可以将自然语言的任何字词选择为停用词。在某些自然语言处理系统中,使用该系统的目的可能是帮助确定停用词。停用词的示例包括“该(the)”、“是(is)”、“在(at)”、“和(and)”、“其(which,that)”、“到(to)”、“但(but)”以及其他类似的字词。其他已知的自然语言处理系统可以取决于它们的信息型内容而从自然语言数据移除诸如“想(want)”、“可以(may)”、“将(would)”等停用词,以改进执行。
语义网络
语义网络可以涉及如下网络,该网络可以代表自然语言概念之间的语义关系(例如熊是哺乳动物,而哺乳动物转而是动物)。可以按照诸如本体论之类的知识表示的形式使用语义网络。可以通过包括顶点与顶点之间的边的有向图或者无向图实现语义网络。顶点可以标识概念而边可以标识概念之间的关系。语义网络的示例可以是WordNet(词汇网),其为英文单词的词汇数据库。WordNet可以将字词(概念)分组为同义词的集合,可以提供对每个字词的短的、一般的定义,和/或可以记录所述同义词的集合之间的一个或者多个语义关系。
语义词典
语义词典可以涉及用语义类别标注的字词的字典,从而使得可以导出的字词之间的管理可以是先前没有遇到过的。语义词典可以包括与语义网络相关联的字典和/或词典。
软件代理
软件代理可以涉及在计算中广泛使用的概念。软件代理可以涉及软件的具体概念,其可以提供用于描述(可能复杂的)软件实体或者软件片段和/或其他软件/硬件组件的方便的和/或强大的方式,该软件实体或者软件片段(a piece of software)可以能够按照一定程度的自主性操作,以便为了用户完成任务。换言之,软件代理可以涉及为了用户操作的软件片段和/或按照代理关系(即,同意为了某人而操作)的其他组件。此类“为了某人”的动作可以意指用于决定哪个动作可能是合适的(以及一个动作是否合适)的职权。可以不仅为了任务、而是为了激活软件代理自身而调用该软件代理。软件代理可以被实现为“软件集”,其可以是独立的软件片段,该软件片段通过由客户端自身暴露的标准接口连接到客户端。
具体描述
在下文中,将参考附图给出对示例的详细描述。应当理解,可以对示例进行各种修改。特别地,可以将一个示例中的元素在其他示例中组合和使用、以形成新的示例。
为了改进与数字网络的人机交互并且因此将用户从学习使用不同的、经常是异种的和/或复杂的用户接口以便令人满意地与数字网络交互的麻烦的和/或耗时的任务(以及意识任务)中解放,提供了可以支持通过统一自然语言用户接口控制基本上任何(数字)设备的、用于与数字网络进行统一自然语言和/或非语言交互的框架。通过提供统一自然语言接口,用户可以无需学习和/或理解接口。除了理解用户的显式(语言的)请求之外,根据该框架实现的统一自然语言接口还能够从在框架的区域内说话的用户的话音提取非语言信息,以及基于所提取的为语言信息进行适当的反应。用户的话音的非语言信息可以包括不同类型的情感,诸如悲伤、厌烦、高兴、愤怒、惊奇、中性或者其他情感。
框架可以向一个或者多个软件代理(也称为软件集)暴露另一接口,其可以基于订阅-通知模型。以下进一步描述该模型。软件代理可操作用于控制设备来执行具体动作(例如打开/关闭灯光、在洗衣机上运行洗涤周期、控制供暖系统在特定时间提供某个温度,以及与设备相关联的其他动作)。以这种方式,用户可以与一个统一自然语言接口进行交互、以操作和控制数字网络中的所有设备。
为了降低成本和/或克服独立设备和/或组件的限制,可以基于客户端-服务器架构实现用于实现统一自然语言接口以供用户统一地指示数字网络中的设备的框架。中央服务器可以提供大多数所要求的计算能力。然而,本领域普通技术人员将领会到,可以使用多个位于同地或者地理上分散的服务器。可以在通常在数字网络中可用的设备上运行客户端或者客户端软件。例如,可以在接入网关(或者媒体网关)、网络连接存储设备(NAS)、机顶盒(STB)等上运行客户端。
图1涉及可以通过统一自然语言接口从用户的话音和/或语音提取的信息内容的示意图。通过经由统一自然语言接口与数字网络交互,用户使用自然语言12明确表达针对数字网络的请求。例如,用户明确表达基于自然语言的用户请求12“请打开我房间中的台灯”。在下文中,用户请求是指用户针对框架的请求,其中使用自然语言(例如德语、英语、意大利语、法语等)明确表达用户请求。
统一自然语言接口可操作用于采集显式信息,诸如语言信息14,其包括来自用户请求12的、由用户明确表达的句子的语义。例如,统一自然语言接口可以从句子“请打开我房间中的台灯”导出包括以下的语义:谁是用户、意指哪个房间、所指示的设备是什么,和/或将在所确定的设备上执行的动作(例如,在所确定房间中的台灯应当被打开)。
统一自然语言接口还可以可操作用于采集隐式信息,诸如非语言信息16,其包括来自用户请求12的用户的情感(例如,用户是否紧张、高兴、愤怒、感到惊奇、悲伤、中性)。例如,统一自然语言接口不仅可以从句子“请打开我房间中的台灯”导出上述语义,还可以导出例如用户是以高兴的情绪还是以愤怒的情绪表达该句子。
基于在与统一自然语言接口交互期间从用户请求12提取的是语言信息14和/或非语言信息16,向用户暴露统一自然语言接口的框架可以按照两种不同的对应模式操作。基于语言信息14进行操作的模式可以称为主动模式。基于非语言信息16(可能也基于语言信息14)进行操作的模式称为被动模式。
当按照主动模式操作时,用户例如通过按压GUI上的按钮并且说出用户请求12来对统一自然语言接口进行显式操作。统一自然语言接口可操作用于理解和/或解释来自用户请求12的语言信息14。基于语言信息14,框架可操作用于触发对在用户请求12中标识的至少一个设备(例如所确定的房间中的台灯)进行控制的软件代理(或者软件集),并且向软件代理发布相应的命令以执行用户请求12,例如打开所确定的房间中的台灯的灯光。
当按照被动模式操作时,统一自然语言接口可操作用于持续地监听用户讲话并且从用户请求12提取非语言信息16和/或语言信息14。可以将所提取的信息处理并且转发至已被订阅为被动模式的一个或者多个软件集。该一个或者多个软件集继而可以通过控制一个或者多个相应的设备来执行对应于所提取的信息的一个或者多个动作。例如,如果用户正以高兴的情绪和朋友谈论他的上个假期,则相应的软件集可以操作设备以用于播放适当的多媒体内容和/或可以使环境适应于用户的情绪。将基于非语言信息16采取的动作可以已经由用户自己经由GUI选择和/或定义。
图2示出了用于实现用于使用自然语言控制诸如家庭网络之类的数字网络的计算机网络、客户端、服务器以及计算机实现的方法的示例性框架。换言之,该框架可以提供用于实现对数字网络进行基于自然语言的控制的架构,其中用户可以通过统一自然语言接口与数字网络进行交互。
该框架包括客户端100,其位于将被控制的数字网络400的用户的环境中。为了通过明确表达自然语言用户请求(以下称为用户请求)来控制数字网络400,客户端100向用户提供统一自然语言接口。统一自然语言接口包括一个或者多个组件110、120、130、140、150、160、170。例如,可以将客户端100实现为可以在通常在数字网络400中可用的设备上运行的客户端软件。例如,可以在接入网关(或者媒体网关)、网络连接存储设备(NAS)、机顶盒(STB)等上运行客户端100。
该框架可以管理一个或者多个软件集300a、300b、300c、300d、300e、300f。软件集300a、300b、300c、300d、300e和300f各自可以控制连接在数字网络400中的至少一个设备410、420、430、440、450、460。设备的示例可以包括个人计算机、CD/DVD/Blu-ray DiscTM回放设备、电视、摄像机和/或网络摄像机、洗衣机、洗碗机、供暖和/或制冷系统、电灯等。数字网络400可以例如通过有线电视和/或数字用户线路(DSL)供应商的宽带服务在数字设备410、420、430、440、450、460之间提供对因特网500访问的共享。为了增强的功能,可以向数字网络添加家庭服务器。
该框架包括服务器200。服务器200可操作用于与客户端100进行交互以及处理在客户端100处接收的用户请求。服务器200可以位于客户端100的远程并且可以通过网络500与客户端进行通信。
客户端100包括用于与用户进行交互的一个或者多个组件110、120、130、140、150、160、170,该交互诸如用于处理用户请求和/或用于支持对该一个或者多个软件集300a、300b、300c、300d、300e和300f的用户定义的设置。组件110、120、130、140、150、160、170也可以称为功能。该一个或者多个组件110、120、130、140、150、160、170包括通信和协作组件110、话音记录组件120、文本转语音组件130、模块控制组件140、家庭知识组件150、动作计划组件160和/或图形用户界面(GUI)170。
客户端100的通信和协作组件110保持和/或提供用于客户端100的计算和/或通信逻辑。可以将通信和协作组件110实现为信息总线,其由客户端100在内部使用以在操作于客户端100内的一个或者多个组件120、130、140、150、160、170之间交换数据和/或信息。通信和协作组件110提供用于客户端100与服务器200进行通信和/或交互的功能。换言之,通信和协作组件110为客户端100提供用于通过网络500与服务器200进行通信的接口。如在以下更详细说明的,服务器200包括相应的通信和协作组件210,其提供用于通过网络500与客户端100进行通信的相应的接口。
客户端100的话音记录组件120可操作用于从用户请求接收传入语音并且对用户请求的用户话音进行采样。对一个或者多个话音采样进行格式化和/或数字化以便通过网络500发送至服务器200。可以按照诸如语音信号或者声信号之类的信号序列的形式表示和/或存储经格式化的话音采样。话音采样涉及将用户请求划分和/分离为样本,例如字词、音节和/或音素。为了将话音样本格式化和/或数字化为语音信号,可以将执行用户请求的用户的话音样本与存储在数据库中的样本进行比较,以便例如通过模式匹配和/或相似度搜索对其进行标识。所标识的样本继而被组成语音信号。为了改进对样本的匹配,话音记录组件120可以预先标识执行用户请求的用户和/或针对客户端100标识其自身的用户,从而使得可以将数据库中的搜索限制到与该用户关联存储的样本。
客户端100的文本转语音组件130可操作用于向已经预先执行了用户请求的用户给出声音反馈。在一个示例性实现方式中,可以通过使用可用的语音合成系统实现文本转语音组件130。
客户端100的模块控制组件140针对该一个或者多个软件集300a、300b、300c、300d、300e、300f提供单一联系点,该单一联系点与该框架进行交互以控制设备410、420、430、440、450、460。模块控制组件140向软件集300a、300b、300c、300d、300e、300f暴露用于向客户端100发布它们的服务(或者动作)的接口。用户可以通过指定针对将由软件集300a、300b、300c、300d、300e、300f通过接口执行的动作的用户定义的设置,来配置软件集300a、300b、300c、300d、300e、300f。以下进一步详细描述对软件集300a、300b、300c、300d、300e、300f的配置。可以通过客户端100的图形用户界面(GUI)170向用户暴露用于配置软件集300a、300b、300c、300d、300e、300f的接口。模块控制组件140可以向软件集300a、300b、300c、300d、300e、300f提供对GUI的访问权,从而使得软件集300a、300b、300c、300d、300e、300f可以获取用户定义的设置(或者配置)。
客户端100的家庭知识组件150提供和/或存储供客户端100运行所必须的信息。家庭知识组件150可以包括关于通过客户端100进行管理和/或控制的、数字网络400的该一个或者多个设备410、420、430、440、450、460的信息。所述关于设备410、420、430、440、450、460的信息可以包括时间和/或资源能力、所要求的电子和/或电气连接,和/或关于设备410、420、430、440、450、460的、可能与控制和/或管理设备410、420、430、440、450、460相关的其他信息。示例包括数字网络400中的物理位置,设备所属于的分类和/或类别(例如台灯是电灯,而电灯是照明系统的一部分)和/或可以在设备上执行的动作(例如可以打开或者关闭和/或调暗电灯)。在一个实现方式中,家庭知识组件150包括语义词典,该语义词典包括对网络400中的设备410、420、430、440、450、460进行描述的语义网络和/或字典,该语义词典包括设备种类,它们之间的关系和/或在设备410、420、430、440、450、460的动作方面的属性。家庭知识组件150可以包括关于针对软件集300a、300b、300c、300d、300e、300f的用户定义的设置的信息。用户定义的设置可以指定软件集300a、300b、300c、300d、300e、300f的行为,包括将由软件集300a、300b、300c、300d、300e、300f关于主动模式和/或被动模式采取的动作。例如,用户已指定了如果他处于高兴情绪中,则软件集300a、300b、300c、300d、300e、300f控制网络400的娱乐设备来播放快乐音乐。
客户端100的动作计划组件160实现用于生成命令的功能,该命令用于指示软件集300a、300b、300c、300d、300e、300f的至少一个目标软件集300a来控制由相应的设备410、420、430、440、450、460响应于用户请求而执行的具体动作以及来自处理了该用户请求的服务器200的相应的输出。
客户端100暴露用于与客户端100和/或软件集300a、300b、300c、300d、300e、300f进行用户交互的图形用户界面(GUI)170,该图形用户界面(GUI)170向用户提供了用于与客户端100进行交互和/或通过指定用户定义的设置来对软件集300a、300b、300c、300d、300e、300f进行配置的能力。GUI 170为用户提供一个或者多个用户控件(未示出),包括模式选择控件、主动请求控件、设备控件、软件集动作控件和/或用户识别控件。
模式选择控件提供用于控制操作模式(例如用于选择主动模式或者被动模式)的控件。
主动请求控件提供用于在客户端100处于主动模式时显式发布用户请求的控件。由于在主动模式中,客户端100可以不持续监听发言的用户,因此显式激活主动请求控件(例如通过按压按钮)指示客户端100何时监听当前发言的用户以确定用户请求。
设备控件支持用户按照交互方式编辑将存储在家庭知识组件150中的信息。例如,用户向客户端100提供关于数字网络400的、可能无法由客户端100从设备410、420、430、440、450、460自动推断出的该一个或者多个设备410、420、430、440、450、460的信息,并且将该信息存储在家庭知识组件150中。例如,客户端100可能无法自动推断出关于设备410、420、430、440、450、460在用户的家庭中的物理位置的信息;而可以由客户端100自动导出关于设备410、420、430、440、450、460的资源和/或事件能力的信息。
软件集动作控件支持用户按照交互方式指定将由软件集300a、300b、300c、300d、300e、300f采取的一个或者多个动作。可以关于诸如从用户请求过滤的和/或提取的具体内容种类之类的语言信息,和/或关于从用户的语音提取的用户的情感来指定动作。当按照被动模式操作网络时,可以由用户依据条件动作规则来指定动作。条件动作规则允许将条件(诸如但不限于检测到的情感或者检测到的主题)与用于控制和/或操作设备的动作相关联。在一个示例中,用户可以指定通过网络中的至少一个软件集300a、300b、300c、300d、300e、300f控制的设备在用户处于高兴情绪(条件)时播放快乐音乐(动作),例如相应的软件集300a、300b、300c、300d、300e、300f可以激活数字网络400的相应娱乐设备并且控制其来选择性地播放快乐音乐。在另一示例中,用户可以指定当用户谈论特定主题(条件)时示出(动作)照片(而非相关视频),例如相应的软件集300a、300b、300c、300d、300e、300f可以激活数字网络400的相应的娱乐设备以选择性地示出与所讨论的主题有关的照片。通过软件集动作控件执行的用户设置可以连接至软件集300a、300b、300c、300d、300e、300f和/或可以位于软件集300a、300b、300c、300d、300e、300f中。出于这一目的,客户端100通过模块管理组件140向软件集300a、300b、300c、300d、300e、300f暴露接口以允许软件集300a、300b、300c、300d、300e、300f访问GUI 170。换言之,该框架还可以包括用于通过GUI 170向用户暴露软件集300a、300b、300c、300d、300e、300f的接口。
用户识别控件提供用于改进该框架中的、对语音识别和/或发言者识别的理解的用户控件。例如,将客户端100安装为连接至服务器200以用于控制他的数字网络400的用户可以向客户端100标识他自己并且使用用户识别控件训练该框架。例如,可以由用户通过说出预定的字词和/或短语来训练框架。通过口述的预定字词和/或短语,可以在该框架中生成用户的语音样本。可以向服务器200发送语音样本以便提取训练客户端100的用户的相应的声纹(voice print)和/或为了将来使用而存储所述声纹。
声纹可以涉及可以唯一地标识个体的人类话音的可测量特征的集合。所述特征可以基于发言者的嘴和/或嗓子的物理外形(physicalconfiguration)并且可以被表达为数学公式。声纹因此可以包括出于该目的而记录的话音样本,所导出的数学公式,和/或其图形表示。
发言者识别(即,实现谁正在发言)可以包括对使用从用户话音提取的特征(诸如用户的声纹)验证用户的声称身份的计算任务。应当从涉及识别正在说什么的语音识别区分发言者识别。话音识别可以涉及发言者识别和语音识别的组合,其中话音识别系统可以使用对发言者的话音的学习的方面来确定正在说什么。
服务器200包括用于处理从客户端100接收的用户请求的一个或者多个组件210、220、230、240、250。当处理用户请求时,服务器200可操作用于将传入请求总结为一个或者多个标签的列表,该标签的列表包括从用户请求获取的、足够满足用户请求的语义内容的信息。
服务器200通过通信和协作组件210向客户端100暴露接口。隐藏将用户请求的语音样本转化为标签的列表的复杂性。标签的列表继而可由客户端100使用以触发软件集300a、300b、300c、300d、300e、300f来控制数字网络400中的设备410、420、430、440、450、460以便服务于用户请求。例如,客户端100可以基于标签的列表、通过一个或者多个组件110、120、130、140、150、160、170触发一个或者多个软件集300a、300b、300c、300d、300e、300f来在至少一个设备410、420、430、440、450、460上执行至少一个动作以服务于用户请求。可以在客户端100用附加信息进一步处理和/或加强在处理器200生成的标签的列表,以便服务于用户请求。
在一个实现方式中,服务器200包括通信和协作组件210、话音标识组件220、语音情感识别组件230、自动语音识别组件240和/或语音组件250。
通信和协作组件210包括用于服务器200的计算和/或通信逻辑。可以将通信和协作组件210实现为信息总线,该信息总线由服务器200在内部使用以在操作于服务器200内的一个或者多个组件220、230、240、250之间交换数据和/或信息。通信和协作组件210提供用于服务器200与客户端100进行通信和/或交互的功能。
话音标识组件220可操作用于标识发布用户请求的用户。为了标识已向客户端100发布了用户请求的用户,话音标识组件220处理来自客户端100的用户请求的传入话音样本,以从该话音样本提取将与存储在内部数据库中的用户的声纹匹配的一个或者多个特征。可以通过所提取的特征和该声纹之间的相似度搜索来执行该匹配。为了将用户的标识的范围缩小到用户的更小可能分组,客户端100可以向服务器200发送话音样本以及客户端100的位置的位置信息和/或用户的标识。可以从如下用户的客户端100接收用户声纹,该用户正通过如上所述的GUI 170的用户识别控件训练更佳话音理解。
在一个示例性实现中,使用可用的发言者识别系统实现话音标识组件220。例如,话音标识组件220可以实现如下发言者识别系统,该发言者识别系统记录从与该框架进行交互的不同用户提取按照声纹(也称为模板或者模型)形式的一个或者多个特征。继而将从用户的话音样本获取的语音样本或者话语与存储在内部数据库中的不同声纹进行比较,以便确定最佳匹配。在用户已经连同用户请求声称了身份和/或客户端100以连同用户请求发送了位置信息的情况下,话音标识组件220将用户的所生成的话音样本的语音样本与和用户相关联的声纹和/或数据库中的客户端100的位置进行比较。
可以向自动语音识别组件240和/或语音组件250提供话音标识组件220的输出(例如作为用户ID),以便改进上述组件240和250的输出。在已被提供了发言者标识的情况下,自动语音识别组件240和语音组件250可以加载从之前的训练获取的、取决于发言者的参数集合,以便将针对用户的命中概率最大化。此类参数可以包括最终从来自用户的训练获得的音高、共振峰、MFCC等。语音组件250可操作用于使用由话音标识组件220和/或由自动语音识别组件240输出的、关于用户的信息(例如用户ID),以正确地解释用户请求。
语音情感识别组件230可操作用于在激活了被动模式时对当前发言的用户的话音进行分析、以从该用户的话音提取包括诸如情绪、重读、愤怒、高兴之类的情感的非语言信息。例如,为了从用户的话音提取非语言信息,语音情感识别组件230计算来自用户的话音样本的、一个或者多个频谱特征(例如音高、话音共振峰、MFCC等),最终连同它们关于中立情况的偏差,并且继而将计算出的频谱特征与关于话音中的情感的样本频谱的预建知识知识库进行匹配。为了改进匹配以确定以执行了用户请求的用户的话音中的情感,用户可以通过在GUI 170内提供的用户识别控件、类似于针对语音识别来训练框架。例如,用户可以使用不同情感表达预定字词和/或短语。可以从所表达的预定字词和/或短语生成话音样本,并且针对用户的、具有情感的相应的声纹可以类似于如之前描述的声纹来生成。
在一个实现方式中,使用可用的情感识别系统实现语音情感识别组件230。
自动语音识别组件240可操作用于接收由客户端100向服务器200发送的话音样本并且输出相应的文本抄本。在一个示例性实现方式中,使用可用的语音识别系统实现自动语音识别组件240。向语义组件250输入用户的话音样本的文本抄本。
语义组件250可操作用于通过使用从话音标识组件220接收的附加信息和/或通过使用从客户端100的家庭知识组件150接收的附加信息来处理从自动语音识别组件240接收的用户话音样本的文本抄本,以从对应于用户请求的用户话音样本的文本抄本提取一个或者多个标签的列表。标签的列表通过省略可忽略信息来对用户话音样本的文本抄本的语义进行总结。可以通过使用如从话音标识组件220接收的、已执行了用户请求的用户的用户ID、语义网络和/或语义词典(例如由家庭知识组件150提供的语义词典结合停用词列表)来执行从用户话音样本的文本抄本确定标签的列表。例如,用户已明确表达了用户请求“请打开我房间中的台灯”,该用户请求先前在自动语音识别组件240中转换为文本。使用停用词列表和/或语义词典,语义组件250如之前描述般进行处理,从初始用户请求声称标签的列表{房间,台灯,打开}。
可以用另外的语义加强标签的列表,以在语义组件250处和/或在接收来自服务器200的、对用户请求的响应之后、在客户端100的一个或者多个组件110、120、130、140、150、160、170处触发相应的动作。该响应可以包括标签的列表、用户ID和/或附加信息。为了触发一个或者多个软件集300a、300b、300c、300d、300e、300f来执行打开用户的房间中的台灯的灯光的动作,可以在客户端100和/或在服务器200处确定以下另外的语义。例如,所标识的用户是Sarah。可以从存储在家庭知识组件150中的语义词典确定在数字网络中所组织的家庭中的哪个房间是Sarah的房间以及台灯是电灯,而电灯属于照明系统种类。还可以使用家庭知识组件150来确定Sarah的房间中的电灯中的那个电灯是台灯,这是因为例如这个特征可以在家庭知识组件150的语义词典中描述。此外,可以从该种类导出可以使用照明系统进行的动作,例如打开、关闭和/或调暗。
可以将软件代理实现为软件集300a、300b、300c、300d、300e、300f,其是可以通过由客户端本身暴露的标准接口与客户端交互并且可以彼此交互的独立软件片段。在如图2中所示的框架中,将软件集300a、300b、300c、300d、300e、300f实现为专用于执行由用户通过客户端100请求的任务和/或控制数字网络400中的一个或者多个设备410、420、430、440、450、460的软件代理。例如,一个或者多个软件集300a、300b、300c、300d、300e、300f可以可操作用于例如通过控制一个或者多个设备410、420、430、440、450、460来执行一个或者多个以下示例性任务:打开或者关闭电灯、读取环境数据、在洗衣机上运行洗涤周期、控制数字生活网络联盟(DLNA)等。
客户端100通过模块管理组件140向软件集300a、300b、300c、300d、300e、300f暴露单一联系点。软件集300a、300b、300c、300d、300e、300f可以向模块管理组件140暴露它们提供的服务。换言之,在一个实现方式中,由模块管理组件140代表单一联系点。模块管理组件140通过该单一联系点向软件集300a、300b、300c、300d、300e、300f暴露注册服务、订阅服务和/或通知服务。
在注册阶段期间,例如当软件集300a、300b、300c、300d、300e、300f向客户端100注册以用于向用户提供其服务时,软件集300a、300b、300c、300d、300e、300f使用注册服务通知客户端100。软件集300a、300b、300c、300d、300e、300f可以通知客户端100其(软件集300a、300b、300c、300d、300e、300f)正在运行,可以输出关于其自身(软件集300a、300b、300c、300d、300e、300f)的信息(诸如其类别、供应商、序号等)和/或可以向客户端100提供其(软件集300a、300b、300c、300d、300e、300f的)能力。软件集300a、300b、300c、300d、300e、300f的能力可以包括软件集300a、300b、300c、300d、300e、300f能够执行的一个或者多个命令,例如打开/关闭电灯的灯光、运行洗衣机的周期、为DVD播放器安排节目等。一旦软件集300a、300b、300c、300d、300e、300f获知了软件集300a、300b、300c、300d、300e、300f,则客户端100可以要求用户提供针对软件集300a、300b、300c、300d、300e、300f的附加信息,诸如由软件集300a、300b、300c、300d、300e、300f控制的设备410、420、430、440、450、460的物理位置,与设备410、420、430、440、450、460相关联的用户,和/或可以通过针对软件集300a、300b、300c、300d、300e、300f指定相应的命令以执行动作来在设备410、420、430、440、450、460上执行的可能的动作等。用户可以通过GUI 170、例如通过与设备控件和/或软件集动作控件进行交互来指定此类附加信息。用户输入可以与软件集300a、300b、300c、300d、300e、300f一起存储和/或存储在家庭知识组件150中。
经先前注册的软件集300a、300b、300c、300d、300e、300f通过订阅服务来订阅客户端100。在订阅了客户端100的情况下,软件集300a、300b、300c、300d、300e、300f可以执行针对客户端100的请求,以处理在处理用户请求期间由服务器200接收的标签的列表和/或标识将由软件集300a、300b、300c、300d、300e、300f采取的相应的动作。在软件集300a、300b、300c、300d、300e、300f响应于用户请求来执行动作的情况下,客户端100向软件集300a、300b、300c、300d、300e、300f通知一个或者多个命令,以在由软件集300a、300b、300c、300d、300e、300f控制的设备410、420、430、440、450、460处执行相应的动作。在框架按照被动模式进行操作的情况下,向客户端100订阅的软件集300a、300b、300c、300d、300e、300f可以执行对客户端100的请求以接收数据流中的标签的列表。软件集300a、300b、300c、300d、300e、300f继而负责执行与通过用户请求确定的标签的列表有关的一个或者多个动作。
取决于软件集300a、300b、300c、300d、300e、300f已在客户端100处订阅的至少一个服务,当执行通知服务时,来自客户端100的通知可以取决于框架所处于的实际模式而包括不同信息:用于按照主动模式进行执行的命令或者在被动模式中将触发所请求的动作的所检测的情感的列表。例如,客户端100可以通知软件集300a、300b、300c、300d、300e、300f来执行通过从用户请求生成的标签的列表而确定的命令。在另一示例中,客户端100可以响应于处理用户请求而通知一个或者多个软件集300a、300b、300c、300d、300e、300f关于由服务器200接收的标签的列表。从客户端100向软件集300a、300b、300c、300d、300e、300f发送所述通知,该通知可以定期地和/或在每次在客户端100处接收到新标签时请求新列表,并且通知软件集300a、300b、300c、300d、300e、300f。
除了软件集300a、300b、300c、300d、300e、300f对客户端100的上述注册、订阅和/或通知服务之外,软件集300a、300b、300c、300d、300e、300f可以为了用户要求进一步的配置而在框架中适当地动作。例如,软件集300a、300b、300c、300d、300e、300f可以改变其行为、可以从用户请求关于如何响应于用户请求来执行动作的附加信息。为了支持对软件集300a、300b、300c、300d、300e、300f进行基于用户的配置,客户端100的模块管理组件140向软件集300a、300b、300c、300d、300e、300f暴露服务的集合以允许软件集300a、300b、300c、300d、300e、300f访问GUI 170。如上所述,GUI 170向用户提供用于基于其个人需要来配置软件集300a、300b、300c、300d、300e、300f的功能。以这种方式,可以降低对框架的开发努力,从而使得该框架的实现方式更加有效和灵活。
图3A和图3B示出了用户与参考图2所描述的框架的示例性交互。应当理解,参考图2中所示的实体描述的特征和/或属性也可以应用于图3A和图3B中示出的实体,其中相同的实体具有相同的参考号。
图3A示出了当按照主动模式进行操作时、在图2的框架中执行的交互的示例性序列。
用户10已通过从通过GUI 170暴露的模式选择控件选择并且激活主动模式而为客户端100(并且因而为该框架)选择了主动模式。
例如,用户10希望请求客户端100来打开他房间中的台灯的灯光。出于这一目的,用户访问客户端100的GUI 170并且激活主动请求控件。当主动请求控件被激活时,用户10通过说出以下句子“请打开我房间中的台灯”来执行用户请求。在A1处,由话音记录组件120记录用户的话音和用户请求。在A2处,话音记录组件120对用户请求进行采样。将话音样本格式化并且数字化为语音信号,以便将其通过网络500发送至服务器200以供进一步处理。将语音信号发送至通信和协作组件110。在A3处,通信和协作组件110将对服务器200的请求格式化,该请求包括语音信号、在话音记录组件120处生成的用户请求的话音样本和/或关于用户10和/或关于在用户请求中寻址的设备410、420、430、440、450、460的信息,诸如唯一设备标识符。在服务器200的通信和协作组件210处接收用于服务于用户请求的话音样本和/或附加信息。
在A4处,通信和协作组件210向话音标识组件220提供话音样本。话音标识组件220从用户10的话音样本标识谁执行了请求。在标识了用户10之后,在A5处,话音标识组件220向通信和协作组件210发送相应的用户身份(用户ID)。通信和协作组件210与当前处理的用户请求联合存储用户ID,从而使得当对所述用户请求进行响应时可以将用户ID发送回客户端100。在A6处,通信和协作组件210向自动语音识别组件240发送用户10的话音样本。通信和协作组件210可以附加地向自动语音识别组件240发送用户10的相应的、所确定的用户ID,以便改进自动语音识别组件240的执行。在已接受了话音样本之后,自动语音识别组件240将话音样本转化为文本。例如,自动语音识别组件240可以实现可用的语音识别系统以将对应于用户请求的用户10的话音样本转换为文本。在用户10的用户ID与话音样本一起在自动语音识别组件240处接收时,可以将对匹配话音样本的、可能的音节和/或字模的确定限制为关于用户10。在将话音样本转录为文本之后,在A7处,自动语音识别组件240向通信和协作组件210发送所生成的文本。通信和协作组件210可以与用户请求、用户ID和/或用户请求的话音样本关联地存储所接收的文本。在A8处,通信和协作组件210向语义组件250发送从用户10的话音样本生成的文本。语义组件250处理该文本以从该文本生成一个或者多个标签的列表。语义组件250可以通过经由访问家庭知识组件150来使用和/或实现语义词典、停用词列表和/或语义网络来从该文本生成标签的列表。例如,通过从如之前描述的翻译为文本的用户请求(即从“请打开我房间中的台灯”)移除停用词;通过制作所用字词之间的语义关联(例如将“台灯”与“电灯”(其为“光”)相关联);和/或通过在该文本中的字词之间导出语义关系,语义组件250可以从所接收的文本生成标签的列表{“台灯”,“打开”,“房间”}。
在A9处,语义组件250向通信和协作组件210发送所生成的标签的列表,以格式化和/或生成将向客户端100发送的相应的响应。该响应可以包括对应于用户10的用户请求的所生成的标签的列表、用户10的用户ID和/或如下附加信息,可以要求该附加信息以指示软件集300a、300b、300c、300d、300e、300f来在数字网络400中的设备410、420、430、440、450、460之一处执行相应的动作。在A10处,通过网络500向客户端的通信和协作组件110发送回经格式化的响应。
在A11处,通信与协作组件110向动作计划组件160发送该响应。基于该响应,动作计划组件160选择数字网络中的目标设备410、420、430、440、450、460以及将被执行的相应的动作。例如,通过所接收的响应,动作计划组件160根据用户ID推断用户10是“Sarah”。通过检查与该响应一起接收的标签的列表,动作计划组件160例如基于该标签的列表中的术语“台灯”推断目标设备的类别。数字网络400的设备410、420、430、440、450、460可以存储在语义网络中,该语义网络存储在家庭知识组件150处。在已确定了目标设备的类别之后,动作计划组件160可以通过标签的列表中的词“房间”和用户10的身份“Sarah”确定数字网络400中的具体目标设备410、420、430、440、450、460(即台灯在Sarah的房间中)。通过标签的列表中的词“打开”,动作计划组件160通过访问家庭知识组件150、确定将在Sarah的房间中的台灯上执行的相应的动作,即打开该台灯。在确定了目标设备410、420、430、440、450、460以及将在所述设备410、420、430、440、450、460上执行的动作之后,在A12处,动作计划组件160向通信和协作组件110转发相应的命令(例如,指定目标设备410、420、430、440、450、460,Sarah的房间中的台灯,以及将在所述设备410、420、430、440、450、460上执行的动作,即打开设备410、420、430、440、450、460)。在A13处,通信和协作组件110向模块管理组件140发送命令,该命令触发目标软件集300a、300b、300c、300d、300e、300f,该目标软件集控制所确定的目标设备410、420、430、440、450、460来在该目标设备410、420、430、440、450、460上执行所请求的动作,即打开Sarah的房间中的台灯的灯光。在执行了所指示的动作之后,在A14处,模块管理组件140向通信和协作组件110返回所采取的动作的相应的结果。例如,模块管理组件140返回该动作的结果,即打开了目标设备410、420、430、440、450、460的灯光。在A15处,通信和协作组件110向文本转语音组件130提供相应的响应,该文本转语音组件130从该响应例如通过使用可用的语音合成系统生成声音或语音输出。在A16处,例如通过话音接口向用户10播放声音反馈。
图3B示出了当按照被动模式进行操作时、在图2中示出的框架中执行的交互的示例性序列。
用户10已通过从通过GUI 170暴露的模式选择控件选择并且激活被动模式而为客户端100(并且因而为该框架)选择了被动模式。
在P1处,用户10正在发言并且其话音由话音记录组件120进行记录。在P2处,话音记录组件120对用户10的话音进行采样并且将话音样本数字化为语音信号以便通过网络500发送至在该框架中运作的服务器200。话音记录组件120在相应的语音信号中向通信和协作组件110发送发言的用户10的话音样本。在P3处,通信和协作组件110针对服务器200对请求进行格式化,该请求可以包括在话音记录组件120处生成的语音信号中的话音样本和/或关于用户10的信息和/或关于在该用户请求中寻址的设备410、420、430、440、450、460的信息(诸如唯一设备标识符)。
在P4处,通信和协作组件210向话音标识组件220提供从客户端100接收的话音样本。话音标识组件220从该话音样本标识已执行了请求的用户10并且提供相应的用户ID。在P5处,通信和协作组件210向语音情感识别组件230提供从客户端100接收的话音样本。语音情感识别组件230可以实现可用的情感识别系统以从所接收的话音样本确定用10的情感。例如,语音情感识别组件230可以从用户10的所接收的话音样本确定用户10处于“高兴”情绪中。在P6处,语音情感识别组件230向通信和协作组件210发送用户10的情感(在当前示例中为“高兴”),通信和协作组件210存储与当前处理的用户请求和/或用户10关联的用户10的情感“高兴”。在P7中,话音标识组件220向通信和协作组件210发送用户10的所确定的用户ID,通信和协作组件210存储与当前用户请求和/或用户10关联的用户10的用户ID。
在P8处,通信和协作组件210向自动语音识别组件240发送用户10的话音样本。通信和协作组件210可以向自动语音识别组件240附加地发送用户10的相应的、所确定的用户ID,以便改进自动语音识别组件240的执行。在接收了话音样本之后,自动语音识别组件240将该话音样本转化为文本。例如,自动语音识别组件240可以实现可用的语音识别系统以将对应于当前用户请求的用户10的话音样本转换为文本。在用户10的用户ID与话音样本一起在自动语音识别组件240处接收时,可以将对匹配话音样本的、可能的音节和/或字模的确定限制为关于用户10。在将话音样本转录为文本之后,在P9处,自动语音识别组件240向通信和协作组件210发送所生成的文本。通信和协作组件210可以与用户请求、用户ID、用户10的用户请求的话音样本和/或用户10的所确定的情感“高兴”关联地存储所接收的文本。在P10处,通信和协作组件210向语义组件250发送从用户请求的话音样本生成的文本。语义组件250处理该文本以从该文本生成一个或者多个标签的列表。语义组件250可以通过经由访问家庭知识组件150来使用和/或实现语义词典、停用词列表和/或语义网络来从该文本生成标签的列表。例如,通过从如之前描述的处理为文本的用户请求移除停用词;通过制作所用字词之间的语义关联(例如因为例如用户10正与朋友谈论他夏天在撒丁岛的假期而将“撒丁岛”与“意大利”相关联),和/或通过在该句子中的字词之间导出语义关系,语义功能可以从所接收的文本生成标签的列表{“假期”,“海滩”,“撒丁岛”}。在P11处,语义组件250向通信和协作组件210发送所生成的标签的列表,以格式化和/或生成将向客户端100发送的相应的响应。该响应可以包括对应于用户10的用户请求的所生成的标签的列表、用户10的用户ID、用户10的所确定的情绪(例如“高兴”)和/或如下附加信息,可以要求该附加信息以指示软件集300a、300b、300c、300d、300e、300f来通过数字网络400中的设备410、420、430、440、450、460之一执行相应的动作。在P12处,通过网络500向客户端的通信和协作组件110发送回经格式化的响应。
已从服务器200接收到经格式化的响应的客户端100的通信和协作组件110向模块管理组件140发送标签的列表、所确定的用户情感和/或用户ID。模块管理组件触发一个或者多个软件集300a、300b、300c、300d、300e、300f,该软件集已订阅了对一个或这多个所指定的用户情感(例如对情感“高兴”)进行反应的相应的服务。软件集300a、300b、300c、300d、300e、300f基于用户定义的内部配置处理标签的列表。例如,用户可以已配置了一个或者多个软件集300a、300b、300c、300d、300e、300f来通过数字网络400的设备410、420、430、440、450、460控制计算机设备和/或TV设备以示出来自用户的在撒丁岛的上个假期的照片。在触发了相应的软件集300a、300b、300c、300d、300e、300f之后,模块管理组件140向通信和协作组件110给出对所执行的动作的反馈。
图4示出了用于实现本发明的、包括按照常规计算环境920的形式的通用计算设备(即个人计算机)的示例性系统。常规计算环境包括处理单元922、系统存储器924和系统总线926。系统总线将包括系统存储器924在内的各种系统组件耦合至处理单元922。处理单元922可以通过访问系统存储器924来执行算术、逻辑和/或控制操作。系统存储器924可以存储用于与处理单元922结合使用的信息和/或指令。系统存储器924可以包括易失性和非易失性存储器,诸如随机存取存储器(RAM)928和只读存储器(ROM)930。在ROM 930中可以存储基本输入/输出系统(BIOS),BIOS包含有有助于在个人计算机920内的元件之间传送信息(诸如在启动期间)的基本例程。系统总线926可以是任何各种类型的总线结构,包括存储器总线或者存储器控制器、外围设备总线,以及使用任何各种总线架构的本地总线。
个人计算机920可以进一步包括用于从硬盘(未示出)进行读取和向该硬盘进行写入的硬盘驱动器932,以及用于从可移动磁盘936进行读取和向可移动磁盘936进行写入的外部盘驱动器934。可移动磁盘可以是用于磁盘驱动器的磁盘或者用于光盘驱动器的、诸如CD ROM之类的光盘。硬盘驱动器932和外部盘驱动器934分别通过硬盘驱动器接口938和外围磁盘驱动器接口940连接至系统总线926。驱动器及其相关联的计算机可读介质为计算机可读指令、数据结构、程序模块以及用于个人计算机920的其他数据提供非易失性存储。数据结构可以包括用于如下方法的实现方式的相关数据,该方法如上所述用于对数字网络进行基于自然语言的控制。可以将相关数据组织在数据库中,例如关系数据库管理系统或者面向对象数据库管理系统。
虽然在此描述的示例性环境使用了硬盘(未示出)以及外部盘936,但本领域技术人员应当领会到,也可以在示例性操作环境中使用其他类型的计算机可读介质,这些介质可以存储可由计算机访问的数据,这些介质诸如磁带盒、闪存卡、数字视频盘、随机存取存储器、只读存储器等。
可以在硬盘、外部盘936、ROM 930或者RAM 928上存储多个程序模块,包括操作系统(未示出)、一个或者多个应用程序944、其他程序模块(未示出)以及程序数据946。应用程序可以包括如在图1、图2、图3A和/或图3B中描述的功能的至少一部分。
用户可以如下所述通过注入键盘948和鼠标950之类的输入设备在个人计算机920中录入命令和信息。其他输入设备(未示出)可以包括麦克风(或者其他传感器)、操纵杆、游戏手柄、扫描仪等。这些和其他输入设备可以通过耦合到系统总线926的串行端口接口952连接到处理单元922,或者可以通过注入并行端口接口954、游戏端口或者通用串行总线(USD)连接。此外,可以使用打印机956打印信息。打印机956和其他并行输入/输出设备可以通过并行端口接口954连接到处理单元922。监视器958或者其他类型的显示设备也经由诸如视频输入/输出960之类的接口连接到系统总线926。除了监视器以外,计算环境920可以包括其他外围输出设备(未示出),诸如扬声器或者其他可听输出。
计算环境920可以与诸如计算机、电话(有线或者无线)、个人数字助理、电视之类的其他电子设备进行通信。为了进行通信,计算环境920可以在使用到一个或者多个电子设备的连接的联网环境中运作。图4描绘了与远程计算机962联网的计算环境。远程计算机962可以是了诸如服务器、路由器、网络PC、对等设备或者其他普通网络节点之类的另一计算环境,并且可以包括以上相对于计算环境920描述的元件中的许多或者全部。在图4中描绘的逻辑连接包括局域网(LAN)964和广域网(WAN)966。此类联网环境常见于办公室、企业计算机网络、内联网和因特网中,并且特别地可以被加密。
当在LAN联网环境中使用时,计算环境920可以通过网络I/O968连接至LAN 964。当在WAN联网环境中使用时,计算环境920可以包括调制解调器970或者用于建立通过WAN 966的通信的其他装置。可以位于计算环境920的内部或者外部的调制解调器970经由串行端口接口952连接到系统总线926。在联网环境中,相对于计算环境920所描绘的程序模块或其部分可以存储在位于远程计算机962或可由远程计算机962访问的远程存储器存储设备中。此外,与用于优化对策略的评估的方法(以上描述的)相关的其他数据可以位于远程计算机962上或可经由远程计算机962访问。应当领会到,所是的网络连接是示例性的并且可以使用在电子设备之间建立通信链路的其他装置。
上述计算系统仅为可以用于实现用于对数字网络进行基于自然语言的控制的方法的计算系统类型的一个示例。
参考号列表
10 用户
A1-A16 按照主动模式进行操作的框架的方法步骤
P1-P14 按照被动模式进行操作的框架的方法步骤
12 用户请求
14 语言信息
16 非语言信息
100 客户端
110 通信和协作组件
120 话音记录组件
130 文本转语音组件
140 模块管理组件
150 家庭知识组件
160 动作计划组件
170 图形用户界面(GUI)
200 服务器
210 通信和协作组件
220 话音标识组件
230 语音情感识别组件
240 自动语音识别组件
250 语义组件
300a、300b、300c、300d、300e、300f 软件集
400 数字网络
500 网络(例如因特网)
920 常规计算环境
922 处理单元
924 系统存储器
926 系统总线
928 随机存取存储器(RAM)
930 只读存储器(ROM)
932 硬盘驱动器
934 外部盘驱动器
936 可移动磁盘
938 硬盘驱动器接口
940 外部盘驱动器接口
944 一个或者多个应用程序
946 程序数据
948 键盘
950 鼠标
952 串行端口接口
954 并行端口接口
956 打印机
958 监视器
960 视频输入/输出
962 远程计算机
964 局域网(LAN)
966 广域网(WAN)
968 j网络I/O
970 调制解调器
Claims (15)
1.一种用于对数字网络进行基于自然语言的控制的计算机网络,所述网络包括:
数字网络(400),可操作用于在所述数字网络(400)中连接的多个设备(410、420、430、440、450、460)之间提供对网络(500)的访问的共享;
客户端(100),安装在所述数字网络(400)中并且可操作用于向用户(10)提供用于使用自然语言控制所述数字网络(400)的统一自然语言接口;
服务器(200),通过所述网络(400)连接至所述客户端(100)并且可操作用于处理所述用户(10)通过所述统一自然语言接口执行的用户请求;以及
一个或者多个软件代理(300a、300b、300c、300d、300e、300f),可操作用于基于经处理的用户请求在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行至少一个动作。
2.根据权利要求1所述的计算机网络,其中所述客户端(100)包括模块管理组件(140),所述模块管理组件(140)可操作用于向所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)提供接口以用于向所述客户端(100)发布由所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)提供的一个或者多个动作。
3.根据权利要求2所述的计算机网络,其中所述客户端(100)包括向所述用户(10)暴露的图形用户界面GUI(170),以用于指定对将由所述多个软件代理(300a、300b、300c、300d、300e、300f)在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行的动作的用户定义的设置。
4.根据权利要求3所述的计算机网络,其中所述模块管理组件(140)进一步可操作用于向所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)输出功能集合,以允许所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)访问所述GUI(170)。
5.根据前述任一权利要求所述的计算机网络,其中所述客户端(100)包括家庭知识组件(150),所述家庭知识组件(150)包括语义词典,其中所述语义词典指定关于所述数字网络(400)中的所述多个设备(410、420、430、440、450、460)的、与控制所述多个设备(410、420、430、440、450、460)相关的信息。
6.根据权利要求5所述的计算机网络,其中所述语义词典包括针对所述多个设备(410、420、430、440、450、460)的设备类别、所述设备类别之间和/或所述多个设备(410、420、430、440、450、460)之间的关系以及所述设备类别和/或所述多个设备(410、420、430、440、450、460)的属性。
7.根据前述任一权利要求所述的计算机网络,其中所述服务器(200)可操作用于处理所述用户请求以产生标签的列表,所述标签的列表可由所述客户端(100)使用以触发所述多个软件代理(300a、300b、300c、300d、300e、300f)来在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行所述至少一个动作。
8.根据前述任一权利要求所述的计算机网络,其中所述服务器(200)可操作用于通过解释从所述用户请求提取的语言信息和/或非语言信息来处理所述用户请求。
9.一种用于对数字网络进行基于自然语言的控制的计算机实现的方法,所述方法包括:
在客户端(100)向用户提供用于使用自然语言控制数字网络(400)的统一自然语言接口,其中所述数字网络(400)可操作用于在所述数字网络(400)中连接的多个设备(410、420、430、440、450、460)之间提供对网络(500)的访问的共享;
向服务器(200)发送用户(10)通过所述统一自然语言接口执行的用户请求,其中所述服务器(200)通过所述网络(500)连接至所述客户端(100)并且可操作用于处理所述用户请求;以及
触发一个或者多个软件代理(300a、300b、300c、300d、300e、300f)基于经处理的用户请求在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行至少一个动作。
10.根据权利要求9所述的方法,所述方法进一步包括:
在所述客户端(100)的模块管理组件(140)处向所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)提供接口以用于向所述客户端(100)发布由所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)提供的一个或者多个动作。
11.根据权利要求10所述的方法,所述方法进一步包括:
在所述客户端(100)处向所述用户(10)暴露图形用户界面GUI(170),以用于指定对将由所述多个软件代理(300a、300b、300c、300d、300e、300f)在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行的动作的用户定义的设置。
12.根据权利要求11所述的方法,所述方法进一步包括:
通过所述模块管理组件(140)向所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)输出功能集合,以允许所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)访问所述GUI(170)。
13.一种包括计算机可读指令的计算机程序产品,当在计算机系统和/或计算机网络系统中加载并且执行所述计算机可读指令时,使得所述计算机系统和/或所述计算机网络系统执行根据权利要求9至11中任一权利要求所述的方法的操作。
14.一种用于对数字网络进行基于自然语言的控制的客户端(100),所述客户端(100)包括:
统一自然语言接口,可操作用于接收用于使用自然语言控制数字网络(400)的用户请求,其中所述数字网络(400)可操作用于在所述数字网络(400)中连接的多个设备(410、420、430、440、450、460)之间提供对网络(500)的访问的共享;以及
模块管理组件(140),可操作用于向一个或者多个软件代理(300a、300b、300c、300d、300e、300f)提供接口以用于向所述客户端(100)发布由所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)提供的一个或者多个动作,其中所述一个或者多个软件代理(300a、300b、300c、300d、300e、300f)可操作用于基于所述用户请求在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行至少一个动作,
其中所述客户端(100)安装在所述数字网络(400)中。
15.一种用于对数字网络进行基于自然语言的控制的服务器(200),所述服务器(200)包括:
接口,可操作用于处理从客户端(100)接收的用户请求,
其中所述用户请求是通过在所述客户端(100)处、使用自然语言控制数字网络(400)的统一自然语言接口执行的,其中所述数字网络(400)可操作用于在所述数字网络(400)中连接的多个设备(410、420、430、440、450、460)之间提供对网络(500)的访问的共享;以及
其中所述用户请求被处理以产生标签的列表,所述标签的列表可由所述客户端(100)使用以触发多个软件代理(300a、300b、300c、300d、300e、300f)基于经处理的用户请求在所述多个设备(410、420、430、440、450、460)的至少一个设备上执行至少一个动作。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11425055.8A EP2498250B1 (en) | 2011-03-07 | 2011-03-07 | Client and server system for natural language-based control of a digital network of devices |
EP11425055.8 | 2011-03-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102682769A true CN102682769A (zh) | 2012-09-19 |
CN102682769B CN102682769B (zh) | 2016-11-09 |
Family
ID=44118523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210030901.6A Active CN102682769B (zh) | 2011-03-07 | 2012-02-06 | 对数字网络进行基于自然语言的控制 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9590818B2 (zh) |
EP (1) | EP2498250B1 (zh) |
CN (1) | CN102682769B (zh) |
CA (1) | CA2761839C (zh) |
Cited By (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105496447A (zh) * | 2016-01-15 | 2016-04-20 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
CN106415412A (zh) * | 2014-05-30 | 2017-02-15 | 苹果公司 | 用于家庭自动化的智能助理 |
CN109241241A (zh) * | 2018-08-20 | 2019-01-18 | 电信科学技术第五研究所有限公司 | 一种基于通信数据的移动用户关系类型识别方法 |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
CN110875056A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
CN111383319A (zh) * | 2020-06-01 | 2020-07-07 | 江苏原力数字科技股份有限公司 | 一种Maya灯光与USD灯光的自动转换方法及装置 |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN111833419A (zh) * | 2020-09-14 | 2020-10-27 | 江苏原力数字科技股份有限公司 | 一种Maya实例与USD点实例的自动转换方法 |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12051413B2 (en) | 2015-09-30 | 2024-07-30 | Apple Inc. | Intelligent device identification |
US12067985B2 (en) | 2018-06-01 | 2024-08-20 | Apple Inc. | Virtual assistant operations in multi-device environments |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8848026B2 (en) * | 2013-02-01 | 2014-09-30 | Maitland M. DeLand | Video conference call conversation topic sharing system |
US10375342B2 (en) * | 2013-03-27 | 2019-08-06 | Apple Inc. | Browsing remote content using a native user interface |
US10157618B2 (en) * | 2013-05-02 | 2018-12-18 | Xappmedia, Inc. | Device, system, method, and computer-readable medium for providing interactive advertising |
US9472205B2 (en) * | 2013-05-06 | 2016-10-18 | Honeywell International Inc. | Device voice recognition systems and methods |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3014610B1 (en) * | 2013-06-28 | 2023-10-04 | Harman International Industries, Incorporated | Wireless control of linked devices |
US9698999B2 (en) * | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9582496B2 (en) * | 2014-11-03 | 2017-02-28 | International Business Machines Corporation | Facilitating a meeting using graphical text analysis |
US11574621B1 (en) * | 2014-12-23 | 2023-02-07 | Amazon Technologies, Inc. | Stateless third party interactions |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10541958B2 (en) * | 2015-08-05 | 2020-01-21 | Facebook, Inc. | Controlling a device cloud |
US10567479B2 (en) | 2015-08-05 | 2020-02-18 | Facebook, Inc. | Managing a device cloud |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US9978366B2 (en) | 2015-10-09 | 2018-05-22 | Xappmedia, Inc. | Event-based speech interactive media player |
KR102429260B1 (ko) | 2015-10-12 | 2022-08-05 | 삼성전자주식회사 | 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치 |
CN106702677B (zh) * | 2015-11-17 | 2019-03-19 | 泰科电子(上海)有限公司 | 家电总线控制系统 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9912977B2 (en) * | 2016-02-04 | 2018-03-06 | The Directv Group, Inc. | Method and system for controlling a user receiving device using voice commands |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
JP6654691B2 (ja) * | 2016-04-07 | 2020-02-26 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US20180090126A1 (en) * | 2016-09-26 | 2018-03-29 | Lenovo (Singapore) Pte. Ltd. | Vocal output of textual communications in senders voice |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
WO2018140420A1 (en) | 2017-01-24 | 2018-08-02 | Honeywell International, Inc. | Voice control of an integrated room automation system |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10984329B2 (en) | 2017-06-14 | 2021-04-20 | Ademco Inc. | Voice activated virtual assistant with a fused response |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
JP6943158B2 (ja) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US11676062B2 (en) * | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
JP2021113835A (ja) * | 2018-04-19 | 2021-08-05 | ソニーグループ株式会社 | 音声処理装置および音声処理方法 |
EP3557577B1 (en) * | 2018-04-20 | 2022-09-21 | Spotify AB | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US10621983B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US10622007B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US20190332848A1 (en) | 2018-04-27 | 2019-10-31 | Honeywell International Inc. | Facial enrollment and recognition system |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US20190390866A1 (en) | 2018-06-22 | 2019-12-26 | Honeywell International Inc. | Building management system with natural language interface |
KR102025566B1 (ko) * | 2018-07-27 | 2019-09-26 | 엘지전자 주식회사 | 인공지능을 이용한 홈어플라이언스 및 음성 인식 서버 시스템과, 이의 제어 방법 |
US11373640B1 (en) * | 2018-08-01 | 2022-06-28 | Amazon Technologies, Inc. | Intelligent device grouping |
KR102173841B1 (ko) * | 2018-09-20 | 2020-11-05 | 현대오토에버 주식회사 | 복수의 인공지능 음성단말장치를 이용하여 구역별 전자장치를 제어하는 시스템 및 방법 |
JP7175696B2 (ja) | 2018-09-28 | 2022-11-21 | キヤノン株式会社 | 画像処理システム、画像処理装置、及びその制御方法 |
CN109902155B (zh) * | 2018-12-29 | 2021-07-06 | 清华大学 | 多模态对话状态处理方法、装置、介质及计算设备 |
US11170783B2 (en) | 2019-04-16 | 2021-11-09 | At&T Intellectual Property I, L.P. | Multi-agent input coordination |
KR102203786B1 (ko) * | 2019-11-14 | 2021-01-15 | 오로라월드 주식회사 | 스마트 토이를 이용한 인터렉션 서비스 제공방법 및 시스템 |
US11568862B2 (en) * | 2020-09-29 | 2023-01-31 | Cisco Technology, Inc. | Natural language understanding model with context resolver |
CN113361969B (zh) * | 2021-07-07 | 2022-03-08 | 北京容联七陌科技有限公司 | 一种灵活可配置模板的智能质检系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5086385A (en) * | 1989-01-31 | 1992-02-04 | Custom Command Systems | Expandable home automation system |
US7036128B1 (en) * | 1999-01-05 | 2006-04-25 | Sri International Offices | Using a community of distributed electronic agents to support a highly mobile, ambient computing environment |
US20070106497A1 (en) * | 2005-11-09 | 2007-05-10 | Microsoft Corporation | Natural language interface for driving adaptive scenarios |
US20090043404A1 (en) * | 2007-08-06 | 2009-02-12 | Rockwell Automation Technologies, Inc. | Discoverable services |
US20100151889A1 (en) * | 2008-12-11 | 2010-06-17 | Nortel Networks Limited | Automated Text-Based Messaging Interaction Using Natural Language Understanding Technologies |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2295785C (en) * | 1997-06-25 | 2007-01-23 | Samsung Electronics Co., Ltd. | Programming tool for home networks |
US6731307B1 (en) * | 2000-10-30 | 2004-05-04 | Koninklije Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality |
US8443288B2 (en) * | 2002-11-22 | 2013-05-14 | Sony Pictures Entertainment Inc. | Ubiquitous companion agent |
US7499860B2 (en) * | 2002-12-17 | 2009-03-03 | Microsoft Corporation | Computer system and method for enhancing experience using networked devices |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100004924A1 (en) * | 2008-07-03 | 2010-01-07 | Yuri Luis Paez | Method and system context-aware for identifying, activating and executing software that best respond to user requests generated in natural language |
WO2010009157A1 (en) * | 2008-07-15 | 2010-01-21 | Immersion Corporation | Systems and methods for physics-based tactile messaging |
-
2011
- 2011-03-07 EP EP11425055.8A patent/EP2498250B1/en active Active
- 2011-12-13 CA CA2761839A patent/CA2761839C/en active Active
-
2012
- 2012-02-06 CN CN201210030901.6A patent/CN102682769B/zh active Active
- 2012-03-06 US US13/413,373 patent/US9590818B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5086385A (en) * | 1989-01-31 | 1992-02-04 | Custom Command Systems | Expandable home automation system |
US7036128B1 (en) * | 1999-01-05 | 2006-04-25 | Sri International Offices | Using a community of distributed electronic agents to support a highly mobile, ambient computing environment |
US20070106497A1 (en) * | 2005-11-09 | 2007-05-10 | Microsoft Corporation | Natural language interface for driving adaptive scenarios |
US20090043404A1 (en) * | 2007-08-06 | 2009-02-12 | Rockwell Automation Technologies, Inc. | Discoverable services |
US20100151889A1 (en) * | 2008-12-11 | 2010-06-17 | Nortel Networks Limited | Automated Text-Based Messaging Interaction Using Natural Language Understanding Technologies |
Cited By (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US12073147B2 (en) | 2013-06-09 | 2024-08-27 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
CN111856959A (zh) * | 2014-05-30 | 2020-10-30 | 苹果公司 | 用于家庭自动化的智能助理 |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
CN106415412A (zh) * | 2014-05-30 | 2017-02-15 | 苹果公司 | 用于家庭自动化的智能助理 |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US12067990B2 (en) | 2014-05-30 | 2024-08-20 | Apple Inc. | Intelligent assistant for home automation |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US12051413B2 (en) | 2015-09-30 | 2024-07-30 | Apple Inc. | Intelligent device identification |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105496447B (zh) * | 2016-01-15 | 2019-02-05 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
CN105496447A (zh) * | 2016-01-15 | 2016-04-20 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US12080287B2 (en) | 2018-06-01 | 2024-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US12067985B2 (en) | 2018-06-01 | 2024-08-20 | Apple Inc. | Virtual assistant operations in multi-device environments |
CN109241241A (zh) * | 2018-08-20 | 2019-01-18 | 电信科学技术第五研究所有限公司 | 一种基于通信数据的移动用户关系类型识别方法 |
CN110875056B (zh) * | 2018-08-30 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
CN110875056A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音转录设备、系统、方法、及电子设备 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111383319B (zh) * | 2020-06-01 | 2020-08-25 | 江苏原力数字科技股份有限公司 | 一种Maya灯光与USD灯光的自动转换方法及装置 |
CN111383319A (zh) * | 2020-06-01 | 2020-07-07 | 江苏原力数字科技股份有限公司 | 一种Maya灯光与USD灯光的自动转换方法及装置 |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
CN111833419B (zh) * | 2020-09-14 | 2020-12-11 | 江苏原力数字科技股份有限公司 | 一种Maya实例与USD点实例的自动转换方法 |
CN111833419A (zh) * | 2020-09-14 | 2020-10-27 | 江苏原力数字科技股份有限公司 | 一种Maya实例与USD点实例的自动转换方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2498250A1 (en) | 2012-09-12 |
CN102682769B (zh) | 2016-11-09 |
EP2498250B1 (en) | 2021-05-05 |
CA2761839C (en) | 2016-10-18 |
US9590818B2 (en) | 2017-03-07 |
US20120232886A1 (en) | 2012-09-13 |
CA2761839A1 (en) | 2012-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102682769A (zh) | 对数字网络进行基于自然语言的控制 | |
US20200395008A1 (en) | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models | |
JP6876752B2 (ja) | 応答方法及び装置 | |
US11562744B1 (en) | Stylizing text-to-speech (TTS) voice response for assistant systems | |
US20160180853A1 (en) | Application focus in speech-based systems | |
US11580982B1 (en) | Receiving voice samples from listeners of media programs | |
CN112328849A (zh) | 用户画像的构建方法、基于用户画像的对话方法及装置 | |
CN108228132A (zh) | 促进用户录制的音频的创建和回放 | |
CN107481720A (zh) | 一种显式声纹识别方法及装置 | |
US11741941B2 (en) | Configurable neural speech synthesis | |
JP2021022928A (ja) | 人工知能基盤の自動応答方法およびシステム | |
US11687576B1 (en) | Summarizing content of live media programs | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
Pala et al. | Real-time transcription, keyword spotting, archival and retrieval for telugu TV news using ASR | |
US20110076913A1 (en) | Animated interactive figure and system | |
Kalkhoran et al. | Detecting Persian speaker-independent voice commands based on LSTM and ontology in communicating with the smart home appliances | |
Rodrigues et al. | Emotion detection throughout the speech | |
Takahashi et al. | Natural Language Dialog System Considering Speaker’s Emotion Calculated from Acoustic Features | |
Breen et al. | Voice in the user interface | |
US20230267934A1 (en) | Display apparatus and operating method thereof | |
Lin et al. | VoiceTalk: Multimedia-IoT Applications for Mixing Mandarin, Taiwanese, and English | |
Moniz et al. | Speech services | |
US20240320519A1 (en) | Systems and methods for providing a digital human in a virtual environment | |
KR20190106011A (ko) | 대화 시스템 및 그 방법, 그 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램 | |
KR101914582B1 (ko) | 보안성을 강화한 의미-무관 사용자 성문 인증을 제공하는 방법, 대화형 ai 에이전트 시스템 및 컴퓨터 판독가능 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |