CN107004410B - 语音和连接平台 - Google Patents
语音和连接平台 Download PDFInfo
- Publication number
- CN107004410B CN107004410B CN201580060712.5A CN201580060712A CN107004410B CN 107004410 B CN107004410 B CN 107004410B CN 201580060712 A CN201580060712 A CN 201580060712A CN 107004410 B CN107004410 B CN 107004410B
- Authority
- CN
- China
- Prior art keywords
- user
- action
- context
- information
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000009471 action Effects 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 73
- 230000015654 memory Effects 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 26
- 230000000977 initiatory effect Effects 0.000 claims description 24
- 239000003795 chemical substances by application Substances 0.000 description 80
- 238000003860 storage Methods 0.000 description 63
- 230000006870 function Effects 0.000 description 61
- 230000003993 interaction Effects 0.000 description 50
- 239000008186 active pharmaceutical agent Substances 0.000 description 30
- 238000004891 communication Methods 0.000 description 28
- 238000007726 management method Methods 0.000 description 25
- 230000007246 mechanism Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 25
- 238000010801 machine learning Methods 0.000 description 15
- 230000006399 behavior Effects 0.000 description 13
- 230000001360 synchronised effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 238000013461 design Methods 0.000 description 10
- 230000007774 longterm Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 241000238558 Eucarida Species 0.000 description 6
- 230000004913 activation Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 239000000446 fuel Substances 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000007789 gas Substances 0.000 description 5
- 239000010410 layer Substances 0.000 description 5
- 238000003825 pressing Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000003466 anti-cipated effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000003999 initiator Substances 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008093 supporting effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012384 transportation and delivery Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 241000501754 Astronotus ocellatus Species 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003116 impacting effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 244000025271 Umbellularia californica Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010073 coating (rubber) Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000011241 protective layer Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于提供语音助理的系统和方法,包括在第一设备处从用户接收请求第一动作的第一音频输入;对第一音频输入执行自动语音识别;获取用户的上下文;基于第一音频输入的语音识别来执行自然语言理解;以及基于用户的上述文和自然语言理解采取第一动作。
Description
背景技术
现在的语音助理包括苹果的Siri,谷歌的Google Now和微软的Cortana。这种目前的系统的第一个问题不允许用户与个人助理像用户与人一样对话地交互。这种目前的系统的第二个问题是用户经常不被理解或被误解,或者目前的系统快速默认为网络搜索。这种目前的系统的第三个问题是它们不主动地协助其用户。第四个问题是这种目前的系统被限制在与它们交互的应用,例如,这样的语音助理可以仅与有限数量的应用交互。第五个问题是这种目前的系统不利用用户的上下文。第六个问题是这种目前的系统不与其他语音助理集成。
发明内容
在一个实施例中,语音和连接引擎提供语音助理,其补救现有语音助理的上述缺点一个或多个。在一个实施例中,语音和连接引擎使用不可知和模块化方法到一个或多个的自动语音识别、自然语言理解和文本到语音组件,从而允许频繁地更新这些组件,并且简化系统对不同语言的适应。在一个实施例中,语音和连接引擎管理上下文以便向用户提供更自然和类似人的对话,并且增加对用户的请求的理解的准确性并减少接收请求和对请求执行之间的时间量。在一个实施例中,语音和连接引擎提供了工作绕行来获得用户的预期请求,而不是立即默认为web搜索。在一个实施例中,语音和连接引擎利用模块与用户设备的各种应用(例如电话,统一消息,新闻,媒体,天气,用于web搜索的浏览器等)交互,并且当添加和更新应用程序时可以单独地添加或修改模块。在一个实施例中,用于与应用交互的模块提供用户命令中的标准化水平。例如,用户可以通过Facebook,电子邮件或微博使用口头请求“发送消息”来发送消息。
在一个实施例中,该方法包括在第一设备处接收来自用户的请求第一动作的第一音频输入;在第一音频输入上执行自动语音识别;获取用户的上下文;基于第一音频输入的语音识别来执行自然语言理解;并基于用户的上下文和自然语言理解采取第一动作。
其他方面包括用于这些和其他创新特征的对应方法、系统、装置和计算机程序产品。这些和其他实现可以各自可选地包括以下特征中的一个或多个,例如,操作进一步包括:所述第一音频输入响应于内部事件被接收。例如,操作进一步包括:在没有用户输入的情况下启动语音助理,并且在语音助理的启动之后从用户接收第一音频输入。例如,操作进一步包括以下各项中的一项或多项:上下文包括上下文历史、对话历史、用户简档、用户历史、位置以及当前上下文域中。例如,操作进一步包括:在采取动作之后,从用户接收请求与第一动作无关的第二动作的第二音频输入;采取第二动作;从用户接收请求与第一动作相关的第三动作的第三音频输入,第三音频输入缺失用于采取第三动作的信息;使用上下文获取缺失的信息;以及采取第三动作。例如,操作进一步包括:缺失的信息是以下各项中的一项或多项:动作、演员以及实体。例如,操作进一步包括:在第二设备处从用户接收请求与第一动作相关的第二动作的第二音频输入,第二音频输入缺失用于采取第二动作的信息;使用上下文获取缺失的信息;并基于上下文采取第二个动作。例如,操作进一步包括:确定上下文和第一音频输入缺失用于采取第一动作的信息;确定缺夫的信息是什么信息;以及提示用户提供供应缺失的信息的第二音频输入。例如,操作进一步包括:确定用于采取第一动作的信息不能从第一音频输入获得;确定缺失的信息是什么信息;并且提示用户提供供应不能从第一音频输入获得的信息的第二音频输入。例如,操作进一步包括:确定用于采取第一动作的信息不能从第一音频输入获得;确定用于采取第一动作的信息缺失什么信息;提供由用户对多个选项的选择,选项供应用于完成第一动作的潜在信息;以及接收从多个选项选择第一选项的第二音频输入。
参考附图和描述,本文所描述的特征和优点不是全包的,并且许多附加特征和优点对于本领域普通技术人员中的一个将是显而易见的。此外,应当注意,说明书中使用的语言主要是为了可读性和说明目的而选择的,而不是限制本发明主题的范围。
附图说明
本公开通过示例的方式,而不通过其中相同的附图标记用于指代相似的元件的附图的图的限制的方式被图示。
图1是图示根据一个实施例用于语音和连接平台的示例系统的框图。
图2是图示根据一个实施例示例性计算设备的框图。
图3是图示根据一个实施例客户端语音和连接引擎的示例的框图。
图4是图示根据一个实施例服务器端语音和连接引擎的示例的框图。
图5是根据一些实施例使用语音和连接平台用于接收和处理请求的示例方法的流程图。
图6是根据一些实施例用于获得附加信息以确定用户的预期请求的示例方法的流程图。
图7是根据另一实施例使用语音和连接平台接收和处理请求的示例方法。
图8是根据一个实施例管理语音和连接平台中的上下文的示例的框图。
具体实施方式
图1是图示根据一个实施例用于语音和连接平台的示例系统100的框图。所图示的系统100包括客户设备106a...106n,自动语音(speech)识别(ASR)服务器110,语音(voice)和连接服务器122以及文本到语音(TTS)服务器116,其为了相互交互经由网络102通信地耦合。例如,客户设备106a...106n可以分别经由信号线104a...104n耦合到网络102,并且可以被用户112a...112n(也被单独地和共同地称为为用户112)访问,如线110a~110n所图示的。自动语音识别服务器110可以经由信号线108耦合到网络102.语音和连接服务器122可以经由信号线120耦合到网络102。文本到语音服务器116可以经由信号线114连接到网络102。在附图标记中命名“a”和“n”的使用表示具有该命名的任何数量的那些元件可以包括在系统100中。
网络102可以包括任何数量的网络和/或网络类型。例如,网络102可以包括但不限于一个或多个局域网(LAN),广域网(WAN)(例如,因特网),虚拟专用网(VPN),移动网络(例如,蜂窝网络),无线广域网(WWAN),Wi-Fi网络,WiMAX网络,蓝牙通信网络,对等网络,通过其多个设备可以通信的其他互连数据路径,它们的各种组合等。由网络102传递的数据可以包括被路由到耦合到网络102的指定计算设备的分组数据(例如,因特网协议(IP)数据分组)。在一些实现中,网络102可以包括互联系统100的计算设备的有线和无线(例如,地面或基于卫星收发器)网络软件和/或硬件的组合。例如,网络102可以包括分组交换设备,其基于包括在数据分组的头部中的信息将数据分组路由到各种计算设备。
通过网络102交换的数据可以使用包括超文本标记语言(HTML),可扩展标记语言(XML),JavaScript对象符号(JSON),逗号分隔值(CSV),Java数据库连接(JDBC),开放数据库连接(ODBC)等的技术和/或格式来表示。此外,链接的所有或部分可以使用传统的加密技术来加密,例如安全套接层(SSL),安全HTTP(HTTPS)和/或虚拟专用网络(VPN)或互联网协议安全(IPsec)。在另一个实施例中,实体可以使用定制和/或专用数据通信技术,而不是上述的数据通信技术,或除此之外的数据通信技术。根据实施例,网络102还可以包括到其他网络的链路。另外,通过网络102交换的数据可以被压缩。
客户设备106a...106n(也被单独地和统称为客户设备106)是具有数据处理和通信能力的计算设备。虽然图1图示了两个客户设备106,但是本说明书应用到具有一个或多个客户设备106的任何系统架构。在一些实施例中,客户设备106可以包括处理器(例如,虚拟的,物理的等)、存储器、电源、网络接口和/或其他软件和/或硬件部件,诸如显示器、图形处理器、无线收发器、键盘、扬声器、照相机、传感器、固件、操作系统、驱动器、各种物理连接接口(例如,USB,HDMI等)。客户设备106a...106n可以使用无线和/或有线连接经由网络102与彼此和系统100的其他实体耦合并与之通信。
客户设备106的示例可以包括但不限于汽车,机器人,移动电话(例如,功能电话,智能电话等),平板电脑,笔记本电脑,桌面电脑,上网本,服务器设备,服务器,虚拟机,电视,机顶盒,媒体流设备,便携式媒体播放器,导航设备,个人数字助理等。虽然在图1中描绘了两个以上客户设备106,系统100可以包括任何数量的客户设备106。此外,客户设备106a...106n可以是相同或不同类型的计算设备。例如,在一个实施例中,客户设备106a是汽车,客户设备106n是移动电话。
在所描绘的实现中,客户设备106a包括客户端语音和连接引擎109a、自动语音识别引擎111a和文本到语音引擎119a的实例。尽管未示出,客户设备106n可以包括其自身的客户端语音和连接引擎109n、自动语音识别引擎111n和文本到语音引擎119n的实例。在一个实施例中,客户端语音和连接引擎109、自动语音识别引擎111和文本到语音引擎119的实例可以存储在客户设备106的存储器中并且可由客户设备106的处理器执行。
文本到语音(TTS)服务器116,自动语音识别(ASR)服务器110和语音和连接服务器122可以包括具有数据处理、存储和通信能力的一个或多个计算设备。例如,这些实体110、116、122可以包括一个或多个硬件服务器,服务器阵列,存储设备,系统等,和/或可以是集中式或分布式/基于云的。在一些实现中,这些实体110、116、122可以包括一个或多个虚拟服务器,其通过抽象层(例如,虚拟机管理器)在主机服务器环境中操作并访问主机服务器的物理硬件(包括,例如,处理器、内存、存储器、网络接口等)。
自动语音识别(ASR)引擎111执行自动语音识别。例如,在一个实施例中,ASR引擎111接收音频(例如语音)输入并将音频转换为文本串。ASR引擎111的示例包括但不限于Nuance,Google Voice,Telisma/OnMobile等。
根据实施例,ASR引擎111可以是板载,非板载或其组合。例如,在一个实施例中,ASR引擎111是板载,ASR由ASR引擎111a在客户设备106上执行,并且可以省略ASR引擎111x和ASR服务器110。在另一示例中,在一个实施例中,ASR引擎111是非板载的(例如,流式传输或中继),并且ASR由ASR引擎111x在ASR服务器110上执行,并且可以省略ASR引擎111a。在又一示例中,ASR由ASR引擎111a在客户设备106和由ASR引擎111x在ASR服务器110两者执行。
文本到语音(TTS)引擎119执行文本到语音。例如,在一个实施例中,TTS引擎119接收文本或其他非语音输入(例如,对附加信息的请求,如下文参考图3的工作绕行引擎328所讨论的),并输出通过客户设备106的音频输出呈现给用户112的人类可识别语音。ASR引擎111的示例包括但不限于Nuance,Google Voice,Telisma/OnMobile,Creawave,Acapella等。
根据实施例,TTS引擎119可以是板载,非板载或其组合。例如,在一个实施例中,TTS引擎119是板载,并且TTS由TTS引擎119a在客户设备106上执行,并且可以省略TTS引擎119x和TTS服务器116。在另一示例中,在一个实施例中,TTS引擎119在非板载(例如,流式传输或中继),并且TTS由TTS引擎119x在TTS服务器116上执行,并且可以省略TTS引擎119a。在另一示例中,TTS由TTS引擎116a在客户设备106和由TTS引擎116x在TTS服务器116两者执行。
在所图示实施例中,语音和连接引擎被分成两个部件109、124;一个客户和一个服务器端。根据实施例,语音和连接引擎可以是板载,非板载或两者的混合。在另一示例中,在一个实施例中,语音和连接引擎是板载的,并且下面关于图3和图4讨论的特征和功能在客户设备106上执行。在另一示例中,在一个实施例中,语音和连接引擎是非板载的,并且下面关于图3和图4讨论的特征和功能在语音和连接服务器122上执行。在另一个示例中,在一个实施例中,语音和连接引擎是混合的,并且下面关于图3和图4讨论的特征和功能在客户端语音和连接引擎109与服务器端语音和连接引擎124之间被分割。尽管应当认识到,特征和功能可以与图3和4描述的实施例不同的被划分。在一个实施例中,语音和连接引擎提供语音助理,其使用上下文和人工智能并提供与用户112的自然对话,并且可以解决用户请求中的缺点(例如,语音识别失败)。
在一个实施例中,客户端(板载)语音和连接引擎109管理对话,并连接到服务器端(非板载)语音和连接平台124用于扩展语义处理。这样的实施例可以有利地提供同步以允许两者之间的连接的缺失和恢复。例如,假设用户正在通过隧道并且没有网络102连接。在一个实施例中,当系统100检测到网络102连接的缺乏并且分析本地在客户设备106上的语音输入(即查询/请求)使用自动语音识别引擎111的“精简”本地版本和自然语言理解引擎326执行,但是当网络102连接可用时,ASR和自然语言理解(NLU)在引擎的服务器端版本上执行,其提供更大语义,词汇和处理能力。在一个实施例中,如果用户的请求要求网络102连接,系统可以口头通知用户其缺少网络102连接,用户的请求将被处理当网络102的连接重新建立时。
应当理解,图1中所图示的系统100代表根据一个实施例的用于语音和连接的示例系统,并且预期了各种不同的系统环境和配置,并且在本公开的范围内。例如,各种功能可以从服务器移动到客户端,反之亦然,并且一些实现可以包括附加的或更少的计算设备、服务器和/或网络,并且可以实现各种功能性客户或服务器端。此外,系统100的各种实体可以集成到单个计算设备或系统中,或者在附加的计算设备或系统等之间被划分。
图2是根据一个实施例的示例计算设备200的框图。计算设备200,如图所示,可以包括处理器202,存储器204,通信单元208和存储设备241,其可以由通信总线206被通信地耦合。通过示例的方式在提供图2中所描述的计算设备200,应当理解,不脱离本公开的范围的情况下,其可以采取其他形式并且包括附加的或更少的部件。例如,尽管未示出,计算设备200可以包括输入和输出设备(例如,显示器,键盘,鼠标,触摸屏,扬声器等),各种操作系统,传感器,附加处理器和其他物理配置。附加地,应当理解,图2中所描述和本文所描述的计算机架构可以应用于系统100中具有各种修改的多个实体其,包括,例如TTS服务器116(例如通过包括TTS引擎119并省略其他所图示的引擎),ASR服务器110(例如通过包括ASR引擎111并省略其他所图示的引擎),客户设备106(例如,通过省略服务器端语音和连接引擎124)和语音和连接服务器122(例如,通过包括服务器端语音和连接引擎124并省略其他所图示的引擎)。
处理器202包括算术逻辑单元、微处理器、通用目的控制器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或一些其它处理器阵列,或其一些组合通过执行各种输入、逻辑和/或数学运算以执行软件指令来提供本文所描述的特征和功能。处理器202可以通过执行各种输入/输出、逻辑、和/或数学运算执行代码、例程和软件指令。处理器202具有各种计算架构以用于处理数据信号,包括,例如,复杂指令集计算机(CISC)架构、简化指令集计算机(RISC)架构、和/或实现指令集的组合的架构。处理器202可以是物理的和/或虚拟的,并且可以包括单个核心或多个处理单元和/或核心。在一些实现中,处理器202可以能够产生并提供电子显示信号到显示设备(未示出),支持图像的显示,捕获和发送图像,执行包括各种类型的特征提取和采样的复杂任务等。在一些实现中,处理器202可以经由总线206耦合到存储器204,以从其访问数据和指令,并在其中存储数据。总线206可以将处理器202耦合到应用服务器122的其他部件,包括,例如,存储器204、通信单元208和存储设备241。
存储器204可以存储和提供对计算设备200的其他部件的数据的访问。在一些实现中,存储器204可以存储可以由处理器202执行的指令和/或数据。例如,如所描述的,存储器204可以存储一个或多个引擎109、111、119、124。存储器204还能够存储其他指令和数据,包括,例如,操作系统,硬件驱动器,软件应用程序,数据库等。存储器204可以耦合到总线206,以与处理器202和计算设备200的其他部件进行通信。
存储器204包括非瞬态计算机可用(例如,可读,可写等)介质,其可以是包含、存储、通信、传播或传送指令、数据、计算机程序、软件、代码、例程等的任何装置或设备,用于被处理器202处理或与其连接。在一些实现中,存储器204可以包括一个或多个易失性存储器和非易失性存储器。例如,存储器204可以包括,但不限于,一个或多个动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、分立存储设备(例如,PROM,FPROM,ROM)、硬盘驱动器、光盘驱动器(CD、DVD、Blue-rayTM等)。应当理解,存储器204可以是单个设备,或者可以包括多种类型的设备和配置。
总线206可以包括用于在计算设备的组件之间或在计算设备106/110/116/122之间传送数据的通信总线,网络总线系统包括网络102或其部分、处理器网格,其组合等。在一些实现中,引擎109、111、119、124、它们的子组件和在计算设备200上操作的各种软件(例如,操作系统,设备驱动程序等)可以经由与总线206相关联地实现的软件通信机制协作和通信。软件通信机制可以包括和/或促进,例如,进程间通信、本地函数或程序调用,远程程序调用、对象代理(例如,CORBA)、在软件模块之间的直接套接字通信(例如,TCP/IP套接字)、UDP广播和接收、HTTP连接等。此外,任何或所有通信可能是安全的(例如,SSL,HTTPS等)。
通信单元208可以包括用于与网络102有线和/或无线连接的一个或多个接口设备(I/F)。例如,通信单元208可以包括,但不限于,CAT类型接口;用于发送和接收信号的无线收发器使用无线电收发器(4G,3G,2G等)以与移动网络103通信,和无线电收发器用于Wi-FiTM和紧密接近的(例如,蓝牙,NFC等)连接等;USB接口;其各种组合等。在一些实现中,通信单元208可以将处理器202链接到网络102,其可以反过来耦合到其他处理系统。通信单元208可以使用各种标准网络通信协议(包括例如本文别处讨论的那些)提供到网络102和系统100的其他实体的其他连接,包括,例如,本文其他地方讨论过的那些。
存储设备241是用于存储数据和提供对数据的访问的信息源。在一些实现中,存储设备241可以经由总线206耦合到计算设备的组件202、204和208,以接收和提供对数据的访问。存储设备241存储的数据可以基于计算装置200和实施例而变化。例如,在一个实施例中,客户设备106的存储设备241可以存储关于用户当前上下文和会话的信息,并且语音和连接服务器122的存储设备241存储中长期上下文、用于机器学习的累积用户数据等
存储设备241可以包括在计算设备200和/或与计算设备200不同但耦合到计算设备200或由计算设备200可访问的存储系统中。存储设备241可以包括用于存储数据的一个或多个非瞬态计算机可读介质。在一些实现中,存储设备241可以与存储器204合并或者可以与其不同。在一些实现中,存储设备241可以包括可在应用服务器122上操作的数据库管理系统(DBMS)。例如,DBMS可以包括结构化查询语言(SQL)DBMS、NoSQL DMBS、其各种组合等。在一些实例中,DBMS可以将数据存储在包含行和列的多维表中,并使用编程操作来操作,即插入、查询、更新和/或删除数据行。
如上所述,计算设备200可以包括其他和/或更少的部件。其他部件的示例可以包括显示器、输入设备、传感器等(未示出)。在一个实施例中,计算设备包括显示器。显示器可以包括任何常规的显示设备、监视器或屏幕,包括,例如,有机发光二极管(OLED)显示器、液晶显示器(LCD)等。在一些实现中,显示器可以是能够从触控笔、用户112的一个或多个手指等接收输入的触控式显示器。例如,显示器可以是能够检测和解释与显示表面接触的的多个点的电容式触摸屏显示器。
输入设备(未示出)可以包括用于将信息输入应用服务器122的任何设备。在一些实现中,输入设备可以包括一个或多个外围设备。例如,输入设备可以包括键盘(例如,QWERTY键盘或任何其他语言的键盘)、指点设备(例如,鼠标或触摸板)、麦克风、图像/视频捕捉设备(例如,相机)等。在一个实施例中,计算设备200可以表示客户设备106,并且客户设备106包括用于接收语音输入的麦克风和用于促进文本到语音(TTS)的扬声器。在一些实现中,输入设备可以包括能够从用户112的一个或多个手指接收输入的触摸屏显示器。例如,用户112可以通过使用手指与显示在触摸屏显示器上的模拟(即虚拟或软)键盘交互,来触摸键盘区域中的显示器。
示例客户端语音和连接引擎109
现在参考图3,根据一个实施例图示了示例客户端语音和连接引擎109的框图。在所图示的实施例中,客户端语音和连接引擎109包括自动语音识别(ASR)交互引擎322、客户端上下文持有者324、自然语言理解(NLU)引擎326、工作绕行引擎328和连接引擎330。
自动语音识别(ASR)交互引擎322包括用于与自动语音识别(ASR)引擎111交互的代码和例程。在一个实施例中,ASR交互引擎322是可由处理器202执行的指令的集合。在另一个实施例中,ASR交互引擎322存储在存储器204中,并且可被处理器202访问和执行。在任一实施例中,ASR交互引擎322适于与处理器202、ASR引擎111、和系统100的其他组件合作和通信。
ASR交互引擎322与ASR引擎111交互。在一个实施例中,ASR引擎111是客户设备106的本地。例如,ASR交互引擎322与ASR引擎111进行交互,ASR引擎111是板载ASR应用(如ASR引擎111a)。在一个实施例中,ASR引擎111远离客户设备106。例如,ASR交互引擎322与ASR引擎111进行交互,ASR引擎111是通过网络102可访问和使用的非板载ASR应用(诸如ASR引擎111x)。在一个实施例中,ASR引擎111是包括本地于和远端于客户设备106的部件的混合。例如,当客户设备106具有网络102连接时,ASR交互引擎322与非板载ASR引擎111x交互,以便减少客户设备106的处理负担并提高其电池寿命,并且当网络102连接不可用或不足时,与板载ASR引擎111a交互。
在一个实施例中,ASR交互引擎322通过启动ASR引擎111的语音输入来与ASR引擎111交互。在一个实施例中,ASR交互引擎322可以响应于检测一个或多个事件而启动ASR引擎111的语音输入。在一些实施例中,ASR交互引擎322主动地启动ASR,而不等待用户112开始对话。事件的示例包括,但不限于,唤醒词或短语,定时器的到期,用户输入,内部事件,外部事件等。
在一个实施例中,ASR交互引擎322响应于检测到唤醒字或短语启动ASR引擎111的语音输入。例如,假设语音和连接平台与角色相关联以与用户交互,并且角色被命名为“Sam”;在一个实施例中,ASR交互引擎322检测何时通过客户设备的麦克风接收到“Sam”并启动ASR引擎111的语音输入。在另一个示例中,假设短语“嘿你!”被分配为唤醒短语;在一个实施例中,ASR交互引擎322检测何时通过客户设备的麦克风接收短语“嘿你!”,并启动ASR引擎111的语音输入。
在一个实施例中,ASR交互引擎322响应于检测定时器的到期而启动ASR引擎111的语音输入。例如,系统100可以确定用户在上午7点醒来并在下午6点离开工作;在一个实施例中,设置针对7AM的定时器和针对6PM的定时器,并且ASR交互引擎322在那些时间启动ASR引擎111的语音输入。例如,所以用户当上午7点醒来时可以要求新闻或天气,并可以在下午6点离开工作时请求交通报告或者启动对他/她的配偶的呼叫。
在一个实施例中,ASR交互引擎322响应于检测到用户输入启动ASR引擎111的语音输入。例如,ASR交互引擎322响应于检测手势(例如,触摸屏上的特定滑动或运动)或按钮(物理的或软/虚拟的)选择(例如选择专用按钮或长按多用途按钮)启动ASR引擎111的语音输入。应当认识到,所引用的按钮可以在客户设备106或与客户设备106相关联的组件(例如,基座,托架,蓝牙耳机,智能手表等)上。
在一个实施例中,响应于检测到内部事件,ASR交互引擎322启动ASR引擎111的语音输入。在一个实施例中,内部事件基于客户设备106的传感器(例如,GPS、加速度计、功率传感器、对接传感器、蓝牙天线等)。例如,ASR交互引擎322响应于检测到用户设备106位于用户的汽车中(例如,检测汽车的板载诊断,电源和连接到车内托架/基座等)启动ASR的语音输入并启动ASR引擎111的语音输入(例如,接收用户对导航方向或音乐播放的请求)。在一个实施例中,内部事件基于客户设备106的应用(未示出)。例如,假设客户设备106是具有日历应用的智能电话,并且日历应用包括用户在远端地点的约会;在一个实施例中,ASR响应于检测到约会(例如,接收用户对该约定位置的导航的请求)而启动ASR引擎的语音输入。在一个实施例中,内部事件基于本地文本到语音引擎119a的操作。例如,假设文本到语音引擎119操作以给用户呈现上下文提示(例如,“你现在正在离开工作,你想呼叫你的妻子并导航回家吗?”)或其他提示;在一个实施例中,ASR交互引擎322检测文本到语音提示并启动ASR引擎111的语音输入以接收用户对提示的响应。
在一个实施例中,响应于检测到外部事件(例如来自第三方API或数据库),ASR交互引擎322启动ASR引擎111的语音输入。在一个实施例中,内部事件基于远程文本到语音引擎119x的操作。例如,假设文本到语音引擎119操作以给用户呈现上下文提示(例如,“你现在正在离开工作,你想呼叫你的妻子并导航回家?”或者“你正在接近你的目的地你要我导航到可用的停车场吗?”)或其他提示;在一个实施例中,ASR交互引擎322检测文本到语音提示并启动ASR引擎111的语音输入以接收用户对提示的响应。
在一个实施例中,ASR交互引擎322是不可知的。例如,在一个实施例中,ASR交互引擎322可以使用一个或多个不同的ASR引擎111。ASR引擎111的示例包括但不限于Nuance、Google Voice、Telisma/OnMobile、Creawave、Acapella等。不可知ASR交互引擎322可有利地允许在使用的ASR引擎111中的灵活性和ASR引擎111的语言,并且可以允许所使用的ASR引擎111通过语音和连接系统100的生命周期被改变,如新的ASR引擎111变得可用并且现有的ASR引擎被停止。在一些实施例中,系统100包括多个ASR引擎,并且所使用的ASR引擎111取决于上下文。例如,假设Google Voice比Nuance更好地识别专有名称;在一个实施例中,当确定用户已经访问了电话应用的联系人列表时,ASR交互引擎322可以与Google语音ASR交互。在一些实施例中,系统100可以在任何时间在ASR引擎之间切换(例如,使用第一ASR引擎111处理语音输入的第一部分,并且利用第二ASR 111处理语音输入的第二部分)。类似于ASR引擎111,在一个实施例中,系统100关于所使用的TTS引擎119是不可知的。也类似于ASR引擎111,在一些实施例中,系统100可以包括多个TTS引擎119,并且针对不同的上下文可以选择和使用不同的TTS引擎和/或可以在任何时间在不同的TTS引擎之间切换。例如,在一个实施例中,系统100可以开始阅读英文标题,并且用户可以请求法语,并且系统将转换到英语到法语的TTS引擎。
ASR引擎111接收ASR交互引擎322启动语音输入之后的语音输入。在一个实施例中,响应于启动,ASR引擎111接收语音输入而没有ASR交互引擎322的额外参与。在一个实施例中,在启动语音输入之后,ASR交互引擎322将语音输入传递到ASR引擎111。例如,ASR交互引擎322通信地耦合到ASR引擎111以将语音输入发送到ASR引擎111。在另一个实施例中,在启动语音输入之后,ASR交互引擎322将语音输入存储在存储设备(或任何其他可通信地访问的非瞬态存储介质),并且语音输入可以由ASR引擎111通过访问存储设备(或其他非瞬态存储介质)来检索。
在一些实施例中,系统100主动地提供电子语音助理而不接收诸如语音输入的用户输入。例如,在一个实施例中,系统100可以确定汽车(即,客户设备106处于交通堵塞状态并自动启动TTS并且与用户开始对话(例如,“你要我提供替代路线吗?”))或执行动作(例如,确定诸如停车和乘坐列车的替代路线,并相应地更新导航路线)。
客户端上下文持有者324包括用于上下文同步的代码和例程。在一个实施例中,上下文同步包括从客户端管理上下文工作流的定义、使用和存储,并与服务器端共享上下文工作流。在一个实施例中,客户端上下文持有者324是可由处理器202执行的指令集合。在另一个实施例中,客户端上下文持有者324存储在存储器204中,并且可由处理器202访问和执行。在任一实施例中,客户端上下文持有者324适于与处理器202、客户设备106的其他部件和系统100的其他部件协作和通信。
客户端上下文持有者324管理来自客户端的上下文工作流的定义、使用和存储,并与服务器端共享上下文工作流。在一个实施例中,客户端上下文持有者324使用上下文同步协议与上下文代理420(服务器端上下文持有者)通信,以便同步系统100内的上下文,尽管网络102(其在某些网络上可以是特别有益的,例如,移动数据网络)上具有线程和低容量。
客户端上下文持有者324管理上下文的定义、使用和存储。上下文是由语音和连接引擎提供的个人助理的当前状态。在一个实施例中,上下文包括一个或多个参数。参数的示例包括但不限于上下文历史、对话历史(例如,用户先前的请求和系统先前的响应和动作)、用户简档(例如用户的标识和偏好)、用户历史(例如用户的习惯)、位置(客户设备的106物理位置)、当前上下文域(例如,客户设备106、正被使用的应用、当前呈现给用户的接口)。在一些实施例中,参数可以是变量或序列化对象。
在一个实施例中,上下文是多维上下文,并且可以描述任何维度的变量或特征。在一些实施例中,上下文使用多维矩阵。如本文所述,在一些实施例中,上下文在客户(例如,客户设备106a)和服务器(例如,语音和连接服务器122)之间实时同步。由于平台(客户端和服务器)的两个部分的同步的深度集成与上下文描述任何维度变量或特征的能力的组合,所以上下文可能偶尔被称为“深度上下文”。
根据实施例,系统100使用上下文来提供一个或多个益处,包括但不限于,增加系统100的能力以精确地识别来自语音的单词,确定用户的预期请求并促进用户112和系统100之间更自然的对话。
在一个实施例中,上下文用于更精确地识别来自语音的单词。例如,假设用户已打开电话应用程序;在一个实施例中,可以使用(例如,在预处理期间由NLU引擎326)上下文来限制自然语言理解引擎326使用的字典(例如,与操作电话或进行呼叫相关联的联系人和词的名称)。在一个实施例中,这种字典限制可以有益地消除汽车公司“Renault”,但是留下“Renaud”的名字,使得NLU引擎326可以准确地确定用户想要呼叫Renaud而不是Renault。NLU引擎326甚至可以基于用户进行的先前的电话呼叫来确定用户打算呼叫哪个Renaud(假设多个联系人名为Renaud)。因此,前面的示例还示出一个实施例其中使用上下文更准确地确定用户的预期请求(例如,呼叫Renaud)。因此,上下文还可以最小化从接收用户的请求到准确地执行请求的时间量。
在一个实施例中,上下文用于促进用户和系统100之间的更自然的对话(双向通信)。例如,可以使用上下文来促进用户请求关于Yahoo!的新闻的对话;系统开始阅读有关Yahoo!的文章的标题。用户问“谁是CEO?”,系统100理解用户的预期请求是针对Yahoo!的首席执行官,并搜索并提供该名称。然后用户要求今天的天气;系统100理解该请求与天气应用程序相关联,并且用户的预期请求是用户的物理位置的天气,确定应该使用天气应用程序并且对天气应用进行API调用以获得天气。用户然后说“以及明天”;系统100理解用户的预期请求是针对明天用户现在位置的天气。然后用户询问“股票交易在什么?”;系统100理解用户的预期请求是针对Yahoo!股票的当前交易价格,并执行网络搜索以获得该信息。为了总结和简化,在一些实施例中,上下文可以跟踪主题,在应用之间切换并跟踪各种应用的工作流程中的状态,以通过支持这样的上下文跳跃来使得用户112和系统100之间能够更“自然”对话。
在一些实施例中,机器学习应用于上下文。例如,为了学习下一步骤或命令的概率,基于从许多用户积累的数据,以及用户一般如何与系统100交互,或者对于特定用户,基于该用户的数据以及该用户与系统100的如何交互。
在一个实施例中,客户端上下文持有者324将用户的当前上下文与图4的上下文代理420同步。将上下文与服务器端语音和连接引擎124同步允许客户端语音和连接引擎109可选地使服务器端引擎124来管理对话并执行各种操作或者基于例如与服务器122的连接在客户设备106处执行功能。
在一个实施例中,客户端持有者324和上下文代理420(即,服务器端持有者)使用提供通信协议的上下文同步协议进行通信,并且验证正在被同步的上下文信息被传递。在一个实施例中,上下文同步协议标准化当前上下文的状态或子状态的每个属性(例如变量或参数)的密钥访问(例如,上下文ID)。
现在参考图8,根据一个实施例示出了提供关于客户端和服务器端之间的上下文同步的进一步细节的示意图800。在所图示的实施例中,客户设备的客户端上下文持有者324维护客户设备106的一个或多个上下文810a/812a/814a。在一个实施例中,每个上下文810a/812a/814a与模块相关联。在一个实施例中,客户端上下文持有者324维护上下文,其包括通过应用的功能和每个屏幕上可用的功能来包括的用户流程的屏幕(屏幕1到N)。例如,在所图示的实施例中,向用户呈现了屏幕1 820a,其提供功能的集合,并且用户选择了功能(从屏幕1的F1-Fn)。然后显示用户屏幕2,用户选择了一个功能(从屏幕2的F1-Fn)。然后显示用户屏幕3,用户选择了一个功能(从屏幕3的F1-Fn)等等。例如,在一个实施例中,假设模块1 810a是用于电话应用的模块,模块2 812a是用于媒体应用的模块;在一个实施例中,模块1 810a的屏幕820a,822a,824a和826a可以表示用户与系统的对话,以导航工作绕行(下面讨论),以便选择联系人并打电话,并且模块2 812a的屏幕可以表示导航要播放的流派、艺术家、专辑和曲目的用户的流程。
主屏幕830a重置各个模块810a,812a,814a的上下文。例如,假设模块1 810与新闻应用相关联;在一个实施例中,用户被定向到主屏幕830a(例如,通过诸如超时时段的机制自动地或基于用户的请求)。在一个实施例中,当用户被定向到主屏幕830a时,触发模块810a,812a,814a中的一个或多个中的上下文信息的重置。
在一个实施例中,上下文同步协议804,其也在下文参照图4被描述,提供协议用于将上下文从客户端上下文持有者324传送到也被称为服务器端上下文持有者或类似上下文代理422。在一些实施例中,上下文同步协议提供高度的压缩。在一些实施例中,上下文同步协议提供用于验证上下文成功在客户和服务器端之间同步的机制,使得上下文代理422的信息806与客户端上下文持有者324的802相同。
在一个实施例中,上下文引擎424从上下文代理422收集上下文。在一个实施例中,上下文引擎424为用户管理上下文信息808。例如,上下文代理424维护针对应用随时间的上下文信息(例如长期和中期上下文)以及应用中针对每个用户会话的各种上下文信息。这样的信息对于机器学习可能是有用的(例如,基于当前上下文(诸如所请求的呼叫Victoria)和过去的上下文(诸如针对Victoria最后一个请求是针对Victoria P.)来预测用户的意图)。
在一个实施例中,客户端上下文持有者324将上下文传递到系统100的一个或多个部件,包括例如自然语言理解(NLU)引擎326和/或上下文代理422。在一个实施例中,客户端上下文持有者324将上下文存储在存储设备241(或任何其他可通信访问的非瞬态存储介质)中。系统100的其他组件包括,例如自然语言理解引擎326和/或上下文代理422,可以通过访问存储设备241(或其他非瞬态存储介质)来检索上下文。
自然语言理解(NLU)引擎326包括用于接收ASR引擎111的输出以及基于ASR引擎111的输出来确定用户的预期请求的代码和例程。在一个实施例中,NLU引擎326是可由处理器202执行的指令集合。在另一个实施例中,NLU引擎326存储在存储器204中,并且可由处理器202访问和执行。在任一实施例中,NLU引擎326适于与处理器202、ASR引擎111和系统100的其他部件合作和通信。
在一个实施例中,NLU引擎326预处理ASR引擎111输出以校正语音识别中的错误。为了清楚和方便,ASR引擎111的输出有时被称为“经识别的语音”。在一个实施例中,NLU引擎326预处理经识别的语音以校正所识别的语音中的任何错误。在一个实施例中,NLU引擎326从ASR引擎111接收经识别的语音以及可选的相关联的置信置信度,并从客户端上下文持有者324接收上下文,并且校正经识别的语音中的任何错误识别的术语。例如,假设用户说法语,语音输入是“donne-moi l'information technologique”(即“给我信息技术”);然而,ASR引擎111输出“Benoit la formation technologique”(即“Benoit技术训练”)作为识别的语音。在一个实施例中,NLU引擎326基于上下文执行预处理以将“Benoit”校正为“donne-moi”和将“formation”校正为“information”,从而提高NLU引擎326随后确定的用户意图的准确性。
NLU引擎326基于来自ASR引擎111的经识别的语音确定用户的意图,其可以在一些实施例中可选地被预处理。在一个实施例中,NLU引擎326将用户的意图确定为元组。在一个实施例中,元组包括动作(例如,要执行的功能)和动作者(例如执行该功能的模块)。然而,在一些实施例中,元组可以包括附加的或不同的信息。例如,假设NLU引擎326在一个实施例中接收经识别的语音“呼叫Greg”,则NLU引擎326确定元组包括动作(即打电话),动作者(即电话模块)和实体,也有时被称为“项目”(即Greg作为接受者/呼叫目标)。
在一个实施例中,NLU引擎326检测关键字或快捷方式中的一个或多个。关键字是给出直接访问模块的单词。例如,当用户说“电话”时,电话模块被访问并且电话应用被启动(或被带到前台)。快捷方式是短语(例如发送消息)。关键字和快捷方式的示例可以在图7的表710中找到。在一些实施例中,系统100基于机器学习创建一个或多个快捷方式,其可以被称为意图学习。例如,在一个实施例中,系统100学习到,“发送Louis消息”应当被NLU引擎326解释为用户112请求以命令和发送电子邮件(而不是例如SMS文本消息)以联系LouisMonier,并直接进入界面以接收命令电子邮件的声音输入,并将“发送Louis信息”建为快捷方式。
在一个实施例中,NLU引擎326的自然语言理解功能是模块化的,并且系统100对于执行自然语言理解的模块是不可知的。在一些实施例中,模块化允许NLU引擎326的NLU模块频繁地被更新以连续地提高准确的理解,或替换自然语言理解模块,当新的更准确的自然语言理解系统变得可用时。
当NLU引擎326不能确定用户的预期请求(例如,请求是模糊的,没有意义,或者所请求的动作和/或动作不可用或不兼容,元组中缺少值等),NLU引擎326启动工作绕行。例如,当用户的请求是不完整的(例如,元组不完整)时,NLU引擎326请求工作绕行引擎328(下面讨论)提示用户附加信息。例如,在一个实施例中当用户请求“什么在电视上?”时,NLU引擎326确定一个频道和一个时间是缺失的并且启动一个工作绕行。
在一个实施例中,NLU引擎326将元组传递到连接引擎330。例如,NLU引擎326通信地耦合到连接引擎330以将元组发送到连接引擎330。在另一实施例中,NLU引擎326将该元组存储在存储设备241(或任何其他非瞬态通信可访问的存储介质)中,并且连接引擎330可以通过访问存储设备241(或其他非瞬态存储介质)来检索。
在一个实施例中,NLU引擎326将针对附加信息的请求传递给工作绕行引擎328。例如,NLU引擎326通信地被耦合到工作绕行引擎328,以向工作绕行引擎328发送针对附加信息的请求。在另一个实施例中,NLU引擎326将针对附加信息的请求存储在存储设备241(或通信地可访问的任何其他非瞬态存储介质)中,并且工作绕行引擎328通过访问存储装置241(或其他非暂时性存储介质)来检索针对附加信息的请求。
工作绕行引擎328包括用于生成针对来自用户的附加信息的请求的代码和例程,从而NLU引擎326能够确定用户的预期请求。在一个实施例中,工作绕行引擎328是可由处理器202执行的指令集合。在另一个实施例中,工作绕行引擎328被存储在存储器204中,并且可由处理器202访问和执行。在任一实施例中,工作绕行引擎328适用于与处理器202、服务器端连接引擎124的其他组件和系统100的其他组件的协作和通信。
工作绕行引擎328生成针对附加信息的请求,从而可以理解和执行用户的预期请求。在一个实施例中,工作绕行引擎328生成一个或多个针对附加信息请求,从而与用户建立对话以获得附加信息。例如,工作绕行引擎328的工作生成针对附加信息的请求,并且经由客户设备将该用于呈现的请求发送给用户112(例如,将该请求发送到文本到语音引擎111,文本到语音引擎111将该请求呈现给用户作为音频输出和/或显示在客户设备的显示器上)。接收用户的响应(例如,作为由ASR引擎111接收的音频输入或通过诸如键盘或触摸屏的另一用户输入设备)。NLU引擎326确定用户的预期请求。当NLU引擎326仍然不能确定用户的预期请求时,工作绕行引擎328生成另一请求,并重复该过程。
针对附加信息的请求的类型的示例可以包括,但不限于以下各项中的一个或多个:针对所提出的信息是否正确的请求针对用户对整个原始请求重复的请求、针对用户澄清原始请求的一部分的请求、针对用户从选项列表中进行选择的请求等。为了清楚和方便,在以下场景的上下文中讨论工作绕行引擎328的操作可能是有益的。假设用户请求“导航到1234Fake Street,Any Town,California”。然而,由于任何原因(例如由于背景噪声,用户口音,语音识别中的错误),NLU引擎326理解为“导航”和“California”,所以NLU引擎326不了解用户的预期请求。
在一些实施例中,工作绕行引擎328产生关于所提供的信息是否正确的请求。在一些实施例中,系统100基于机器学习提出附加信息。例如,假设系统学习到每个星期三用户驱车到1234Fake Street,Any Town,CA;在一个实施例中,工作绕行引擎328提出了附加信息“你说California。你想去1234Fake St.,Any Town吗?”。在一个实施例中,如果用户说”是“,则该元组完成,并且执行到完整地址的导航,并且如果用户回答“否”,工作绕行引擎328产生另一请求(例如,请求用户从选项列表中选择或拼出目的地)。
在一些实施例中,工作绕行引擎328产生请求要用户重复完整原始请求。例如,工作绕行引擎328生成请求“我很抱歉。我不明白。你可以重复吗?”,并且经由用户设备106向用户呈现(视觉上,听觉上或两者)请求,并且用户可以重复“导航到1234Fake St.,AnyTown,California”。在一个实施例中,工作绕行引擎328不产生请求要用户重复原始请求,并且使用其他类型的请求之一。在一个实施例中,工作绕行引擎328基于预定阈值(例如,0或1)限制了它生成要用户重复完整原始请求的请求的次数。在一个这样的实施例中,响应于满足阈值,工作绕行引擎328使用针对附加信息的不同类型的请求(例如提示用户从选项列表中进行选择)。
在一些实施例中,工作绕行引擎328生成用户部分地重复原始请求或者提供从原始请求缺失的信息的请求。例如,假设工作绕行引擎328确定“导航”和“California”被理解,并确定街道地址和城市缺失,并生成请求“我很抱歉。California的城市和街道地址是什么?”,以便用户能提供缺失的信息(这是原始请求的一部分)。通过用户设备106向用户呈现(视觉上,听觉上或两者)请求,并且用户可以陈述“1234Fake Street,Any Town”。在一个实施例中,工作绕行引擎328基于预定阈值(例如,0,1或2)限制它将产生要用户重复原始请求的相同部分的请求的次数。在一个这样的实施例中,响应于满足阈值,工作绕行引擎328使用针对附加信息的不同类型的请求(例如提示用户从选项列表中进行选择)。
在一些实施例中,工作绕行引擎328生成用户从选项列表中进行选择的请求,偶尔被称为“默认列表”。例如,假设工作绕行引擎328确定“导航”和“California”被理解并确定街道地址和城市缺失,并生成请求“你的目的地城市以什么字母开始”,并生成一个选项列表,如“A-E为1,F-J为2,...等”。通过用户设备106向用户呈现(视觉上,听觉上或两者)请求,并且用户可以陈述或选择“1”,或者可以通过陈述选项“A到E”的内容进行选择。由于NLU引擎326仍然无法确定用户的来自“导航”的预期请求,以及以“a”和“e”之间的字母开头的Califonia城市,工作绕行引擎328生成另一个选项列表,例如“A为1,B为2,...等”。通过用户设备106向用户呈现(视觉上,听觉上或两者)请求,并且用户可以陈述或选择“1”或者可以通过选项“A”的内容进行选择。工作绕行引擎328可以继续过滤选择并生成具有过滤选项列表的请求,直到“Any Town”被标识为城市,“Fake Street”被标识为街道,“1234”被标识为街道号码。
根据实施例,选项可以在客户设备的显示器上可视地列出,经由客户设备106使用文本到语音或两者读取到用户112。在一个实施例中,列表选项一次以组(例如,以3-5为一组)呈现。例如,八个选项的列表可以在两组中呈现作为四个选项的第一组,用户可以通过陈述“下一个”来请求下一组,并且呈现第二组四个选项。限制一次呈现的选项的数量可能会降低用户被淹没的可能性,并可能提高可用性。为了导航分为多个组的选项列表,在一个实施例中,用户可以使用诸如“开始”的命令去到列表的第一组,“结束”去到列表的末尾,“下一个”去列表中的下一个组,“上一个”转到列表中的上一个组或“到___”(例如“到字母V”)以通过字母导航或过滤。
在一些实施例中,由工作绕行引擎328请求产生的对话可以以任何顺序在请求类型之间转换。例如,在一个实施例中,工作绕行引擎328在用户选择选项时,工作绕行引擎可以提示用户附加信息而没有选项列表。例如,在使用如上所述的选项列表接收/确定“AnyTown”是城市时,工作绕行引擎328生成请求“位于CA的Any Town的街道的名称是什么”,用户可以口头回应“Fake Street”。如果响应“Fake Street”是不可理解的,在一个实施例中,工作绕行引擎328可以请求用户重复或可以请求用户从工作绕行引擎328产生的选项列表中进行选择。
在一些实施例中,生成由工作绕行引擎328产生的请求,以便最小化或消除用户以负面(例如,说“否”)的响应的需要。例如,工作绕行引擎328生成城市第一个字母的选项列表,并请求用户选择适当的选项,而不是沿着“California城市以字母A开始”的方式发送请求。在上述示例的情况下这将是“是”,但是这样的请求可能导致在其他实例中不产生结果。
应当认识到,上述“导航到1234Fake St....”用例的示例和许多其他用例存在。例如,假设用户请求“呼叫Greg”,并且用户在地址簿中具有名为Greg的多个联系人(例如,Greg R.,Greg S.,Greg T.);在一个实施例中,工作绕行引擎328发送具有选项列表的请求“你想要呼叫哪个Greg?Greg R.是1。Greg S.是2。Greg T.是3。”,并且用户可以说出与期望的Greg相关联的数字。
此外,尽管在上述示例中,原始请求的一部分可以由NLU引擎326理解动作者(即,分别是导航应用和电话应用)和实体的一部分(即,分别为California和Greg),但是当原始请求以整体的形式不能被NLU引擎326理解时或者当元组的其他部分缺失时,工作绕行引擎328可以进行操作。例如,工作绕行引擎328可以进行一个或多个请求以获得期望的动作者(例如,用户想要使用的应用)、期望的动作(例如应用的功能或特征)、期望的实体(例如,动作的目标、动作的收件人、动作的输入等)。在一个实施例中,工作绕行引擎328在NLU引擎326的请求下或者直到NLU引擎326具有表示用户的预期请求的完整元组来产生请求。在另一个示例中,假设NLU引擎326理解该消息,但不理解动作者(例如,采用位于统一消息客户端-电子邮件、SMS、Facebook等中的哪个服务)和实体(例如,接收者);在一个实施例中,工作绕行引擎328请求这个附加信息。
应当认识到,上文参考工作绕行引擎328讨论的特征和功能可以有益地提供自动故障排除机制,通过该自动故障排除机制可以确定和最终执行用户的预期请求,而无需用户输出请求的部分(例如,用户可以通过触摸屏或其他输入来说出和/或进行简单的选择),这在一些受限的操作环境(例如,在驾驶时)可能是危险的或非法的,并且从而增加用户112和用户112周围的那些的安全性。应该进一步认识到,上面参照工作绕行引擎328讨论的特征和功能可以有利地导致更多的用户满意度,因为系统100不太可能“放弃”或将用户推送到默认,如网页搜索。
在一个实施例中,工作绕行引擎328将针对附加信息的请求传递给文本到语音引擎119和图形引擎中的一个或多个,用于在客户设备的显示器(未示出)上显示内容。在另一个实施例中,工作绕行引擎328将针对附加信息的请求存储在存储设备241(或任何其他通信可访问的非瞬态存储介质)中。包括例如文本到语音引擎119和/或图形引擎(未示出)的系统100的其他部件可以通过访问存储介质241(或其他非暂时性存储介质)检索针对附加信息的请求,并经由客户设备106发送它以呈现给用户112。
连接引擎330包括用于处理用户预期请求的代码和例程。在一个实施例中,连接引擎330是可由处理器202执行的指令集合。在另一个实施例中,连接引擎330存储在存储器204中,并且可由处理器202访问和执行。在任一实施例中,连接引擎330适于与处理器202、客户设备106的其他组件和系统100的其他组件进行协作和通信。
在一个实施例中,连接引擎330包括模块库(未示出)。模块可以包括展现应用的功能的代码和例程的集合。例如,电话模块展现电话应用的功能(例如,打电话、接收呼叫、检索语音邮件、访问联系人列表等)。在一个实施例中,模块展现应用(例如,电话应用)的功能,使得用户可以通过另一客户设备106(例如,汽车)在客户设备(例如,电话)上访问这样的功能。在一些实施例中,某些特征和功能可能要求特定设备或设备类型的存在。例如,在一些实施例中,电话或SMS文本功能通过汽车可能不可用,除非汽车与电话通信地耦合。模块库和模块的模块化性质可以有助于易于更新当应用程序被更新时或者当使语音和连接引擎与新应用程序接口变得理想。
在一些实施例中,当需要很长时间才能完成的功能(例如,生成长报告)时,代理/助理将在功能完成时通知用户(例如TTS、电子邮件、SMS文本等)。在一个这样的实施例中,系统100确定最快的方式来联系上,例如,系统确定用户登录到Facebook并向用户发送Facebook消息说明功能完成。
在一个实施例中,系统100的语音助理包括用于与一个或多个其他语音助理(例如,Apple's Siri、Microsoft's Cortana、Google's Google Now等)进行交互的一个或多个模块。例如,在一个实施例中,响应于用户提供包括快捷方式或关键字(例如“针对X搜索Google Now”或“问Siri Y”)的语音输入,连接模块330选择模块330用于分别连接到GoogleNow或者与Siri交互,并将查询转发给该语音助理。在一个实施例中,语音和连接引擎109/124可以监视用于触发系统100的个人助理的唤醒字的语音输入,以恢复对用户体验流的控制(例如,恢复对话或提供功能和帮助)。这样的实施例有利地允许操作系统100的实体为其客户提供对其他语音助理及其特征的访问。例如,汽车制造商可以有利地允许客户访问该客户的移动电话的语音助理(例如当客户使用iPhone时的Siri)或者用另一个语音助理补充客户的语音助理选项(例如,提供对Google Now和/或Cortana的访问当客户使用iPhone时)。
连接引擎330处理用户的预期请求。在一个实施例中,连接引擎330从NLU引擎326接收元组,基于元组中的动作者(电话)确定模块(例如,电话模块),并提供元组的动作(例如调用)和实体/项(例如Greg)到该确定的模块,并且该模块使得该动作者应用程序使用该实体/项目(例如,使得该电话应用程序呼叫Greg)执行该动作。
示例服务器端语音和连接引擎124
现在参考图4,根据一个实施例更详细地示出服务器端语音和连接引擎124。在所图示的实施例中,服务器端语音和连接引擎124包括上下文代理422,上下文引擎424和联合引擎426。将认识到,包括在服务器端语音和连接引擎124的部件422、424、426不必都在相同的语音和连接服务器122上。在一个实施例中,模块422、424、426和/或其功能被分布在多个语音和连接服务器122上。
上下文代理422包括用于同步客户设备106和语音和连接服务器122之间的上下文并维持同步的代码和例程。在一个实施例中,上下文代理422是可由处理器202执行的指令集合。在另一个实施例中,上下文代理422存储在存储器204中,并且可由处理器202访问和执行。在任一实施例中,上下文代理422适于与处理器202、语音和连接服务器122的其他部件(例如经由总线206)、系统100的其他部件(例如,经由通信单元208的客户设备106)以及服务器端语音和连接引擎124的其他部件的协作和通信。
如上文参考客户端上下文持有者324所讨论的,上下文代理422作为服务器端上下文持有者操作,并与客户端上下文持有者324同步。在一个实施例中,如果客户端和服务器端的上下文不相同,客户端取代。客户端取代服务器端可能是有益的,因为客户端更直接地与用户112进行交互,因此更可能具有更准确的实时数据(例如位置、亮度、本地时间、温度、速度等)用于定义上下文,因为,例如,相关联的传感器位于客户设备106和网络102可靠性可能会影响服务器端维护准确和最新上下文的能力。
在一个实施例中,上下文代理422将当前上下文传递给上下文引擎424。例如,上下文代理通信地耦合到上下文引擎424以发送当前上下文。在一个实施例中,上下文代理422将当前上下文存储在存储设备241(或通信可访问的任何其他非瞬态存储介质)中,并且上下文引擎424可以通过访问存储设备241(或其他非瞬态存储介质)检索当前下下文。
上下文引擎424包括用于生成和维护一个或多个上下文的代码和例程。在一个实施例中,上下文引擎424是可由处理器202执行的指令集合。在另一个实施例中,上下文引擎424被存储在存储器204中,并且可由处理器202访问和执行。在任一实施例中,上下文引擎424适于与处理器202、服务器端语音和连接平台124的其他组件以及系统的其他部件进行协作和通信。
在一个实施例中,上下文引擎424归档当前上下文以便创建上下文的历史。这样的实施例可以与机器学习结合使用以识别模式或习惯,预测工作流程中的下一步骤等,以通知对NLU引擎326的理解或主动启动对话。例如,假设用户x是来自用户类型X的组的封闭简档;在一个实施例中,上下文引擎424检测x与组中的所有其他人之间的差异以捕获特定行为、习惯、查询等并为用户创造主动性。例如,假设用户要求剧院,并且上下文引擎424检测到相同组中的其他用户喜欢特定的日本餐馆;在一个实施例中,系统100主动地建议用户在特征之后在该日本餐馆预订,因为系统100在用户的日程表中检测到他在电影之前没有时间。在一些实施例中,系统100可以从餐厅菜单访问API(一些网站提供这种API)。系统100可以理解菜单或每日特色与用户的偏好相适应,并且在代理的答案中直接阅读菜单或每日特色地捕捉用户的注意。
联合引擎426包括用于管理用户帐户和客户设备106中的一个或多个的代码和例程。在一个实施例中,联合引擎426是可由处理器202执行的指令集合。在另一实施例中,联合引擎426被存储在存储器204中并且可由处理器202访问和执行。在任一实施例中,联合引擎426适于与处理器202、应用服务器122的其他部件和开发应用124的其它部件进行协作和通信。
在一个实施例中,联合引擎426管理统一的标识。统一标识可以包括但不限于用户的帐户(例如Facebook、Google+、Twitter等)中的一个或多个、用户的客户设备106(例如平板电脑、移动电话、电视、汽车等)、以前的语音输入和对话等,以便基于用户的社交网络和/或习惯来增强用户体验。统一标识提供关于用户的汇总信息,其可以增强系统100的特征和功能。例如,假设用户112提供输入“我需要汽油”。在一个实施例中,访问统一标识的汇总数据可以允许系统100理解用户的预期请求是针对到加油站的指示,并且加油站应当在用户去最喜欢的酒吧的路上(例如,到用户忠诚的加油站的品牌,其具有最低的天然气价格,即沿着去酒吧的方向行驶,即使在用户后方有更靠近的加油站,或者更靠近但是不在系统100确定用户正在前进的路上,因为它是在星期五下午6点之后,并且汇总数据表明用户在周五工作后前往最喜欢的酒吧)。在另一示例中,系统100可以使用汇总数据来选择并将用户引导到特定餐馆(例如,基于汇总数据,例如使用诸如开放表格的服务做的之前的预约、在yelp上用户的餐厅评价和先前的语音查询以及用户112和系统100之间关于食物的对话)。
联合引擎426管理用户的设备以协调用户从一个客户设备106到另一个的转换。例如,假设用户112经由用户的平板电脑(即,客户设备106)已经请求了今天的标题,并且系统100开始向用户112读取头条新闻。还假定用户112然后意识到他/她将工作迟到,并请求停止头条新闻的阅读。在一个实施例中,联合引擎426管理用户从平板电脑到用户的汽车(即,另一个客户设备106)的转换,使得用户112一旦在汽车中可以请求系统100继续并且系统100将继续从平板电脑上离开的位置处读取头条新闻。联合引擎426还可以在用户到达工作时提出和管理向用户到移动电话(即,另一个客户设备106)的转换。这样的实施例有利地提供从一个客户设备106到另一个的服务连续性或“连续服务”。在另一示例中,用户可以在沙发上经平板电脑计划公路旅行,并将路线映射到汽车的导航系统中。在一个实施例中,系统100可以识别用户具有在工作之前检查头条新闻并在去工作途中汽车内继续的习惯,并且当是离开工作的时间时(可能基于实时交通状况数据)可以在平板电脑上提示用户,并询问用户是否希望汽车中恢复头条新闻。
在一个实施例中,联合引擎426将上下文从一个客户设备106传递到另一个,以便管理向接收设备的转换。例如,联合引擎426通信地耦合到接收方设备的客户端上下文持有者324。在另一个实施例中,联合引擎426将当前上下文存储在服务器122的存储设备241(或通信可访问的任何其他非瞬态存储介质)中,并且接收方设备106的客户端上下文持有者324可以通过访问存储设备241(或其他非瞬态存储介质)来检索当前上下文。
示例方法
图5,图6和图7描绘了由上述参考图1-4描述的系统执行的各种方法500、508、700。
参考图5,示出了根据一个实施例的用于接收和处理使用语音和连接平台的请求的示例方法500。在框502处,NLU引擎326接收经识别的语音。在框504处,NLU引擎326接收上下文。在框506处,NLU引擎326可选地基于在框504处接收到的上下文预处理经识别的语音。在框508处,NLU引擎326确定用户的预期的请求。在框510处,连接引擎处理预期的请求,并且方法500结束。
参考图6,示出了根据一个实施例的用于确定用户的预期请求的示例方法508。在框602处,NLU引擎326基于用户的请求和上下文生成元组。在框604处,NLU引擎326确定是否需要附加信息来完成元组。当NLU引擎326确定不需要附加信息来完成元组(604-No)时,方法508结束。当NLU引擎326确定需要附加信息来完成元组(604-Yes)时,方法508在框606处继续。
在框606处,工作绕行引擎328确定需要什么附加信息以完成元组,并且在框608处,针对用户生成提示以提供所需的附加信息。在框610处,NLU引擎326基于对在框610处生成的提示的用户的响应来修改元组,并且该方法在框604继续,并且重复框604、606、608和610,直到NLU引擎326确定不需要附加信息来完成元组(604-No),方法508结束。
参考图7,示出了根据另一实施例的用于接收和处理使用语音和连接平台的请求的示例方法700。
在上述描述中,为了解释的目的,阐述了许多具体细节,以便提供对本公开的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实施本文描述的技术。此外,以框图形式示出了各种系统、设备和结构,以避免模糊描述。例如,各种实现被描述为具有特定的硬件、软件和用户界面。然而,本公开适用于可以接收数据和命令的任何类型的计算设备以及提供服务的任何外围设备。
在说明书中对“一个实施例”或“一实施例”的的参考是指在至少一个实施例中包括与实施例相关的描述的特定特征、结构或特性。在说明书中的各个地方的短语“在一个实施例中”的出现不必都指代相同的实施例。
在一些实例中,各种实现可以在本文中呈现依据计算机存储器内的数据位的操作的算法和符号表示。算法在这里,并且通常被认为是导致期望结果的前后一致的操作集合。这些操作是需要物理量的物理操作。通常,虽然不必须,这些数量采取能够被存储、传送、组合、比较和以其他方式操作的电或磁信号的形式。有时,主要是出于普遍使用的原因,将这些信号称为位、值、元件、符号、字符、术语、数字等。
然而,应当记住,所有这些和类似的术语都应该与适当的物理量相关联,并且仅仅是适用于这些量的方便的标签。除非另有明确说明,否则从以下讨论中显而易见,可以理解,贯穿本公开,使用包括“处理”、“计算”、“运算”、“确定”、“显示”等的术语的讨论是指计算机系统或类似的电子计算设备的动作和过程,其将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据变换成类似地表示为计算机系统的存储器或寄存器或其他这样的信息存储、传输或显示设备内物理量的数据。
本文描述的各种实现可以涉及用于执行本文的操作的装置。该装置可以为所需目的而被特别地构造,或者它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以被存储在计算机可读存储介质中,包括但不限于任何类型的盘,包括软盘、光盘、CD ROM和磁盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM,EEPROM、磁或光卡、包括具有非易失性存储器的USB密钥的闪存或适于存储电子指令的任何类型的介质,每个耦合到计算机系统总线。
本文描述的技术可以采取完全硬件实现、完全软件实现或包含硬件和软件元件的实现的形式。例如,该技术可以在软件中实现,其包括但不限于固件、常驻软件、微代码等。
此外,该技术可以采用可从计算机可用或计算机可读介质可访问的计算机程序产品的形式,计算机可用或计算机可读介质提供由计算机或任何指令执行系统使用或与计算机或任何指令执行系统关联的程序代码。为了本说明书的目的,计算机可用或计算机可读介质可以是任何非瞬态存储装置,其可以包含、存储、通信、传播或传送以由指令执行系统、装置、或设备使用的或与指令执行系统、装置、或设备关联的程序。
适于存储和/或执行程序代码的数据处理系统可以包括至少一个通过系统总线直接或间接耦合到存储器元件的处理器。存储器元件可以包括在实际执行程序代码期间使用的本地存储器、批量存储器和高速缓存存储器,其提供至少一些程序代码的临时存储,以便减少在执行期间必须从批量存储器检索代码的次数。输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等)可以直接或通过中间I/O控制器耦合到系统。
网络适配器还可以耦合到系统以使得数据处理系统能够通过中间的私有和/或公共网络耦合到其他数据处理系统、存储设备、远程打印机等。无线(例如,Wi-FiTM)收发器、以太网适配器和调制解调器仅仅是网络适配器的几个示例。私有和公共网络可以具有任何数量的配置和/或拓扑。可以经由使用各种不同通信协议(包括例如各种因特网层、传输层或应用层协议)的网络在这些设备之间传输数据。例如,可以使用传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、传输控制协议(TCP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、基于HTTP的动态自适应流(DASH)、实时流协议(RTSP)、实时传输协议(RTP)和实时传输控制协议(RTCP)、互联网语音协议(VOIP)、文件传输协议(FTP)、WebSocket(WS)、无线接入协议(WAP)、各种消息协议(SMS、MMS、XMS、IMAP、SMTP、POP、WebDAV等)或其他已知协议经由网络传输数据。
最后,本文呈现的结构、算法和/或接口并不固有地与任何特定的计算机或其它装置相关。各种通用系统可以根据本文的教导与程序一起使用,或者可以证明构造更专用的装置来执行所需的方法块是方便的。各种这些系统所需的结构将从上面的描述中出现。另外,不参照任何特定的编程语言描述该规范。应当理解,可以使用各种编程语言来实现本文所描述的说明书的教导。
为了说明和描述的目的,呈现了前述描述。它不旨在穷举或将说明书限制为所公开的精确形式。根据上述教导,许多修改和变化是可能的。它旨在本公开的范围不通过详细的描述而被限制,而是由本申请的权利要求限制。应当理解,在不脱离其精神或基本特征的情况下,本说明书可以以其他具体形式实施。类似地,模块、例程、特征、属性、方法和其他方面的特定命名和划分不是强制性的或重要的,并且实现说明书或其特征的机制可以具有不同的名称、划分和/或格式。
此外,本公开的引擎、模块、例程、特征、属性、方法和其他方面可以被实现为软件、硬件、固件或前述的任何组合。而且,无论在什么情况下说明书的部件(其是模块的示例)被实现为软件,部件可以被实现为独立程序、更大程序的一部分、多个单独的程序、静态或动态链接库、内核可加载模块、设备驱动程序、和/或以现在或将来已知的任何其他方式。此外,本公开绝不限于以任何特定编程语言或针对任何特定操作系统或环境的实现。因此,本公开旨在说明而不是限制在所附权利要求中阐述的主题的范围。
附录A:汽车个人助理和GoPad
GoPad项目摘要
GoPad是一款配套产品,可通过提供更安全和更方便的车载Android设备体验来生成Android设备和车载用户行为数据。GoPad将更紧密地将选择的Android设备集成到车辆中。但是,GoPad不限于与Android设备集成,并且可以与其他设备(例如iOS,Windows,Fire等)集成
GoPad设备是一个硬件托架,将经由夹子机构被固定在挡风玻璃附近的用户车辆的仪表板载。它将提供以下特征:
·OBD2读卡器硬件设备,用于捕获并传输车辆信息给系统用于分析和向用户呈现
·托架中的蓝牙无线电和双麦克风,在缺乏内置蓝牙连接的车辆中提供免提能力
·免提手机使用,包括语音拨号和控制,其中音频通过AUX-in连接到车载立体声系统
·免提导航,包括语音启动和语音控制,其中音频通过AUX-in连接到车载立体声系统
·通过AUX立体声连接将音频输出到汽车立体声的媒体播放
·通过USB(车载辅助电源端口)为Android设备供电以用于充电和使用
·通过语音和已连接平台为所有语音控制功能提供智能代理辅助
·云连接的Web服务,用于智能代理、用户数据捕获和通过语音和连接平台传送内容
·在Android设备上驱动效率和反馈功能,增强用户的驾驶体验
·在托架上一组优化的物理控制设置,以进一步实现Android设备的无视线使用
·一个简单的应用程序启动器机制,使得驱动程序能够轻松且安全地启动他们想要使用的应用程序
·简单的物理/代理控制API,允许第三方软件利用托架的物理按钮
·免提接收短信阅读
·免提Facebook活动阅读
托架硬件
托架设计
机械设计
托架将被分为两部分:1)底座托架单元,2)特定于设备的适配器。所有主要功能将进入基座托架单元,其中适配器仅提供Android特定于设备的物理和电气配合功能。
托架的物理形状因子应适合设备+适配器(安全),指定的物理控制和托架母板,同时减小尺寸和体积。设备不能向后或倒置插入。
托架电子设备的冷却应被动地利用从用户的视野隐藏的通风口以达最大程度的可能,或并入设计中。
工业设计
托架的整体设计应利用尽可能少的直观观察/互动,帮助用户完成动作。按钮应具有触觉差异,适当时应使用听觉/触觉提示等。
托架工业设计是TBD,但是为了公开示范的目的,需要非常高的配合和完成水平。托架感觉像到奢侈品级的实际商品。托架在最好的商品奥迪或梅赛德斯车内部并没有感觉到不相称,并且在材料质量和演出方面与这些内饰相匹配。
涂层材料探索应包括油漆、加工金属、加工塑料、橡胶涂料等。
物理控制
按纽
托架将包括一些物理控制(按钮),以帮助无眼睛的使用。
需要以下按钮:
·代理按钮:激活语音控制,激活应用启动器等
·前进按钮:下一个媒体轨道,电话呼叫结束/拒绝
·返回按钮:以前的媒体轨道,电话呼叫应答
·播放/暂停按钮:播放或暂停媒体播放,电话呼叫静音
按钮可以基于它们如何被允许多重重载操作(单按,双按,长按等)。
灯光
需要用于在低光环境中使用的物理控制的背光/高亮显示。照明/图列应该表现如下:
·前进/通话结束按钮:应使用默认照明,除非电话活跃。当呼叫处于活动状态时,呼叫结束图例将照亮,直到通话结束。
·返回/通话应答:应使用默认照明,除非电话正在接入。
·播放/暂停,静音:当呼叫处于活动状态时,呼叫静音图例将亮起。如果按下按钮,呼叫应进入静音状态,静音图例背景灯应变为红色以指示静音状态。再次按下该按钮将切换静音状态和图例背光颜色。
需要一个无妨碍的和/或有吸引力的指示灯来指示托架上电。
可升级固件
托架固件被设计使得现场升级可以在设备上运行的GoPad Android应用程序的控制下执行。
机制存在从损坏的固件更新恢复,诸如可能由在更新操作期间设备被从托架中移除造成。
USB音频
托架设计可以容纳从设备接收USB音频(当设备具有该功能时),并将其转播到托架线外以便通过汽车立体声Aux In进行播放。功率
最大电源
除了自己的电源需求外,托架也可以能够随时为设备提供5.1V的2A。
设备充电
托架可以为每个设备提供足够的电力,以便在同时使用以下功能时可以增加其充电状态:
·免提电话呼叫进行中
·免提导航进行中
·媒体播放进行中(可能已暂停)
唯一设备和版本ID
托架可能支持唯一的设备ID以及硬件和固件版本号。Android应用程序可以能够读取/查询这些唯一ID。
托架记录
托架可以支持针对软件开发和调试目的的活动记录。Android应用程序可以访问这些日志。
要记录的项目的示例包括但不限于以下内容:USB连接状态,按钮按下,蓝牙连接状态等。
电缆
所需电缆是:
·USB电缆(供电)
·立体声辅助电缆(用于音频输出)
OBD2读卡器
需要硬件OBD2读卡器设备。该设备将收集车辆信息并将其上传到OPI系统进行分析并随后向用户呈现。
OBD2读卡器模块将包括一个蓝牙无线电,并在每当GoPad使用时收集信息。它将信息传输到设备,随后将其上传到OPI系统进行分析。
一个备用的OBD2读卡器模块,其包括一个每当车辆I被驾驶时收集车辆信息的蜂窝无线电,无论是否使用GoPad,对于未来的GoPad版本来说是非常需要的。该解决方案将与GoPad2开发并行进行研究。需要第三方合作伙伴(OEM来源)。
基于GoPad的免提功能
对于缺乏固有蓝牙免提功能的车辆,GoPad将提供此类功能。需要以下硬件部件。
双麦克风
需要双重麦克风,以及回声消除和噪声抑制技术。需要非常高水平的音频质量。期望电话呼叫远程端的人无法经由车载免提设备确定用户正在通话。
音频质量基准设备是Plantronics Voyager Legend BT耳机。
蓝牙无线电
GoPad托架将包括支持免提配置文件的蓝牙无线电。当设备被插入托架时,其将自动连接到托架BT无线电,并在移开时断开。如果BT连接由于任何原因缺失,连接将立即重新建立。
Android应用软件-–发布的一个实施例
轻量级启动器(launcher)
当设备放入托架时,轻量级启动器可能会自动激活。如果激活,当手机从托架中取出时,其应取消激活。初始设置经验应尽可能平滑,并且需要用户进行最小的手动配置。
首次发布时,启动器可以访问以下功能:
·默认快捷键栏:
o电话呼叫
o消息:文本,邮件和Facebook消息
o导航
o新闻广播员:一般和主题新闻+Facebook用户时间表
o媒体播放:本地和在线流媒体
·汽车个人助理
·应用程序列表
·车辆模块
·GoPad设置
一旦插入到托架中,启动器将会在短时间内显示Splash屏幕。
然后它将显示轻量级启动器主屏幕并等待用户输入。
随后“代理”按钮的双按,无论当前哪个应用程序在前台,都会启动轻量级启动器,并允许用户选择新功能。如果GoPad应用程序已经处于前台,则“代理”按钮的双按将使用户返回主屏幕。
系统卷
启动器将音频输出音量设置为固定水平(TBD),用户将使用车辆立体声音量控制来调节音量。
屏幕亮度
在在托架中时,设备应该被强制自动屏幕亮度控制。当设备从托架中取出时,应该恢复到用户的设置。
物理控制
托架上的物理控制将具有以下功能,取决于它们的使用方式:
汽车个人助理
汽车个人助理(代理)通过单按代理按钮被激活。代理将语音响应,指示其就绪状态。
代理按钮的顺序行为有三个步骤:
1.等待模式:用户需要按按钮激活语音识别
2.说话模式:代理向用户说出提示
3.聆听模式:代理正在听用户的句子。
代理将在此发布中处理的功能仅限于:
·特征类别之间的应用内导航(电话,留言,导航,媒体,新闻/Facebook,车辆,设置)
·呼叫应答/呼叫拒接/从联系人中拨打电话/从呼叫历史中拨打电话/拨打任意号码。由于拒绝呼叫似乎不被API支持,如果用户选择拒绝,我们应该停止响铃并清除来电显示,然后允许呼叫自然滚动到语音邮件,就好像用户没有应答(这基本上是发生的事情)。
·启动/取消导航。直接说地址或间接说地址(通过部分地址:国家,城镇,街道,...),从联系人处获取地址,从位置收藏夹获取地址。
·搜索本地商家(“为我找到最近的星巴克”),然后启动导航。
o本地商家在Google Maps API或Yelp中找到,通用连接器需要在将来允许任何本地商家位置源API的集成。
·播放本地媒体。播放列表/专辑/艺术家/歌曲/随机播放(Shuffle)。
o在线媒体需要整合在CPA的第二版中:Spotify,Pandora,
·车辆状态警告(仅限公告)。燃油低。检查发动机灯。等等。
·按名称启动第三方应用程序。
·选择和阅读新闻类别
·阅读Facebook更新
需要消除多个匹配的消除功能(见下面的屏幕)。
一般用户体验:语音和一般模式
一般模式
构建应用程序语音场景的方法是基于事实:
·语音识别工作的可能性非常有限
·代理商需要限制负面的互动
·用户需要给出尽可能少的语音命令来实现他想做的动作。
·任何交互的表现需要通过时间评估,而不是通过ASR置信。
为了使这一愿景取得成功,代理商需要使用两种类型的场景的智能组合:直接语音模式和工作绕行模式。
直接语音模式
直接语音模式在语音识别领域是通常的。他们的质量由ASR的置信和NLU(自然语言理解)的置信证实。
在电话模块和打电话动作的情况下,你可以要求“呼叫Bastien Vidal”(与1个电话号码唯一联系),代理商将直接找到联系人并向用户建议呼叫Bastien Vidal的动作。
直接语音模式的问题是当你与用户的语音查询没有直接匹配时,或者当你需要更多来自用户的信息以实现明确的操作时,会发生什么。
案例示例:
·我想呼叫有很多电话号码的人
·我想向具有多个电话号码和电子邮件地址的人发送消息
·通过直接的语音识别地址是错误的,并且我无法键入任何东西(因为驾驶)
绕行模式(WAR)
WAR模式基于以下事实:语音和连接平台允许人与机器之间的继续对话(在任何一轮问题/答案之后,代理将自动启动语音识别按钮的激活),并创建暂时对话框矩阵上下文(见下文关于TDMC的描述)。
继续对话框允许不同类型的WAR方案的创建
·列表项选择
o在任何具有导航项目步骤和数字选择的列表的情况下
·频率历史主动性
o
·逐步选择
应用程序的每个项目屏幕基于具有以下属性的列表项目呈现:
·每个项目具有从1到5的数字
·每个项目由标签读取
一般项目清单介绍
·一般列表
o实体过滤器
o字母表过滤器
·字母数字
·历史编号
历史频率列表呈现
飞溅屏幕
当Android应用启动时并且每当设备放置在托架中时,将会显示一个显示品牌的飞溅屏幕。
登录屏幕
当电话第一次初始放置在托架中时,或者当用户已经明确地从Android应用程序退出时,启动器登录屏幕将跟随溅泼屏幕。它将显示品牌,并提供通过用户名/密码的登录。还将呈现创建帐户链接,允许用户如果必要的话通过电子邮件、用户名/密码或Facebook帐户创建新帐户。
主屏幕
当按住主页按钮或手机放置在托架中后,主屏幕将显示当前位置的地图,其中包含穿过顶部的到主要功能的快捷按钮以及穿过底部的一些状态信息(温度和罗盘方向)。顶部栏还将适当地反映状态和通知信息。
主屏幕将显示以下通知:
·未接来电
·到来消息
·车辆故障
电话
GoPad将使用定制的GoPad电话UX后的储存Android电话API。
来电通知
代理应该大声读出来电信息(如果呼叫者在联系人中呼叫者姓名,否则呼叫者号码),静音铃声并且暂停媒体播放,如果必要,然后请求用户动作。用户可以通过以下三种方法之一响应:
·用声音接受呼叫或拒绝呼叫并将其发送到语音信箱。
·通过屏幕上的触摸按钮接受/拒绝呼叫
·通过上一个曲/接受呼叫或下一曲/拒绝呼叫按钮
一旦交互已经结束,以及应恢复暂停的媒体。
来自触摸屏,来电将显示如下:
呼出呼叫
通过按下代理按钮可以语音地启动呼出呼叫以唤醒代理,然后与号码或联系人姓名一起说出拨号命令。
如果多个号码与联系人姓名相匹配,则代理会说出通过联系新近度(即,最近主动呼叫,最近被呼叫等等)排序的编号的选项列表然后按字母顺序排列。用户然后将语音地选择要呼叫的选项号码。代理将发出呼叫并更新该号码的近似值。
通过电话触摸屏通过以下方法可以启动呼叫:
呼叫状态显示
所有呼叫状态信息将由屏幕顶部的状态栏处理(参见上面的主屏幕)。
音频播放
媒体播放
媒体播放器将被用于通过以下选择类别播放Android本机媒体文件:
·艺术家
·专辑
·播放列表
通过字母跳转到列表的子组,将有助于在长列表中项目的快速选择。例如:
可以用指尖擦洗(scrubbed)屏幕右边界的字母表列表,以便快速导航。
针对媒体播放器的主要控制将通过代理。当在给定类别中多个匹配是可能的时,代理将提供一个屏幕上号码的列表,并允许用户通过数字选择匹配。例如:
当播放时媒体播放器将显示艺术家/专辑/歌曲信息,以及专辑封面(如果可用)。将显示已过去的和总的时间。空间允许的话,也可以显示下一曲的名称。
按住托架上的上一个,下一个和播放/暂停按钮可以适当地影响播放。
媒体播放器应在设备的默认位置播放媒体文件(即媒体播放器可以访问来自其他媒体播放器的共享库)。
由于播放列表是特定媒体播放器,GoPad Media Player应从以下媒体播放器应用程序导入播放列表:
·Google Play音乐
·Android音乐应用
导航
基本导航
导航机制将通过存储Android Google Navigation应用程序被处理。LW Launcher和代理将为Google导航提供语音前端,其可以被用于通过选择以下选各项之一来开始导航到目的地:
·收藏
·最近的目的地
·址址簿联系人
·任意地址(“加利福尼亚圣荷西西圣卡洛斯333号”)
轻量级Launcher将启动Google导航并将其移交目的地,此时Google导航将接管作为导航提供商。
用户可以能够返回到Launcher(或另一个应用程序),并将Navigation功能放在后台,而不取消导航功能,并在稍后返回。做这些的常用的方法包括双按“代理”按钮返回主屏幕或激活代理并请求新功能。
传入短信响应
代理应以声音方式通知用户他们已经收到短信,包括发件人的姓名,如果它在地址簿录中,并给他们选择以呼叫他们或发送自动的“我现在开车,稍后给你回复”形式的用户定义样板回复你
传入短信显示
Facebook活动阅读器
GoPad Facebook活动阅读器将并入GoPad应用程序。这个特征将读取Facebook的墙壁帖子给用户,并为“喜欢”提供一个大按钮。
Facebook活动
接收的Facebook消息也将被读取,与读取传入短信大致相同的方式。用户可以向发送者发送样板回复。
Facebook消息
新闻阅读器
GoPad应用程序将包含以新闻广播员的的方式集成的新闻阅读。它将支持以下功能:
·收藏
·最近
·新闻类别(如科技,体育等)
·生日提醒
新闻故事将以易于解析的格式以全屏文本替代方式呈现。
车辆状态/效率
启动车辆状态特征将基于来自BT OBD阅读器的数据显示以下信息:
·如果车辆经由OBD支持燃油液位测量,则在需要燃油充满之前以英里/公里的范围和当前速度的时间(该数值应是保守的)。这应该是根据最近行为的TBD窗口计算的。对于无法通过OBD提供油箱填充状态信息的汽车,非常需要工作绕行。
·MPG这次行程和所有行程的平均运行
·瞬时驾驶效率显示,其基本地测量加速/减速率,并图形地鼓励驾驶员对加速器和制动踏板轻柔,加上驾驶员随时间如何执行的历史显示(可能根据EPA对汽车的等级绘制?)。
·行程统计,包括过去的行程时间,行程中的效率,使用的燃料等。
·复位按钮将行程统计设置为零
·需要即将来临的维护(基于来自车辆数据库中的维护计划信息),根据最近的驾驶历史最佳地转变为时间(天)。
·故障诊断错误代码
·车辆安全(不安全的车辆行为,关键措施等)。
此外,针对以下高优先级场景的声音警报会中断任何其他当前显示的功能,并且设备屏幕应切换到具有错误显示的车辆状态页面:
·燃油低(阈值TBD,可以基于最近的驾驶变化-参见上文)。这取决于燃油水平阅读能力(参见上文)。
·灾难性车辆错误(错误代码清单为TBD),需要驾驶员立即动作(即“一旦安全就侧方停车并关闭发动机”)
第三方应用程序
GoPad应用程序将提供一种快速简便的方式来启动第三方Android应用程序,提供GoPad本身不提供的功能。第三方应用程序启动器将提供较大触控目标,以便在驾驶车辆时使得容易启动应用。
所呈现的应用程序列表将由用户配置,用户将从设备上存在的所有应用程序的列表中进行选择。
应用启动器屏幕
设置
“设置”区域是用户根据其偏好配置GoPad应用程序的位置。最终的设置列表是TBD,但将包括:
·传入文本自动回复样板
·传入Facebook消息自动回复样板
·BT OBD2适配器选择(从配对的BT OBD2适配器列表中)
·发动机排量
·发动机类型(气体或柴油)
·测量单位(英制或公制)
设置
车体标识
需要标识多个车辆/托架的能力。在每个车辆/托架基础上追踪的物品包括:
·牌照
·VIN(如果OBD不提供)
·托架唯一ID
蓝牙配对
托架配对
当需要首次插入该托架时,针对启动器的能力自动将设备配对到托架。
对现有车辆HFP或A2DP的配对不是本发布的功能,不需要支持。
数据收集
应收集以下数据并将其存储在系统中:
·用户名/电子邮件/电话号码
·汽车信息
o VIN#
o牌照#
·驾驶日志(所有录入时间戳)
o汽车
■距离
■速度
■发动机运行时间
■位置
■导航目的地
o申请
■针对软件细化目的所有用户交互都应被记录
·错误代码日志
·汽油里程数
数据收集技术
应采用针对数据的每份或类型的数据收集的最简单方法。在可以提供代表用户的数据的情况下,则应该这样做(例如,如果可以根据VIN号码确定油箱尺寸,而不是询问用户关于该信息,则应该这样做)。
应用程序应包括牌照的相机捕获,应用程序可以从该牌照解析牌号,并使用它来确定VIN#和所有附加的伴随数据。
数据匿名化
某些类型的收集数据仅在总体上是有趣的-它在特定用户形式中没有任何价值。应用程序本身的可用性数据(即按钮点击等的模式),由诸如Mixpanel服务收集该种类的,属于该类别。在可行情况下,为了数据隐私的原因该数据应该是匿名的。
软件更新
轻量级启动器需要一个OTA更新机制,以允许将新的软件版本被推出到现场的设备。
物理/代理控制API
需要一个简单的软件API,其允许第三方应用程序开发人员响应托架物理控制以及代理命令,当设备在托架中并且其应用程序正在前台运行(或在某些情况下运行)。
该API应尽可能简单。
物理控制
Physical Controls API应允许三个命令输入(单按,双按,长按)仅针对以下三个按钮:
·上一曲
·播放/暂停
·下一曲
不允许第三方应用访问代理按钮。
代理
第三方应用程序可以通过简单的API注册接受特定的语音命令。命令的示例可以包括:
·“下一曲”
·“上一曲”
·“暂停”
软件UI流
市场机会
附录B:应用一般介绍
a.应用说明
应用程序Oscar是当你开车时致力于你你最喜欢的应用的使用的应用程序。
Oscar允许用户在安全模式下使用任何功能或做任何动作。创建的用户体验是在任何情况下实现能力的关键。你可以随时使用3种媒介:
·触摸屏(应用程序的按钮界面)
·物理按钮(在OE的情况下来自汽车或来自二级市场的托架)
·语音命令
关键的语音功能性是:
·拨打和接收呼叫
·发送和接收消息(文本,邮件和Facebook)
·定义导航:一次拍摄。
·阅读并分享新闻
·播放音乐
应用程序基于以下引理:
·语音识别不工作=限制用户的句子
·自然交互=尽可能快地关闭人类对话
·限制代理的反馈长度=短句
·限制代理的负面反馈=不,不,我不知道...
·限制用户重复=不要问“再说一遍”
这5个引理是任何用户体验的创建的核心。
b.应用架构
请去
c.湾基于架构的用户体验
d.检测到关键创新
i.继续对话
ii.全屏幕代理激活
iii.自动唤醒
iv.列表导航
1.语音导航:下一个,上一个,第一个,最后一个
2.字母转到
3.语音播放列表
a.语音反馈优化
i.来自询问
ii.来自以前的游戏
b.按步骤玩
4.选择
a.通过目标项的数量
b.通过目标项的部分内容
5.智能选择
a.从驾驶员使用学习
v.列表过滤器
1.字母过滤器
2.历史过滤器
3.频率历史
4.连续过滤器
vi.按钮像素用户体验
Vii.
·电话模块
e.介绍
f.结构
g.描述
h.用户体验
·消息模块
·导航模块
·新闻模块
·媒体模块
附录C:
语音和连接平台
执行摘要
汽车市场正在进行着他的一个新的演变中的一个,我们可以称之为汽车市场的分裂,因为它正在进行许多不同种类的破裂。从电动发动机到无驾驶车,汽车的数字化正在向前发展,整个汽车制造商正面临着关于数字生命周期对车辆生命周期的巨大挑战之一!
但是最终,驾驶员是声音,这个声音想要停止以在路上独自度过时间,这个时间可以在一个有用和有趣的时间转化,如果我们可以在约束环境中创造新的用户体验,如果我们可以把汽车连接到数字世界,且多于用户在任何情况下都用他喜欢应用程序!
xBrainSoft创建了汽车个人助理产品,可扩展和灵活的平台,与市场上所有的设备共同工作在车内外连续的用户体验中,允许混合模式和通过云和汽车嵌入式平台之间的空中模式同步更新。
在任何情况下,在正确的时间,每个环境中最好的一个!XXXXX准备面对数字世界短暂的生命周期的挑战,而不影响汽车的生命周期!
技术篇
摘要
xBrainSoft语音和连接平台是高级平台,其在一些实施例中用于建立板载和非板载环境之间的链接。
基于混合、模块化和不可知的架构,语音和互联平台在其嵌入式解决方案和非板载平台之间提供自己的“空中”更新机制。
从具有无连接的嵌入式对话管理到非板扩展语义处理功能,语音和连接平台利用上下文同步加强混合管理,使得围绕车辆连接的“缺失和恢复”的场景成为可能。
基于强健、创新和完全定制的自然语言理解技术,语音和连接平台提供了沉浸式的用户体验,而不依赖于特定的语音技术。
其多通道功能允许通过多种设备(车辆,电话,平板电脑...)以普遍的方式进行交互,由于完全同步机制,共享相同的每用户上下文。
语音和连接平台的集群服务器架构是可扩展的,并且因此可以响应高负载和高消耗的服务。它建立在行业标准技术的基础上,并实施关于通信安全和终端用户隐私的最佳实践。
语音和互联平台还提供了功能和开发工具的完整集合,集成在完整的开发环境中,以发明复杂的语音用户交互流。
附加值
你你将在下面找到xBrainSoft技术的技术突破中的一些,《语音和互联环境》其是由云平台和嵌入式平台组成的。
以下项目被呈现为重点。
·混合设计:“服务器,嵌入式和自主同步”
通过设计,语音和连接平台提供了本地和远程两者运行的助理。任何助理的这种混合架构建立在强壮的机制上,以分发处理,维护完整的上下文同步以及更新用户界面甚至对话理解。
·用于对话框流创建的功能工具集
从起源来看,xBrainSoft正在大力提供绕行我们技术的最佳工具集,以加速和改进助理的发展。它包括一个完整的开发环境,其可以增强对话语言管理器、功能模块的可重用性,任何VPA的部署自动化或维护以及在任何客户设备上的可移植性。
·标识和设备联合服务(VCP-FS)
语音和连接平台联合服务是联合用户标识和设备的服务。VCP-FS处理用户拥有的社交标识(Facebook,Twitter,Google+)和连接的设备,其以普及的方式通过虚拟个人助理增强提供的能力和功能。VCP联合服务通过利用用户的社交网络甚至他的习惯来增强用户体验。
汽车应用程序套件(CPA)
在语音和互联平台的顶部,xBrainSoft为车辆提供了一套应用程序,用于创建汽车个人助理(CPA)产品,由语音、触摸屏或物理按钮使用,如天气、股票、新闻、电视节目、联系人、日历,电话等。
xBrainSoft还提出了SDK来创建完全集成的应用程序,其可以访问汽车的CAN网络、其GPS位置和各种车辆传感器,如温度、雨刷状态、发动机状态等。
·非板载数据同步器
语音和连接平台提供全球数据同步系统。该机制覆盖由了移动数据连接的巡回和低容量引起的同步问题。它提供了同步系统的可配置提取,旨在允许开发人员关注哪些数据需要同步,而不是如何完成。
·外部API自动平衡器
使用外部API是对场景的很好的增强,但是当服务可能变得不可用或如果客户端可能想要使用取决于多个因素(价格,用户订阅...)的特定的服务时,会有副作用。为了满足这些具体要求,语音和连接平台被设计为高可配置的,并将第三个数据提供商作为插件集成(例如:通过事件处理程序的API消费管理以在微计费管理系统上连接)。
功能不依赖于单个外部API,而是依赖于可以管理其中许多API的内部提供者。遵循这一架构,VCP提供了一个可以配置为满足XXXXX要求的自动平衡系统。
·主动对话
语音和连接平台集成了专家系统和机制以在没有初始请求的情况下与用户开始对话。
他们一起提供了实现复杂任务的工具集,一旦用户关注可用,给出相关信息或管理主动对话频率。
·真实背景对话框的理解
“真实场景对话理解”是具有以下参数的上下文和多维对话流:上下文历史、对话历史、用户历史、用户简档、本地化、当前上下文域等。
分析每个对话的这种上下文方法允许对任何对话流的最好的一个准确性的理解和许多其他积极的效果,作为最小化必要的存储器以存储助理的知识、任何种类的中断之后的对话的连续性、任何应用程序的翻译的简化等。
·空中更新
VCP全球数据同步器机制提供了在车辆整个寿命期间在云平台、嵌入式平台和任何连接的设备之间更新任何类型的“空中”软件包的方法。内部用于在我们的在线和嵌入式解决方案之间同步对话、UI、日志、快照,这种“空中”系统可以扩展到包含第三方资源作为嵌入式TTS语音、嵌入式ASR字典。基于版本系统,依赖管理器和高压缩数据传输,为混合解决方案提供了第一流的机制。
·到任何设备的服务连续性
语音和连接平台通过VCP联合服务能够提供服务的连续性,而不会中断驱动程序标识和设备。由于连接的设备的增加,由XXXXX虚拟个人助理可以访问的驾驶员的注意力超过了在汽车上花费的时间。
·声音与声学不可知的集成
语音和连接平台不依赖于特定的语音技术,并且可以使用针对语音识别和文本到语音的两者的本地语音引擎或远程语音提供程序。本地一类封装在VCP插件中,并且它们可以通过VCP数据同步机制容易更新。远程语音提供商可以使用VCP直接在云端管理。
定义哪个语音技术VPA用于语音识别和文本到语音对任何对话是完全可配置的。
·人工智能算法
专注于获得约束时间中的结果,语音和互联平台对AI采用不可知的方法。这就是为什么我们以一种抽象的方式创建或集成第一类立即可用的工具到平台中,像我们已经使用CLIPS引擎基于专家系统处理我们的事件一样。
我们的专业知识保留在自然语言、知识图、机器学习、社会智能和通用AI算法中。我们的工具集是当今可用的顶级框架和开源算法之间的链接以允许XXXXX连续地集成这个科学领域中最后演变。
·自然语言了解不可知的集成
在与针对人工智能算法采用的策略相同的方式中,语音与互联平台采用了不可知的方法以集成自然语言处理模块。根据我们在该领域的专业知识,这允许我们频繁更新我们的核心模块之一,以优化准确的理解并保证独特的用户体验。
技术架构
架构
架构描述
语音和连接平台基于被称为“智能调度程序”的异步管道。他的责任是在整个平台和连接的设备上传递消息和用户上下文。
VCP联合服务负责跨平台的用户身份管理。它针对数字和社会身份(如我的XXXXX,Facebook,Twitter,Google+和Microsoft Live)依赖于第三方身份提供商。它还拥有内部机制来联合用户的所有连接设备,如他的汽车,手机,平板电脑,电视...
语音和互联云平台通过“智能调度员”提供了不可知模块架构,并提供了一个完整的同步机制以与VCP嵌入式解决方案工作。VCP Server能够利用自动ASR/TTS中继功能来在功能级别抽取ASR或TTS,其依靠第三方ASR/TTS提供商,诸如Nuance,Google Voice,Telisma,CreaWave等。
语音和连接云平台还包括由VCP平台提供的用于由语义工具授权的对话管理的所有技术块。结合基于专家系统、传感器、AI和主动任务的事件,这提供了用于开发应用程序的核心堆栈。
第三方数据提供商通过用户配置文件偏好或XXXXX业务规则以抽象的方式被包含以支持回退场景或基于规则的选择。此入口点允许VCP集成所有现有的XXXXX连接的服务,并使其可用于应用程序开发级别。
VCP嵌入式解决方案是VCP服务器的车辆计数器部分。可更新“空中”,这种嵌入式解决方案提供:
-UI递送和管理
-板载对话管理
-“缺失和恢复”连接方案的上下文记录
-用于日志或任何其他第三方同步的快照管理器
在车辆架构中,嵌入式ASR和TTS提供商可能被包括在板载对话管理中,并不被提供为语音和连接平台的部件。
VCP数据存储是Apache Hadoop,其基于用于存储和分析语音和连接平台的所有数据输入的基础设施。用于机器学习或人工智能处理,VCP数据存储提供机制以将分析结果注入到VCP联合服务中存储的用户配置文件中的。
按领域的技术细节
声音与声学
·说明
声音和声学生命周期是最重要的交互之一以创建一流用户体验。这需要采用高水平的关注和高水平的组件来达到预期的质量。
获得预期的质量可以通过组合多个方面来实现:
o麦克风的顶级质量,滤波器,降噪,回波消除...
o多个ASR/TTS提供商的集成(Nuance,Google,Telisma,Microsoft SpeechServer...)
o在这些提供商之间关于用例切换的能力:
-ASR:板载,非板载流或非板载中继
-TTS:板载,非板载,情感内容,混合连续模式
o基于用户对话上下文的ASR校正管理
o“真对话”管理
在xBrainSoft,我们将这些方面分为两类:
o从语音捕获到ASR进程结束
o在ASR进程之后,通过自然语言处理到自然语言理解
作为ASR提供商或硬件麦克风制造不在我们的业务范围内,我们采用了技术上不可知的语音管理方法,能够与任何类型的ASR/TTS引擎集成和通信。我们的经验和项目使我们在限制环境中获得了这些技术的高水平的专业知识,如在使用Nuance材料集成的VPA原型中做的一样。
这种类型的架构允许我们的合作伙伴在具有所有类型的ASR或TTS的许多语言中快速创建强大的对话方案。这也允许容易地升级任何组件以改善用户体验。
第二类是基于用户对话上下文通过不同级别的软件过滤器来管理的。作为对话不仅仅是双向句子和双向句子集合,我们在语音和互联平台上开发了基于“真实上下文对话理解”的不同过滤器。真实的上下文对话框理解是具有以下参数的上下文和多维对话流:上下文历史、对话历史、用户历史、本地化、当前上下文域等。
利用我们的VCP语义工具的授权,我们实现了对用户输入的深刻语义理解。
这种方法允许我们能够将“新闻与语音搜索”应用程序(新闻广播员)从120万个语言模式入口点减少到100个,同时保持依据终端用户对话流相同的确切含义。
这种模式的描述的新方法带来许多积极的方面:
o简化消歧场景,错误关键字或不完整的实体提取
o简化模式的调试,并允许创建自动化工具
o简化“飞行”模式的校正和维护
o最小化内存资源以加载模式字典
o最小化针对语言适配的任何对话翻译的努力
完整的混合和“空中”可更新系统,VCP组件“在线或嵌入式对话管理器”旨在提供最佳的解决方案来管理嵌入式对话,当车辆失去连接到完整的在线对话体验时。
因此,要求第一类材料,语音和互联平台保证最有效地创造曾经预期的最好的用户体验。
同时,xBrainSoft继续推动用户体验界限与许多研究方面的添加,如对话流程中的情感分析,来自社会和对话流在推测的用户上下文中的社会与教育行为水平或基于VoiceXML标准的韵律管理。
·创新特征
o ASR/TTS提供商的不可知方法
o非板载ASR/TTS中继容量
o板载对话管理
o非板载对话管理
o混合对话管理与“空中”更新
o VCP语义工具
o用于对话管理的集成开发环境
·示例元素
o高品质麦克风和声音摄取
o声音信号处理,包括降噪,回波消除
o麦克风音频API支持自动空白检测
o一个或多个用于板载和非板载的语音识别引擎
o一个或多个用于板载和非板载的文本到语音引擎的
o VCP嵌入式解决方案
o VCP服务器
·示例相关合作伙伴
声音摄入量:Parrott或Nuance
声信号处理:Parrott或Nuance
ASR:Google,Nuance或Telisma
TTS:Nuance,Telisma或CreaWave
混合结构与行为
·说明
连接r和基于云的个人助理,当没有数据连接可用时,其可以是自主的。目的是能够始终为用户带来快速和准确的答案。
VCP嵌入式解决方案由在诸如汽车的嵌入式设备上运行并被连接到服务器端对应部分上的混合助理组成。任何用户请求由嵌入式助理直接处理,嵌入式助理根据诸如连接性的标准决定是否将其转发到服务器。这样,所有用户请求可以在本地或远程处理。可以轻松调整非板载的功能以提高性能和用户体验。像语音和连接平台一样,VCP嵌入式解决方案提供了高级的自然语言处理和理解功能以可以无需数据连接来处理用户请求。这样可以确保VPA能够快速理解本地任何用户请求中,并且如果需要,能够直接回答用户,并异步地从服务器获取较大的计算响应。在缺乏连接的情况下,如果需要外部数据来完全回答用户(例如,天气请求),则该响应适于通知用户他的请求不能被实现。根据场景,VPA能够对用户请求进行排队,以便在连接恢复后立即将其转发到服务器。
语音和连接平台还提供嵌入式代理和服务器之间的完整上下文同步,以便数据在它们之间共享,而不是分离。每次发生连接问题时都会执行重新同步,以确保数据始终是最新的。
VCP嵌入式解决方案由插件组成,其可以通过“空中”过程容易更新或更换。语音、IA、对话理解、数据处理和用户接口是这些可升级模块的一部分。
VCP嵌入式解决方案还由脚本集合、AI的一部分组成以处理响应。为了确保响应的一致性,无论连接级别如何,这些脚本在服务器和嵌入式代理之间被同步。
·创新功能
o用户界面管理器
o与服务器同步的本地接口
o嵌入式对话管理器
-纯嵌入式场景
-混合场景板载/非板载
-纯非板载方案
始终使用或不使用互联网连接来回答用户请求
连接缺失用例的上下文同步
·示例元素
Linux平台可用在汽车电脑系统上。
·性能
高效的性能驱动编程语言(C++)
交换数据的高压缩以优化带宽和响应时间
VCP嵌入式解决方案已经在Raspberry PI型号A上被编译和测试:
o CPU:700MHz低功耗ARM1176JZ-F应用处理器
o RAM:256MB SDRAM
人工智能
·说明
人工智能是一个覆盖很多学科的大型领域,如:
o扣除,推理,问题解决
o知识图发现
o通过以事件为基础的专家系统的规划和行动
o自然语言处理和语义搜索
o机器学习,地图缩减,深度学习
o社会情报,情绪分析,社会行为
o其他尚未发现的用途
在xBrainSoft意识到巨大的能力范围,并在当前科学状态的挑战面前保持谦虚。
专注于获得约束时间内的结果,语音和互联平台采用关于AI的不可知的方法。这就是为什么我们以抽象的方式将一流的立即可用的工具创建或集成到平台中,就像我们利用使用立即可用的CLIPS引擎的我们的基于事件的专家系统做的一样。
我们的专业知识保留在自然语言、知识图、机器学习、社会智能和通用AI算法中。
我们的工具集的主要特征就是当今可用的顶级框架和开源算法之间的粘合。
因此,xBrainSoft可以提供VPA项目的预期场景的100%,因为可以通过市场上可用的任何其他更有价值的模块来切换模块。
这就是为什么xBrainSoft还与像Kyron(硅谷,AI,应用于医疗保健的大数据和机器学习)、Visteon或Spirops等合作伙伴合作以通过我们的平台来扩展AI的可能性。
·创新特征
以匿名方式向外部AI模块提供数据的能力。用户或会话表示为随机唯一号码,因此外部系统可以在正确的级别工作,而不能将该信息与物理用户相关联
使用xBrainSoft或外部AI工具将AI嵌入语音和连接平台(VCP)中的不可知方法
桥接到由VCP提供的VCP联盟服务,以从AI工具取回数据,并增强用于更好的用户上下文管理的用户配置文件以。
·示例元素
o基于Apache Hadoop的VCP数据存储
o基于VCP事件的专家系统
o VCP联合服务
非板载平台与服务
·说明
为了丰富提供给汽车中用户的服务,非板载平台由于其高可用性和强大的组件带来了高水平的连接功能。用户被设置在在专注于汽车服务的多学科智能生态系统的中心。非板载平台也是带来混合汽车和连接服务的功能的进入点。
非板载平台具有高可用性以支持品牌的所有车辆和用户的连接设备。它能够随时间发展,以处理越来越多的用户,并处理负载波动。
为了应对所有这些挑战,“语音和互联平台”提供了一个集群架构,其可以部署在“云端”或内部部署中。所有群集节点彼此了解,其使得跨节点连接的设备场景能够通过集群架构维护服务连续性。
语音和连接平台通过其社交帐户和设备从技术数据服务到用户信息提供消费第三种数据服务的能力。所有这些信息对于创建“相关”和智能场景是有用的。
功能和服务的范围广泛,并且由于技术进步将随着时间演变。该平台的架构应提供新的服务/功能,而不会影响基于其模块化架构的现有功能。
·创新特征
o在云端或内部部署托管
o针对高可用性和负载波动准备去集群架构部署,
o集群架构上的设备到设备功能
·示例元素
o VCP服务器
o第三方数据提供商
·性能
每个服务器有5k个并发连接对象(汽车),该原型实现了3台服务器的集合以保证高水平的SLA,并将在前面提出10k并发连接对象。
非板载架构和一般安全
·说明
作为第三方数据服务提供商,除了我们当前实施的提供商之外,XXXXX SIG可以被语音和互联平台使用。由于抽象的高水平,我们可以实现不同的第三方数据服务提供商,并在项目生命周期中集成他们而无需更新VPA的功能部分。
语音和互联平台提供了设施以实施后备场景以确保通过外部提供商数据的高可用性。例如,多个天气数据提供商在主要的提供商不可用时以便切换。
语音和互联平台还提供针对提供商资格的他的专家系统的实现提供商。基于业务规则,系统有助于管理计费优化。可以在不同级别被用作为基于订购费的用户专家系统和或基于供应商交易合同的平台专家系统。
由于语音和连接平台可以暴露出完整的HTTP API集合,因此可以容易地集成到任何类型的机器到机器网络中。
在通信和认证方面,语音和互联平台提供了互联网行业中最先进的实践。从确保与SSL证书的所有通信的安全到挑战握手验证协议,语音和连接平台确保了与终端用户隐私相关的高安全级别。
在VCP联合服务身份协会中也会考虑到安全和用户隐私,因为终端用户登录和密码从未通过语音和已连接平台进行传输。所有这个系统是基于身份提供商提供的基于令牌的验证,例如:对于Facebook帐户,终端用户在Facebook服务器上进行验证,服务器确认终端用户身份并向我们返回验证令牌。
构建VCP嵌入式解决方案的方式可防止汽车中的可靠性或安全问题,因为它依赖于集成商提供的基础现有功能。在我们的技术方案中,VPA不能直接向汽车发出命令,但是他可以向提供可靠性和安全性问题的底层系统发送命令。
·创新功能
o模块化架构,启动XXXXX连接的服务API的完全集成
o我的XXXXX可以被实现为VCP联合服务的的默认身份提供商商,其帮助用户当链接他的社交身份时感到安全
o高级安全性,以保护终端用户的隐私
·示例元素
o作为M2M网络的用于汽车连接的安全基础设施
o基于令牌的认证API来实现VCP联合标识验证服务身份提供商商
上下文与历史意识
·说明
有效的上下文管理对对话,助理行为或功能个性化至关重要。在引擎级别的实现,用户环境可以由语音和连接平台的任何部件访问,以使得能够增强的个性化体验。
可扩展的任何数据来源-作为车辆数据(CAN,GPS...)、社会配置文件、外部系统(天气、流量...)、用户交互...-用户上下文也被我们的基于事件的专家系统大量使用以创建主动使用案例。
语音和互联平台在板载和非板载之间共享,并负责两种环境之间的上下文重新同步。
关于历史意识,语音和连接平台为聚合、存储和分析数据提供了一个完整的解决方案。这些数据可以来自如上所述的任何来源。
当被分析时,数据结果用于丰富用户简档以帮助递送个性化的体验。
·创新特征
集成为引擎特征,用户上下文管理在语音和连接平台中是横向的。它可以在系统中的任何模块、对话、任务或规则中被访问。它也可以在具有VCP联合服务的实现的设备上被共享。
语音和连接平台在板载和非板载之间提供完整的上下文重新同步系统以处理连接问题,如驾驶通过隧道。
基于Apache Hadoop堆栈和工具,VCP数据存储提供基础设施以准备执行机器学习目标作为用户行为主义、习惯学习和任何其他相关的机器学习分类或推荐任务。
·示例元素
o VCP数据存储
o基于要求定义Hadoop基础设施
主动性
·说明
主动性是为终端用户创建更智能的应用程序的关键之一。
VC平台提供两个不同层次的主动管理:
o后台工作者:一个完整的后台任务系统,其可以重新连接到主流程线并与用户会话交互或使用回退通知工具
o基于事件的专家系统:完全集成的业务规则引擎,其可以对外部传感器和用户上下文做出反应
结合VCP联合服务,它利用超越设备的主动权力。
·创新特征
o基于事件的专家系统,其主动对实时的上下文项目做出反应
o使用VCP联合服务来启用跨设备主动体验
o针对主动回退用例(Google,Apple,Microsoft...)提供主要的通知提供商的实现
o在功能观点上,主动调整的级别可以作为用户设置来显示
·示例元素
用于设备知识的VCP联合服务
支持回退用例的通知过程的设备
一般升级能力
·说明
总体可升级性是磁于汽车行业的关键过程。由于汽车不会经常去汽车经销商那里,整体解决方案应提供“空中”更新的完整机制。
语音和互联平台已经利用他的VCP嵌入式解决方案实现这些“空中”的机制来同步对话和用户界面。
基于工厂架构,这种“空中”过程可以扩展到管理语音和连接平台与连接设备之间的任何类型的数据。
·创新特征
o可扩展的“空中”机制,包括版本支持、依赖解析和通信压缩
o VCP服务器基于模块化架构,其允许在车辆生命期间添加或移除(新)模块。
o VCP嵌入式解决方案基于插件架构,其允许添加新的互操作功能来访问新的汽车功能或消息
·示例元素
o互联网连接(取决于硬件和连接类型)
进出连续性
·说明
设备连续性意味着通过语音和连接平台,驱动程序可以连接到汽车中的虚拟个人助理,也可以车外连接到街道或家中的虚拟个人助理。他可以使用来自他想要的地方的服务。
该功能允许XXXXX扩展其与客户进出汽车的关系的范围。该品牌扩大了机会以提供服务的并在其传统区域之外产生参与。因此,它利用提供有竞争力的API或服务的第三方运营商为大量的潜在业务合作伙伴打开空间。
基于VCP联合服务,VPA可以完全集成到终端用户生态系统中。从他的车,他的许多设备到他的数字和社会身份,生态系统的所有投入可能授权他的普遍的体验。
·创新功能
语音和连接平台通过标准安全协议(HTTPS)提供其服务,其能够从所有识别的设备被访问。作为端到端的观点,语音和互联平台为所有主要设备平台(如Android,iOS,Windows+Windows Phone和Embedded等)提供框架和工具。
VCP联合服务汇总用户的设备和数字身份,以为他提供最好的连接和普遍的体验。例如,VCP可以在用户手机上启动一个场景,然后在他的车里另一个设备上结束它。
VCP用户界面管理器能够在提供Web浏览器API的任何设备上下载、存储和执行VCPWeb对象。考虑到这一点,连接设备上的用户界面和应用程序的逻辑可以是跨平台的,并且容易“空中”更新。VCP用户界面管理器还能够为特定平台、区域或语言应用不同的模板/逻辑。
·示例元素
VCP联合服务是在服务连续性的中心。
由于连接设备(平台、大小、硬件、使用...)的非均匀性,应适应场景以最适合目标设备。例如,设备可能没有麦克风,其不兼容声乐用户界面,应该使用物理交互。
文化和地理上下文
·说明
由于XXXXX的高国际化程度,VPA能够以文化或地理的观点适应用户。这意味着提供给用户的所有脚本和接口的翻译,ASR和TTS提供商的配置以及需要时一些场景的行为的修改。
·创新功能
基于完整的模块化架构,可以根据国际化设置插入语音和连接平台模块。这允许根据该地区管理不同的服务递送或特征。
语音和连接平台提供了可以基于区域部署或用户设置的ASR/TTS提供商中继的完整抽象。这允许针对汽车或连接的设备的用于语音识别和语音合成的统一入口点,汽车或连接设备负责语音获取/播放和ASR/TTS提供商之间的关注的分离。
VCP对话管理器和VCP语义工具提供了高水平的允许新语言的可扩展性而不影响功能实现的提取。
·示例元素
o支持通过API翻译的外部第三方数据提供商
o所选语言的ASR/TTS提供商
o定义VCP联盟服务的终端用户社会身份,例如:中国的微博而不是Twitter
o适应用例和VPA行为到终端用户文化和区域
附录D:“直接与工作绕行场景过程”
描述的是一种通用的方法,我们将根据各种实施例找到关于其它产品如Siri、Google Now、Nuance、...或其他产品的我们的附加价值。
图例:
·VCP=语音和连接平台
·ASR=自动语音识别
·TTS=文本到语音
·TUI=触摸用户交互
·VUI=语音用户交互
·NLU=自然语言理解
VCP是同步和异步。这意味着每个动作、事件可以直接执行,也可以在用户请求之后长时间执行。我可以要求代理针对长的任务或长期任务每个月第一天(异步)发送给我我的销售报告。以及我可以问今天的天气,并且直接地在回答明天的天气之后(用直接上下文)。
生命周期的描述(参见图7)从左下角开始到右上方。
生命周期
ASR引擎:
·在ASR(自动语音识别)之前,我们可以从3种方式激活ASR:
o ASR自动唤醒字:可使用任何关键字来唤醒应用程序并启动ASR(如:Angie,Sam,ADA,...)
o ASR主动激活:取决于内部或外部事件
·定时器:每天都会根据计时器自动唤醒
·内部事件:来自设备部件(GPS、加速器、...)或应用程序的任何功能或模块的任何内部事件。
·我们检测到你位于你的家中,我们可以启动ASR(带有上下文提示的TTS)作为你的东西
·当我坐在我的车里(因为我检测到电源和OBD),我可以建议你启动音乐并开始导航
·当你在日历中有新的约会时,代理可以自动启动,并询问你是否想要导航以去你的下一次会议(如果需要车辆)
·外部事件:我们从数据库或第三方API检测任何外部事件以激活ASR/TTS
·当你到达目的地附近时,系统可以查看外部的停车位可用性API以让你知道何时你能够停车。
·当你处于堵车状态时,系统可以通过汽车评估重定向,而且还有机会改变你如何去你的目的地,以及建议你停放汽车并乘坐火车。
o ASR按钮:通过虚拟按钮(屏幕)或物理按钮(从托架或滚轮按钮)上的简单点击(推动)激活代理程序
·ASR的激活(语音输入)
·ASR到NLU预处理=基于应用程序的上下文,我们可以采取句子(带着它的置信),然后在发送到自然语言理解引擎之前重做它
o因为我们知道我们在一个模块上下文中进行呼叫,所以在发送给NLU引擎之前我们可以在一个句子中找出或改变任何单词。
o用法语,当用户说:
·“donne-moi l'信息技术”=>ASR可以发送给我们“Benoit la formationtechnologique”(完全在用户意图之外)
·我们可以修订单词:‘Benoit’用‘Donne-moi’以及‘formation’用‘information’。
·在预处理之后,句子将完全扩展其机会以通过NLU被理解并为用户创建动作。
NLU引擎:
·用户的意图的检测启动特定模块,每个检测在应用程序的上下文中工作,如下面的下一章解释的。
o样本
·呼叫Gregory=手机模块
·发送文本到Bastien=消息模块
o关键字=直接在模块中访问的关键字
·电话=允许访问电话
·导航=允许访问导航
o快捷方式=是用户可以从应用程序中的任何位置说的句子,仅用于模式中列出的主要动作。
·从模块(意图)中检测动作(功能)
o样本
·拨打电话=拨打电话给Gregory Renard的动作
·这句话允许检测模块、动作和实体(Person=Gregory Renard)
·默认模块列表=因为,我们精确地知道应用程序可以做什么和不做什么,我们可以检测到用户正在尝试执行应用程序不能做的某些事情,或者我们可能从ASR收到不良回复。在这种情况下,我们可以激活默认模块来尝试检测用户意图的感知(通常其中Siri和Google Now将用户推送到网络搜索中)。
o向应用程序可用模块的列表的用户提出提议(不限于,我们可以从任何类型的应用程序扩展模块列表)
o如果用户再次说错某些事情或如果语音识别不起作用=系统建议从句子语音识别切换到数字识别
·用户说系统无法识别的某些事情,系统会说=“你想要启动什么应用程序”+打开应用程序列表
·如果用户再次谫系统无法识别的内容,系统会说=“你想要的应用程序的号码是多少”(我们任何类型的列表中使用该工作流,作为联系人、地址、专辑、艺术家、新闻类别、消息)
o用户做出选择
·系统示出模块的默认项目列表,并建议(通过语音和/或视觉)模块中可用的功能。在这种情况下,用户可以利用指导做出选择以实现。
o列表可以是:
·过滤器:呼叫Malvoisin=>Celine上的过滤器=示出联系人列表中的CelineMalvoisin列表
·按字母过滤:基于任何列表,你可以在字母后创建过滤字母
·用户可以说:过滤字母M,字母A,字母L,...(这允许访问不可发音的联系人。
·过滤器通过字母过滤项目标签中的任何单词。
·按字母导航过滤:根据任何列表,用户可以说“去字母V”
·代理将直接显示以字母V开始的所有联系人
·导航:用户可以能导航列表作为
·下一个/前一个=示出当前列表中项目的的下一个或上一个列表
·开始=示出列表中的第一个项目
·结束=显示列表中的最后一个项目
o列表能够随时被读取:
·在任何项目列表屏幕中,用户可以要求读取列表
·列表将被读取为如下所示
·每个项目都被读取并按照号码跟随,以帮助用户记住项目号码
·如果以前的项目联系人没有集成我们已经知道的部分,每个项目的内容将被读取。
·想象我们有5个联系人Malvoisin在电话号码列表(3个不同类型的电话针以Celine,1个针对Luc和1针对Gregoire)
·代理会说:(当代理在发言时我们不要重复任何内容)
·Celine,Mobile US是1号(没有Malvoisin,因为这是我的要求,我知道当我读取时我想要Malvoisin的联系人)
·家是2号
·办公室是3号
·Luc、Mobile是4号
·Gregoire、Home是5号
·通过用户的项目选择
o项目编号选择=允许用户从项目前面的号码中选择一个项目(我们只使用从1到5的数字)
o项目内容选择=允许用户从项目的标签中选择一个项目(例如:celine)
·元组=模块的检测之后,功能和实体(项目选择)
o系统可以利用两种类型的功能执行处理
·知识类型=访问数据知识(QA,目录,维基百科,...)以给用户一个答案。
·动作类型=需要管理和访问外部/内部APis
·基于以下描述的NLU处理的结果,系统生成2个同步元素:
o TUI=触摸用户交互(针对用户的屏幕的设计作为任何类型的应用程序)
o VUI=语音用户交互(具有向用户询问更多信息或详细信息或询问其他问题能力的语音反馈)
o VUI和TUI是完全同步的,你能够通过触摸或声音进入功能工作流的下一步,两者都是同时的
·如果你敲击屏幕以选择项目,你将转到下一步,并且代理知道你在应用程序中的上下文位置。
·这个上下文位置允许声音与视觉同步
·基于当前工作流,代理可以检测是否需要更多信息来完成用户的当前意图,并利用新的ASR启动(在向TTS发送句子反馈之后)来要求它。
o用户:今晚电视上有什么?
o系统:在哪个频道(因为用户的意图被TV检测=模块和今晚=动作频道、黄金时段、今晚的一部分)>
·系统理解它错过一个变量来完成动作并要求它。
o用户:在频道一上
o系统:这里是频道One的主要节目。…blablabla
o用户:和频道二(在这种情况下,我们使用上下文来了解当前的意图是什么和用户的最后一个动作=TV/给出今晚的主要演出)
o系统:这是频道二的主要节目。...bliblibli
o...并且系统可以在没有限制的情况下继续这个上下文,我们称这个工作流之为“直接上下文”
·基于前一点(意图/上下文管理),我们可以使用不同类型的上下文
o请参见以下点的说明。
暂时上下文矩阵依赖性。
在进入上下文类型之前,我们需要定义在VCP中从xBrainSoft创建的上下文。
上下文是(定义为当前上下文)
·作为3D存储矩阵工作:
o维度1:当前模块(模块电话)
o维度2:当前动作(动作在模块电话中拨打电话)
o维度3:当前屏幕(动作的步骤,例如:在模块手机中针对动作呼叫的联系人的选择)
·你可以通过具有最小3项(对象类型,ID“名称”和值)的元组在任何存储实例(上下文字段)中保存任何类型的信息,具有可以在任何级别的存储项目上扩展的能力。
o任何类型的变量(整形、字符串、日期...)
o任何类型的可序列化对象(汽车类型、用户类型、...)
·具有使用历史的能力=4D存储矩阵(上下文是通过时间变量在过程中的工作)
o每个时间状态是针对短期和中期的用户会话的保存
o每个时间状态可以长期保存在文件或数据库中
上下文与用户的功能当前工作流有关以给出针对长期创造中学习意图可能性。
我们可以有2类上下文:
·应用程序上下文=许多用户(应用程序的所有用户或应用程序的一部分用户)在短期、中期或长期内共享一般上下文。
·会话上下文=针对唯一用户的上下文。
上下文类型
·直接上下文:参见上面的描述。
·间接上下文(暂时上下文)=在用户和代理之间的任何问题/答案(有或没有直接上下文)之后,用户可以转到另一个模块/功能,在那里他可以再次使用直接上下文。但是在这一点之后,用户可以访问以前的直接上下文模块以继续与系统的对话,如下所述:
o用户:什么天气=>代理给我在帕洛阿尔托的天气(他检测到我的设备GPS信息来找到我的位置,并给我在帕洛阿尔托的天气)
o用户:在旧金山=>代理查找我的最后一个直接上下文,并给我在SF的天气
o用户:那里是什么时间=>代理理解我想改变意图模块,并从上一个上下文中返回他需要的变量,以完成查询在SF的时间(小时)
o用户:明天的天气怎么样=>代理侦测我想回到天气模块(新意图),他在我最后一次天气查询处找到地方,并给我SF的明天的天气。
o//间接上下文可以在时间上持续,其作为文件或数据库保存在长期存储器中。相同地,如果在模块中的任何操作中有任何断开连接,则直接上下文将成为间接上下文。
·意图学习(IL)=基于上述描述,我们可以容易地想象如何创建具有到模块/动作/屏幕/工作流程的每个元组的权重的意图学习。
o什么是IL=系统基于他的历史查询、执行的工作流和实现的结果来理解用户查询的感知(就像个人助理的智能宏)的能力。
o样本1(简单)=
·时间1
·用户:请你呼叫Louis?
·系统:我的联系人列表中有很多Louis,你想要哪一个?(我有3个路易斯)
·用户:Monier(=姓氏)
·系统:好的,我打电话给Louis Monier
·时间2
·用户:呼叫Louis!
·系统:我呼叫Louis Monier,对不对?
·用户:是...系统调用Louis Monier。
·用户:不...好的,我有几个Louis在你的联系人列表中,...(系统示出与时间1的第二步相同的列表)
·时间3:
·用户:立即呼叫Louis!
·系统:我呼叫Louis Monier。(系统拨打电话)
o样本2(更复杂)=
·时间1
·用户:发送消息给路易斯
·System=谁是要发送消息的联系人?
·用户:Louis Monier(或Louis+过滤器Monier,或Monier+过滤器Louis)
·System=好的,你想发送一个文本或邮件?
·用户=文本
·System=好,你想发送什么类型的内容(我可以选择一个免费的文本、声乐文本的模板文本)
·用户=免费文本
·系统=说你发送的信息
·用户说消息
·系统要求消息内容的确认、内容并且要求验证以发送
·用户可以说是或更改联系人、消息、添加更多内容消息或取消。
·时间2
·用户:发送消息给Louis
·系统=说你的消息以发送
·用户说消息
·系统请求消息内容的确认、内容和要求验证以发送
·用户可以说是或更改联系人、消息、添加更多内容消息或取消。
o样本3(更复杂)
·时间N
·用户=每个星期三,用户当他下午6点离开办公室去家之前,呼叫他的妻子(要求孩子们准备去运动)
·为此,用户需要使用像上述#1的样本来呼叫他的妻子。
·系统正在使用许多信息源=BT数据,OBD数据(或不),时间(6pm),地点(不在家),历史意图(作为日程表提醒+地理围栏)
·系统=当用户到达他的车(由汽车BT连接或OBD连接器检测到),并在x分钟(平均时间安装在车内)后,
·系统会自动回复给用户,并说:
·系统:“Greg,你想要我开始导航到你的家,呼叫你的妻子。
·用户:是=>对Celine Malvoisin的呼叫动作正在启动
·用户:否=>代理不做任何事情,并注意到意图学习项目的降级。
在一个实施例中,创建IL以限制与用户的ASR交互,并优化在代理需要执行的任何动作上实现的时间。IL基于当前上下文存储通用工作流执行,并要求其本身找不到的参数。
我还有很多其他的系统IL样本,我将在下周进行部署。我是法国人,英语ASR系统不能很好地识别我的声音(关于我的法语口音),在这种情况下我想用系统以英文向你发送文本,我可以使用样本2,然后在发送文本之前,我可以要求用英文翻译文本(如果你愿意的话,我有演示),系统将用英语翻译我的法语句子并发送给你。在同一时间,他将理解你在说英语,并将针对来自你的任何消息(在验证你以英文发送给我的文本之前)使用英文的TTS(默认情况下)你你。//有趣的是,我们如何能够轻松地拆分复杂的任务;p=通过语音实时文本翻译。
另一个有趣的一点是,我们可以断开上下文或意图,以从工作流应用程序中任何地方将优先权给任何关键字或快捷方式句子。
附录E:上下文
上下文:现有个人助理的现状
今天,个人助理已经有了第一级的上下文,主要是帮助他们理解用户的句子,并尝试认清这些词。以下示例解释了它们如何工作
·我想呼叫Renaud=>名字
·我正在驾驶Renault=>品牌车
这里是关系和上下文定义以定义系统需要解释并发回给用户哪个[Renaud,Renault]。上下文也被用在特定情况下如天气怎么样...和明天(本地化为上下文变量,但它只是具有在两个步骤之间共享的简单的本地化变量的过程)。
挑战
个人助理的主要挑战是在用户和代理之间建立真正的对话交换。
要理解这一方面,我们需要了解“真正的对话”的资格:
·继续对话管理作为任何人的讨论(不是问题回答)
o能够询问有关雅虎的信息...谁是创始人,什么是股票和新闻(代理记住主题)
·上下文对话信息记忆:短,中,长期
o能够记住讨论流中的信息
·过程工作流记忆的上下文状态:短期,中期和长期
o能够记住在进程或讨论工作流程(生成或不生成动作)中在何处(步骤),以便给出在将来的任何时间继续进行流程或工作流的能力。
除此之外,我们需要生成通过代理使用的语言的演变以与用户交换。而且,除此之外,我们还需要从代理那里得到共鸣的看法。
xBrainSoft的通用上下文管理
上下文中,如我们上次呼叫期间解释的,由4个部件构建:
1.上下文客户端持有者(CCSH)
该第一个部件允许来自客户端(机器人、智能手机、车辆、家、...)的上下文工作流程的客户端存储、使用和定义(值)以与服务器端共享。CCSH是具有API的Fx以用于从客户端创建、使用和定义上下文工作流的值,并通过下面的CSP发送它。
2.上下文同步协议(CSP)
第二个部件定义了针对当前上下文的状态或子状态的每个属性(变量)的密钥访问(上下文ID)的协议(标准化),它验证密钥访问的格式和存在。它们可以是一个简单的文本变量(Name/Value)或具有他实例的特定对象。CSP的目标是通信协议,它通过代理(客户端/服务器)两侧的2框架构建,它负责验证客户端和服务器之间的正确协议通信,并确保上下文信息被正确传递和同步化。
3.上下文代理-服务器端持有者(CA)
第三个部件允许来自服务器端(在线服务器)的上下文工作流的服务器存储、使用和定义(值)通过CSP与客户端共享。CA是一个带有API的Fx以用于从服务器端创建、使用和定义上下文工作流的值,并通过上面的CSP发送它。
4.上下文引擎
最后一个部件允许在数据存储(任何支持)上的变量共享级别和中长期会话。
短期存储由客户端和服务器端共享的当前会话进行管理。
它可以定义主题的上下文类型的类型或分类(变量可以是简单变量或序列化对象+值)。
1.当前用户简档=关于用户简档的任何信息(Facebook简档,应用简档,...)
2.当前模块=关于模块的任何信息(电话、消息、导航、新闻、...)
3.当前功能=有关功能的任何信息(拨打电话、接收呼叫、发送短信、阅读新闻、分享新闻,...)
1.针对呼叫Louis Monier呼叫Louis可以从学习Louis=Louis Monier的中长期上下文引擎加载。
4.当前屏幕=当前示出给用户的有关屏幕的任何信息。
5.用户数据=API让开发者在他想要的任何方面使用上下文(新的上下文形状)
6.工作流程历史=任何信息关于用户的工作流的位置,信息关于:经示出的或示出的屏幕、在特定步骤的变量值、工作流程状态、...
1.我要求在Facebook上共享新闻,并且在我说“继续”之后,代理将进行到针对当前类别的新闻列表中的下一个新闻。代理从上下文中知道:当前类别,新闻阅读中的步骤它是什么方…并且它可以以用户需要的正确意图发送给我。
处理
1.语音和连接平台正在以同步和异步模式工作,我们需要随时验证客户端和服务器端之间的上下文的完美同步。
2.每个模块、功能、屏幕、应用程序、会话或任何状态和更多需要使用唯一ID(上下文ID)进行标识,以在客户端和服务器之间共享。
3.上下文ID(信息存储存储器)及其值存储在代理(客户端/服务器端)的每一侧,并且在每次交互时都在双方之间进行同步。
4.上下文ID允许:
1.基于变量(简单变量或对象)的值创建过滤器和上下文操作:如果...那么...那...
2.在中期或长期存储查找需要加载到短期记忆中的信息(或通过从全球用户行为的机器学习/应用级别,针对请求值的概率)
3.了解我们在工作流程中的步骤,之前的步骤(或通过从全球用户行为机器学习,下一步的概率)。
4…以及我们正在从这个创新中发现更多。
它如何工作(生命周期)
·在任何ASR之后和就在NLU进程之前,该设备利用句子消息从设备发送带有当前上下文ID的隐藏部分。
·在执行任何自然语言理解之前,代理查看密钥访问(上下文ID)
o代理正在查看内容并过滤动作的全局语言字典和理解当前的上下文。
·代理在上下文理解中启动NLU进程
o动作是启动(API访问或知识访问)
o代理解释用户查询的意义...(见以前的邮件)
·在给出答案到设备(或任何种类的终端点)之前,
o代理通过隐藏部分中的应答消息发送新的上下文(模块/功能/屏幕)(如HTML页面的标题)
o新的上下文可以从许多变量定义:
·终端点单元中的当前屏幕
·当前模块,功能
·用户的句子、对话和选择工作流。
·代理合并答案(具有语音、屏幕、信息的包)以发送到设备(终端点)用以呈现给用户。
·客户端执行包并存储当前上下文。
o可以从任何屏幕、功能或模块强制上下文。在主屏幕的情况下,我们强制上下文的重置,并让用户从与代理的干净交互开始。
在服务器与客户端(终端点)之间的上下文冲突的情况下,客户端(终端点:设备、车辆、家庭)是控制者,因为他代表用户的行为(真正的控制者)。
使用样本:
·上下文件化Louis以选择当选择用户说:我想呼叫Louis(基于他的历史调用行为)=>呼叫Louis Monier
·上下文化过程执行:向Louis发送消息
o系统知道:消息=email,Louis=Louis Monier
o允许语音快捷方式...并在工作流程中剪切两个步骤以向Louis Monier发送电子邮件。
·上下文化下一步骤以执行:在许多会话中,我要求新闻订阅=生态、政治和体育。下一次我要求生态,代理将提议你阅读政治和体育新闻。
·基于应用程序全局预测工作流,上下文化下一步。
·下文化所请求的动作,并理解其不针对当前上下文,并能将其用于上一个动作。
o我正在阅读新闻列表,我要求天气,我说“继续”,代理去到下一个消息。
·将特定单词上下文化为“音乐”...在可能是音乐新闻或“你手机上的音乐的新闻的上下文中询问。
o在音乐上下文外,显然可以访问设备的音乐曲目
o在新闻上下文中,它可以播放新闻的音乐,代理理解并回复用户要求更高的精度。
o如果用户说,在新闻上下文播放音乐,代理理解用户不想阅读新闻。
·因为我们知道当前的上下文,所以我们可以将任何输入的语音识别上下文化,然后在尝试理解句子的意义之前改变句子中的单词,或者相反,扩展特定上下文中可用的词汇表来开始任何动作。
o第二个效果是我们不需要创建可能的模式来验证动作(例如:音乐可以在任何句子中捕获,在根屏幕的上下文中短或长以启动播放音乐的动作)
o第三个效果是翻译,因为你你可以针对每个上下文模块/功能/屏幕限制关键字以捕获用户意图的动作
·在电视上下文中玩是玩游戏或电视节目
·在运动的上下文中玩是玩新游戏
·在迪斯科舞厅的上下文中玩是播放音乐
·...1个字,很多意图依靠上下文...在任何语言中容易翻译
o第四个效果是任何代理的支持,因为字典可以非常有限。
在新闻广播员的情况下,我们抓住“新闻”(+同义词)和新闻主题实体。
·创建任务优先级管道
o我当前正在为联系人创建消息(一般来说,我想去动作的结尾)
o在这个时间期间我从联系人接收文本,系统将查看当前上下文并知道用户何时处于消息的创建的过程中,他不需要中断当前动作
o代理程序创建消息流水线,在创建消息上下文结束时,他会建议我阅读消息(当上下文正在改变时)
·翻译依靠上下文的任何消息
o我创建一个消息给Mark(他正在说英语,我用法语创建消息),基于消息的上下文,系统知道,他需要验证发送之前他是否知道接收者的语言以翻译它。
上下文工作流是从用户会话结束开始的过程工作流中的上下文矩阵(模块,功能,屏幕)的状态。我们创建的一个系统允许计算机从意图学习创建来自集体智慧(数字直觉生成)的直觉。
只是关于前面的几个注意事项:
·如解释的,我们正工作在同步和异步模式中。
o这2个路径被用于允许针对异步模式的主动性和更多。
o允许双方知道哪里是对话的每一方上的两个状态。
·针对生命周期的插件:
o针对第一点:也可以在应用程序导航(触觉交互)期间发送,不仅来自ASR。
o针对第5点:包可以与全部或部分内容一块发送
·我们可以发送所有元素,而不需要集成语音,并在这种情况下,代理将管理整个渲染以及上下文的创建/编辑。
Claims (18)
1.一种处理语音输入的计算机实现的方法,包括:
检测事件;
响应于检测到所述事件,主动启动第一用户设备上的语音助理与用户的对话;
响应于启动与所述用户的所述对话,在所述第一用户设备处从所述用户接收与所述对话相关联的、请求第一动作的第一音频输入;
对所述第一音频输入执行自动语音识别;
在所述第一用户设备处确定所述用户的第一上下文;
确定描述用户意图的第一元组,所述第一元组包括所述第一动作和与所述第一动作相关联的动作者,所述第一元组通过基于所述第一音频输入的所述自动语音识别来执行自然语言理解而被确定;
基于所述第一元组在所述第一用户设备上启动所述第一动作;
在启动所述第一动作之后,从所述用户接收请求与所述第一动作无关的第二动作的第二音频输入;
启动所述第二动作;
在启动所述第二动作之后,在与所述第一用户设备不同的第二用户设备处从所述用户接收继续所述对话并且请求与所述第一动作有关的第三动作的第三音频输入,所述第三音频输入缺失用于完成第三元组的信息,所述第三元组用于启动所述第三动作;
使用所述第一上下文获取缺失的所述信息以完成与所述第三动作相关联的所述第三元组;以及
基于所述第三元组,在所述第二用户设备上启动所述第三动作。
2.根据权利要求1所述的计算机实现的方法,其中所述事件是内部事件。
3.根据权利要求1所述的计算机实现的方法,还包括:
在没有用户输入的情况下启动所述语音助理,并且在所述语音助理的启动之后从所述用户接收所述第一音频输入。
4.根据权利要求1所述的计算机实现的方法,其中所述第一上下文包括以下各项中的一项或多项:上下文历史、对话历史、用户简档、用户历史、位置以及当前上下文域。
5.根据权利要求1所述的计算机实现的方法,其中缺失的所述信息是以下各项中的一项或多项:所述第三动作、与所述第三动作相关联的动作者以及与所述第三动作相关联的实体。
6.根据权利要求1所述的计算机实现的方法,还包括:
确定所述第一上下文和所述第一音频输入缺失用于启动所述第一动作的第一信息;
确定什么信息是缺失的所述第一信息;以及
提示所述用户提供供应缺失的所述第一信息的音频输入。
7.根据权利要求1所述的计算机实现的方法,还包括:
确定用于启动所述第一动作的第一信息不能从所述第一音频输入被获得;
确定什么信息是缺失的所述第一信息;和
提示所述用户提供供应不能从所述第一音频输入被获取的缺失的所述第一信息的音频输入。
8.根据权利要求1所述的计算机实现的方法,还包括:
确定用于启动所述第一动作的第一信息不能从所述第一音频输入被获得;
确定什么信息是缺失的所述第一信息;
提供由所述用户对多个选项的选择,选项供应用于完成所述第一动作的潜在信息;以及
接收从所述多个选项中选择第一选项的音频输入。
9.根据权利要求1所述的计算机实现的方法,其中与所述第一动作无关的所述第二动作与第二上下文相关联,并且所述第一动作和所述第三动作与所述第一上下文相关联。
10.一种处理音频输入的系统,包括:
一个或多个处理器;以及
存储指令的存储器,所述指令当由所述一个或多个处理器执行时,使所述系统执行以下步骤:
检测事件;
响应于检测到所述事件,主动启动第一用户设备上的语音助理与用户的对话;
响应于启动与所述用户的所述对话,在所述第一用户设备处从所述用户接收与所述对话相关联的、请求第一动作的第一音频输入;
对所述第一音频输入执行自动语音识别;
在所述第一用户设备处确定所述用户的第一上下文;
确定描述用户意图的第一元组,所述第一元组包括所述第一动作和与所述第一动作相关联的动作者,所述第一元组通过基于所述第一音频输入的所述自动语音识别来执行自然语言理解而被确定;以及
基于所述第一元组在所述第一用户设备上启动所述第一动作;
在启动所述第一动作之后,从所述用户接收请求与所述第一动作无关的第二动作的第二音频输入;
启动所述第二动作;
在启动所述第二动作之后,在与所述第一用户设备不同的第二用户设备处从所述用户接收继续所述对话并且请求与所述第一动作有关的第三动作的第三音频输入,所述第三音频输入缺失用于完成第三元组的信息,所述第三元组用于启动所述第三动作;
使用所述第一上下文获取缺失的所述信息以完成与所述第三动作相关联的所述第三元组;以及
基于所述第三元组,在所述第二用户设备上启动所述第三动作。
11.根据权利要求10所述的系统,其中所述事件是内部事件。
12.根据权利要求10所述的系统,其中所述指令当被所述一个或多个处理器执行时使所述系统:
在没有用户输入的情况下启动所述语音助理,并且在所述语音助理的启动之后从所述用户接收所述第一音频输入。
13.根据权利要求10所述的系统,其中所述第一上下文包括以下各项中的一项或多项:上下文历史、对话历史、用户简档、用户历史、位置以及当前上下文域。
14.根据权利要求10所述的系统,其中缺失的所述信息是以下各项中的一项或多项:所述第三动作、与所述第三动作相关联的动作者以及与所述第三动作相关联的实体。
15.根据权利要求10所述的系统,其中所述指令当被所述一个或多个处理器执行时使所述系统:
确定所述第一上下文和所述第一音频输入缺失用于启动所述第一动作的第一信息;
确定什么信息是缺失的所述第一信息;以及
提示所述用户提供供应缺失的所述第一信息的音频输入。
16.根据权利要求10所述的系统,其中所述指令当被所述一个或多个处理器执行时使所述系统:
确定用于启动所述第一动作的第一信息不能从所述第一音频输入被获取;
确定什么信息是缺失的所述第一信息;和
提示所述用户提供供应不能从所述第一音频输入被获取的缺失的所述第一信息的音频输入。
17.根据权利要求10所述的系统,其中所述指令当所述一个或多个处理器执行时使所述系统:
确定用于启动所述第一动作的第一信息不能从所述第一音频输入被获取;
确定什么信息是缺失的所述第一信息;
提供由所述用户对多个选项的选择,选项供应用于完成所述第一动作的潜在信息;以及
接收从所述多个选项中选择第一选项的音频输入。
18.根据权利要求10所述的系统,其中与所述第一动作无关的所述第二动作与第二上下文相关联,并且所述第一动作和所述第三动作与所述第一上下文相关联。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462058508P | 2014-10-01 | 2014-10-01 | |
US62/058,508 | 2014-10-01 | ||
PCT/US2015/053251 WO2016054230A1 (en) | 2014-10-01 | 2015-09-30 | Voice and connection platform |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107004410A CN107004410A (zh) | 2017-08-01 |
CN107004410B true CN107004410B (zh) | 2020-10-02 |
Family
ID=55631440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580060712.5A Expired - Fee Related CN107004410B (zh) | 2014-10-01 | 2015-09-30 | 语音和连接平台 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10235996B2 (zh) |
EP (1) | EP3201913A4 (zh) |
JP (1) | JP6671379B2 (zh) |
KR (1) | KR102342623B1 (zh) |
CN (1) | CN107004410B (zh) |
CA (1) | CA2962636A1 (zh) |
WO (1) | WO2016054230A1 (zh) |
Families Citing this family (308)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10630751B2 (en) | 2016-12-30 | 2020-04-21 | Google Llc | Sequence dependent data message consolidation in a voice activated computer network environment |
US10956485B2 (en) | 2011-08-31 | 2021-03-23 | Google Llc | Retargeting in a search environment |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9703757B2 (en) | 2013-09-30 | 2017-07-11 | Google Inc. | Automatically determining a size for a content item for a web page |
US10614153B2 (en) | 2013-09-30 | 2020-04-07 | Google Llc | Resource size-based content item selection |
US10431209B2 (en) | 2016-12-30 | 2019-10-01 | Google Llc | Feedback controller for data transmissions |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106572418A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种语音助手的扩展设备及其工作方法 |
US10083685B2 (en) * | 2015-10-13 | 2018-09-25 | GM Global Technology Operations LLC | Dynamically adding or removing functionality to speech recognition systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10354653B1 (en) * | 2016-01-19 | 2019-07-16 | United Services Automobile Association (Usaa) | Cooperative delegation for digital assistants |
KR102642666B1 (ko) * | 2016-02-05 | 2024-03-05 | 삼성전자주식회사 | 음성인식 장치 및 방법, 음성인식시스템 |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10332516B2 (en) | 2016-05-10 | 2019-06-25 | Google Llc | Media transfer among media output devices |
KR102177786B1 (ko) | 2016-05-13 | 2020-11-12 | 구글 엘엘씨 | 미디어 출력 디바이스들 사이의 미디어 전달 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10462619B2 (en) * | 2016-06-08 | 2019-10-29 | Google Llc | Providing a personal assistant module with a selectively-traversable state machine |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10339934B2 (en) | 2016-06-27 | 2019-07-02 | Google Llc | Asynchronous processing of user requests |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) * | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10685656B2 (en) | 2016-08-31 | 2020-06-16 | Bose Corporation | Accessing multiple virtual personal assistants (VPA) from a single device |
US10074369B2 (en) | 2016-09-01 | 2018-09-11 | Amazon Technologies, Inc. | Voice-based communications |
KR20190032557A (ko) * | 2016-09-01 | 2019-03-27 | 아마존 테크놀로지스, 인크. | 음성 기반 통신 |
US10453449B2 (en) | 2016-09-01 | 2019-10-22 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10580404B2 (en) | 2016-09-01 | 2020-03-03 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10810571B2 (en) | 2016-10-13 | 2020-10-20 | Paypal, Inc. | Location-based device and authentication system |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10565989B1 (en) * | 2016-12-16 | 2020-02-18 | Amazon Technogies Inc. | Ingesting device specific content |
WO2018117608A1 (ko) * | 2016-12-20 | 2018-06-28 | 삼성전자 주식회사 | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
KR102502220B1 (ko) | 2016-12-20 | 2023-02-22 | 삼성전자주식회사 | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11164570B2 (en) | 2017-01-17 | 2021-11-02 | Ford Global Technologies, Llc | Voice assistant tracking and activation |
CN108235810B (zh) * | 2017-01-22 | 2020-11-17 | 华为技术有限公司 | 智能处理应用事件的方法、装置与计算机可读存储介质 |
US10365932B2 (en) | 2017-01-23 | 2019-07-30 | Essential Products, Inc. | Dynamic application customization for automated environments |
US9747083B1 (en) | 2017-01-23 | 2017-08-29 | Essential Products, Inc. | Home device application programming interface |
CN107800896B (zh) * | 2017-02-20 | 2020-01-17 | 平安科技(深圳)有限公司 | 电话业务交互方法和装置 |
US10332505B2 (en) | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
WO2018174443A1 (en) * | 2017-03-23 | 2018-09-27 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium |
KR102369309B1 (ko) * | 2017-03-24 | 2022-03-03 | 삼성전자주식회사 | 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10643609B1 (en) * | 2017-03-29 | 2020-05-05 | Amazon Technologies, Inc. | Selecting speech inputs |
US10529327B1 (en) * | 2017-03-29 | 2020-01-07 | Parallels International Gmbh | System and method for enabling voice recognition for operating system |
CN109417504A (zh) * | 2017-04-07 | 2019-03-01 | 微软技术许可有限责任公司 | 自动聊天中的语音转发 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
US10848591B2 (en) | 2017-04-25 | 2020-11-24 | Amazon Technologies, Inc. | Sender and recipient disambiguation |
US10605609B2 (en) | 2017-05-03 | 2020-03-31 | Microsoft Technology Licensing, Llc | Coupled interactive devices |
US10671602B2 (en) * | 2017-05-09 | 2020-06-02 | Microsoft Technology Licensing, Llc | Random factoid generation |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
KR102100742B1 (ko) * | 2017-05-16 | 2020-04-14 | 애플 인크. | 디지털 어시스턴트 서비스의 원거리 확장 |
US10009666B1 (en) | 2017-05-16 | 2018-06-26 | Google Llc | Cross-device handoffs |
US10983753B2 (en) * | 2017-06-09 | 2021-04-20 | International Business Machines Corporation | Cognitive and interactive sensor based smart home solution |
US10528228B2 (en) | 2017-06-21 | 2020-01-07 | Microsoft Technology Licensing, Llc | Interaction with notifications across devices with a digital assistant |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
KR102426704B1 (ko) * | 2017-08-28 | 2022-07-29 | 삼성전자주식회사 | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US12099938B2 (en) | 2017-08-31 | 2024-09-24 | Microsoft Technology Licensing, Llc | Contextual skills discovery |
US10388285B2 (en) * | 2017-08-31 | 2019-08-20 | International Business Machines Corporation | Generating chat bots from web API specifications |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10719592B1 (en) | 2017-09-15 | 2020-07-21 | Wells Fargo Bank, N.A. | Input/output privacy tool |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10951558B2 (en) | 2017-09-27 | 2021-03-16 | Slack Technologies, Inc. | Validating application dialog associated with a triggering event identification within user interaction data received via a group-based communication interface |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
WO2019070230A1 (en) * | 2017-10-03 | 2019-04-11 | Google Llc | COORDINATION OF MULTIPLE DIGITAL ASSISTANT IN VEHICULAR ENVIRONMENTS |
US10516637B2 (en) * | 2017-10-17 | 2019-12-24 | Microsoft Technology Licensing, Llc | Smart communications assistant with audio interface |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
US10645035B2 (en) * | 2017-11-02 | 2020-05-05 | Google Llc | Automated assistants with conference capabilities |
CN107833574B (zh) * | 2017-11-16 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN107990908B (zh) * | 2017-11-20 | 2020-08-14 | Oppo广东移动通信有限公司 | 一种基于蓝牙通信的语音导航方法及装置 |
CN107993657A (zh) * | 2017-12-08 | 2018-05-04 | 广东思派康电子科技有限公司 | 一种基于多个语音助手平台的切换方法 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
KR102506866B1 (ko) | 2017-12-13 | 2023-03-08 | 현대자동차주식회사 | 차량 환경에서 선발화 안내 장치, 방법 및 시스템 |
US10372825B2 (en) * | 2017-12-18 | 2019-08-06 | International Business Machines Corporation | Emotion detection and expression integration in dialog systems |
KR102209092B1 (ko) * | 2017-12-18 | 2021-01-28 | 네이버 주식회사 | 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템 |
TWI651714B (zh) * | 2017-12-22 | 2019-02-21 | 隆宸星股份有限公司 | 語音選項選擇系統與方法以及使用其之智慧型機器人 |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
US10719832B1 (en) | 2018-01-12 | 2020-07-21 | Wells Fargo Bank, N.A. | Fraud prevention tool |
JP2019128374A (ja) * | 2018-01-22 | 2019-08-01 | トヨタ自動車株式会社 | 情報処理装置、及び情報処理方法 |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11024307B2 (en) | 2018-02-08 | 2021-06-01 | Computime Ltd. | Method and apparatus to provide comprehensive smart assistant services |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US11676062B2 (en) | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11100146B1 (en) * | 2018-03-23 | 2021-08-24 | Amazon Technologies, Inc. | System management using natural language statements |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN108563633B (zh) * | 2018-03-29 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种语音处理方法和服务器 |
EP4343757A3 (en) * | 2018-04-23 | 2024-05-29 | Google LLC | Transferring an automated assistant routine between client devices during execution of the routine |
CN108961711B (zh) * | 2018-04-28 | 2020-06-02 | 深圳市牛鼎丰科技有限公司 | 遥控移动装置的控制方法、装置、计算机设备和存储介质 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
WO2019214799A1 (en) * | 2018-05-07 | 2019-11-14 | Bayerische Motoren Werke Aktiengesellschaft | Smart dialogue system and method of integrating enriched semantics from personal and contextual learning |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
JP7155605B2 (ja) * | 2018-05-22 | 2022-10-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11100935B2 (en) * | 2018-06-05 | 2021-08-24 | Samsung Electronics Co., Ltd. | Voice assistant device and method thereof |
US11437029B2 (en) | 2018-06-05 | 2022-09-06 | Voicify, LLC | Voice application platform |
US10803865B2 (en) | 2018-06-05 | 2020-10-13 | Voicify, LLC | Voice application platform |
US10235999B1 (en) | 2018-06-05 | 2019-03-19 | Voicify, LLC | Voice application platform |
US10636425B2 (en) | 2018-06-05 | 2020-04-28 | Voicify, LLC | Voice application platform |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN117316150A (zh) * | 2018-06-28 | 2023-12-29 | 搜诺思公司 | 用于将回放设备与语音助理服务相关联的系统和方法 |
WO2020026799A1 (ja) * | 2018-07-31 | 2020-02-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN108899027B (zh) * | 2018-08-15 | 2021-02-26 | 珠海格力电器股份有限公司 | 语音解析方法及装置 |
EP3631614A1 (en) * | 2018-08-21 | 2020-04-08 | Google LLC | Automated assistant invocation of second interactive module using supplemental data provided by first interactive module |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
CN110867182B (zh) * | 2018-08-28 | 2022-04-12 | 仁宝电脑工业股份有限公司 | 多语音助理的控制方法 |
KR20200024511A (ko) * | 2018-08-28 | 2020-03-09 | 삼성전자주식회사 | 대화 에이전트의 동작 방법 및 그 장치 |
KR20200027753A (ko) * | 2018-09-05 | 2020-03-13 | 삼성전자주식회사 | 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법 |
CN109348353B (zh) * | 2018-09-07 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 智能音箱的服务处理方法、装置和智能音箱 |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11016968B1 (en) * | 2018-09-18 | 2021-05-25 | Amazon Technologies, Inc. | Mutation architecture for contextual data aggregator |
CN109344229A (zh) * | 2018-09-18 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 对话分析评价的方法、装置、计算机设备和存储介质 |
CN109102805A (zh) * | 2018-09-20 | 2018-12-28 | 北京长城华冠汽车技术开发有限公司 | 语音交互方法、装置及实现装置 |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11152003B2 (en) | 2018-09-27 | 2021-10-19 | International Business Machines Corporation | Routing voice commands to virtual assistants |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11017028B2 (en) | 2018-10-03 | 2021-05-25 | The Toronto-Dominion Bank | Systems and methods for intelligent responses to queries based on trained processes |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US10877964B2 (en) | 2018-10-23 | 2020-12-29 | Dennis E. Brown | Methods and systems to facilitate the generation of responses to verbal queries |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109637519B (zh) * | 2018-11-13 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
CN109462753B (zh) * | 2018-11-19 | 2021-12-03 | 视联动力信息技术股份有限公司 | 一种视联网多会议测试系统和方法 |
US10811011B2 (en) * | 2018-11-21 | 2020-10-20 | Motorola Solutions, Inc. | Correcting for impulse noise in speech recognition systems |
CN109658925A (zh) * | 2018-11-28 | 2019-04-19 | 上海蔚来汽车有限公司 | 一种基于上下文的免唤醒车载语音对话方法及系统 |
KR20210099629A (ko) * | 2018-12-06 | 2021-08-12 | 베스텔 일렉트로닉 사나이 베 티카레트 에이에스 | 음성제어가능 전자 장치에 대한 커맨드를 생성하는 기술 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US10861446B2 (en) * | 2018-12-10 | 2020-12-08 | Amazon Technologies, Inc. | Generating input alternatives |
US10783901B2 (en) * | 2018-12-10 | 2020-09-22 | Amazon Technologies, Inc. | Alternate response generation |
DE102018221712B4 (de) * | 2018-12-13 | 2022-09-22 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11037559B2 (en) | 2018-12-27 | 2021-06-15 | At&T Intellectual Property I, L.P. | Voice gateway for federated voice services |
CN109361527B (zh) * | 2018-12-28 | 2021-02-05 | 苏州思必驰信息科技有限公司 | 语音会议记录方法及系统 |
EP3788620B1 (en) * | 2018-12-28 | 2023-09-06 | Google LLC | Supplementing voice inputs to an automated assistant according to selected suggestions |
US10943588B2 (en) | 2019-01-03 | 2021-03-09 | International Business Machines Corporation | Methods and systems for managing voice response systems based on references to previous responses |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
WO2020162930A1 (en) * | 2019-02-06 | 2020-08-13 | Google Llc | Voice query qos based on client-computed content metadata |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
CN112908311A (zh) * | 2019-02-26 | 2021-06-04 | 北京蓦然认知科技有限公司 | 一种语音助手的训练和分享方法 |
JP7145105B2 (ja) * | 2019-03-04 | 2022-09-30 | 本田技研工業株式会社 | 車両制御システム、車両制御方法、およびプログラム |
US11645522B2 (en) * | 2019-03-05 | 2023-05-09 | Dhruv Siddharth KRISHNAN | Method and system using machine learning for prediction of stocks and/or other market instruments price volatility, movements and future pricing by applying random forest based techniques |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110009206B (zh) * | 2019-03-21 | 2023-06-20 | 五邑大学 | 一种定时语音评分方法、装置、设备和存储介质 |
CN115240664A (zh) * | 2019-04-10 | 2022-10-25 | 华为技术有限公司 | 一种人机交互的方法和电子设备 |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
WO2020222988A1 (en) | 2019-04-30 | 2020-11-05 | Apple Inc. | Utilizing context information with an electronic device |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11307752B2 (en) * | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
KR20200129922A (ko) * | 2019-05-10 | 2020-11-18 | 현대자동차주식회사 | 음성인식 기반 정보 제공 시스템 및 방법 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US10671941B1 (en) * | 2019-05-23 | 2020-06-02 | Capital One Services, Llc | Managing multifaceted, implicit goals through dialogue |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
CN110299132B (zh) * | 2019-06-26 | 2021-11-02 | 京东数字科技控股有限公司 | 一种语音数字识别方法和装置 |
US20210012791A1 (en) * | 2019-07-08 | 2021-01-14 | XBrain, Inc. | Image representation of a conversation to self-supervised learning |
FR3098632B1 (fr) * | 2019-07-11 | 2021-11-05 | Continental Automotive Gmbh | Système de reconnaissance d’instruction vocale pour véhicule |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
WO2021033889A1 (en) * | 2019-08-20 | 2021-02-25 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device |
CN111862966A (zh) * | 2019-08-22 | 2020-10-30 | 马上消费金融股份有限公司 | 智能语音交互方法以及相关装置 |
US11403462B2 (en) * | 2019-09-12 | 2022-08-02 | Oracle International Corporation | Streamlining dialog processing using integrated shared resources |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210036527A (ko) | 2019-09-26 | 2021-04-05 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 |
US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
US11861674B1 (en) | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11226801B2 (en) | 2019-10-30 | 2022-01-18 | Mastercard International Incorporated | System and methods for voice controlled automated computer code deployment |
US11423235B2 (en) * | 2019-11-08 | 2022-08-23 | International Business Machines Corporation | Cognitive orchestration of multi-task dialogue system |
EP3836043A1 (en) | 2019-12-11 | 2021-06-16 | Carrier Corporation | A method and an equipment for configuring a service |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111107156A (zh) * | 2019-12-26 | 2020-05-05 | 苏州思必驰信息科技有限公司 | 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互系统 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
CN111276133B (zh) * | 2020-01-20 | 2023-01-03 | 厦门快商通科技股份有限公司 | 音频识别方法、系统、移动终端及存储介质 |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11488594B2 (en) | 2020-01-31 | 2022-11-01 | Walmart Apollo, Llc | Automatically rectifying in real-time anomalies in natural language processing systems |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP7465700B2 (ja) * | 2020-03-27 | 2024-04-11 | 株式会社デンソーテン | 車載装置および車載装置における音声処理方法 |
US11201947B2 (en) * | 2020-04-21 | 2021-12-14 | Citrix Systems, Inc. | Low latency access to application resources across geographical locations |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
JP7347324B2 (ja) * | 2020-05-18 | 2023-09-20 | トヨタ自動車株式会社 | エージェント連携装置 |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
DE102020116458A1 (de) * | 2020-06-23 | 2021-12-23 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Individualisieren einer Sprachsteuerung, computerlesbares Speichermedium und System |
CN111564156B (zh) * | 2020-07-03 | 2021-01-26 | 杭州摸象大数据科技有限公司 | 外呼系统部署方法、装置、计算机设备及存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
TWI752682B (zh) * | 2020-10-21 | 2022-01-11 | 國立陽明交通大學 | 雲端更新語音辨識系統的方法 |
CN112291438B (zh) * | 2020-10-23 | 2021-10-01 | 北京蓦然认知科技有限公司 | 一种控制通话的方法及语音助手 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
EP4002061A1 (en) * | 2020-11-24 | 2022-05-25 | Inter IKEA Systems B.V. | A control device and a method for determining control data based on audio input data |
EP4016958A1 (en) * | 2020-12-15 | 2022-06-22 | Koninklijke Philips N.V. | Determining contextual information |
WO2022129065A1 (en) * | 2020-12-15 | 2022-06-23 | Koninklijke Philips N.V. | Determining contextual information |
US11595278B2 (en) * | 2020-12-16 | 2023-02-28 | Rovi Guides, Inc. | Systems and methods to automatically perform actions based on media content |
US11606465B2 (en) | 2020-12-16 | 2023-03-14 | Rovi Guides, Inc. | Systems and methods to automatically perform actions based on media content |
US11749079B2 (en) | 2020-12-16 | 2023-09-05 | Rovi Guides, Inc. | Systems and methods to automatically perform actions based on media content |
CN112507139B (zh) * | 2020-12-28 | 2024-03-12 | 深圳力维智联技术有限公司 | 基于知识图谱的问答方法、系统、设备及存储介质 |
CN112863512B (zh) * | 2021-01-18 | 2024-04-30 | 深圳创维-Rgb电子有限公司 | 一种语音交互调用处理方法、装置、终端设备及存储介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11762871B2 (en) | 2021-01-29 | 2023-09-19 | Walmart Apollo, Llc | Methods and apparatus for refining a search |
CN112951241B (zh) * | 2021-01-29 | 2022-07-01 | 思必驰科技股份有限公司 | 用于ios的拾音识别方法及系统 |
DE102021103676A1 (de) | 2021-02-17 | 2022-08-18 | Audi Aktiengesellschaft | Verfahren zur Verbesserung der Gebrauchstauglichkeit eines Kraftfahrzeugs, Kraftfahrzeug sowie Computerprogrammprodukt |
JP7529130B2 (ja) | 2021-02-18 | 2024-08-06 | 日本電信電話株式会社 | 学習装置、推定装置、それらの方法、およびプログラム |
KR20220118818A (ko) * | 2021-02-19 | 2022-08-26 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
TWI817106B (zh) * | 2021-04-14 | 2023-10-01 | 台達電子工業股份有限公司 | 查詢回饋裝置以及方法 |
US11885632B2 (en) | 2021-04-15 | 2024-01-30 | Google Llc | Conditional preparation for automated assistant input from a user in a vehicle |
US11842733B2 (en) | 2021-06-02 | 2023-12-12 | Kyndryl, Inc. | Artificial intelligence system for tasks |
US20230080930A1 (en) * | 2021-08-25 | 2023-03-16 | Hyperconnect Inc. | Dialogue Model Training Method and Device Therefor |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
KR20230043397A (ko) * | 2021-09-24 | 2023-03-31 | 삼성전자주식회사 | 사용자 발화를 처리하는 서버, 전자 장치 및 그의 동작 방법 |
US20230402041A1 (en) * | 2022-06-10 | 2023-12-14 | International Business Machines Corporation | Individual recognition using voice detection |
US20240005096A1 (en) * | 2022-07-01 | 2024-01-04 | Maplebear Inc. (Dba Instacart) | Attribute prediction with masked language model |
US11990123B1 (en) * | 2023-06-24 | 2024-05-21 | Roy Rosser | Automated training of AI chatbots |
CN117457003B (zh) * | 2023-12-26 | 2024-03-08 | 四川蜀天信息技术有限公司 | 一种流式语音识别方法、装置、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645477A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用用户纠正的自动语音识别学习 |
CN1981257A (zh) * | 2004-07-08 | 2007-06-13 | 皇家飞利浦电子股份有限公司 | 在用户和系统之间进行通信的方法和系统 |
CN101292282A (zh) * | 2005-08-29 | 2008-10-22 | 沃伊斯博克斯科技公司 | 支持自然语言人机交互的移动系统和方法 |
CN101535983A (zh) * | 2006-10-16 | 2009-09-16 | 沃伊斯博克斯科技公司 | 协作会话语音用户界面的系统和方法 |
WO2014130696A2 (en) * | 2013-02-22 | 2014-08-28 | Next It Corporation | Interaction with a portion of a content item through a virtual assistant |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6192339B1 (en) * | 1998-11-04 | 2001-02-20 | Intel Corporation | Mechanism for managing multiple speech applications |
US6330537B1 (en) * | 1999-08-26 | 2001-12-11 | Matsushita Electric Industrial Co., Ltd. | Automatic filtering of TV contents using speech recognition and natural language |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US20010047261A1 (en) * | 2000-01-24 | 2001-11-29 | Peter Kassan | Partially automated interactive dialog |
JP4066616B2 (ja) * | 2000-08-02 | 2008-03-26 | トヨタ自動車株式会社 | 内燃機関の自動始動制御装置及び動力伝達状態検出装置 |
US7149695B1 (en) * | 2000-10-13 | 2006-12-12 | Apple Computer, Inc. | Method and apparatus for speech recognition using semantic inference and word agglomeration |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
US7085723B2 (en) * | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
US6925154B2 (en) * | 2001-05-04 | 2005-08-02 | International Business Machines Corproation | Methods and apparatus for conversational name dialing systems |
JP3963698B2 (ja) * | 2001-10-23 | 2007-08-22 | 富士通テン株式会社 | 音声対話システム |
WO2004092967A1 (ja) * | 2003-04-14 | 2004-10-28 | Fujitsu Limited | 対話装置、対話方法及び対話プログラム |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP2006127148A (ja) * | 2004-10-28 | 2006-05-18 | Fujitsu Ltd | 音声自動対話システムにおける情報処理方法 |
JP4405370B2 (ja) * | 2004-11-15 | 2010-01-27 | 本田技研工業株式会社 | 車両用機器制御装置 |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
JP4461047B2 (ja) * | 2005-03-31 | 2010-05-12 | 株式会社ケンウッド | ナビゲーション装置、av装置、アシスタント表示方法、アシスタント表示用プログラム、および電子機器システム |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
US20070061335A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Multimodal search query processing |
US20070078653A1 (en) * | 2005-10-03 | 2007-04-05 | Nokia Corporation | Language model compression |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US8332218B2 (en) * | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
KR100873956B1 (ko) | 2006-08-17 | 2008-12-15 | 삼성전자주식회사 | 에뮬레이션 시스템 |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20090234635A1 (en) * | 2007-06-29 | 2009-09-17 | Vipul Bhatt | Voice Entry Controller operative with one or more Translation Resources |
US8595642B1 (en) * | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US20120259633A1 (en) * | 2011-04-07 | 2012-10-11 | Microsoft Corporation | Audio-interactive message exchange |
EP3392876A1 (en) * | 2011-09-30 | 2018-10-24 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9214157B2 (en) * | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US8406384B1 (en) * | 2012-01-18 | 2013-03-26 | Nuance Communications, Inc. | Universally tagged frequent call-routing user queries as a knowledge base for reuse across applications |
US8453058B1 (en) * | 2012-02-20 | 2013-05-28 | Google Inc. | Crowd-sourced audio shortcuts |
US9160844B2 (en) * | 2012-08-06 | 2015-10-13 | Angel.Com Incorporated | Conversation assistant |
US9217625B2 (en) | 2012-08-23 | 2015-12-22 | Intrepid Tactical Solutions, Inc. | Shotshell type ammunition usable in magazine-fed firearms, and methods of manufacturing such shotshell type ammunition |
US8606568B1 (en) * | 2012-10-10 | 2013-12-10 | Google Inc. | Evaluating pronouns in context |
US9085303B2 (en) * | 2012-11-15 | 2015-07-21 | Sri International | Vehicle personal assistant |
US10026400B2 (en) * | 2013-06-27 | 2018-07-17 | Google Llc | Generating dialog recommendations for chat information systems based on user interaction and environmental data |
US9292254B2 (en) * | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
US9466294B1 (en) * | 2013-05-21 | 2016-10-11 | Amazon Technologies, Inc. | Dialog management system |
EP3036594B1 (en) * | 2013-08-21 | 2021-05-26 | Ademco Inc. | Devices and methods for interacting with an hvac controller |
US10049656B1 (en) * | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
US20150162000A1 (en) * | 2013-12-10 | 2015-06-11 | Harman International Industries, Incorporated | Context aware, proactive digital assistant |
US9804820B2 (en) * | 2013-12-16 | 2017-10-31 | Nuance Communications, Inc. | Systems and methods for providing a virtual assistant |
US9460735B2 (en) * | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
US8938394B1 (en) * | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
RU2014111971A (ru) * | 2014-03-28 | 2015-10-10 | Юрий Михайлович Буров | Способ и система голосового интерфейса |
US9715875B2 (en) * | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9978362B2 (en) * | 2014-09-02 | 2018-05-22 | Microsoft Technology Licensing, Llc | Facet recommendations from sentiment-bearing content |
-
2015
- 2015-09-30 US US14/871,272 patent/US10235996B2/en active Active
- 2015-09-30 EP EP15846915.5A patent/EP3201913A4/en not_active Withdrawn
- 2015-09-30 CA CA2962636A patent/CA2962636A1/en active Pending
- 2015-09-30 JP JP2017538155A patent/JP6671379B2/ja not_active Expired - Fee Related
- 2015-09-30 KR KR1020177011922A patent/KR102342623B1/ko active IP Right Grant
- 2015-09-30 CN CN201580060712.5A patent/CN107004410B/zh not_active Expired - Fee Related
- 2015-09-30 WO PCT/US2015/053251 patent/WO2016054230A1/en active Application Filing
-
2019
- 2019-02-15 US US16/277,844 patent/US10789953B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1645477A (zh) * | 2004-01-20 | 2005-07-27 | 微软公司 | 使用用户纠正的自动语音识别学习 |
CN1981257A (zh) * | 2004-07-08 | 2007-06-13 | 皇家飞利浦电子股份有限公司 | 在用户和系统之间进行通信的方法和系统 |
CN101292282A (zh) * | 2005-08-29 | 2008-10-22 | 沃伊斯博克斯科技公司 | 支持自然语言人机交互的移动系统和方法 |
CN101535983A (zh) * | 2006-10-16 | 2009-09-16 | 沃伊斯博克斯科技公司 | 协作会话语音用户界面的系统和方法 |
WO2014130696A2 (en) * | 2013-02-22 | 2014-08-28 | Next It Corporation | Interaction with a portion of a content item through a virtual assistant |
Also Published As
Publication number | Publication date |
---|---|
JP2017535823A (ja) | 2017-11-30 |
JP6671379B2 (ja) | 2020-03-25 |
KR102342623B1 (ko) | 2021-12-22 |
US10789953B2 (en) | 2020-09-29 |
US20160098992A1 (en) | 2016-04-07 |
US10235996B2 (en) | 2019-03-19 |
US20190180750A1 (en) | 2019-06-13 |
KR20170070094A (ko) | 2017-06-21 |
CN107004410A (zh) | 2017-08-01 |
CA2962636A1 (en) | 2016-04-07 |
WO2016054230A1 (en) | 2016-04-07 |
EP3201913A1 (en) | 2017-08-09 |
EP3201913A4 (en) | 2018-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107004410B (zh) | 语音和连接平台 | |
KR102597571B1 (ko) | 자동으로 액션 그룹을 커스터마이징하도록 구성된 가상 어시스턴트 | |
CN108701454B (zh) | 对话系统中的参数收集和自动对话生成 | |
US10839806B2 (en) | Voice processing method and electronic device supporting the same | |
KR102233343B1 (ko) | 선택적으로 조종 가능한 상태 머신을 갖는 개인 보조 모듈 제공 | |
EP4033358B1 (en) | Remote invocation of mobile device actions | |
US9172747B2 (en) | System and methods for virtual assistant networks | |
US20170277993A1 (en) | Virtual assistant escalation | |
EP4029012B1 (en) | Techniques for dialog processing using contextual data | |
US9997160B2 (en) | Systems and methods for dynamic download of embedded voice components | |
US11012384B2 (en) | Application initiated conversations for chatbots | |
US20210319360A1 (en) | Fast and scalable multi-tenant serve pool for chatbots | |
US10997963B1 (en) | Voice based interaction based on context-based directives | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
KR20200057426A (ko) | 음성 인식 기반 이미지를 표시하는 전자 장치 | |
US11455178B2 (en) | Method for providing routine to determine a state of an electronic device and electronic device supporting same | |
US20200051555A1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
EP3792912B1 (en) | Improved wake-word recognition in low-power devices | |
Celestino | Development and implementation of an automotive virtual assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201002 |
|
CF01 | Termination of patent right due to non-payment of annual fee |