CN110313151A - 来自共享设备的消息传送 - Google Patents
来自共享设备的消息传送 Download PDFInfo
- Publication number
- CN110313151A CN110313151A CN201780086777.6A CN201780086777A CN110313151A CN 110313151 A CN110313151 A CN 110313151A CN 201780086777 A CN201780086777 A CN 201780086777A CN 110313151 A CN110313151 A CN 110313151A
- Authority
- CN
- China
- Prior art keywords
- account
- group
- user account
- message
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 claims abstract description 287
- 238000012545 processing Methods 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 76
- 230000004044 response Effects 0.000 claims description 60
- 238000003860 storage Methods 0.000 claims description 58
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 6
- 230000001737 promoting effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 31
- 230000005236 sound signal Effects 0.000 description 29
- 239000013598 vector Substances 0.000 description 25
- 230000002618 waking effect Effects 0.000 description 22
- 238000001514 detection method Methods 0.000 description 16
- 235000012054 meals Nutrition 0.000 description 16
- 230000004913 activation Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 11
- 230000005611 electricity Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 239000003990 capacitor Substances 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000009432 framing Methods 0.000 description 6
- 241001269238 Data Species 0.000 description 5
- 230000000977 initiatory effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000004020 conductor Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011982 device technology Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000002305 electric material Substances 0.000 description 2
- 239000012212 insulator Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001062009 Indigofera Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- MRNHPUHPBOKKQT-UHFFFAOYSA-N indium;tin;hydrate Chemical compound O.[In].[Sn] MRNHPUHPBOKKQT-UHFFFAOYSA-N 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000035882 stress Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
- H04L51/046—Interoperability with other network applications or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/224—Monitoring or handling of messages providing notification on incoming messages, e.g. pushed notifications of received messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/303—Terminal profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本文描述了用于促进共享电子设备之间的通信的方法和系统。在一些实施方案中,可将群组账户分配给共享电子设备。所述群组账户可包括一个或多个用户账户,其中与这些用户账户相关联的个体可与所述共享电子设备交互,并且还可形成所述群组账户的一部分。当将消息从一个共享电子设备发送给另一个人设备或共享电子设备时,可将所述消息指示为是从所述群组账户发送的,如同所述共享电子设备对应于其自己单独的账户一样。在一些实施方案中,可采用说话者标识处理来确定所述消息的说话者,并且如果能够标识出所述说话者,则所述消息可以是从对应说话者的用户账户而不是所述共享电子设备的对应群组账户发送的。
Description
相关申请数据的交叉引用
本申请要求Cristo Frank Devaraj等人于2016年12月27日提交的标题为“Messaging From A Shared Device”的美国专利申请号15/390,944的优先权。
背景技术
电子设备的使用与日俱增。一些电子设备能够由多个用户使用。例如,共享电子设备可由许多不同个体(诸如共享电子设备所在的同一家庭中的成员)使用,以对这些个体的各种需要和请求提供便利。
附图说明
图1是根据各种实施方案的用于将消息从一个共享电子设备发送给另一共享电子设备的示例性系统的例示图;
图2是根据各种实施方案的图1的示例性系统架构的例示图;
图3是根据各种实施方案的示例性通信表的例示图;
图4A至图4D是根据各种实施方案的用于将消息从第一设备发送给第二设备的示例性过程的例示流程图;
图5是根据各种实施方案的用于输出消息并提供消息通知的另一示例性系统的例示图;并且
图6是根据各种实施方案的用于致使消息从第一设备输出的示例性过程的例示流程图。
具体实施方式
如下文所陈述,本公开总体涉及用于使用公共设备来发送和接收通信的方法和系统的各种实施方案。在一些实施方案中,各种类型的通信可包括但不限于音频通信、视频通信、图像通信(例如,图片、图形交换格式(“GIF”))、文本通信、信息消息(例如,超级链接、文件等)和/或它们的任何组合,或者任何其他另外的类型的通信。此类通信(在一些实施方案中,其也可称为消息)可被从一个设备发送给一个或多个另外的设备。
许多家庭、办公室、住宅和/或任何其他空间可包括一个或多个共享设备。例如,家庭可包括一个或多个语音激活电子设备。如本文所述,“共享设备”、“公共设备”和/或“多用户设备”可对应于能够由多个个体使用且具体地可被配置来由多个个体进行交互的的各种类型的电子设备。语音激活电子设备、声音激活电子设备和/或手动激活电子设备均可对应于示例性类型的共享设备。例如,位于这种共享设备附近的个体可能够通过语音、声音和/或物理输入与共享设备进行交互,这取决于特定设备的能力和配置。例如,语音激活电子设备可由一个或多个个体用于促成大量动作,诸如但不限于输出内容、获得信息、与另外的设备/系统交互,和/或与其他个体通信。作为例示性实例,个体可使用他们的语音激活电子设备来播放音乐、订餐、获得天气信息和/或将消息发送给朋友或家庭成员。
每个共享电子设备可与能够促进两个或更多个设备之间的通信的通信系统通信。为标识谁在发送特定消息和谁将接收所述特定消息,可使用专属于发起方和接收方设备的标识符来路由通信。例如,共享电子设备可具有允许通信系统标识所述共享电子设备所分配的对应群组账户的唯一设备标识符。在接收到设备标识符之后,可获得指示群组账户的对应群组账户标识符。此群组账户可具有可向所发送消息的接收方指示发送者的身份的名称、处理和/或其他类型的标识符。例如,第一个体可使用第一共享电子设备将通信发送给第二个体。第一共享电子设备可具有可链接到第一个体作为成员的第一群组账户的第一设备标识符。使用与第一群组账户相关联的联系人列表,可将第二个体标识为通信的目标,并且可确定与第二个体相关联的第二群组账户以及第二群组账户所分配的第二共享电子设备。然后,第二共享电子设备可接收通信以供第二个体或与第二共享电子设备相关联的任何其他个体消费。在一些实施方案中,通信系统可进一步向第二个体指示通信是从与第一共享设备相关联的第一群组账户发送的。例如,待发送给另一个体的消息可以指示发送者是第一群组账户的介绍消息-“您从Smith家接收到一条消息”开头。
在一些实施方案中,可执行说话者标识处理来确定或尝试确定针对另一个体的通信的说话者。使用上文实例,可对第一通信执行说话者标识处理。如果说话者标识处理确定通信的说话者标识符(诸如语音印记)对应于与第一个体的用户账户相关联的第一语音生物计量数据,则消息在由第二个体接收到时可被指示为是从第一个体的用户账户发送的。例如,待发送给另一个体的消息可以指示发送者是第一个体的用户账户的介绍消息-“您从John Smith家接收到一条消息”开头。然而,如果说话者标识处理未能确定消息的说话者,则通信可被指示为是从第一群组账户发送的,如上所述。
除将消息发送给一个或多个目标个体、设备之外,还可将通知发送给被分配给与接收方的群组账户相关联的用户账户的其他非共享设备(其可被称为个人设备)。例如,群组账户可通常链接到共享设备,并且群组账户可与一个或多个用户账户相关联。每个用户账户可对应于也与群组账户相关联的个体。例如,与群组账户相关联的用户账户可能够访问消息、呼叫,或群组账户接收到的任何其他类型的通信。作为例示性实例,家庭可具有与家庭的群组账户相关联的语音激活电子设备。每个家庭成员可具有能够在家庭群组账户的参数下操作的他们自己的用户账户。在一些实施方案中,每当群组账户接收到消息或更一般地通信时,也可向个人设备(例如,与特定个体的用户账户相关联的设备)提供通知。例如,使用上文实例,如果第二个体也具有链接到他们的用户账户(其也与第二个体的群组账户相关联)的个人设备,则响应于在第二个体的共享设备处接收到消息,也可向个人设备发送指示已接收到新消息的通知。
此外,在一些实施方案中,群组账户本身可包括一个或多个另外的群组账户。例如,可将第一群组账户分配给第一共享电子设备。第一群组账户还可包括被分配给第二共享电子设备但也可与第一群组账户相关联的第二群组账户。作为例示性实例,第一语音激活电子设备可位于家庭的第一房间内。所述第一语音激活电子设备可具有其所分配的第一群组账户。第二语音激活电子设备位于同一家庭的第二房间中。所述第二语音激活电子设备可具有其所分配且同时也作为第一群组账户的一部分的第二群组账户。
再者,可将通知发送给分配给与发送者的群组账户相关联的用户账户的其他非共享设备(例如,个人设备)。例如,群组账户可通常链接到共享设备,并且群组账户可包括一个或多个用户账户。每个用户账户可对应于也与群组账户相关联的个体。在一些实施方案中,每当所述群组账户发送消息或更一般地通信时,也可向个人设备(例如,与特定个体的用户账户相关联的设备)提供通知。例如,如果具有也由第一群组账户包括的用户账户的第一个体也具有个人设备,则响应于将消息发送给第二个体,也可向第一个体的个人设备发送指示已从它们的相关联群组账户发送新消息的通知。在一些实施方案中,如果说话者标识处理能够将第一个体标识为是说话者,则第一个体的个人设备可能无法接收到通知,然而,与也由第一群组账户包括的其他用户账户相关联的其他个人设备仍可接收到这种通知。
在一些实施方案中,个体可使用所述共享电子设备将消息发送给与共享电子设备相关联的群组账户。例如,个体可讲述话语“Alexa,send a message to my home’s groupaccount:‘Please pick up some milk’”。响应于确定唤醒词(例如,“Alexa”)被发出,共享电子设备可将表示话语的音频数据发送给言语处理系统。言语处理系统可使用说话者标识处理来确定话语的说话者对应于具有第一用户账户的第一用户。此外,言语处理系统还可确定共享电子设备与第一用户账户是其成员的第一群组账户相关联。例如,第一群组账户可与多个用户账户相关联,其中每个用户账户对应于共享电子设备的用户。在一个示例性实施方案中,第一群组账户可与两个或三个用户账户相关联。响应于确定消息的接收方是群组账户以及确定消息的发送者对应于与群组账户相关联的第一用户账户的第一用户,可为群组账户以及与群组账户相关联的任何其他用户账户存储消息。在一些实施方案中,消息可被存储为群组账户和用户账户中除第一用户账户外的每一个的未读消息,因为第一用户对应于消息的发送者。第一用户账户可具有所存储的消息,然而,消息可被标记为已读。
在一些实施方案中,可生成通知并将其发送给共享电子设备,其中通知致使共享电子设备的指示器指示已为群组账户接收到新消息。例如,可致使共享电子设备的一个或多个灯以指示已接收到消息并且特别地已为设备相关联的群组账户接收到消息的特定方式照亮。此外,在一个实施方案中,可生成通知并将其发送给与群组账户相关联的成员(例如,用户账户)(与发送者相关联的用户账户除外)相关联的各种个人设备。
在一些实施方案中,共享设备(诸如上述共享设备)可对应于声音控制的电子设备。其他类型的声音控制的电子设备可以是语音激活电子设备。特别地,语音激活电子设备可对应于能够响应于发出唤醒词而被激活的一种类型的声音控制的电子设备。在一些实施方案中,响应于确定已发出唤醒词,语音激活电子设备可将表示跟随在唤醒词之后的所说话语发送给用于处理并分析音频数据的言语处理系统。然后,言语处理系统可生成响应并将其发送给语音激活电子设备,以及,或者替代地,与用于获得待由语音激活电子设备呈现的内容的一个或多个另外的系统通信,和/或可致使一个或多个另外的电子设备输出内容和/或执行特定动作(例如,开灯、预热烤箱等)。另外,语音激活电子设备可将一个或多个唤醒词存储在其本地存储器内。如果作出从音频输入设备(例如,传声器)接收到的音频数据匹配唤醒词的确定,则语音激活电子设备可开始将表示由语音激活电子设备捕获的一些或全部的音频数据发送给言语处理系统。
在一些实施方案中,所说语音命令可以唤醒词开头,唤醒词也可被称为触发表达、唤醒表达或激活词。响应于检测到发出唤醒词,语音激活电子设备可被配置来检测跟随在检测到的唤醒词之后的任何词并将其解释为可行动的输入或命令。在一些实施方案中,语音激活电子设备可通过短语或词组来激活,语音激活电子设备也可被配置来检测所述短语或词组。因此,语音激活电子设备也可能够检测并解释跟随在所述短语或词组之后的任何词。
如本文所用,术语“唤醒词”可对应于“关键词”或“关键短语”、“一个激活词”或“多个激活词”,或者“触发器”、“触发词”或“触发表达”。一个示例性唤醒词可以是名字(诸如名字“Alexa”),然而本领域普通技术人员应认识到,任何词(例如,“Amazon”)或者一系列词(例如,“唤醒”或“你好,Alexa”)可替代地用作唤醒词。此外,唤醒词可由操作语音激活电子设备的个人设置或编程,并且在一些实施方案中,一个以上唤醒词(例如,两个或更多个不同的唤醒词)可用于激活语音激活电子设备。在又一实施方案中,用于激活语音激活电子设备的触发器可以是任何一系列时间上相关的声音。
如本文所用,术语“话语”可对应于所说的词、陈述或声音。在一些实施方案中,话语可包括唤醒词后续跟着调用,诸如请求、问题或命令。在此特定实例中,话语可以所说的唤醒词开始,并且可在说出最后一个词、音素或声音时结束。例如,话语可对应于问题,“Alexa-当前的天气怎么样?”。作为另一实例,话语可以是“Alexa-播放我的锻炼音乐”。再者,不需包括唤醒词的话语可以是“调高音量”或“呼叫妈妈”。
另一类型的声音控制的电子设备可以是声音激活电子设备。此类声音激活电子设备可类似于语音激活电子设备起作用,不同之处在于,对于声音激活电子设备,触发器可以是非口头声音。例如,可替代地使用门打开、警报响起、玻璃破碎、电话振铃的声音或任何其他声音来激活声音控制的电子设备。在此特定情形中,非口头声音的检测可以与用于语音激活电子设备的口头唤醒词的方式基本上类似的方式发生。例如,门打开的声音在被检测到时可激活声音激活电子设备,声音激活电子设备继而可激活防盗警报。
在一些实施方案中,声音控制的电子设备也可对应于手动激活电子设备。如本文所述,手动激活电子设备可对应于能够响应于来自个体的手动输入(例如,按下按钮、触摸触摸屏的一部分、在设备上执行动作)而被激活的设备。例如,点击通话(tap-to-talk)设备是一种类型的手动激活设备。例如,此类点击通话设备能够响应于个体按下按钮而获得并输出音频数据。在一些实施方案中,声音控制的电子设备(例如,语音激活电子设备和/或声音激活电子设备)可包括手动激活功能性,使得个体可使用语音(例如,由唤醒词开头的言语)、声音(例如,特定触发声音)和/或手动输入(例如,按钮按压、屏幕触摸等)来与设备交互。然而,在一些实施方案中,电子设备可被配置来包括单个激活功能性(例如,仅语音激活,或者仅手动激活)。
图1是根据各种实施方案的用于将消息从一个共享电子设备发送给另一共享电子设备的示例性系统的例示图。在非限制性示例性实施方案中,第一个体2可使用第一共享电子设备100a将第一消息发送给第二个体12。例如,个体2可说出话语4“Alexa-给John发送消息:‘想来我家吃饭吗?’”,其中个体2意图将话语4中的一些或全部发送给与特定联系人(例如,具有名字“John”的联系人)相关联的一个或多个设备。在一些实施方案中,个体2可靠近第一共享电子设备100a说出话语4。在一些实施方案中,第一共享电子设备100a可对应于能够响应于被激活而致使一个或多个动作发生的语音激活电子设备。例如,响应于确定发出唤醒词(例如,“Alexa”),第一共享电子设备100a可开始将表示话语4的音频数据发送给计算系统200进行处理,并且致使一个或多个动作(例如,生成响应消息、接收内容、将数据发送给一个或多个另外的设备等)发生。
在一些实施方案中,计算系统200可包括可能够确定话语4的意图的言语识别处理。例如,在接收到表示话语4的音频数据时,可生成表示音频数据的文本数据,并且可使用所生成文本数据来确定话语4的意图。在例示性实施方案中,话语4的意图可以是将消息“想来我家吃饭吗?”的音频发送给具有名字“John”的联系人。计算系统200可确定话语4的一部分匹配样本话语框架“{唤醒词}-给{联系人名字}发送{通信类型}:{消息}”,并且提取这些项的值。作为例示性实例,项{联系人名字}可被映射到名字“John”。计算系统200可确定与第一共享电子设备100a相关联的用户账户,并且确定列于具有名字“John”的用户账户内的联系人,以便确定消息的目标接收方。
在一些实施方案中,在成功地处理表示话语4的音频数据使得将执行动作(例如,将消息发送给另一个体的电子设备)时,计算系统200可生成确认消息,并且可将所述确认消息发送给第一共享电子设备100a。例如,计算系统200可生成表示响应6“Ok”的音频数据,所述音频数据可从计算系统200发送给第一共享电子设备100a。然后,响应6可由第一共享电子设备100a输出,使得个体2将意识到他们的请求已被成功地处理,并且预期动作将发生。在一些实施方案中,如果未能确定意图,或者如果确定执行所请求动作需要另外的信息,则计算系统200可生成后续消息并将其发送给电子设备100a以便促成请求。例如,如果存在两个或更多个与个体2相关联的用户账户相关联的名为“John”的联系人,则计算系统200可关于意图将消息发送给哪个联系人个体2进行询问。
在一些实施方案中,第一共享电子设备100a对应于共享的语音激活电子设备。任何个体可能够通过说出第一共享电子设备100a的唤醒词(例如,“Alexa”)而与其交互。此外,第一共享电子设备100a可位于个体的住宅、办公室或任何合适的区域内,使得其可与一个或多个个体交互。例如,第一共享电子设备100a可位于住房的客厅中,并且家庭的任何家庭成员可说出以第一共享电子设备100a的唤醒词开头的话语。作为响应,第一共享电子设备100a可与计算系统200通信,以致使一个或多个动作发生。
在一些实施方案中,计算系统200可采用说话者标识处理来确定话语4的说话者是谁。例如,在接收到表示话语4的音频数据时,计算系统200可确定说出话语4的语音基本上匹配与对应于个体2的用户账户相关联的语音生物计量数据。然而,本领域普通技术人员应认识到,在一些实施方案中,可由第一共享电子设备100a在本地执行说话者标识处理,并且前述内容仅是示例性的。通过确定个体2说出话语4,计算系统200可能够通过搜索与个体2的用户账户相关联的联系人列表来标识消息话语4的预期目标。另外,通过确定个体2说出话语4,消息可被指示为是从个体2发送的,而不是被列为从与第一共享电子设备100a相关联的第一群组账户接收的。
在确定消息将发送到第二个体12并且确定第二个体12与第二共享电子设备100b相关联之后,计算系统200可将表示话语4的消息部分(例如,“想来我家吃饭吗?”)的音频数据发送给第二共享电子设备100b。然而,在一些实施方案中,表示消息部分的音频数据可存储在计算系统200上的消息数据存储库内。在此特定情形中,可获得音频数据并在计算系统200接收到将其发送给接收方的设备(例如,第二共享电子设备100b)的请求时如此做。
另外,计算系统200可包括可生成待与话语4的消息部分一起使用的介绍消息的一个或多个通信系统。例如,介绍消息可指示已接收的消息的数量(例如,新消息和/或旧消息)以及从其接收那些消息的一个或多个发送者。作为例示性实例,响应于从第一共享电子设备100a发送消息,可生成介绍消息,所述介绍消息指示已接收到一条消息,并且消息是从与第一共享电子设备100a相关联的第一群组账户接收的。
在一些实施方案中,个体可使用他们的电子设备接收消息(例如,收听、读取、查看等)。例如,第二个体12可向第二共享电子设备100b说出话语14,以获得发送到他们的第二群组账户和/或与他们的用户账户相关联的他们的特定账户的任何消息。例如,话语14可以是“Alexa,我有消息吗?”。响应于确定第二共享电子设备100b的唤醒词(例如,“Alexa”)已发出,第二共享电子设备100b可开始将表示话语14的音频数据发送给计算系统200,以确定话语14的意图。例如,计算系统200可确定话语14的意图是输出与第二共享电子设备100b相关联的第二群组账户和/或与个体12相关联的用户账户的任何消息。在一个实施方案中,第二共享电子设备100b可使用一个或多个指示器(例如,灯、图形用户接口等)来向个体12指示已接收到消息。
在接收到表示话语14的音频数据时,计算系统200的一个或多个通信系统可生成表示待输出的响应16的第二音频数据,其中响应16包括介绍消息和由个体2发出的消息。介绍消息可被精心制作成使得它向消费消息的个体指示:(i)已接收到多少条消息,以及(ii)从谁接收的一条或多条消息。还可由介绍消息指示另外的信息,诸如消息紧急性、接收时间等。作为例示性实例,介绍消息可以是“您从Jones家接收到一条消息:‘想来我家吃饭吗?’”。这可允许个体12知晓他们已接收到一条消息,并且消息是从第一共享电子设备100a接收的。
在一些实施方案中,计算系统200并且特别地一个或多个通信系统和/或与一个或多个通信系统相关联的系统,可执行示例性过程150。在一个非限制性实施方案中,过程150以步骤152开始。在步骤152处,可从第一设备接收第一音频数据。例如,可由计算系统200从第一共享电子设备100a接收表示话语4的音频数据。在一些实施方案中,除接收第一音频数据之外,还可接收与第一设备相关联的第一设备标识符。例如,第一共享电子设备100a的第一设备标识符可由计算系统200在与第一音频数据基本上相同的时间接收到。设备标识符可允许计算系统200标识针对计算系统200注册的分配给第一共享电子设备100a的群组账户。在一些实施方案中,群组账户可指示与第一设备相关联的家庭、办公室或住宅。
在步骤154处,可对第一音频数据执行说话者标识处理。下文关于图2更详细地描述的说话者标识处理尝试确定“谁”说的,而不是尝试确定说了“什么”。使用与第一设备相关联的设备标识符,可确定与第一设备相关联的群组账户,并且可访问与群组账户所包括的一个或多个用户账户相关联的语音生物计量数据。可分析第一音频数据来确定话语(例如,话语4)的语音印记(例如,频谱、节奏、重音、韵律等),然后可将其与为与第一设备相关联的群组账户存储的各种语音生物计量数据进行比较。在执行说话者标识时,过程150可前进到步骤156,其中作出关于是否识别出由第一音频数据表示的话语的说话者的确定。例如,在步骤156处,作出关于话语的语音印记是否匹配与群组账户的成员(例如,用户账户)相关联的音频生物计量数据的确定。
如果在步骤156处,未能确定说话者,则过程150可前进到步骤158。在步骤158处,可确定分配给第一设备的群组账户。在一个实施方案中,可使用为第一设备接收到的设备标识符来确定由计算系统200存储的通信表中的指示某些群组账户与设备标识符的关系的条目。例如,第一设备的设备标识符可对应于通信表中的条目,其中所述条目也指示与所述设备标识符相关联的群组账户标识符。例如,群组账户标识符可标识分配给第一设备的群组账户的对应名称和/或身份。作为例示性实例,第一共享电子设备100a可具有第一设备标识符(例如,111.xxx),所述第一设备标识符基本上与音频数据一起发送给计算系统200。计算系统200可访问其上所存储的通信表,以确定第一设备标识符所对应的通信表的条目。在确定条目之后,可为所述特定条目确定群组账户标识符(例如,111.yyy)。使用群组账户标识符,可确定第一群组账户,诸如“Jones Household”。在例示性实施方案中,从第一共享电子设备100a发送的消息可被指示为由第一群组账户发送。例如,如果使用说话者标识处理未能确定特定说话者标识符,或者如果确定说话者标识符不匹配与一个或多个用户账户相关联的语音生物计量数据,则所述消息可能是从所述共享电子设备的群组账户发送的。
在步骤160处,可确定接收方群组账户。接收方群组账户可对应于与包含在所说话语内的消息的预期接收方相关联的群组账户。例如,话语4可指示将要将消息“想来我家吃饭吗?”发送给联系人“John”。在一个实施方案中,可将表示话语的第一音频数据提供给言语处理系统,所述言语处理系统可对第一音频数据采用言语识别和自然语言理解功能性来确定话语的意图。例如,言语处理系统可确定话语4包括消息,并且还可确定所述消息的预期接收方。可访问与第一群组账户相关联的联系人的列表以确定哪一联系人与所述所标识接收方相关联,并且可确定所述联系人的接收方群组账户和/或用户账户。在确定接收方的群组账户之后,可获得群组账户的群组账户标识符,所述群组账户标识符可使计算系统200能够确定接收方的群组账户所分配的第二设备的设备标识符。作为例示性实例,第一群组账户可包括与其相关联的联系人的列表。在确定消息的预期接收方是具有名字“John”的联系人时,可解析联系人列表以确定其中所包括的联系人是否对应于所述接收方。如果如此,可确定与所述联系人相关联的群组账户,并且可确定所述群组账户的群组账户标识符(例如,222.yyy)。使用群组账户标识符,可确定与群组账户相关联的设备标识符(例如,222.xxx)。
在步骤162处,可生成包括在所说话语内的消息的消息元数据,其中消息元数据可指示消息是从第一群组账户接收的,并且意图将消息发送给接收方。除其他细节之外,消息元数据可例如包括指示由谁发送的消息、接收到消息的时间和/或所述消息的重要性的信息。在一些实施方案中,可由计算系统200响应于为所述特定群组账户和/或用户账户输出消息的请求而生成介绍消息,其中所述介绍消息是使用由消息元数据包括的信息来生成的。
在一些实施方案中,除生成消息元数据之外或者代替生成消息元数据,可生成介绍消息,其中所述介绍消息可用于通知接收方消息的接收,以及消息是从谁接收的。介绍消息可用于指示已接收消息的数量以及与消息中的每一条相关联的发送者(例如,一条消息来自“妈妈”,两条消息来自“家”)。作为例示性实例,可生成来自响应16的介绍消息,所述介绍消息指示消息的发送者是与共享设备相关联的群组账户。例如,为第一共享电子设备100a确定的群组标识符可已对应于“Jones家”,因此所生成介绍消息可指示消息的发送者是“Jones家”。在一些实施方案中,由计算系统200所存储的样本介绍消息可呈“您从{群组标识符}接收到{所接收消息的数量}条消息”的形式。因此,使用此实例,介绍消息可以是“您从Jones家接收到一条消息”,其中{所接收消息的数量}:1;并且{群组标识符}:Jones家。然而,本领域普通技术人员应认识到,在接收到播放消息的请求之前可不生成介绍消息,并且前述内容仅是示例性的。
在步骤164处,消息和消息元数据可由计算系统200存储。例如,消息和消息元数据可存储在计算系统200的消息数据存储库中,其中消息和消息元数据可链接到发送者的群组账户和接收方的群组账户两者。以此方式,在接收方群组账户接收到输出为所述群组账户接收的消息的请求时,消息以及所述消息的介绍消息可由计算系统200生成并且发送给接收方的群组账户所分配的对应设备。
在一些实施方案中,计算系统200可生成表示消息和介绍消息的第二音频数据,所述第二音频数据可被发送给与接收方的设备标识符相关联的第二设备。例如,表示介绍消息和消息的音频数据(例如,“您从Jones家接收到一条消息:‘想来我家吃饭吗?’”)可从计算系统200的一个或多个通信系统发送给第二共享电子设备100b。例如,所确定接收方标识符可指示预期接收方与对应于第二共享电子设备100b的第二设备标识符的第二群组账户相关联。
在一些实施方案中,可生成通知并将其发送给第一群组账户和第二群组账户的每个成员。通知可相应地指示已发送和接收到新通信。例如,响应于为第二群组账户和与第二群组账户相关联的任何用户账户存储消息,可向每个用户账户发送通知。特别地,可向与每个用户账户相关联的个人设备发送通知,使得与这些设备相关联的用户意识到新接收的通信。类似地,也可向与第一群组账户相关联的用户账户发送指示通信被发送给第二群组账户的通知。例如,响应于为第一群组账户以及与第一群组账户相关联的每个用户账户存储消息,可生成通知并将其发送给与用户账户相关联的任何个人设备,使得与这些设备相关联的用户意识到由群组账户发送了新消息。
然而,如果在步骤156处,通过对第一音频数据执行的说话者标识处理识别出说话者,则过程150可前进到步骤166。例如,如果说话者标识处理确定表示话语4的音频数据的说话者标识符基本上匹配对应于第一设备的所分配群组账户的特定用户账户的说话者标识符,则话语4可被称为由与所述用户账户相关联的个体(例如,个体2)说出。在步骤166处,可确定对应于所标识说话者的用户账户。在一些实施方案中,如上文关于步骤158类似地描述的,对应于第一设备的设备标识符可由计算系统200接收。使用设备标识符,可确定分配给第一设备的群组账户。在确定第一音频数据的说话者标识符时,可确定与所述群组账户相关联的用户账户。作为例示性实例,可将第一群组账户分配给第一共享电子设备100a。第一群组账户可包括一个或多个用户账户,所述一个或多个用户账户各自与共同与第一共享电子设备100a交互的不同个体相关联。例如,个体2可在计算系统200上具有与第一群组账户相关联的用户账户。响应于确定对应于个体2的语音生物计量数据的第一音频数据的说话者,计算系统200可确定消息(例如,“想来我家吃饭吗?”)的发送者是个体2,并且因此所发出的消息是从个体2的用户账户发送的,而不是从分配给第一共享电子设备100a的第一群组账户发送的。
在步骤168处,可确定接收方群组账户。在一个实施方案中,步骤168和160彼此可基本上类似,并且先前描述可适用。在步骤170处,可生成指示消息是从用户账户发送的消息元数据。例如,说话者标识处理可确定个体2说出话语4。因此,可生成消息元数据,使得可由计算系统200生成介绍消息,使得介绍消息指示消息是从个体2发送的。作为例示性实例,响应于接收到表示话语14的音频数据,可向个体12提供指示个体2发送消息“想来我家吃饭吗?”的不同消息。例如,在此特定情形中,介绍消息可以是“您从Paul接收到一条消息:‘想来我家吃饭吗?’”。在步骤172处,待发送给接收方的消息以及所述消息的消息元数据可由计算系统200诸如使用计算系统200的消息数据存储库来存储。在一些实施方案中,步骤172和步骤164彼此可基本上类似,并且先前描述可适用。
在一些实施方案中,可生成通知并将其发送给第一群组账户和第二群组账户的除与所标识说话者相关联的用户账户外的每个成员。例如,响应于为第一群组账户以及与第一群组账户相关联的除与所标识说话者相关联的用户账户外的每个用户账户存储消息,可生成通知并将其发送给与用户账户相关联的任何个人设备,使得与这些设备相关联的用户意识到由群组账户发送了新消息。在一个实施方案中,与所标识说话者相关联的用户账户可具有所发送的标记为“已读”的消息。以此方式,计算系统200可能够将消息智能地标记为对于标识符说话者的用户账户来说非新,使得所述个体并不接收指示已接收到他/她刚发送的消息的通知。可将消息自动地标记为非新。
图2是根据各种实施方案的图1的示例性系统架构的例示图。在一些实施方案中,共享电子设备100a和100b(统称为“一个或多个共享电子设备100”或“一个或多个电子设备100”)可包括声音控制功能性,诸如一个或多个语音或声音激活组件。在一些实施方案中,电子设备100可被配置来响应于检测到包括唤醒词(其可后续跟着请求/问题/陈述)的话语而与计算系统200,特别地言语处理系统250通信。类似地,电子设备100可替代地或另外包括用于手动激活功能性的一个或多个手动激活组件。在此特定情形中,在一个实施方案中,电子设备100还可被配置来响应于例如由一个或多个输入机构(诸如触摸屏、按钮和/或开关)检测到手动输入而与计算系统200,及因此言语处理系统250通信。
在一个非限制性实施方案中,电子设备100可能够响应于检测到诸如唤醒词的特定声音以及或者替代地通过一个或多个输入而被激活。在检测到特定声音(例如,唤醒词或触发表达)之后,电子设备100可识别所捕获音频内的命令(例如,听觉命令、输入),并且可响应于所接收命令而执行一个或多个动作。此外,电子设备100和可被配置来响应于检测到特定触摸或通过电子设备100进行的一个或多个机械输入而执行一个或多个动作。
电子设备100可对应于任何合适类型的电子设备,包括但不限于台式计算机、移动计算机(例如,膝上型计算机、超级笔记本)、移动电话、智能电话、平板计算机、电视、机顶盒、智能电视、个人显示设备、大型显示设备(例如,告示板、道路标志等)、个人数字助理(“PDA”)、游戏控制台和/或设备、智能家具、智能家居设备(例如,冰箱、微波炉等)、智能车辆(例如,汽车、卡车、摩托车等)、智能交通设备(例如,船、火车、飞机等)、可穿戴设备(例如,表、针/胸针、耳机等),和/或智能附件(例如,灯泡、灯开关、电气开关等)。在一些实施方案中,电子设备100可在结构上是相对简单或基础的,使得不包括,或者包括最少数量的一个或多个机械输入选项(例如,键盘、鼠标、跟踪板)或一个或多个触摸输入(例如,触摸屏、按钮)。例如,电子设备100可能够接收和输出音频,并且可包括电源、处理能力、存储装置/存储器能力以及通信能力。然而,在其他实施方案中,电子设备100可包括用于接收机械输入或触摸输入的一个或多个组件,诸如触摸屏和/或一个或多个按钮。
在一个实施方案中,电子设备100可包括最少数量的输入机构(例如,通电/断电开关),使得电子设备100的功能性可仅或主要地通过音频输入和音频输出来实现。例如,电子设备100可包括通过连续地监听本地音频来倾听唤醒词的一个或多个传声器,或者与所述一个或多个传声器通信。响应于检测到唤醒词,电子设备100可与计算系统200和/或言语处理系统250建立连接,将音频数据发送给计算系统200和/或言语处理系统250,并且等待/接收来自计算系统200和/或言语处理系统250的响应。然而,在一些实施方案中,非语音/声音激活设备也可与计算系统200和/或言语处理系统250(例如,按压通话设备)通信。例如,响应于按钮或触摸屏被按下,或者按钮或触摸屏被按下并握持,与电子设备100相关联的传声器可开始记录本地音频,与计算系统200和/或言语处理系统250建立连接,将表示所捕获音频的音频数据发送给计算系统200和/或言语处理系统250,并且等待/接收来自计算系统200和/或言语处理系统250的响应和/或待发生的动作。
本领域普通技术人员应认识到,虽然在例示性实施方案中,计算系统200包括言语处理系统250,但这仅是示例性的,并且言语处理系统250可与计算系统200分开。例如,言语处理系统250可位于专用计算设备或计算系统内,所述专用计算设备或计算系统可能或可能不与计算系统200和/或一个或多个另外的设备通信。
电子设备100可包括一个或多个处理器202、存储装置/存储器204、通信电路206、一个或多个传声器208或其他音频输入设备(例如,换能器)、一个或多个扬声器210或其他音频输出设备、显示屏212,以及一个或多个摄像机214或其他图像捕获组件。然而,可在电子设备100内包括一个或多个另外的组件,和/或可省略一个或多个组件。例如,电子设备100还可包括电源供应器或总线连接器。作为再一实例,电子设备100可包括一个或多个另外的输入和/或输出机构,诸如一个或多个按钮,或者一个或多个开关或旋钮。此外,虽然电子设备100可包括一个或多个组件的多个实例,但为简洁起见,仅示出每个组件中的一个。
在一些实施方案中,电子设备100可对应于手动激活设备,或者可包括手动激活设备的功能性。如本文所述,手动激活设备可对应于能够响应于手动输入(例如,按下按钮、触摸触摸屏的一部分、在设备上执行动作)而被激活的设备。例如,点击通话设备是一种类型的手动激活设备。例如,此类点击通话设备能够响应于按钮被按下而获得并输出音频数据。
在一个实施方案中,电子设备100可与包括以下中的一者或多者的另外的处理设备通信:一个或多个处理器202、存储装置/存储器204、通信电路206、一个或多个传声器208、一个或多个扬声器210、显示屏212,和/或一个或多个摄像机214。例如,电子设备100的集中控制设备可包括一个或多个传声器208。这些传声器208可接收音频输入信号,所述音频输入信号继而响应于电子设备100的唤醒词引擎确定唤醒词被发出而被发送给计算系统200和/或言语处理系统250。
一个或多个处理器202可包括能够控制电子设备100的操作和功能性以及促进电子设备100内的各种组件之间的通信的任何合适的处理电路。在一些实施方案中,一个或多个处理器202可包括中央处理单元(“CPU”)、图形处理单元(“GPU”)、一个或多个微处理器、数字信号处理器或任何其他类型的处理器,或者它们的任何组合。在一些实施方案中,一个或多个处理器202的功能性可由一个或多个硬件逻辑组件执行,所述一个或多个硬件逻辑组件包括但不限于:现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)、专用标准产品(“ASSP”)、系统级芯片系统(“SOC”)和/或复杂可编程逻辑器件(“CPLD”)。此外,一个或多个处理器202中的每一个可包括其自己的本地存储器,所述本地存储器可存储程序系统、程序数据和/或一个或多个操作系统。然而,一个或多个处理器202可运行用于电子设备100的操作系统(“OS”)和/或一个或多个固件应用程序、媒体应用程序和/或驻留在其上的应用程序。在一些实施方案中,一个或多个处理器202可运行用于读取和呈现从一个或多个网站接收的内容的本地客户端脚本。例如,一个或多个处理器202可运行用于呈现从电子设备100所访问的特定URL接收的HTML或XHTML内容的本地JavaScript客户端。
存储装置/存储器204可包括用于为电子设备100存储数据的一种或多种类型的存储介质,诸如以任何合适的方式实现的任何易失性或非易失性存储器或任何可移动或不可移动存储器。例如,可使用计算机可读指令、数据结构和/或程序系统来存储信息。各种类型的存储装置/存储器可包括但不限于:硬盘驱动器、固态驱动器、闪速存储器、永久性存储器(例如,ROM)、电可擦除可编程只读存储器(“EEPROM”)、CD-ROM、数字通用光盘(“DVD”)或其他光学存储介质、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、RAID存储系统或任何其他存储类型,或者它们的任何组合。此外,存储装置/存储器204可被实现为计算机可读存储介质(“CRSM”),其可以是可由一个或多个处理器202访问以执行存储在存储装置/存储器204内的一个或多个指令的任何可用物理介质。在一些实施方案中,一个或多个应用程序(例如,游戏、音乐、视频、日历、列表等)可由一个或多个处理器202运行,并且可存储在存储器204中。
在一些实施方案中,存储装置/存储器204可包括可被配置来促进电子设备100与计算系统200之间的通信的媒体系统。例如,媒体系统可存储可由一个或多个处理器202执行来促进设备100的通信的一个或多个通信协议。在一些实施方案中,可(使用会话发起协议“SIP”)来促进电子设备100与计算系统200和另一电子设备100中一者或多者之间的媒体传送。例如,SIP是基于文本的应用层协议,并且可采用实时传输协议(“RTP”)或安全实时传输协议(“SRTP”)功能。特别地,可采用PJSIP通信功能性来支持电子设备100的音频、视频、呈现和消息传送通信。在一些实施方案中,电子设备100可采用网页实时通信(“WebRTC”)协议。在一个非限制性实施方案中,媒体系统可包括基于电子设备100的设备类型来指示采用哪些通信协议促进设备之间的媒体传送的指令。例如,如果电子设备100并不包括显示器212和/或摄像机214,则媒体系统可指示应使用PJSIP,而如果电子设备100包括显示器212和/或摄像机214,则媒体系统可指示应使用WebRTC协议。
在一些实施方案中,存储装置/存储器204可包括一个或多个系统和/或数据库,诸如言语识别系统、唤醒词数据库、声音配置文件数据库和唤醒词检测系统。言语识别系统可例如包括识别检测到的音频中的人类言语的自动言语识别(“ASR”)组件。言语识别系统还可包括基于检测到的音频来确定用户意图的自然语言理解(“NLU”)组件。言语识别系统内还可包括能够将文本转换成语音以便由一个或多个扬声器210输出的文本到言语(“TTS”)组件,和/或能够将所接收音频信号转换成文本以便发送给计算系统200和/或言语处理系统250以用于处理的言语到文本(“STT”)组件。
唤醒词数据库可以是由电子设备100的存储装置/存储器204本地存储的数据库,并且可包括电子设备100的当前唤醒词的列表以及语音激活电子设备的一个或多个先前使用的或替代唤醒词。在一些实施方案中,个体可对他们的电子设备100的唤醒词进行设定和编程。唤醒词可直接在电子设备100上进行编程,或者一个或多个唤醒词可由个体通过与计算系统200和/或言语处理系统250通信的本地客户端应用程序来设定。例如,个体可使用他们的具有在其上运行的言语处理系统应用程序的移动设备来设定唤醒词。然后可将特定唤醒词从移动设备传达给言语处理系统250,所述言语处理系统250继而可向电子设备100发送/通知个体对唤醒词的选择。然后可将所选择激活存储在存储装置/存储器204的唤醒词数据库中。在一些实施方案中,唤醒词的另外的触发表达或置换也可存储在存储装置/存储器204内。例如,指示存在唤醒词的特定触发表达或词也可存储在存储装置/存储器204内。在一些实施方案中,指示特定动作或消息的音频水印也可存储在存储装置/存储器204内。
在一些实施方案中,用于不同词、短语、命令或音频合成的声音配置文件也能够存储在存储装置/存储器204内,诸如在声音配置文件数据库内。例如,音频的声音配置文件可存储在电子设备100上的存储装置/存储器204的声音配置文件数据库内。以此方式,如果检测到特定声音(例如,唤醒词或短语),例如,可忽略对应命令或请求。例如,声音配置文件可对应于特定音频文件或任何媒体文件的音频部分的频率和时间分解,诸如音频指纹或频谱表示。
唤醒词检测系统可包括表达检测器,所述表达检测器分析由一个或多个传声器208产生的音频信号以检测唤醒词,所述唤醒词总体上可以是预限定词、短语、或任何其他声音,或任何一系列在时间上相关的声音。作为一个实例,这种表达检测器可使用关键词检出技术来实现。关键词检出器是评估音频信号以检测由一个或多个传声器208检测到的音频信号内的预限定词或表达的存在的功能组件或算法。关键词检出器不是产生言语的词的转录,而是生成真/假输出(例如,逻辑1/0)以指示音频信号中是否表示预限定词或表达。在一些实施方案中,表达检测器可被配置来分析音频信号以产生指示在一个或多个传声器208检测到的音频信号内表示唤醒词的可能性的分数。然后,表达检测器可将所述分数与唤醒词阈值进行比较,以确定唤醒词是否将被断言为已说出。
在一些实施方案,关键词检出器可使用简化的ASR技术。例如,表达检测器可使用隐马尔可夫模型(“HMM”)识别器,所述HMM识别器执行音频信号的声学建模,并将音频信号的HMM模型与通过对特定触发表达进行训练创建的一个或多个参考HMM模型进行比较。HMM模型将词表示为一系列状态。一般来说,通过将音频信号的HMM模型与触发表达的HMM模型进行比较来分析音频信号的一部分,从而产生表示音频信号模型与触发表达模型的相似性的特征分数。
实际上,HMM识别器可产生对应于HMM模型的不同特征的多个特征分数。表达检测器可使用支持向量机(“SVM”)分类器,所述SVM分类器接收由HMM识别器产生的一个或多个特征分数。SVM分类器产生指示音频信号包含触发表达的可能性的置信度分数。将置信度分数与置信度阈值进行比较,以做出关于音频信号的特定部分是否表示触发表达(例如,唤醒词)的话语的最终决定。在断言音频信号表示触发表达的话语时,电子设备100然后可开始将音频信号传输到言语处理系统250,以用于对由个体作出的随后话语进行检测和对应。
在一些实施方案中,存储装置/存储器204可存储与一个或多个个体相关联的语音生物计量数据。例如,操作电子设备100的个体可在计算系统200上(例如,在账户系统268内)具有注册用户账户。在一些实施方案中,电子设备100可与群组账户相关联,并且各种个体可具有在群组账户的规则和配置下操作的用户账户。作为例示性实例,第一共享电子设备100a可与计算系统200上的第一群组账户相关联,所述第一群组账户是居住在第一共享电子设备所在的家庭处的家庭的第一群组账户。每个家庭成员还可具有链接到第一群组账户的用户账户(例如,父母、孩子等),因此每个用户账户可获得第一群组账户的权利中的一些或全部。例如,电子设备100可具有对特定家庭或群组注册的计算系统200上的第一群组账户,并且家庭中的父母和孩子中的每一者可在父母的注册账户下注册他们自己的用户账户。在一个例示性实施方案中,每个个体的语音生物计量数据可由所述个体的对应用户账户来存储。例如,语音生物计量数据可对应于特定个体的“语音印记”或“语音模型”,所述“语音印记”或“语音模型”可以是人类语音的包括所述个体的语音的频率分解的图形表示。
在接收到表示话语(诸如图1的话语4)的音频数据时,所述音频数据的语音印记可使用存储在存储装置/存储器204内的说话者标识功能性来生成。话语的语音印记可指示当话语被说出时所说词随时间推移的不同频率分量。然后,可将所生成语音印记与特定于特定个体的言语的先前生成的语音印记进行比较,所述先前生成的语音印记可被称为参考语音印记。可确定所生成语音印记与参考语音印记之间的差,并且如果差小于或等于预限定阈值,则两个语音印记可被断言为对应于同一个体的语音,从而指示所述个体说出话语。如果差大于预限定阈值,则所生成语音印记可被称为不与个体的语音相关联,因此可指示个体并未说出话语。在一些实施方案中,说话者标识功能性可将任何所生成语音印记与一个或多个参考语音印记进行比较,以便尝试找到匹配。因此,对于每个个体的与群组账户相关联的用户账户,可包括所述特定个体的语音生物计量数据(例如,声学特征)。这可允许电子设备100在本地尝试标识特定话语的说话者。然而,本领域普通技术人员应认识到,电子设备100可不执行说话者标识处理,并且可替代地说话者标识处理可由计算系统200(例如,说话者标识系统270),或者根本不执行说话者标识处理。
通信电路206可包括允许电子设备100或使其一个或多个组件能够彼此、与一个或多个另外的设备、服务器和/或系统通信的任何电路。例如,通信电路206可促进电子设备100与计算系统200之间的通信。作为例示性实例,表示话语(例如,图1的话语4)的音频数据可使用任何数量的通信协议通过网络230(诸如互联网)传输到计算系统200。例如,一个或多个网络230可使用来访问。传输控制协议和互联网协议(“TCP/IP”)(例如,每个TCP/IP层中所使用的协议中的任一个)、超文本传输协议(“HTTP”)、WebRTC、SIP和无线应用协议(“WAP”)是可以用于促进电子设备100与计算系统200之间的通信的各种类型的协议中的一些。在一些实施方案中,电子设备100和计算系统200和/或一个或多个另外的设备或系统(例如,言语处理系统250)可使用HTTP通过网页浏览器彼此通信。可使用各种另外的通信协议来促进电子设备100与计算系统200之间的通信,所述通信协议包括但不限于:Wi-Fi(例如,802.11协议)、蓝牙、射频系统(例如,900MHz、1.4GHz以及5.6GHz的通信系统)、蜂窝网络(例如,GSM、AMPS、GPRS、CDMA、EV-DO、EDGE、3GSM、DECT、IS-136/TDMA、iDen、LTE、或任何其他合适的蜂窝网络协议)、红外线、BitTorrent、FTP、RTP、RTSP、SSH和/或VOIP。
通信电路206可使用任何通信协议,诸如先前提及的示例性通信协议中的任一者。在一些实施方案中,电子设备100可包括天线,以促进使用各种无线技术(例如,Wi-Fi、蓝牙、射频等)与网络进行的无线通信。在又一实施方案中,电子设备100可包括一个或多个通用串行总线(“USB”)端口、一个或多个以太网或宽带端口,和/或任何其他类型的硬线接入端口,使得通信电路206允许电子设备100与一个或多个通信网络通信。
电子设备100还可包括一个或多个传声器208和/或换能器。此外,位于单独设备内的一个或多个传声器可与电子设备100通信,以便为电子设备100捕获声音。一个或多个传声器208可以是能够检测音频信号的任何合适的组件。例如,一个或多个传声器208可包括用于生成电气信号的一个或多个传感器以及能够处理所生成电气信号的电路。在一些实施方案中,一个或多个传声器208可包括能够检测各种频率水平的多个传声器。作为例示性实例,电子设备100可包括关于电子设备100放置在各种位置处以监测/捕获电子设备100所在的环境中输出的任何音频的多个传声器(例如,四个、七个、十个等)。各种传声器208可包括针对远距离声音优化的一些传声器,而一些传声器可针对出现在电子设备100的近距离范围内的声音进行优化。在一些实施方案中,一个或多个传声器208可仅响应于电子设备100的手动输入而开始检测音频信号。例如,手动激活设备可响应于用户输入(诸如按下按钮、点击触摸屏,或者向触摸输入组件提供任何触摸输入手势)而开始使用一个或多个传声器208来捕获音频数据。
电子设备100还可包括一个或多个扬声器210。此外,电子设备100可与一个或多个扬声器210通信。一个或多个扬声器210可对应于用于输出音频信号的任何合适的机构。例如,一个或多个扬声器210可包括能够将音频信号和或音频内容广播到电子设备100可位于的周围区域的一个或多个扬声器单元、扬声器壳体、换能器、扬声器阵列和/或换能器阵列。在一些实施方案中,一个或多个扬声器210可包括可无线连接或硬连线到电子设备100的耳机或耳塞,所述耳机或耳塞可能够直接向个体广播音频。
在一些实施方案中,一个或多个传声器208可充当用于接收音频输入的输入设备。在先前提及的实施方案中,电子设备100然后还可包括用于输出听觉响应的一个或多个扬声器210。以此方式,电子设备100可仅通过言语或音频起作用,而无需使用或不需要任何输入机构或显示器,但这仅是示例性的。
显示屏212可对应于可具有任何尺寸和/或形状且可位于电子设备100的任何部分处的显示设备和/或触摸屏。各种类型的显示器可包括但不限于:液晶显示器(“LCD”)、单色显示器、彩色图形适配器(“CGA”)显示器、增强型图形适配器(“EGA”)显示器、可变图形阵列(“VGA”)显示器,或任何其他类型的显示器,或者他们的任何组合。再者,在一些实施方案中,触摸屏可对应于包括能够识别其上的触摸输入的电容式感测面板的显示设备。例如,显示屏212可对应于包括一条或多条行迹线和/或驱动线迹线以及一条或多条列迹线和/或感测线的投射式电容触摸(“PCT”)屏。在一些实施方案中,显示屏212可以是电子设备100的光学组件。例如,电子设备100可不包括显示屏212。有时也称为“无头”设备的此类设备可输出音频,或者可与用于输出可查看内容的显示设备通信。
在一个非限制性实施方案中,显示屏212可包括涂覆有透明导体(诸如氧化铟锡(“InSnO”或“ITO”))的绝缘体部分(诸如玻璃)。一般来说,触摸屏显示器的一侧可涂覆有导电材料。可将电压施加到导电材料部分,从而生成均匀电场。当诸如人类手指、触针或任何其他导电介质的导电物体接触非导电侧(通常为显示屏212的外表面)时,可形成物体与导电材料之间的电容。一个或多个处理器202可能够确定触摸屏的与检测到电容变化的地方相关联的位置,并且可将触摸输入注册为发生在所述位置处。
在一些实施方案中,显示屏212可包括多个层,诸如顶部涂覆层、驱动线层、感测层和玻璃衬底层。如先前所提及,玻璃衬底层可对应于绝缘体部分,而顶部涂覆层可涂覆有一种或多种导电材料。驱动线层可包括多条驱动线,并且感测层可包括多条感测线,这些在下文更详细地描述。本领域普通技术人员应认识到,可包括一个或多个另外的层或层之间的空间。此外,本领域普通技术人员应认识到,可使用任何数量的用于驱动线层和感测层的相应驱动线和感测线。
在一些实施方案中,驱动线层和感测线层的相应驱动线和感测线可形成多个相交点,其中每个相交处充当其自己的电容器。每条感测线可联接到源,使得将电荷提供给每条感测线,并且特定驱动线和感测线的电容的变化可由此得到检测。响应于使导电物体靠近或基本上触及顶部涂覆层的外表面,特定电容器(例如,相交点)的互电容可在量值上减小。换句话说,可在触摸屏212上的对应于导电物体接触显示屏212的地方的位置处检测到电压降。
可测量电容的变化以确定触摸屏上的物体已接触表面的位置。例如,如果个体触摸显示屏212上的点,则可标识出所述点处相交的对应驱动线和感测线。点的位置可具有与所述位置相关联的一个或多个像素,因此,可针对在所述位置处显示的一个或多个项目注册一个或多个动作。电子设备100的一个或多个处理器202可被配置来确定哪些像素与特定位置点相关联,以及哪一个或多个项目也在所述像素位置处显示。此外,电子设备100可被配置来基于触摸输入的持续时间和或是否检测到一个或多个另外的触摸输入来致使对显示屏212上显示的一个或多个项目进行一个或多个动作。例如,可确定在第一位置处接触显示屏212的物体在稍后时刻将在第二位置处接触显示屏212。在例示性实例中,物体可已在第一位置处初始地接触显示屏212并沿着特定驱动线移动到第二位置。在此情形中,同一驱动线可已检测到对应于两条分离的感测线的两个位置之间的电容的变化。
驱动线和感测线的数量及因此相交点的数量可与触摸屏的“分辨率”直接相关。例如,相交点的数量越多(例如,更大量的驱动线和感测线),触摸输入的精度越高。例如,具有100条驱动线和100条感测线的触摸屏显示屏212可具有100个相交点及因此100个单独的电容器,而具有10条驱动线和10条感测线的触摸屏显示屏212仅可具有10个相交点及因此10个单独的电容器。因此,具有100个相交点的触摸屏的分辨率可高于具有10个相交点的触摸屏的分辨率。换句话说,具有100个相交点的触摸屏与具有10个相交点的触摸屏相比可能够以更高的精度分辨物体触摸触摸屏的位置。然而,因为驱动线和感测线需要向它们施加电压,这也可意指电子设备100汲取更大量的电力,因此所用驱动线和/或感测线越少,操作触摸屏显示器所需的电量越少。
在一些实施方案中,显示屏212可对应于高清晰度(“HD”)显示器。例如,显示屏212可显示720p、1080p、1080i或任何其他图像分辨率的图像和/或视频。在这些特定情形中,显示屏212可包括被配置来显示一个或多个分辨率的图像的像素阵列。例如,720p显示器可呈现分别具有786,432;921,600;或1,049,088个像素的1024乘768、1280乘720或1366乘768图像。此外,1080p或1080i显示器可呈现具有2,073,600个像素的1920像素乘1080像素图像。然而,本领域普通技术人员应认识到,前述显示比和像素数量仅是示例性的,并且对于显示屏212,可采用任何合适的显示器分辨率或像素数量,诸如非HD显示器、4K显示器和/或超显示器。
在一些实施方案中,电子设备100可包括对应于能够捕获一个或多个图像和/或视频的一个或多个任何合适的图像捕获组件的一个或多个摄像机214。在一些实施方案中,一个或多个摄像机214可被配置来捕获照片、照片序列、快速拍摄(例如,在相对较少的持续时间期间顺序地捕获的多个照片)、视频或任何其他类型的图像,或者它们的任何组合。在一些实施方案中,电子设备100可包括多个摄像机214,诸如一个或多个前向摄像机和/或一个或多个后向摄像机。此外,一个或多个摄像机214可被配置来识别远场图像(例如,位于距电子设备100较大距离处的物体)或近场图像(例如,位于距电子设备100相对小的距离处的物体)。在一些实施方案中,一个或多个摄像机可以是能够以基本上大分辨率(例如,726p、1080p、1080i等)获得图像和/或视频的高清晰度(“HD”)摄像机。在一些实施方案中,一个或多个摄像机214对于电子设备100可以是任选的。例如,一个或多个摄像机214可在电子设备100外部且与之通信。例如,外部摄像机可能够捕获图像和/或视频,所述图像和/或视频然后可被提供给电子设备100以用于查看和/或处理。
本领域普通技术人员应认识到,在一些实施方案中,显示屏212和/或一个或多个摄像机214对于电子设备100可以是任选的。例如,电子设备100可使用音频输入和输出音频来起作用,因此可不包括显示屏212和/或一个或多个摄像机214。此外,在一些实施方案中,电子设备100可不包括显示屏212和/或一个或多个摄像机214,而是可与显示屏212和/或一个或多个摄像机214通信。例如,电子设备100可通过Wi-Fi(例如,802.11协议)连接来连接到显示屏,使得发送到电子设备100的视觉内容可被发送给显示屏,并由此输出。
在一个示例性实施方案中,电子设备100可包括另外的输入/输出(“I/O”)接口。例如,电子设备100可包括能够接受用户输入的一个或多个输入组件。各种类型的输入组件可包括但不限于键盘、按钮、开关、鼠标、操纵杆,或者外部控制器可用作I/O接口的输入机构。在一些实施方案中,电子设备100的I/O接口的输出部分可包括一个或多个灯、发光二极管(“LED”)或一个或多个其他视觉指示器。本领域普通技术人员应认识到,在一些实施方案中,I/O接口的输出部分的一个或多个特征可包括在纯语音激活版本的电子设备100中。例如,一个或多个LED灯可包括在电子设备100上,使得当一个或多个传声器208接收到音频时,一个或多个LED灯照亮,从而表明电子设备100已接收到音频。在一些实施方案中,一个或多个振动机构或其他触觉特征可与电子设备100一起提供,以向个体提供触觉响应。
在一些实施方案中,电子设备100可包括射频标识(“RFID”)功能性和/或近场通信(“NFC”)功能性。此外,在一些实施方案中,电子设备100可包括一个或多个红外(“IR”)传感器和一个或多个IR发射器。可使用IR传感器/发射器来确定深度信息。例如,在一个实施方案中,个体距电子设备100的距离可使用一个或多个IR传感器/发射器来确定。深度确定可使用任何深度确定技术来执行。在一些实施方案中,个体与电子设备100之间的距离可用作使用显示屏212以不同的密度来呈现内容的基础。例如,当个体处于距电子设备100距离A处时,电子设备100可显示当天的天气数据。然而,当用户移动得更靠近电子设备100时(诸如处于距电子设备100距离B处,距离B可小于距离A),电子设备100可显示当周的天气数据。例如,当个体变得更靠近电子设备100时,个体看到更密集内容的能力增加,并且当个体移动得更远离电子设备100时,个体看到更密集内容的能力降低。例如,这可确保电子设备100显示的内容是连续相关的且个体可读。
在非限制性示例性实施方案中,计算系统200可包括言语处理系统250。然而,在其他实施方案中,言语处理系统250可与计算系统200分离,或者与计算系统200通信。一般来说,在一些实施方案中,言语处理系统250可包括能够从诸如电子设备100的一个或多个电子设备接收内容并将内容发送给所述一个或多个电子设备的一个或多个远程设备。言语处理系统250可包括各种组件和系统,包括但不限于自动言语识别(“ASR”)系统258、自然语言理解(“NLU”)系统260、功能性系统262、文本到言语(“TTS”)系统264、账户系统268和说话者标识系统270。在一些实施方案中,言语处理系统250还可包括计算机可读介质,包括但不限于闪速存储器、随机存取存储器(“RAM”)和/或只读存储器(“ROM”)。言语处理系统250还可包括为言语处理系统250或任何其他系统或它们的组合存储软件、硬件、逻辑、指令和/或命令的各种系统。
ASR系统258可被配置来识别检测到的音频(诸如一个或多个传声器208所捕获的音频)中的人类言语,所述人类言语然后可被传输给言语处理系统250。在一个实施方案中,ASR系统258可包括一个或多个处理器252、存储装置/存储器254和通信电路256。在一些实施方案中,一个或多个处理器252、存储装置/存储器254和通信电路256可基本上类似于上文更详细地描述的一个或多个处理器202、存储装置/存储器204和通信电路206,并且前述描述可适用。在一些实施方案中,ASR系统258可包括言语到文本(“STT”)系统266。STT系统266可采用各种言语到文本技术。然而,用于将言语转录成文本的技术在本领域中是公知的而不需要在本文中进一步详细描述,并且可使用任何合适的计算机实现的言语到文本技术(诸如可从总部设于英国英格兰剑桥的Autonomy公司获得的SOFTSOUND言语处理技术)来将一个或多个所接收音频信号转换成文本。
ASR系统258可包括分析由言语处理系统250接收的音频信号的表达检测器,诸如上文关于电子设备100提及的表达检测器。作为一个实例,这种表达检测器可使用关键词检出技术来实现。关键词检出器是评估音频信号以检测音频信号内的预限定词或表达(诸如密码短语或其他声音数据)的存在的功能组件或算法。关键词检出器不是产生言语的词的转录,而是生成真/假输出(例如,逻辑1/0)以指示音频信号中是否表示预限定词或表达。在一些实施方案中,表达检测器可被配置来分析音频信号以产生指示在音频信号内表示唤醒词或短语的可能性的分数。然后,表达检测器可将所述分数与阈值进行比较,以确定唤醒词或短语是否将被断言为已说出。
NLU系统260可被配置成使得其基于所接收音频数据来确定用户意图。例如,NLU系统260可确定话语4的意图是发起与同特定名字相关联的设备的通信会话(例如,发起与“John”的通信会话)。响应于确定话语的意图,NLU系统260可将所接收命令传达给功能性系统262上的适当的主题服务器或技能,以执行一个或多个任务和/或检索适当的响应或响应信息。NLU系统260可包括一个或多个处理器252、存储装置/存储器254和通信电路256,在一个实施方案中,它们基本上类似于电子设备100的一个或多个处理器202、存储装置/存储器204和通信电路206,并且先前描述可适用。
功能性系统262可例如对应于能够处理各种任务特定的动作的有时也称为“技能”的各种动作特定的系统或服务器。功能性系统262还可对应于能够执行各种任务或动作的第一方应用程序和/或第三方应用程序。例如,基于从电子设备100接收的音频的上下文,言语处理系统250可使用某个功能性来生成响应,或者获得响应信息,所述响应或响应信息可被传达回电子设备100。例如,话语可问询天气信息,因此功能性系统262可访问天气应用程序以获得与电子设备100相关联的位置的当前天气信息。功能性系统262也可包括一个或多个处理器252、存储装置/存储器254以及通信电路256。在一些实施方案中,功能性系统262的一个或多个技能可通过网络230与通信系统222通信。例如,可访问通信功能性,这致使言语处理系统250将特定数据(例如,音频数据、文本数据、扬声器标识符等)发送给通信系统222。
TTS系统264可采用各种文本到言语技术。然而,用于将言语转录成文本的技术在本领域中是公知的而不需要在本文中进一步详细描述,可使用任何合适的计算机实现的言语到文本技术(诸如可从总部设于英国英格兰剑桥的Autonomy公司获得的SOFTSOUND言语处理技术)来将一个或多个所接收音频信号转换成文本。TTS系统264也可包括一个或多个处理器252、存储装置/存储器254以及通信电路256。
帐户系统268可存储对应于在计算系统200上具有注册帐户的用户的一个或多个用户账户。例如,父母可在计算系统200上具有注册帐户,并且父母的每个孩子可在父母的注册帐户下注册他们自己的用户账户。在一些实施方案中,账户系统268可存储特定用户账户的声学特征,诸如语音生物计量信息。这可允许使用说话者标识技术来将语音匹配到与特定用户账户相关联的语音生物计量数据。在一些实施方案中,账户系统268可存储分配给特定用户账户的电话号码、与特定设备相关联的设备标识符、与特定用户账户和/或群组账户相关联的通信标识符或任何其他合适的信息,或者它们的任何组合。
在一些实施方案中,说话者标识系统270可对应于能够标识来自音频信号的特定个人的语音的任何合适的设备/系统。说话者标识系统270可确定用于说话的当前语音是否匹配与特定个体的语音相关联的已知语音生物计量数据。在一些实施方案中,对于用户账户存储在账户系统268处的各种个体,语音生物计量数据可存储在账户系统268内。例如,个体2可在计算系统200上具有可与电子设备100a相关联的用户账户(例如,存储在账户系统268内)。与个体2的语音相关联的语音生物计量数据可存储在用户账户内。因此,当电子设备100a检测到诸如话语4的话语时,并且随后当计算系统200接收到表示所述话语的音频数据时,说话者标识系统270可确定用于说出话语4的语音是否将由其用户账户存储的与个体2相关联的所存储语音生物计量信息匹配到至少预限定置信度阈值。如果如此,则这可指示个体2可能是话语4的说话者。
在一些实施方案中,说话者标识系统270可与ASR系统258基本上同时接收表示话语的音频数据,或音频数据的拷贝。音频数据可被分成表示时间间隔的音频帧,通过所述音频帧可确定表示音频数据的质量的多个值或特征,以及表示每个音频帧的音频数据的特征/质量的那些值的集合(例如,特征向量或音频特征向量)。例如,每个音频帧可包括25ms的音频,并且帧可以10ms的间隔开始。这可产生滑动窗口,其中相邻音频帧包括15ms的重叠音频。本领域普通技术人员应认识到,可确定许多不同的声学特征,并且每个特征可表示音频数据的特定质量。可用于处理所接收音频数据的一些示例性方法可包括但不限于mel频率倒谱系数(“MFCCs”)、感知线性预测(“PLP”)技术、神经网络特征向量技术、线性鉴别分析和半约束协方差矩阵。说话者标识系统270还可包括确定指示输入话语由特定用户说出的可能性的分数相应置信度的评分组件。
当计算系统200接收到音频数据时,ASR系统258、说话者标识系统270和/或言语处理系统250的任何其他合适的组件可对音频数据执行开窗函数以生成成帧音频数据。每个音频帧的大小可取决于言语处理系统250的特定配置,并且本领域普通技术人员应认识到,可使用任何音频帧大小。例如,如先前所提及,每个音频帧可包括25ms的音频数据,并且可与10ms的下一音频帧重叠,从而产生滑动窗口。执行开窗函数可包括将时间记录与有限长度窗口相乘,其幅值在其边缘处朝向零舒缓且逐渐地变化。通过执行开窗,音频数据的相应音频帧的波形的端点相交,从而产生没有尖锐过渡的连续波形。可执行快速傅里叶变换(“FFT”)以使成帧音频数据的每个音频帧中的波形从其原始域(例如,时间)转换为呈频域的表示(从而产生频域成帧的音频数据)。可使用除FFT之外的音频处理技术来将音频数据(例如,波形)变换成可视需要处理的数据。
在一些实施方案中,可对频域成帧的音频数据执行用户识别特征提取。用户识别特征提取可包括执行帧级特征提取和/或话语级特征提取。帧级特征提取可确定帧对应于通用背景模型(“UBM”)的哪一帧。UBM可以是高斯混合模型、深度神经网络等。话语级特征提取可分析对准的言语帧以导出固定长度的特征向量(即,用户识别特征/向量数据)。特征提取可继续到不再在输入音频数据中检测到语音活动为止,此时言语的端点可被标识出并且言语处理可结束。在一些实施方案中,可对从电子设备100接收的所有音频数据执行特征提取。可替代地,可仅对包括言语的音频数据执行特征提取。特征提取和用户识别特征提取可包括确定表示频域成帧的音频数据的质量值(即,特征),以及将那些特征量化成值(即,声学特征向量或音频特征向量)。特征提取可确定自动言语识别特征/向量数据,这可有助于ASR系统258的言语识别处理,并且用户识别特征提取可确定用户识别特征/向量数据,这可有助于说话者标识系统270的说话者标识/用户识别。特征/向量数据和用户识别特征/向量数据可包括相同特征/向量、不同特征/向量,或者可包括一些重叠特征/向量。可使用多种方法来从频域成帧的音频数据提取特征/向量,所述方法诸如MFCC、PLP技术、神经网络特征向量技术、线性鉴别分析、半约束协方差矩阵,并且本领域普通技术人员应认识到,可采用任何其他合适的方法。
说话者标识系统270可使用各种数据来执行说话者标识,所述各种数据包括用户识别特征/向量数据以及可对应于与特定设备(例如,电子设备100)相关联的已知用户的样本音频数据的训练数据。说话者标识系统270可生成指示特定话语由用户中与特定设备相关联的一个说出的可能性的置信度分数,并且可确定这些置信度分数中的任一个是否大于预限定置信度分数阈值。如果如此,则这可指示某个用户是话语的说话者的可能性。如果确定两个或更多个置信度分数超过置信度分数阈值,则说话者标识系统270可选择具有更高置信度分数的用户,或者可提示设备获得另外的信息以分辨说话者的身份。
在一些实施方案中,训练数据可由用户账户系统268获得并存储。训练数据可被存储为波形和/或对应特征/向量,并且可对应于来自各种音频样本的数据,每个音频样本与已知用户和/或用户身份相关联。例如,系统已知的每个用户可与已知用户的某组训练数据相关联。然后,说话者标识系统270可使用训练数据来与传入音频数据(由用户识别特征/向量数据表示)进行比较,以确定说出话语的用户的身份。训练数据可与多个设备的多个用户相关联,因此可与说出相应话语的用户以及提供表示所说话语的音频数据的电子设备100两者相关联。
特定用户的训练数据可包括与用户识别特征/向量数据的向量具有相同大小的特征向量。因此,例如,如果特征向量大小为F,则训练数据也可以是大小为F的特征向量。为产生这种训练数据特征向量,在训练期期间,计算系统200可提示用户说出样本音频数据,或者可标识已知已由特定用户说出的样本音频数据。然后,系统可处理样本音频数据以产生样本训练数据(例如,大小为F的特征向量)。然后,训练数据可由用户账户系统268存储并且保存用于在运行时用户验证处理期间使用。
本领域普通技术人员应认识到,虽然ASR系统258、NLU系统260、主题/技能系统262、TTS系统264、账户系统268和说话者标识系统270中的每一者可各自包括一个或多个处理器252、存储装置/存储器254和通信电路256的实例,但ASR处于258、NLU系统260、功能性系统262、TTS系统264和账户系统268中的每一者内的一个或多个处理器252、存储装置/存储器254和通信电路256的那些实例可有所不同。例如,ASR系统258内的一个或多个处理器252的结构、功能性和样式可基本上类似于NLU系统260内的一个或多个处理器252的结构、功能性和样式,但实际的一个或多个处理器252不必是同一实体。
在一个非限制性实施方案中,计算系统200还可包括被配置来促进两个或更多个电子设备之间的通信的通信系统222。例如,通信系统222可能够促进电子设备100a与至少电子设备100b之间的通信会话。在言语处理系统250确定话语的意图是建立与另一设备的通信会话时,计算设备200可访问通信系统222以促进发起设备与接收设备之间的通信会话。例如,通信系统222可采用VoIP功能性以促进发起设备与接收方设备之间的音频、视频和/或文本数据通信。
作为例示性实例,下文描述两个设备之间的通信会话,以示出可如何建立通信会话。在一个示例性实施方案中,个体(例如,个体2)可对他们的电子设备(例如,电子设备100a)说出话语(例如,“Alexa,给John发送消息:‘想来我家吃饭吗?’”)。响应于检测到设备的唤醒词(例如,“Alexa”),电子设备可开始将表示话语的音频数据发送给计算系统200,并且特别地,言语处理系统250。一旦接收到,ASR系统250就可对音频数据执行言语识别处理(诸如言语到文本处理)以生成表示音频数据的文本数据。然后,文本数据被传递给NLU系统260以确定话语的意图。例如,NLU系统260可包括待用于对所说词消歧并确定预期针对话语发生的动作的样本话语列表。在一些实施方案中,消息传送言语系统可包括在NLU系统260内,所述NLU系统260包括一个或多个样本话语框架。如果所说话语的格式基本上匹配这些样本话语中的一个,则这可指示话语的意图是发起通信会话。例如,一个示例性样本话语可以是“{唤醒词},给{联系人名字}发消息:{消息}”。如果所说话语的文本数据基本上匹配此样本话语的框架,则NLU系统260可确定话语的意图是与用户的联系人开始通信会话,并且还可确定通信会话的预期目标是“John”(例如,{联系人名字}:John)。在确定消息待发送给名为“John”的联系人之后,通信系统222可访问通信账户系统228以确定与联系人“John”相关联的设备标识符(例如,设备地址)。
在一些实施方案中,通信系统222可使用一种或多种VoIP(包括但不限于SIP、RTP、RTCP、SRTP和SDP)协议在发起设备与接收方设备之间建立通信会话。在一个实施方案中,SIP发信号命令可被提供给通信系统222以用于与接收方设备通信。特别地,PJSIP功能性添加指示通信会话的设备对的新“用户到用户”标头。
在一个实施方案中,通信系统222可包括通信规则引擎224。通信规则引擎可存储针对群组账户与用户账户之间的某些通信将如何运转的各种规则。例如,通信规则引擎224可存储取决于各种参数不同消息可如何从一个设备发送给另一设备的通信路由信息和指令,所述各种参数包括但不限于发送者设备是否是共享设备、接收方设备是否是共享设备、发送者设备是否是个人设备、接收方设备是否是个人设备、是否存在与发送者设备和/或接收方设备相关联的任何个人和/或共享设备,和/或说话者标识是否能够积极地标识出说话者。在一个例示性实施方案中,通信规则引擎224可存储指示与通信系统222交互的各种设备的各种设备标识符、群组账户标识符、通信标识符和设备类型的通信表,如下文参考图3更详细地描述。
在一些实施方案中,通信系统222还可包括消息数据存储库226。在一个非限制性实施方案中,消息数据存储库226可对应于能够存储一个或多个所发送/所接收消息的任何合适类型的存储装置/存储器,诸如存储装置/存储器204、254。例如,当个体将消息(例如,“想来我家吃饭吗?”)从他们的共享电子设备发送给另一共享电子设备时,所述消息可由通信系统222使用消息数据存储库226存储。在一些实施方案中,消息数据存储库226可被构造为存储表示音频消息的音频数据、表示视频消息的视频数据、表示图像消息的图像数据、表示文本消息的文本数据和/或消息通知元数据。当个体发出接收为他们的用户账户和/或群组账户接收的消息的请求时,通信系统222可访问消息数据存储库226以获得那些消息,并且可将适当的消息数据(例如,音频、视频、图像、文本等)发送给对应请求的设备(例如,个人设备、共享设备)。在一些实施方案中,消息数据存储库226可用每条消息所针对的对应通信标识符、群组账户标识符、用户账户标识符和/或设备标识符来存储所述消息。例如,如果第一个体将音频消息发送给第二个体,则表示所述音频消息的音频数据可由消息数据存储库226通过与第二个体的由通信账户系统228存储的对应群组账户相关联的群组账户标识符来存储。以此方式,当个体请求接收与他们的群组账户相关联的消息时,可访问消息数据存储库226以获得当前存储在此的与所述群组账户的群组账户标识符相关联的任何消息。
对于发送给一个或多个参与者/从一个或多个参与者接收的消息,通信规则引擎224可采用若干通信规则。首先,可确定发送设备的设备类型。例如,可作出关于与表示包括待发送给另一个体的设备的消息的话语4的音频数据的设备相关联的设备标识符是否与共享设备相关联的确定。接下来,由说话者标识系统270作出关于说出话语的说话者是否能够被标识出的确定。使用这两个参数,例如,通信规则引擎224可被配置来致使通信系统222促进两个或更多个设备之间的通信。
通信账户系统228还可存储对应于一个或多个共享设备的一个或多个群组账户。例如,诸如共享电子设备100的共享设备可具有其自己的存储在通信账户系统228上的群组账户。群组账户也可与共享设备相关联,并且也可链接到一个或多个个体的用户账户。例如,共享电子设备100可与对应于第一群组个体(例如,一个家庭)的第一群组账户相关联。一个或多个用户账户也可与对应于可能够与共享电子设备100交互的个体的第一群组账户(例如,家庭的个体成员)相关联。例如,针对每个用户账户的信息、设置和/或偏好可存储在用户账户数据库内。在一些实施方案中,通信账户系统228和账户系统268可通过网络230彼此通信,以向彼此提供与某些设备和通信账户相关联的账户信息。例如,用户账户系统268可存储特定用户账户的语音生物计量数据,所述语音生物计量数据然后被提供给通信账户系统228以确定与所述用户账户相关联的通信标识符和/或其他通信信息,以便允许与用户账户相关联的设备与一个或多个另外的设备通信。
图3是根据各种实施方案的示例性通信表的例示图。在一个非限制性实施方案中,通信表300包括条目302-314。每个条目可指示与所接收的通信或待发送的通信相关联的设备标识符、群组账户标识符、通信标识符和设备类型。在一些实施方案中,预期从一个设备发送给另一设备的通信的每个实例可产生添加到通信表300的新条目。然而,本领域普通技术人员应认识到,在从设备接收到通信时,可不需要另外的条目,并且与设备的特定设备标识符相关联的条目可由通信系统222存储达任何合适的时间量。
如通信表300所示的设备标识符可对应于针对可与通信系统222交互的设备的任何合适的标识方式。各种类型的设备标识符可包括但不限于介质访问控制(“MAC”)标识符、序列号、互联网协议(“IP”)地址、全球定位地址、电话号码、消息传送标识符等。作为例示性实例,当图1的第一共享电子设备100a将表示话语4的音频数据发送给计算系统200时,所述音频数据可用第一共享电子设备100a唯一的设备标识符(例如,行302的设备标识符:“111.xxx”)来接收。在一个实施方案中,每个设备标识符是其相关联的那个特定设备唯一的。因此,没有两个设备标识符是完全相同的,然而,本领域普通技术人员应认识到,两个设备标识符是相同的也是可能的。
群组账户标识符可对应于指示计算系统200上的特定群组账户的标识符,所述标识符可由对应设备标识符相关联的通信账户系统228存储。例如,如条目302可见,设备可具有可与群组账户标识符111.yyy相关联的设备标识符111.xxx。群组账户标识符可包括指示与这些设备标识符中的一个相关联的每个对应设备是同一群组账户的一部分的多个设备标识符。例如,条目304可对应于设备标识符222.xxx,但也可对应于群组账户标识符111.yyy。这可指示对应于条目302的第一设备和对应于条目304的第二设备均与同一群组账户(例如,群组账户标识符111.yyy)相关联。类似地,条目306也可指示具有设备标识符333.xxx的另一设备也与同条目302和304相关联的第一设备和第二设备相同的群组账户相关联。再者,条目308、310和312也可与对应于不同于群组账户标识符111.yyy的群组账户标识符111.bbb的同一群组账户相关联。
在一些实施方案中,每个设备标识符还可具有相关联通信标识符。通信标识符可以是用于标识通信的参与者的任何合适类型的标识符。作为例示性实例,条目302可指示与设备标识符111.xxx相关联的第一设备具有通信标识符111.zzz。在一些实施方案中,通信标识符可由相关联设备的用户进行配置。例如,通信标识符可以是允许个体在他们将消息发送给另一个体或从另一个体接收消息时标识自身的数字、字母和/或字符的任何合适字母数字串。
由通信表300还可存储与表300中的每个设备条目相关联的设备类型。例如,通信表300可指示对应于特定设备标识符的设备是共享设备还是移动设备。在一个实施方案中,移动设备可被视为通常与特定个体相关联的个人设备。
当接收到表示话语的音频数据时,与音频数据(例如,音频数据的标头的一部分)一起或者单独地(例如,除音频数据之外接收到的元数据),也可接收到设备标识符。在接收到设备标识符时,通信系统222可确定通信表300内的匹配所述设备标识符的条目。在确定设备标识符之后,也可确定所述设备标识符的对应群组标识符,并且可发生对所述设备是否是共享设备的确定。
图4A至图4D是根据各种实施方案的用于将消息从第一设备发送给第二设备的示例性过程的例示流程图。在一个非限制性实施方案中,过程400可以步骤402开始。在步骤402处,可从第一设备接收表示第一消息的第一音频数据。例如,个体2可向第一共享电子设备100a说出话语4。在确定发出第一共享电子设备100a的唤醒词(例如,“Alexa”)时,第一共享电子设备100a可开始将表示话语4的音频数据发送给通信系统200,并且特别地发送给言语处理系统250。本领域普通技术人员应认识到,通过发送给另一设备的意图可接收到任何类型的通信,并且表示消息的音频数据的使用仅是示例性的。例如,可从第一设备可接收音频通信(例如,电话呼叫)或视频通信(例如,视频呼叫)。
在步骤404处,可生成表示第一音频数据的第一文本数据。例如,一旦接收到,言语处理系统250就可将第一音频数据提供给ASR系统258,所述ASR系统258可包括用于对第一音频数据执行自动言语识别处理的STT系统266,所述STT系统266可生成表示第一音频数据的第一文本数据。在步骤406处,可确定第一消息的第一意图。例如,ASR系统258可将第一文本数据提供给NLU系统260,所述NLU系统260使用自然语言理解处理来尝试确定话语的意图。在例示性实例中,所确定的意图可以是第一话语包括待发送给第一联系人的消息。例如,NLU系统260可将第一文本数据与一个或多个样本话语进行比较,以尝试提取样本话语的不同槽的槽值。例如,如果话语是“Alexa--给John发送消息:‘想来我家吃饭吗?’”,则NLU系统260可确定文本数据的格式基本上匹配格式“{唤醒词},给{联系人名字}发送消息:{消息}”的样本话语。使用此框架,槽值{联系人名字}和{消息}可分别被提取为{John}和{想来我家吃饭吗?}。在例示性实施方案中,可使用联系人名字来确定消息待发送给的预期目标接收方。例如,在确定目标接收方对应于具有名字{联系人名字}的联系人时,通信系统222可访问通信账户系统228以确定与所述联系人相关联的联系人信息。
在步骤408处,可接收与第一设备相关联的第一设备标识符。在一些实施方案中,第一设备标识符可以是MAC地址、序列号,或与第一设备相关联的任何其他唯一标识符。在步骤410处,可确定与第一设备标识符相关联的第一群组账户。例如,在接收到第一设备标识符时,通信系统222可访问通信表300以确定与所接收第一设备标识符相关联的群组标识符。例如,如果所接收的第一设备标识符对应于条目302(例如,设备标识符111.xxx),则与之相关联的群组账户标识符将对应于群组账户标识符111.yyy。在步骤412处,可确定与第一联系人相关联的第二群组账户。例如,在确定与第一设备标识符相关联的第一群组账户时,可获得与同第一群组账户相关联的每个用户账户相关联的联系人列表,并且可发生对匹配所述联系人名字的群组账户的确定。作为例示性实例,第一设备可具有对应于第一群组账户的第一设备标识符。所述第一群组账户可包括与所述群组账户的任何用户账户以及群组账户本身相关联的联系人列表。例如,群组账户的联系人列表可由同与第一群组账户相关联的第一用户账户相关联的第一联系人列表和同与群组账户相关联的第二用户账户相关联的第二联系人列表形成。
在步骤414处,作出对与第二群组账户相关联的共享设备的确定。例如,如果第二群组账户对应于群组账户标识符111.bbb,则通信系统222可接收条目308、310和312的设备标识符(例如,111.aaa、222.aaa、333.aaa)。在接收到与所确定群组账户标识符相关联的设备标识符之后,通信系统222可使用通信表300来确定所接收设备标识符中的哪个(如果存在的话)与共享设备相关联。作为例示性实例,通信表300可指示与第二群组账户标识符111.bbb相关联的具有设备标识符111.aaa的第二设备可以是共享设备,因此通信系统222可将设备标识符111.aaa返回作为与第一联系人的所标识第二群组账户相关联的第二共享设备。
在步骤416处,可作出关于是否存在与第二群组账户相关联的任何用户账户的确定。例如,通信系统222可轮询通信表300以确定对应于第二群组账户的标识符的任何用户账户。在获得用户账户时,通信系统222可确定这些用户账户中的哪个(如果存在的话)具有与它们相关联的非共享设备(例如,个人设备)。作为例示性实例,如果第二群组账户与第一用户账户、第二用户账户以及第三用户账户相关联,则可获得对应于与这些用户账户相关联的非共享设备的设备标识符。如果在步骤416处确定存在与第二群组账户相关联的用户账户,则过程400可前进到步骤418。在步骤418处,可确定与一个或多个用户账户相关联的设备标识符。例如,如果第二群组账户具有与其相关联的一个用户账户,则可确定与用户账户的一个或多个个人设备相关联的设备标识符。本领域普通技术人员应认识到,用户账户可与两个或更多个群组账户及因此两个或更多个共享设备相关联,并且前述内容仅是示例性的。然后,过程400可从步骤418前进到步骤420。然而,如果在步骤416处确定不存在与第二群组账户相关联的用户账户,则过程400可前进到步骤420。
在步骤420处,可作出关于第一设备是否是共享设备的确定。例如,基于所接收设备标识符,通信系统222可确定通信表300的所述特定条目的设备类型是对应于共享设备还是个人设备。例如,条目302可对应于共享设备。如果在步骤420处确定第一设备不是共享设备,则过程400可前进到图4B的步骤426。然而,如果在步骤420处确定第一设备是共享设备,则过程400可前进到步骤422。本领域普通技术人员应认识到,在一些实施方案中,步骤420可以是任选的,因为可不需要或执行对于确定第一设备是否对应于共享设备的任何确定。例如,如果第一设备是非共享设备,则在接收到第一音频数据时,通信系统222可能够识别出设备是非共享设备。
在步骤422处,可对所接收的第一音频数据执行说话者标识处理。例如,说话者标识系统270可对第一音频数据执行说话者标识处理以确定第一消息的说话者。例如,说话者标识系统270可生成第一音频数据的语音印记,然后尝试将语音印记与存储在存储器内的与第一设备标识符的特定群组账户相关联的一个或多个语音印记匹配。例如,第一共享电子设备100a可具有与第一群组账户标识符111.yyy相关联的第一设备标识符111.xxx。说话者标识系统270可访问用户账户系统268和/或通信账户系统228以确定针对与第一群组账户标识符相关联的第一群组账户存储了哪些(如果存在的话)语音印记,从而确定这些语音印记是否基本上匹配针对第一音频数据所生成的语音印记。
说话者标识处理可对应于用于确定电子设备处所接收的话语的可能说话者的一种示例性技术。然而,在一些实施方案中,可采用可与说话者标识处理一起或代替说话者标识处理使用的另外的技术。在一个实施方案中,可由第一设备和/或计算系统(从第一设备)接收存在数据。存在数据可例如指示与特定用户账户相关联的非共享设备位于第一设备附近。例如,第一设备可确定接收信号强度指示(“RSSI”)值,其中RSSI值指示第一设备与另一设备之间的通信信号的强度。如果RSSI指示大于预限定RSSI阈值,则这可指示特定设备基本上位于第一设备附近。如果位于附近的所述设备也对应于具有与第一群组账户相关联的用户账户的个体的特定非共享设备,则这可指示第一用户是话语的可能说话者。作为另一实例,第一设备可采用计算机视觉处理来确定位于附近的个体的身份。如果对应于与第一群组账户相关联的用户账户的特定个体在与接收到第一音频数据时基本上相同的时刻被标识为在附近,则这可指示个体是话语的说话者。本领域普通技术人员应认识到,可采用用于确定与所接收音频数据相关联的说话者的另外的技术,并且前述内容仅是示例性的。此外,在一些实施方案中,说话者标识处理可由第一设备执行,并且可将指示说话者是否能够被标识出的信息发送给计算系统(例如,计算系统200)。例如,语音激活电子设备100a可采用说话者标识处理系统270,并且可发送指示第一音频数据的说话者能够被标识出或未能被标识出的信息。
在步骤424处,基于步骤422处执行的说话者标识处理,作出关于说话者是否已被标识出的确定。如果说话者已被标识出,则过程400可前进到图4C的步骤440。然而,如果说话者尚未被标识出,则过程400可前进到图4D的步骤454。
如果在步骤420处确定第一设备不是共享设备,则过程400可前进到步骤426,如图4B可见。在步骤426处,可确定与第一设备标识符相关联的第一用户账户。在例示性实施方案中,如果在步骤420处第一设备被确定为非共享设备,则第一设备可对应于个人设备。通常,个人设备将与一个特定用户账户相关联,因为其通常由单个个体操作。例如,个体的移动设备(例如,智能电话、平板计算机、膝上型计算机等)可对应于示例性个人设备。因此,可在步骤426处确定与所述特定设备相关联的个体的特定用户账户。
在步骤428处,可生成指示第一消息是从第一用户账户发送的消息元数据。通信系统222可生成待与第一消息一起发送给目标接收方的一个或多个设备的指示第一消息是从第一设备发送的元数据。在一些实施方案中,除其他信息之外,第一元数据可指示第一消息发送的时间、对应于第一消息的发送者的用户账户和从其发送第一消息的设备。作为例示性实例,第一元数据可指示话语4“想来我家吃饭吗?”的消息是从与个体2相关联的个人设备发送的。
在步骤430处,可生成表示第一消息的第二音频数据。例如,可生成话语的包括针对目标接收方的消息的一部分的第二音频数据。作为例示性实例,表示消息“想来我家吃饭吗?”的第二音频数据可由通信系统222生成。在一个实施方案中,通信系统222可将消息提供给TTS系统264,所述TTS系统264可生成表示所说话语的对应于第一消息的部分的音频数据。在一些实施方案中,可使用可以第一消息开头的第一消息元数据来生成另外的消息。例如,另外的消息可指示第一消息的发送者,使得当接收方(例如,个体12)请求使用他/她的共享设备(例如,第二共享电子设备100b)来播放他们的消息时,接着另外的消息在第一消息之前播放。作为例示性实例,另外的消息可对应于“您有{消息数量}条来自{发送者的用户账户的通信标识符}消息”。在一些实施方案中,可将第一消息元数据和第二音频数据发送给与接收方相关联的共享设备。例如,通信系统222可将指示已接收到第一消息的第一消息通知以及表示预期发送给接收方的消息的第二音频数据发送给与接收方的群组账户相关联的共享设备。例如,个体12可与第二共享电子设备100b相关联,因此第二共享电子设备100b可从计算系统200接收表示响应16的第二音频数据以及针对第二共享电子设备100b的用于向个体12指示已接收到新消息的通知机构。然而,在一些实施方案中,直到已从接收方接收到对消息回放的请求之前第二音频数据的生成不必发生,因此步骤430可以是任选的。
在步骤432处,可生成与目标接收方相关联的共享设备的第一消息通知。第一消息通知可对应于通知个体接收到消息的任何合适的指示。例如,第一消息通知可对应于致使灯圈或灯圈的一部分变为特定颜色的命令。作为另一实例,第一消息通知可对应于图形用户接口(“GUI”)或GUI的将显示已接收到新消息的视觉指示器的一部分。作为再一实例,第一消息通知可对应于可能够向接收方指示接收到新消息的任何合适的听觉或触觉反馈。在一些实施方案中,如果接收方设备是非共享设备,则类似的过程可发生,因为第一消息通知可为非共享设备生成。
在步骤434处,可由消息数据存储库为第二群组账户以及为与第二群组账户相关联的任何用户账户(例如,第一用户账户)存储第一消息元数据和第二音频数据。例如,可由消息数据存储库226为第二群组账户存储表示第一消息的第二音频数据以及对应于消息的信息(例如,第一消息元数据)。类似地,可由消息数据存储库226为第一用户账户存储第二音频数据和第一消息元数据。然而,为第一用户账户存储的消息传送信息可指示消息已读,因为消息是由第一用户账户发送的。
如果在步骤416处确定存在与第二群组账户相关联的一个或多个用户账户,则可在步骤418处确定对应于一个或多个用户账户的个人设备的设备标识符。例如,与第二群组账户相关联的每个个人设备可对应于能够访问已由第二群组账户接收的通信的用户账户。在此特定情形中,在步骤434之后,过程400还可包括步骤436,其中可生成一个或多个用户账户的第二消息通知。此外,在步骤438处,可将第二消息通知发送给同与第二群组账户相关联的一个或多个用户账户相关联的一个或多个个人设备。第二消息通知可向与特定个人设备相关联的每个用户指示已为他们的群组账户接收到新消息,并且可另外提供一个或多个机构以用于允许所述用户使用他们的个人设备来访问消息。例如,如果已将新消息发送给接收方的共享电子设备,则同也与第二群组账户相关联的用户账户相关联的第一移动设备可接收它自己的指示接收到新消息的消息通知。消息通知可例如提供表示消息的文本数据、用于访问新消息的链接(例如,统一资源定位地址(“URL”)),和/或接收到新消息的视觉、听觉和/或触觉通知。作为例示性实例,响应于接收到表示响应16的音频数据,通信系统222可确定一个或多个用户账户与同第二共享电子设备100b相同的群组账户相关联。例如,个体12以及一个或多个另外的个体可具有与共享电子设备100b的第二群组账户相关联的用户账户。然后,通信系统222可生成消息通知并将其发送给与这些用户账户相关联的另外的设备,使得也可通知操作所述另外的设备的个体新接收的消息。本领域普通技术人员应认识到,步骤436和438可以是任选的,并且如果特定群组账户不具有与之相关联的另外的设备,则可省略步骤436和438。然后,步骤400可前进到下文更详细地描述的步骤466。
如果在步骤424处,第一音频数据的说话者能够被标识出,则过程400可前进到步骤440。在步骤440处,可确定与步骤424处确定的说话者标识符相关联的第一用户账户。例如,说话者标识系统270可确定表示话语4的第一音频数据的说话者可对应于个体2。作为响应,通信系统222可访问通信账户系统228以确定对应于也链接到第一共享电子设备100a的群组账户标识符的个体2的用户账户。
在步骤442处,可生成指示第一消息是从第一用户账户发送的第一消息元数据。在一些实施方案中,步骤442可基本上类似于步骤428,不同之处在于,在步骤442处,第一消息元数据可指示消息是从第一用户账户发送的,因为消息是由第一个体向第一共享设备说出的,而在步骤428处,消息是从第一用户账户发送的,因为消息是由第一个体的个人设备接收的。在步骤444处,可生成表示第二消息的第二音频数据。在一些实施方案中,步骤444可基本上类似于步骤430,并且先前描述可适用。
在步骤446处,可生成共享设备的第一消息通知。步骤446可基本上类似于步骤432,不同之处在于,在步骤446处,第一消息通知可指示第一消息是由第一个体说出的,并且第一消息是从第一共享设备发送的。在步骤448处,可为第二群组账户、第一群组账户和第一用户账户以及与第一群组账户相关联的任何另外的用户账户存储第一消息通知和第二音频数据,并且也可为第二群组账户和与第二群组账户相关联的任何用户账户存储第一消息通知和第二音频数据。
在步骤450处,可为与步骤416处确定的第二群组账户相关联的一个或多个用户账户生成第二消息通知。在步骤452处,可将第二消息通知发送给与这些用户账户相关联的对应个人设备。在一些实施方案中,步骤448、450和452可基本上类似于步骤434、436和438,并且先前描述可适用。在一些实施方案中,然后,过程400可前进到下文更详细地描述的步骤466。
如果在步骤424处,未能够由说话者标识系统270通过说话者标识处理标识出说话者,则过程400可前进到图4D的步骤454。在步骤454处,可生成指示第一消息是从与第一设备相关联的第一群组账户发送的第一消息元数据。例如,如果确定第一设备是共享设备,并且未能够标识出说出包括待发送给接收方的消息的话语的说话者,则可生成指示第一消息是从第一群组账户发送的第一消息元数据。例如,参考图1,第一消息元数据可指示话语4(例如,“想来我家吃饭吗?”)的消息是从与具有第一通信标识符为“Jones家”的第一群组账户相关联的第一共享电子设备100a发送的。在步骤456处,可生成表示第一消息的第二音频数据。在一些实施方案中,步骤456可基本上类似于步骤430,并且先前描述可适用。
在步骤458处,可生成共享设备的第一消息通知。步骤458可基本上类似于步骤432,不同之处在于,在步骤458处,第一消息通知可指示第一消息是从第一共享设备发送的。在步骤460处,可为第一群组账户和第二群组账户存储第一消息通知和第二音频数据。在步骤462处,可为与步骤416处确定的第二群组账户相关联的用户账户生成第二消息通知。在步骤464处,可将第二消息通知发送给对应于这些用户账户的个人设备。在一些实施方案中,步骤460、462和464可基本上类似于步骤434、436和438,并且先前描述可适用。在一些实施方案中,过程400可前进到下文更详细地描述的步骤466。
在步骤466处,可作出关于是否存在与第一群组账户相关联的任何用户账户的确定。例如,类似于步骤416处作出的确定,在步骤466处可确定也与同第一设备相同的群组账户(例如,第一群组账户)相关联的任何用户账户。作为例示性实例,个体2可拥有移动设备,所述移动设备可与它们的特定用户账户以及第一群组账户配对。
如果在步骤466处确定不存在与第一群组账户相关联的用户账户(例如,在通信表300中没有与同一群组账户标识符相关联的另外的条目),则过程400可前进到过程400可结束的步骤468。然而,如果在步骤466处,确定一个或多个用户账户与同第一设备的群组账户相同的群组账户相关联,则过程400可前进到步骤470。在步骤470处,可确定与对应于链接到第一群组账户的一个或多个用户账户的一个或多个非共享设备相关联的一个或多个设备标识符。例如,如果第一群组账户对应于第一群组账户标识符111.yyy,如图3可见,则可确定对应于条目304和306的设备标识符222.xxx和333.xxx也与所述同一第一群组账户相关联,因为它们与一个或多个用户账户相关联。在步骤472处,可生成一个或多个用户账户(中的每一个)的第二消息通知。一个或多个第二消息通知可例如基本上类似于步骤454的第一消息通知,不同之处在于,一个或多个第二消息通知还可指示消息是从与所述个人设备的群组账户相关联的第一共享设备发送的。在步骤474处,可将第二消息通知发送给与在步骤466处被标识为与同第一设备同一群组账户(例如,第一群组账户)相关联的一个或多个用户账户相关联的一个或多个对应非共享设备。
图5是根据各种实施方案的用于输出消息的另一示例性系统的例示图。在一个非限制性实施方案中,系统500包括个体502以及共享电子设备100。电子设备100可例如对应于诸如先前图2所述的示例性电子设备。在一个实施方案中,个体502可向共享电子设备100说出话语504。例如,话语504的格式可以是“{唤醒词},{消息请求话语}”。在例示性实施方案中,{唤醒词}可对应于共享电子设备100的唤醒词或触发表达,并且{消息请求话语}可对应于示例性话语,所述示例性话语的意图是获得由与电子设备100相关联的群组账户,以及特别地,个体的用户账户(诸如与个体502相关联的用户账户)接收的消息。作为例示性实例,{唤醒词}可以是“Alexa”,并且{消息请求话语}可以是“我有消息吗?”或“播放我的消息”。
在确定唤醒词被发出时,共享电子设备100可开始将表示话语504的音频数据发送给计算系统200,并且特别地,言语处理系统250。例如,在接收到音频数据时,ASR系统258可生成表示音频数据的文本数据,并且NLU系统260可使用所述文本数据来确定话语504的意图。在一个实施方案中,NLU系统260可确定话语504的意图是使用共享电子设备100来播放消息。
响应于确定话语504的意图是播放消息,通信系统222可首先尝试确定计算系统200上其消息将要被检索并可能输出的账户。在一个实施方案中,与共享电子设备100相关联的设备标识符可由计算系统200接收,并且可确定对应于设备标识符的群组账户标识符,使得可获得共享电子设备100的群组账户。例如,使用通信表300,可确定与共享电子设备100的所接收设备标识符相关联的群组账户标识符。使用群组账户标识符,可确定由通信账户系统228存储的对应群组账户,并且可获得为所述群组账户接收的消息(如果存在的话)。
在一些实施方案中,在接收到表示话语504的音频数据时,说话者标识系统270可尝试确定话语504的说话者。例如,说话者标识系统270可生成音频数据的语音印记,并且可尝试将语音印记与来自用户账户模块268的一个或多个所存储语音印记进行匹配。在一个实施方案中,可采用与共享电子设备100相关联的设备标识符来将对语音印记的搜索缩小到对应于与针对共享电子设备100的设备标识符确定的群组账户标识符相关联的群组账户的那些语音印记。如果说话者标识系统270能够确定话语504的说话者(例如,个体2),则也可接收到说话者的消息,以及群组账户的任何消息。然而,本领域普通技术人员应认识到,这仅是示例性的,并且在一些实施方案中,每个个体的与群组账户相关联的用户账户可能够接收发送给与所述群组账户相关联的任何用户账户的所有消息。
在从共享电子设备100的对应群组账户接收到消息之后,通信系统222可将消息发送给TTS系统264,以生成表示响应的音频数据,所述响应指示消息,以及指示已接收的消息的数量和这些消息是从谁接收的。例如,响应506可以是“您接收到{消息数量}条来自{发送者}的消息:‘{消息1}’”。作为例示性实例,如果将一条消息从与特定群组账户相关联的另一共享电子设备发送给与电子设备100相关联的群组账户,则响应506可以是“您从Jones家接收到一条消息”,其后跟着所发送的特定消息。如果从同一发送者接收到多条消息,则每条消息可逐一播放。然而,如果从不同发送者接收到不同消息,则个体(例如,个体502)可决定他/她想要如何消费这些消息(例如,首先播放来自第一发送者的消息,接着是来自第二发送者的消息等)。
在一些实施方案中,当接收到针对群组账户和/或与群组账户相关联的特定用户账户的消息时,可向所述群组账户的共享电子设备提供指示接收到新消息的通知。在一个实施方案中,共享电子设备100可包括分成四个部分(部分508a-d)的灯圈。当接收到新消息时,通信系统222可生成并发送消息通知,在接收到所述消息通知时,致使四个部分中一者或多者照亮。例如,当接收到新消息时,通信系统222可将致使灯圈部分508b照亮第一颜色的通信发送给共享电子设备100。
在一些实施方案中,与共享电子设备100相关联的不同个体致使不同灯圈部分照亮。例如,为第一个体接收的消息可致使灯圈部分508a照亮,而为第二个体接收的消息可致使灯圈部分508b照亮。然而,本领域普通技术人员应认识到,任何合适的一个或多个灯圈部分可以针对任何特定个体的任何合适的方式(例如,颜色、强度、图案)照亮,并且前述内容仅是示例性的。
在一些实施方案中,共享电子设备100可包括显示屏212。在此特定情形中,通信系统222可生成并发送指示为与共享电子设备100相关联的群组账户接收到一个或多个新消息的视觉消息通知。例如,可生成包括一条或多条所接收消息的视觉指示器的GUI并将其发送给共享电子设备100,使得致使显示屏212呈现GUI。在一些实施方案中,也可将表示音频数据的文本数据发送给共享电子设备100,使得对应于消息的词可由个体502观看。在此特定情形中,ASR系统258和STT系统266可生成表示一条或多条所接收消息的音频数据的文本数据,并且可将所述文本数据发送给共享电子设备100或供由显示屏212呈现的GUI显示。在一些实施方案中,通信系统222可替代地生成并发送可从其观看表示消息和/或文本数据的音频数据的超链接(例如,URL)。本领域普通技术人员应进一步认识到,可采用用于通知操作电子设备100的个体的任何合适的机构来指示已接收到一条或多条消息,包括但不限于视觉通知(例如,特定颜色的灯、闪烁灯、某些灯照亮)、听觉通知(例如,听觉音调),和/或触觉通知(例如,振动机构)。
如先前所提及,也与群组账户相关联的一个或多个个人设备可接收已由群组账户和/或与群组账户相关联的另一用户接收到一条或多条新消息的通知。在一些实施方案中,系统500可包括具有显示屏512的个人设备510。在一个实施方案中,个人设备510和显示屏512可基本上类似于电子设备100和显示屏212,并且先前描述可适用,不同之处在于,个人设备510可对应于非共享设备。响应于为与电子设备100相关联的群组账户接收到消息,通信系统222可生成消息通知并将其发送给个人设备510。例如,消息通知可包括待由显示屏512显示的GUI,所述GUI致使已接收到一条或多条新消息、所接收消息的数量、从谁接收的消息,以及表示一条或多条消息的文本数据和/或用于访问所述的文本数据的链接、表示一条或多条消息的音频数据,和/或与一条或多条消息相关联的图像/视频数据。在一些实施方案中,消息通知可以是显示于显示屏512上的弹出消息。再者,可向个人设备510提供一个或多个听觉通知和/或触觉通知,以向操作个人设备510的个体指示已为他们的群组账户和/或个人用户账户接收到消息。
图6是根据各种实施方案的用于致使消息从第一设备输出的示例性过程的例示流程图。在一个非限制性实施方案中,过程600可以步骤602开始。在步骤602处,可从第一设备接收表示第一请求的第一音频数据。例如,个体可请求播放与他们的用户账户和/或群组账户相关联的任何消息。作为另一实例,个体可问询他/她是否有任何新消息。作为例示性实例,个体可说出话语“Alexa,我有任何新消息吗?”或“Alexa,播放我的消息”。响应于检测到唤醒词(例如,“Alexa”),第一设备可开始将表示所说请求的音频数据发送给计算系统200,并且特别地,言语处理系统250。然而,在一些实施方案中,可输出致使第一设备开始将第一音频数据传达给计算系统200的特定声音,或者可由第一设备检测到可致使第一设备开始将表示第一请求的音频数据发送给计算系统200的手动输入(例如,按下按钮、触摸触摸屏等)。
在步骤604处,可生成表示第一音频数据的第一文本数据。在一些实施方案中,在接收到第一音频数据时,计算系统200可将第一音频数据提供给言语处理系统250,所述言语处理系统250可使用ASR系统258来生成表示第一音频数据的第一文本数据。在步骤606处,NLU系统260可确定第一请求的第一意图是播放一条或多条消息。例如,第一设备可能已接收到指示已为群组账户和/或与群组账户相关联的用户账户接收到一条或多条新消息的消息通知,诸如闪烁灯、听觉音调或显示在显示屏上的视觉消息。
在步骤608处,可由计算系统200的通信系统222接收对应于第一设备的第一设备标识符。例如,第一设备标识符可对应于MAC地址、序列号、IP地址,或任何合适的标识方式。在步骤610处,可确定与第一设备标识符相关联的第一群组账户。在一些实施方案中,通信系统222可访问通信表(诸如通信表300),以确定对应于第一设备的所接收设备标识符的条目。基于通信表中的条目,可为第一设备确定对应于由通信账户系统228注册并存储的群组账户的群组账户标识符。在一些实施方案中,图6的步骤608和610可基本上类似于图4的步骤408和410,并且先前描述可适用。
在步骤612处,可对所接收第一音频数据执行说话者标识处理。例如,说话者标识系统270可接收第一音频数据或第一音频数据的拷贝,并且可生成第一音频数据的语音印记。使用所生成语音印记,可与所标识群组账户的任何所存储语音印记作出比较。例如,第一群组账户可包括对应于与第一群组账户的一个或多个注册用户相关联的语音生物计量信息的一个或多个所存储语音印记。可将所生成语音印记与注册用户的语音印记进行比较,以确定说出第一请求的语音是否基本上匹配所述群组账户的用户中的一个的语音。在步骤614处,基于所执行的说话者标识处理,可作出关于说话者是否已被标识出的确定。
如果在步骤614处确定已积极地标识出说话者(例如,所生成语音印记与所存储语音印记中的一个之间的匹配超出预限定置信度阈值),则过程600可前进到步骤616。在步骤616处,可确定与第一音频数据的所标识说话者相关联的用户账户。在一些实施方案中,群组账户可本身与一个或多个用户账户相关联。例如,家庭的共享电子设备(例如,电子设备100)可本身与所述家庭的群组账户相关联。然后,居住在家庭处的每个个体也可拥有他们自己的由账户系统268存储的用户账户,所述用户账户也可链接到家庭的群组账户,也可由通信账户系统228(以及账户系统268)存储。因此,响应于确定与第一设备相关联的第一群组账户,并且从第一音频数据积极地标识出说话者,可确定与说出第一请求的个体相关联的用户账户。
在步骤618处,可确定已为第一群组账户和用户账户接收的消息。在一些实施方案中,可访问消息数据存储库226以获得已为所述用户账户接收的任何消息。例如,如先前所述,每个群组账户和相关联用户账户可具有可通过其存储和索引消息的对应标识符(例如,群组账户标识符、用户账户标识符)。在确定将为特定用户账户接收消息时,可确定所述用户账户的标识符以及所述用户账户相关联的群组账户,并且可访问消息数据存储库226以接收已为所述群组账户标识符和/或用户账户标识符存储的消息。
在步骤620处,可生成表示为所述用户账户接收的一条或多条消息的第二音频数据。在一些实施方案中,所生成的第二音频数据可包括已接收的消息,以及指示与消息中的每一条相关联的信息的介绍消息。例如,第二音频数据可包括指示已接收的消息的数量以及从谁接收的这些消息的消息。在一个实施方案中,此信息之后的是已接收的消息。例如,如果消息中的一者或多者是视频消息,则可发送视频的音频部分(如果请求的设备并不包括视频显示组件的话)。在一些实施方案中,除生成表示消息的第二音频数据之外,也可生成表示消息的文本数据。例如,表示音频消息的文本数据可在由言语处理系统250接收到音频消息时生成,并且文本数据也可由消息数据存储库226为所述接收方的用户账户存储。在步骤622处,可将第二音频数据发送给请求消息的第一设备。
在步骤624处,可为第一设备以及为与第一群组账户相关联的任何一个或多个另外的设备生成消息已读通知。为第一设备生成的消息已读通知可向通信系统222并且特别地消息数据存储库226指示与第一设备相关联的所述特定用户账户已读取(听到、查看等)与所述用户账户相关联的消息。这些消息可包括为所述用户账户接收的所有消息,以及为用户账户相关联的群组账户接收的全部消息。与所述用户账户所关联的另外的设备的消息已读通知可致使与所述用户账户相关联的任何另外的设备(例如,一个或多个个人设备)不再指示已接收到新消息,使得对应个体并不相信在查看他们的一个或多个个人设备时接收到另外的消息。例如,如果个体在他们的共享电子设备上接收到他们的用户账户的消息,则可生成消息已读通知,使得所述个体的移动设备不再显示这些消息尚未被“读取”。在步骤626处,可将消息已读通知发送给与用户账户相关联的对应另外的设备。
然而,如果在步骤614处,未能由说话者标识系统270标识出说话者,则过程600可前进到步骤628。在步骤628处,可确定为第一群组账户接收的消息。例如,通信系统222可访问消息数据存储库226,并且可获得已为所指示群组账户的标识符接收的任何消息。在步骤630处,可生成表示所接收消息的第二音频数据。在一些实施方案中,所生成的第二音频数据可包括指示已接收的消息的数量以及从谁接收的这些消息的介绍消息。在步骤632处,可将第二音频数据发送给第一设备。在一个实施方案中,步骤628、630和632可基本上类似于步骤618、620和622,不同之处在于,在步骤628、630和632处,所接收的消息仅与第一群组账户相关联。
在步骤634处,可为第一群组账户生成消息已读通知。消息已读通知可指示与所述第一群组账户相关联的消息已由第一设备接收到,并且这些消息不再是新的,或更一般来说,不是未读消息。在示出消息已读通知时,消息数据存储库226可将与所述群组账户相关联的消息的那个状态更新成指示为已读,使得对消息的未来请求向接收方指示先前已读取这些消息。
本发明的各种实施方案可通过软件实现,但也可以硬件实现,或者以硬件和软件的组合实现。本发明还可体现为计算机可读介质上的计算机可读代码。计算机可读介质可以是可之后由计算机系统读取的任何数据存储设备。
提出本发明的上述实施方案是为了说明目的,而不是意图进行限制。
上述内容也可根据以下条款来理解。
1.一种方法,其包括:
在计算系统处接收表示第一话语的第一音频数据,所述第一音频数据是从第一共享电子设备接收的;
从所述第一共享电子设备接收第一设备标识符;
使用所述第一设备标识符来确定所述第一共享电子设备是能够由第一用户、第二用户和第三用户访问的公共设备,其中:
所述第一设备标识符同与至少对应于所述第一用户的第一用户账户、对应于第二用户的第二用户账户和对应于第三用户的第三用户账户相关联的第一群组账户相关联,使得为所述第一群组账户接收的消息能够由被授权访问所述群组账户、所述第一用户账户、所述第二用户账户或所述第三用户账户中的至少一者的设备访问;
通过对所述第一音频数据执行言语到文本处理来生成表示所述第一音频数据的第一文本数据;
使用自然语言理解处理来确定所述第一话语的第一意图是将消息发送给所述第一群组账户;
通过对所述第一音频数据执行说话者标识处理来确定与所述第一话语相关联的第一说话者标识符;
至少部分地基于所述第一说话者标识符来确定所述第一话语是由所述第一用户说出的;
致使所述第一音频数据与所述第一群组账户、所述第一用户账户、所述第二用户账户和所述第三用户账户相关联地存储;
通知所述第一群组账户已接收到所述第一音频数据;
通知所述第二用户账户已为所述第一群组账户接收到所述第一音频数据;以及
通知所述第三用户账户已为所述第一群组账户接收到所述第一音频数据。
2.如条款1所述的方法,其中通知所述第一群组账户包括:
生成第一通知元数据,所述第一通知元数据包括用于致使灯图案由与所述第一共享电子设备相关联的灯显示的指令,所述灯图案指示已为所述第一群组账户接收到新消息;以及
将所述第一通知元数据发送给所述第一共享电子设备。
3.如条款1或2所述的方法,其还包括:
生成指示所述第一音频数据是已读消息的第一数据标记;
致使所述第一用户账户存储所述第一音频数据和所述第一数据标志,使得所述第一音频数据被指示为对于所述第一用户账户已读;以及
致使所述第一用户账户将所述第一音频数据存储为新传出消息。
4.如条款1、2或3所述的方法,其中通知包括:
确定所述第一用户帐户与第一个人电子设备相关联;
确定所述第二用户帐户与第二个人电子设备相关联;
确定所述第三用户帐户与第三个人电子设备相关联;
生成指示已为所述群组账户接收到通信的第一通知;
将所述第一通知发送给所述第二个人电子设备,使得所述第一音频数据能够由所述第二用户账户访问;以及
将所述第一通知发送给所述第三个人电子设备,使得所述第一音频数据能够由所述第三用户账户访问。
5.一种方法,其包括:
从第一设备接收第一通信数据;
确定所述第一设备与第一群组账户相关联,所述第一群组账户与至少第一用户账户和第二用户账户相关联,使得至少所述第一用户账户和所述第二用户账户能够访问为所述第一群组账户接收的通信;
确定所述第一通信数据的第一发送者对应于所述第一用户账户;
确定所述第一群组账户将要接收所述第一通信;
致使将所述第一通信数据标识为与至少所述第一群组账户和所述第二用户账户相关联的新通信;以及
致使将所述第一通信数据标识为与所述第一用户账户相关联的已发送通信。
6.如条款5所述的方法,其还包括:
确定所述第一通信数据包括表示话语的第一音频数据;
通过对所述第一音频数据的至少一部分执行生物计量处理来确定与所述第一音频数据相关联的第一说话者标识符;
确定与所述第一说话者标识符相关联的置信度分数,所述置信度分数表示所述话语由所述第一用户说出的可能性;以及
至少部分地基于所述置信度分数大于置信度分数阈值来确定所述第一用户说出所述话语。
7.如条款5或6所述的方法,其还包括:
确定所述第一通信数据包括表示话语的音频数据;
生成表示所述音频数据的文本数据;以及
至少部分地基于所述文本数据来确定所述话语的意图是将所述第一音频数据发送给所述第一群组账户。
8.如条款5、6或7所述的方法,其还包括:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者对应于所述第二用户账户;
生成表示指示为所述第二用户账户存储至少所述第一通信数据的响应的音频数据;以及
将所述音频数据发送给所述第一设备。
9.如条款5、6、7或8所述的方法,其还包括:
致使所述第一通信数据被标记为对于所述第一用户账户是非新的;以及
致使所述第一通信被标记为对于所述第二用户账户和所述第一群组账户是新的。
10.如条款5、6、7、8或9所述的方法,其还包括:
确定所述第二用户帐户与个人设备相关联;
生成指示为所述第二用户账户接收到新通信的第一通知;以及将所述第一通知发送给所述个人设备。
11.如条款5、6、7、8、9或10所述的方法,其还包括:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者是所述第一用户账户;
确定为所述第一用户账户存储的通信数量,所述数量不包括所述第一通信;
生成指示所述通信数量的通知;以及
将所述通知发送给所述第一设备。
12.如条款5、6、7、8、9、10或11所述的方法,其还包括:
接收指示第二设备与所述第一设备的接近度的第一存在数据,所述第二设备与所述第一用户账户相关联;以及
确定所述接近度小于或等于阈值接近度,从而指示所述第一用户账户是所述第一发送者。
13.如条款5、6、7、8、9、10、11或12所述的方法,其还包括:
从所述第一设备接收第二通信数据;
确定所述第二通信数据的第二发送者对应于所述第一群组账户;
确定第二群组账户将要接收所述第二通信数据,所述第二群组账户与至少第三用户账户和第四用户账户相关联,使得至少所述第三用户账户和所述第四用户账户能够访问为所述第二群组账户接收的另外的通信;
致使将所述第二通信数据标识为与所述第二群组账户、所述第三用户账户和所述第四用户账户相关联的另外的新通信;以及
致使将所述第二通信数据标识为与所述第一群组账户、所述第一用户账户和所述第二用户账户相关联的另外的已发送通信。
14.一种计算系统,其包括:
存储器;
通信电路;以及
至少一个处理器,所述至少一个处理器能操作来:
从第一设备接收第一通信数据;
确定所述第一设备与第一群组账户相关联,所述第一群组账户与至少第一用户账户和第二用户账户相关联,使得至少所述第一用户账户和所述第二用户账户能够访问为所述第一群组账户接收的通信;
确定所述第一通信数据的第一发送者对应于所述第一用户账户;
确定所述第一群组账户将要接收所述第一通信;
致使将所述第一通信数据标识为与至少所述第一群组账户和所述第二用户账户相关联的新通信;并且
致使将所述第一通信数据标识为与所述第一用户账户相关联的已发送通信。
15.如条款14所述的方法,其中所述至少一个处理器进一步能操作来:
确定所述第一通信数据包括表示话语的第一音频数据;
通过对所述第一音频数据的至少一部分执行生物计量处理来确定与所述第一音频数据相关联的第一说话者标识符;
确定与所述第一说话者标识符相关联的置信度分数,所述置信度分数表示所述话语由所述第一用户说出的可能性;并且
至少部分地基于所述置信度分数大于置信度分数阈值来确定所述第一用户说出所述话语。
16.如条款14所述的计算系统,其中所述至少一个处理器进一步能操作来:
确定所述第一通信数据包括表示话语的音频数据;
生成表示所述音频数据的文本数据;并且
至少部分地基于所述文本数据来确定所述话语的意图是将所述第一音频数据发送给所述第一群组账户。
17.如条款14所述的计算系统,其中所述至少一个处理器进一步能操作来:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者对应于所述第二用户账户;
生成表示指示为所述第二用户账户存储至少所述第一通信数据的响应的音频数据;并且
将所述音频数据发送给所述第一设备。
18.如条款14所述的计算系统,其中所述至少一个处理器进一步能操作来:
致使所述第一通信数据被标记为对于所述第一用户账户是非新的;并且
致使所述第一通信被标记为对于所述第二用户账户和所述第一群组账户是新的。
19.如条款14所述的计算系统,其中所述至少一个处理器进一步能操作来:
确定所述第二用户帐户与个人设备相关联;
生成指示为所述第二用户账户接收到新通信的第一通知;并且
将所述第一通知发送给所述个人设备。
20.如条款14所述的计算系统,其中所述至少一个处理器进一步能操作来:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者是所述第一用户账户;
确定为所述第一用户账户存储的通信数量,所述数量不包括所述第一通信;
生成指示所述通信数量的通知;并且
将所述通知发送给所述第一设备。
提出本发明的上述条款和实施方案是为了说明目的,而不是意图进行限制。虽然已用特定于结构特征的语言描述了主题,但也应理解,所附权利要求中限定的主题不必限于所描述的具体特征。而是,具体特征作为实施权利要求的例示形式来公开。
Claims (15)
1.一种方法,其包括:
从第一设备接收第一通信数据;
确定所述第一设备与第一群组账户相关联,所述第一群组账户与至少第一用户账户和第二用户账户相关联,使得至少所述第一用户账户和所述第二用户账户能够访问为所述第一群组账户接收的通信;
确定所述第一通信数据的第一发送者对应于所述第一用户账户;
确定所述第一群组账户将接收所述第一通信;
致使将所述第一通信数据标识为与至少所述第一群组账户和所述第二用户账户相关联的新通信;以及
致使将所述第一通信数据标识为与所述第一用户账户相关联的已发送通信。
2.如权利要求1所述的方法,其还包括:
确定所述第一通信数据包括表示话语的第一音频数据;
通过对所述第一音频数据的至少一部分执行生物计量处理来确定与所述第一音频数据相关联的第一说话者标识符;
确定与所述第一说话者标识符相关联的置信度分数,所述置信度分数表示所述话语由与所述第一用户账户相关联的第一用户说出的可能性;以及
至少部分地基于所述置信度分数大于置信度分数阈值来确定所述第一用户说出所述话语。
3.如权利要求1或2所述的方法,其还包括:
确定所述第一通信数据包括表示话语的音频数据;
生成表示所述音频数据的文本数据;以及
至少部分地基于所述文本数据来确定所述话语的意图是将所述第一音频数据发送给所述第一群组账户。
4.如权利要求1、2或3所述的方法,其还包括:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者对应于所述第二用户账户;
生成表示指示为所述第二用户账户存储至少所述第一通信数据的响应的音频数据;以及
将所述音频数据发送给所述第一设备。
5.如权利要求1、2、3或4所述的方法,其还包括:
致使将所述第一通信数据标记为对于所述第一用户账户是非新的;以及
致使将所述第一通信标记为对于所述第二用户账户和所述第一群组账户是新的。
6.如权利要求1、2、3、4或5所述的方法,其还包括:
确定所述第二用户帐户与个人设备相关联;
生成指示为所述第二用户账户接收到新通信的第一通知;以及
将所述第一通知发送给所述个人设备。
7.如权利要求1所述的方法,其还包括:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者是所述第一用户账户;
确定为所述第一用户账户存储的通信数量,所述数量不包括所述第一通信;
生成指示所述通信数量的通知;以及
将所述通知发送给所述第一设备。
8.如权利要求1所述的方法,其还包括:
接收指示第二设备与所述第一设备的接近度的第一存在数据,所述第二设备与所述第一用户账户相关联;以及
确定所述接近度小于或等于阈值接近度,从而指示所述第一用户账户是所述第一发送者。
9.如权利要求1所述的方法,其还包括:
从所述第一设备接收第二通信数据;
确定所述第二通信数据的第二发送者对应于所述第一群组账户;
确定第二群组账户将要接收所述第二通信数据,所述第二群组账户与至少第三用户账户和第四用户账户相关联,使得至少所述第三用户账户和所述第四用户账户能够访问为所述第二群组账户接收的另外的通信;
致使将所述第二通信数据标识为与所述第二群组账户、所述第三用户账户和所述第四用户账户相关联的另外的新通信;以及
致使将所述第二通信数据标识为与所述第一群组账户、所述第一用户账户和所述第二用户账户相关联的另外的已发送通信。
10.一种计算系统,其包括:
存储器;
通信电路;以及
至少一个处理器,所述至少一个处理器能操作来:
从第一设备接收第一通信数据;
确定所述第一设备与第一群组账户相关联,所述第一群组账户与至少第一用户账户和第二用户账户相关联,使得至少所述第一用户账户和所述第二用户账户能够访问为所述第一群组账户接收的通信;
确定所述第一通信数据的第一发送者对应于所述第一用户账户;
确定所述第一群组账户将接收所述第一通信;
致使将所述第一通信数据标识为与至少所述第一群组账户和所述第二用户账户相关联的新通信;并且
致使将所述第一通信数据标识为与所述第一用户账户相关联的已发送通信。
11.如权利要求10所述的方法,其中所述至少一个处理器进一步能操作来:
确定所述第一通信数据包括表示话语的第一音频数据;
通过对所述第一音频数据的至少一部分执行生物识别处理来确定与所述第一音频数据相关联的第一说话者标识符;
确定与所述第一说话者标识符相关联的置信度分数,所述置信度分数表示所述话语由所述第一用户说出的可能性;并且
至少部分地基于所述置信度分数大于置信度分数阈值来确定所述第一用户说出所述话语。
12.如权利要求10所述的计算系统,其中所述至少一个处理器进一步能操作来:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者对应于所述第二用户账户;
生成表示指示为所述第二用户账户存储至少所述第一通信数据的响应的音频数据;并且
将所述音频数据发送给所述第一设备。
13.如权利要求10所述的计算系统,其中所述至少一个处理器进一步能操作来:
致使将所述第一通信数据标记为对于所述第一用户账户是非新的;并且
致使将所述第一通信标记为对于所述第二用户账户和所述第一群组账户是新的。
14.如权利要求10所述的计算系统,其中所述至少一个处理器进一步能操作来:
确定所述第二用户帐户与个人设备相关联;
生成指示为所述第二用户账户接收到新通信的第一通知;并且
将所述第一通知发送给所述个人设备。
15.如权利要求10所述的计算系统,其中所述至少一个处理器进一步能操作来:
从所述第一设备接收第二通信数据;
确定所述第二通信数据对应于通信回放请求;
确定所述第二通信数据的第二发送者是所述第一用户账户;
确定为所述第一用户账户存储的通信数量,所述数量不包括所述第一通信;
生成指示所述通信数量的通知;并且
将所述通知发送给所述第一设备。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/390,944 US10916243B2 (en) | 2016-12-27 | 2016-12-27 | Messaging from a shared device |
US15/390,944 | 2016-12-27 | ||
PCT/US2017/067944 WO2018125755A1 (en) | 2016-12-27 | 2017-12-21 | Messaging from a shared device |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110313151A true CN110313151A (zh) | 2019-10-08 |
CN110313151B CN110313151B (zh) | 2023-05-12 |
Family
ID=61006359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780086777.6A Active CN110313151B (zh) | 2016-12-27 | 2017-12-21 | 用于共享设备的通信的方法和计算系统 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10916243B2 (zh) |
EP (1) | EP3563529B1 (zh) |
CN (1) | CN110313151B (zh) |
WO (1) | WO2018125755A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028837A (zh) * | 2019-12-16 | 2020-04-17 | 深圳云之家网络有限公司 | 语音会话方法、语音识别系统及计算机存储介质 |
CN111314319A (zh) * | 2020-01-20 | 2020-06-19 | 维沃移动通信有限公司 | 数据处理方法、电子设备及服务器 |
CN111726561A (zh) * | 2020-06-17 | 2020-09-29 | 千脉文化传媒(上海)有限公司 | 异终端同账号的会议方法、系统、设备及存储介质 |
CN112839103A (zh) * | 2020-06-19 | 2021-05-25 | 支付宝(杭州)信息技术有限公司 | 消息处理方法、装置、系统及电子设备 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769931B2 (en) | 2014-05-20 | 2020-09-08 | Ooma, Inc. | Network jamming detection and remediation |
US10553098B2 (en) | 2014-05-20 | 2020-02-04 | Ooma, Inc. | Appliance device integration with alarm systems |
US9633547B2 (en) | 2014-05-20 | 2017-04-25 | Ooma, Inc. | Security monitoring and control |
US11330100B2 (en) * | 2014-07-09 | 2022-05-10 | Ooma, Inc. | Server based intelligent personal assistant services |
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
US10009286B2 (en) | 2015-05-08 | 2018-06-26 | Ooma, Inc. | Communications hub |
US11171875B2 (en) | 2015-05-08 | 2021-11-09 | Ooma, Inc. | Systems and methods of communications network failure detection and remediation utilizing link probes |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
WO2018161014A1 (en) * | 2017-03-03 | 2018-09-07 | Orion Labs | Phone-less member of group communication constellations |
US11373650B2 (en) * | 2017-10-17 | 2022-06-28 | Sony Corporation | Information processing device and information processing method |
JP7123134B2 (ja) * | 2017-10-27 | 2022-08-22 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | デコーダにおけるノイズ減衰 |
US20190253371A1 (en) * | 2017-10-31 | 2019-08-15 | Gopro, Inc. | Systems and methods for sharing captured visual content |
US10510340B1 (en) * | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
US11900928B2 (en) | 2017-12-23 | 2024-02-13 | Soundhound Ai Ip, Llc | System and method for adapted interactive experiences |
US10455029B2 (en) | 2017-12-29 | 2019-10-22 | Dish Network L.L.C. | Internet of things (IOT) device discovery platform |
US10560737B2 (en) * | 2018-03-12 | 2020-02-11 | Amazon Technologies, Inc. | Voice-controlled multimedia device |
US10847176B2 (en) | 2018-03-12 | 2020-11-24 | Amazon Technologies, Inc. | Detection of TV state using sub-audible signal |
US11151991B2 (en) * | 2018-03-30 | 2021-10-19 | Verizon Media Inc. | Electronic message transmission |
CN109347721B (zh) * | 2018-09-28 | 2021-12-24 | 维沃移动通信有限公司 | 一种信息发送方法及终端设备 |
US10810293B2 (en) * | 2018-10-16 | 2020-10-20 | Motorola Solutions, Inc. | Method and apparatus for dynamically adjusting biometric user authentication for accessing a communication device |
US10674001B1 (en) | 2018-12-10 | 2020-06-02 | Amazon Technologies, Inc. | Voice-enabled communication configurations |
US11334383B2 (en) * | 2019-04-24 | 2022-05-17 | International Business Machines Corporation | Digital assistant response system to overlapping requests using prioritization and providing combined responses based on combinability |
KR102436985B1 (ko) | 2019-05-31 | 2022-08-29 | 애플 인크. | 오디오 미디어 제어를 위한 사용자 인터페이스 |
US11010121B2 (en) | 2019-05-31 | 2021-05-18 | Apple Inc. | User interfaces for audio media control |
US10867608B1 (en) | 2019-05-31 | 2020-12-15 | Apple Inc. | Multi-user configuration |
CN117014859A (zh) * | 2019-09-19 | 2023-11-07 | 华为技术有限公司 | 基于通讯录的设备发现方法、音视频通信方法及电子设备 |
CN111339513B (zh) * | 2020-01-23 | 2023-05-09 | 华为技术有限公司 | 数据分享的方法和装置 |
US11784674B2 (en) * | 2020-03-24 | 2023-10-10 | Qualcomm Incorporated | Calibration of open space for an antenna array module |
US11756357B2 (en) | 2020-10-14 | 2023-09-12 | 1Ahead Technologies | Access management system |
CN117356113A (zh) * | 2021-05-24 | 2024-01-05 | 三星电子株式会社 | 使用异构扬声器节点进行智能音频渲染的系统及其方法 |
US11960615B2 (en) | 2021-06-06 | 2024-04-16 | Apple Inc. | Methods and user interfaces for voice-based user profile management |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060245576A1 (en) * | 2005-04-27 | 2006-11-02 | Henry Gary E | Technique for continually assisting a user during an information assistance call |
CN101098267A (zh) * | 2006-06-28 | 2008-01-02 | 华为技术有限公司 | 一种建立群组会话的方法和系统 |
CN101150536A (zh) * | 2007-11-07 | 2008-03-26 | 腾讯科技(深圳)有限公司 | 讨论组创建/分发方法及装置、即时通讯系统 |
CN103312584A (zh) * | 2012-03-06 | 2013-09-18 | 百度在线网络技术(北京)有限公司 | 一种在网络社区中发布信息的方法与设备 |
CN105917626A (zh) * | 2014-03-12 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 通过社交网络平台控制外围设备的方法和装置 |
CN106100969A (zh) * | 2016-05-30 | 2016-11-09 | 北京三快在线科技有限公司 | 一种未读会话的提醒方法、装置和终端设备 |
Family Cites Families (115)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4581486A (en) * | 1979-11-26 | 1986-04-08 | Vmx, Inc. | Electronic audio communications system with user accessible message groups |
US7334050B2 (en) * | 2000-06-07 | 2008-02-19 | Nvidia International, Inc. | Voice applications and voice-based interface |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US7653691B2 (en) * | 2000-11-15 | 2010-01-26 | Pacific Datavision Inc. | Systems and methods for communicating using voice messages |
US7174453B2 (en) * | 2000-12-29 | 2007-02-06 | America Online, Inc. | Message screening system |
US20030135574A1 (en) * | 2001-12-20 | 2003-07-17 | Burg Frederick Murray | Independent notification of urgent messages |
US7130390B2 (en) * | 2002-02-01 | 2006-10-31 | Microsoft Corporation | Audio messaging system and method |
US20030229670A1 (en) * | 2002-06-11 | 2003-12-11 | Siemens Information And Communication Networks, Inc. | Methods and apparatus for using instant messaging as a notification tool |
US6865391B1 (en) * | 2002-07-11 | 2005-03-08 | Sprint Spectrum L.P. | Method and system for vocoder bypass using electronic serial numbers |
US7644166B2 (en) * | 2003-03-03 | 2010-01-05 | Aol Llc | Source audio identifiers for digital communications |
US20060020677A1 (en) * | 2004-07-23 | 2006-01-26 | Microsoft Corporation | Providing sender-specific notifications of received e-mail messages |
US7912206B2 (en) * | 2004-07-30 | 2011-03-22 | Miller John S | Technique for providing a personalized electronic messaging service through an information assistance provider |
US10021062B2 (en) * | 2005-07-01 | 2018-07-10 | Cirius Messaging Inc. | Secure electronic mail system |
US7720916B2 (en) * | 2006-02-28 | 2010-05-18 | Microsoft Corporation | Ordering personal information using social metadata |
US8144006B2 (en) * | 2006-09-19 | 2012-03-27 | Sharp Laboratories Of America, Inc. | Methods and systems for message-alert display |
MX2009007396A (es) * | 2007-01-09 | 2010-03-22 | Spinvox Ltd | Selección de un enlace en un mensaje recibido para respuesta hablada, la cual se convierte en forma de texto para suministro. |
US8155281B2 (en) * | 2007-06-20 | 2012-04-10 | Ribbit Corporation | Cross-media voice mail notification and delivery |
US20110022387A1 (en) * | 2007-12-04 | 2011-01-27 | Hager Paul M | Correcting transcribed audio files with an email-client interface |
US8370148B2 (en) * | 2008-04-14 | 2013-02-05 | At&T Intellectual Property I, L.P. | System and method for answering a communication notification |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8347360B2 (en) * | 2009-05-15 | 2013-01-01 | Verizon Patent And Licensing Inc. | Shared device identity manager |
US9277021B2 (en) * | 2009-08-21 | 2016-03-01 | Avaya Inc. | Sending a user associated telecommunication address |
EP2348450B1 (en) * | 2009-12-18 | 2013-11-06 | CompuGroup Medical AG | Database system, computer system, and computer-readable storage medium for decrypting a data record |
KR101222132B1 (ko) * | 2009-12-18 | 2013-01-14 | 한국전자통신연구원 | 무선 ip 망에서 그룹 통신과 일대일 통신을 병행하는 방법 및 시스템 |
US8705724B2 (en) * | 2010-02-24 | 2014-04-22 | General Motors Llc | Method of posting a voice related message on a remotely accessible networking page |
US8442835B2 (en) * | 2010-06-17 | 2013-05-14 | At&T Intellectual Property I, L.P. | Methods, systems, and products for measuring health |
US8648712B2 (en) * | 2010-06-17 | 2014-02-11 | J. Roy Pottle | Electronic emergency messaging system |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US20130097270A1 (en) * | 2010-09-24 | 2013-04-18 | Yagi Corp. | Conditional Auto-Responder |
US8433797B2 (en) * | 2011-04-11 | 2013-04-30 | Ringcentral, Inc. | User interface for accessing messages |
US9053750B2 (en) * | 2011-06-17 | 2015-06-09 | At&T Intellectual Property I, L.P. | Speaker association with a visual representation of spoken content |
AU2012279139A1 (en) * | 2011-07-01 | 2014-02-20 | Angel.Com | Voice enabled social artifacts |
US10182147B2 (en) * | 2011-09-21 | 2019-01-15 | Twilio Inc. | System and method for determining and communicating presence information |
US9218605B2 (en) * | 2011-09-21 | 2015-12-22 | Nokia Technologies Oy | Method and apparatus for managing recommendation models |
US8817663B2 (en) * | 2012-01-11 | 2014-08-26 | Genband Us Llc | Methods, systems, and non-transitory computer readable media for creating and managing ad-hoc groups linked to an event and spanning multiple modes of communication |
US9641480B2 (en) * | 2012-02-05 | 2017-05-02 | Apple Inc. | Automated participant account determination for a communication session |
US8886524B1 (en) * | 2012-05-01 | 2014-11-11 | Amazon Technologies, Inc. | Signal processing based on audio context |
WO2013184048A1 (en) * | 2012-06-04 | 2013-12-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and message server for routing a speech message |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
US20130346337A1 (en) * | 2012-06-26 | 2013-12-26 | Lets Gift it LLC | Systems and Methods For Delivering Media Messages |
US9430778B2 (en) * | 2012-07-30 | 2016-08-30 | Kount Inc. | Authenticating users for accurate online audience measurement |
US20140074972A1 (en) * | 2012-09-07 | 2014-03-13 | Kabushiki Kaisha Toshiba | System and Electronic Device |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9204088B2 (en) * | 2013-03-15 | 2015-12-01 | Sorenson Communications, Inc. | Systems including and methods of operating communication devices assigned individual and group identities |
US9424359B1 (en) * | 2013-03-15 | 2016-08-23 | Twitter, Inc. | Typeahead using messages of a messaging platform |
US20140343943A1 (en) * | 2013-05-14 | 2014-11-20 | Saudi Arabian Oil Company | Systems, Computer Medium and Computer-Implemented Methods for Authenticating Users Using Voice Streams |
US10002611B1 (en) * | 2013-05-15 | 2018-06-19 | Amazon Technologies, Inc. | Asynchronous audio messaging |
CN104219667B (zh) * | 2013-05-31 | 2018-05-11 | 华为终端(东莞)有限公司 | 用于建立连接的方法及设备 |
US9906535B2 (en) * | 2013-09-10 | 2018-02-27 | Arthur P. GOLDBERG | Methods for rapid enrollment of users of a secure, shared computer system via social networking among people on a selective list |
US10135805B2 (en) * | 2013-10-31 | 2018-11-20 | Cellco Partnership | Connected authentication device using mobile single sign on credentials |
US11086592B1 (en) * | 2013-11-14 | 2021-08-10 | Twitter, Inc. | Distribution of audio recording for social networks |
US9892723B2 (en) * | 2013-11-25 | 2018-02-13 | Rovi Guides, Inc. | Systems and methods for presenting social network communications in audible form based on user engagement with a user device |
US9698999B2 (en) * | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
WO2015105994A1 (en) * | 2014-01-08 | 2015-07-16 | Callminer, Inc. | Real-time conversational analytics facility |
US9455942B2 (en) * | 2014-02-05 | 2016-09-27 | Ringcentral, Inc. | Conversation timeline for heterogeneous messaging system |
US20180034961A1 (en) * | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
GB201406695D0 (en) * | 2014-04-14 | 2014-05-28 | Shopchat Ltd | Threaded messaging |
KR20150125464A (ko) * | 2014-04-30 | 2015-11-09 | 삼성전자주식회사 | 메시지 표시 방법 및 전자 장치 |
GB201408302D0 (en) * | 2014-05-12 | 2014-06-25 | Jpy Plc | Unifying text and audio |
US10223664B2 (en) * | 2014-05-30 | 2019-03-05 | United Parcel Service Of America, Inc. | Concepts for using action identifiers in messages |
US20150365359A1 (en) * | 2014-06-13 | 2015-12-17 | Russell Hasan | Html5-based message protocol |
US20150381533A1 (en) * | 2014-06-29 | 2015-12-31 | Avaya Inc. | System and Method for Email Management Through Detection and Analysis of Dynamically Variable Behavior and Activity Patterns |
US9825899B2 (en) * | 2014-07-10 | 2017-11-21 | Facebook, Inc. | Systems and methods for directng messages based on social data |
US11942095B2 (en) * | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US20160034709A1 (en) * | 2014-08-02 | 2016-02-04 | General Vault, LLC | Methods and apparatus for multigenerational family storage vault |
US20160043979A1 (en) * | 2014-08-05 | 2016-02-11 | FaceToFace Biometrics, Inc. | Automatic biographical summary compilation and speaker recognition based messaging system |
US20170230495A1 (en) * | 2014-08-08 | 2017-08-10 | Vishal Gupta | Ultra quick messaging & connected phonebooks device |
US9503402B2 (en) * | 2014-08-18 | 2016-11-22 | Dropbox, Inc. | Managing drafts of electronic documents across client devices |
US10425783B1 (en) * | 2014-09-10 | 2019-09-24 | West Corporation | Providing data messaging support by intercepting and processing received short message service (SMS) messages at a customer support service |
US10264411B2 (en) * | 2014-11-03 | 2019-04-16 | Zte Corporation | Group communication function for delivering group communication messages in communication networks |
US10585485B1 (en) * | 2014-11-10 | 2020-03-10 | Amazon Technologies, Inc. | Controlling content zoom level based on user head movement |
CN106211022A (zh) * | 2014-11-26 | 2016-12-07 | 三星电子株式会社 | 用于配对可穿戴设备和智能设备的方法和装置 |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US11303599B2 (en) * | 2014-12-31 | 2022-04-12 | C. Douglass Thomas | Network-based messaging system with database management for computer based inter-user communication |
US20160253702A1 (en) * | 2015-02-27 | 2016-09-01 | Ebay, Inc. | Location-Based Budget Alerts |
US20170026333A1 (en) * | 2015-03-11 | 2017-01-26 | Satyan G. Pitroda | Methods and systems for a unified multi-media communications system |
US20160275301A1 (en) * | 2015-03-17 | 2016-09-22 | Dots Communication, Inc. | Information sharing control |
US9928377B2 (en) * | 2015-03-19 | 2018-03-27 | Netskope, Inc. | Systems and methods of monitoring and controlling enterprise information stored on a cloud computing service (CCS) |
US10080111B2 (en) * | 2015-03-19 | 2018-09-18 | Facebook, Inc. | Techniques for communication using audio stickers |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
US20160344827A1 (en) * | 2015-05-21 | 2016-11-24 | Facewatch Limited | Systems, Methods, and Devices for Information Sharing and Matching |
US9948586B2 (en) * | 2015-05-29 | 2018-04-17 | International Business Machines Corporation | Intelligent information sharing system |
KR102341144B1 (ko) * | 2015-06-01 | 2021-12-21 | 삼성전자주식회사 | 메시지를 출력하는 전자 장치 및 그 제어 방법 |
EP3311626B1 (en) * | 2015-06-22 | 2021-05-05 | Loose Cannon Systems, Inc. | Portable group communication device |
KR102351495B1 (ko) * | 2015-06-26 | 2022-01-14 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 메시지를 제공하는 방법 |
US20170149708A1 (en) * | 2015-08-27 | 2017-05-25 | City Ranked Media, Inc. | Methods, systems and apparatus for automated service requests and/or database building |
KR102558437B1 (ko) * | 2015-11-27 | 2023-07-24 | 삼성전자주식회사 | 질의 응답 처리 방법 및 이를 지원하는 전자 장치 |
US9590941B1 (en) * | 2015-12-01 | 2017-03-07 | International Business Machines Corporation | Message handling |
US20170169390A1 (en) * | 2015-12-15 | 2017-06-15 | Jesse Garret Wesselink | Method for Providing Anonymous Peer Feedback for Work Teams |
US10380208B1 (en) * | 2015-12-28 | 2019-08-13 | Amazon Technologies, Inc. | Methods and systems for providing context-based recommendations |
US9736289B2 (en) * | 2015-12-28 | 2017-08-15 | Thunder Power New Energy Vehicle Development Company Limited | Platform for wireless interaction with vehicle |
US10129335B2 (en) * | 2016-01-05 | 2018-11-13 | Quirklogic, Inc. | Method and system for dynamic group creation in a collaboration framework |
US9935952B2 (en) * | 2016-01-28 | 2018-04-03 | Verizon Patent And Licensing Inc. | Selectively permitting a receiver device to access a message based on authenticating the receiver device |
US10028112B2 (en) * | 2016-02-18 | 2018-07-17 | Vivint, Inc. | Event triggered messaging |
US10216722B2 (en) * | 2016-02-29 | 2019-02-26 | DISH Technologies L.L.C. | Systems and methods for processing shorthand items in electronic communications |
US9928833B2 (en) * | 2016-03-17 | 2018-03-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | Voice interface for a vehicle |
WO2017162281A1 (en) * | 2016-03-23 | 2017-09-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model |
US10079851B2 (en) * | 2016-03-29 | 2018-09-18 | Paypal, Inc. | Device identification systems |
US10469417B2 (en) * | 2016-03-31 | 2019-11-05 | Atlassian Pty Ltd | Systems and methods for providing external content in a messaging interface |
CN107305459A (zh) * | 2016-04-25 | 2017-10-31 | 阿里巴巴集团控股有限公司 | 语音和多媒体消息的发送方法及装置 |
US10254123B2 (en) * | 2016-05-24 | 2019-04-09 | Telenav, Inc. | Navigation system with vision augmentation mechanism and method of operation thereof |
US10178062B2 (en) * | 2016-06-07 | 2019-01-08 | Facebook, Inc. | Techniques for ephemeral messaging with remote ephemeral mode configuration |
US10332513B1 (en) * | 2016-06-27 | 2019-06-25 | Amazon Technologies, Inc. | Voice enablement and disablement of speech processing functionality |
US10044869B2 (en) * | 2016-06-29 | 2018-08-07 | Paypal, Inc. | Voice-controlled audio communication system |
US11244687B2 (en) * | 2016-07-06 | 2022-02-08 | Pcms Holdings, Inc. | System and method for customizing smart home speech interfaces using personalized speech profiles |
US10291788B2 (en) * | 2016-09-07 | 2019-05-14 | Verizon Patent And Licensing Inc. | Segmenting data usage of a device to associate the data usage with an account |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
US11595327B2 (en) * | 2016-10-14 | 2023-02-28 | Salesforce, Inc. | Method, apparatus, and computer program product for associating an identifier with one or more message communications within a group-based communication system |
US10523780B2 (en) * | 2016-10-20 | 2019-12-31 | Facebook, Inc. | Determining a primary user of a client device and propagating settings of the primary user from the client device to an online system |
JP6682007B2 (ja) * | 2016-11-11 | 2020-04-15 | 旭化成株式会社 | 電子機器、電子機器の制御方法及び電子機器の制御プログラム |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10069845B2 (en) * | 2016-11-29 | 2018-09-04 | Verizon Patent And Licensing Inc. | System and methods for secure short message service encryption and provisioning |
US10134396B2 (en) * | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
US10070309B2 (en) * | 2016-12-22 | 2018-09-04 | Tile, Inc. | Unauthorized tracking device detection and prevention |
-
2016
- 2016-12-27 US US15/390,944 patent/US10916243B2/en active Active
-
2017
- 2017-12-21 WO PCT/US2017/067944 patent/WO2018125755A1/en unknown
- 2017-12-21 EP EP17832446.3A patent/EP3563529B1/en active Active
- 2017-12-21 CN CN201780086777.6A patent/CN110313151B/zh active Active
-
2021
- 2021-01-12 US US17/146,997 patent/US20210210094A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060245576A1 (en) * | 2005-04-27 | 2006-11-02 | Henry Gary E | Technique for continually assisting a user during an information assistance call |
CN101098267A (zh) * | 2006-06-28 | 2008-01-02 | 华为技术有限公司 | 一种建立群组会话的方法和系统 |
CN101150536A (zh) * | 2007-11-07 | 2008-03-26 | 腾讯科技(深圳)有限公司 | 讨论组创建/分发方法及装置、即时通讯系统 |
CN103312584A (zh) * | 2012-03-06 | 2013-09-18 | 百度在线网络技术(北京)有限公司 | 一种在网络社区中发布信息的方法与设备 |
CN105917626A (zh) * | 2014-03-12 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 通过社交网络平台控制外围设备的方法和装置 |
CN106100969A (zh) * | 2016-05-30 | 2016-11-09 | 北京三快在线科技有限公司 | 一种未读会话的提醒方法、装置和终端设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028837A (zh) * | 2019-12-16 | 2020-04-17 | 深圳云之家网络有限公司 | 语音会话方法、语音识别系统及计算机存储介质 |
CN111314319A (zh) * | 2020-01-20 | 2020-06-19 | 维沃移动通信有限公司 | 数据处理方法、电子设备及服务器 |
CN111314319B (zh) * | 2020-01-20 | 2022-06-10 | 维沃移动通信有限公司 | 数据处理方法、电子设备及服务器 |
CN111726561A (zh) * | 2020-06-17 | 2020-09-29 | 千脉文化传媒(上海)有限公司 | 异终端同账号的会议方法、系统、设备及存储介质 |
CN111726561B (zh) * | 2020-06-17 | 2022-07-08 | 千脉文化传媒(上海)有限公司 | 异终端同账号的会议方法、系统、设备及存储介质 |
CN112839103A (zh) * | 2020-06-19 | 2021-05-25 | 支付宝(杭州)信息技术有限公司 | 消息处理方法、装置、系统及电子设备 |
CN112839103B (zh) * | 2020-06-19 | 2022-12-16 | 支付宝(杭州)信息技术有限公司 | 消息处理方法、装置、系统及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2018125755A1 (en) | 2018-07-05 |
EP3563529A1 (en) | 2019-11-06 |
US20210210094A1 (en) | 2021-07-08 |
US10916243B2 (en) | 2021-02-09 |
US20180182389A1 (en) | 2018-06-28 |
EP3563529B1 (en) | 2022-12-14 |
CN110313151B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110313151A (zh) | 来自共享设备的消息传送 | |
US11657812B2 (en) | Message playback using a shared device | |
US10733987B1 (en) | System and methods for providing unplayed content | |
US11810554B2 (en) | Audio message extraction | |
US11514909B2 (en) | Third party account linking for voice user interface | |
US10490195B1 (en) | Using system command utterances to generate a speaker profile | |
CN110021301A (zh) | 数字助理服务的远场延伸 | |
CN107491285A (zh) | 智能设备仲裁和控制 | |
US10157614B1 (en) | Message playback using a shared device | |
US10186267B1 (en) | Message playback using a shared device | |
CN109643548A (zh) | 用于将内容路由到相关联输出设备的系统和方法 | |
CN110472130A (zh) | 降低对手动开始/结束点和触发短语的需求 | |
US11290542B2 (en) | Selecting a device for communications session | |
US11120423B2 (en) | Secure data submission via audio transmission | |
US10902001B1 (en) | Contact presence aggregator | |
US11256463B2 (en) | Content prioritization for a display array | |
US10671343B1 (en) | Graphical interface to preview functionality available for speech-enabled processing | |
CN110111795B (zh) | 一种语音处理方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |