CN117879949A - 网络系统中的分布式标识 - Google Patents
网络系统中的分布式标识 Download PDFInfo
- Publication number
- CN117879949A CN117879949A CN202410048448.4A CN202410048448A CN117879949A CN 117879949 A CN117879949 A CN 117879949A CN 202410048448 A CN202410048448 A CN 202410048448A CN 117879949 A CN117879949 A CN 117879949A
- Authority
- CN
- China
- Prior art keywords
- client device
- user
- identification model
- audio identification
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 139
- 238000000034 method Methods 0.000 claims abstract description 87
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims description 114
- 230000004044 response Effects 0.000 claims description 45
- 238000013475 authorization Methods 0.000 claims description 22
- 238000009877 rendering Methods 0.000 claims 3
- 230000005540 biological transmission Effects 0.000 abstract description 10
- 230000009471 action Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 11
- 238000013515 script Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5055—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering software capabilities, i.e. software resources associated or available to the machine
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/102—Entity profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/107—Network architectures or network communication protocols for network security for controlling access to devices or network resources wherein the security policies are location-dependent, e.g. entities privileges depend on current location or allowing specific operations only from locally connected terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/108—Network architectures or network communication protocols for network security for controlling access to devices or network resources when the policy decisions are valid for a limited amount of time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/08—Access security
- H04W12/082—Access security using revocation of authorisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/60—Context-dependent security
- H04W12/61—Time-dependent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/60—Context-dependent security
- H04W12/63—Location-dependent; Proximity-dependent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/60—Context-dependent security
- H04W12/63—Location-dependent; Proximity-dependent
- H04W12/64—Location-dependent; Proximity-dependent using geofenced areas
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2111—Location-sensitive, e.g. geographical location, GPS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及网络系统中的分布式标识。本公开总体上针对用于在语音激活的计算机网络环境中定制内容的数据处理系统。在用户同意的情况下,数据处理系统可以通过例如增加在生成定制内容时使用的语音标识过程的准确性来改善通过一个或多个计算机网络的听觉数据分组传输的效率和有效性。本解决方案可以在生成较少的音频标识模型的同时进行准确的标识,该音频标识模型的生成是计算密集的。
Description
分案说明
本申请属于申请日为2017年12月8日的中国发明专利申请No.201780097541.2的分案申请。
技术领域
本申请大体涉及网络系统中的分布式标识。
背景技术
在计算设备之间的网络业务数据的基于分组的或以其它方式的过度网络传输可能妨碍计算设备适当地处理网络业务数据、完成与网络业务数据有关的操作或者及时对网络业务数据做出响应。如果响应计算设备达到或超过其处理能力,则网络业务数据的过度传输也可以使数据路由复杂化或者使响应的质量降级,这可能导致效率低的带宽利用。
发明内容
根据本公开的至少一个方面,一种在语音激活系统中定制内容的系统可以包括数据处理系统。数据处理系统可以包括接口。该接口可以接收第一客户端计算设备的位置。第一客户端计算设备可以与第一音频标识模型相关联。该接口可以从第二客户端计算设备接收音频输入信号。第二客户端计算设备可以与第二音频标识模型相关联。数据处理系统可以包括认证组件。认证组件可以确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内。认证组件可以基于确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内,提供对第一客户端计算设备的第一音频标识模型的访问,以处理由第二客户端计算设备接收到的音频信号。认证组件可以使用第一音频标识模型来生成第一标识得分,并且使用第二音频标识模型来生成第二标识得分。认证组件可以基于第一标识得分和第二标识得分从多个候选简档中选择简档。数据处理系统可以包括内容选择组件,以基于从多个候选简档中选择的简档来选择数字分量。数据处理系统的接口可以响应于音频输入信号将数字分量传输到第二客户端计算设备。
本公开的至少一个方面涉及一种在语音激活系统中定制内容的方法。该方法可以包括接收第一客户端计算设备的位置。第一客户端计算设备可以与第一音频标识模型相关联。该方法可以包括确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内。第二客户端计算设备可以与第二音频标识模型相关联。该方法可以包括基于确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内,提供对第一客户端计算设备的第一音频标识模型的访问,以处理由第二客户端计算设备接收到的音频信号。该方法可以包括从第二客户端计算设备接收音频输入信号。该方法可以包括使用第一音频标识模型生成第一标识得分,以及使用第二音频标识模型生成第二标识得分。该方法可以包括基于第一标识得分和第二标识得分从多个候选简档中选择简档。该方法可以包括基于简档来选择数字分量。该方法可以包括将数字分量传输到第二客户端计算设备。
根据本公开的至少一个方面,提供一种数字助理设备,该数字助理设备被配置成执行在语音激活的系统中定制内容的方法。例如,数字助理设备可以包括音频驱动器、换能器、检测输入音频信号的传感器以及预处理器组件。预处理器组件可以耦合到音频驱动器、换能器和传感器。预处理器组件可以对输入音频信号进行滤波以创建滤波后的输入音频信号。预处理器组件可以将滤波后的输入音频信号转换为数据分组。预处理器组件可以将数据分组传输到数据处理系统。该数据处理系统可以包括执行内容选择器组件、接口和认证组件的一个或多个处理器和存储器。数据处理系统可以接收第一客户端计算设备的位置。第一客户端计算设备可以与第一音频标识模型相关联。数据处理系统可以确定第一客户端计算设备的位置在距数字助理设备的预定距离之内。数据处理系统可以基于确定第一客户端计算设备的位置在距数字助理设备的预定距离之内,向数字助理设备提供对第一客户端计算设备的第一音频标识模型的访问。该数字助理设备可以与第二音频标识模型相关联。数据处理系统可以使用第一音频标识模型来生成第一标识得分,并且使用第二音频标识模型来生成第二标识得分。数据处理系统可以基于第一标识得分和第二标识得分从多个候选简档中选择简档。数据处理系统可以基于从多个候选简档中选择的简档来选择数字分量。数据处理系统可以响应于音频输入信号将数字分量传输到第二客户端计算设备。
在下面详细地讨论这些及其它方面和实施方式。前面的信息和以下详细描述包括各个方面和实施方式的说明性示例,并且提供用于理解所要求保护的方面和实施方式的性质和特征的概述或框架。附图提供图示以及对各个方面和实施方式的进一步理解,并且被并入在本说明书中并构成本说明书的一部分。
附图说明
附图不旨在按比例绘制。在各个附图中相似的附图标记和名称指示相似的元件。出于清楚的目的,可以不在每个附图中标记每个组件。在附图中:
图1图示用于在基于语音激活的数据分组(或其他协议)的计算机网络环境中定制内容的示例系统;
图2图示在图1中图示的系统中定制内容的示例方法的流程图;
图3图示第一客户端计算设备与第二客户端计算设备共享音频标识模型的框图;以及
图4是图示可用于采用以本文所描述和图示的系统和方法的元件的计算机系统的总体架构的框图。
具体实施方式
以下是与用于对打包的音频信号进行认证的方法、装置和系统有关的各种概念以及其实施方式的各种概念的更详细描述。可以以许多方式中的任意一种实现在上面介绍并在下面更详细地讨论的各种构思。
本公开总体上涉及一种数据处理系统,该数据处理系统用于在语音激活的计算机网络环境中在肯定的用户同意的情况下标识或验证打包的音频信号中的用户身份。数据处理系统经由其认证组件可以改善在用户同意的情况下标识或验证用户所需的效率、有效性以及资源。例如,认证组件可以使音频标识模型能够在不同客户端计算设备之中共享或协作访问。音频标识模型的生成可能是计算密集的。使音频标识模型能够在多个不同的客户端计算设备上使用节省系统的计算资源,因为音频标识模型对于系统中的每个客户端计算设备仅生成一次,而不是多次生成。另外,音频标识模型的训练可以包括将样本音频文件到数据处理系统的数据传输。减少生成的音频标识模型的数量可以减少发送到数据处理系统的样本音频文件的数量,并节省系统的网络资源,诸如带宽。
数据处理系统还可以生成音频标识模型,该音频标识模型使能够进行更准确的标识。当提供来自不同物理位置的音频样本时,从来自单个物理位置的音频样本生成的音频标识模型在进行标识时可能会很差。例如,不同的位置中的每个可以包括不同的环境噪声级或其他形式的干扰,这可能会使单个位置音频标识模型在对来自于不同物理位置的音频样本进行标识时很差。当与不同的客户端计算设备共享时,数据处理系统可以使用来自不同物理位置的音频样本来更新音频标识模型,这可以导致更稳健的音频标识模型,该音频标识模型在进行标识时可以具有相对较高的准确性。进行准确的标识可以节省系统资源,因为可以在第一过程中正确地定制或选择数字分量,而不需要在数据处理系统和客户端计算设备之间进行多次校正(例如,以多次传输的形式)。另外,来自不同位置的音频样本的使用在计算上是免费的,因为音频样本已经以新请求的形式被供应给数据处理系统。例如,音频样本不是数据处理系统为训练音频样本而提出的额外或附加请求。不必要求其他音频样本进行培训也减少对网络资源的使用。
图1图示响应于基于语音激活的数据分组(或其他协议)的计算机网络环境中的打包的音频信号来定制内容的示例系统100。系统100可以包括至少一个数据处理系统102。数据处理系统102可以包括具有至少一个处理器的至少一个服务器。例如,数据处理系统102可以包括位于至少一个数据中心或服务器场中的多个服务器。数据处理系统102可以从输入音频信号确定请求和与该请求相关联的触发关键字。数据处理系统对请求或触发的响应可能取决于用户。例如,数据处理系统102可以基于哪个用户提供输入音频信号来选择不同的响应。数据处理系统102可以使用语音识别来确定哪个用户提供输入音频信号。数据处理系统102可以利用一个或多个数字分量来响应该请求,该数字分量可以包括一个或多个音频文件,该音频文件在被渲染时提供音频输出或声波。除了基于音频的内容之外,数字分量还可以包括其他内容格式(例如,文本、视频或图像格式的内容)。
数据处理系统102可以包括多个按逻辑分组的服务器,并有助于分布式计算技术。服务器的逻辑组可以称为数据中心、服务器场或机器场。服务器可以在地理位置上分散。数据中心或机器场可以作为单个实体进行管理,或者机器场可以包括多个机器场。每个机器场内的服务器可以是异构的-一个或多个服务器或机器可以根据一种或多种类型的操作系统平台进行操作。数据处理系统102可以包括被存储在一个或多个高密度机架系统中的数据中心中的服务器以及例如位于企业数据中心中的相关联的存储系统。以这种方式具有合并服务器的数据处理系统102可以通过在本地化的高性能网络上定位服务器和高性能存储系统而改善系统可管理性、数据安全性、系统的物理安全性以及系统性能。包括服务器和存储系统的以及将它们与高级系统管理工具耦合在一起的数据处理系统102组件中的全部或者一些的集中化允许更有效地使用服务器资源,这节省功率和处理需求并减少带宽使用。
数据处理系统102可以包括至少一个自然语言处理器(NLP)组件112、至少一个接口110、至少一个认证组件114、至少一个内容选择器组件118、至少一个音频信号生成器组件120、至少一个直接动作应用程序编程接口(API)116以及至少一个数据存储库122。NLP组件112、接口110、认证组件114、内容选择器组件118、音频信号生成器组件120、以及直接动作API 116可以均包括至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、器具或其他逻辑设备,诸如可编程逻辑阵列,配置成经由至少一个计算机网络105与数据存储库122以及与其它计算设备(例如,客户端计算设备104或内容提供商计算设备106)通信。网络105可以包括诸如互联网、局域网、广域网、城域网或其他区域网络、内部网、卫星网络的计算机网络、诸如语音或数据移动电话通信网络的其他计算机网络、以及其组合。
网络105可以包括显示网络,例如,互联网上可用的与内容放置或搜索引擎结果系统相关联的信息资源的子集,或者有资格包括第三方数字分量作为数字分量放置活动的一部分。数据处理系统102可以使用网络105以访问可以由客户端计算设备104呈现、输出、渲染或显示的信息资源,诸如网页、网站、域名或统一资源定位符。例如,客户端计算设备104的用户可以经由网络105访问由内容提供商计算设备106提供的信息或数据。
网络105可以包括,例如,点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、异步传输模式(ATM)网络、同步光网络(SONET)网络、同步数字体系(SDH)网络、无线网络或有线网络及其组合。网络105可以包括无线链路,诸如红外信道或卫星频带。网络105的拓扑可以包括总线、星形或环形网络拓扑。网络105可以包括使用任何一种或多种用于在移动设备之间进行通信的协议的移动电话网络,所述协议包括高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电业务(“GPRS”)或通用移动电信系统(“UMTS”)。可以经由不同的协议传输不同类型的数据,或者可以经由不同的协议传输相同类型的数据。
客户端计算设备104和内容提供商计算设备106可以均包括至少一个逻辑设备,诸如具有处理器的计算设备,以经由网络105彼此通信或与数据处理系统102通信。计算设备104和内容提供商计算设备106可以均包括至少一个服务器、处理器或存储器,或者位于至少一个数据中心中的多个计算资源或服务器。客户端计算设备104和内容提供商计算设备106可以均包括至少一个计算设备,诸如台式计算机、膝上型计算机、平板电脑、个人数字助理、智能手机、便携式计算机、瘦客户端计算机、虚拟服务器、基于扬声器的助理设备或其他计算设备。
客户端计算设备104可以包括至少一个传感器140、至少一个换能器142、至少一个音频驱动器144、至少一个扬声器146和至少一个预处理器148。传感器140可以包括麦克风或音频输入传感器。传感器140还可以包括GPS传感器、接近传感器、环境光传感器、温度传感器、运动传感器、加速度计或陀螺仪中的至少一个。换能器142可以将音频输入转换成电信号。音频驱动器144可以包括由客户端计算设备104的一个或多个处理器执行的脚本或程序,以控制客户端计算设备104的传感器140、换能器142或音频驱动器144以及其他组件来处理音频输入或提供音频输出。扬声器146可以传输(或渲染)音频输出信号。
预处理器组件148可以与音频驱动器144、换能器142和传感器140耦合。预处理器组件148可以是或者包括一个或多个处理器,其在信号被传输到数据处理系统102或由客户端计算设备104的其他组件处理之前对接收到的信号执行功能。例如,预处理器组件148可以滤波由换能器142检测到的输入音频信号(或由客户端计算设备104以其他方式接收到的输入音频信号)以创建滤波后的输入音频信号。预处理器148的滤波可以包括滤波(或降低)输入音频信号中的噪声、放大输入音频信号中的预定频率、降低输入音频信号中的预定频率、或输入音频信号的上采样或下采样。预处理器组件148可以将滤波后的输入音频信号转换为数据分组,并且经由网络105将数据分组发送到数据处理系统102。
客户端计算设备104可以与最终用户相关联,该最终用户将语音查询作为音频输入(经由传感器140或换能器142)键入到客户端计算设备104中,并以可以从数据处理系统102(或内容提供商计算设备106)提供的计算机生成的语音的形式接收音频输出。客户端计算设备104可以从扬声器146输出音频输出。计算机生成的语音可以包括来自真实人的记录或计算机生成的语言。
内容提供商计算设备106可以提供基于音频的li,以供客户端计算设备104显示作为音频输出数字分量。数字分量可以包括针对商品或服务的要约,诸如基于语音的消息,其陈述:“您要我叫辆出租车吗?”例如,内容提供商计算设备106可以包括存储器,以存储可以响应于基于语音的查询而提供的一系列数字音频组件。内容提供商计算设备106还可以将基于音频的数字分量(或其他数字分量)提供给数据处理系统102,可以将所述数字分量存储在数据存储库122中以传输到客户端计算设备104。数据处理系统102可以选择数字音频组件并向客户端计算设备104提供(或指示内容提供商计算设备106提供)数字音频组件。数字分量可以包括生成的安全性问题,以认证客户端计算设备的用户104。基于音频的数字分量可以完全是音频,或者可以与文本、图像或视频数据组合。
数据存储库122可以包括一个或多个本地或分布式数据库,并且可以包括数据库管理系统。数据存储库122可以包括计算机数据存储或存储器,并且可以存储一个或多个音频标识模型124(在图1中缩写为AIM)、简档126、内容数据128或模板130等其他数据。内容数据128可以包括数字分量或相关联的元数据以及可以是与客户端计算设备104的一个或多个通信会话的一部分的输入音频消息。模板130可以包括可以用于与客户端计算设备104通信的数据结构。模板130可以包括一个或多个占位符,数据处理系统102可以用这些占位符填充例如内容数据128、数字分量或其他数据。
认证组件114可以使用音频标识模型124来执行语音识别(例如,在用户同意的情况下,基于输入音频信号从第二用户标识第一用户)。音频标识模型124可以包括数据结构,该数据结构在用户同意的情况下表征给定用户的语音特性。例如,音频标识模型124可以是包括用户话语的声谱图的声纹。音频标识模型124可以指示用户在讲话时可以使用的频率和模式。认证组件114可以使用音频标识模型124来进行用户验证(例如,确定用户是该用户声称自己是输入信号与和该用户相关联的音频标识模型124的一对一匹配的用户)或用户标识(例如,在用户同意的情况下,通过将输入音频信号传递给N个音频标识模型124以确定哪一个最有可能是用户的来标识处于1对N匹配中的用户)。
数据处理系统102可以通过请求用户提供一个或多个样本输入音频信号为给定用户生成音频标识模型124。样本输入音频信号可以是与文本无关的(例如,用户提供随机样本)或与文本有关的(例如,用户通过读取预定义脚本来生成输入音频信号)。用户在同意的情况下可以将样本输入音频信号经由客户端计算设备104提供给数据处理系统102。一旦生成,数据处理系统102可以将音频标识模型124与发送样本输入信号的客户端计算设备104的指示相关联地存储在数据存储库122中。在一些实施方式中,直到用户提供明确批准,认证组件114才可以通过使用在给定客户端计算设备104处接收到的样本输入音频信号生成的音频标识模型124来处理来自给定客户端计算设备104的输入音频信号。例如,在没有明确批准的情况下,认证组件114不会使用第一用户的音频标识模型124来处理来自不同用户和不同客户端计算设备104的输入音频样本。
数据处理系统102可以将每个音频标识模型124与简档126相关联。例如,音频标识模型124可以对应于简档126或客户端计算设备104。简档126可以包括当选择数字分量以响应输入查询而提供时数据处理系统102可以使用的策略、数据、设备信息、或者数据结构。例如,简档可以包括用于选择数字分量的偏好或规则。简档126和音频标识模型124可以存储在数据处理系统102、客户端计算设备104或两者处。
数据处理系统102可以包括安装在客户端计算设备104上的应用、脚本或程序,诸如用于将输入音频信号传达到数据处理系统102的接口110并驱动客户端计算设备104的组件以渲染输出音频信号的应用。数据处理系统102可以接收包括或标识输入音频信号的数据分组或其他信号。例如,数据处理系统102可以执行或运行NLP组件112以接收输入音频信号。换能器142或传感器140可以检测输入音频信号。NLP组件112可以通过将输入信号与存储的代表性音频波形集进行比较并选择最接近的匹配来将输入音频信号转换或解析为已识别的文本。可以跨越大的输入信号集合生成代表性波形。用户可以提供一些输入信号。一旦音频信号被转换成已识别的文本,则NLP组件112可以将文本与例如经由学习阶段与系统100可以做出的动作相关联的词语匹配。经由换能器142、音频驱动器144或其他组件,客户端计算设备104可以(例如,经由网络105)将输入音频信号提供给数据处理系统102,在该处可以(例如,通过接口110)接收,并且提供给NLP组件112或作为内容数据128存储在数据存储库122中。
NLP组件112可以获得输入音频信号。根据输入音频信号,NLP组件112可以标识至少一个请求或与该请求相对应的至少一个触发关键词。该请求可以指示输入音频信号的意图或主题。触发关键字可以指示可能采取的动作类型。例如,NLP组件112可以解析输入音频信号以标识晚上离开家参加晚餐和看电影的至少一个请求。触发关键词可以包括指示要采取的动作的至少一个单词、短语、词根或部分单词或派生词。例如,来自于输入音频信号中的触发关键字“去”或“要去”可以指示需要运输。在此示例中,输入音频信号(或已标识的请求)不直接表达运输意图;但是,触发关键字指示运输是该请求所指示的至少一个其他动作的辅助动作。
内容选择器组件118可以从数据存储库122中获得数字分量,在该数据存储库122处可以将该数字分量存储为内容数据128的一部分。内容选择器组件118可以查询数据存储库122以例如从内容数据128中选择或以其它方式标识数字分量。响应于输入查询,内容选择组件118可以使用所选择的简档126来选择或生成定制数字分量。内容选择器组件118还可以从内容提供商计算设备106中选择数字分量。例如,响应于从数据处理系统102接收到的查询,内容提供商计算设备106可以将数字分量提供给数据处理系统102(或其组件)以供客户端计算设备104最终输出。
音频信号生成器组件120可以生成或以其他方式获得包括数字分量的输出信号。例如,数据处理系统102可以执行音频信号生成器组件以生成或创建对应于数字分量的输出信号。数据处理系统102的接口110可以经由计算机网络105向客户端计算设备104提供或传输包括输出信号的一个或多个数据分组。例如,数据处理系统102可以将输出信号从数据存储库122或从音频信号生成器组件120提供到客户端计算设备104。接口110可以是硬件接口,诸如网络端口数据端口或无线电,其使数据处理系统102能够接收和传输数据。接口110可以是基于图形的。例如,接口110可以是图形用户界面,该图形用户界面使用户能够输入数据或以其他方式与数据处理系统102进行交互。数据处理系统102还可以经由数据分组传输来指示内容提供商计算设备106将输出信号提供给客户端计算设备104。可以将输出信号作为一个或多个数据分组(或其他通信协议)从数据处理系统102(或其他计算设备)获取、生成、转换或传输到客户端计算设备104。
作为实时内容选择过程的一部分,内容选择器组件118可以为输入音频信号的动作选择数字分量。例如,可以直接响应于输入音频信号,以对话方式将数字分量提供给客户端计算设备以作为音频输出进行传输。标识数字分量并将数字分量提供给客户端计算设备104的实时内容选择过程可能会在输入音频信号的时间开始的一分钟内发生,并且被认为是实时的。
对应于数字分量的输出信号,例如,由音频信号生成器组件120获得或生成、经由接口110和计算机网络105传输到客户端计算设备104的输出信号,可以使客户端计算设备104执行音频驱动器144以驱动扬声器146生成与输出信号相对应的声波。声波可以包括与数字分量相对应的单词。
数据处理系统的直接动作API 116可以基于触发关键字生成动作数据结构。如数据处理系统102所确定的,直接动作API 116可以执行指定的动作以满足最终用户的意图。根据在其输入中指定的动作,直接动作API 116可以执行代码或对话脚本,该代码或对话框脚本标识满足用户要求所需的参数。可以响应于请求而生成动作数据结构。
直接动作API 116可以从数据存储库122中获取内容数据128(或参数、策略或数字分量)以及在最终用户同意的情况下从客户端计算设备104接收到的数据,以确定位置、时间、用户账户、后勤或其他信息,以便于通过汽车共享服务预订汽车。内容数据128可以被包括在动作数据结构中。当动作数据结构中包括的内容包括用于认证的最终用户数据时,可以在将数据存储在数据存储库122中之前通过哈希函数传递数据。
数据处理系统102还可以包括认证组件114。认证组件114可以基于输入音频信号来识别或标识用户。在标识或识别用户时,认证组件114可以选择内容选择器组件118可以在选择数字分量时使用的简档126。
认证组件114可以使不同的客户端计算设备104能够共享音频标识模型124。例如,可以为每个客户端计算设备104生成一个或多个音频标识模型124并使其与每个客户端计算设备104相关联。认证组件114可以将每个音频标识模型124与客户端计算设备104的不同用户相关联。在没有共享音频标识模型124的情况下,给定的客户端计算设备104可以仅具有对其音频标识模型124的访问权限。例如,客户端计算设备104可以访问使用来自相应客户端计算设备104的音频数据生成的音频标识模型124,但是不能访问使用来自不同客户端计算设备104的音频数据生成的音频标识模型124。
共享音频标识模型124可以包括提供认证组件114访问以使用第一客户端计算设备104的音频标识模型124以及从第二客户端计算设备104接收到的输入音频信号。共享可以包括提供与对与第二用户相关联的音频标识模型124的第一用户访问相关联的客户端计算设备104。例如,第一用户可以是第一客户端计算设备和第二客户端计算设备104的注册用户。第一客户端计算设备和第二客户端计算设备104可以访问为相应客户端计算设备104联合或单独创建的音频标识模型124。联合的音频标识模型124可以包括来自第一和第二客户端计算设备104(例如,一个以上的客户端计算设备104)的音频输入数据,并且单独的音频标识模型124可以仅包括来自单个客户端计算设备104的音频输入数据。第二用户可以是第三和第四客户端计算设备104的注册用户。在此示例中,如果认证组件114与第二用户共享第一用户的音频标识模型124,则认证组件114可以使用与第一和第二客户端计算设备104相关联的音频标识模型124处理由第三和第四客户端计算设备104接收到的输入音频信号。
共享音频标识模型124可以包括认证组件114向客户端计算设备104提供对不同客户端计算设备104的音频标识模型124的访问的过程(其中不同客户端计算设备104可以或可以不与不同的用户相关联)。例如,第一客户端计算设备104可以具有对第一音频标识模型124的访问权限,并且第二客户端计算设备104可以具有对第二音频标识模型124的访问权限。与第二客户端计算设备104共享第一音频标识模型124可以使第二客户端计算设备104访问第一音频标识模型124。提供对音频标识模型124的访问可以包括为客户端计算设备104提供对音频标识模型124的直接访问(例如,音频标识模型124被下载或传输到客户端计算设备104)或提供对音频标识模型124的间接访问。例如,当提供间接访问时,共享的音频标识模型124可以保留在数据存储库122中(例如,音频标识模型124的副本没有被传输到与其共享音频标识模型124的客户端计算设备104)。在此示例中,在提供间接访问的情况下,认证组件114被授权在分析从与音频标识模型124共享的客户端计算设备104接收到的输入音频信号时使用共享的音频标识模型124。
仅在从与第二客户端计算设备104相关联的用户接收到明确批准之后,认证组件114才可以向第一客户端计算设备104提供对第二客户端计算设备104的音频标识模型124的访问。例如,在默认情况下,客户端计算设备104无法访问与另一个用户或客户端计算设备104相关联的音频标识模型124。
用户可以发起音频标识模型124的共享。用户可以经由客户端计算设备104添加客户端计算设备104的标识符,其允许数据处理系统102提供对与用户相关联的音频标识模型124的访问。例如,经由用户的客户端计算设备104(例如,移动设备)执行的图形用户界面,用户可以键入朋友的基于扬声器的助手设备的ID。然后认证组件114可以向朋友的基于扬声器的助手设备提供对与用户相关联的一个或多个音频标识模型124的访问。
认证组件114可以发起音频标识模型124的共享。认证组件114可以基于一个或多个用户或客户端计算设备104之间的关联来发起共享。例如,在将用户添加到“家庭群组”或其他社交群组之后,认证组件114可以提示用户允许与添加到该群组的用户共享一个或多个音频标识模型124。在另一示例中,当用户的客户端计算设备104之一在另一客户端计算设备104的预定接近度、范围或距离内时,认证组件114可以提示用户允许共享一个或多个音频标识模型124。
例如,客户端计算设备104可以(在接收到来自用户的许可之后)向数据处理系统102周期性地传输位置信息。位置信息可以包括由客户端计算设备104(例如,通过使用蜂窝三角测量或机载GPS接收器)确定的物理位置信息。位置信息可以包括客户端计算设备104的位置的近似值。例如,Wi-Fi网络名称或IP地址可以分开以提供近似的或相对位置信息。
例如,经由接口110,认证组件114可以接收客户端计算设备104的位置信息。认证组件114可以将传输位置信息的客户端计算设备104与音频标识模型124相关联。相关联的音频标识模型124可以是在客户端计算设备104上或为客户端计算设备104或为第二客户端计算设备104创建的音频标识模型124。例如,传输位置信息的客户端计算设备104可以是移动设备。相关联的音频标识模型124可以是为移动设备生成的音频标识模型124,或者可以是为用户的基于扬声器的辅助设备生成的音频标识模型124,用户的基于扬声器的辅助设备当前位于与已经传输位置信息(例如,用户的家)的客户端计算设备104不同的位置处。
认证组件114可以确定(传输位置信息的)客户端计算设备104的位置在距第二客户端计算设备104的预定距离之内。该预定距离可以约为平均房间、房屋或建筑物的大小,使得当两个客户端计算设备104分别位于同一房间、房屋或建筑物内时,认证组件114确定两个客户端计算设备104在预定距离之内。确定两个客户端计算设备104在预定距离之内也可以基于两个客户端计算设备104的相对位置。例如,当两个客户端计算设备104在同一网络(例如,Wi-Fi网络)上或已经经由例如自组织Wi-Fi网络或蓝牙连接而彼此建立连接时,认证组件114可以确定两个客户端计算设备104彼此相对接近。
最初,认证组件114可以将第二客户端计算设备104与音频标识模型124相关联,该音频标识模型124不同于认证组件114与第一客户端计算设备104相关联的音频标识模型124。
在与第二客户端计算设备104共享第一客户端计算设备104的音频标识模型124之前,认证组件114可以经由接口110向第一客户端计算设备104传输授权通知。该授权通知可以请求认证组件114与第二客户端计算设备104共享与第一客户端计算设备104相关联的一个或多个音频标识模型124的许可。认证组件114可以基于认证组件114确定第一和第二客户端计算设备104在彼此的预定距离之内经由接口110将授权通知传输给第一客户端计算设备104。授权通知可以是推送通知、文本消息、电子邮件消息、应用通知或其他类型的电子通信。当用户(经由第一客户端计算设备104或其他设备)选择、确认或以其他方式响应认证通知时,第一客户端计算设备104可以将批准消息传输给认证组件114。响应于接收批准消息,认证组件114可以将第一客户端计算设备104的一个或多个音频标识模型124与第二客户端计算设备104相关联。
将第一客户端计算设备的客户端音频标识模型124与第二客户端计算设备104相关联可以包括,基于确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内,向第二客户端计算设备104提供对第一客户端计算设备104的一个或多个音频标识模型124的访问。例如,数据处理系统102可以维护数据结构,该数据结构指示允许每个客户端计算设备104访问哪些音频标识模型124。提供对音频标识模型124的访问可以包括向表添加引用以指示客户端计算设备104现在具有对音频标识模型124的访问权限(或者可以使用音频标识模型124以分析来自于客户端计算设备104的输入音频信号)。在一些实施方式中,提供对音频标识模型124的访问可以包括传输音频标识模型124或以其他方式将其存储在客户端计算设备104或客户端计算设备104可访问的计算机可读存储器上。
一旦认证组件114向第二客户端计算设备104提供对第一客户端计算设备104的音频标识模型124的访问,则第二客户端计算设备104可以在标识第二客户端计算设备104接收到的输入音频信号的扬声器时使用第一客户端计算设备的音频标识模型124。客户端计算设备104可以执行认证组件114的实例以在本地进行确定,或者认证组件114的数据处理系统的实例可以进行确定。
在一个示例中,第二客户端计算设备104可以是可以检测基于音频的输入查询的基于扬声器的辅助设备。基于扬声器的辅助设备可以将基于音频的输入查询转换成电子信号,预处理器148可以处理该电子信号并将其作为输入音频信号传输到数据处理系统102。数据处理系统102可以基于输入音频信号将数字分量提供给客户端计算设备104。数据处理系统102可以基于用户说出查询的标识来选择数字分量。认证组件114可以使用音频标识模型124(包括共享的音频标识模型124)来确定哪个用户说出该查询。
为了确定哪个用户说出查询,认证组件114可以使用每个音频标识模型124来处理输入音频信号以生成不同的标识得分。认证组件114可以使用输入音频信号或其一部分作为每个音频标识模型124的输入。例如,基于扬声器的辅助设备可以包括用于基于扬声器的辅助设备的所有者的第一音频标识模型124和所有者的朋友的第二音频标识模型124,该朋友当前正在与基于扬声器的辅助设备共享第二音频标识模型124。响应于接收到输入音频信号,认证组件114可以将输入音频信号输入到朋友的音频标识模型124和所有者的音频标识模型124中。每个音频标识模型124可以生成0到1之间的标识得分,该标识得分可以指示相应音频标识模型124的所有者生成输入音频信号的可能性。认证组件114可以包括隐藏的马尔可夫模型、高斯混合模型、模式匹配算法或神经网络,其接收输入的音频信号并生成标识得分。
数据处理系统102可以与不同的简档126相关联地存储每个用户或音频标识模型124。认证组件114可以从不同的候选简档中选择简档126。候选简档可以是将音频输入文件传输到数据处理系统102的客户端计算设备104具有对其的访问权限的每个简档126。在以上示例中,候选简档是基于扬声器的助理设备的所有者和朋友的简档126。
认证组件114可以基于认证组件114通过使用每个音频标识模型124处理输入音频信号而生成的标识得分从候选简档中选择简档126。认证组件114可以对标识得分进行排序以选择最有可能是说出该查询的用户的简档的简档126。
每个音频标识模型124可以包括元数据。元数据可以包括音频标识模型124的错误率、在生成音频标识模型124时使用的传感器类型的指示、用于生成音频标识模型124的数据量的指示或在生成音频标识模型124时使用的传感器的数量。认证组件114可以基于每个音频标识模型124的元数据来选择简档或对标识得分进行排序。
例如,已知输入音频信号,第一音频标识模型124可以生成0.9的标识得分,并且第二音频标识模型124可以生成0.87的标识得分。第一音频标识模型124可以具有65%的准确性,而第二音频标识模型124可以具有99%的准确性。在此示例中,即使第二音频标识模型124生成较低的标识得分,认证组件114仍可以选择与第二音频标识模型124相关联的简档,因为第二音频标识模型124具有比第一音频标识模型124更高的准确性。
认证组件114可以撤销对共享音频标识模型124的访问。认证组件114可以在用户指示时撤销对音频标识模型124的访问。例如,用户可以向数据处理系统102发送撤销消息,其指示认证组件114撤销一个或多个客户端计算设备104对用户的音频标识模型124的访问。
认证组件114可以自动撤销对共享音频标识模型124的访问。该撤销可以是基于时间的或基于位置的。例如,在授予对共享音频标识模型124的访问权限之后,认证组件114可以在大约1小时至大约6小时之间、大约1小时至大约12小时之间、大约1小时至大约18小时之间或大约1小时至大约24小时之间自动撤销对共享音频标识模型124的访问。
共享音频标识模型124的撤销可以是基于位置的。例如,认证组件114可以确定与第二客户端计算设备104共享其音频标识模型124之一的第一客户端计算设备104离开第二客户端计算设备104周围的预定距离。确定第一客户端计算设备104不再位于距第二客户端计算设备104所需的距离之内,认证组件114可以撤销第二客户端计算设备对共享音频标识模型124的访问。撤销可以是自动的。例如,用户不需要批准撤销。
认证组件114可以合并或更新音频标识模型124。例如,当音频标识模型124与客户端计算设备104共享时,客户端计算设备104可以使用共享音频标识模型124来处理输入音频信号。当认证组件114确定输入音频信号包括共享音频标识模型124的所有者的查询时,认证组件114可以基于新输入音频信号来更新音频标识模型124。
在一些实施方式中,当认证组件114确定输入音频信号包括共享音频标识模型124的所有者的查询时,认证组件114可以生成临时音频标识模型124。认证组件114可以在客户端计算设备104具有对共享音频标识模型124的访问权限的同时在到来的输入音频信号的分析中使用临时音频标识模型124。
当认证组件114撤销客户端计算设备对共享音频标识模型124的访问时,认证组件114可以从数据存储库122中丢弃、擦除或清除临时音频标识模型124。当认证组件114撤销客户端计算设备对共享音频标识模型124的访问时,认证组件114可以将临时音频标识模型124合并到共享音频标识模型124中(例如,认证组件114可以使用来自临时音频标识模型124的数据更新共享音频标识模型124)。
图2图示用于在语音激活的系统中定制内容的示例方法200的流程图。方法200可以包括接收位置信息(动作202)。方法200可以包括确定位置在预定范围内(动作204)。方法200可以包括提供音频标识模型(动作206)。方法200可以包括接收输入音频信号(动作208)。方法200可以包括生成标识得分(动作210)。方法200可以包括选择简档(动作212)。方法200可以包括选择数字分量(动作214)。方法200可以包括传输数字分量(动作216)。
参考图2和图3,除了别的以外,方法200可以包括接收位置(动作202)。图3图示第一客户端计算设备104(1)与第二客户端计算设备104(2)共享音频标识模型的框图(第一客户端计算设备104(1)和第二客户端计算设备104(2)可以统称为客户端计算设备104)。如上所述,方法200可以包括数据处理系统102接收第一客户端计算设备104(1)的位置。
例如,客户端计算设备104(1)可以具有远离第二客户端计算设备104(2)的初始位置302。客户端计算设备104(1)可以移动到位置304,该位置304可以是与初始位置302不同的位置。客户端计算设备104(1)可以将其位置周期性地传输到数据处理系统102。当客户端计算设备104(1)确定其位置或位置的近似(例如,Wi-Fi网络名称)改变时,客户端计算设备104(1)可以将其位置传输到数据处理系统102。
客户端计算设备104(1)可以与第一音频标识模型相关联。例如,第一客户端计算设备104(1)可以具有对应的第一音频标识模型。客户端计算设备104(1)与音频标识模型的关联可以包括与音频标识模型(或其指示)关联地存储客户端计算设备104(1)的标识符。例如,如图3中所图示,图示为CCD(1)306的客户端计算设备104(1)的指示,与被图示为AIM(1)308的第一音频标识模型的指示一起被存储在数据结构中(在数据存储库122内)。存储CCD(l)306和AIM(1)308可以向数据处理系统102(或其组件)指示客户端计算设备104(1)可以访问通过AIM(l)308标识的音频标识模型124。
方法200可以包括确定接收到的位置在预定范围内(动作204)。预定范围可以是客户端计算设备104(2)周围的预定距离。例如,认证组件114可以确定客户端计算设备104(1)与客户端计算设备104(2)在同一公寓内。
如图3中所图示,预定范围310(也可以称为预定距离310)定义客户端计算设备104(2)周围的地理围栏312。范围310可以是设定的距离长度,诸如给定的英尺或米数。范围310也可以是近似的。例如,地理围栏312可以由Wi-Fi网络定义,使得当客户端计算设备104(1)和客户端计算设备104(2)位于同一Wi-Fi网络上时客户端计算设备104(1)在客户端计算设备104(2)的范围310内。
方法200可以包括提供对客户端计算设备104的音频标识模型124的访问(动作206)。例如,认证组件114可以向客户端计算设备104(2)提供对客户端计算设备104(1)的一个或多个音频标识模型124的访问,诸如对应于客户端计算设备104(1)的音频标识模型124。向客户端计算设备104(1)提供对音频标识模型124的访问可以包括将音频标识模型124的副本传输到客户端计算设备104(1),客户端计算设备104(1)可以使用该副本来处理输入音频信号。提供对音频标识模型124的访问可以包括基于确定第一客户端设备104(1)的位置在第二客户端计算设备104(2)的预定范围310内,使第一客户端计算设备104(1)的音频标识模型124与数据处理系统102内的客户端计算设备104(2)相关联。在此示例中,音频标识模型124可能不会传输到第一客户端计算设备104(1),而是可以与音频标识模型124相关联地存储第一客户端计算设备104(1)的指示,以指示客户端计算设备104(1)被授权访问或以其他方式使用音频标识模型124。
例如,当客户端计算设备104(1)从位置302移动到位置304时,并且在地理围栏312内,认证组件114可以将授权通知传输到客户端计算设备104(1)。授权通知可以向客户端计算设备104(1)的用户请求许可,以向客户端计算设备104(2)提供对客户端计算设备104(1)的音频标识模型124的访问。接收许可的认证组件114可以向客户端计算设备104(2)提供对客户端计算设备104(1)的音频标识模型124的访问。
如图3中所图示,认证组件114可以将AIM(1)308添加到客户端计算设备104(2)被授权访问的音频标识模型124的列表。例如,被图示为CCD(2)314的客户端计算设备104(2)的指示与被图示为AIM(2)316和AIM(1)308的客户端计算设备104(2)的自己的音频标识模型124的指示相关联地存储(或以其他方式相对应)。认证组件114可以为任何数量的客户端计算设备104重复该过程,如与被图示为AIM(n)320的音频标识模型124(n)的指示相关联地存储的被图示为CCN(n)318的客户端计算设备104(n)的指示所图示的。
方法200可以包括接收输入音频信号(动作208)。数据处理系统102可以从客户端计算设备104(2)接收输入音频信号。用户可以向客户端计算设备104(2)询问基于语音的查询。客户端计算设备104(2)可以检测查询并经由换能器142(例如,麦克风)将查询转换成电信号。预处理器148可以对输入音频信号进行滤波和打包,并且客户端计算设备104(2)可以将输入音频信号传输到数据处理系统102以进行进一步处理。
NLP组件112可以解析输入音频信号以标识输入音频信号中的请求。数据处理系统对请求的响应可以基于哪个用户提供输入音频信号的标识。例如,查询“好的,我的日历上的下一个是什么?”是与用户有关的,因为数据处理系统102可以向不同的用户提供不同的结果,因为每个用户在其相应的日历上可以具有不同的事件。认证组件114可以使用客户端计算设备104(2)对其具有访问权限的音频标识模型124来确定哪个用户向客户端计算设备104(2)说出查询。
方法200可以包括生成标识得分(动作210)。认证组件114可以将输入音频信号提供给客户端计算设备104(2)对其具有访问权限的每个音频标识模型124。例如,并且参考图3,当客户端计算设备104(2)接收输入音频信号并将该输入音频信号传输到数据处理系统102时,认证组件114可以将输入音频信号传递给由AIM(2)316和AIM(l)308指示的音频标识模型124。对于此示例,认证组件114生成第一标识得分和第二标识得分。
方法200可以包括选择简档(动作212)。例如,方法200可以包括从多个候选简档中选择简档。可以使每个音频标识模型124与简档相关联。在图3中所图示的示例中,由AIM(2)316指示的音频标识模型124可以与客户端计算设备104(2)的所有者(或注册用户)的简档相关联。由AIM(1)308指示的音频标识模型124可以与客户端计算设备104(1)的所有者(或注册用户)的简档相关联。这两个简档可以统称为候选简档。
认证组件114可以基于在动作210期间生成的标识得分来进行选择。认证组件114可以对标识得分进行排序并且选择具有最高得分的标识得分。认证组件114可以基于每个音频标识模型的元数据来修改排序或标识得分。例如,当与具有高准确性的音频标识模型124相比时,认证组件114可以降低由具有低准确性的音频标识模型124生成的标识得分。
方法200可以包括选择数字分量(动作214)。认证组件114可以将(从动作212)所选择的简档提供给内容选择组件118。内容选择组件118可以使用或基于在动作212期间选择的简档来选择数字分量。例如,简档可以包括用于选择数字分量以提供给与简档相关联的用户的偏好或者规则。
方法200可以包括传输数字分量(动作216)。数据处理系统102可以经由接口110将数字分量传输到客户端计算设备104(2)(例如,供应输入音频信号的客户端计算设备104)。
方法200还可以包括撤销对共享音频标识模型124的访问。例如,当客户端计算设备104(1)离开地理围栏312定义的区域(或客户端计算设备104的一般接近(2))时,客户端计算设备104(1)可以将更新后的位置信息传输到数据处理系统102。确定客户端计算设备104(1)不再在客户端计算设备104(2)的预定范围310内,认证组件114可以从与客户端计算设备104(2)相关联的音频标识模型124的列表中删除或移除AIM(l)308。撤销过程可以在预定时间量之后发生。例如,如果超时时段是1天,并且1天之后客户端计算设备104(1)仍在预定范围内,则认证组件114可以自动撤销对共享音频标识模型124的访问。对共享音频标识模型的访问的自动撤销改善用户数据和共享音频标识模型的安全性。
根据本公开的至少一个方面,提供一种系统,该系统被配置成执行上述的用于在语音激活系统中定制内容的方法。例如,该系统可以包括数据处理系统。数据处理系统可以包括接口。该接口可以接收第一客户端计算设备的位置。第一客户端计算设备可以与第一音频标识模型相关联。该接口可以从第二客户端计算设备接收音频输入信号。第二客户端计算设备可以与第二音频标识模型相关联。数据处理系统可以包括认证组件。认证组件可以确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内。认证组件可以基于确定第一客户端计算设备的位置在距第二客户端计算设备的预定距离之内向第二客户端计算设备提供对第一客户端计算设备的第一音频标识模型的访问。认证组件可以使用第一音频标识模型来生成第一标识得分,并且使用第二音频标识模型来生成第二标识得分。认证组件可以基于第一标识得分和第二标识得分从多个候选简档中选择简档。数据处理系统可以包括内容选择组件,以基于从多个候选简档中选择的简档来选择数字分量。数据处理系统的接口可以响应于音频输入信号将数字分量传输到第二客户端计算设备。
接口可以接收第一客户端计算设备的第二位置。认证组件可以确定第一客户端计算设备的第二位置在距第二客户端计算设备的预定距离之外,并且基于确定第一客户端计算设备的第二位置在预定距离之外,可以撤销第二客户端计算设备对第一客户端计算设备的第一音频标识模型的访问。认证组件可以基于第一音频标识模型的元数据和第二音频标识模型的元数据对第一标识得分和第二标识得分进行排序。第一音频标识模型的元数据和第二音频标识模型的元数据可以包括错误率、传感器类型的指示和传感器的数量中的至少一个。该简档可以与第一客户端计算设备的用户相关联。多个候选简档中的每一个可以与相应的音频标识模型相关联。接口可以从第二客户端计算设备接收第二音频输入信号。认证组件可以基于第一音频标识模型生成第三标识得分,并且基于第二音频标识模型生成第四标识得分。认证组件可以基于第三标识得分和第四标识得分的排序来选择与第一音频标识模型相关联的简档,并且可以基于第二音频输入信号来更新第一音频标识模型。另外或可替选地,认证组件可以基于第二音频输入信号来生成第三音频标识模型。该接口可以接收第一客户端计算设备的第二位置。认证组件可以确定第一客户端计算设备的第二位置在距第二客户端计算设备的预定距离之外,并且可以基于确定第一客户端计算设备的第二位置在第二客户端计算设备的预定距离之外将第一音频标识模型和第三音频标识模型进行合并。接口可以将授权通知传输到第一客户端计算设备。认证组件可以基于响应于授权通知从第一客户端计算设备接收到批准消息,使第一客户端计算设备的第一音频标识模型与第二客户端计算设备相关联。
图4是示例计算机系统400的框图。计算机系统或计算设备400可以包括或者用于实现系统100或其组件,诸如数据处理系统102。计算系统400包括用于传达信息的总线405或其它通信组件以及耦合到总线405以用于处理信息的处理器410或处理电路。计算系统400还可以包括耦合到总线以用于处理信息的一个或多个处理器410或处理电路。计算系统400还包括主存储器415,诸如随机存取存储器(RAM)或其它动态存储设备,其耦合到总线405以用于存储信息以及要由处理器410执行的指令。主存储器415可以是或者包括数据储存库122。主存储器415也可被用于在由处理器410执行指令期间存储位置信息、临时变量或其它中间信息。计算系统400还可以包括耦合到总线405以用于为处理器410存储静态信息和指令的只读存储器(ROM)420或其它静态存储设备。存储设备425(诸如固态设备、磁盘或光盘)可耦合到总线405以持久地存储信息和指令。存储设备425可以包括或者是数据储存库122的一部分。
计算系统400可以经由总线405耦合到显示器435,诸如液晶显示器或有源矩阵显示器,以用于向用户显示信息。输入设备430(诸如包括字母数字和其它键的键盘)可以耦合到总线405以用于向处理器410传送信息和命令选择。输入设备430可以包括触摸屏显示器435。输入设备430还可以包括光标控件,诸如鼠标、轨迹球或光标方向键,以用于向处理器410传送方向信息和命令选择并且以用于控制光标在显示器435上的移动。例如,显示器435可以是图1的数据处理系统102、客户端计算设备104或其它组件的一部分。
本文描述的过程、系统和方法可由计算系统400响应于处理器410执行包含在主存储器415中的指令的布置来实现。可将此类指令从另一计算机可读介质(诸如存储设备425)读取到主存储器415中。包含在主存储器415中的指令的布置的执行使计算系统400执行本文描述的说明性过程。还可以采用多处理布置中的一个或多个处理器来执行包含在主存储器415中的指令。可使用硬连线电路代替软件指令,或者可与本文描述的系统和方法一起与软件指令相结合地使用硬连线电路。本文描述的系统和方法不限于硬件电路和软件的任何具体组合。
尽管已在图4中对示例计算系统进行了描述,然而包括本说明书中描述的操作的主题可用其它类型的数字电子电路或者用计算机软件、固件或硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。
对于本文讨论的系统收集关于用户的个人信息或者可以利用个人信息的情形,可以给用户提供控制程序或特征是否可以收集个人信息(例如,关于用户的社交网络、社交动作或活动、用户的偏好或用户的位置的信息)或者控制是否或者如何从内容服务器或其它数据处理系统接收与用户更相关的内容的机会。此外,某些数据可以在它被存储或者使用之前被以一种或多种方式匿名化,使得个人可识别的信息在生成参数时被去除。例如,可以使用户的身份匿名化,使得对于该用户来说不可确定个人可识别的信息,或者可以在获得位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别),使得不能确定用户的特定位置。因此,用户可以控制关于他或她的信息如何被收集并由内容服务器使用。
本说明书中描述的主题和操作可用数字电子电路或者用计算机软件、固件或硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题可作为一个或多个计算机程序(例如,编码在一个或多个计算机存储介质上以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个电路)被实现。替换地或此外,可将程序指令编码在人工生成的传播信号上,所述传播信号例如机器生成的电、光或电磁信号,该信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。计算机存储介质可以是或者被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备或它们中的一个或多个的组合中。虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质还可以是或者被包括在一个或多个单独的组件或介质(例如,多个CD、磁盘或其它存储设备)中。本说明书中描述的操作可作为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其它源接收到的数据执行的操作被实现。
术语“数据处理系统”、“计算设备”、“组件”或“数据处理装置”包含用于处理数据的各种装置、设备和机器,作为示例包括可编程处理器、计算机、片上系统或多个可编程处理器、计算机、片上系统或上述的组合。装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可以包括为所述计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。装置和执行环境可实现各种不同的计算模型基础设施,诸如web服务、分布式计算和网格计算基础设施。直接动作API 116、内容选择器组件118、认证组件114或NLP组件112和其他数据处理系统102组件可以包括或共享一个或多个数据处理装置、系统、计算设备或处理器。
计算机程序(也称为程序、软件、软件应用、app、脚本或代码)可用任何形式的编程语言(包括编译或解释语言、声明或过程语言)编写,并且可被以任何形式部署,包括作为独立程序或者作为模块、组件、子例行程序、对象或适合于在计算环境中使用的其它单元。计算机程序可对应于文件系统中的文件。可在保持其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如,存储代码的一个或多个模块、子程序或部分的文件)中存储计算机程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可通过一个或多个可编程处理器执行一个或多个计算机程序(例如,数据处理系统102的组件)以通过对输入数据进行操作并生成输出来执行动作而被执行。过程和逻辑流程也可由专用逻辑电路执行,并且装置也可作为专用逻辑电路被实现,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备,作为示例包括半导体存储设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充,或者被并入在专用逻辑电路中。
可在计算系统中实现本文所描述的主题,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面或web浏览器的客户端计算机),或者包括一个或多个此类后端、中间件或前端组件的组合。系统的组件可通过任何形式或介质的数字数据通信(例如,通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互连网络(例如,因特网)和对等网络(例如,自组织对等网络)。
本文这样描述的计算系统可以包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络(例如,网络105)来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中,服务器向客户端计算设备传输数据(例如,表示数字分量的数据分组)(例如,为了向与客户端计算设备交互的用户显示数据并从与客户端计算设备交互的用户接收用户输入)。可在服务器处从客户端计算设备接收在客户端计算设备处生成的数据(例如,用户交互的结果)(例如,由数据处理系统102从客户端计算设备104或内容提供商计算设备106接收)。
虽然在附图中以特定次序描绘了操作,但是不要求以所示的特定次序或者以顺序次序执行此类操作,并且不要求执行所有图示的操作。可以不同的次序执行本文描述的动作。
各种系统组件的分离不要求在所有实施方式中分离,并且所描述的程序组件可被包括在单个硬件或软件产品中。例如,NLP组件112、内容选择器组件118或者认证组件114可以是单个组件、应用或程序,或具有一个或多个处理电路的逻辑器件,或数据处理系统102的一个或多个服务器的一部分。
在现在已描述了一些说明性实施方式后,显而易见的是,上文是说明性的而不是限制性的,已作为示例被呈现。特别地,尽管本文呈现的许多示例涉及方法行为或系统元素的具体组合,但是可以以其它方式组合那些行为和那些元素以实现相同的目标。在其它实施方式或者多个实施方式中连同一个实施方式一起讨论的行为、元素和特征不旨在被排除在相似角色之外。
本文使用的措词和术语是为了描述而不应该被认为是限制性的。“包括有”、“含有”、“具有”、“包含”、“涉及”、“特征是”、“特征在于”及其变化在本文中的使用意在包含此后列举的项、其等同物和附加项以及仅由此后排他地列举的项构成的替代实施方式。在一个实施方式中,本文描述的系统和方法由所描述的元素、行为或组件中的一个或多于一个的每种组合或全部构成。
对在本文中以单数形式提及的系统和方法的实施方式或者元素或行为的任何引用也可以包含包括多个这些元素的实施方式,并且在本文中以复数对任何实施方式、元素或行为的任何引用也可以包含包括仅单个元素的实施方式。单数或复数形式的引用不旨在将目前公开的系统或方法、其组件、行为或元素限于单个或多个配置。基于任何信息、行为或元素的对任何行为或元素的引用可以包括该行为或元素至少部分地基于任何信息、行为或元素的实施方式。
本文公开的任何实施方式可以与任何其它实施方式或实施例组合,并且对“实施方式”、“一些实施方式”、“一个实施方式”等的引用不一定是互斥的并且旨在指示连同实施方式一起描述的特定特征、结构或特性可以被包括在至少一个实施方式或实施例中。如本文所使用的此类术语不一定全部参考同一实施方式。任何实施方式可以以与本文公开的方面和实施方式一致的任何方式包括地或排他地与任何其它实施方式组合。
对“或”的引用可以被解释为包括的,使得使用“或”描述的任何术语可以指示所描述的术语中的单个、多于一个和全部中的任一个。例如,对“‘A’和‘B’中的至少一个”的引用可以包括仅‘A’、仅‘B’以及‘A’和‘B’两者。与“含有”或其它开放式术语相结合地使用的此类引用可以包括附加项。
在附图、详细描述或任何权利要求中的技术特征后面是附图标记的情况下,附图标记已被包括来增加附图、详细描述和权利要求的可理解性。因此,附图标记或其不存在都不对任何权利要求元素的范围没有任何限制作用。
本文描述的系统和方法可以在不脱离其特性的情况下用其它具体形式加以具体化。前面的实施方式是说明性的,而不是限制所描述的系统和方法。本文描述的系统和方法的范围因此通过所附权利要求而不是前述描述来指示,并且落在权利要求的等价含义和范围内的变化被包含在其中。
Claims (37)
1.一种由一个或多个处理器实现的方法,所述方法包括:
检测与第一用户相关联的第一客户端设备和与第二用户相关联的第二客户端设备之间的网络连接;
响应于检测到第一客户端设备和第二客户端设备之间的所述网络连接:
生成授权通知,所述授权通知向所述第一用户请求授权以与所述第二客户端设备共享与所述第一客户端设备相关联的音频标识模型;
使得提供所述授权通知以用于经由所述第一客户端设备呈现给所述第一用户;
基于响应于所述授权通知而从所述第一用户接收的用户输入,确定是否与所述第二客户端设备共享与所述第一客户端设备相关联的所述音频标识模型;
响应于确定所述第一用户授权与所述第二客户端设备共享与所述第一客户端设备相关联的所述音频标识模型:
向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问;
确定是否满足撤销对所述音频标识模型的访问的一个或多个条件;以及
响应于确定满足撤销对所述音频标识模型的访问的所述一个或多个条件中的至少一个条件:
撤销所述第二客户端设备对与所述第一客户端设备相关联的所述音频标识模型的访问。
2.根据权利要求1所述的方法,其中,撤销对所述音频标识模型的访问的所述一个或多个条件包括以下中的一个或多个:时间条件和位置条件。
3.根据权利要求2所述的方法,其中,确定是否满足撤销对所述音频标识模型的访问的一个或多个条件包括:
基于确定在所述第一客户端设备向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问之后已经流逝了预定时间量,确定满足所述时间条件。
4.根据权利要求2所述的方法,其中,确定是否满足撤销对所述音频标识模型的访问的一个或多个条件包括:
基于确定在所述第一客户端设备向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问之后所述第一客户端设备在所述第二客户端设备的预定距离之外,确定满足所述位置条件。
5.根据权利要求2所述的方法,其中,确定是否满足撤销对所述音频标识模型的访问的一个或多个条件包括:
基于检测到所述第一客户端设备和所述第二客户端设备之间的所述网络连接的中断,确定满足所述位置条件。
6.根据权利要求1所述的方法,其中,向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问包括:
经由所述网络连接向所述第二客户端设备传输与所述第一客户端设备相关联的所述音频标识模型;以及
使得所述第二客户端设备在处理在所述客户端设备处接收到的输入音频信号时利用所述音频标识模型。
7.根据权利要求1所述的方法,其中,向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问包括:
经由所述网络连接来接收来自所述第二客户端设备的输入音频信号;
使用所述音频标识模型处理所述输入音频信号以生成对于所述第一用户的第一标识得分;以及
经由所述网络连接将对于所述第一用户的所述第一标识得分传输到所述第二客户端设备。
8.根据权利要求1所述的方法,进一步包括:
经由所述网络连接来接收输入音频信号;
使用所述音频标识模型处理所述输入音频信号以生成对于所述第一用户的第一标识得分;
使用与所述第二用户相关联的附加音频标识模型来处理所述输入音频信号以生成对于所述第二用户的第二标识得分;以及
基于所述第一标识得分和所述第二标识得分来确定是所述第一用户还是所述第二用户提供了与所述输入音频信号相对应的说出的话语。
9.根据权利要求1所述的方法,其中,被提供以用于经由所述第一客户端设备呈现给所述第一用户的所述授权通知是作为以下中的一者来提供的:推送通知、文本消息、电子邮件消息以及应用通知。
10.一种系统,包括:
一个或多个处理器;以及
存储器,所述存储器存储指令,所述指令在被执行时使得所述一个或多个处理器:
确定与第一客户端设备相关联的第一用户被添加到与第二客户端设备相关联的用户的群组;
响应确定第一个用户已被添加到所述用户的群组:
生成授权通知,所述授权通知向所述第一用户请求授权以与所述第二客户端设备共享与所述第一客户端设备相关联的音频标识模型;
使得提供所述授权通知以用于经由所述第一客户端设备呈现给所述第一用户;
基于响应于所述授权通知而从所述第一用户接收的用户输入,确定是否与所述第二客户端设备共享与所述第一客户端设备相关联的所述音频标识模型;
响应于确定所述第一用户授权与所述第二客户端设备共享与所述第一客户端设备相关联的所述音频标识模型:
向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问;
确定是否满足撤销对所述音频标识模型的访问的一个或多个条件;以及
响应于确定满足撤销对所述音频标识模型的访问的所述一个或多个条件中的至少一个条件:
撤销所述第二客户端设备对与所述第一客户端设备相关联的所述音频标识模型的访问。
11.根据权利要求10所述的系统,其中,撤销对所述音频标识模型的访问的所述一个或多个条件包括以下中的一个或多个:时间条件和位置条件。
12.根据权利要求11所述的系统,其中,确定是否满足撤销对所述音频标识模型的访问的一个或多个条件的指令包括进行以下操作的指令:
基于确定在所述第一客户端设备向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问之后已经流逝了预定时间量,确定满足所述时间条件。
13.根据权利要求11所述的系统,其中,确定是否满足撤销对所述音频标识模型的访问的一个或多个条件的指令包括进行以下操作的指令:
基于确定在所述第一客户端设备向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问之后所述第一客户端设备在所述第二客户端设备的预定距离之外,确定满足所述位置条件。
14.根据权利要求10所述的系统,其中,向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问的指令包括进行以下操作的指令:
经由所述第一客户端设备和所述第二客户端设备之间的网络连接向所述第二客户端设备传输与所述第一客户端设备相关联的所述音频标识模型;以及
使得所述第二客户端设备在处理在所述客户端设备处接收到的输入音频信号时利用所述音频标识模型。
15.根据权利要求10所述的系统,其中,向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问的指令包括进行以下操作的指令:
经由所述第一客户端设备和所述第二客户端设备之间的网络连接来接收来自所述第二客户端设备的输入音频信号;
使用所述音频标识模型处理所述输入音频信号以生成对于所述第一用户的第一标识得分;以及
经由所述网络连接将对于所述第一用户的所述第一标识得分传输到所述第二客户端设备。
16.根据权利要求10所述的系统,其中,所述指令进一步包括进行以下操作的指令:
经由所述第一客户端设备和所述第二客户端设备之间的网络连接来接收输入音频信号;
使用所述音频标识模型处理所述输入音频信号以生成对于所述第一用户的第一标识得分;
使用与所述第二用户相关联的附加音频标识模型来处理所述输入音频信号以生成对于所述第二用户的第二标识得分;以及
基于所述第一标识得分和所述第二标识得分来确定是所述第一用户还是所述第二用户提供了与所述输入音频信号相对应的说出的话语。
17.根据权利要求10所述的系统,其中,被提供以用于经由所述第一客户端设备呈现给所述第一用户的所述授权通知是作为以下中的一者来提供的:推送通知、文本消息、电子邮件消息以及应用通知。
18.一种存储指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器:
检测与第一用户相关联的第一客户端设备和与第二用户相关联的第二客户端设备之间的网络连接;
响应于检测到第一客户端设备和第二客户端设备之间的所述网络连接:
生成授权通知,所述授权通知向所述第一用户请求授权以与所述第二客户端设备共享与所述第一客户端设备相关联的音频标识模型;
使得提供所述授权通知以用于经由所述第一客户端设备呈现给所述第一用户;
基于响应于所述授权通知而从所述第一用户接收的用户输入,确定是否与所述第二客户端设备共享与所述第一客户端设备相关联的所述音频标识模型;
响应于确定所述第一用户授权与所述第二客户端设备共享与所述第一客户端设备相关联的所述音频标识模型:
向所述第二客户端设备提供对与所述第一客户端设备相关联的所述音频标识模型的访问;
确定是否满足撤销对所述音频标识模型的访问的一个或多个条件;以及
响应于确定满足撤销对所述音频标识模型的访问的所述一个或多个条件中的至少一个条件:
撤销所述第二客户端设备对与所述第一客户端设备相关联的所述音频标识模型的访问。
19.一种由一个或多个处理器实现的方法,所述方法包括:
接收捕获客户端设备的用户说出的用户请求的输入音频信号;
使用所述客户端设备能够访问的至少一个音频标识模型来处理所述输入音频信号,以从所述客户端设备能够访问的多个候选简档当中选择与提供所述用户请求的所述用户相关联的简档;
基于所述简档来确定响应于用户请求的、待渲染以供呈现给所述用户的数字分量;以及
响应于确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量:
使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户。
20.根据权利要求19所述的方法,其中,基于所述简档来确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量包括:
基于所述简档来从多个数字分量当中选择所述数字分量。
21.根据权利要求19所述的方法,其中,基于所述简档来确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量包括:
基于所述简档来生成针对提供说出的用户请求的所述用户定制的定制数字分量以作为所述数字分量。
22.根据权利要求19所述的方法,其中,基于所述简档来确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量包括:
基于所述简档,通过一个或多个网络向内容数据提供商传输对所述数字分量的请求;以及
通过所述一个或多个网络从所述内容数据提供商接收所述数字分量。
23.根据权利要求19所述的方法,其中,所述数字分量包括基于音频的内容,并且其中,使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户包括:
使得可听地渲染所述基于音频的内容以供经由所述客户端设备的一个或多个扬声器呈现给所述用户。
24.根据权利要求23所述的方法,其中,所述数字分量进一步包括基于文本的内容,并且其中,使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户进一步包括:
使得在视觉上渲染所述基于文本的内容以供经由所述客户端设备的显示器呈现给所述用户。
25.根据权利要求23所述的方法,其中,所述数字分量进一步包括基于视觉的内容,并且其中,使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户进一步包括:
使得在视觉上渲染所述基于视觉的内容以供经由所述客户端设备的显示器呈现给所述用户。
26.根据权利要求19所述的方法,其中,使用所述客户端设备能够访问的所述至少一个音频标识模型来处理所述输入音频信号以选择与提供所述用户请求的所述用户相关联的所述简档包括:
使用所述客户端设备能够访问的第一音频标识模型来处理所述输入音频信号以生成第一音频标识模型得分;以及
基于所述第一音频标识模型得分,从所述客户端设备能够访问的所述多个候选简档当中选择所述简档。
27.根据权利要求26所述的方法,其中,使用所述客户端设备能够访问的所述至少一个音频标识模型来处理所述输入音频信号以选择与提供所述用户请求的所述用户相关联的所述简档进一步包括:
使用所述客户端设备能够访问的第二音频标识模型来处理所述输入音频信号以生成第二音频标识模型得分,
其中,从所述客户端设备能够访问的所述多个候选简档当中选择所述简档是进一步基于所述第二音频标识模型得分。
28.一种系统,包括:
一个或多个处理器;以及
存储器,所述存储器存储指令,所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:
接收捕获客户端设备的用户说出的用户请求的输入音频信号;
使用所述客户端设备能够访问的至少一个音频标识模型来处理所述输入音频信号,以从所述客户端设备能够访问的多个候选简档当中选择与提供所述用户请求的所述用户相关联的简档;
基于所述简档来确定响应于用户请求的、待渲染以供呈现给所述用户的数字分量;以及
响应于确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量:
使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户。
29.根据权利要求28所述的系统,其中,基于所述简档来确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量的指令包括进行以下操作的指令:
基于所述简档来从多个数字分量当中选择所述数字分量。
30.根据权利要求28所述的系统,其中,基于所述简档来确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量的指令包括进行以下操作的指令:
基于所述简档来生成针对提供说出的用户请求的所述用户定制的定制数字分量以作为所述数字分量。
31.根据权利要求28所述的系统,其中,基于所述简档来确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量的指令包括进行以下操作的指令:
基于所述简档,通过一个或多个网络向内容数据提供商传输对所述数字分量的请求;以及
通过所述一个或多个网络从所述内容数据提供商接收所述数字分量。
32.根据权利要求28所述的系统,其中,所述数字分量包括基于音频的内容,并且其中,使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户的指令包括进行以下操作的指令:
使得可听地渲染所述基于音频的内容以供经由所述客户端设备的一个或多个扬声器呈现给所述用户。
33.根据权利要求32所述的系统,所述数字分量进一步包括基于文本的内容,并且其中,使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户的指令进一步包括进行以下操作的指令:
使得在视觉上渲染所述基于文本的内容以供经由所述客户端设备的显示器呈现给所述用户。
34.根据权利要求32所述的系统,其中,所述数字分量进一步包括基于视觉的内容,并且其中,使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户的指令进一步包括进行以下操作的指令:
使得在视觉上渲染所述基于视觉的内容以供经由所述客户端设备的显示器呈现给所述用户。
35.根据权利要求28所述的系统,其中,使用所述客户端设备能够访问的所述至少一个音频标识模型来处理所述输入音频信号以选择与提供所述用户请求的所述用户相关联的所述简档的指令包括进行以下操作的指令:
使用所述客户端设备能够访问的第一音频标识模型来处理所述输入音频信号以生成第一音频标识模型得分;以及
基于所述第一音频标识模型得分,从所述客户端设备能够访问的所述多个候选简档当中选择所述简档。
36.根据权利要求35所述的系统,使用所述客户端设备能够访问的所述至少一个音频标识模型来处理所述输入音频信号以选择与提供所述用户请求的所述用户相关联的所述简档的指令进一步包括进行以下操作的指令:
使用所述客户端设备能够访问的第二音频标识模型来处理所述输入音频信号以生成第二音频标识模型得分,
其中,从所述客户端设备能够访问的所述多个候选简档当中选择所述简档是进一步基于所述第二音频标识模型得分。
37.一种存储指令的非暂时性计算机可读存储介质,所述指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行操作,所述操作包括:
接收捕获客户端设备的用户说出的用户请求的输入音频信号;
使用所述客户端设备能够访问的至少一个音频标识模型来处理所述输入音频信号,以从所述客户端设备能够访问的多个候选简档当中选择与提供所述用户请求的所述用户相关联的简档;
基于所述简档来确定响应于用户请求的、待渲染以供呈现给所述用户的数字分量;以及
响应于确定响应于所述用户请求的、待渲染以供呈现给所述用户的所述数字分量:
使得渲染所述数字分量以供经由所述客户端设备呈现给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410048448.4A CN117879949A (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410048448.4A CN117879949A (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
CN201780097541.2A CN111448549B (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
PCT/US2017/065460 WO2019112624A1 (en) | 2017-12-08 | 2017-12-08 | Distributed identification in networked system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780097541.2A Division CN111448549B (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117879949A true CN117879949A (zh) | 2024-04-12 |
Family
ID=60943104
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410048448.4A Pending CN117879949A (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
CN201780097541.2A Active CN111448549B (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780097541.2A Active CN111448549B (zh) | 2017-12-08 | 2017-12-08 | 网络系统中的分布式标识 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10992684B2 (zh) |
EP (2) | EP4181553A1 (zh) |
JP (2) | JP7071504B2 (zh) |
KR (2) | KR102392717B1 (zh) |
CN (2) | CN117879949A (zh) |
WO (1) | WO2019112624A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10079024B1 (en) * | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
GB2563952A (en) * | 2017-06-29 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
US10992684B2 (en) | 2017-12-08 | 2021-04-27 | Google Llc | Distributed identification in networked system |
US11798546B2 (en) | 2020-08-14 | 2023-10-24 | Google Llc | Transient personalization mode for guest users of an automated assistant |
US11749284B2 (en) * | 2020-11-13 | 2023-09-05 | Google Llc | Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests |
US20220382842A1 (en) * | 2021-05-31 | 2022-12-01 | Electronics And Telecommunications Research Institute | Authentication electronic device based on biometric template and operating method thereof |
CN116346885B (zh) * | 2023-05-24 | 2023-07-28 | 北京飞轮数据科技有限公司 | 标识信息生成方法、装置、电子设备和计算机可读介质 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170237801A1 (en) | 2004-06-30 | 2017-08-17 | Google Inc. | Device configuration-based function delivery |
JP2006038955A (ja) | 2004-07-22 | 2006-02-09 | Docomo Engineering Tohoku Inc | 声紋認識システム |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
CN101673544B (zh) * | 2009-10-10 | 2012-07-04 | 上海电虹软件有限公司 | 一种基于声纹识别和定位跟踪的交叉监控方法和系统 |
JP5757561B2 (ja) | 2011-03-04 | 2015-07-29 | Necカシオモバイルコミュニケーションズ株式会社 | アクセス許可システム及びアクセス許可判定方法 |
US9159324B2 (en) * | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US9282096B2 (en) * | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
US20150162004A1 (en) | 2013-12-09 | 2015-06-11 | Erwin Goesnar | Media content consumption with acoustic user identification |
US20150255068A1 (en) * | 2014-03-10 | 2015-09-10 | Microsoft Corporation | Speaker recognition including proactive voice model retrieval and sharing features |
US9710546B2 (en) * | 2014-03-28 | 2017-07-18 | Microsoft Technology Licensing, Llc | Explicit signals personalized search |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9674700B2 (en) * | 2014-11-04 | 2017-06-06 | Qualcomm Incorporated | Distributing biometric authentication between devices in an ad hoc network |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
US9112849B1 (en) * | 2014-12-31 | 2015-08-18 | Spotify Ab | Methods and systems for dynamic creation of hotspots for media control |
US9979724B2 (en) | 2015-02-06 | 2018-05-22 | NXT-ID, Inc. | Distributed method and system to improve collaborative services across multiple devices |
US9807610B2 (en) * | 2015-03-26 | 2017-10-31 | Intel Corporation | Method and apparatus for seamless out-of-band authentication |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10664500B2 (en) | 2015-12-29 | 2020-05-26 | Futurewei Technologies, Inc. | System and method for user-behavior based content recommendations |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
WO2018009397A1 (en) * | 2016-07-06 | 2018-01-11 | Pcms Holdings, Inc. | System and method for customizing smart home speech interfaces using personalized speech profiles |
US9892732B1 (en) * | 2016-08-12 | 2018-02-13 | Paypal, Inc. | Location based voice recognition system |
US10027662B1 (en) * | 2016-12-06 | 2018-07-17 | Amazon Technologies, Inc. | Dynamic user authentication |
US20190182176A1 (en) * | 2016-12-21 | 2019-06-13 | Facebook, Inc. | User Authentication with Voiceprints on Online Social Networks |
US10672402B2 (en) * | 2017-04-11 | 2020-06-02 | International Business Machines Corporation | Speech with context authenticator |
US10438594B2 (en) * | 2017-09-08 | 2019-10-08 | Amazon Technologies, Inc. | Administration of privileges by speech for voice assistant system |
US10992684B2 (en) | 2017-12-08 | 2021-04-27 | Google Llc | Distributed identification in networked system |
-
2017
- 2017-12-08 US US16/063,128 patent/US10992684B2/en active Active
- 2017-12-08 WO PCT/US2017/065460 patent/WO2019112624A1/en unknown
- 2017-12-08 EP EP22216007.9A patent/EP4181553A1/en active Pending
- 2017-12-08 CN CN202410048448.4A patent/CN117879949A/zh active Pending
- 2017-12-08 EP EP17826345.5A patent/EP3707606B1/en active Active
- 2017-12-08 CN CN201780097541.2A patent/CN111448549B/zh active Active
- 2017-12-08 KR KR1020207018444A patent/KR102392717B1/ko active IP Right Grant
- 2017-12-08 JP JP2020531004A patent/JP7071504B2/ja active Active
- 2017-12-08 KR KR1020227014095A patent/KR102502617B1/ko active IP Right Grant
-
2021
- 2021-04-22 US US17/237,573 patent/US11683320B2/en active Active
-
2022
- 2022-05-02 JP JP2022076175A patent/JP7504152B2/ja active Active
-
2023
- 2023-05-03 US US18/142,926 patent/US20230275902A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230275902A1 (en) | 2023-08-31 |
EP4181553A1 (en) | 2023-05-17 |
US20190182261A1 (en) | 2019-06-13 |
KR102392717B1 (ko) | 2022-04-29 |
EP3707606A1 (en) | 2020-09-16 |
KR102502617B1 (ko) | 2023-02-24 |
US20210243200A1 (en) | 2021-08-05 |
KR20220062420A (ko) | 2022-05-16 |
JP7071504B2 (ja) | 2022-05-19 |
US10992684B2 (en) | 2021-04-27 |
JP2022107616A (ja) | 2022-07-22 |
CN111448549B (zh) | 2024-01-23 |
KR20200091895A (ko) | 2020-07-31 |
CN111448549A (zh) | 2020-07-24 |
JP2021506008A (ja) | 2021-02-18 |
EP3707606B1 (en) | 2023-02-01 |
JP7504152B2 (ja) | 2024-06-21 |
US11683320B2 (en) | 2023-06-20 |
WO2019112624A1 (en) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111448549B (zh) | 网络系统中的分布式标识 | |
KR101996574B1 (ko) | 패킷화된 데이터의 멀티모달 송신 | |
US10917404B2 (en) | Authentication of packetized audio signals | |
CN110637300B (zh) | 在联网环境中延迟的双因素认证 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |