CN109598112A - 利用协同定位信息的发言人验证 - Google Patents

利用协同定位信息的发言人验证 Download PDF

Info

Publication number
CN109598112A
CN109598112A CN201811329448.2A CN201811329448A CN109598112A CN 109598112 A CN109598112 A CN 109598112A CN 201811329448 A CN201811329448 A CN 201811329448A CN 109598112 A CN109598112 A CN 109598112A
Authority
CN
China
Prior art keywords
spokesman
equipment
user
user equipment
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811329448.2A
Other languages
English (en)
Other versions
CN109598112B (zh
Inventor
R.A.格瓦拉
O.汉森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN109598112A publication Critical patent/CN109598112A/zh
Application granted granted Critical
Publication of CN109598112B publication Critical patent/CN109598112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

用于在多用户环境中识别用户的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。方法中的一种包括由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得用于第一用户设备的第一用户的第一发言人模型,由第一用户设备针对与第一用户设备协同定位的第二用户设备的第二用户获得用于第二用户的第二发言人模型或指示所述话语是由第二用户说出的相应的可能性的第二分数,以及由第一用户设备利用(i)第一发言人模型和第二发言人模型或(ii)第一发言人模型和第二分数来确定话语是由第一用户说出的。

Description

利用协同定位信息的发言人验证
本申请是国际申请日为2015年05月13日、中国申请号为201580018671.3、发明名称为“利用协同定位信息的发言人验证”的发明专利申请的分案申请。
技术领域
本说明书涉及发言人验证(speaker verification)。
背景技术
在语音使能的环境(例如家庭或汽车)中,用户可利用话音输入访问信息或控制各种功能。这些信息和功能可针对给定用户个性化。在多用户环境中,从一群发言人当中识别给定发言人会是有利的。
发明内容
本说明书涉及通过给发言人验证系统提供更多信息来增强发言人验证系统。例如,某些发言人验证系统涉及连续地倾听预定短语以便唤醒计算设备、通常执行进一步处理和/或接收更多用户输入,例如语音命令和查询。这样的发言人验证系统可区分来自设备中的一组登记的用户和未知的、未登记的用户的对预定义短语的话语。在典型场景中,特定的计算设备将检测由位置相对紧密接近设备的人说的预定义短语的任何话语,这些人例如会议室中的一群人或桌旁的其他用餐者。在一些情况下,这些人可使用与其设备相容的发言人验证系统。通过利用协同定位(co-location)信息,与每个设备关联的发言人验证系统可检测话语是由相应设备的登记用户说出的还是由紧密接近的另一用户(例如,冒名顶替者(imposter))说出的,并且该信息可用于改善发言人验证决定。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得用于第一用户设备的第一用户的第一发言人模型,由第一用户设备针对与第一用户设备协同定位的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数,以及由第一用户设备利用(i)第一发言人模型和第二发言人模型或(ii)第一发言人模型和第二分数来确定话语是由第一用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得用于第一用户设备的第一用户的第一发言人模型,由第一用户设备针对与第一用户设备协同定位的其他用户设备的多个其他用户中的每一个获得用于每个相应用户的发言人模型或指示话语是由相应用户说出的相应的可能性的分数,以及由第一用户设备利用(i)第一发言人模型和多个其他发言人模型或(ii)第一发言人模型和多个分数来确定话语是由第一用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得所述系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备确定用于第一用户设备的第一用户的第一发言人模型,由第一用户设备确定存储在第一用户设备上的用于可与第一用户设备协同定位的其他人的一个或多个第二发言人模型,以及由第一用户设备利用第一发言人模型和第二发言人模型确定话语是由第一用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得所述系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:通过至少一个计算机接收对话语进行编码的音频信号,通过至少一个计算机针对两个或更多个用户设备中的每一个获得对用于相应用户设备的相应用户的相应发言人模型的识别,通过至少一个计算机利用识别的发言人模型确定话语是由用户设备中的一个的特定用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得所述系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得指示话语是由第一用户设备的第一用户说出的可能性的第一分数,由第一用户设备针对与第一用户设备协同定位的第二用户设备的对应的第二用户获得指示话语是由第二用户说出的相应的可能性的第二分数,由第一用户设备确定第一分数和第二分数的组合,由第一用户设备利用第一分数和第二分数的组合来归一化第一分数和第二分数,以及由第一用户设备利用归一化的第一分数和归一化的第二分数来确定话语是由第一用户说出的。
前述以及其他实施例每一个都可以可选地单独或组合地包括下列特征中的一个或多个。由第一用户设备针对与第一用户设备协同定位的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备针对协同定位在第一用户设备的物理位置附近的物理区域中的第二用户设备的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数。所述方法可包括响应于确定话语是由第一用户发出的执行动作。所述方法可包括分析音频信号以识别包括在话语中的命令,并执行与命令对应的动作。所述方法可包括由第一用户设备利用音频信号的一部分和第一发言人模型生成指示话语是由第一用户说出的可能性的第一分数。所述方法可包括将第一分数与第二分数进行比较以确定最高分数。确定话语是由第一用户说出的可包括确定第一分数为最高分数。
在一些实现方式中,由第一用户设备针对协同定位在第一用户设备的物理位置附近的物理区域中的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备获得第二发言人模型,并且由第一用户设备利用音频信号的一部分和第二发言人模型生成第二分数。
在一些实现方式中,由第一用户设备针对协同定位在第一用户设备的物理位置附近的物理区域中的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备确定第二用户设备位于第一用户设备的物理位置附近的物理区域中,由第一用户设备确定第一用户设备具有允许第一用户设备访问第二发言人模型的设置,由第一用户设备接收第二发言人模型,以及由第一用户设备利用音频信号的一部分和第二发言人模型生成第二分数。由第一用户设备接收第二发言人模型可包括由第一用户设备识别存储在第一用户设备上的一个或多个第三发言人模型,以及由第一用户设备确定第三发言人模型的子集可包括第二发言人模型。所述方法可包括由第一用户设备从第一用户设备移除未包括在第三发言人模型的子集中的第三发言人模型。由第一用户设备接收第二发言人模型可包括由第一用户设备从第一用户设备中的存储器检索第二发言人模型。由第一用户设备生成第二分数可包括由第一用户设备利用存储在第一用户设备上的第二发言人模型和音频信号的一部分而不从另一用户设备请求第二发言人模型来生成第二分数。由第一用户设备接收第二发言人模型可包括由第一用户设备从服务器接收第二发言人模型。第二用户设备可包括第二发言人模型。由第一用户设备接收第二发言人模型可包括由第一用户设备从第二用户设备接收第二发言人模型。
在一些实现方式中,由第一用户设备针对位于第一用户设备的物理位置附近的物理区域中的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备确定第二用户设备位于第一用户设备的物理位置附近的物理区域中,以及由第一用户设备接收第二分数。由第一用户设备接收第二分数可包括由第一用户设备从第二用户设备接收第二分数。由第一用户设备接收第二分数可包括由第一用户设备从服务器接收第二分数。所述方法可包括由第一用户设备确定用于第二用户设备的设备识别符,以及由第一用户设备将设备识别符提供给服务器,其中第一用户设备响应于将识别符提供给服务器而从服务器接收第二分数。
在一些实现方式中,所述方法可包括由第一用户设备确定存储在第一用户设备上的用于可位于第一用户设备的物理位置附近的物理区域中的其他人的一个或多个第三发言人模型,以及由第一用户设备利用(i)第一发言人模型、第二发言人模型和第三发言人模型或(ii)第一发言人模型、第二分数和第三发言人模型来确定话语是由第一用户说出的。所述方法可包括由第一用户设备利用音频信号的一部分和第一发言人模型生成指示话语是由第一用户说出的可能性的第一分数,由第一用户设备针对第三发言人模型中的每一个利用相应的第三发言人模型和音频信号的一部分来生成相应的第三分数,以及由第一用户设备比较第一分数、第二分数和第三分数以确定最高分数。所述方法可包括由第一用户设备针对第三用户设备确定第三用户设备位于第一用户设备的物理位置附近的物理区域中的频率,由第一用户设备确定所述频率是否满足门限频率,以及由第一用户设备响应于确定所述频率满足门限频率来将用于第三用户设备的第三用户的第三发言人模型存储在第三发言人模型中。所述方法可包括由第一用户设备从第一用户接收识别第三发言人模型的输入,以及由第一用户设备响应于从用户接收到识别第三发言人模型的输入而将该第三发言人模型存储在第三发言人模型中。
在一些实现方式中,所述方法可包括通过至少一个计算机针对用户设备中的每一个从相应的用户设备接收相应的发言人模型。所述方法可包括通过至少一个计算机针对用户设备中的每一个利用相应的识别从包括在至少一个计算机中的存储器中检索相应的发言人模型。
在一些实现方式中,所述方法可包括由第一用户设备确定归一化的第一分数满足门限值,其中确定话语是由第一用户说出的是响应于确定归一化的第一分数满足门限值的。所述方法可包括由第一用户设备确定第一分数和第二分数的平均不满足门限值,其中确定第一分数和第二分数的组合是响应于确定第一分数和第二分数的平均不满足门限值的。所述方法可包括由第一用户设备确定第一分数和第二分数两者都不满足门限值,其中确定第一分数和第二分数的组合是响应于确定第一分数和第二分数两者都不满足门限值的。所述方法可包括由第一用户设备确定第一分数不满足门限值,其中确定第一分数和第二分数的组合是响应于确定第一分数不满足门限值的。
在一些实现方式中,一种系统,包括:被配置为当在锁定状态中时、在接收到特定预定义热词后响应话音命令的第一计算设备以及存储指令的一个或多个存储设备,所述指令在被所述第一计算设备执行时,可操作使得所述第一计算设备执行操作,所述操作包括:在所述第一计算设备处于锁定状态中并且与被配置为响应前面是所述特定预定义热词的话音命令的第二计算设备协同定位时,接收与前面是所述特定预定义热词的话音命令的话语对应的音频数据;由处于锁定状态中的所述第一计算设备向服务器传输包括发言人验证数据的第一消息,所述服务器从包括所述第一计算设备和第二计算设备的多个协同定位的设备接收发言人验证数据,并且使用接收的发言人验证数据来生成表示所述第一计算设备的第一用户说出了所述话音命令的可能性的第一发言人验证分数;基于所述第一发言人验证分数,由处于锁定状态中的所述第一计算设备从服务器接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息;以及响应于接收到所述第二消息,不管接收到与前面是所述特定预定义热词的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
在一些实现方式中,一种计算机实现的方法,包括:在第一计算设备处于锁定状态中并且与被配置为响应前面是预定义热词的话音命令的第二计算设备协同定位时,由第一计算设备接收与前面是特定预定义热词的话音命令的话语对应的音频数据,所述第一计算设备被配置为当在锁定状态中时、在接收到所述特定预定义热词后响应话音命令;由处于锁定状态中的所述第一计算设备向服务器传输包括发言人验证数据的第一消息,所述服务器从包括所述第一计算设备和第二计算设备的多个协同定位的设备接收发言人验证数据,并且使用接收的发言人验证数据来生成表示所述第一计算设备的第一用户说出了所述话音命令的可能性的第一发言人验证分数;基于所述第一发言人验证分数,由处于锁定状态中的所述第一计算设备从服务器接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息;以及响应于接收到所述第二消息,不管接收到与前面是所述特定预定义热词的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
在一些实现方式中,一种存储软件的非暂态计算机可读介质,所述软件包括可被一个或多个计算机执行的指令,所述指令在这样执行后使得所述一个或多个计算机执行操作,所述操作包括:在第一计算设备处于锁定状态中并且与被配置为响应前面是预定义热词的话音命令的第二计算设备协同定位时,由第一计算设备接收与前面是特定预定义热词的话音命令的话语对应的音频数据,所述第一计算设备被配置为当在锁定状态中时、在接收到所述特定预定义热词后响应话音命令;由处于锁定状态中的所述第一计算设备向服务器传输包括发言人验证数据的第一消息,所述服务器从包括所述第一计算设备和第二计算设备的多个协同定位的设备接收发言人验证数据,并且使用接收的发言人验证数据来生成表示所述第一计算设备的第一用户说出了所述话音命令的可能性的第一发言人验证分数;基于所述第一发言人验证分数,由处于锁定状态中的所述第一计算设备从服务器接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息;以及响应于接收所述第二消息,不管接收到与前面是所述特定预定义热词的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
在本说明书中描述的主题可以在特定实施例中实现以便实现下列优点中的一个或多个。在一些实现方式中,对冒名顶替者发言人模型的使用可减少用户设备响应于由不是用户设备的用户的其他人说出的话语的动作。在一些实现方式中,当使用冒名顶替者发言人模型时,系统可减少误报达6%-8%。在一些实现方式中,系统可利用用于不同的协同定位发言人的分数的组合来归一化最后的话语分数。
在附图和下面的描述中阐述本说明书的主题的一个或多个实施例的细节。根据描述、附图和权利要求书,所述主题的其他特征、方面和优点将变得明了。
附图说明
图1A-1C示出了在其中一个或多个用户设备A-D分析对话语进行编码的音频信号的环境的示例。
图2是发言人验证系统的示例。
图3是用于确定话语是否是由用户说出的过程的流程图。
图4是可用于实现在该文档中描述的系统和方法的计算设备的框图。
在不同附图中同样的参考标号和命名指示相同元素。
具体实施方式
发言人验证系统可包括连续地倾听预定义的短语以便唤醒计算设备、通常执行进一步处理和/或接收更多用户输入(例如语音命令和查询)的过程。这样的发言人验证系统可区分来自设备中的一组登记的用户和来自未知的、未登记的用户的对热词(hotword)的话语。
登记涉及用户是否已经将样本话语提供给系统以创建可用于将他或她与已知或未知的其他用户区分开的模型。发言人验证过程可涉及将针对给定话语创建的模型与针对发言人(或多个发言人)创建的模型进行比较,并且基于相似性门限决定是接受还是拒绝话语。
发言人验证系统在宽范围的领域中具有可应用性,并且也具有宽范围的性能要求——特别是对于识别质量和冒名顶替者防止有效性方面。例如,用于解锁设备的发言人验证系统与当系统被用在受信任环境中已经解锁的设备时相比,可具有较高的要求来提供对冒名顶替者的低错误接受(false acceptance),在受信任环境中错误接受可不严格以支持较低的错误拒绝(不识别登记的用户)。
当验证系统仅具有从(一个或多个)登记的发言人提供的信息来执行对接受或拒绝给定话语的决定时,由于未知的可能的冒名顶替者的集合实际上无界,因此验证过程会是具有挑战性的。这可导致来自未知的发言人的话语将有较高概率超过用于登记的发言人的相似性门限,从而导致错误接受。这种挑战对于移动设备来说尤其重要,其中在移动设备周围的可能的冒名顶替者的可得性不断地增加和改变。
可以通过给发言人验证系统提供更多信息来改善这些系统。具体地,通过利用由一般可利用的API(其可已经存在于移动设备/平台中)提供的协同定位信息,在每个设备上的验证系统能够检测附近是否存在可能的冒名顶替者。这样的信息可用于调整相似性门限,并且还可共享其登记的发言人模型以改善验证决定。在一些示例中,系统可利用用于协同定位的发言人的分数的组合来归一化用于一个或多个发言人模型的分数。例如,用户设备可利用存储在用户设备上的发言人模型和从其他用户设备接收的发言人模型来生成相应的分数、决定分数的组合并利用该组合归一化每个分数。
例如,用户设备可由于背景噪声而针对话语生成较低的分数,例如,分数可以与背景噪声成比例地降低。在高度嘈杂的条件下(例如,奔跑的车辆或人多的餐厅),对于来自用户设备的用户的话语的分数不满足门限值(例如,该分数低于或等于接受门限)是有可能的,并且可能被错误地拒绝。对分数的归一化可减少噪声代价。例如,由于每个都利用不同的发言人模型生成的多个分数的平均不满足接受门限,例如,该平均低于或等于接受门限,因此归一化将导致对每个分数的改善,以使得对于用户设备的用户的分数应当满足接受门限,例如大于接受门限。
由于这样的验证系统可访问可能的冒名顶替者的模型,因此这些系统在其中冒名顶替者的话语比照登记的用户获得高于接受门限的相似性分数的情况下,将能够更好地拒绝一些话语(例如,减少错误接受率)。例如,如果话语比照“冒名顶替者”集合中的模型(例如,根据协同定位的用户创建)中的一个具有相等或更高的分数,那么系统可假设该话语很有可能来自冒名顶替者并且拒绝它。这种方法可以与各种类型的发言人模型(例如,i-向量、d-向量等)相容。
可有多种方式来确定设备何时协同定位在给定地理区域中。例如,该信息可以源自全球定位系统(GPS)、近场通信(NFC)、蓝牙、次声音频(Subsonic audio)和/或其他传感器和技术中的一者或多者。在一些示例中,协同定位设备可以虚拟地关联,例如,当所述设备参与相同电话或视频会议时。在这些示例中,所述设备或服务器可利用日历条目、电子邮件或文本消息或者其他“软”概念来确定协同定位。
当不是所有用户都具有对应的用户设备时,多个用户也可以协同定位于相同区域中,但是用户设备中的一些包括用于那些用户的发言人模型。例如,当五个朋友在他们的起居室中的一个中并且这些朋友中的两个具有其移动设备时,第一移动设备可包括用于不随身具有移动设备的三个朋友的发言人模型并且第一和第二移动设备可利用这些发言人模型以及用于拥有设备的朋友的发言人模型来确定朋友中的哪个说出了特定话语。
在示例性实现方式中,发言人验证系统接收对话语进行编码的音频信号并且确定利用发言人模型生成的分数是否满足门限分数值。当发言人验证系统仅利用用于特定用户设备的特定用户的单个发言人模型时,发言人验证系统可为由另一用户(例如,该用户的兄弟)说出的话语生成满足门限分数值的分数。
发言人验证系统利用多个发言人模型(例如,一个用于该用户而另一个用于该用户的兄弟)来增加发言人验证系统的准确性。例如,发言人验证系统为对话语进行编码的音频信号生成两个分数,一个用于该用户而另一个分数用于他的兄弟。发言人验证系统比较这两个分数(这两个分数可都满足门限分数值)以确定哪个分数最高。与当不同的人说出话语(例如当用于该不同的人的发言人模型将要被用于生成最高分数之时)相比,发言人验证系统最有可能利用用于说出话语的特定用户的发言人模型生成最高分数。
当发言人验证系统确定对于该用户的分数(例如,利用用于该用户的发言人模型生成的分数)最高时,则该特定的用户设备可响应于话语来执行动作。当发言人验证系统确定对于该用户的兄弟的分数(例如,利用用于该用户的兄弟的发言人模型生成的分数)最高时,则该特定的用户设备不采取动作。
发言人验证系统可利用用于在特定用户设备附近的物理区域中(例如,与所述特定用户设备协同定位)的其他用户的其他发言人模型或者从这些其他用户设备接收的分数来确定哪个分数最高以及所述特定用户设备是否应该响应于话语执行动作。发言人验证系统可在特定设备或另一设备(例如,服务器)上执行。
图1A-1C示出了在其中一个或多个用户设备A-D 102a-d分析对话语进行编码的音频信号的环境100的示例。用户设备A-D 102a-d可利用多种不同算法中的一种来确定是话语可能为由用户设备的相应的用户说出的并且用户设备应当响应于话语执行动作,还是话语不可能主由相应的用户说出的并且用户设备应当不采取动作。
例如,四个同事可处于会议室中,并且第一同事(例如,用户D)可发出命令“好了,Google,请开始演示(Okay Google,please start the demo)”。用户设备A 102a可利用包括用于用户设备A 102a的用户A的发言人模型A 1024a及用于其他用户的其他发言人模型的多个发言人模型分析音频信号,所述其他用户例如有时或经常处于与用户A或用户设备A102a相同的物理区域中。其他发言人模型可以存储在用户设备A 102a的存储器中持续短时间段(例如,当用户设备A 102a最近从另一用户设备B-D 102b-d请求过特定发言人模型时)或持续长时间段(例如,当所述其他用户高概率地处于与用户设备A102a相同的物理区域中时)。
用户设备A 102a确定对于发言人模型中的每一个的分数并从多个分数中确定最高分数。用户设备A 102a可例如通过将所述最高分数与门限分数值进行比较来确定所述最高分数是否满足门限分数值以及是否有高的可能性所述最高分数是对于用户设备A 102a的用户A的。如果所述最高分数不满足门限分数值,则用户设备A 102a可例如不采取进一步的动作,并且确定所述话语是由对于其用户设备A 102a不具有发言人模型的用户说出的。
当用户设备A 102a确定所述最高分数是对于用户设备A 102a的用户A的(例如,确定发出所述命令的第一同事是用户A)时,用户设备A 102a响应于对该音频信号的接收执行动作。例如,用户设备A 102a可发起请求的演示。
当用户设备A 102a确定所述最高分数不是对于用户A的并且第一同事不是用户A时,用户设备A 102a针对所述音频信号可不采取进一步的动作。例如,用户设备A 102a可伴随由第一同事说出的另一话语接收另一音频信号并且响应于所述另一话语不采取动作。
在一些示例中,当用户设备A-D 102a-d包括相同或相容的发言人验证系统时,用户设备A-D 102a-d中的每一个可共享关于其相应的用户的信息,例如发言人模型,或关于对编码话语的音频信号的分析的信息,例如分数。例如,如图1A中所示,第一同事(例如,用户D)可说出话语10“6好了,Google,请开始演示”,并且用户设备A-D 102a-d中的每一个上的麦克风可捕获表示所述话语的信号并且将所述话语编码成音频信号。
用户设备A-D 102a-d中的每一个利用对应的发言人模型A-D 104a-d分析相应的音频信号以生成表示用户设备的相应的用户A-D说出话语106的可能性的分数,如图1B中所示。在该示例中,用户设备A102a为用户A生成0.76的分数,用户设备B 102b为用户B生成0.23的分数,用户设备C 102c为用户C生成0.67的分数,并且用户设备D 102d为用户D生成0.85的分数。
用户设备A-D 102a-d中的每一个与其他用户设备共享各自的分数。例如,用户设备A-D 102a-d可利用一个或多个传感器(例如GPS、NFC、蓝牙、次声音频或任何其他适当的技术)来确定物理上位于相应的用户设备附近的区域中的其他用户设备。用户设备A-D102a-d可确定指示用户设备是否可与另一用户设备共享其分数的访问设置,并且可例如确定该另一用户设备是否利用相同的发言人验证系统,并且可利用所述分数,或这两者。
用户设备A-D 102a-d中的每一个将所有的分数相互比较以确定由相应的用户设备生成的分数是否是最高分数以及相应的用户设备是否应当响应于话语106执行动作。例如,如图1C中所示,用户设备D 102d确定利用用于用户设备D 102d的用户D的发言人模型D104d生成的分数为最高以及话语106是由用户D说出的可能性大于话语106是由其他用户设备A-C 102a-c的其他用户说出的可能性。用户设备D 102d可执行与话语106对应的动作,例如发起请求的演示108。用户设备D 102d可将最高分数与门限分数值进行比较以确保存在高的可能性所述话语是由用户D而不是由例如对于其用户设备D102d没有接收到分数的另一用户说出的。
类似地,其他用户设备A-C 102a-c中的每一个确定其相应的分数不是最大的以及相应的其他用户设备应当不采取动作。在确定其相应的分数不是最大的分数之前,其他用户设备A-C 102a-c中的每一个可将最高分数与门限分数值(例如,特定于相应的用户设备)进行比较以确保在所述话语与所述发言人模型中的一个之间至少存在最小的相似性并且确保所述话语不是由对于其其他用户设备A-C 102a-c不具有相应的发言人模型的另一用户说出的。当最高分数是从另一用户设备接收到的时,其他用户设备A-C 102a-c可以知道或者可以不知道关于与最高分数对应的用户、用户设备或这两者的信息。例如,用户设备A-D 102a-d中的每一个可将分数发送到其他用户设备,而不带有例如用户或用户设备的任何识别信息。在一些示例中,用户设备可以将分数与该分数被对于其生成的用户的识别符一起发送。
图2是发言人验证系统200的示例。一个或多个用户设备A-B 202a-b或服务器204可分析对话语进行编码的音频信号(例如,表示话语的属性的数据)以确定最有可能说出所述话语的用户。用户设备A-B 202a-b、服务器204或这些设备中的两个或更多个的组合可利用发言人模型分析音频信号,比较利用发言人模型确定的对音频信号的不同的分析,以及确定特定的用户是否说出了所述话语。
例如,用户设备A-B 202a-b中的每一个包括用于其相应的用户的发言人模型A-B206a-b。可以利用任何适当的方法对于特定用户生成发言人模型A-B 206a-b,所述适当的方法例如使每个用户说出登记短语,然后例如从关键词样本提取梅尔频率倒谱系数(mel-frequency cepstral coefficient,MFCC)特征,并且利用这些特征作为将来比较的参考,和/或利用对由特定用户说出的话语的表示来训练神经网络。
发言人验证模块A 208a利用用于用户设备A202a的用户A的发言人模型A 206a来确定特定话语是由用户A说出的可能性。例如,发言人验证模块A 208a接收编码特定话语的音频信号(例如,音频信号的表示),并且利用发言人模型A 206a来生成表示所述特定话语是由用户A说出的可能性的分数。
发言人验证模块A 208a可利用存储在用户设备A 202a上的一个或多个冒名顶替者发言人模型210a来针对冒名顶替者发言人模型210a中的每一个生成表示所述特定话语是由与特定的冒名顶替者发言人模型对应的相应的用户说出的可能性的分数。例如,用户设备A 202a可接收所述音频信号,确定用户设备B 202b位于用户设备A 202a的物理位置附近的物理区域中(例如,在同一房间中),并且从用户设备B 202b或从服务器204请求用于用户设备B 202b的用户的发言人模型(例如,发言人模型B 206b)。例如,用户设备A可将用于用户设备B 202b的设备识别符或用于用户B的识别符作为对发言人模型B 206b的请求的一部分发送到例如服务器204。用户设备A 202a将发言人模型B 206b作为冒名顶替者发言人模型210a中的一个存储在存储器中并且发言人验证模块208a针对冒名顶替者发言人模型210a中的每一个生成分数。
冒名顶替者发言人模型210a可包括用于可处于用户设备A 202a的物理位置附近的物理区域(例如,同一房间、走廊或者人行道或道路的一部分等等)中的其他用户的发言人模型。冒名顶替者发言人模型可包括用于频繁地处于与用户A或用户设备A 202a相同的物理区域中的用户(例如,利用历史数据进行确定)的发言人模型。例如,用户设备A 202a可确定另一用户设备(例如,用户设备C)每个工作日约四个小时处于与用户设备A 202a相同的物理区域中,以及该每日四个小时的持续时间大于每日三个小时的门限持续时间(例如,特定于工作日,平均每日持续时间等),以及用于用户设备C的用户C的发言人模型C应当被存储在冒名顶替者发言人模型210a中,例如,直到用户A请求从冒名顶替者发言人模型210a中移除发言人模型C或对于用户设备C的每日持续时间不再满足门限持续时间。仅举几个例子,频率可为具体值,例如一天四个小时,或者为百分比,例如用户设备A 202检测到特定其他用户设备的时间的百分之五或由用户设备A 202检测为特定的其他用户设备的其他用户设备的总数量的百分之十。
在一些示例中,用户A可识别用户设备A 202a应当将其包括在冒名顶替者发言人模型210a中的一个或多个发言人模型。例如,用户设备A 202a可接收在用户设备A 202a上为用户A的家庭成员或朋友训练另一发言人模型的输入。所述输入可例如指示该另一发言人模型应当为冒名顶替者发言人模型,并且是用于不是用户设备A 202a的用户的、用户A之外的用户的发言人模型。该另一发言人模型可用于经常处于用户设备A 202a周围的物理区域中的另一用户(例如,用户A的孩子),以减少或消除由用户设备A 202a响应于该另一用户说出的话语而执行的动作,除非用户设备A 202a另有编程。
例如,当发言人验证模块208a利用发言人模型A 206a生成第一分数以及针对冒名顶替者发言人模型210a中的每一个生成相应的第二分数时,发言人验证模块208a比较所述分数以确定最高分数。当最高分数是利用发言人模型A 206a生成的时,发言人验证模块208a确定用户A说出特定话语并且用户设备A 202a可采取适当的动作,例如,语音识别模块212a可分析特定话语以识别包括在该特定话语中的命令。
在一个示例中,冒名顶替者发言人模型中的一个可以用于用户A的氏族成员,例如,当氏族成员中的两个具有相似的话音时。发言人验证模块208a可通过利用相应的发言人模型分析兄弟中的一个说出的话语来生成对于用户A的第一分数和对于其兄弟的第二分数。发言人验证模块208a比较这两个分数以确定哪个分数更大,所述两个分数中的每一个都可大于门限分数并且单个都将要不然触发用户设备A 202a的动作(例如,由于发言人模型的相似性)。当对于用户A的第一分数大于第二分数时,用户设备A 202例如基于所述话语执行动作,并且可部分地利用语音识别模块212a来确定所述动作。当对于用户A的兄弟的第二分数大于第一分数时,用户设备A 202例如不采取进一步动作,并且响应于所述特定话语不执行动作。
冒名顶替者发言人模型210a中的一些可以在一天中的特定时间、特定几天期间,在特定位置,或在这些中的两个或更多个的组合被利用。例如,当用户设备A 202a在用户A的家庭成员的房子里时,用户设备A 202a例如可对于生活在家庭成员的房子内的人使用冒名顶替者发言人模型,以及除非检测到这些人中的一个的协同定位用户设备,否则不使用这些冒名顶替者发言人模型。
在一些示例中,用户设备A-B 202a-b可利用存储在存储器中的设置214a-b来确定相应的发言人模型或利用相应的发言人模型生成的分数是否可以被提供(例如,利用无线通信信道216,例如利用近场通信创建的信道)到其他用户设备。例如,用户设备A 202a可接收特定的话语,确定用户设备B 202b处于用户设备A 202a附近的物理区域中,并且从用户设备B 202b请求发言人模型,例如,在不知道正在被请求的特定发言人模型的情况下请求发言人模型B 206b。用户设备B 202b接收请求、分析设置B 214b以确定是否可以与另一设备或特定的用户设备A 202a共享发言人模型B 206b,另外,响应于确定用户设备B 202b可共享发言人模型B 206b,设备B 202b利用无线通信信道216将发言人模型B 206b的副本发送到用户设备A 202a。
例如,在当多于一个人可操作单个用户设备时的示例中,用户设备A 202a可针对用户设备B 202b的用户B或用户设备B 202b的所有用户请求发言人模型。在当多于一个人操作用户设备A 202a时的示例中,发言人模型A206b可包括多个发言人模型。在这些示例中,发言人验证模块208a可针对用户设备A 202a的用户中的每一个生成分数,将这些分数与利用冒名顶替者发言人模型210a生成的其他分数进行比较,并且确定最高分数。当最高分数是对于用户设备A 202a的用户中的一个时,用户设备A 202a可执行适当的动作,例如,至少部分利用语音识别模块212a确定的动作。
对是否要执行动作的确定可以利用特定类型的动作、用户设备A 202a的具体用户或这两者来进行。例如,第一用户A可具有发起用户设备A 202a上任何应用的许可,而第二用户B可具有仅发起用户设备A 202a上的教育应用的许可。
在一些实现方式中,发言人模型中的一个或多个代替存储在用户设备A202a-b上或者除了存储在用户设备A 202a-b上被存储在服务器204上。例如,服务器204可存储用于用户设备A-B 202a-b的用户A-B的发言人模型218。在这些示例中,用户设备A 202a或用户设备B 202b可接收对话语进行编码的音频信号并且将音频信号或音频信号的一部分(例如,对音频信号的一部分的表示)提供给服务器204。服务器204接收用户设备、发言人模型或用户设备的用户的识别符,并且例如利用发言人识别符220确定发言人模型218中的哪一个与接收的识别符对应。
在一些示例中,服务器204接收在分析音频信号的一部分时除了用户设备的发言人模型之外将会被利用的其他发言人模型的识别符。例如,当用户设备A 202a确定用户设备B 202b物理上位于用户设备A 202a的物理位置附近的区域中时,服务器204可利用发言人验证请求从用户设备A 202a接收音频信号和用于用户设备A-B 202a-b的识别符。
服务器204可以例如与音频信号一起或分开地从用户设备接收位置信息,并且利用该位置信息、例如利用其他用户设备的位置信息来确定向服务器204提供过音频信号的物理上位于所述用户设备的物理位置附近的区域中的其他用户设备。服务器204随后可为所确定的其他设备识别其他发言人模型218。服务器204可以在于服务器204上生成分数时或在将发言人模型提供给用户设备A-B 202a-b时利用所识别的其他发言人模型。
服务器204上的发言人验证模块222利用来自给服务器204提供过音频信号的用户设备和所确定的其他用户设备的所有发言人模型来生成相应的分数,相应的分数中的每一个都表示相应的人说出了编码在音频信号中的特定话语的可能性。发言人验证模块222可从包括在服务器204中的存储器中检索发言人模型。发言人验证模块222可从相应的用户设备接收发言人模型。服务器204或发言人验证模块222确定最高分数并且向相应的用户设备提供指示该用户设备的用户最有可能说出了该特定话语的消息。服务器204可向其他用户设备提供指示对应的其他用户可能没有说过所述话语的消息。
在一些示例中,特定的用户设备可给服务器204提供多个发言人识别符,例如,一个识别符用于特定的用户设备的用户中的每一个,一个识别符用于与该特定的用户设备关联的冒名顶替者发言人模型中的每一个,或这两者。所述特定的用户设备可包括指示用于发言人识别符中的每一个的模型的类型的数据,例如用户或冒名顶替者。发言人验证模块222可利用与接收的发言人识别符对应的所有发言人模型218来分析音频信号并且确定要使用哪个发言人模型来生成最高分数。当利用用于特定的用户设备的用户中的一个的模型生成了最高分数时,服务器204给该特定的用户设备提供指示该特定的用户设备的用户最有可能说出了所述特定话语的消息。所述消息可包括用于生成所述最高分数的特定的发言人模型的发言人识别符。
在一些实现方式中,较低的数值可表示与较高的数值相比特定的用户说出过话语的更大可能性。例如,较低的数值的可为比较高的数值更高的分数。
在一些示例中,当用户设备具有多个用户时,用户设备或服务器204可确定用于用户设备的当前用户的特定的发言人模型。例如,用户设备可将用于当前用户的发言人标识符提供给服务器204并且指示用于用户设备的其他用户的所有其他发言人识别符是用于存储在服务器204上的冒名顶替者发言人模型的。在一些示例中,用户设备利用用于当前用户的发言人模型来确定是否响应于对音频信号的接收执行动作并且使用用于用户设备的其他用户的发言人模型作为冒名顶替者发言人模型。用户设备可利用任何适当的方法来确定用户设备的当前用户,例如利用密码、用户名或这两者来解锁用户设备和确定当前用户。
在一些实现方式中,当分数被针对音频信号利用冒名顶替者发言人模型或从另一用户设备接收的模型生成并且所述分数大于或等于利用用于特定用户设备的用户的发言人模型生成的分数时,该特定用户设备响应于对音频信号的接收而不执行动作。在这些实现方式中,当两个分数相同时,响应于对音频信号的接收,用户设备都不执行动作。在其他实现方式中,当对于不同用户设备的两个用户的两个分数相同,并且两个分数都是最高分数时,与这两个分数对应的两个用户设备可都执行动作。在当对于单个用户设备上的模型的两个分数都为相同最高分数时的实现方式中,用户设备可执行动作或可不执行动作。例如,当所述两个分数中的每一个是对于用户设备的不同用户的时,用户设备可执行动作。当分数中的一个是对于用户发言人模型的而分数中的另一个是对于冒名顶替者发言人模型的时,用户设备可不执行动作。
在一些实现方式中,取决于检测到的其他用户设备的数量,用户设备可调整门限值。例如在接收到音频信号之后,当没有检测到其他设备时门限值可以限制性较低,而当检测到其他用户设备时门限值可以限制性较高。门限值可以基于检测到的其他设备的数量变得限制性较高(例如,呈线性或指数),直到达到最大门限值。在一些示例中,例如利用针对相同话语利用不同的相似性模型生成的分数的组合,可以对一个或多个分数进行归一化。所述组合可为平均、和或积。
在一些实现方式中,用户设备A-B 202a-b中的一个或多个可周期性地检测处于相应的用户设备附近的物理区域中的其他用户设备。例如,用户设备B 202b可每五分钟、每十分钟或每三十分钟确定另一用户设备是否处于与用户设备B 202b相同的房间中。在一些示例中,用户设备B 202b在确定用户设备B 202b已经逗留在大致相同的区域持续预定的时间段(例如,用户设备B 202b的用户B持有用户设备B 202b但是没有走动或者用户B逗留在单个房间中)之后可确定另一用户设备是否位于距离用户设备B 202b的预定距离内。
用户设备A-B 202a-b可包括个人计算机、移动通信设备(例如,智能电话或平板)和能够通过网络224发送和接收数据的其他设备,例如可穿戴设备,比如表或温度控制器、电视和网络连接的器具。网络224(例如,局域网(WAN)、广域网(WAN)、互联网或其组合)连接用户设备A-B 202a-b和服务器204。
图3是用于确定话语是否是由用户说出的过程300的流程图。例如,过程300可以由发言人验证系统200的用户设备A 202a或服务器204使用。
所述过程接收对话语进行编码的音频信号(302)。例如,用户设备上的麦克风接收音频信号并且将音频信号提供给第一用户设备上的发言人验证模块或提供给服务器。
所述过程获得用于第一用户设备的第一用户的第一发言人模型(304)。例如,发言人验证系统确定对于第一用户设备存在单个第一用户并且获得用于该第一用户的第一发言人模型。在一些示例中,发言人验证模块确定对于第一用户设备的当前用户,并且获得用于该用户的第一发言人模型,所述当前用户当前登入到第一用户设备或在第一用户设备处于锁定状态时最近登入到过第一用户设备。
在一些示例中,发言人验证模块确定对于第一用户设备存在多个用户并且获得用于这些用户中的一个的第一发言人模型。第一用户设备然后可对于其他用户重复过程300中的一个或多个步骤。例如,发言人验证模块可对于用户中的每一个重复步骤304和306。
所述过程利用音频信号的一部分和第一发言人模型生成指示话语是由第一用户说出的可能性的第一分数(306)。例如,第一设备的发言人验证模块利用音频信号的全部和第一发言人模型来生成第一分数。
所述音频信号可包括对话语的发言人验证模块可将其对照第一发言人模型进行比较的变换。例如,麦克风可记录话语并且将对话语的记录提供到特征提取模块,所述特征提取模块生成发言人验证模块用于生成第一分数的音频信号。
在当存在第一用户设备的多个用户时的实现方式中,发言人验证模块比较对于多个用户中的每一个的分数并且选择最大的分数。例如,第一用户设备可具有一到五个发言人模型,每个发言人模型用于第一用户设备的相应的用户。
发言人验证模块可将分数(例如,最大的分数)与门限分数值比较来确定所述分数是否满足门限分数值。例如,发言人验证模块例如在门限分数值是最低要求的分数时确定最大的分数是否高于门限分数值或者在门限分数值是最高要求的分数时确定最大的分数是否低于门限分数值,并且最大的分数具有对于第一用户设备的用户生成的分数的最低数值。
如果最大的分数满足门限分数值,则发言人验证模块或第一用户设备上的另一模块可针对在第一用户设备上识别的冒名顶替者发言人模型(例如,存储在第一用户设备上或在服务器上)中的每一个生成分数,并且继续过程300以执行步骤308。如果最大的分数不满足门限分数值,则用户设备或服务器可停止执行步骤300。当第一用户设备或服务器停止执行步骤300时,第一用户设备或服务器可停止从其他用户设备请求其他发言人模型或其他分数。
第一用户设备上的发言人验证模块或服务器上的类似模块可针对冒名顶替者发言人模型中的每一个生成分数直到生成了与针对第一用户设备的用户的最大分数相同或高于此最大分数的分数,此时,发言人验证模块停止执行过程300。当发言人验证模块确定没有更多的冒名顶替者发言人模型或者针对第一用户设备的用户的最大分数已经与针对所有冒名顶替者发言人模型的分数(例如利用步骤308和310确定的)(包括针对用于其他用户设备的其他用户的冒名顶替者发言人模型的分数)进行了比较时,所述过程继续步骤312。
例如,所述过程确定位于第一用户设备的物理位置附近的物理区域中的一个或多个第二用户设备(308)。第一用户设备可利用近场通信来确定第二用户设备。在当发言人验证模块已经确定了第一分数时的示例中,第一用户设备可将第一分数提供给其他用户设备,例如,用于由执行类似过程的其他发言人验证模块使用。在一些示例中,第一用户设备可将第一发言人模型、用于第一用户设备的其他用户的其他发言人模型或这两者的组合提供给第二用户设备中的至少一些。
在一些实现方式中,所述过程可确定与第一用户设备协同定位但是处于不同物理位置中的第二用户设备。例如,第一用户设备在第一用户设备和特定的第二用户设备两者都参与相同的电话或视频会议时或在第一用户设备和特定的第二用户设备两者都是参与相同的电话或视频会议的靠近的设备时,可确定所述特定的第二用户设备与第一用户设备协同定位。所述设备可以位于相同的物理房间中或位于每个房间都包括有单独的视频会议设备的不同的房间中。第一设备或服务器可利用用于相应用户的日历条目来确定设备是协同定位的,例如,当用于两个用户的日历条目是相同的并且指示所有的用户在参加活动时。
所述过程针对第二用户设备中的每一个的第二用户获得用于相应的第二用户的第二发言人模型或指示话语是由相应的第二用户说出的相应的可能性的第二分数(310)。例如,第二用户设备上的其他发言人验证模块例如利用相应的第二发言人模型和编码相同话语或相同话语的一部分的其他音频信号来生成针对第二用户设备的用户中的每一个的相应的第二分数。第一用户设备从第二用户设备接收第二分数中的每一个并且可在单个消息或多个消息中从单个第二用户设备接收多个第二分数(当该单个第二用户设备具有多个用户时)。
在一些示例中,服务器可生成第二分数中的一些并且将这些第二分数提供给第一用户设备。服务器可为第一用户设备的用户生成一个第一分数或多个第一分数并且将第一分数提供给第一用户设备。服务器可对所有的分数进行比较并且向具有最大分数的设备发送消息。服务器可将消息发送到不与最大分数对应的其他设备或可不将消息发送到不与最大的分数对应的其他设备。
所述过程确定所述话语是由第一用户说出的(312)。例如,发言人验证模块将对于第一用户设备的最大分数与对于存储在用户设备上的冒名顶替者发言人模型的分数或从第二用户设备接收的第二分数或这两者进行比较。例如当发言人验证模块确定其他分数中的一个大于或等于对于第一用户设备的最大分数时,发言人验证模块可停止将对于第一用户设备的最大分数与其他分数进行比较,并且可停止执行过程300。
所述过程响应于对所述话语是由第一用户说出的确定执行动作(314)。例如,语音识别模块分析音频信号并且确定编码在音频信号中的话语的文本表示。第一用户设备利用所述文本表示来确定在话语中由第一用户提供的命令并且响应于该命令执行动作。
在上述过程300中的步骤的顺序仅是示意性的,并且可以以不同的顺序来执行确定话语是否是由第一用户说出的。例如,用户设备可在接收音频信号(例如,执行步骤302)之前确定位于该用户设备的物理位置附近的物理区域中的第二用户设备,例如,执行步骤308。
在一些实现方式中,过程300可包括额外的步骤、更少的步骤,或者步骤中的一些可分成多个步骤。例如,第一用户设备可确定第二用户设备,确定用于第二用户的任何发言人模型是否存储在存储器中(例如,作为冒名顶替者发言人模型),并且仅从相应的第二用户设备请求未存储在所述存储器中的第二发言人模型。在这些示例中,第一用户设备可从存储器移除例如针对其相应的其他用户设备不再处于第一用户设备的物理位置附近的物理区域中的其他用户的、且当前未包括在第二用户设备中的任何冒名顶替者发言人模型。
当针对不再处于在第一用户设备的物理位置附近的物理区域中的用户设备从存储器移除冒名顶替者发言人模型时,第一用户设备可保留用于被标记为不进行移除的其他用户的任何冒名顶替者发言人模型。例如,冒名顶替者发言人模型中的一个可用于第一用户的经常处于第一用户设备的物理位置附近的物理区域中的朋友。第一用户设备可为该朋友保留冒名顶替者发言人模型中的这一个,即便是在第一用户设备未检测到由该朋友操作的另一用户设备的时候也如此。
在本说明书中描述的主题和功能性操作的实施例可以以数字电子电路、有形地体现的计算机软件或固件、计算机软件(包括在本说明书中公开的结构以及其结构等价物)或这些中的一个或多个的组合来实现。在本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即用于由数据处理装置执行或者控制数据处理装置的操作的编码在有形的非暂态程序载体上的计算机程序指令的一个或多个模块。替代地或另外地,程序指令可以编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,所述信号被生成来对信息编码以传输到合适的接收器装置以供数据处理装置执行。计算机存储介质可为机器可读存储设备、机器可读存储基片、随机或串行存取的存储器设备或它们中的一个或多个的组合。
术语“数据处理装置”指数据处理硬件并且涵盖用于处理数据的所有种类的装置、设备和机器,举例来说包括可编程处理器、计算机或者多个处理器或计算机。所述装置可为或可进一步包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,所述装置还可以可选地包括创建用于计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
还可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码的计算机程序可以以任何形式的编程语言来编写,包括汇编型或解释型语言或者声明式语言或过程语言,并且其可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适于用于计算环境中的其他单元。计算机程序可以(但不一定)与文件系统中的文件对应。程序可以存储在保持其他程序或数据的文件的一部分中(例如存储在标记语言文档中的一个或多个脚本)、在专用于所讨论的程序的单个文件中或在多个协调的文件中,例如存储一个或多个模块、子程序或代码的部分的文件。计算机程序可以部署为在一个计算机上或在多个计算机上执行,所述多个计算机位于一个地点或者分布在多个地点上并且通过通信网络互连。
在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程计算机来执行,以通过对输入数据进行操作并生成输出来执行功能。还可以由专用逻辑电路执行所述过程和逻辑流,并且装置也可实现为专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的计算机举例来说包括通用微处理器或专用微处理器或者这两者或任何其他种类的中央处理单元。一般而言,中央处理单元将从只读存储器或随机存取存储器或者这两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般而言,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),或者,计算机还将操作性地耦合为从所述大容量存储设备接收数据或传输数据到所述大容量存储设备,或者这两种情况。然而,计算机无需具有这样的设备。另外,计算机可以嵌入在另一设备中,所述另一设备仅列举几个:移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备,例如通用串行总线(USB)闪存驱动器。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可拆卸盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以通过专用逻辑电路补充,或者结合在专用逻辑电路中。
为了支持与用户的交互,在本说明书中描述的主题的实施例可以实现在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示)监视器)以及键盘和指向设备(例如,鼠标或轨迹球,通过其用户可向计算机提供输入)的计算机上。也可以利用其它种类的设备支持与用户的交互;例如,提供给用户的反馈可以是任何形式的知觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以以任何形式进行接收,包括声音、语音或触觉输入。另外,计算机可以通过将文档发送到用户使用的设备并且从该设备接收文档来与用户交互;例如,通过响应于从网页浏览器接收的请求将网页发送到用户的设备上的网页浏览器。
在本说明书中描述的主题的实施例可以实现在计算系统中,该计算系统包括后端组件,例如作为数据服务器的后端组件,或包括中间件组件,例如应用服务器,或包括前端组件,例如具有图形用户界面或网页浏览器的客户端计算机(用户可通过该客户端计算机与在本说明书中描述的主题的实现方式进行交互),或者包括一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式的数字数据通信(例如通信网络)或数字数据通信的介质而互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如互联网。
计算系统可包括客户端和服务器。客户端和服务器一般彼此远离并且典型地通过通信网络来交互。客户端与服务器的关系由于运行在相应的计算机上并相互具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,HTML网页)传输给用户设备,例如用于将数据显示给与用户设备交互的用户并且从该用户接收用户输入,所述用户设备充当客户端。在用户设备处生成的数据(例如,用户交互的结果)可以在服务器处从用户设备接收到。
图4是可用于实现在该文档中描述的系统和方法的计算设备400、450的框图,计算设备400、450作为客户端或者一个服务器或多个服务器。计算设备400意在表示各种形式的数字计算机,例如膝上型计算机、桌面计算机、工作站、个人数字助理、服务器、刀片式服务器、主机(mainframe)和其他适当的计算机。计算设备450意在表示各种形式的移动设备,例如个人数字助理、蜂窝电话、智能电话、智能手表、头戴设备和其他类似的计算设备。本文示出的组件、其连接和关系以及其功能意图仅为示例性的,而非意图为限制在该文档中描述和/或请求保护的发明的实现方式。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408以及连接到低速总线414和存储设备406的低速接口412。组件402、404、406、408、410和412中的每一个利用各种总线来互连,并且可以安装在常见的主板上或在适当的时候以其他方式进行安装。处理器402可处理用于在计算设备400内执行的指令,包括存储在存储器404中或存储设备406上以为外部输入/输出设备(例如,耦合到高速接口408的显示器416)上的GUI显示图形信息的指令。在其他实现方式中,在适当的时候,可以与多个存储器和多种类型的存储器一起使用多个处理器和/或多个总线。另外,可以将多个计算设备400与提供必要操作部分的每个设备连接(例如,作为服务器阵列、一群刀片式服务器或多处理器系统)。
存储器404存储计算设备400内的信息。在一个实现方式中,存储器404为计算机可读介质。在一个实现方式中,存储器404为一个或多个易失性存储器单元。在另一实现方式中,存储器404为一个或多个非易失性存储器单元。
存储设备406能够为计算设备400提供大容量存储。在一个实现方式中,存储设备406为计算机可读介质。在各种不同实现方式中,存储设备406可为软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备或设备的阵列,包括存储区域网络或其他配置中的设备。在一个实现方式中,计算机程序产品有形地体现为信息载体。计算机程序产品包含指令,所述指令在被执行时执行如上面所述的一种或多种方法。所述信息载体为计算机或机器可读介质,例如存储器404、存储设备406或处理器402上的存储器。
高速控制器408管理计算设备400的带宽密集的操作,而低速管理器412管理带宽密集性较低的操作。任务的这种分配仅是示例性的。在一个实现方式中,高速控制器408耦合到存储器404、显示器416(例如,通过图形处理器或加速器)并且耦合到高速扩展端口410,高速扩展端口410可接受各种扩展卡(未示出)。在该实现方式中,低速控制器412耦合到存储设备406和低速扩展端口414。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的该低速扩展端口可耦合到一个或多个输入/输出设备,例如键盘、指向设备、扫描仪或例如通过网络适配器耦合到联网设备(例如交换机或路由器)。
计算设备400可以以多种不同形式来实现,如图中所示。例如,其可实现为标准服务器420或这样的服务器的群组的几倍。其还可实现为机架型服务器系统424的一部分。另外,其可实现在个人计算机(例如膝上型计算机422)中。替代地,来自计算设备400的组件可以与移动设备(例如设备450)中的其他组件(未示出)组合。每个这样的设备可包括计算设备400、450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备400、450组成。
在其他组件当中,计算设备450尤其包括处理器452、存储器464、输入/输出设备(例如显示器454)、通信接口466和收发器468。设备450还可以提供有存储设备,例如微驱动器或其他设备,以提供额外存储。组件450、452、464、454、466和468中的每一个利用各种总线互连,并且所述组件中的若干个可以安装在公共的主板上或在适当的时候以其他方式进行安装。
处理器452可处理用于在计算设备150内执行的指令,包括存储在存储器464中的指令。所述处理器还可包括单独的模拟和数字处理器。所述处理器可提供例如用于设备450的其他组件的协调(例如,对用户接口的控制)、设备450运行的应用和设备150的无线通信。
处理器可通过控制接口458与用户通信并且可与耦合到显示器454的显示接口456通信。显示器454可为例如TFT LCD显示器或OLED显示器或者其他适当的显示器技术。显示接口456可包括用于驱动显示器454以将图形和其他信息呈现给用户的适当电路。控制接口458可从用户接收命令并且将其转换用于提交给处理器452。另外,外部接口462可被设为与处理器452通信,以便使能设备450与其他设备的近区域通信。外部接口462可提供例如用于有线通信(例如,经由坞接(docking)过程)或用于无线通信(例如,经由蓝牙或其他这样的技术)。
存储器464存储计算设备450内的信息。在一个实现方式中,存储器464为计算机可读介质。在一个实现方式中,存储器464为一个或多个易失性存储器单元。在另一实现方式中,存储器464为一个或多个非易失性存储器单元。扩展存储器474还可以通过扩展接口472被提供并且连接到设备450,扩展接口472可包括例如SIMM卡接口。这样的扩展存储器474可为设备450提供额外的存储空间,或还可为设备450存储应用或其他信息。具体地,扩展存储器474可包括实现或补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器474可以被提供为用于设备450的安全模块,并且可以编程有许可对设备450的安全使用的指令。另外,可以经由SIMM卡提供安全应用以及额外信息,例如以不可破解的方式将识别信息放置在SIMM卡上。
如上面所论述的,存储器可包括例如闪存和/或MRAM存储器。在一个实现方式中,计算机程序产品有形地体现为信息载体。计算机程序产品包含指令,所述指令在被执行时执行诸如上面所述的一种或多种方法。所述信息载体为计算机或机器可读介质,例如存储器464、扩展存储器474或处理器452上的存储器。
设备450可通过通信接口466进行无线通信,通信接口466在需要的情况下可包括数字信号处理电路。通信接口466可支持在各种模式或协议下的通信,各种模式或协议例如GSM话音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。这样的通信可例如通过射频收发器468而发生。另外,短程通信可例如利用蓝牙、WiFi或其他这样的收发器(未示出)而发生。另外,GPS接收器模块470可将额外的无线数据提供给设备450,所述额外的无线数据可由设备450上运行的应用在适当的时候使用。
设备450还可以利用音频编解码器460可听地进行通信,音频编解码器460可从用户接收说出的信息并且将其转换成可利用的数字信息。音频编解码器460可同样地为用户生成可听声音,例如通过(例如设备450中听筒的)扬声器。这样的声音可包括来自话音电话呼叫的声音,可包括被记录的声音(例如,话音消息、音乐文件等)并且还可以包括由操作在设备450上的应用生成的声音。
计算设备450可以以多种不同的形式实现,如图中所示。例如,其可以被实现为蜂窝电话480。其也可被实现为智能电话482、个人数字助理或其他类似的移动设备的一部分。
尽管本说明书包含了许多具体实现方式的细节,但是这些不应当被解读为对被请求保护的范围的限制,而是应当被解读为可特定于具体实施例的特征的描述。在本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合地实现。相反,在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。另外,尽管特征可以在上面描述为以某些组合起作用并且即便起初也是这样请求保护的,但是来自请求保护的组合的一个或多个特征在一些情况下可以从该组合摘除,并且请求保护的组合可针对子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描绘了操作,但是这不应理解为,为了实现合意的结果要求这样的操作以示出的特定顺序或以相继的顺序来执行,或者所有示意的操作都被执行。在某些情形下,多任务和并行处理会有利。此外,在上述实施例中各种系统模块和组件的分离不应当理解为在所有实施例中都要求这样的分离,并且应当要理解所描述的程序组件和系统一般而言可集成在一起成为单个软件产品或封装到多个软件产品中。
在其中本文讨论的系统收集关于用户的信息或可利用个人信息的情形中,可以给用户提供控制程序或特征是否收集用户信息(例如,发言人模型、用户的偏好或用户的当前位置)或控制是否和/或如何从内容服务器接收内容的机会。另外,某些数据可以在将其存储或使用之前以一个或多个方式进行处理,以使得移除个人可识别的信息。例如,可以处理用户的身份以使得不能够确定对于该用户的个人可识别的信息,或者用户的地理位置可以被笼统化获得位置信息的地方,例如,笼统化到市、邮编代码或州级,以使得不能够确定用户的具体位置。因此,用户可具有对如何收集关于该用户的信息或如何由内容服务器使用信息的控制。
已经描述了主题的特定实施例。其他实施例在随附的权利要求的范围内。例如,在权利要求中记载的动作可以以不同的顺序执行但是仍然实现合意的结果。作为一个示例,为了实现合意的结果,在附图中描绘的过程未必要求示出的特定顺序或相继的顺序。在一些情况下,多任务和并行处理会有利。例如,执行相似性分数计算的模块(例如,发言人验证模块的一部分)可以以硬件实现,例如直接在数字信号处理(DSP)单元上实现。

Claims (15)

1.一种系统,包括:
被配置为当在锁定状态中时、在接收到特定预定义热词后响应话音命令的第一计算设备以及存储指令的一个或多个存储设备,所述指令在被所述第一计算设备执行时,可操作使得所述第一计算设备执行操作,所述操作包括:
在所述第一计算设备处于锁定状态中并且与被配置为响应前面是所述特定预定义热词的话音命令的第二计算设备协同定位时,接收与前面是所述特定预定义热词的话音命令的话语对应的音频数据;
由处于锁定状态中的所述第一计算设备向服务器传输包括发言人验证数据的第一消息,所述服务器从包括所述第一计算设备和第二计算设备的多个协同定位的设备接收发言人验证数据,并且使用接收的发言人验证数据来生成表示所述第一计算设备的第一用户说出了所述话音命令的可能性的第一发言人验证分数;
基于所述第一发言人验证分数,由处于锁定状态中的所述第一计算设备从服务器接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息;以及
响应于接收到所述第二消息,不管接收到与前面是所述特定预定义热词的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
2.根据权利要求1所述的系统,其中:
所述服务器还使用接收的发言人验证数据来生成表示所述第二计算设备的第二用户说出了所述话音命令的可能性的第二发言人验证分数;以及
还基于所述第二发言人验证分数接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息。
3.根据权利要求1所述的系统,其中,所述操作还包括:获得指示所述第一计算设备被许可向其他计算设备提供发言人验证数据的设置的值,其中,向服务器传输包括发言人验证数据的第一消息是基于获得的指示所述第一计算设备被许可与其他计算设备共享发言人验证数据的设置的值的。
4.根据权利要求1所述的系统,其中,向服务器传输包括发言人验证数据的第一消息包括传输包括针对所述第一计算设备的第一用户的第一发言人验证模型的第一消息。
5.根据权利要求1所述的系统,其中,向服务器传输包括发言人验证数据的第一消息是响应于接收到与所述话语对应的音频数据的。
6.根据权利要求1所述的系统,其中,所述操作还包括:确定所述第二计算设备与第一计算设备协同定位,其中,向服务器传输包括发言人验证数据的第一消息是响应于确定所述第二计算设备与第一计算设备协同定位的。
7.一种计算机实现的方法,包括:
在第一计算设备处于锁定状态中并且与被配置为响应前面是预定义热词的话音命令的第二计算设备协同定位时,由第一计算设备接收与前面是特定预定义热词的话音命令的话语对应的音频数据,所述第一计算设备被配置为当在锁定状态中时、在接收到所述特定预定义热词后响应话音命令;
由处于锁定状态中的所述第一计算设备向服务器传输包括发言人验证数据的第一消息,所述服务器从包括所述第一计算设备和第二计算设备的多个协同定位的设备接收发言人验证数据,并且使用接收的发言人验证数据来生成表示所述第一计算设备的第一用户说出了所述话音命令的可能性的第一发言人验证分数;
基于所述第一发言人验证分数,由处于锁定状态中的所述第一计算设备从服务器接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息;以及
响应于接收到所述第二消息,不管接收到与前面是所述特定预定义热词的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
8.根据权利要求7所述的方法,其中:
所述服务器还使用接收的发言人验证数据来生成表示所述第二计算设备的第二用户说出了所述话音命令的可能性的第二发言人验证分数;以及
还基于所述第二发言人验证分数接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息。
9.根据权利要求7所述的方法,还包括:获得指示所述第一计算设备被许可向其他计算设备提供发言人验证数据的设置的值,其中,向服务器传输包括发言人验证数据的第一消息是基于获得的指示所述第一计算设备被许可与其他计算设备共享发言人验证数据的设置的值的。
10.根据权利要求7所述的方法,其中,向服务器传输包括发言人验证数据的第一消息包括传输包括针对所述第一计算设备的第一用户的第一发言人验证模型的第一消息。
11.根据权利要求7所述的方法,其中,向服务器传输包括发言人验证数据的第一消息是响应于接收到与所述话语对应的音频数据的。
12.根据权利要求7所述的方法,还包括:确定所述第二计算设备与第一计算设备协同定位,其中,向服务器传输包括发言人验证数据的第一消息是响应于确定所述第二计算设备与第一计算设备协同定位的。
13.一种存储软件的非暂态计算机可读介质,所述软件包括可被一个或多个计算机执行的指令,所述指令在这样执行后使得所述一个或多个计算机执行操作,所述操作包括:
在第一计算设备处于锁定状态中并且与被配置为响应前面是预定义热词的话音命令的第二计算设备协同定位时,由第一计算设备接收与前面是特定预定义热词的话音命令的话语对应的音频数据,所述第一计算设备被配置为当在锁定状态中时、在接收到所述特定预定义热词后响应话音命令;
由处于锁定状态中的所述第一计算设备向服务器传输包括发言人验证数据的第一消息,所述服务器从包括所述第一计算设备和第二计算设备的多个协同定位的设备接收发言人验证数据,并且使用接收的发言人验证数据来生成表示所述第一计算设备的第一用户说出了所述话音命令的可能性的第一发言人验证分数;
基于所述第一发言人验证分数,由处于锁定状态中的所述第一计算设备从服务器接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息;以及
响应于接收所述第二消息,不管接收到与前面是所述特定预定义热词的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
14.根据权利要求13所述的计算机可读介质,其中:
所述服务器还使用接收的发言人验证数据来生成表示所述第二计算设备的第二用户说出了所述话音命令的可能性的第二发言人验证分数;以及
还基于所述第二发言人验证分数接收指示所述第一计算设备的第一用户不可能说出所述话音命令的第二消息。
15.根据权利要求13所述的计算机可读介质,其中,所述操作还包括:获得指示所述第一计算设备被许可向其他计算设备提供发言人验证数据的设置的值,其中,向服务器传输包括发言人验证数据的第一消息是基于获得的指示所述第一计算设备被许可与其他计算设备共享发言人验证数据的设置的值的。
CN201811329448.2A 2014-07-18 2015-05-13 发言人验证系统、方法和计算机可读介质 Active CN109598112B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US14/335,380 2014-07-18
US14/335,380 US9257120B1 (en) 2014-07-18 2014-07-18 Speaker verification using co-location information
CN201580018671.3A CN106164921B (zh) 2014-07-18 2015-05-13 发言人验证系统、方法和计算机可读介质
PCT/US2015/030569 WO2016010616A1 (en) 2014-07-18 2015-05-13 Speaker verification using co-location information

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580018671.3A Division CN106164921B (zh) 2014-07-18 2015-05-13 发言人验证系统、方法和计算机可读介质

Publications (2)

Publication Number Publication Date
CN109598112A true CN109598112A (zh) 2019-04-09
CN109598112B CN109598112B (zh) 2022-09-06

Family

ID=53268901

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201811329448.2A Active CN109598112B (zh) 2014-07-18 2015-05-13 发言人验证系统、方法和计算机可读介质
CN201811329425.1A Active CN109376521B (zh) 2014-07-18 2015-05-13 用于发言人验证的方法和系统
CN201580018671.3A Active CN106164921B (zh) 2014-07-18 2015-05-13 发言人验证系统、方法和计算机可读介质

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201811329425.1A Active CN109376521B (zh) 2014-07-18 2015-05-13 用于发言人验证的方法和系统
CN201580018671.3A Active CN106164921B (zh) 2014-07-18 2015-05-13 发言人验证系统、方法和计算机可读介质

Country Status (6)

Country Link
US (6) US9257120B1 (zh)
EP (2) EP3129982B1 (zh)
JP (4) JP6509903B2 (zh)
KR (2) KR101804388B1 (zh)
CN (3) CN109598112B (zh)
WO (1) WO2016010616A1 (zh)

Families Citing this family (178)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10541997B2 (en) * 2016-12-30 2020-01-21 Google Llc Authentication of packetized audio signals
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11676608B2 (en) * 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) * 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US11275757B2 (en) 2015-02-13 2022-03-15 Cerner Innovation, Inc. Systems and methods for capturing data, creating billable information and outputting billable information
US9734682B2 (en) 2015-03-02 2017-08-15 Enovate Medical, Llc Asset management using an asset tag device
US20160302210A1 (en) * 2015-04-10 2016-10-13 Enovate Medical, Llc Communication hub and repeaters
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US9571995B1 (en) * 2015-10-07 2017-02-14 Verizon Patent And Licensing Inc. Call transfer initiation via near field communication (NFC)
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9860355B2 (en) * 2015-11-23 2018-01-02 International Business Machines Corporation Call context metadata
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) * 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9741360B1 (en) 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
GB2557375A (en) * 2016-12-02 2018-06-20 Cirrus Logic Int Semiconductor Ltd Speaker identification
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
KR102622356B1 (ko) 2017-04-20 2024-01-08 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN110809879B (zh) * 2017-06-28 2021-04-27 株式会社OPTiM 一种Web会议声音辅助系统、方法及程序
EP4092998A1 (en) 2017-06-30 2022-11-23 Google LLC Methods, systems, and media for connecting an iot device to a call
WO2019005227A1 (en) 2017-06-30 2019-01-03 Google Llc METHODS, SYSTEMS AND MEDIA FOR VOICE CALL OPERATIONS
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10749855B2 (en) * 2017-10-30 2020-08-18 Vmware, Inc. Securely managing digital assistants that access third-party applications
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
EP3707606B1 (en) * 2017-12-08 2023-02-01 Google LLC Distributed identification in networked system
CN107993665B (zh) * 2017-12-14 2021-04-30 科大讯飞股份有限公司 多人会话场景中发言人角色确定方法、智能会议方法及系统
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US10877637B1 (en) 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US11127405B1 (en) * 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
US11240057B2 (en) * 2018-03-15 2022-02-01 Lenovo (Singapore) Pte. Ltd. Alternative output response based on context
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
JP6996627B2 (ja) * 2018-06-27 2022-01-17 日本電気株式会社 情報処理装置、制御方法、及びプログラム
KR102563817B1 (ko) 2018-07-13 2023-08-07 삼성전자주식회사 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
KR102621897B1 (ko) * 2018-10-10 2024-01-08 주식회사 케이티 화자 인식 장치 및 그 동작방법
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
WO2020085769A1 (en) * 2018-10-24 2020-04-30 Samsung Electronics Co., Ltd. Speech recognition method and apparatus in environment including plurality of apparatuses
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus
US11398232B1 (en) 2018-12-21 2022-07-26 Cerner Innovation, Inc. Natural language understanding of conversational sources
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11410650B1 (en) 2018-12-26 2022-08-09 Cerner Innovation, Inc. Semantically augmented clinical speech processing
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10923111B1 (en) 2019-03-28 2021-02-16 Amazon Technologies, Inc. Speech detection and speech recognition
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
KR102098237B1 (ko) * 2019-06-26 2020-04-07 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
CN114080641A (zh) * 2019-07-17 2022-02-22 星电株式会社 麦克风单元
CN110600041B (zh) * 2019-07-29 2022-04-29 华为技术有限公司 一种声纹识别的方法及设备
US11721330B1 (en) * 2019-09-04 2023-08-08 Amazon Technologies, Inc. Natural language input processing
US11158329B2 (en) * 2019-09-11 2021-10-26 Artificial Intelligence Foundation, Inc. Identification of fake audio content
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11145315B2 (en) * 2019-10-16 2021-10-12 Motorola Mobility Llc Electronic device with trigger phrase bypass and corresponding systems and methods
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11798546B2 (en) * 2020-08-14 2023-10-24 Google Llc Transient personalization mode for guest users of an automated assistant
KR20220137437A (ko) * 2021-04-02 2022-10-12 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325528A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的网络交互式用户界面
CN1629870A (zh) * 2003-06-30 2005-06-22 微软公司 用于提供用户存在性和有效性的状态和预测的方法及结构
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
CN101535983A (zh) * 2006-10-16 2009-09-16 沃伊斯博克斯科技公司 协作会话语音用户界面的系统和方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
CN102222190A (zh) * 2005-02-22 2011-10-19 纽昂斯通讯公司 通过多模态基于web的界面的用户验证
JP2012173432A (ja) * 2011-02-18 2012-09-10 Toshiba Corp 音声対話装置および音声対話方法
CN102859967A (zh) * 2010-03-01 2013-01-02 诺基亚公司 用于基于用户交互数据来估计用户特征的方法和设备
CN103262156A (zh) * 2010-08-27 2013-08-21 思科技术公司 语音识别语言模型
US20130325484A1 (en) * 2012-05-29 2013-12-05 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
CN103477604A (zh) * 2011-03-30 2013-12-25 高通股份有限公司 对移动设备的持续语音认证
WO2014169287A1 (en) * 2013-04-12 2014-10-16 Sciometrics Llc The identity caddy: a tool for real-time determination of identity in the mobile environment

Family Cites Families (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59180599A (ja) 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
JPS59180599U (ja) 1983-05-19 1984-12-03 株式会社村田製作所 圧電発音装置
JPH0231896A (ja) 1988-07-21 1990-02-01 Osaka Gas Co Ltd 廃水の処理装置
JPH0552976A (ja) 1991-08-22 1993-03-02 Canon Inc 電子装置
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
US5659665A (en) 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
JP3522421B2 (ja) * 1995-10-31 2004-04-26 株式会社リコー 話者認識システムおよび話者認識方法
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US5895448A (en) 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6023676A (en) 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US8209184B1 (en) * 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JPH1152976A (ja) 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP3524370B2 (ja) 1998-02-19 2004-05-10 富士通テン株式会社 音声起動システム
JP2000075954A (ja) * 1998-09-02 2000-03-14 Sony Corp 電子機器制御装置
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
JP2000122678A (ja) 1998-10-14 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識機器制御装置
US6744860B1 (en) 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6671672B1 (en) 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3357629B2 (ja) 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
GB9911971D0 (en) 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10015960C2 (de) 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1168736A1 (en) 2000-06-30 2002-01-02 Alcatel Telecommunication system and method with a speech recognizer
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
JP2002279245A (ja) * 2001-03-19 2002-09-27 Ntt Docomo Inc サービスセンタ及び発注受付方法
US20020194003A1 (en) * 2001-06-05 2002-12-19 Mozer Todd F. Client-server security system and method
US6701293B2 (en) 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
US20030171930A1 (en) * 2002-03-07 2003-09-11 Junqua Jean-Claude Computer telephony system to access secure resources
JP4224250B2 (ja) 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2003345391A (ja) 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP2004086356A (ja) 2002-08-23 2004-03-18 Fujitsu Ten Ltd 認証方法および認証装置
TW200409525A (en) 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
EP1429314A1 (en) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
US7533023B2 (en) 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7222072B2 (en) 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
EP1511277A1 (en) 2003-08-29 2005-03-02 Swisscom AG Method for answering an incoming event with a phone device, and adapted phone device
US7305078B2 (en) 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
US20050165607A1 (en) 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
JP4710331B2 (ja) * 2005-01-27 2011-06-29 ソニー株式会社 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体
KR100679043B1 (ko) 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US8041570B2 (en) 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7603275B2 (en) 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
JP4657097B2 (ja) * 2005-12-21 2011-03-23 京セラミタ株式会社 電子機器及び音声操作プログラム
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
US8595007B2 (en) 2006-06-15 2013-11-26 NITV Federal Services, LLC Voice print recognition software system for voice identification and matching
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110060587A1 (en) 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
GB2450886B (en) 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8495727B2 (en) * 2007-08-07 2013-07-23 Microsoft Corporation Spam reduction in real time communications by human interaction proof
JP2009104020A (ja) * 2007-10-25 2009-05-14 Panasonic Electric Works Co Ltd 音声認識装置
CN101140646A (zh) * 2007-11-05 2008-03-12 陆航程 基于epc、ebc物联网的“数据大跟踪”税控系统及其税控终端
JP5424173B2 (ja) * 2008-01-31 2014-02-26 BizMobile株式会社 携帯サービスの提供システム及び提供方法
GB2458461A (en) 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8504365B2 (en) 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8145482B2 (en) 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8676586B2 (en) 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101519104B1 (ko) 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US20120239400A1 (en) * 2009-11-25 2012-09-20 Nrc Corporation Speech data analysis device, speech data analysis method and speech data analysis program
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8543402B1 (en) 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
US8306814B2 (en) * 2010-05-11 2012-11-06 Nice-Systems Ltd. Method for speaker source classification
KR101672212B1 (ko) 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
US8874773B2 (en) 2010-11-30 2014-10-28 Gary W. Grube Obtaining group and individual emergency preparedness communication information
CN102741918B (zh) 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
KR20140041500A (ko) * 2011-04-27 2014-04-04 라이트 브레인 인터페이스 엔. 브이. 콘텐츠의 공동 업로드를 위한 방법 및 장치
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US20130024196A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
CN102710732A (zh) * 2011-11-06 2012-10-03 李宗诚 互联网全息协同系统信息融合基础
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
EP2783365B1 (en) 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US8825020B2 (en) 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
JP6221202B2 (ja) 2012-02-03 2017-11-01 ヤマハ株式会社 通信システム
US20130262873A1 (en) * 2012-03-30 2013-10-03 Cgi Federal Inc. Method and system for authenticating remote users
US20140006825A1 (en) 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
JP6131537B2 (ja) 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
TWI474317B (zh) 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition
US9058806B2 (en) * 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
US8904498B2 (en) * 2012-10-17 2014-12-02 Ca, Inc. Biometric identification for mobile applications
WO2014064324A1 (en) 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US8996372B1 (en) 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
JP2014092777A (ja) * 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN104937603B (zh) * 2013-01-10 2018-09-25 日本电气株式会社 终端、解锁方法和程序
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9349386B2 (en) 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9257952B2 (en) 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US8768687B1 (en) 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
WO2015029304A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9373321B2 (en) 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
JP6754184B2 (ja) 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325528A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的网络交互式用户界面
CN1629870A (zh) * 2003-06-30 2005-06-22 微软公司 用于提供用户存在性和有效性的状态和预测的方法及结构
CN102222190A (zh) * 2005-02-22 2011-10-19 纽昂斯通讯公司 通过多模态基于web的界面的用户验证
CN101535983A (zh) * 2006-10-16 2009-09-16 沃伊斯博克斯科技公司 协作会话语音用户界面的系统和方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
CN102859967A (zh) * 2010-03-01 2013-01-02 诺基亚公司 用于基于用户交互数据来估计用户特征的方法和设备
CN103262156A (zh) * 2010-08-27 2013-08-21 思科技术公司 语音识别语言模型
JP2012173432A (ja) * 2011-02-18 2012-09-10 Toshiba Corp 音声対話装置および音声対話方法
CN103477604A (zh) * 2011-03-30 2013-12-25 高通股份有限公司 对移动设备的持续语音认证
US20130325484A1 (en) * 2012-05-29 2013-12-05 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
WO2014169287A1 (en) * 2013-04-12 2014-10-16 Sciometrics Llc The identity caddy: a tool for real-time determination of identity in the mobile environment

Also Published As

Publication number Publication date
US20160314792A1 (en) 2016-10-27
KR101890377B1 (ko) 2018-08-21
KR101804388B1 (ko) 2017-12-04
KR20160143680A (ko) 2016-12-14
US10147429B2 (en) 2018-12-04
US20180012604A1 (en) 2018-01-11
US20160019889A1 (en) 2016-01-21
WO2016010616A1 (en) 2016-01-21
EP3129982B1 (en) 2022-04-13
JP2021193466A (ja) 2021-12-23
US20200013412A1 (en) 2020-01-09
US9412376B2 (en) 2016-08-09
US9257120B1 (en) 2016-02-09
CN106164921B (zh) 2018-12-07
KR20160147955A (ko) 2016-12-23
CN109598112B (zh) 2022-09-06
CN109376521B (zh) 2021-06-15
EP4047497A3 (en) 2022-09-28
US10460735B2 (en) 2019-10-29
EP4047497A2 (en) 2022-08-24
JP2023184691A (ja) 2023-12-28
CN106164921A (zh) 2016-11-23
US10986498B2 (en) 2021-04-20
JP2019152867A (ja) 2019-09-12
US9792914B2 (en) 2017-10-17
US20160019896A1 (en) 2016-01-21
US20190074017A1 (en) 2019-03-07
JP7384877B2 (ja) 2023-11-21
JP6509903B2 (ja) 2019-05-08
CN109376521A (zh) 2019-02-22
JP2017517027A (ja) 2017-06-22
EP3129982A1 (en) 2017-02-15
JP7007320B2 (ja) 2022-01-24

Similar Documents

Publication Publication Date Title
CN106164921B (zh) 发言人验证系统、方法和计算机可读介质
JP6474762B2 (ja) 発話者の検証のための動的な閾値
JP6630765B2 (ja) 個別化されたホットワード検出モデル
US20200082812A1 (en) Multi-user authentication on a device
US11942095B2 (en) Speaker verification using co-location information
US11676608B2 (en) Speaker verification using co-location information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant