CN106164921B - 发言人验证系统、方法和计算机可读介质 - Google Patents
发言人验证系统、方法和计算机可读介质 Download PDFInfo
- Publication number
- CN106164921B CN106164921B CN201580018671.3A CN201580018671A CN106164921B CN 106164921 B CN106164921 B CN 106164921B CN 201580018671 A CN201580018671 A CN 201580018671A CN 106164921 B CN106164921 B CN 106164921B
- Authority
- CN
- China
- Prior art keywords
- equipment
- user
- spokesman
- calculating equipment
- user equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000004044 response Effects 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 25
- 241001269238 Data Species 0.000 claims 3
- 230000005236 sound signal Effects 0.000 abstract description 55
- 238000004590 computer program Methods 0.000 abstract description 24
- 230000015654 memory Effects 0.000 description 38
- 230000008569 process Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 7
- 238000009434 installation Methods 0.000 description 5
- 238000000429 assembly Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000257303 Hymenoptera Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2111—Location-sensitive, e.g. geographical location, GPS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Emergency Alarm Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
用于在多用户环境中识别用户的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。方法中的一种包括由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得用于第一用户设备的第一用户的第一发言人模型,由第一用户设备针对与第一用户设备协同定位的第二用户设备的第二用户获得用于第二用户的第二发言人模型或指示所述话语是由第二用户说出的相应的可能性的第二分数,以及由第一用户设备利用(i)第一发言人模型和第二发言人模型或(ii)第一发言人模型和第二分数来确定话语是由第一用户说出的。
Description
技术领域
本说明书涉及发言人验证(speaker verification)。
背景技术
在语音使能的环境(例如家庭或汽车)中,用户可利用话音输入访问信息或控制各种功能。这些信息和功能可针对给定用户个性化。在多用户环境中,从一群发言人当中识别给定发言人会是有利的。
发明内容
本说明书涉及通过给发言人验证系统提供更多信息来增强发言人验证系统。例如,某些发言人验证系统涉及连续地倾听预定短语以便唤醒计算设备、通常执行进一步处理和/或接收更多用户输入,例如语音命令和查询。这样的发言人验证系统可区分来自设备中的一组登记的用户和未知的、未登记的用户的对预定义短语的话语。在典型场景中,特定的计算设备将检测由位置相对紧密接近设备的人说的预定义短语的任何话语,这些人例如会议室中的一群人或桌旁的其他用餐者。在一些情况下,这些人可使用与其设备相容的发言人验证系统。通过利用协同定位(co-location)信息,与每个设备关联的发言人验证系统可检测话语是由相应设备的登记用户说出的还是由紧密接近的另一用户(例如,冒名顶替者(imposter))说出的,并且该信息可用于改善发言人验证决定。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得用于第一用户设备的第一用户的第一发言人模型,由第一用户设备针对与第一用户设备协同定位的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数,以及由第一用户设备利用(i)第一发言人模型和第二发言人模型或(ii)第一发言人模型和第二分数来确定话语是由第一用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得用于第一用户设备的第一用户的第一发言人模型,由第一用户设备针对与第一用户设备协同定位的其他用户设备的多个其他用户中的每一个获得用于每个相应用户的发言人模型或指示话语是由相应用户说出的相应的可能性的分数,以及由第一用户设备利用(i)第一发言人模型和多个其他发言人模型或(ii)第一发言人模型和多个分数来确定话语是由第一用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得所述系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备确定用于第一用户设备的第一用户的第一发言人模型,由第一用户设备确定存储在第一用户设备上的用于可与第一用户设备协同定位的其他人的一个或多个第二发言人模型,以及由第一用户设备利用第一发言人模型和第二发言人模型确定话语是由第一用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得所述系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:通过至少一个计算机接收对话语进行编码的音频信号,通过至少一个计算机针对两个或更多个用户设备中的每一个获得对用于相应用户设备的相应用户的相应发言人模型的识别,通过至少一个计算机利用识别的发言人模型确定话语是由用户设备中的一个的特定用户说出的。该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,所述计算机系统、装置和计算机程序每个都配置为执行所述方法的动作。一个或多个计算机的系统可以凭借在操作中使得所述系统执行动作的软件、固件、硬件或它们的组合安装在所述系统上而被配置为执行特定操作或动作。一个或多个计算机程序可配置为凭借包括被数据处理装置执行时使得所述装置执行动作的指令来执行特定操作或动作。
一般而言,在本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由第一用户设备接收对话语进行编码的音频信号,由第一用户设备获得指示话语是由第一用户设备的第一用户说出的可能性的第一分数,由第一用户设备针对与第一用户设备协同定位的第二用户设备的对应的第二用户获得指示话语是由第二用户说出的相应的可能性的第二分数,由第一用户设备确定第一分数和第二分数的组合,由第一用户设备利用第一分数和第二分数的组合来归一化第一分数和第二分数,以及由第一用户设备利用归一化的第一分数和归一化的第二分数来确定话语是由第一用户说出的。
前述以及其他实施例每一个都可以可选地单独或组合地包括下列特征中的一个或多个。由第一用户设备针对与第一用户设备协同定位的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备针对协同定位在第一用户设备的物理位置附近的物理区域中的第二用户设备的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数。所述方法可包括响应于确定话语是由第一用户发出的执行动作。所述方法可包括分析音频信号以识别包括在话语中的命令,并执行与命令对应的动作。所述方法可包括由第一用户设备利用音频信号的一部分和第一发言人模型生成指示话语是由第一用户说出的可能性的第一分数。所述方法可包括将第一分数与第二分数进行比较以确定最高分数。确定话语是由第一用户说出的可包括确定第一分数为最高分数。
在一些实现方式中,由第一用户设备针对协同定位在第一用户设备的物理位置附近的物理区域中的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备获得第二发言人模型,并且由第一用户设备利用音频信号的一部分和第二发言人模型生成第二分数。
在一些实现方式中,由第一用户设备针对协同定位在第一用户设备的物理位置附近的物理区域中的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备确定第二用户设备位于第一用户设备的物理位置附近的物理区域中,由第一用户设备确定第一用户设备具有允许第一用户设备访问第二发言人模型的设置,由第一用户设备接收第二发言人模型,以及由第一用户设备利用音频信号的一部分和第二发言人模型生成第二分数。由第一用户设备接收第二发言人模型可包括由第一用户设备识别存储在第一用户设备上的一个或多个第三发言人模型,以及由第一用户设备确定第三发言人模型的子集可包括第二发言人模型。所述方法可包括由第一用户设备从第一用户设备移除未包括在第三发言人模型的子集中的第三发言人模型。由第一用户设备接收第二发言人模型可包括由第一用户设备从第一用户设备中的存储器检索第二发言人模型。由第一用户设备生成第二分数可包括由第一用户设备利用存储在第一用户设备上的第二发言人模型和音频信号的一部分而不从另一用户设备请求第二发言人模型来生成第二分数。由第一用户设备接收第二发言人模型可包括由第一用户设备从服务器接收第二发言人模型。第二用户设备可包括第二发言人模型。由第一用户设备接收第二发言人模型可包括由第一用户设备从第二用户设备接收第二发言人模型。
在一些实现方式中,由第一用户设备针对位于第一用户设备的物理位置附近的物理区域中的第二用户设备的对应的第二用户获得用于第二用户的第二发言人模型或指示话语是由第二用户说出的相应的可能性的第二分数可包括:由第一用户设备确定第二用户设备位于第一用户设备的物理位置附近的物理区域中,以及由第一用户设备接收第二分数。由第一用户设备接收第二分数可包括由第一用户设备从第二用户设备接收第二分数。由第一用户设备接收第二分数可包括由第一用户设备从服务器接收第二分数。所述方法可包括由第一用户设备确定用于第二用户设备的设备识别符,以及由第一用户设备将设备识别符提供给服务器,其中第一用户设备响应于将识别符提供给服务器而从服务器接收第二分数。
在一些实现方式中,所述方法可包括由第一用户设备确定存储在第一用户设备上的用于可位于第一用户设备的物理位置附近的物理区域中的其他人的一个或多个第三发言人模型,以及由第一用户设备利用(i)第一发言人模型、第二发言人模型和第三发言人模型或(ii)第一发言人模型、第二分数和第三发言人模型来确定话语是由第一用户说出的。所述方法可包括由第一用户设备利用音频信号的一部分和第一发言人模型生成指示话语是由第一用户说出的可能性的第一分数,由第一用户设备针对第三发言人模型中的每一个利用相应的第三发言人模型和音频信号的一部分来生成相应的第三分数,以及由第一用户设备比较第一分数、第二分数和第三分数以确定最高分数。所述方法可包括由第一用户设备针对第三用户设备确定第三用户设备位于第一用户设备的物理位置附近的物理区域中的频率,由第一用户设备确定所述频率是否满足门限频率,以及由第一用户设备响应于确定所述频率满足门限频率来将用于第三用户设备的第三用户的第三发言人模型存储在第三发言人模型中。所述方法可包括由第一用户设备从第一用户接收识别第三发言人模型的输入,以及由第一用户设备响应于从用户接收到识别第三发言人模型的输入而将该第三发言人模型存储在第三发言人模型中。
在一些实现方式中,所述方法可包括通过至少一个计算机针对用户设备中的每一个从相应的用户设备接收相应的发言人模型。所述方法可包括通过至少一个计算机针对用户设备中的每一个利用相应的识别从包括在至少一个计算机中的存储器中检索相应的发言人模型。
在一些实现方式中,所述方法可包括由第一用户设备确定归一化的第一分数满足门限值,其中确定话语是由第一用户说出的是响应于确定归一化的第一分数满足门限值的。所述方法可包括由第一用户设备确定第一分数和第二分数的平均不满足门限值,其中确定第一分数和第二分数的组合是响应于确定第一分数和第二分数的平均不满足门限值的。所述方法可包括由第一用户设备确定第一分数和第二分数两者都不满足门限值,其中确定第一分数和第二分数的组合是响应于确定第一分数和第二分数两者都不满足门限值的。所述方法可包括由第一用户设备确定第一分数不满足门限值,其中确定第一分数和第二分数的组合是响应于确定第一分数不满足门限值的。
在本说明书中描述的主题可以在特定实施例中实现以便实现下列优点中的一个或多个。在一些实现方式中,对冒名顶替者发言人模型的使用可减少用户设备响应于由不是用户设备的用户的其他人说出的话语的动作。在一些实现方式中,当使用冒名顶替者发言人模型时,系统可减少误报达6%-8%。在一些实现方式中,系统可利用用于不同的协同定位发言人的分数的组合来归一化最后的话语分数。
在附图和下面的描述中阐述本说明书的主题的一个或多个实施例的细节。根据描述、附图和权利要求书,所述主题的其他特征、方面和优点将变得明了。
附图说明
图1A-1C示出了在其中一个或多个用户设备A-D分析对话语进行编码的音频信号的环境的示例。
图2是发言人验证系统的示例。
图3是用于确定话语是否是由用户说出的过程的流程图。
图4是可用于实现在该文档中描述的系统和方法的计算设备的框图。
在不同附图中同样的参考标号和命名指示相同元素。
具体实施方式
发言人验证系统可包括连续地倾听预定义的短语以便唤醒计算设备、通常执行进一步处理和/或接收更多用户输入(例如语音命令和查询)的过程。这样的发言人验证系统可区分来自设备中的一组登记的用户和来自未知的、未登记的用户的对热词(hotword)的话语。
登记涉及用户是否已经将样本话语提供给系统以创建可用于将他或她与已知或未知的其他用户区分开的模型。发言人验证过程可涉及将针对给定话语创建的模型与针对发言人(或多个发言人)创建的模型进行比较,并且基于相似性门限决定是接受还是拒绝话语。
发言人验证系统在宽范围的领域中具有可应用性,并且也具有宽范围的性能要求——特别是对于识别质量和冒名顶替者防止有效性方面。例如,用于解锁设备的发言人验证系统与当系统被用在受信任环境中已经解锁的设备时相比,可具有较高的要求来提供对冒名顶替者的低错误接受(false acceptance),在受信任环境中错误接受可不严格以支持较低的错误拒绝(不识别登记的用户)。
当验证系统仅具有从(一个或多个)登记的发言人提供的信息来执行对接受或拒绝给定话语的决定时,由于未知的可能的冒名顶替者的集合实际上无界,因此验证过程会是具有挑战性的。这可导致来自未知的发言人的话语将有较高概率超过用于登记的发言人的相似性门限,从而导致错误接受。这种挑战对于移动设备来说尤其重要,其中在移动设备周围的可能的冒名顶替者的可得性不断地增加和改变。
可以通过给发言人验证系统提供更多信息来改善这些系统。具体地,通过利用由一般可利用的API(其可已经存在于移动设备/平台中)提供的协同定位信息,在每个设备上的验证系统能够检测附近是否存在可能的冒名顶替者。这样的信息可用于调整相似性门限,并且还可共享其登记的发言人模型以改善验证决定。在一些示例中,系统可利用用于协同定位的发言人的分数的组合来归一化用于一个或多个发言人模型的分数。例如,用户设备可利用存储在用户设备上的发言人模型和从其他用户设备接收的发言人模型来生成相应的分数、决定分数的组合并利用该组合归一化每个分数。
例如,用户设备可由于背景噪声而针对话语生成较低的分数,例如,分数可以与背景噪声成比例地降低。在高度嘈杂的条件下(例如,奔跑的车辆或人多的餐厅),对于来自用户设备的用户的话语的分数不满足门限值(例如,该分数低于或等于接受门限)是有可能的,并且可能被错误地拒绝。对分数的归一化可减少噪声代价。例如,由于每个都利用不同的发言人模型生成的多个分数的平均不满足接受门限,例如,该平均低于或等于接受门限,因此归一化将导致对每个分数的改善,以使得对于用户设备的用户的分数应当满足接受门限,例如大于接受门限。
由于这样的验证系统可访问可能的冒名顶替者的模型,因此这些系统在其中冒名顶替者的话语比照登记的用户获得高于接受门限的相似性分数的情况下,将能够更好地拒绝一些话语(例如,减少错误接受率)。例如,如果话语比照“冒名顶替者”集合中的模型(例如,根据协同定位的用户创建)中的一个具有相等或更高的分数,那么系统可假设该话语很有可能来自冒名顶替者并且拒绝它。这种方法可以与各种类型的发言人模型(例如,i-向量、d-向量等)相容。
可有多种方式来确定设备何时协同定位在给定地理区域中。例如,该信息可以源自全球定位系统(GPS)、近场通信(NFC)、蓝牙、次声音频(Subsonic audio)和/或其他传感器和技术中的一者或多者。在一些示例中,协同定位设备可以虚拟地关联,例如,当所述设备参与相同电话或视频会议时。在这些示例中,所述设备或服务器可利用日历条目、电子邮件或文本消息或者其他“软”概念来确定协同定位。
当不是所有用户都具有对应的用户设备时,多个用户也可以协同定位于相同区域中,但是用户设备中的一些包括用于那些用户的发言人模型。例如,当五个朋友在他们的起居室中的一个中并且这些朋友中的两个具有其移动设备时,第一移动设备可包括用于不随身具有移动设备的三个朋友的发言人模型并且第一和第二移动设备可利用这些发言人模型以及用于拥有设备的朋友的发言人模型来确定朋友中的哪个说出了特定话语。
在示例性实现方式中,发言人验证系统接收对话语进行编码的音频信号并且确定利用发言人模型生成的分数是否满足门限分数值。当发言人验证系统仅利用用于特定用户设备的特定用户的单个发言人模型时,发言人验证系统可为由另一用户(例如,该用户的兄弟)说出的话语生成满足门限分数值的分数。
发言人验证系统利用多个发言人模型(例如,一个用于该用户而另一个用于该用户的兄弟)来增加发言人验证系统的准确性。例如,发言人验证系统为对话语进行编码的音频信号生成两个分数,一个用于该用户而另一个分数用于他的兄弟。发言人验证系统比较这两个分数(这两个分数可都满足门限分数值)以确定哪个分数最高。与当不同的人说出话语(例如当用于该不同的人的发言人模型将要被用于生成最高分数之时)相比,发言人验证系统最有可能利用用于说出话语的特定用户的发言人模型生成最高分数。
当发言人验证系统确定对于该用户的分数(例如,利用用于该用户的发言人模型生成的分数)最高时,则该特定的用户设备可响应于话语来执行动作。当发言人验证系统确定对于该用户的兄弟的分数(例如,利用用于该用户的兄弟的发言人模型生成的分数)最高时,则该特定的用户设备不采取动作。
发言人验证系统可利用用于在特定用户设备附近的物理区域中(例如,与所述特定用户设备协同定位)的其他用户的其他发言人模型或者从这些其他用户设备接收的分数来确定哪个分数最高以及所述特定用户设备是否应该响应于话语执行动作。发言人验证系统可在特定设备或另一设备(例如,服务器)上执行。
图1A-1C示出了在其中一个或多个用户设备A-D 102a-d分析对话语进行编码的音频信号的环境100的示例。用户设备A-D 102a-d可利用多种不同算法中的一种来确定是话语可能为由用户设备的相应的用户说出的并且用户设备应当响应于话语执行动作,还是话语不可能主由相应的用户说出的并且用户设备应当不采取动作。
例如,四个同事可处于会议室中,并且第一同事(例如,用户D)可发出命令“好了,Google,请开始演示(Okay Google,please start the demo)”。用户设备A 102a可利用包括用于用户设备A 102a的用户A的发言人模型A 1024a及用于其他用户的其他发言人模型的多个发言人模型分析音频信号,所述其他用户例如有时或经常处于与用户A或用户设备A102a相同的物理区域中。其他发言人模型可以存储在用户设备A 102a的存储器中持续短时间段(例如,当用户设备A 102a最近从另一用户设备B-D 102b-d请求过特定发言人模型时)或持续长时间段(例如,当所述其他用户高概率地处于与用户设备A 102a相同的物理区域中时)。
用户设备A 102a确定对于发言人模型中的每一个的分数并从多个分数中确定最高分数。用户设备A 102a可例如通过将所述最高分数与门限分数值进行比较来确定所述最高分数是否满足门限分数值以及是否有高的可能性所述最高分数是对于用户设备A 102a的用户A的。如果所述最高分数不满足门限分数值,则用户设备A 102a可例如不采取进一步的动作,并且确定所述话语是由对于其用户设备A 102a不具有发言人模型的用户说出的。
当用户设备A 102a确定所述最高分数是对于用户设备A 102a的用户A的(例如,确定发出所述命令的第一同事是用户A)时,用户设备A 102a响应于对该音频信号的接收执行动作。例如,用户设备A 102a可发起请求的演示。
当用户设备A 102a确定所述最高分数不是对于用户A的并且第一同事不是用户A时,用户设备A 102a针对所述音频信号可不采取进一步的动作。例如,用户设备A 102a可伴随由第一同事说出的另一话语接收另一音频信号并且响应于所述另一话语不采取动作。
在一些示例中,当用户设备A-D 102a-d包括相同或相容的发言人验证系统时,用户设备A-D 102a-d中的每一个可共享关于其相应的用户的信息,例如发言人模型,或关于对编码话语的音频信号的分析的信息,例如分数。例如,如图1A中所示,第一同事(例如,用户D)可说出话语106“好了,Google,请开始演示”,并且用户设备A-D 102a-d中的每一个上的麦克风可捕获表示所述话语的信号并且将所述话语编码成音频信号。
用户设备A-D 102a-d中的每一个利用对应的发言人模型A-D 104a-d分析相应的音频信号以生成表示用户设备的相应的用户A-D说出话语106的可能性的分数,如图1B中所示。在该示例中,用户设备A 102a为用户A生成0.76的分数,用户设备B 102b为用户B生成0.23的分数,用户设备C 102c为用户C生成0.67的分数,并且用户设备D 102d为用户D生成0.85的分数。
用户设备A-D 102a-d中的每一个与其他用户设备共享各自的分数。例如,用户设备A-D 102a-d可利用一个或多个传感器(例如GPS、NFC、蓝牙、次声音频或任何其他适当的技术)来确定物理上位于相应的用户设备附近的区域中的其他用户设备。用户设备A-D102a-d可确定指示用户设备是否可与另一用户设备共享其分数的访问设置,并且可例如确定该另一用户设备是否利用相同的发言人验证系统,并且可利用所述分数,或这两者。
用户设备A-D 102a-d中的每一个将所有的分数相互比较以确定由相应的用户设备生成的分数是否是最高分数以及相应的用户设备是否应当响应于话语106执行动作。例如,如图1C中所示,用户设备D 102d确定利用用于用户设备D 102d的用户D的发言人模型D104d生成的分数为最高以及话语106是由用户D说出的可能性大于话语106是由其他用户设备A-C 102a-c的其他用户说出的可能性。用户设备D 102d可执行与话语106对应的动作,例如发起请求的演示108。用户设备D 102d可将最高分数与门限分数值进行比较以确保存在高的可能性所述话语是由用户D而不是由例如对于其用户设备D 102d没有接收到分数的另一用户说出的。
类似地,其他用户设备A-C 102a-c中的每一个确定其相应的分数不是最大的以及相应的其他用户设备应当不采取动作。在确定其相应的分数不是最大的分数之前,其他用户设备A-C 102a-c中的每一个可将最高分数与门限分数值(例如,特定于相应的用户设备)进行比较以确保在所述话语与所述发言人模型中的一个之间至少存在最小的相似性并且确保所述话语不是由对于其其他用户设备A-C 102a-c不具有相应的发言人模型的另一用户说出的。当最高分数是从另一用户设备接收到的时,其他用户设备A-C 102a-c可以知道或者可以不知道关于与最高分数对应的用户、用户设备或这两者的信息。例如,用户设备A-D 102a-d中的每一个可将分数发送到其他用户设备,而不带有例如用户或用户设备的任何识别信息。在一些示例中,用户设备可以将分数与该分数被对于其生成的用户的识别符一起发送。
图2是发言人验证系统200的示例。一个或多个用户设备A-B 202a-b或服务器204可分析对话语进行编码的音频信号(例如,表示话语的属性的数据)以确定最有可能说出所述话语的用户。用户设备A-B 202a-b、服务器204或这些设备中的两个或更多个的组合可利用发言人模型分析音频信号,比较利用发言人模型确定的对音频信号的不同的分析,以及确定特定的用户是否说出了所述话语。
例如,用户设备A-B 202a-b中的每一个包括用于其相应的用户的发言人模型A-B206a-b。可以利用任何适当的方法对于特定用户生成发言人模型A-B 206a-b,所述适当的方法例如使每个用户说出登记短语,然后例如从关键词样本提取梅尔频率倒谱系数(mel-frequency cepstral coefficient,MFCC)特征,并且利用这些特征作为将来比较的参考,和/或利用对由特定用户说出的话语的表示来训练神经网络。
发言人验证模块A 208a利用用于用户设备A 202a的用户A的发言人模型A 206a来确定特定话语是由用户A说出的可能性。例如,发言人验证模块A 208a接收编码特定话语的音频信号(例如,音频信号的表示),并且利用发言人模型A 206a来生成表示所述特定话语是由用户A说出的可能性的分数。
发言人验证模块A 208a可利用存储在用户设备A 202a上的一个或多个冒名顶替者发言人模型210a来针对冒名顶替者发言人模型210a中的每一个生成表示所述特定话语是由与特定的冒名顶替者发言人模型对应的相应的用户说出的可能性的分数。例如,用户设备A 202a可接收所述音频信号,确定用户设备B 202b位于用户设备A 202a的物理位置附近的物理区域中(例如,在同一房间中),并且从用户设备B 202b或从服务器204请求用于用户设备B 202b的用户的发言人模型(例如,发言人模型B 206b)。例如,用户设备A可将用于用户设备B 202b的设备识别符或用于用户B的识别符作为对发言人模型B 206b的请求的一部分发送到例如服务器204。用户设备A 202a将发言人模型B 206b作为冒名顶替者发言人模型210a中的一个存储在存储器中并且发言人验证模块208a针对冒名顶替者发言人模型210a中的每一个生成分数。
冒名顶替者发言人模型210a可包括用于可处于用户设备A 202a的物理位置附近的物理区域(例如,同一房间、走廊或者人行道或道路的一部分等等)中的其他用户的发言人模型。冒名顶替者发言人模型可包括用于频繁地处于与用户A或用户设备A 202a相同的物理区域中的用户(例如,利用历史数据进行确定)的发言人模型。例如,用户设备A 202a可确定另一用户设备(例如,用户设备C)每个工作日约四个小时处于与用户设备A 202a相同的物理区域中,以及该每日四个小时的持续时间大于每日三个小时的门限持续时间(例如,特定于工作日,平均每日持续时间等),以及用于用户设备C的用户C的发言人模型C应当被存储在冒名顶替者发言人模型210a中,例如,直到用户A请求从冒名顶替者发言人模型210a中移除发言人模型C或对于用户设备C的每日持续时间不再满足门限持续时间。仅举几个例子,频率可为具体值,例如一天四个小时,或者为百分比,例如用户设备A 202检测到特定其他用户设备的时间的百分之五或由用户设备A 202检测为特定的其他用户设备的其他用户设备的总数量的百分之十。
在一些示例中,用户A可识别用户设备A 202a应当将其包括在冒名顶替者发言人模型210a中的一个或多个发言人模型。例如,用户设备A 202a可接收在用户设备A 202a上为用户A的家庭成员或朋友训练另一发言人模型的输入。所述输入可例如指示该另一发言人模型应当为冒名顶替者发言人模型,并且是用于不是用户设备A 202a的用户的、用户A之外的用户的发言人模型。该另一发言人模型可用于经常处于用户设备A 202a周围的物理区域中的另一用户(例如,用户A的孩子),以减少或消除由用户设备A 202a响应于该另一用户说出的话语而执行的动作,除非用户设备A 202a另有编程。
例如,当发言人验证模块208a利用发言人模型A 206a生成第一分数以及针对冒名顶替者发言人模型210a中的每一个生成相应的第二分数时,发言人验证模块208a比较所述分数以确定最高分数。当最高分数是利用发言人模型A 206a生成的时,发言人验证模块208a确定用户A说出特定话语并且用户设备A 202a可采取适当的动作,例如,语音识别模块212a可分析特定话语以识别包括在该特定话语中的命令。
在一个示例中,冒名顶替者发言人模型中的一个可以用于用户A的氏族成员,例如,当氏族成员中的两个具有相似的话音时。发言人验证模块208a可通过利用相应的发言人模型分析兄弟中的一个说出的话语来生成对于用户A的第一分数和对于其兄弟的第二分数。发言人验证模块208a比较这两个分数以确定哪个分数更大,所述两个分数中的每一个都可大于门限分数并且单个都将要不然触发用户设备A 202a的动作(例如,由于发言人模型的相似性)。当对于用户A的第一分数大于第二分数时,用户设备A 202例如基于所述话语执行动作,并且可部分地利用语音识别模块212a来确定所述动作。当对于用户A的兄弟的第二分数大于第一分数时,用户设备A 202例如不采取进一步动作,并且响应于所述特定话语不执行动作。
冒名顶替者发言人模型210a中的一些可以在一天中的特定时间、特定几天期间,在特定位置,或在这些中的两个或更多个的组合被利用。例如,当用户设备A 202a在用户A的家庭成员的房子里时,用户设备A 202a例如可对于生活在家庭成员的房子内的人使用冒名顶替者发言人模型,以及除非检测到这些人中的一个的协同定位用户设备,否则不使用这些冒名顶替者发言人模型。
在一些示例中,用户设备A-B 202a-b可利用存储在存储器中的设置214a-b来确定相应的发言人模型或利用相应的发言人模型生成的分数是否可以被提供(例如,利用无线通信信道216,例如利用近场通信创建的信道)到其他用户设备。例如,用户设备A 202a可接收特定的话语,确定用户设备B 202b处于用户设备A 202a附近的物理区域中,并且从用户设备B 202b请求发言人模型,例如,在不知道正在被请求的特定发言人模型的情况下请求发言人模型B 206b。用户设备B 202b接收请求、分析设置B 214b以确定是否可以与另一设备或特定的用户设备A 202a共享发言人模型B 206b,另外,响应于确定用户设备B 202b可共享发言人模型B 206b,设备B 202b利用无线通信信道216将发言人模型B 206b的副本发送到用户设备A 202a。
例如,在当多于一个人可操作单个用户设备时的示例中,用户设备A 202a可针对用户设备B 202b的用户B或用户设备B 202b的所有用户请求发言人模型。在当多于一个人操作用户设备A 202a时的示例中,发言人模型A 206b可包括多个发言人模型。在这些示例中,发言人验证模块208a可针对用户设备A 202a的用户中的每一个生成分数,将这些分数与利用冒名顶替者发言人模型210a生成的其他分数进行比较,并且确定最高分数。当最高分数是对于用户设备A 202a的用户中的一个时,用户设备A 202a可执行适当的动作,例如,至少部分利用语音识别模块212a确定的动作。
对是否要执行动作的确定可以利用特定类型的动作、用户设备A 202a的具体用户或这两者来进行。例如,第一用户A可具有发起用户设备A 202a上任何应用的许可,而第二用户B可具有仅发起用户设备A 202a上的教育应用的许可。
在一些实现方式中,发言人模型中的一个或多个代替存储在用户设备A 202a-b上或者除了存储在用户设备A 202a-b上被存储在服务器204上。例如,服务器204可存储用于用户设备A-B 202a-b的用户A-B的发言人模型218。在这些示例中,用户设备A 202a或用户设备B 202b可接收对话语进行编码的音频信号并且将音频信号或音频信号的一部分(例如,对音频信号的一部分的表示)提供给服务器204。服务器204接收用户设备、发言人模型或用户设备的用户的识别符,并且例如利用发言人识别符220确定发言人模型218中的哪一个与接收的识别符对应。
在一些示例中,服务器204接收在分析音频信号的一部分时除了用户设备的发言人模型之外将会被利用的其他发言人模型的识别符。例如,当用户设备A 202a确定用户设备B 202b物理上位于用户设备A 202a的物理位置附近的区域中时,服务器204可利用发言人验证请求从用户设备A 202a接收音频信号和用于用户设备A-B 202a-b的识别符。
服务器204可以例如与音频信号一起或分开地从用户设备接收位置信息,并且利用该位置信息、例如利用其他用户设备的位置信息来确定向服务器204提供过音频信号的物理上位于所述用户设备的物理位置附近的区域中的其他用户设备。服务器204随后可为所确定的其他设备识别其他发言人模型218。服务器204可以在于服务器204上生成分数时或在将发言人模型提供给用户设备A-B 202a-b时利用所识别的其他发言人模型。
服务器204上的发言人验证模块222利用来自给服务器204提供过音频信号的用户设备和所确定的其他用户设备的所有发言人模型来生成相应的分数,相应的分数中的每一个都表示相应的人说出了编码在音频信号中的特定话语的可能性。发言人验证模块222可从包括在服务器204中的存储器中检索发言人模型。发言人验证模块222可从相应的用户设备接收发言人模型。服务器204或发言人验证模块222确定最高分数并且向相应的用户设备提供指示该用户设备的用户最有可能说出了该特定话语的消息。服务器204可向其他用户设备提供指示对应的其他用户可能没有说过所述话语的消息。
在一些示例中,特定的用户设备可给服务器204提供多个发言人识别符,例如,一个识别符用于特定的用户设备的用户中的每一个,一个识别符用于与该特定的用户设备关联的冒名顶替者发言人模型中的每一个,或这两者。所述特定的用户设备可包括指示用于发言人识别符中的每一个的模型的类型的数据,例如用户或冒名顶替者。发言人验证模块222可利用与接收的发言人识别符对应的所有发言人模型218来分析音频信号并且确定要使用哪个发言人模型来生成最高分数。当利用用于特定的用户设备的用户中的一个的模型生成了最高分数时,服务器204给该特定的用户设备提供指示该特定的用户设备的用户最有可能说出了所述特定话语的消息。所述消息可包括用于生成所述最高分数的特定的发言人模型的发言人识别符。
在一些实现方式中,较低的数值可表示与较高的数值相比特定的用户说出过话语的更大可能性。例如,较低的数值的可为比较高的数值更高的分数。
在一些示例中,当用户设备具有多个用户时,用户设备或服务器204可确定用于用户设备的当前用户的特定的发言人模型。例如,用户设备可将用于当前用户的发言人标识符提供给服务器204并且指示用于用户设备的其他用户的所有其他发言人识别符是用于存储在服务器204上的冒名顶替者发言人模型的。在一些示例中,用户设备利用用于当前用户的发言人模型来确定是否响应于对音频信号的接收执行动作并且使用用于用户设备的其他用户的发言人模型作为冒名顶替者发言人模型。用户设备可利用任何适当的方法来确定用户设备的当前用户,例如利用密码、用户名或这两者来解锁用户设备和确定当前用户。
在一些实现方式中,当分数被针对音频信号利用冒名顶替者发言人模型或从另一用户设备接收的模型生成并且所述分数大于或等于利用用于特定用户设备的用户的发言人模型生成的分数时,该特定用户设备响应于对音频信号的接收而不执行动作。在这些实现方式中,当两个分数相同时,响应于对音频信号的接收,用户设备都不执行动作。在其他实现方式中,当对于不同用户设备的两个用户的两个分数相同,并且两个分数都是最高分数时,与这两个分数对应的两个用户设备可都执行动作。在当对于单个用户设备上的模型的两个分数都为相同最高分数时的实现方式中,用户设备可执行动作或可不执行动作。例如,当所述两个分数中的每一个是对于用户设备的不同用户的时,用户设备可执行动作。当分数中的一个是对于用户发言人模型的而分数中的另一个是对于冒名顶替者发言人模型的时,用户设备可不执行动作。
在一些实现方式中,取决于检测到的其他用户设备的数量,用户设备可调整门限值。例如在接收到音频信号之后,当没有检测到其他设备时门限值可以限制性较低,而当检测到其他用户设备时门限值可以限制性较高。门限值可以基于检测到的其他设备的数量变得限制性较高(例如,呈线性或指数),直到达到最大门限值。在一些示例中,例如利用针对相同话语利用不同的相似性模型生成的分数的组合,可以对一个或多个分数进行归一化。所述组合可为平均、和或积。
在一些实现方式中,用户设备A-B 202a-b中的一个或多个可周期性地检测处于相应的用户设备附近的物理区域中的其他用户设备。例如,用户设备B 202b可每五分钟、每十分钟或每三十分钟确定另一用户设备是否处于与用户设备B 202b相同的房间中。在一些示例中,用户设备B 202b在确定用户设备B 202b已经逗留在大致相同的区域持续预定的时间段(例如,用户设备B 202b的用户B持有用户设备B 202b但是没有走动或者用户B逗留在单个房间中)之后可确定另一用户设备是否位于距离用户设备B 202b的预定距离内。
用户设备A-B 202a-b可包括个人计算机、移动通信设备(例如,智能电话或平板)和能够通过网络224发送和接收数据的其他设备,例如可穿戴设备,比如表或温度控制器、电视和网络连接的器具。网络224(例如,局域网(WAN)、广域网(WAN)、互联网或其组合)连接用户设备A-B 202a-b和服务器204。
图3是用于确定话语是否是由用户说出的过程300的流程图。例如,过程300可以由发言人验证系统200的用户设备A 202a或服务器204使用。
所述过程接收对话语进行编码的音频信号(302)。例如,用户设备上的麦克风接收音频信号并且将音频信号提供给第一用户设备上的发言人验证模块或提供给服务器。
所述过程获得用于第一用户设备的第一用户的第一发言人模型(304)。例如,发言人验证系统确定对于第一用户设备存在单个第一用户并且获得用于该第一用户的第一发言人模型。在一些示例中,发言人验证模块确定对于第一用户设备的当前用户,并且获得用于该用户的第一发言人模型,所述当前用户当前登入到第一用户设备或在第一用户设备处于锁定状态时最近登入到过第一用户设备。
在一些示例中,发言人验证模块确定对于第一用户设备存在多个用户并且获得用于这些用户中的一个的第一发言人模型。第一用户设备然后可对于其他用户重复过程300中的一个或多个步骤。例如,发言人验证模块可对于用户中的每一个重复步骤304和306。
所述过程利用音频信号的一部分和第一发言人模型生成指示话语是由第一用户说出的可能性的第一分数(306)。例如,第一设备的发言人验证模块利用音频信号的全部和第一发言人模型来生成第一分数。
所述音频信号可包括对话语的发言人验证模块可将其对照第一发言人模型进行比较的变换。例如,麦克风可记录话语并且将对话语的记录提供到特征提取模块,所述特征提取模块生成发言人验证模块用于生成第一分数的音频信号。
在当存在第一用户设备的多个用户时的实现方式中,发言人验证模块比较对于多个用户中的每一个的分数并且选择最大的分数。例如,第一用户设备可具有一到五个发言人模型,每个发言人模型用于第一用户设备的相应的用户。
发言人验证模块可将分数(例如,最大的分数)与门限分数值比较来确定所述分数是否满足门限分数值。例如,发言人验证模块例如在门限分数值是最低要求的分数时确定最大的分数是否高于门限分数值或者在门限分数值是最高要求的分数时确定最大的分数是否低于门限分数值,并且最大的分数具有对于第一用户设备的用户生成的分数的最低数值。
如果最大的分数满足门限分数值,则发言人验证模块或第一用户设备上的另一模块可针对在第一用户设备上识别的冒名顶替者发言人模型(例如,存储在第一用户设备上或在服务器上)中的每一个生成分数,并且继续过程300以执行步骤308。如果最大的分数不满足门限分数值,则用户设备或服务器可停止执行步骤300。当第一用户设备或服务器停止执行步骤300时,第一用户设备或服务器可停止从其他用户设备请求其他发言人模型或其他分数。
第一用户设备上的发言人验证模块或服务器上的类似模块可针对冒名顶替者发言人模型中的每一个生成分数直到生成了与针对第一用户设备的用户的最大分数相同或高于此最大分数的分数,此时,发言人验证模块停止执行过程300。当发言人验证模块确定没有更多的冒名顶替者发言人模型或者针对第一用户设备的用户的最大分数已经与针对所有冒名顶替者发言人模型的分数(例如利用步骤308和310确定的)(包括针对用于其他用户设备的其他用户的冒名顶替者发言人模型的分数)进行了比较时,所述过程继续步骤312。
例如,所述过程确定位于第一用户设备的物理位置附近的物理区域中的一个或多个第二用户设备(308)。第一用户设备可利用近场通信来确定第二用户设备。在当发言人验证模块已经确定了第一分数时的示例中,第一用户设备可将第一分数提供给其他用户设备,例如,用于由执行类似过程的其他发言人验证模块使用。在一些示例中,第一用户设备可将第一发言人模型、用于第一用户设备的其他用户的其他发言人模型或这两者的组合提供给第二用户设备中的至少一些。
在一些实现方式中,所述过程可确定与第一用户设备协同定位但是处于不同物理位置中的第二用户设备。例如,第一用户设备在第一用户设备和特定的第二用户设备两者都参与相同的电话或视频会议时或在第一用户设备和特定的第二用户设备两者都是参与相同的电话或视频会议的靠近的设备时,可确定所述特定的第二用户设备与第一用户设备协同定位。所述设备可以位于相同的物理房间中或位于每个房间都包括有单独的视频会议设备的不同的房间中。第一设备或服务器可利用用于相应用户的日历条目来确定设备是协同定位的,例如,当用于两个用户的日历条目是相同的并且指示所有的用户在参加活动时。
所述过程针对第二用户设备中的每一个的第二用户获得用于相应的第二用户的第二发言人模型或指示话语是由相应的第二用户说出的相应的可能性的第二分数(310)。例如,第二用户设备上的其他发言人验证模块例如利用相应的第二发言人模型和编码相同话语或相同话语的一部分的其他音频信号来生成针对第二用户设备的用户中的每一个的相应的第二分数。第一用户设备从第二用户设备接收第二分数中的每一个并且可在单个消息或多个消息中从单个第二用户设备接收多个第二分数(当该单个第二用户设备具有多个用户时)。
在一些示例中,服务器可生成第二分数中的一些并且将这些第二分数提供给第一用户设备。服务器可为第一用户设备的用户生成一个第一分数或多个第一分数并且将第一分数提供给第一用户设备。服务器可对所有的分数进行比较并且向具有最大分数的设备发送消息。服务器可将消息发送到不与最大分数对应的其他设备或可不将消息发送到不与最大的分数对应的其他设备。
所述过程确定所述话语是由第一用户说出的(312)。例如,发言人验证模块将对于第一用户设备的最大分数与对于存储在用户设备上的冒名顶替者发言人模型的分数或从第二用户设备接收的第二分数或这两者进行比较。例如当发言人验证模块确定其他分数中的一个大于或等于对于第一用户设备的最大分数时,发言人验证模块可停止将对于第一用户设备的最大分数与其他分数进行比较,并且可停止执行过程300。
所述过程响应于对所述话语是由第一用户说出的确定执行动作(314)。例如,语音识别模块分析音频信号并且确定编码在音频信号中的话语的文本表示。第一用户设备利用所述文本表示来确定在话语中由第一用户提供的命令并且响应于该命令执行动作。
在上述过程300中的步骤的顺序仅是示意性的,并且可以以不同的顺序来执行确定话语是否是由第一用户说出的。例如,用户设备可在接收音频信号(例如,执行步骤302)之前确定位于该用户设备的物理位置附近的物理区域中的第二用户设备,例如,执行步骤308。
在一些实现方式中,过程300可包括额外的步骤、更少的步骤,或者步骤中的一些可分成多个步骤。例如,第一用户设备可确定第二用户设备,确定用于第二用户的任何发言人模型是否存储在存储器中(例如,作为冒名顶替者发言人模型),并且仅从相应的第二用户设备请求未存储在所述存储器中的第二发言人模型。在这些示例中,第一用户设备可从存储器移除例如针对其相应的其他用户设备不再处于第一用户设备的物理位置附近的物理区域中的其他用户的、且当前未包括在第二用户设备中的任何冒名顶替者发言人模型。
当针对不再处于在第一用户设备的物理位置附近的物理区域中的用户设备从存储器移除冒名顶替者发言人模型时,第一用户设备可保留用于被标记为不进行移除的其他用户的任何冒名顶替者发言人模型。例如,冒名顶替者发言人模型中的一个可用于第一用户的经常处于第一用户设备的物理位置附近的物理区域中的朋友。第一用户设备可为该朋友保留冒名顶替者发言人模型中的这一个,即便是在第一用户设备未检测到由该朋友操作的另一用户设备的时候也如此。
在本说明书中描述的主题和功能性操作的实施例可以以数字电子电路、有形地体现的计算机软件或固件、计算机软件(包括在本说明书中公开的结构以及其结构等价物)或这些中的一个或多个的组合来实现。在本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即用于由数据处理装置执行或者控制数据处理装置的操作的编码在有形的非暂态程序载体上的计算机程序指令的一个或多个模块。替代地或另外地,程序指令可以编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,所述信号被生成来对信息编码以传输到合适的接收器装置以供数据处理装置执行。计算机存储介质可为机器可读存储设备、机器可读存储基片、随机或串行存取的存储器设备或它们中的一个或多个的组合。
术语“数据处理装置”指数据处理硬件并且涵盖用于处理数据的所有种类的装置、设备和机器,举例来说包括可编程处理器、计算机或者多个处理器或计算机。所述装置可为或可进一步包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,所述装置还可以可选地包括创建用于计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
还可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码的计算机程序可以以任何形式的编程语言来编写,包括汇编型或解释型语言或者声明式语言或过程语言,并且其可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适于用于计算环境中的其他单元。计算机程序可以(但不一定)与文件系统中的文件对应。程序可以存储在保持其他程序或数据的文件的一部分中(例如存储在标记语言文档中的一个或多个脚本)、在专用于所讨论的程序的单个文件中或在多个协调的文件中,例如存储一个或多个模块、子程序或代码的部分的文件。计算机程序可以部署为在一个计算机上或在多个计算机上执行,所述多个计算机位于一个地点或者分布在多个地点上并且通过通信网络互连。
在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程计算机来执行,以通过对输入数据进行操作并生成输出来执行功能。还可以由专用逻辑电路执行所述过程和逻辑流,并且装置也可实现为专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的计算机举例来说包括通用微处理器或专用微处理器或者这两者或任何其他种类的中央处理单元。一般而言,中央处理单元将从只读存储器或随机存取存储器或者这两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般而言,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),或者,计算机还将操作性地耦合为从所述大容量存储设备接收数据或传输数据到所述大容量存储设备,或者这两种情况。然而,计算机无需具有这样的设备。另外,计算机可以嵌入在另一设备中,所述另一设备仅列举几个:移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备,例如通用串行总线(USB)闪存驱动器。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可拆卸盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以通过专用逻辑电路补充,或者结合在专用逻辑电路中。
为了支持与用户的交互,在本说明书中描述的主题的实施例可以实现在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示)监视器)以及键盘和指向设备(例如,鼠标或轨迹球,通过其用户可向计算机提供输入)的计算机上。也可以利用其它种类的设备支持与用户的交互;例如,提供给用户的反馈可以是任何形式的知觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以以任何形式进行接收,包括声音、语音或触觉输入。另外,计算机可以通过将文档发送到用户使用的设备并且从该设备接收文档来与用户交互;例如,通过响应于从网页浏览器接收的请求将网页发送到用户的设备上的网页浏览器。
在本说明书中描述的主题的实施例可以实现在计算系统中,该计算系统包括后端组件,例如作为数据服务器的后端组件,或包括中间件组件,例如应用服务器,或包括前端组件,例如具有图形用户界面或网页浏览器的客户端计算机(用户可通过该客户端计算机与在本说明书中描述的主题的实现方式进行交互),或者包括一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式的数字数据通信(例如通信网络)或数字数据通信的介质而互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如互联网。
计算系统可包括客户端和服务器。客户端和服务器一般彼此远离并且典型地通过通信网络来交互。客户端与服务器的关系由于运行在相应的计算机上并相互具有客户端-服务器关系的计算机程序而产生。在一些实施例中,服务器将数据(例如,HTML网页)传输给用户设备,例如用于将数据显示给与用户设备交互的用户并且从该用户接收用户输入,所述用户设备充当客户端。在用户设备处生成的数据(例如,用户交互的结果)可以在服务器处从用户设备接收到。
图4是可用于实现在该文档中描述的系统和方法的计算设备400、450的框图,计算设备400、450作为客户端或者一个服务器或多个服务器。计算设备400意在表示各种形式的数字计算机,例如膝上型计算机、桌面计算机、工作站、个人数字助理、服务器、刀片式服务器、主机(mainframe)和其他适当的计算机。计算设备450意在表示各种形式的移动设备,例如个人数字助理、蜂窝电话、智能电话、智能手表、头戴设备和其他类似的计算设备。本文示出的组件、其连接和关系以及其功能意图仅为示例性的,而非意图为限制在该文档中描述和/或请求保护的发明的实现方式。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408以及连接到低速总线414和存储设备406的低速接口412。组件402、404、406、408、410和412中的每一个利用各种总线来互连,并且可以安装在常见的主板上或在适当的时候以其他方式进行安装。处理器402可处理用于在计算设备400内执行的指令,包括存储在存储器404中或存储设备406上以为外部输入/输出设备(例如,耦合到高速接口408的显示器416)上的GUI显示图形信息的指令。在其他实现方式中,在适当的时候,可以与多个存储器和多种类型的存储器一起使用多个处理器和/或多个总线。另外,可以将多个计算设备400与提供必要操作部分的每个设备连接(例如,作为服务器阵列、一群刀片式服务器或多处理器系统)。
存储器404存储计算设备400内的信息。在一个实现方式中,存储器404为计算机可读介质。在一个实现方式中,存储器404为一个或多个易失性存储器单元。在另一实现方式中,存储器404为一个或多个非易失性存储器单元。
存储设备406能够为计算设备400提供大容量存储。在一个实现方式中,存储设备406为计算机可读介质。在各种不同实现方式中,存储设备406可为软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备或设备的阵列,包括存储区域网络或其他配置中的设备。在一个实现方式中,计算机程序产品有形地体现为信息载体。计算机程序产品包含指令,所述指令在被执行时执行如上面所述的一种或多种方法。所述信息载体为计算机或机器可读介质,例如存储器404、存储设备406或处理器402上的存储器。
高速控制器408管理计算设备400的带宽密集的操作,而低速管理器412管理带宽密集性较低的操作。任务的这种分配仅是示例性的。在一个实现方式中,高速控制器408耦合到存储器404、显示器416(例如,通过图形处理器或加速器)并且耦合到高速扩展端口410,高速扩展端口410可接受各种扩展卡(未示出)。在该实现方式中,低速控制器412耦合到存储设备406和低速扩展端口414。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的该低速扩展端口可耦合到一个或多个输入/输出设备,例如键盘、指向设备、扫描仪或例如通过网络适配器耦合到联网设备(例如交换机或路由器)。
计算设备400可以以多种不同形式来实现,如图中所示。例如,其可实现为标准服务器420或这样的服务器的群组的几倍。其还可实现为机架型服务器系统424的一部分。另外,其可实现在个人计算机(例如膝上型计算机422)中。替代地,来自计算设备400的组件可以与移动设备(例如设备450)中的其他组件(未示出)组合。每个这样的设备可包括计算设备400、450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备400、450组成。
在其他组件当中,计算设备450尤其包括处理器452、存储器464、输入/输出设备(例如显示器454)、通信接口466和收发器468。设备450还可以提供有存储设备,例如微驱动器或其他设备,以提供额外存储。组件450、452、464、454、466和468中的每一个利用各种总线互连,并且所述组件中的若干个可以安装在公共的主板上或在适当的时候以其他方式进行安装。
处理器452可处理用于在计算设备150内执行的指令,包括存储在存储器464中的指令。所述处理器还可包括单独的模拟和数字处理器。所述处理器可提供例如用于设备450的其他组件的协调(例如,对用户接口的控制)、设备450运行的应用和设备150的无线通信。
处理器可通过控制接口458与用户通信并且可与耦合到显示器454的显示接口456通信。显示器454可为例如TFT LCD显示器或OLED显示器或者其他适当的显示器技术。显示接口456可包括用于驱动显示器454以将图形和其他信息呈现给用户的适当电路。控制接口458可从用户接收命令并且将其转换用于提交给处理器452。另外,外部接口462可被设为与处理器452通信,以便使能设备450与其他设备的近区域通信。外部接口462可提供例如用于有线通信(例如,经由坞接(docking)过程)或用于无线通信(例如,经由蓝牙或其他这样的技术)。
存储器464存储计算设备450内的信息。在一个实现方式中,存储器464为计算机可读介质。在一个实现方式中,存储器464为一个或多个易失性存储器单元。在另一实现方式中,存储器464为一个或多个非易失性存储器单元。扩展存储器474还可以通过扩展接口472被提供并且连接到设备450,扩展接口472可包括例如SIMM卡接口。这样的扩展存储器474可为设备450提供额外的存储空间,或还可为设备450存储应用或其他信息。具体地,扩展存储器474可包括实现或补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器474可以被提供为用于设备450的安全模块,并且可以编程有许可对设备450的安全使用的指令。另外,可以经由SIMM卡提供安全应用以及额外信息,例如以不可破解的方式将识别信息放置在SIMM卡上。
如上面所论述的,存储器可包括例如闪存和/或MRAM存储器。在一个实现方式中,计算机程序产品有形地体现为信息载体。计算机程序产品包含指令,所述指令在被执行时执行诸如上面所述的一种或多种方法。所述信息载体为计算机或机器可读介质,例如存储器464、扩展存储器474或处理器452上的存储器。
设备450可通过通信接口466进行无线通信,通信接口466在需要的情况下可包括数字信号处理电路。通信接口466可支持在各种模式或协议下的通信,各种模式或协议例如GSM话音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。这样的通信可例如通过射频收发器468而发生。另外,短程通信可例如利用蓝牙、WiFi或其他这样的收发器(未示出)而发生。另外,GPS接收器模块470可将额外的无线数据提供给设备450,所述额外的无线数据可由设备450上运行的应用在适当的时候使用。
设备450还可以利用音频编解码器460可听地进行通信,音频编解码器460可从用户接收说出的信息并且将其转换成可利用的数字信息。音频编解码器460可同样地为用户生成可听声音,例如通过(例如设备450中听筒的)扬声器。这样的声音可包括来自话音电话呼叫的声音,可包括被记录的声音(例如,话音消息、音乐文件等)并且还可以包括由操作在设备450上的应用生成的声音。
计算设备450可以以多种不同的形式实现,如图中所示。例如,其可以被实现为蜂窝电话480。其也可被实现为智能电话482、个人数字助理或其他类似的移动设备的一部分。
尽管本说明书包含了许多具体实现方式的细节,但是这些不应当被解读为对被请求保护的范围的限制,而是应当被解读为可特定于具体实施例的特征的描述。在本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合地实现。相反,在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。另外,尽管特征可以在上面描述为以某些组合起作用并且即便起初也是这样请求保护的,但是来自请求保护的组合的一个或多个特征在一些情况下可以从该组合摘除,并且请求保护的组合可针对子组合或子组合的变型。
类似地,尽管在附图中以特定顺序描绘了操作,但是这不应理解为,为了实现合意的结果要求这样的操作以示出的特定顺序或以相继的顺序来执行,或者所有示意的操作都被执行。在某些情形下,多任务和并行处理会有利。此外,在上述实施例中各种系统模块和组件的分离不应当理解为在所有实施例中都要求这样的分离,并且应当要理解所描述的程序组件和系统一般而言可集成在一起成为单个软件产品或封装到多个软件产品中。
在其中本文讨论的系统收集关于用户的信息或可利用个人信息的情形中,可以给用户提供控制程序或特征是否收集用户信息(例如,发言人模型、用户的偏好或用户的当前位置)或控制是否和/或如何从内容服务器接收内容的机会。另外,某些数据可以在将其存储或使用之前以一个或多个方式进行处理,以使得移除个人可识别的信息。例如,可以处理用户的身份以使得不能够确定对于该用户的个人可识别的信息,或者用户的地理位置可以被笼统化获得位置信息的地方,例如,笼统化到市、邮编代码或州级,以使得不能够确定用户的具体位置。因此,用户可具有对如何收集关于该用户的信息或如何由内容服务器使用信息的控制。
已经描述了主题的特定实施例。其他实施例在随附的权利要求的范围内。例如,在权利要求中记载的动作可以以不同的顺序执行但是仍然实现合意的结果。作为一个示例,为了实现合意的结果,在附图中描绘的过程未必要求示出的特定顺序或相继的顺序。在一些情况下,多任务和并行处理会有利。例如,执行相似性分数计算的模块(例如,发言人验证模块的一部分)可以以硬件实现,例如直接在数字信号处理(DSP)单元上实现。
Claims (16)
1.一种计算机实现的方法,包括:
由被配置为当在锁定状态中时、在接收到特定预定义短语后响应话音命令的第一计算设备获得指示所述第一计算设备被许可将发言人验证数据提供给其他计算设备的设置的值;
由所述第一计算设备接收与前面是所述特定预定义短语的话音命令的话语对应的音频数据,所述音频数据在所述第一计算设备处于锁定状态并且与也被配置为响应前面是所述特定预定义短语的话音命令的第二计算设备协同定位时被接收;
当所述第一计算设备处于锁定状态中并且基于获得的指示所述第一计算设备被许可与其他计算设备共享发言人验证数据的设置的值时,由所述第一计算设备将消息传输到第二计算设备,所述第二计算设备(i)与所述第一计算设备协同定位并且(ii)被配置为响应前面是所述特定预定义短语的话音命令,所述消息包括针对所述第一计算设备的用户的发言人验证模型或表示所述第一计算设备的用户说出了所述话语的可能性的发言人验证分数;以及
不管接收到与前面是所述特定预定义短语的话音命令的话语对应的音频数据,由所述第一计算设备确定保持在锁定状态中而不响应所述话音命令。
2.根据权利要求1所述的方法,其中,将所述消息传输到所述第二计算设备是响应于接收到与所述话语对应的音频数据的。
3.根据权利要求1所述的方法,其中,将所述消息传输到所述第二计算设备包括:由所述第一计算设备利用短程通信协议将所述消息传输到所述第二计算设备。
4.根据权利要求1所述的方法,包括:
由所述第一计算设备确定所述第二计算设备与所述第一计算设备协同定位,其中,将所述消息传输到所述第二计算设备是响应于确定所述第二计算设备与所述第一计算设备协同定位的。
5.根据权利要求1所述的方法,包括:
由所述第一计算设备从所述第二计算设备接收表示所述第二计算设备的用户的数据,其中,确定保持在锁定状态中而不响应所述话音命令包括:由所述第一计算设备利用表示所述第二计算设备的用户的数据,来确定保持在锁定状态中而不响应所述话音命令,而不管接收到与前面是所述特定预定义短语的话音命令的话语对应的音频数据。
6.根据权利要求5所述的方法,其中,接收表示所述第二计算设备的用户的数据包括:由所述第一计算设备并且从所述第二计算设备接收针对所述第二计算设备的用户的发言人验证模型。
7.根据权利要求5所述的方法,其中,接收表示所述第二计算设备的用户的数据包括:由所述第一计算设备并且从所述第二计算设备接收表示所述第二计算设备的用户说出了所述话语的可能性的发言人验证分数。
8.根据权利要求1所述的方法,包括:
由所述第一计算设备利用针对所述第一计算设备的用户的发言人验证模型生成表示所述第一计算设备的用户说出了所述话语的可能性的发言人验证分数,其中,确定保持在锁定状态中而不响应所述话音命令包括:由所述第一计算设备利用表示所述第一计算设备的用户说出了所述话语的可能性的所述发言人验证分数,来确定保持在锁定状态中而不响应所述话音命令,而不管接收到与前面是所述特定预定义短语的话音命令的话语对应的音频数据。
9.根据权利要求1所述的方法,包括:
由所述第一计算设备确定每一个都存储在所述第一计算设备上并且针对不是所述第一计算设备的用户的人的一个或多个发言人模型,其中,确定保持在锁定状态中而不响应所述话音命令包括:由所述第一计算设备利用每一个都存储在所述第一计算设备上并且针对不是所述第一计算设备的用户的人的一个或多个发言人模型,来确定保持在锁定状态中而不响应所述话音命令,而不管接收到与前面是所述特定预定义短语的话音命令的话语对应的音频数据。
10.根据权利要求9所述的方法,包括:
由所述第一计算设备获得识别用于每一个都存储在所述第一计算设备上并且针对不是所述第一计算设备的用户的人的一个或多个发言人模型的数据的用户输入。
11.根据权利要求9所述的方法,包括:
由所述第一计算设备针对第三计算设备确定所述第三计算设备位于所述第一计算设备的物理位置附近的物理区域中的频率;
由所述第一计算设备确定所述频率是否满足门限频率;以及
由所述第一计算设备响应于确定所述频率满足所述门限频率,而将特定于所述第三计算设备的特定用户的特定发言人模型与所述第一计算设备关联。
12.一种发言人验证系统,包括:
被配置为当在锁定状态中时、在接收到特定预定义短语后响应话音命令的第一计算设备以及存储指令的一个或多个存储设备,所述指令在被所述第一计算设备执行时,可操作以使得所述第一计算设备执行操作,所述操作包括:
获得指示所述第一计算设备被许可将发言人验证数据提供给其他计算设备的设置的值;
接收与前面是所述特定预定义短语的话音命令的话语对应的音频数据,所述音频数据在所述第一计算设备处于锁定状态并且与也被配置为响应前面是所述特定预定义短语的话音命令的第二计算设备协同定位时被接收;
当所述第一计算设备处于锁定状态中并且基于获得的指示所述第一计算设备被许可与其他计算设备共享发言人验证数据的设置的值时,将消息传输到第二计算设备,所述第二计算设备(i)与所述第一计算设备协同定位并且(ii)被配置为响应前面是所述特定预定义短语的话音命令,所述消息包括针对所述第一计算设备的用户的发言人验证模型或表示所述第一计算设备的用户说出了所述话语的可能性的发言人验证分数;以及
不管接收到与前面是所述特定预定义短语的话音命令的话语对应的音频数据,确定保持在锁定状态中而不响应所述话音命令。
13.根据权利要求12所述的系统,其中,将所述消息传输到所述第二计算设备是响应于接收到与所述话语对应的音频数据的。
14.根据权利要求12所述的系统,其中,将所述消息传输到所述第二计算设备包括:由所述第一计算设备利用短程通信协议将所述消息传输到所述第二计算设备。
15.根据权利要求12所述的系统,包括:
由所述第一计算设备确定所述第二计算设备与所述第一计算设备协同定位,其中,将所述消息传输到所述第二计算设备是响应于确定所述第二计算设备与所述第一计算设备协同定位的。
16.一种存储软件的非暂态计算机可读介质,所述软件包括可被一个或多个计算机执行的指令,所述指令在这样执行后使得所述一个或多个计算机执行操作,所述操作包括:
由被配置为当在锁定状态中时、在接收到特定预定义短语后响应话音命令的第一计算设备获得指示所述第一计算设备被许可将发言人验证数据提供给其他计算设备的设置的值;
由所述第一计算设备接收与前面是所述特定预定义短语的话音命令的话语对应的音频数据,所述音频数据在所述第一计算设备处于锁定状态并且与也被配置为响应前面是所述特定预定义短语的话音命令的第二计算设备协同定位时被接收;
当所述第一计算设备处于锁定状态中并且基于获得的指示所述第一计算设备被许可与其他计算设备共享发言人验证数据的设置的值时,由所述第一计算设备将消息传输到第二计算设备,所述第二计算设备(i)与所述第一计算设备协同定位并且(ii)被配置为响应前面是所述特定预定义短语的话音命令,所述消息包括针对所述第一计算设备的用户的发言人验证模型或表示所述第一计算设备的用户说出了所述话语的可能性的发言人验证分数;以及
不管接收到与前面是所述特定预定义短语的话音命令的话语对应的音频数据,由所述第一计算设备确定保持在锁定状态中而不响应所述话音命令。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811329425.1A CN109376521B (zh) | 2014-07-18 | 2015-05-13 | 用于发言人验证的方法和系统 |
CN201811329448.2A CN109598112B (zh) | 2014-07-18 | 2015-05-13 | 发言人验证系统、方法和计算机可读介质 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/335,380 | 2014-07-18 | ||
US14/335,380 US9257120B1 (en) | 2014-07-18 | 2014-07-18 | Speaker verification using co-location information |
PCT/US2015/030569 WO2016010616A1 (en) | 2014-07-18 | 2015-05-13 | Speaker verification using co-location information |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811329448.2A Division CN109598112B (zh) | 2014-07-18 | 2015-05-13 | 发言人验证系统、方法和计算机可读介质 |
CN201811329425.1A Division CN109376521B (zh) | 2014-07-18 | 2015-05-13 | 用于发言人验证的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106164921A CN106164921A (zh) | 2016-11-23 |
CN106164921B true CN106164921B (zh) | 2018-12-07 |
Family
ID=53268901
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811329425.1A Active CN109376521B (zh) | 2014-07-18 | 2015-05-13 | 用于发言人验证的方法和系统 |
CN201580018671.3A Active CN106164921B (zh) | 2014-07-18 | 2015-05-13 | 发言人验证系统、方法和计算机可读介质 |
CN201811329448.2A Active CN109598112B (zh) | 2014-07-18 | 2015-05-13 | 发言人验证系统、方法和计算机可读介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811329425.1A Active CN109376521B (zh) | 2014-07-18 | 2015-05-13 | 用于发言人验证的方法和系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811329448.2A Active CN109598112B (zh) | 2014-07-18 | 2015-05-13 | 发言人验证系统、方法和计算机可读介质 |
Country Status (6)
Country | Link |
---|---|
US (6) | US9257120B1 (zh) |
EP (2) | EP4047497A3 (zh) |
JP (4) | JP6509903B2 (zh) |
KR (2) | KR101804388B1 (zh) |
CN (3) | CN109376521B (zh) |
WO (1) | WO2016010616A1 (zh) |
Families Citing this family (179)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR102103057B1 (ko) | 2013-02-07 | 2020-04-21 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10541997B2 (en) * | 2016-12-30 | 2020-01-21 | Google Llc | Authentication of packetized audio signals |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11676608B2 (en) * | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) * | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US11275757B2 (en) | 2015-02-13 | 2022-03-15 | Cerner Innovation, Inc. | Systems and methods for capturing data, creating billable information and outputting billable information |
US9734682B2 (en) | 2015-03-02 | 2017-08-15 | Enovate Medical, Llc | Asset management using an asset tag device |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US20160299213A1 (en) * | 2015-04-10 | 2016-10-13 | Enovate Medical, Llc | Asset tags |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US9571995B1 (en) * | 2015-10-07 | 2017-02-14 | Verizon Patent And Licensing Inc. | Call transfer initiation via near field communication (NFC) |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US9860355B2 (en) * | 2015-11-23 | 2018-01-02 | International Business Machines Corporation | Call context metadata |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2017138476A (ja) * | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) * | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9741360B1 (en) | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
GB2557375A (en) * | 2016-12-02 | 2018-06-20 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10559309B2 (en) * | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10916243B2 (en) * | 2016-12-27 | 2021-02-09 | Amazon Technologies, Inc. | Messaging from a shared device |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
KR102321396B1 (ko) | 2017-04-20 | 2021-11-03 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
JP6846753B2 (ja) * | 2017-06-28 | 2021-03-24 | 株式会社オプティム | コンピュータシステム、Web会議音声補助方法及びプログラム |
WO2019005233A1 (en) | 2017-06-30 | 2019-01-03 | Google Llc | METHODS, SYSTEMS, AND MEDIA FOR CONNECTING AN IOT DEVICE TO A CALL |
US11264019B2 (en) | 2017-06-30 | 2022-03-01 | Google Llc | Methods, systems, and media for voice-based call operations |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10749855B2 (en) * | 2017-10-30 | 2020-08-18 | Vmware, Inc. | Securely managing digital assistants that access third-party applications |
US10515640B2 (en) * | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10992684B2 (en) * | 2017-12-08 | 2021-04-27 | Google Llc | Distributed identification in networked system |
CN107993665B (zh) * | 2017-12-14 | 2021-04-30 | 科大讯飞股份有限公司 | 多人会话场景中发言人角色确定方法、智能会议方法及系统 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
KR102513297B1 (ko) * | 2018-02-09 | 2023-03-24 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10877637B1 (en) | 2018-03-14 | 2020-12-29 | Amazon Technologies, Inc. | Voice-based device operation mode management |
US11127405B1 (en) * | 2018-03-14 | 2021-09-21 | Amazon Technologies, Inc. | Selective requests for authentication for voice-based launching of applications |
US10885910B1 (en) | 2018-03-14 | 2021-01-05 | Amazon Technologies, Inc. | Voice-forward graphical user interface mode management |
US11240057B2 (en) * | 2018-03-15 | 2022-02-01 | Lenovo (Singapore) Pte. Ltd. | Alternative output response based on context |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
WO2020003413A1 (ja) * | 2018-06-27 | 2020-01-02 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
KR102563817B1 (ko) | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR102621897B1 (ko) * | 2018-10-10 | 2024-01-08 | 주식회사 케이티 | 화자 인식 장치 및 그 동작방법 |
KR102623246B1 (ko) * | 2018-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체. |
WO2020085769A1 (en) * | 2018-10-24 | 2020-04-30 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus in environment including plurality of apparatuses |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
WO2020111880A1 (en) | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | User authentication method and apparatus |
US11875883B1 (en) | 2018-12-21 | 2024-01-16 | Cerner Innovation, Inc. | De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources |
US11869509B1 (en) | 2018-12-21 | 2024-01-09 | Cerner Innovation, Inc. | Document generation from conversational sources |
US11062704B1 (en) | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
US11798560B1 (en) | 2018-12-21 | 2023-10-24 | Cerner Innovation, Inc. | Rapid event and trauma documentation using voice capture |
US11410650B1 (en) | 2018-12-26 | 2022-08-09 | Cerner Innovation, Inc. | Semantically augmented clinical speech processing |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
KR102098237B1 (ko) * | 2019-06-26 | 2020-04-07 | 네이버 주식회사 | 화자 검증 방법 및 음성인식 시스템 |
US20220415330A1 (en) * | 2019-07-17 | 2022-12-29 | Hosiden Corporation | Microphone unit |
CN110600041B (zh) * | 2019-07-29 | 2022-04-29 | 华为技术有限公司 | 一种声纹识别的方法及设备 |
US11721330B1 (en) * | 2019-09-04 | 2023-08-08 | Amazon Technologies, Inc. | Natural language input processing |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11145315B2 (en) * | 2019-10-16 | 2021-10-12 | Motorola Mobility Llc | Electronic device with trigger phrase bypass and corresponding systems and methods |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11798546B2 (en) * | 2020-08-14 | 2023-10-24 | Google Llc | Transient personalization mode for guest users of an automated assistant |
JPWO2022149384A1 (zh) * | 2021-01-05 | 2022-07-14 | ||
KR20220137437A (ko) * | 2021-04-02 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1722230A (zh) * | 2004-07-12 | 2006-01-18 | 惠普开发有限公司 | 语音识别任务的分配及其结果综合 |
CN102859967A (zh) * | 2010-03-01 | 2013-01-02 | 诺基亚公司 | 用于基于用户交互数据来估计用户特征的方法和设备 |
Family Cites Families (152)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4363102A (en) | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS59180599A (ja) | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | 車載用音声認識制御装置 |
JPS59180599U (ja) | 1983-05-19 | 1984-12-03 | 株式会社村田製作所 | 圧電発音装置 |
JPH0231896A (ja) | 1988-07-21 | 1990-02-01 | Osaka Gas Co Ltd | 廃水の処理装置 |
JPH0552976A (ja) | 1991-08-22 | 1993-03-02 | Canon Inc | 電子装置 |
US6081782A (en) * | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
US5659665A (en) | 1994-12-08 | 1997-08-19 | Lucent Technologies Inc. | Method and apparatus for including speech recognition capabilities in a computer system |
JP3522421B2 (ja) * | 1995-10-31 | 2004-04-26 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5895448A (en) | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US6023676A (en) | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
SE511418C2 (sv) | 1997-03-13 | 1999-09-27 | Telia Ab | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
US8209184B1 (en) * | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6076055A (en) | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JPH1152976A (ja) | 1997-07-29 | 1999-02-26 | Nec Home Electron Ltd | 音声認識装置 |
JP3524370B2 (ja) | 1998-02-19 | 2004-05-10 | 富士通テン株式会社 | 音声起動システム |
JP2000075954A (ja) * | 1998-09-02 | 2000-03-14 | Sony Corp | 電子機器制御装置 |
US6141644A (en) | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP2000122678A (ja) * | 1998-10-14 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識機器制御装置 |
US6744860B1 (en) | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6671672B1 (en) | 1999-03-30 | 2003-12-30 | Nuance Communications | Voice authentication system having cognitive recall mechanism for password verification |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
JP3357629B2 (ja) | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10015960C2 (de) | 2000-03-30 | 2003-01-16 | Micronas Munich Gmbh | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
US6567775B1 (en) | 2000-04-26 | 2003-05-20 | International Business Machines Corporation | Fusion of audio and video based speaker identification for multimedia information access |
US6826159B1 (en) | 2000-05-24 | 2004-11-30 | Cisco Technology, Inc. | System and method for providing speaker identification in a conference call |
EP1168736A1 (en) | 2000-06-30 | 2002-01-02 | Alcatel | Telecommunication system and method with a speech recognizer |
US7016833B2 (en) | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US6973426B1 (en) | 2000-12-29 | 2005-12-06 | Cisco Technology, Inc. | Method and apparatus for performing speaker verification based on speaker independent recognition of commands |
JP2002279245A (ja) * | 2001-03-19 | 2002-09-27 | Ntt Docomo Inc | サービスセンタ及び発注受付方法 |
US20020194003A1 (en) * | 2001-06-05 | 2002-12-19 | Mozer Todd F. | Client-server security system and method |
US6701293B2 (en) | 2001-06-13 | 2004-03-02 | Intel Corporation | Combining N-best lists from multiple speech recognizers |
US7233933B2 (en) * | 2001-06-28 | 2007-06-19 | Microsoft Corporation | Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability |
US20030171930A1 (en) * | 2002-03-07 | 2003-09-11 | Junqua Jean-Claude | Computer telephony system to access secure resources |
JP4224250B2 (ja) | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003345391A (ja) | 2002-05-23 | 2003-12-03 | Denso Corp | 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム |
US20030231746A1 (en) | 2002-06-14 | 2003-12-18 | Hunter Karla Rae | Teleconference speaker identification |
US7224981B2 (en) | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
JP2004086356A (ja) * | 2002-08-23 | 2004-03-18 | Fujitsu Ten Ltd | 認証方法および認証装置 |
TW200409525A (en) | 2002-11-26 | 2004-06-01 | Lite On Technology Corp | Voice identification method for cellular phone and cellular phone with voiceprint password |
US7457745B2 (en) | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
EP1429314A1 (en) | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
US7533023B2 (en) | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7222072B2 (en) | 2003-02-13 | 2007-05-22 | Sbc Properties, L.P. | Bio-phonetic multi-phrase speaker identity verification |
US7571014B1 (en) | 2004-04-01 | 2009-08-04 | Sonos, Inc. | Method and apparatus for controlling multimedia players in a multi-zone system |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US20070198262A1 (en) | 2003-08-20 | 2007-08-23 | Mindlin Bernardo G | Topological voiceprints for speaker identification |
EP1511277A1 (en) | 2003-08-29 | 2005-03-02 | Swisscom AG | Method for answering an incoming event with a phone device, and adapted phone device |
US7305078B2 (en) | 2003-12-18 | 2007-12-04 | Electronic Data Systems Corporation | Speaker identification during telephone conferencing |
US20050165607A1 (en) | 2004-01-22 | 2005-07-28 | At&T Corp. | System and method to disambiguate and clarify user intention in a spoken dialog system |
US8214447B2 (en) | 2004-06-08 | 2012-07-03 | Bose Corporation | Managing an audio network |
US7720012B1 (en) | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US8412521B2 (en) | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US8521529B2 (en) | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
JP4710331B2 (ja) * | 2005-01-27 | 2011-06-29 | ソニー株式会社 | プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体 |
KR100679043B1 (ko) | 2005-02-15 | 2007-02-05 | 삼성전자주식회사 | 음성 대화 인터페이스 장치 및 방법 |
US8725514B2 (en) * | 2005-02-22 | 2014-05-13 | Nuance Communications, Inc. | Verifying a user using speaker verification and a multimodal web-based interface |
US8041570B2 (en) | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US7603275B2 (en) | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
JP4657097B2 (ja) * | 2005-12-21 | 2011-03-23 | 京セラミタ株式会社 | 電子機器及び音声操作プログラム |
JP2006227634A (ja) * | 2006-03-29 | 2006-08-31 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
US8595007B2 (en) | 2006-06-15 | 2013-11-26 | NITV Federal Services, LLC | Voice print recognition software system for voice identification and matching |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
CN1996847B (zh) | 2006-12-27 | 2010-05-19 | 中国科学院上海技术物理研究所 | 基于协作网格的图像及多媒体数据通信与存储系统 |
US8099288B2 (en) | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
US20110060587A1 (en) | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8503686B2 (en) | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US8385233B2 (en) | 2007-06-12 | 2013-02-26 | Microsoft Corporation | Active speaker identification |
GB2450886B (en) | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
US8495727B2 (en) * | 2007-08-07 | 2013-07-23 | Microsoft Corporation | Spam reduction in real time communications by human interaction proof |
JP2009104020A (ja) * | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
CN101140646A (zh) * | 2007-11-05 | 2008-03-12 | 陆航程 | 基于epc、ebc物联网的“数据大跟踪”税控系统及其税控终端 |
US8140335B2 (en) * | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8423362B2 (en) * | 2007-12-21 | 2013-04-16 | General Motors Llc | In-vehicle circumstantial speech recognition |
US8447838B2 (en) * | 2008-01-31 | 2013-05-21 | Bizmobile Inc. | System and method for providing mobile service |
GB2458461A (en) | 2008-03-17 | 2009-09-23 | Kai Yu | Spoken language learning system |
US8504365B2 (en) | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US8145482B2 (en) | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
KR101056511B1 (ko) | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8676586B2 (en) | 2008-09-16 | 2014-03-18 | Nice Systems Ltd | Method and apparatus for interaction or discourse analytics |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
KR101519104B1 (ko) | 2008-10-30 | 2015-05-11 | 삼성전자 주식회사 | 목적음 검출 장치 및 방법 |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8209174B2 (en) | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
CN101923853B (zh) | 2009-06-12 | 2013-01-23 | 华为技术有限公司 | 说话人识别方法、设备和系统 |
WO2011064938A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8626511B2 (en) | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8543402B1 (en) | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
US8306814B2 (en) * | 2010-05-11 | 2012-11-06 | Nice-Systems Ltd. | Method for speaker source classification |
KR101672212B1 (ko) | 2010-06-15 | 2016-11-04 | 엘지전자 주식회사 | 휴대 단말기 및 그 동작 방법 |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US8719018B2 (en) | 2010-10-25 | 2014-05-06 | Lockheed Martin Corporation | Biometric speaker identification |
US8874773B2 (en) | 2010-11-30 | 2014-10-28 | Gary W. Grube | Obtaining group and individual emergency preparedness communication information |
CN102741918B (zh) | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
JP5636309B2 (ja) * | 2011-02-18 | 2014-12-03 | 株式会社東芝 | 音声対話装置および音声対話方法 |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9444816B2 (en) * | 2011-03-30 | 2016-09-13 | Qualcomm Incorporated | Continuous voice authentication for a mobile device |
SG194633A1 (en) * | 2011-04-27 | 2013-12-30 | Right Brain Interface N V | Method and apparatus for collaborative upload of content |
US9159324B2 (en) * | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US20130024196A1 (en) * | 2011-07-21 | 2013-01-24 | Nuance Communications, Inc. | Systems and methods for using a mobile device to deliver speech with speaker identification |
US8660847B2 (en) | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
CN102710732A (zh) * | 2011-11-06 | 2012-10-03 | 李宗诚 | 互联网全息协同系统信息融合基础 |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
EP2783365B1 (en) | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance |
US8825020B2 (en) | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
JP6221202B2 (ja) * | 2012-02-03 | 2017-11-01 | ヤマハ株式会社 | 通信システム |
US20130262873A1 (en) * | 2012-03-30 | 2013-10-03 | Cgi Federal Inc. | Method and system for authenticating remote users |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
JP6131537B2 (ja) | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
TWI474317B (zh) | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
WO2014029099A1 (en) * | 2012-08-24 | 2014-02-27 | Microsoft Corporation | I-vector based clustering training data in speech recognition |
US9058806B2 (en) * | 2012-09-10 | 2015-06-16 | Cisco Technology, Inc. | Speaker segmentation and recognition based on list of speakers |
US8983836B2 (en) | 2012-09-26 | 2015-03-17 | International Business Machines Corporation | Captioning using socially derived acoustic profiles |
US8904498B2 (en) * | 2012-10-17 | 2014-12-02 | Ca, Inc. | Biometric identification for mobile applications |
WO2014064324A1 (en) | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
US8996372B1 (en) | 2012-10-30 | 2015-03-31 | Amazon Technologies, Inc. | Using adaptation data with cloud-based speech recognition |
JP2014092777A (ja) * | 2012-11-06 | 2014-05-19 | Magic Hand:Kk | モバイル通信機器の音声による起動 |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US10134392B2 (en) * | 2013-01-10 | 2018-11-20 | Nec Corporation | Terminal, unlocking method, and program |
US9502038B2 (en) * | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
US9349386B2 (en) | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9257952B2 (en) | 2013-03-13 | 2016-02-09 | Kopin Corporation | Apparatuses and methods for multi-channel signal compression during desired voice activity detection |
EP2984599A4 (en) * | 2013-04-12 | 2016-11-30 | Sciometrics Llc | IDENTITY BASKET: TOOL TO DETERMINE IN REAL TIME AN IDENTITY IN THE MOBILE ENVIRONMENT |
US8768687B1 (en) | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
WO2015025330A1 (en) | 2013-08-21 | 2015-02-26 | Kale Aaditya Kishore | A system to enable user to interact with an electronic processing device using voice of the user |
US9865255B2 (en) | 2013-08-29 | 2018-01-09 | Panasonic Intellectual Property Corporation Of America | Speech recognition method and speech recognition apparatus |
US9343068B2 (en) | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US8775191B1 (en) | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
US9373321B2 (en) | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US8938394B1 (en) | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9812126B2 (en) | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
JP6754184B2 (ja) | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
-
2014
- 2014-07-18 US US14/335,380 patent/US9257120B1/en active Active
-
2015
- 2015-05-13 KR KR1020167027999A patent/KR101804388B1/ko active IP Right Grant
- 2015-05-13 CN CN201811329425.1A patent/CN109376521B/zh active Active
- 2015-05-13 EP EP22161101.5A patent/EP4047497A3/en active Pending
- 2015-05-13 EP EP15725176.0A patent/EP3129982B1/en active Active
- 2015-05-13 CN CN201580018671.3A patent/CN106164921B/zh active Active
- 2015-05-13 CN CN201811329448.2A patent/CN109598112B/zh active Active
- 2015-05-13 JP JP2016561322A patent/JP6509903B2/ja active Active
- 2015-05-13 KR KR1020167033161A patent/KR101890377B1/ko active IP Right Grant
- 2015-05-13 WO PCT/US2015/030569 patent/WO2016010616A1/en active Application Filing
- 2015-07-22 US US14/805,687 patent/US9412376B2/en active Active
-
2016
- 2016-07-05 US US15/201,972 patent/US9792914B2/en active Active
-
2017
- 2017-09-06 US US15/697,052 patent/US10147429B2/en active Active
-
2018
- 2018-10-26 US US16/172,221 patent/US10460735B2/en active Active
-
2019
- 2019-04-03 JP JP2019071251A patent/JP7007320B2/ja active Active
- 2019-09-17 US US16/573,581 patent/US10986498B2/en active Active
-
2021
- 2021-09-24 JP JP2021155665A patent/JP7384877B2/ja active Active
-
2023
- 2023-11-08 JP JP2023190911A patent/JP2023184691A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1722230A (zh) * | 2004-07-12 | 2006-01-18 | 惠普开发有限公司 | 语音识别任务的分配及其结果综合 |
CN102859967A (zh) * | 2010-03-01 | 2013-01-02 | 诺基亚公司 | 用于基于用户交互数据来估计用户特征的方法和设备 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106164921B (zh) | 发言人验证系统、方法和计算机可读介质 | |
JP6630765B2 (ja) | 個別化されたホットワード検出モデル | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
US11942095B2 (en) | Speaker verification using co-location information | |
US11676608B2 (en) | Speaker verification using co-location information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |