CN105556920B - 用于控制对应用程序的访问的方法和设备 - Google Patents
用于控制对应用程序的访问的方法和设备 Download PDFInfo
- Publication number
- CN105556920B CN105556920B CN201480050579.0A CN201480050579A CN105556920B CN 105556920 B CN105556920 B CN 105556920B CN 201480050579 A CN201480050579 A CN 201480050579A CN 105556920 B CN105556920 B CN 105556920B
- Authority
- CN
- China
- Prior art keywords
- user
- confidence
- value
- security level
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012795 verification Methods 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 description 31
- 230000004044 response Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000013507 mapping Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/105—Multiple levels of security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
根据本发明的一方面,揭示一种用于控制对电子装置中的多个应用程序的访问的方法。所述方法包含从说话者接收用于访问所述多个应用程序当中的目标应用程序的语音命令,以及基于被授权用户的说话者模型验证所述语音命令是否指示经授权访问所述应用程序的用户。在此方法中,每一应用程序与具有阈值的安全级别相关联。所述方法进一步包含在所述语音命令经验证为指示所述用户时通过所述语音命令更新所述说话者模型,且基于经更新的所述说话者模型调整所述阈值中的至少一者。
Description
相关申请的交叉引用
本申请主张来自2013年9月16日申请的美国非临时专利申请第14/028,139号的优先权,所述申请的内容以全文引用的方式明确地并入本文中。
技术领域
本发明涉及访问电子装置中的应用程序,且更具体来说,涉及响应于语音命令而控制对应用程序的访问。
背景技术
近年来,能够运行应用程序的电子装置已变得极受用户欢迎。举例来说,例如智能电话、平板计算机和个人计算机的电子装置可包含例如消息传递应用程序、联系人应用程序、日历应用程序、照片应用程序等的应用程序。另外,用户可经由因特网从应用程序提供商搜索及下载其它应用程序(例如,银行应用程序)。这些应用程序为用户提供对各种功能性和信息的便利访问。
由用户访问的应用程序通常包含用户可能不想要其他人访问的个人或私人信息。举例来说,消息传递应用程序(例如,电子邮件应用程序)中的电子邮件可包含个人或商业用途的信息。类似地,用户的银行应用程序可包含或允许访问用户的财务信息,例如帐户号码和帐户余额。
考虑到可通过应用程序访问的信息的机密性质,传统电子装置大体上提供用以限制访问此类应用程序的一个或多个安全特征。此类安全特征可需要用于访问应用程序的用户认证。举例来说,用户可需要输入个人代码且在程式码经验证后允许访问应用程序。
一些传统电子装置还配备有话音识别能力。在此类装置中,应用程序可响应于来自用户的口头命令而被访问。为防止未授权访问应用程序,这些装置可基于被授权用户的语音特性验证口头命令的真实性。然而,由于被授权用户的语音特性可随时间或由于用户的调节而变化,因此在此类装置中被授权用户的认证可能不可靠。
发明内容
本发明涉及通过更新说话者模型及调整与安全级别相关联的阈值来控制对具有不同安全级别的应用程序的访问。
根据本发明的一方面,揭示一种用于控制对电子装置中的多个应用程序的访问的方法。所述方法包含从说话者接收用于访问多个应用程序当中的目标应用程序的语音命令,以及基于被授权用户的说话者模型验证语音命令是否指示经授权访问应用程序的用户。在此方法中,每一应用程序与具有阈值的安全级别相关联。所述方法在语音命令经验证指示所述用户时通过语音命令更新说话者模型,且基于经更新的说话者模型调整阈值中的至少一者。本发明还描述与此方法相关的设备、装置、系统、装置组合以及计算机可读媒体。
根据本发明的另一方面,揭示一种用于控制对多个应用程序的访问的电子装置。所述电子装置包含:声音传感器,其经配置以从说话者接收用于访问多个应用程序当中的目标应用程序的语音命令;以及存储单元,其经配置以存储多个应用程序、多个安全级别、多个阈值以及经授权访问应用程序的用户的说话者模型。应用程序与多个安全级别当中的安全级别相关联,所述安全级别具有多个阈值当中的阈值。所述电子装置还包含:说话者验证单元,其经配置以基于被授权用户的说话者模型验证语音命令是否指示被授权用户;以及数据库更新单元,其经配置以在语音命令经验证指示所述用户时通过语音命令更新说话者模型,且基于经更新的说话者模型调整阈值中的至少一者。
附图说明
当结合附图理解时,通过参考以下详细描述将理解本发明的发明性方面的实施例。
图1说明根据本发明的一个实施例的移动装置,其中多个应用程序可响应于说话者的语音命令而基于多个安全级别来访问。
图2说明根据本发明的一个实施例的电子装置的框图,所述电子装置经配置以通过响应于说话者的语音命令而调整应用程序的安全级别的阈值来控制对多个应用程序的访问。
图3展示根据本发明的一个实施例的电子装置中的用于验证来自说话者的语音命令的应用程序访问数据库的框图。
图4说明根据本发明的一个实施例的基于说话者和未授权说话者的声音样本在电子装置中建立包含多个安全级别的初始阈值的说话者验证数据库的图。
图5说明根据本发明的一个实施例的电子装置中的经配置以在来自说话者的语音命令经验证时访问应用程序的语音激活单元的框图。
图6展示根据本发明的一个实施例的用于基于电子装置中的语音命令提供访问应用程序及调整应用程序的访问的方法的流程图。
图7为根据本发明的一个实施例的电子装置中的经配置以通过验证来自说话者的语音命令访问应用程序的说话者验证单元的框图。
图8说明根据本发明的一个实施例的电子装置中的经配置以更新说话者模型及基于经验证语音命令调整安全级别的阈值的数据库更新单元的框图。
图9说明根据本发明的一个实施例的电子装置中的可通过用于经验证语音命令的新声音样本更新的说话者验证数据库的图。
图10展示根据本发明的一个实施例的用于基于语音命令的置信度值更新说话者模型的方法的流程图。
图11说明根据本发明的一个实施例的电子装置的说话者验证数据库的图,其中新声音样本的安全级别的阈值响应于接收到新声音样本而经调整。
图12说明根据本发明的一个实施例的电子装置的说话者验证数据库的图,其中不同于新声音样本的安全级别的安全级别的阈值响应于接收到新声音样本而经调整。
图13说明根据本发明的一个实施例的电子装置的说话者验证数据库的图,其中安全级别的阈值响应于接收到新声音样本而经调整。
图14说明根据本发明的一个实施例的用于调整安全级别的阈值中的至少一者的方法的流程图。
图15为根据本发明的一些实施例的例示性移动装置的框图,其中用于控制对应用程序的访问的方法和设备可实施。
具体实施方式
现在将详细参考各种实施例,在附图中说明所述实施例的实例。在以下详细描述中,阐述许多特定细节以提供本发明的创造性的各方面的透彻理解。然而,可在无这些具体细节的情况下实践本发明的创造性的各方面对于所属领域的技术人员是将显而易见的。在其它情况下,未详细描述众所周知的方法、过程、系统和组件,以便不会不必要地混淆各种实施例的各方面。
图1说明根据本发明的一个实施例的移动装置120,其中多个应用程序122、124和126可响应于说话者110的语音命令而基于多个安全级别访问。移动装置120包含应用程序122、124和126,所述应用程序可相应地响应于来自说话者110的语音命令“银行”、“照片”和“联系人”而被访问。虽然移动装置120经图示具有应用程序122、124和126,但是其可包含用于执行一或多个功能的任何其它应用程序。如本文所使用,术语“访问”在访问应用程序的上下文中是指进行、执行、运行、激化或操作应用程序或应用程序中的功能。此外,术语“语音命令”是指从指示将在所述移动装置120中执行的操作的说话者说出的一或多个词语的任何数字或模拟表示,且包含指令、请求、命令、关键字及类似者。
移动装置120中的应用程序122、124和126中的每一者经配置有用于访问相关联的应用程序的安全级别。应用程序122、124和126的安全级别中的每一者经映射至指示用于访问相关联的应用程序122、124或126的最小置信度值的阈值。移动装置120可在来自说话者110的语音命令经识别且经验证来自被授权用户时基于与应用程序相关联的阈值访问应用程序。根据本发明的一些实施例,如果应用程序需要高级别的安全性,那么经映射至高阈值的高安全级别可经指派。
在图示的实施例中,移动装置120经配置以响应于来自说话者110的相关联的语音命令而允许说话者110作为被授权用户访问应用程序122、124和126。如图所示,说话者110可说出语音命令作为用于访问移动装置120中的应用程序122、124或126的输入声音。当移动装置120识别输入声音中的语音命令为用以访问应用程序122、124和126中的一者的命令时,其确定指示语音命令为被授权用户的语音命令的可能性的语音命令的置信度值。如果语音命令的置信度值超过与应用程序122、124或126相关联的阈值,那么移动装置120访问与语音命令相关联的应用程序122、124或126。
在图1中,移动装置120响应于来自说话者110的语音命令而访问具有不同安全级别的应用程序122、124和126。举例来说,移动装置120可从说话者110接收语音命令“银行”作为输入声音。移动装置120可识别语音命令为用以访问银行应用程序122的命令,所述银行应用程序具有指示最高安全级别的安全级别“1”。在此情况下,如果语音命令的置信度值经确定高于与安全级别“1”相关联的阈值,那么移动装置120验证语音命令来自被授权用户且访问说话者110的银行应用程序122。
在另一实例中,当移动装置120接收语音命令“照片”作为输入声音时,移动装置120可识别语音命令为用于访问照片应用程序124的命令,所述照片应用程序具有指示中等安全级别的安全级别“3”。在此情况下,如果语音命令的置信度值经确定高于与安全级别“3”相关联的阈值,那么移动装置120验证语音命令来自被授权用户且访问照片应用程序124。
另外,如果所接收到的输入声音包含语音命令“联系人”,那么移动装置120可识别语音命令为用以访问联系人应用程序126的命令,所述联系人应用程序与安全级别5相关联。举例来说,安全级别“5”可指示最低安全级别。在此情况下,如果语音命令的置信度值经确定高于与安全级别“5”相关联的阈值,那么移动装置120验证语音命令来自被授权用户且访问联系人应用程序126。
图2说明根据本发明的一个实施例的电子装置200的框图,所述电子装置经配置以通过响应于说话者的语音命令而调整应用程序的安全级别的阈值来控制对多个应用程序的访问。电子装置200包含声音传感器210、I/O单元220、通信单元230、处理器240和存储单元270。电子装置200可为配备有声音捕捉和处理能力的任何合适装置,例如移动装置,所述移动装置可包含蜂窝式电话、智能手机、膝上型计算机、个人计算机、平板计算机、游戏装置和多媒体装置、智能电视、个人计算机等。
处理器240包含数字信号处理器(DSP)250和数据库更新单元260,且可为用于管理及操作电子装置200的应用程序处理器(AP)或中央处理单元(CPU)。DSP 250包含话音检测器252和语音激活单元254。在一实施例中,DSP 250为用于降低处理输入声音流的功率消耗的低功率处理器。在此配置中,DSP 250中的语音激活单元254经配置以在输入声音流中的语音命令经识别及验证时访问储存于中存储单元270中的应用程序,例如银行应用程序272、照片应用程序274和联系人应用程序276。
声音传感器210可经配置以接收输入声音流并将其提供至DSP 250中的话音检测器252。声音传感器210可包含可用于接收、捕捉、感应和/或检测输入声音流的一或多个麦克风或任何其它类型的声音传感器。另外,声音传感器210可采用任何合适软件和/或硬件用于执行此类功能。
在一个实施例中,声音传感器210可经配置以接收根据工作循环周期性地输入声音流。在此情况下,声音传感器210可确定所接收到输入声音流的部分的强度是否大于阈值强度。当所接收到的部分的强度超过阈值强度时,声音传感器210激活话音检测器252且将所接收到的部分提供至DSP 250中的话音检测器252。替代地,在不确定所接收到的部分的强度是否超过阈值强度的情况下,声音传感器210可周期性地接收输入声音流的一部分且激活话音检测器252以将所接收到的部分提供至话音检测器252。如本文所使用,术语“声音流”是指一或多个声音信号或声音数据的序列。
DSP 250中的话音检测器252经配置以从声音传感器210接收输入声音流的所述部分。在一个实施例中,话音检测器252可从所接收到的部分提取多个声音特征,且通过使用任何合适声音分类方法(基于例如高斯混合模型(GMM)的分类器、神经网络、隐式马尔可夫模型(HMM)、图解模型和支持向量机(SVM))确定所提取的声音特征是否指相关声音(例如人类话音)。如果所接收到的部分经确定为相关声音,那么话音检测器252激活语音激活单元254且所接收到的输入声音流的部分和其余部分经提供至语音激活单元254。在一些其他实施例中,可省去DSP 250中的话音检测器252。在此情况下,当所接收到的输入声音流的强度大于阈值强度时,声音传感器210激活语音激活单元254且将所接收到的输入声音流直接提供至语音激活单元254。
对于用于识别用于访问应用程序的语音命令,存储单元270存储用于应用程序中的每一者的语音命令(例如,目标关键字)以及关于与语音命令的多个部分相关联的多个状态的状态信息。在一个实施例中,存储单元270可存储用于识别语音命令的话音或声学模型。话音或声学模型为表示语音命令的话音特性的模型且可为此类话音特性的统计模型。
对于话音或声学模型,语音命令可分为多个基础声音单元,例如音子、音素或其子单元。在此情况下,表示语音命令的多个部分可基于基础声音单元产生。语音命令的基础声音单元中的每一者可使用任何合适话音识别方法(隐式马尔可夫模型(HMM)、高斯混合模型(GMM)、半马尔可夫模型(SMM)或类似者)分析。基于分析,基础声音单元中的每一者的均值和方差可确定。所确定的语音命令的基础声音单元的均值和方差用于产生用于语音命令的话音或声学模型。
存储单元270还存储可由处理器240访问的银行应用程序272、照片应用程序274和联系人应用程序276。虽然在图示的实施例中存储单元270存储银行应用程序272、照片应用程序274和联系人应用程序276,其还可存储可通过处理器240执行的任何其它应用程序或功能。存储单元270可使用例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)的任何合适存储装置或存储器装置实施。
另外,存储单元270可存储通过语音激活单元254和数据库更新单元260访问的应用程序访问数据库278。应用程序访问数据库278包含将语音命令与应用程序和与应用程序相关联的安全级别相关联的信息。此外,应用程序访问数据库278还可包含用于验证被授权用户(例如说话者验证数据库和说话者模型)的信息。
DSP 250中的语音激活单元254经配置以接收从话音检测器252中所接收到的部分开始的输入声音流。用于访问应用程序的语音命令可随后从语音激活单元254中的输入声音流被识别。对于识别语音命令,一或多个声音特征(例如,音频手指指纹、MFCC向量)可从所接收到的输入声音流提取且使用基于隐式马尔可夫模型(HMM)、半马尔可夫模型(SMM)或类似者的任何合适话音识别方法分析。
一旦语音命令被识别,语音激活单元254即可基于存储单元270中的应用程序访问数据库278识别待访问的与语音命令相关联的应用程序、与应用程序相关联的安全级别和与安全级别相关联的阈值。举例来说,当语音命令“银行”被识别时,语音激活单元254可基于应用程序访问数据库278识别银行应用程序272、相关联的安全级别(例如,安全级别“1”)和安全级别的阈值(例如,阈值“9”)。
语音激活单元254还经配置以基于所提取的声音特征和应用程序访问数据库278中的说话者模型确定语音命令的置信度值。说话者模型为表示说话者的声音特性的模型且可为此类声音特性的统计模型。语音命令的置信度值随后被与与待访问的应用程序相关联的阈值比较。如果置信度值超过阈值,那么语音命令经验证来自被授权用户。在此情况下,语音激活单元254产生激活信号以访问与语音命令相关联的应用程序。当语音命令已被验证时,语音激活单元254将所访问的应用程序的安全级别、语音命令的置信度值和语音命令的声音特征发射至数据库更新单元260。在一个实施例中,除语音命令的声音特征以外或代替语音命令的声音特征,语音命令的输入声音流可发射至数据库更新单元260。
在接收到所访问的应用程序的安全级别、语音命令的置信度值和语音命令的声音特征后,数据库更新单元260即刻更新存储单元270中的说话者模型。举例来说,语音命令的声音特征作为新声音样本被添加至现有声音样本。就统计说话者模型来说,说话者模型的声音样本的新均值和新方差可基于新声音样本和现有声音样本的先前均值和方差确定。数据库更新单元260随后使用经更新的说话者模型调整安全级别的阈值中的至少一者。电子装置200可随后使用经更新的说话者模型和经调整的阈值来验证用于访问应用程序272、274和276的后续语音命令。
图3展示根据本发明的一个实施例的用于验证来自说话者的语音命令的应用程序访问数据库278的框图。应用程序访问数据库278包含应用程序安全数据库310、说话者验证数据库320和说话者模型330。应用程序安全数据库310包含多个命令312、多个应用程序标识符314和多个安全级别316。说话者验证数据库320包含多个安全级别316、多个阈值322和多个声音样本324。
应用程序安全数据库310将命令312映射至指示待访问的应用程序的应用程序标识符314。应用程序标识符314与用于确定待访问的应用程序的安全级别的安全级别316相关联。在一个实施例中,命令312、应用程序标识符314和安全级别316可以查询表形式或用于响应于命令312而确定应用程序标识符314和安全级别316的任何合适数据结构来存储。使用应用程序安全数据库310,语音激活单元254在语音命令经识别为命令312中的一者时确定待访问的应用程序的安全级别。
在说话者验证数据库320中,安全级别316经映射至用于访问与安全级别316相关联的应用程序的阈值322,所述阈值指示所识别的语音命令的置信度值需要超过的最小值。在一个实施例中,安全级别经映射至指示安全级别的最小置信度值的阈值。说话者的声音样本324根据安全级别316的阈值322经指配至说话者验证数据库320中的安全级别316。包含安全级别316、阈值322和声音样本324的说话者验证数据库320可以查询表形式或任何合适数据结构来存储。
应用程序访问数据库278中的说话者模型330用于计算语音命令的置信度值以用于验证说话者的语音命令。说话者模型330可为包含统计数据(例如声音样本324的均值332和方差334)的GMM模型。在其他实施例中,说话者模型330还可包含声音样本324的最大值、最小值、噪声功率、SNR、信号功率、熵、峰度、高阶动量等。语音激活单元254比较语音命令的置信度值与待访问的应用程序的安全级别的阈值。如果语音命令的置信度值超过应用程序的阈值,那么语音激活单元254验证语音命令来自被授权用户,且产生用于访问应用程序的激活信号。
图4说明根据本发明的一个实施例的基于被授权用户和未被授权用户的声音样本建立包含多个安全级别的初始阈值的说话者验证数据库320的图。如图所示,说话者验证数据库320包含五个安全级别“1”至“5”,其中安全级别“1”为最高安全级别。移动装置120中的每一应用程序可经指配有用于访问的安全级别中的一者。虽然说话者验证数据库320经图示有五个安全级别,但是其可包含任何合适数目的安全级别。
对于建立说话者验证数据库320,电子装置200从作为被授权用户的说话者接收及存储多个声音样本S1至S10且从未被授权用户(即,冒名顶替者)接收及存储多个声音样本U1至U10。如上文所论述,被授权用户的声音样本S1至S10用于使用所述声音样本的统计数据(例如,均值和方差)产生说话者模型。声音样本S1至S10和声音样本U1至U10的置信度值随后基于说话者模型确定。在此情况下,被授权用户的声音样本的置信度值将通常实质上高于未被授权用户的声音样本的置信度值。
在声音样本S1至S10和U1至U10的置信度值已经确定之后,选择置信度值当中的最高阈值和最低阈值。电子装置200可确定最高阈值为被授权用户的声音样本S1至S10的置信度值当中的最小值。最高阈值随后经映射至最高安全级别“1”。另一方面,电子装置200可确定最低阈值为未被授权用户的声音样本U1至U10的置信度值当中的最大值。在此情况下,最低阈值经映射至最低安全级别“5”。
最高与最低阈值(其分别对应于最高安全级别“1”和最低安全级别“5”)之间的区间可随后被划分或分配以确定安全级别“1”和“5”之间的中等安全级别“2”、“3”和“4”的阈值。在一个实施例中,电子装置200通过同样划分最高阈值与最低阈值之间的差来确定安全级别“2”、“3”和“4”的阈值。在此情况下,差可除以4(即,中等安全级别加1)以计算阈值增量。一或多个阈值增量可随后添加至最低阈值以确定中等安全级别“2”、“3”和“4”的阈值。替代地,可从最高阈值减去一或多个阈值增量以确定中等安全级别“2”、“3”和“4”的阈值。以此方式,安全级别中的每一者可由其相关联的指示安全级别的最小置信度值的阈值递增地定义。
图5说明根据本发明的一个实施例的经配置以在来自说话者的语音命令经验证时访问应用程序的语音激活单元254的框图。语音激活单元254包含命令检测单元510、安全级别确定单元520和说话者验证单元530。命令检测单元510识别语音命令以利用输入声音访问应用程序且安全级别确定单元520确定应用程序的安全级别。如果语音命令经验证来自被授权用户,那么说话者验证单元530随后访问应用程序。
在语音激活单元254中,命令检测单元510经配置以从话音检测器252接收输入声音流且利用输入声音流识别用于访问应用程序的语音命令。为识别语音命令,命令检测单元510从所接收到的输入声音流提取一或多个声音特征(例如,音频手指指纹、MFCC向量)。所提取的声音特征随后使用基于HMM、SMM或类似者的任何合适话音识别方法分析,以识别语音命令。在一个实施例中,命令检测单元510可将输入声音流分为例如音素的多个基础声音单元,且随后访问存储于存储单元270中的语音命令的话音或声学模型以识别语音命令。如果语音命令经识别,那么命令检测单元510将所识别的语音命令发射至安全级别确定单元520。在一个实施例中,所提取的声音特征可发射至说话者验证单元530以用于验证语音命令。
安全级别确定单元520接收语音命令且基于所识别的语音命令识别待访问的应用程序。在一个实施例中,多个命令、与语音命令相关联的应用程序标识符和应用程序的安全级别存储于存储单元270的应用程序安全数据库310中。基于语音命令,安全级别确定单元520利用应用程序安全数据库310识别待访问的应用程序。安全级别确定单元520还可利用应用程序安全数据库310确定与待访问的应用程序相关联的安全级别。用于访问应用程序的应用标识符及其安全级别随后发射至说话者验证单元530。
说话者验证单元530经配置以接收输入声音流和具有其安全级别的应用程序识别符,且验证语音命令是否来自经授权访问应用程序的用户。说话者验证单元530可基于说话者模型330和从输入声音流提取的声音特征确定输入声音流中的语音命令的置信度值。在此情况下,说话者验证单元530可从输入声音流提取声音特征或使用从命令检测单元510接收的所提取的声音特征。在一个实施例中,声音特征中的每一者的置信度值可基于说话者模型330计算,且声音特征的置信度值的平均值可用作语音命令的置信度值。
说话者验证单元530还经配置以从存储单元270中的说话者验证数据库320获得应用程序识别符的安全级别的阈值。说话者验证单元530随后比较阈值与语音命令的置信度值以确定置信度值是否超过阈值。如果置信度值并未超过阈值,那么语音命令经验证并非来自被授权用户。在此情况下,说话者验证单元530可从说话者接收额外输入以进一步认证用于访问应用程序的语音命令。如果说话者未经验证,那么应用程序未经访问。
另一方面,如果语音命令的置信度值超过阈值,那么语音命令经验证来自被授权用户。说话者验证单元530随后响应于语音命令产生激活信号以访问所识别的应用程序。另外,说话者验证单元530将所访问的应用程序的安全级别、语音命令的置信度值和声音特征作为用于语音命令的新声音样本发射至数据库更新单元260。
图6展示根据本发明的一个实施例的用于基于电子装置200中的语音命令控制对应用程序的访问的方法600的流程图。电子装置200具备多个应用程序。应用程序中的每一者与安全级别相关联,所述安全级别具有最小置信度值作为访问应用程序的阈值。
在610处,从说话者接收到用于访问多个应用程序当中的目标应用程序的包含语音命令的输入声音流。在620处,一旦语音命令经识别为用以访问目标应用程序的命令,则基于被授权用户的说话者模型330验证语音命令是否指示被授权用户。如果语音命令经验证,那么用于访问目标应用程序的激活信号产生,且目标应用程序被访问。另外,在630处,如果语音命令经验证,那么说话者模型330通过作为新声音样本的语音命令更新。在640处,基于经更新的说话者模型,安全级别的阈值中的至少一者经调整。因此,电子装置200可使用经更新的说话者模型和经调整阈值来验证用于访问应用程序的后续语音命令。
图7为根据本发明的一个实施例的经配置以通过验证来自说话者的语音命令访问应用程序的说话者验证单元530的框图。说话者验证单元530包含语音验证单元710和辅助验证单元740。语音验证单元710进一步包含置信度确定单元720和应用程序访问控制器730。
语音验证单元710从安全级别确定单元520接收指示待访问的应用程序和应用程序的安全级别的应用标识符。另外,语音验证单元710从话音检测器252接收输入声音流且可从输入声音流提取声音特征。替代地,语音验证单元710可从命令检测单元510接收所提取的声音特征。置信度确定单元720随后基于所提取的声音特征和来自存储单元270的说话者模型330确定语音命令的置信度值。语音命令的置信度值随后发射至应用程序访问控制器730。
置信度确定单元720确定语音命令的置信度值。在一个实施例中,置信度确定单元720可基于说话者模型330计算声音特征中的每一者的置信度值和所述声音特征的置信度值的平均值。在此情况下,平均值置信度值可用作语音命令的置信度值。举例来说,当说话者模型330为包含均值和方差的GMM模型时,置信度确定单元720计算声音特征属于GMM模型的可能性作为置信度值。语音命令的声音特征的置信度值可随后被平均计算以产生声音特征的平均置信度值。在其他实施例中,置信度确定单元720可使用用于确定语音命令的置信度值的任何其他合适的算法,例如隐式马尔可夫模型、模式匹配算法、神经网络、向量量化和决策树、逆说话者技术(例如通用背景模型)等。
利用说话者验证数据库320,应用程序访问控制器730获取待访问的应用程序的安全级别的阈值。随后比较安全级别的阈值与语音命令的置信度值。如果置信度值超过安全级别的阈值,那么语音命令经验证来自被授权用户。在此情况下,应用程序访问控制器730产生用于访问应用程序的激活信号。另外,置信度值、应用程序的安全级别和作为新声音样本的声音特征发射至数据库更新单元260以更新说话者模型330且调整安全级别的阈值中的至少一者。
另一方面,如果输入声音的置信度值并未超过安全级别的阈值,那么语音验证单元710通知辅助验证单元740从说话者接收额外输入以验证语音命令来自被授权用户。辅助验证单元740可随后请求说话者经由I/O单元220提供一或多个输入,例如额外话音样本、密码、生物识别扫描(包含虹膜扫描、指纹扫描、面部扫描)等。
一旦从说话者接收到输入,辅助验证单元740经配置以确定额外输入是否来自被授权用户。举例来说,如果辅助验证单元740请求用于验证的密码,那么说话者可经由I/O单元220中的小键盘输入密码。当输入密码与存储于存储单元270中的被授权用户的密码相同时,辅助验证单元740通知应用程序访问控制器730语音命令的说话者经验证为被授权用户。在另一实例中,当接收到额外话音样本时,其可发射至语音验证单元710以验证额外话音样本来自被授权用户。
基于额外说话者验证,辅助验证单元740可验证起初未经验证的语音命令来自经授权访问应用程序的用户。如果语音命令的说话者基于额外说话者验证而验证,那么辅助验证单元740通知语音验证单元710语音命令的说话者经验证。作为响应,应用程序访问控制器730产生用于访问应用程序的激活信号。另外,应用程序访问控制器730将置信度值、应用程序的安全级别和作为新声音样本的语音命令的声音特征发射至数据库更新单元260。
图8说明根据本发明的一个实施例的经配置以更新说话者模型330且基于经验证语音命令调整安全级别316的阈值322的数据库更新单元260的框图。当说话者模型330已经更新且安全级别316的阈值322已响应于经验证语音命令而经调整时,它们可用于验证用于访问应用程序的后续语音命令。数据库更新单元260包含说话者模型更新单元810和阈值调整单元820。
说话者模型更新单元810经配置以接收用于经验证语音命令的新声音样本和针对新声音样本确定的置信度值。说话者模型更新单元810随后通过添加新声音样本更新说话者验证数据库320的声音样本324。在一个实施例中,声音样本324基于其置信度值而经映射至相关联的安全级别316。举例来说,如果与新声音样本相关联的置信度值为9.1且安全级别“1”的阈值为9.0,那么新声音样本经映射至安全级别“1”。
如所说明,说话者模型更新单元810通过基于均值332和方差334以及新声音样本的置信度值确定新均值和新方差来更新说话者模型330。替代地,说话者模型更新单元810可使用经更新的声音样本324确定说话者模型330的新均值和新方差。在确定说话者模型330的新均值和方差中,新声音样本可根据其置信度值加权。举例来说,如果新声音样本的置信度值较低,那么新声音样本可在计算说话者模型330的新均值和方差中被给予低权数。另一方面,如果新声音样本的置信度值较高,那么新声音样本可在计算说话者模型330的新均值和方差中被给予高权数。
在一些实施例中,说话者模型330的均值332和方差334可通过使用最大后验概率(MAP)自适应技术更新。在此情况下,均值332和/或方差334通过执行先前均值和/或方差与使用新声音样本计算出的新均值和/或方差的线性组合而更新。先前均值和/或方差与新均值和/或方差中的每一者基于新声音样本的置信度值而进行不同地加权。举例来说,如果新声音样本的置信度值较高,则当执行线性组合时可使用新均值的较大系数值。使用新声音样本,说话者模型330的均值332和方差334可随后被更新。说话者模型更新单元810还通知阈值调整单元820说话者模型330被更新。
阈值调整单元820经配置以从说话者模型更新单元810接收更新通知。阈值调整单元820随后访问经更新的说话者模型330以重新计算经更新的声音样本324的置信度值。在一个实施例中,阈值调整单元820可重新计算与所访问的应用程序的安全级别相关联的声音样本的置信度值。重新计算出的置信度值随后可用于确定所访问的应用程序的安全级别的新阈值。举例来说,新阈值可为重新计算出的置信度值当中的最小置信度值。因此,如果最小置信度值不同于安全级别的先前阈值,则阈值可经调整为重新计算出的置信度值当中的最小置信度值。
替代地,阈值调整单元820可重新计算说话者验证数据库320中的声音样本324的置信度值。在此情况下,说话者验证数据库320中的安全级别316的阈值322可经调整以反映安全级别316的任何新最小置信度值。在另一实施例中,阈值调整单元820可重新计算与安全级别相关联的声音样本324的置信度值,新声音样本经映射至所述安全级别。此安全级别的阈值将经调整为与安全级别相关联的声音样本的重新计算出的置信度值当中的最小置信度值。
图9说明根据本发明的一个实施例的可通过用于经验证语音命令的新声音样本更新的说话者验证数据库320的图。说话者验证数据库320包含五个安全级别“1”至“5”,所述安全级别分别与阈值9.0、7.0、5.0、3.0和1.0相关联。阈值中的每一者指示相关联的安全级别的最小置信度值。安全级别“1”至“5”还分别与声音样本群组910、920、930、940和950相关联。声音样本群组910、920、930、940和950中的每一者可使用FIFO(先进先出)数据结构以队列、缓冲区或类似者形式实施,且可包含从0至预定数目的声音样本集合。
在所图示的说话者验证数据库320中,声音样本群组910、920、930、940和950中的每一者可包含至多四个声音样本,但其还可包含任何合适数目的声音样本。在图9的实例中,声音样本群组910、920、930、940和950在初始建立说话者验证数据库320之后包含先前验证的语音命令的声音样本。当来自说话者的后续语音命令经另外验证时,经验证命令的声音特征可作为新声音样本添加至说话者验证数据库320。
声音样本基于其置信度值和安全级别“1”至“5”的阈值指配至声音样本群组910至950。举例来说,声音样本的置信度值可与安全级别“1”至“5”的阈值相比较以确定阈值小于声音样本的置信度值的一或多个安全级别。声音样本随后经指配至与安全级别相关联的声音样本群组,所述安全级别具有所确定的阈值当中的最高阈值。举例来说,如果声音样本S3_2的置信度值为6.3,那么阈值5.0、3.0和1.0经确定小于置信度值6.3。声音样本S3_2随后经指配至与安全级别“3”相关联的声音样本群组930,所述安全级别具有所确定的阈值5.0、3.0和1.0当中的最高阈值5.0。
起初,如图4中所展示,安全级别及其初始阈值基于被授权用户和未被授权用户的声音样本确定。当语音命令被接收到的且经验证后,说话者验证数据库320随后基于其置信度值将经验证语音命令的声音样本指配至声音样本群组910、920、930、940和950。在说话者验证数据库320中,声音样本群组910、920、930、940和950分别包含三个声音样本(例如,S1_1、S1_2和S1_3)、两个声音样本(例如,S2_1和S2_2)、四个声音样本(例如,S3_1、S3_2、S3_3和S3_4)、一个声音样本(例如,S4_1)和四个声音样本(例如,S5_1、S5_2、S5_3和S5_4)。
当接收到经验证语音命令的新声音样本及其置信度值时,声音样本群组基于新声音样本的置信度值确定。新声音样本将随后经添加至所确定的声音样本群组。举例来说,如果接收到具有置信度值8.2的新声音样本S_IN,那么新声音样本经添加至具有阈值7.0的安全级别“2”的声音样本群组920。如果如在声音样本群组930和950的情况下声音样本群组已充满,那么现有声音样本可经移除以添加新声音样本。在此类事件中,现有声音样本可根据先进先出而移除。举例来说,当新声音样本(例如,S3_5)经添加至具有最多四个声音样本S3_1至S3_4的声音样本群组930时,第一声音样本S3_1可经移除且新声音样本可经添加至声音样本群组930。
在说话者验证数据库320中的声音样本已经更新之后,数据库更新单元260可更新说话者模型330的统计数据。在一个实施例中,说话者模型330可通过新近添加的声音样本的置信度值更新。举例来说,说话者模型330的新统计数据可基于新声音样本和先前统计数据计算出。如果现有声音样本经移除以为新声音样本让出空间,那么新统计数据可基于所移除的声音样本、新声音样本和先前统计数据计算出。在一些实施例中,新声音样本可按新声音样本的置信度值的比例加权。
图10展示根据本发明的一个实施例的用于基于语音命令的置信度值更新说话者模型330的方法1000的流程图。语音激活单元254通过确定语音命令的置信度值验证语音命令。一旦语音命令经验证,语音激活单元254将验证语音命令的一或多个声音特征作为新声音样本提供至数据库更新单元260。
如图10中所图示,在1010处,数据库更新单元260接收用于经验证语音命令的新声音样本。另外,数据库更新单元260还从语音激活单元254接收经验证语音命令的置信度值。所接收到的新声音样本和置信度值用于更新说话者模型330。在此过程中,在1020处,新声音样本按语音命令的置信度值的比例加权。在1030处,说话者模型330随后基于加权的新声音样本更新。
图11说明根据本发明的一个实施例的说话者验证数据库320的图,其中响应于接收到新声音样本S_IN而调整新声音样本S_IN的安全级别的阈值。在此实施例中,新声音样本S_IN根据其置信度值添加至与安全级别“1”相关联的声音样本群组910以更新说话者验证数据库320。如上文所描述,说话者模型330可随后基于说话者验证数据库320中的新声音样本S_IN更新。
在说话者模型330更新之后,数据库更新单元260更新与安全级别“1”的声音样本群组910相关联的阈值9.0,所述声音样本群组包含新声音样本S_IN。在此情况下,与安全级别“1”相关联的声音样本群组910中的声音样本(例如,S1_1、S1_2、S1_3和S_IN)使用经更新的说话者模型330重新计算。重新计算出的置信度值当中的最小置信度值可随后经选择为安全级别“1”的新阈值。因此,如果为安全级别“1”先前设定的阈值9.0与最小置信度值不同,那么阈值可经调整为如由图11中的箭头指示的最小置信度值。
图12说明根据本发明的一个实施例的说话者验证数据库320的图,其中不同于新声音样本S_IN的安全级别的安全级别的阈值响应于接收到新声音样本S_IN而经调整。类似于图11,新声音样本S_IN根据其置信度值添加至与安全级别“1”相关联的声音样本群组910以更新说话者验证数据库320。又,说话者模型330可基于说话者验证数据库320中的新声音样本S_IN更新。
在所说明的实施例中,数据库更新单元260从语音激活单元254接收与应用程序(与经验证语音命令相关联)相关联的安全级别。在此实例中,假设与应用程序相关联的安全级别为安全级别“3”。因此,数据库更新单元260更新与安全级别“3”的声音样本群组930相关联的阈值5.0。在此情况下,与安全级别“3”相关联的声音样本(例如,S3_1、S3_2、S3_3和S3_4)的置信度值的声音样本群组930使用经更新的说话者模型330重新计算。重新计算出的置信度值当中的最小置信度值可随后经选择为安全级别“3”的新阈值。因此,如果为安全级别“3”先前设定的阈值5.0与最小置信度值不同,那么阈值可经调整为如由图12中的箭头指示的最小置信度值。
图13说明根据本发明的一个实施例的说话者验证数据库320的图,其中安全级别的阈值响应于接收到新声音样本S_IN而经调整。类似于图11,新声音样本S_IN根据其置信度值添加至与安全级别“1”相关联的声音样本群组910以更新说话者验证数据库320。又,说话者模型330可基于说话者验证数据库320中的新声音样本S_IN更新。
通过经更新的说话者模型,数据库更新单元260更新与安全级别“1”至“5”的声音样本群组910、920、930、940和950相关联的阈值(例如,9.0、7.0、5.0、3.0和1.0)。在此情况下,声音样本群组910(例如,S1_1、S1_2、S1_3和S_IN)、声音样本群组920(例如,S2_1和S2_2)、声音样本群组930(例如,S3_1、S3_2、S3_3和S3_4)、声音样本群组940(例如,S4_1)和声音样本群组950(例如,S5_1、S5_2、S5_3和S5_4)中的声音样本的置信度值基于经更新的说话者模型330重新计算。在声音样本群组910、920、930、940和950中的每一者中的声音样本的重新计算出的置信度值当中选择最小置信度值,且所选择的最小置信度值经确定分别为安全级别“1”至“5”的新阈值。因此,安全级别“1”至“5”的阈值可经调整以反映安全级别“1”至“5”的新最小置信度值,如由图13中的箭头所指示。
在另一实施例中,说话者验证数据库320可包含具有全部先前经验证语音命令的声音样本群组作为声音样本。当新声音样本经接收到且经验证时,新声音样本经添加至声音样本群组。如上文所论述,说话者模型330可基于说话者验证数据库320中的新声音样本更新。
基于经更新的说话者模型330,包含新声音样本的声音样本群组中的声音样本的全部的置信度值可确定。最低置信度值和最高置信度值可在置信度值当中选择,且哦哦最低值可经确定为最低安全级别(例如,安全级别“5”)的阈值。最高置信度值与最低置信度值之间的差可随后经分配到多个范围中,其中每一范围具有下限值。在一些实施例中,差可除以安全级别的数字以计算阈值增量。下限可随后经指配为安全级别(例如,安全级别“1”、“2”、“3”和“4”)的阈值。
图14说明根据本发明的一个实施例的用于调整多个安全级别的多个阈值的方法1400的流程图。在语音命令经验证之后,数据库更新单元260接收用于经验证语音命令的新声音样本。新声音样本随后根据其置信度值经添加到与安全级别相关联的声音样本群组,且说话者模型330基于新声音样本更新。
在1410处,与在多个安全级别当中选择的安全级别相关联的声音样本中的每一者的新置信度值随后基于经更新的说话者模型330确定。在一个实施例中,安全级别根据新声音样本的置信度值选择。在另一实施例中,映射至语音命令的应用程序的安全级别在多个安全级别当中选择。替代地,数据库更新单元260可在不选择安全级别的情况下确定全部安全级别的声音样本的新置信度值。
在1420处,在与所选择的安全级别相关联的声音样本的新置信度值当中,最小置信度值经选择。在1430处,所选择的安全级别的先前阈值随后经调整为最小置信度值。在确定全部安全级别的新置信度值的情况下,最小置信度值在安全级别中的每一者的新置信度值当中选择,且所选择的最小置信度值经确定分别为安全级别的新阈值。
图15为根据本发明的一些实施例的例示性移动装置1500的框图,其中用于控制对应用程序的访问的方法和设备可实施。移动装置1500的配置可实施于根据参考图1至14所描述的以上实施例的移动装置中。移动装置1500可为蜂窝式电话、智能手机、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话等。无线通信系统可为码分多址接入(CDMA)系统、移动通信(GSM)系统的广播系统、宽带CDMA(WCDMA)系统、长期演进(LTE)系统、高级LTE系统等。此外,移动装置1500可(例如)使用Wi-Fi直连、蓝牙或FlashLinq技术直接与另一移动装置通信。
移动装置1500能够经由接收路径和发射路径提供双向通信。在接收路径上,由基站发射的信号由天线1512接收,且经提供至接收器(RCVR)1514。接收器1514调节并数字化所接收到的信号,且将例如经调节和经数字化数字信号的样本提供至数字区段用于进一步处理。在发射路径上,发射器(TMTR)1516从数字区段1520接收待发射的数据,处理及调节数据且产生经调制信号,所述信号经由天线1512发射至基站。接收器1514和发射器1516可为可支持CDMA、GSM、LTE、高级LTE等的收发器的部分。
数字区段1520包含各种处理、接口和存储器单元,例如,举例来说,调制解调器处理器1522、精简指令集计算机/数字信号处理器(RISC/DSP)1524、控制器/处理器1526、内部存储器1528、通用音频编码器1532、通用音频解码器1534、图形/显示处理器1536,和/或外部总线接口(EBI)1538。调制解调器处理器1522可执行用于数据发射和接收的处理,例如,编码、调制、解调和解码。RISC/DSP 1524可执行移动装置1500的通用和专用处理。控制器/处理器1526可执行数字区段1520内的各种处理和接口单元的操作。内部存储器1528可存储用于数字区段1520内的各种单元的数据和/或指令。
通用音频编码器1532可对来自音频源1542、麦克风1543等的输入信号执行编码。通用音频解码器1534可对经译码音频数据执行解码且可将输出信号提供至功能确定引擎1544。图形/显示处理器1536可对可呈现给显示单元1546的图形、视频、图像和文本执行处理。EBI 1538可促进数字区段1520与数据库1548之间的数据的传送。
数字区段1520可通过一或多个处理器、DSP、微处理器、RISC等实施。数字区段1520还可制造于一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。
一般来说,本文中所描述的任何装置可表示各种类型的装置,例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内置调制解调器、通过无线通道通信的装置等。装置可具有各种名称,例如存取终端(AT)、存取单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备额、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
可通过各种均值实施本文中所描述的技术。举例来说,这些技术可以硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解,结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件与软件的此可互换性,以上已大体就其功能性来描述了各种说明性组件、块、模块、电路以及步骤。此功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同的方式实施所描述的功能性,但此类实施决策不应被解释为会引起偏离本发明的范围。
对于硬件实施方案,用以执行所述技术的处理单元可实施在以下各者内:一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机,或其组合。
因此,结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP和微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此类配置。
如果在软件中实施,那么可将所述功能作为一或多个指令或代码而存储在计算机可读媒体上或经由计算机可读媒体发射。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由电脑访问的任何可用媒体。作为举例且并不限于此,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携载或存储呈指令或数据结构形式的所需程序代码且可由计算机存取的任何其它媒体。此外,任何连接都恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电和微波)从网站、服务器或其它远程源发射软件,则所述同轴缆线、光纤缆线、双绞线、DSL或无线技术(例如,红外线、无线电和微波)包含在媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述各者的组合也应包含在计算机可读媒体的范围内。
本发明的先前描述经提供以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改,且本文中界定的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此,本发明并不意图限于本文中所描述的实例,而应符合与本文中所揭示的原理及新颖特征相一致的最广泛范围。
尽管称示例性实施方案利用在一或多个独立计算机系统的背景下的当前揭示的标的物的方面,但所述标的物不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。再者,当前揭示的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置而实施,且可类似地跨越多个装置实现存储。此类装置可以包含PC、网络服务器和手持式装置。
尽管已经以特定地针对结构特征和/或方法动作的语言来描述标的物,但应理解,所附权利要求书中所界定的标的物未必限于上文所描述的具体特征或动作。而是,揭示上文所描述的特定特征和动作以作为实施权利要求书的实例形式。
Claims (50)
1.一种用于控制对电子装置的多个应用程序的访问的方法,所述方法包括:
接收语音命令以访问所述多个应用程序当中的目标应用程序,所述多个应用程序中的每一应用程序与安全级别相关联,每一安全级别与用户置信度阈值相关联;
通过比较表示所述语音命令的数据与与被授权用户相关联的说话者模型确定与所述语音命令相关联的用户置信度值;
如果所述用户置信度值满足与所述目标应用程序的所述安全级别相关联的目标用户置信度阈值,则基于所述语音命令产生经更新的说话者模型;以及
基于经更新的所述说话者模型调整所述用户置信度阈值中的至少一者。
2.根据权利要求1所述的方法,其进一步包括,在产生经更新的所述说话者模型之后:
接收用于访问所述多个应用程序当中的第二目标应用程序的第二语音命令;以及
基于经更新的所述说话者模型确定所述第二语音命令是否指示所述被授权用户。
3.根据权利要求1所述的方法,其进一步包括:
在所述用户置信度值超过与所述目标应用程序的所述安全级别相关联的所述目标用户置信度阈值时访问所述目标应用程序。
4.根据权利要求3所述的方法,其中产生经更新的所述说话者模型包括:
与与所述语音命令相关联的所述用户置信度值成比例地加权所述语音命令;以及
基于加权的所述语音命令更新所述说话者模型。
5.根据权利要求1所述的方法,其中所述说话者模型包括基于从所述被授权用户的多个声音样本提取的声音特征的统计数据。
6.根据权利要求5所述的方法,其中产生经更新的所述说话者模型包括基于所述语音命令的至少一个声音特征更新所述统计数据。
7.根据权利要求1所述的方法,其中调整所述用户置信度阈值中的所述至少一者包括:
基于经更新的所述说话者模型确定与所选择的安全级别相关联的声音样本的经更新的用户置信度值;以及
基于经更新的所述用户置信度值将所选择的所述安全级别的所述用户置信度阈值调整为新用户置信度阈值。
8.根据权利要求7所述的方法,其中所述新用户置信度阈值对应于经更新的所述用户置信度值当中的最低值。
9.根据权利要求7所述的方法,其中所选择的所述安全级别为与所述目标应用程序相关联的所述安全级别。
10.根据权利要求7所述的方法,其中所选择的所述安全级别是基于与所述语音命令相关联的所述用户置信度值选择。
11.根据权利要求1所述的方法,其中调整所述用户置信度阈值中的所述至少一者包括:
基于经更新的所述说话者模型确定多个声音样本的经更新的用户置信度值;以及
基于经更新的所述用户置信度值调整所述用户置信度阈值中的所述至少一者。
12.根据权利要求11所述的方法,其中调整所述用户置信度阈值中的所述至少一者进一步包括:
确定经更新的所述用户置信度值当中的最低用户置信度值和最高用户置信度值;
将所述最低用户置信度值与所述最高用户置信度值之间的差划分到与所述安全级别相关联的多个范围中,其中所述多个范围中的每一者包含下限值;以及
将所述多个范围中的每一者的所述下限值指配为对应安全级别的新用户置信度阈值。
13.根据权利要求1所述的方法,其中每一安全级别与声音样本集合相关联,所述声音样本具有大于与所述安全级别相关联的所述用户置信度阈值的用户置信度值。
14.根据权利要求13所述的方法,其进一步包括基于与所述语音命令相关联的所述用户置信度值将所述语音命令添加至所述声音样本集合中的一者。
15.根据权利要求1所述的方法,其进一步包括,如果所述用户置信度值未能满足与所述目标应用程序的所述安全级别相关联的所述目标用户置信度阈值,则从所述语音命令的说话者请求进一步输入以认证所述语音命令。
16.根据权利要求15所述的方法,其中所述输入包含脸部的图像、指纹、个人身份识别码以及额外语音命令中的至少一者。
17.一种用于控制对多个应用程序的访问的电子装置,所述电子装置包括:
声音传感器,其经配置以接收语音命令以访问所述多个应用程序当中的目标应用程序;
存储单元,其经配置以存储所述多个应用程序、识别多个安全级别的数据、识别多个用户置信度阈值的数据以及经授权访问所述应用程序的被授权用户的说话者模型,每一应用程序与所述多个安全级别当中的安全级别相关联,所述多个安全级别中的每一安全级别与所述多个用户置信度阈值当中的用户置信度阈值相关联;
说话者验证单元,其经配置以基于所述说话者模型通过比较表示所述语音命令的数据与所述说话者模型确定与所述语音命令相关联的用户置信度值且确定与所述语音命令相关联的所述用户置信度值是否满足与所述目标应用程序的所述安全级别相关联的目标用户置信度阈值来确定所述语音命令是否指示所述被授权用户;以及
数据库更新单元,其经配置以在所述语音命令指示所述被授权用户时基于所述语音命令更新所述说话者模型,且经配置以基于经更新的所述说话者模型调整所述用户置信度阈值中的至少一者。
18.根据权利要求17所述的电子装置,其中所述声音传感器经进一步配置以在所述说话者模型经更新之后接收用于访问所述多个应用程序当中的第二目标应用程序的第二语音命令,以及
其中所述说话者验证单元经进一步配置以基于经更新的所述说话者模型确定所述第二语音命令是否指示所述被授权用户。
19.根据权利要求17所述的电子装置,其中所述说话者验证单元经进一步配置以在与所述语音命令相关联的所述用户置信度值超过与所述目标应用程序相关联的所述目标用户置信度阈值时访问所述目标应用程序。
20.根据权利要求17所述的电子装置,其中所述数据库更新单元经配置以通过与与所述语音命令相关联的所述用户置信度值成比例地加权所述语音命令且基于加权的所述语音命令更新所述说话者模型来更新所述说话者模型。
21.根据权利要求17所述的电子装置,其中所述说话者模型包括基于从所述被授权用户的多个声音样本提取的声音特征的统计数据。
22.根据权利要求21所述的电子装置,其中所述数据库更新单元经配置以通过基于所述语音命令的至少一个声音特征更新所述统计数据来更新所述说话者模型。
23.根据权利要求17所述的电子装置,其中所述数据库更新单元经进一步配置以通过基于经更新的所述说话者模型确定与所选择的安全级别相关联的声音样本的经更新的用户置信度值且基于经更新的所述用户置信度值将所选择的所述安全级别的所述用户置信度阈值调整为新用户置信度阈值来调整所述用户置信度阈值中的所述至少一者。
24.根据权利要求23所述的电子装置,其中所选择的所述安全级别的所述用户置信度阈值经调整为经更新的所述用户置信度值当中的最低用户置信度值。
25.根据权利要求23所述的电子装置,其中所选择的所述安全级别为与所述目标应用程序相关联的所述安全级别。
26.根据权利要求23所述的电子装置,其中所选择的所述安全级别是基于与所述语音命令相关联的所述用户置信度值选择。
27.根据权利要求17所述的电子装置,其中所述数据库更新单元经进一步配置以通过基于经更新的所述说话者模型确定多个声音样本的经更新的用户置信度值且基于经更新的所述用户置信度值调整所述用户置信度阈值中的所述至少一者来调整所述用户置信度阈值中的所述至少一者。
28.根据权利要求27所述的电子装置,其中所述数据库更新单元经进一步配置以通过确定经更新的所述用户置信度值当中的最低用户置信度值和最高用户置信度值调整所述用户置信度阈值中的所述至少一者,且将所述最低用户置信度值与所述最高用户置信度值之间的差划分到与所述安全级别相关联的多个范围中,
其中所述多个范围中的每一者包含下限值,以及
其中所述数据库更新单元经进一步配置以将所述多个范围中的每一者的所述下限值指配为对应安全级别的新用户置信度阈值。
29.根据权利要求17所述的电子装置,其中每一安全级别与声音样本集合相关联,所述声音样本具有大于与所述安全级别相关联的所述用户置信度阈值的用户置信度值。
30.根据权利要求29所述的电子装置,其中所述数据库更新单元经进一步配置以基于所述语音命令的所述用户置信度值将所述语音命令添加至所述声音样本集合中的一者。
31.根据权利要求17所述的电子装置,其中,如果所述语音命令经确定不指示所述被授权用户,则所述说话者验证单元经进一步配置以接收额外输入以认证所述语音命令。
32.根据权利要求31所述的电子装置,其中所述额外输入包含脸部的图像、指纹、个人身份识别码以及额外语音命令中的至少一者。
33.一种用于控制对多个应用程序的访问的电子装置,所述电子装置包括:
用于接收语音命令以访问所述多个应用程序当中的目标应用程序的装置;
用于存储所述多个应用程序、识别多个安全级别的数据、识别多个用户置信度阈值的数据以及经授权访问所述应用程序的被授权用户的说话者模型的装置,每一应用程序与所述多个安全级别当中的安全级别相关联,所述多个安全级别中的每一安全级别与所述多个用户置信度阈值当中的用户置信度阈值相关联;
用于基于所述说话者模型通过比较表示所述语音命令的数据与所述说话者模型确定与所述语音命令相关联的用户置信度值且确定与所述语音命令相关联的所述用户置信度值是否满足与所述目标应用程序的所述安全级别相关联的目标用户置信度阈值来确定所述语音命令是否指示所述被授权用户的装置;
用于在所述语音命令经确定指示所述被授权用户时基于所述语音命令更新所述说话者模型的装置;以及
用于基于经更新的所述说话者模型调整所述用户置信度阈值中的至少一者的装置。
34.根据权利要求33所述的电子装置,其中用于接收的所述装置经配置以在所述说话者模型经更新的之后接收用于访问所述多个应用程序当中的第二目标应用程序的第二语音命令,以及
其中用于确定的所述装置经配置以基于经更新的所述说话者模型确定所述第二语音命令是否指示所述被授权用户。
35.根据权利要求33所述的电子装置,其中用于确定的所述装置经配置以在与所述语音命令相关联的所述用户置信度值超过与所述目标应用程序相关联的所述目标用户置信度阈值时访问所述目标应用程序。
36.根据权利要求33所述的电子装置,其中用于更新的所述装置经配置以与与所述语音命令相关联的所述用户置信度值成比例地加权所述语音命令,且基于加权的所述语音命令更新所述说话者模型。
37.根据权利要求33所述的电子装置,其中用于调整的所述装置经配置以确定与所选择的安全级别相关联的声音样本的经更新的用户置信度值,且基于经更新的所述用户置信度值将所选择的所述安全级别的所述用户置信度阈值调整为新用户置信度阈值。
38.根据权利要求37所述的电子装置,其中所述新用户置信度阈值对应于经更新的所述用户置信度值当中的最低用户置信度值。
39.根据权利要求37所述的电子装置,其中所选择的所述安全级别为与所述目标应用程序相关联的所述安全级别。
40.根据权利要求37所述的电子装置,其中所选择的所述安全级别是基于与所述语音命令相关联的所述用户置信度值选择。
41.根据权利要求33所述的电子装置,其中用于调整的所述装置经进一步配置以基于经更新的所述说话者模型确定多个声音样本的经更新的所述用户置信度值,且基于经更新的所述用户置信度值调整所述用户置信度阈值中的所述至少一者。
42.根据权利要求41所述的电子装置,其中用于调整的所述装置经进一步配置以确定经更新的所述用户置信度值当中的最低用户置信度值和最高用户置信度值,且将所述最低用户置信度值与所述最高用户置信度值之间的差划分到与所述安全级别相关联的多个范围中,
其中所述多个范围中的每一者包含下限值,以及
其中用于调整的所述装置经进一步配置以将所述多个范围中的每一者的所述下限值指配为对应安全级别的新用户置信度阈值。
43.一种非暂时性计算机可读存储媒体,其包括用于控制对多个应用程序的访问的指令,所述指令可执行以使电子装置的处理器执行操作,所述操作包括:
接收语音命令以访问所述多个应用程序当中的目标应用程序,所述多个应用程序中的每一应用程序与安全级别相关联,每一安全级别与用户置信度阈值相关联;
通过比较表示所述语音命令的数据与与被授权用户相关联的说话者模型确定与所述语音命令相关联的用户置信度值;
如果所述用户置信度值满足与所述目标应用程序的所述安全级别相关联的目标用户置信度阈值,则基于所述语音命令产生经更新的说话者模型;以及
基于经更新的所述说话者模型调整所述用户置信度阈值中的至少一者。
44.根据权利要求43所述的非暂时性计算机可读存储媒体,其中,在产生经更新的所述说话者模型之后,所述操作进一步包括:
接收用于访问所述多个应用程序当中的第二目标应用程序的第二语音命令;以及
基于经更新的所述说话者模型确定所述第二语音命令是否指示所述被授权用户。
45.根据权利要求43所述的非暂时性计算机可读存储媒体,其中调整所述用户置信度阈值中的所述至少一者包括:
基于经更新的所述说话者模型确定与所选择的安全级别相关联的声音样本的经更新的用户置信度值;以及
基于经更新的所述用户置信度值将所选择的所述安全级别的所述用户置信度阈值调整为新用户置信度阈值。
46.根据权利要求45所述的非暂时性计算机可读存储媒体,其中所述新用户置信度阈值对应于经更新的所述用户置信度值当中的最低值。
47.根据权利要求45所述的非暂时性计算机可读存储媒体,其中所选择的所述安全级别为与所述目标应用程序相关联的所述安全级别。
48.根据权利要求45所述的非暂时性计算机可读存储媒体,其中所选择的所述安全级别是基于与所述语音命令相关联的所述用户置信度值选择。
49.根据权利要求43所述的非暂时性计算机可读存储媒体,其中调整所述用户置信度阈值中的所述至少一者包括:
基于经更新的所述说话者模型确定多个声音样本的经更新的用户置信度值;以及
基于经更新的所述用户置信度值调整所述用户置信度阈值中的所述至少一者。
50.根据权利要求49所述的非暂时性计算机可读存储媒体,其中调整所述用户置信度阈值中的所述至少一者进一步包括:
确定经更新的所述用户置信度值当中的最低用户置信度值和最高用户置信度值;
将所述最低用户置信度值与所述最高用户置信度值之间的差划分到与所述安全级别相关联的多个范围中,其中所述多个范围中的每一者包含下限值;以及
将所述多个范围中的每一者的所述下限值指配为对应安全级别的新用户置信度阈值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/028,139 | 2013-09-16 | ||
US14/028,139 US9343068B2 (en) | 2013-09-16 | 2013-09-16 | Method and apparatus for controlling access to applications having different security levels |
PCT/US2014/054352 WO2015038435A1 (en) | 2013-09-16 | 2014-09-05 | Method and apparatus for controlling access to applications |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105556920A CN105556920A (zh) | 2016-05-04 |
CN105556920B true CN105556920B (zh) | 2018-11-09 |
Family
ID=51570907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480050579.0A Active CN105556920B (zh) | 2013-09-16 | 2014-09-05 | 用于控制对应用程序的访问的方法和设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9343068B2 (zh) |
EP (1) | EP3047622B1 (zh) |
JP (1) | JP6306190B2 (zh) |
KR (1) | KR101868711B1 (zh) |
CN (1) | CN105556920B (zh) |
WO (1) | WO2015038435A1 (zh) |
Families Citing this family (147)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US12014347B2 (en) * | 2011-07-18 | 2024-06-18 | Rabih S. Ballout | Kit, system and associated method and service for providing a platform to prevent fraudulent financial transactions |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10541997B2 (en) * | 2016-12-30 | 2020-01-21 | Google Llc | Authentication of packetized audio signals |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
CN104423552B (zh) * | 2013-09-03 | 2017-11-03 | 联想(北京)有限公司 | 一种处理信息的方法和电子设备 |
US11334314B2 (en) * | 2013-10-25 | 2022-05-17 | Voyetra Turtle Beach, Inc. | Networked gaming headset with automatic social networking |
US9928839B1 (en) * | 2013-12-04 | 2018-03-27 | United Services Automobile Association (Usaa) | Systems and methods for authentication using voice biometrics and device verification |
US9607137B2 (en) * | 2013-12-17 | 2017-03-28 | Lenovo (Singapore) Pte. Ltd. | Verbal command processing based on speaker recognition |
CN105934791B (zh) * | 2014-01-31 | 2019-11-22 | 惠普发展公司,有限责任合伙企业 | 语音输入命令 |
US11288346B1 (en) * | 2014-03-03 | 2022-03-29 | Charles Schwab & Co., Inc. | System and method for authenticating users using weak authentication techniques, with differences for different features |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
CN104142909B (zh) * | 2014-05-07 | 2016-04-27 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN105280180A (zh) * | 2014-06-11 | 2016-01-27 | 中兴通讯股份有限公司 | 一种终端控制方法、装置、语音控制装置及终端 |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102261552B1 (ko) * | 2014-06-30 | 2021-06-07 | 삼성전자주식회사 | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 |
KR102281178B1 (ko) * | 2014-07-09 | 2021-07-23 | 삼성전자주식회사 | 멀티-레벨 음성 인식 방법 및 장치 |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
WO2016015687A1 (zh) * | 2014-07-31 | 2016-02-04 | 腾讯科技(深圳)有限公司 | 声纹验证方法及装置 |
US9313219B1 (en) * | 2014-09-03 | 2016-04-12 | Trend Micro Incorporated | Detection of repackaged mobile applications |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US10111093B2 (en) * | 2015-01-09 | 2018-10-23 | Qualcomm Incorporated | Mobile device to provide continuous and discrete user authentication |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9472196B1 (en) * | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
WO2016193712A1 (en) | 2015-06-02 | 2016-12-08 | Bae Systems Plc | Safe aircraft avionics system interface |
GB2539185B (en) * | 2015-06-02 | 2021-11-03 | Bae Systems Plc | Aircraft avionics system interface |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN106709399B (zh) * | 2015-08-21 | 2021-02-09 | 小米科技有限责任公司 | 指纹识别方法及装置 |
US9978374B2 (en) | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US9706300B2 (en) | 2015-09-18 | 2017-07-11 | Qualcomm Incorporated | Collaborative audio processing |
US10013996B2 (en) | 2015-09-18 | 2018-07-03 | Qualcomm Incorporated | Collaborative audio processing |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017212235A1 (en) * | 2016-06-06 | 2017-12-14 | Cirrus Logic International Semiconductor Limited | Voice user interface |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10127926B2 (en) | 2016-06-10 | 2018-11-13 | Google Llc | Securely executing voice actions with speaker identification and authentication input types |
CN114693289A (zh) | 2016-06-11 | 2022-07-01 | 苹果公司 | 用于交易的用户界面 |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10621581B2 (en) | 2016-06-11 | 2020-04-14 | Apple Inc. | User interface for transactions |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US20180068313A1 (en) | 2016-09-06 | 2018-03-08 | Apple Inc. | User interfaces for stored-value accounts |
US10304463B2 (en) * | 2016-10-03 | 2019-05-28 | Google Llc | Multi-user personalization at a voice interface device |
GB2555661A (en) * | 2016-11-07 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for biometric authentication in an electronic device |
EP3637414B1 (en) * | 2016-11-07 | 2024-01-03 | Google LLC | Recorded media hotword trigger suppression |
JP6682007B2 (ja) * | 2016-11-11 | 2020-04-15 | 旭化成株式会社 | 電子機器、電子機器の制御方法及び電子機器の制御プログラム |
US10956545B1 (en) * | 2016-11-17 | 2021-03-23 | Alarm.Com Incorporated | Pin verification |
US11216540B2 (en) * | 2016-12-13 | 2022-01-04 | Motorola Mobility Llc | Flexible security level for device interaction |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
US11532250B2 (en) * | 2017-01-11 | 2022-12-20 | Sony Corporation | Information processing device, information processing method, screen, and information drawing system |
KR102640423B1 (ko) * | 2017-01-31 | 2024-02-26 | 삼성전자주식회사 | 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템 |
WO2018169381A1 (en) * | 2017-03-17 | 2018-09-20 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
KR102622356B1 (ko) | 2017-04-20 | 2024-01-08 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
CN114936856A (zh) | 2017-05-16 | 2022-08-23 | 苹果公司 | 用于对等传输的用户界面 |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US11221744B2 (en) | 2017-05-16 | 2022-01-11 | Apple Inc. | User interfaces for peer-to-peer transfers |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
CN109102802B (zh) * | 2017-06-21 | 2023-10-17 | 三星电子株式会社 | 用于处理用户话语的系统 |
KR102002903B1 (ko) * | 2017-07-26 | 2019-07-23 | 네이버 주식회사 | 화자 인증 방법 및 음성인식 시스템 |
KR101995443B1 (ko) * | 2017-07-26 | 2019-07-02 | 네이버 주식회사 | 화자 검증 방법 및 음성인식 시스템 |
US10896673B1 (en) * | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
EP3690878A4 (en) * | 2017-09-28 | 2021-06-09 | Kyocera Corporation | VOICE COMMAND SYSTEM AND VOICE COMMAND PROCESS |
US10332545B2 (en) * | 2017-11-28 | 2019-06-25 | Nuance Communications, Inc. | System and method for temporal and power based zone detection in speaker dependent microphone environments |
US10433230B2 (en) * | 2017-12-12 | 2019-10-01 | Cassia Networks Inc. | Methods, devices, and systems for supporting wireless roaming |
CN111357048B (zh) * | 2017-12-31 | 2024-10-08 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
US10789959B2 (en) * | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
KR102595184B1 (ko) | 2018-05-25 | 2023-10-30 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
CN112561537A (zh) | 2018-06-03 | 2021-03-26 | 苹果公司 | 用于转账账户的用户界面 |
US11100498B2 (en) | 2018-06-03 | 2021-08-24 | Apple Inc. | User interfaces for transfer accounts |
CN108766448B (zh) * | 2018-06-19 | 2020-05-01 | 苏州科达科技股份有限公司 | 混音测试系统、方法、装置及存储介质 |
JP6980603B2 (ja) | 2018-06-21 | 2021-12-15 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
CN110574103B (zh) * | 2018-06-29 | 2020-10-23 | 华为技术有限公司 | 一种语音控制方法、可穿戴设备及终端 |
EP3740949B1 (en) * | 2018-07-06 | 2022-01-26 | Veridas Digital Authentication Solutions, S.L. | Authenticating a user |
CN109189310B (zh) * | 2018-07-27 | 2020-10-27 | 维沃移动通信有限公司 | 一种解锁方法及终端设备 |
US11580002B2 (en) * | 2018-08-17 | 2023-02-14 | Intensity Analytics Corporation | User effort detection |
KR102184300B1 (ko) * | 2018-09-20 | 2020-12-01 | 현대오토에버 주식회사 | 음성 인식 기반 제어 시스템 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR102622350B1 (ko) | 2018-10-12 | 2024-01-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10922433B2 (en) * | 2018-11-26 | 2021-02-16 | Wells Fargo Bank, N.A. | Interrupting receipt of sensitive information |
KR20200100481A (ko) * | 2019-02-18 | 2020-08-26 | 삼성전자주식회사 | 생체 정보를 인증하기 위한 전자 장치 및 그의 동작 방법 |
WO2020184753A1 (ko) * | 2019-03-12 | 2020-09-17 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11328352B2 (en) | 2019-03-24 | 2022-05-10 | Apple Inc. | User interfaces for managing an account |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
EP4297021A3 (en) * | 2019-05-31 | 2024-03-20 | Apple Inc. | Voice identification in digital assistant systems |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
WO2020242595A1 (en) * | 2019-05-31 | 2020-12-03 | Apple Inc. | Voice identification in digital assistant systems |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112397060B (zh) * | 2019-07-31 | 2024-02-23 | 北京声智科技有限公司 | 一种语音指令处理方法、系统、设备及介质 |
US11205433B2 (en) * | 2019-08-21 | 2021-12-21 | Qualcomm Incorporated | Method and apparatus for activating speech recognition |
KR20210050884A (ko) * | 2019-10-29 | 2021-05-10 | 삼성전자주식회사 | 화자 인식을 위한 등록 방법 및 장치 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US12118562B2 (en) | 2020-05-29 | 2024-10-15 | Apple Inc. | Configuring an account for a second user identity |
CN111833868A (zh) * | 2020-06-30 | 2020-10-27 | 北京小米松果电子有限公司 | 语音助手控制方法、装置及计算机可读存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20220040875A (ko) * | 2020-09-24 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 서비스를 위한 등록 사용자에 대한 화자 인증 학습 장치 및 그 동작 방법 |
KR20220082258A (ko) * | 2020-12-10 | 2022-06-17 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 기억 서비스를 제공하는 방법 |
US11983702B2 (en) | 2021-02-01 | 2024-05-14 | Apple Inc. | Displaying a representation of a card with a layered structure |
CN112951243A (zh) * | 2021-02-07 | 2021-06-11 | 深圳市汇顶科技股份有限公司 | 语音唤醒方法、装置、芯片、电子设备及存储介质 |
US11921992B2 (en) | 2021-05-14 | 2024-03-05 | Apple Inc. | User interfaces related to time |
EP4377954A1 (en) * | 2021-07-27 | 2024-06-05 | Qualcomm Incorporated | Voice or speech recognition using contextual information and user emotion |
US11784956B2 (en) | 2021-09-20 | 2023-10-10 | Apple Inc. | Requests to add assets to an asset account |
CN114005435A (zh) * | 2021-11-02 | 2022-02-01 | 北京元心君盛科技有限公司 | 一种响应语音信息的方法、装置、设备、介质及程序产品 |
KR102639755B1 (ko) * | 2023-05-31 | 2024-02-23 | 농협은행(주) | 전자 장치 제어를 지원하는 서버 및 이의 제어 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697514A (zh) * | 2009-10-22 | 2010-04-21 | 中兴通讯股份有限公司 | 一种身份验证的方法及系统 |
CN102223367A (zh) * | 2011-06-10 | 2011-10-19 | 安徽科大讯飞信息科技股份有限公司 | 移动用户访问网站的方法、设备及系统 |
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US5805674A (en) | 1995-01-26 | 1998-09-08 | Anderson, Jr.; Victor C. | Security arrangement and method for controlling access to a protected system |
AU7304798A (en) | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Voice recognition for information system access and transaction process ing |
US6691089B1 (en) | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
US7039951B1 (en) * | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
US7212969B1 (en) | 2000-09-29 | 2007-05-01 | Intel Corporation | Dynamic generation of voice interface structure and voice content based upon either or both user-specific contextual information and environmental information |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7404086B2 (en) | 2003-01-24 | 2008-07-22 | Ac Technology, Inc. | Method and apparatus for biometric authentication |
JP4847581B2 (ja) * | 2007-03-30 | 2011-12-28 | パイオニア株式会社 | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム |
CA2736133C (en) * | 2008-09-05 | 2016-11-08 | Auraya Pty Ltd | Voice authentication system and methods |
JP2010108074A (ja) * | 2008-10-28 | 2010-05-13 | Hitachi Ltd | 生体認証システム及び方法 |
JP2010198384A (ja) * | 2009-02-25 | 2010-09-09 | Kyocera Corp | 通信端末装置 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
-
2013
- 2013-09-16 US US14/028,139 patent/US9343068B2/en active Active
-
2014
- 2014-09-05 WO PCT/US2014/054352 patent/WO2015038435A1/en active Application Filing
- 2014-09-05 JP JP2016542025A patent/JP6306190B2/ja active Active
- 2014-09-05 CN CN201480050579.0A patent/CN105556920B/zh active Active
- 2014-09-05 EP EP14767251.3A patent/EP3047622B1/en active Active
- 2014-09-05 KR KR1020167009013A patent/KR101868711B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697514A (zh) * | 2009-10-22 | 2010-04-21 | 中兴通讯股份有限公司 | 一种身份验证的方法及系统 |
CN102223367A (zh) * | 2011-06-10 | 2011-10-19 | 安徽科大讯飞信息科技股份有限公司 | 移动用户访问网站的方法、设备及系统 |
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20150081295A1 (en) | 2015-03-19 |
KR20160055839A (ko) | 2016-05-18 |
WO2015038435A1 (en) | 2015-03-19 |
US9343068B2 (en) | 2016-05-17 |
EP3047622A1 (en) | 2016-07-27 |
EP3047622B1 (en) | 2017-08-23 |
JP6306190B2 (ja) | 2018-04-04 |
KR101868711B1 (ko) | 2018-06-18 |
JP2016538658A (ja) | 2016-12-08 |
CN105556920A (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105556920B (zh) | 用于控制对应用程序的访问的方法和设备 | |
US11961525B2 (en) | Neural networks for speaker verification | |
CN105940407B (zh) | 用于评估音频口令的强度的系统和方法 | |
CN105210146B (zh) | 用于控制语音激活的方法和设备 | |
JP6099556B2 (ja) | 音声識別方法および装置 | |
US10705789B2 (en) | Dynamic volume adjustment for virtual assistants | |
CN106796785B (zh) | 用于产生声音检测模型的声音样本验证 | |
US20150302856A1 (en) | Method and apparatus for performing function by speech input | |
CN105229726B (zh) | 用于关键字检测的自适应音频帧处理 | |
US20190005962A1 (en) | Speaker identification | |
CN108885873A (zh) | 使用自适应阈值的说话者识别 | |
GB2552082A (en) | Voice user interface | |
CN109313902A (zh) | 语音用户接口 | |
WO2014114048A1 (zh) | 一种语音识别的方法、装置 | |
CN106210239A (zh) | 恶意来电者声纹的自动识别方法、装置和移动终端 | |
JP7504855B2 (ja) | 相互接続された音声検証システムの使用を通して相互運用性を達成するためのシステム、方法、およびプログラム | |
US11200903B2 (en) | Systems and methods for speaker verification using summarized extracted features | |
TW202018696A (zh) | 語音識別方法、裝置及計算設備 | |
US11017783B2 (en) | Speaker template update with embedding vectors based on distance metric | |
CN112513845A (zh) | 与语音使能设备的暂时账户关联 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |