CN105960628B - 用于说话者验证的动态阈值 - Google Patents
用于说话者验证的动态阈值 Download PDFInfo
- Publication number
- CN105960628B CN105960628B CN201580006803.0A CN201580006803A CN105960628B CN 105960628 B CN105960628 B CN 105960628B CN 201580006803 A CN201580006803 A CN 201580006803A CN 105960628 B CN105960628 B CN 105960628B
- Authority
- CN
- China
- Prior art keywords
- data
- language
- user
- speaker verification
- environment context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims abstract description 177
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000003860 storage Methods 0.000 claims abstract description 36
- 230000004044 response Effects 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012790 confirmation Methods 0.000 claims 3
- 238000004590 computer program Methods 0.000 abstract description 16
- 230000015654 memory Effects 0.000 description 31
- 238000004891 communication Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 16
- 230000003139 buffering effect Effects 0.000 description 15
- 238000013480 data collection Methods 0.000 description 9
- 238000000429 assembly Methods 0.000 description 8
- 230000000712 assembly Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000015170 shellfish Nutrition 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011020 pilot scale process Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000013432 robust analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
- H04M3/385—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了用于说话者验证的动态阈值的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括针对热词的多个话语中的每一个接收数据集的动作,该数据集至少包括说话者验证置信分值以及环境场境数据。所述动作进一步包括从所述数据集当中选择与特定环境场境相关联的数据集的子集。所述动作进一步包括基于一个或多个选择准则而从所述数据集的子集当中选择特定数据集。所述动作进一步包括选择所述说话者验证置信分值作为针对所述特定环境场境的说话者验证阈值。所述动作进一步包括提供所述说话者验证阈值以便使用于执行对与所述特定环境场境相关联的话语的说话者验证。
Description
相关申请的交叉引用
本申请请求于2014年6月24日提交的美国专利申请号62/016,384以及于2014年7月25日提交的美国专利申请号14/340,720的优先权,其内容通过引用并入本文中。
技术领域
本公开大体上涉及说话者验证。
背景技术
热词(hotword)是用户可以在用户说出语音命令之前说出以引起计算设备注意的特定词语。计算设备可以始终倾听热词,并且当接收到热词时,计算设备可以将随后接收到的话语处理为语音命令。
在一个示例中,计算设备可以倾听热词“Ok computer”。当用户陈述“Okcomputer,write a message”时,计算设备可以检测到热词“ok computer”,这可以使得短语“write a message”被处理为语音命令。
发明内容
根据在本说明书中所述主题的一个创新性方面,用户设备接收由用户说出的话语。所述用户设备确定所述话语是否包括热词,并且执行说话者验证以识别话语的说话者是所述设备的授权用户还是冒名顶替者。在执行说话者验证中,所述用户设备基于所述话语同与授权用户相关联的语音模板的相似度,生成用于所述话语的置信分值,并且将所述置信分值与阈值进行比较。此外,所述用户设备还识别与所述话语相关联的环境场境(context),诸如背景噪声的量,并且将指示所述环境场境以及所述置信分值的数据集传送至服务器,用于进一步处理。
所述服务器分析所述数据集以及来自其他设备的数据集,并且按相似的环境场境聚类这些数据集。所述服务器在每个聚类中选择特定数据集,并且选择与该数据集相关联的置信分值作为阈值。
基于特定百分比的话语应被接受的构思,选择数据集的一种方式是使用凭经验定义的目标拒绝率。所述服务器将所选择的数据集的置信分值与对应的环境场境配对并且将所述置信分值作为针对所述对应的环境场境的阈值提供给所述用户设备以及其他用户设备。所述阈值表示用于针对特定环境场境来验证说话者的截止置信分值。通过针对不同环境场境的不同阈值,所述用户设备当在诸如低噪声环境的一个环境场境中试图辨识用户的语音时可以要求较高的置信分值,并且当在诸如高噪声环境的另一个环境场境中试图辨识用户的语音时可以要求较低的置信分值。
一般而言,在本说明书中所述主题的另一个创新性方面可以被体现成多种方法,所述方法包括以下动作:针对热词的多个话语中的每一个,接收一个数据集,该数据集至少包括:(i)与所述话语相关联的说话者验证置信分值,以及(ii)与所述话语相关联的环境场境数据;从多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集;基于一个或多个选择准则,从所述多个数据集的所述子集当中选择特定数据集;选择包括在所述特定数据集中的所述说话者验证置信分值作为针对所述特定环境场境的说话者验证阈值;并且提供所述说话者验证阈值以用于执行对与所述特定环境场境相关联的话语的说话者验证。
这些及其他实施例能够各自可选包括以下特征中的一个或多个。所述环境场境数据指定在接收到所述话语的前一刻所检测到的噪声量。所述环境场境数据指定所述话语的响度。所述环境场境数据指定编码所述话语的音频信号的响度的信噪比。所述一个或多个选择准则是凭经验定义的拒绝率。所述动作包括用与所述话语相关联的后触发准确性指示符来标记所述多个数据集。所述动作包括用不同的第二说话者验证置信分值来标记所述多个数据集。所述多个数据集各自进一步包括编码所述话语的音频信号。从所述多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集的动作包括:确定环境场境数据范围;以及选择所述多个数据集的子集,所述子集包括在所述环境场境数据范围内的与所述话语相关联的环境场境数据。
基于一个或多个选择准则而从所述多个数据集的所述子集当中选择特定数据集的动作包括:基于所述一个或多个选择准则而确定阈值;以及从所述多个数据集的所述子集当中识别所述特定数据集,所述特定数据集不及所述多个数据集的所述子集中的其他数据集满足所述阈值。所述动作包括从所述多个数据集当中选择所述多个数据集的多个子集,所述多个子集各自与相应的特定环境场境相关联;基于所述一个或多个选择准则,选择多个特定数据集,每个特定数据集来自所述多个数据集的相应的子集;选择包括在每个特定数据集中的多个说话者验证置信分值作为多个说话者验证阈值,所述说话者验证阈值中的每一个针对所述相应的特定环境场境;以及提供所述多个说话者验证阈值以用于执行对与所述相应的特定环境场境相关联的话语的说话者验证。
所述动作包括从所述多个数据集当中选择所述多个数据集的多个子集,所述多个子集各自与相应的用户相关联;基于所述一个或多个选择准则,选择多个特定数据集,每个特定数据集来自所述多个数据集的相应的子集;选择包括在每个特定数据集中的多个说话者验证置信分值作为多个说话者验证阈值,所述说话者验证阈值中的每一个针对所述相应的用户;以及提供所述多个说话者验证阈值以用于执行对与所述相应的用户相关联的话语的说话者验证。提供所述说话者验证阈值以用于执行对与所述特定环境场境相关联的话语的说话者验证的动作包括向用户设备提供环境场境数据范围以及针对所述环境场境数据范围的说话者验证阈值。
该方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个计算机存储设备都被配置成执行所述方法的所述操作。
本说明书中所述的主题的特定实施例能够被实施以便实现以下优点中的一个或多个。设备能够在噪声环境中识别说话者。
在附图以及下面的描述中阐明在本说明书中所述主题的一个或多个实施例的细节。参阅说明书、附图和权利要求,所述主题的其他特征、方面和优势将显而易见。
附图说明
图1是用于说话者验证的示例系统的图示。
图2是用于说话者验证的示例过程的图示。
图3示出计算设备以及移动计算设备的示例。
在各图中相似的附图标号和标记指示相似的元素。
具体实施方式
图1是用于说话者验证的示例系统100的图示。一般而言,图示100示出对计算设备106的麦克风说出话语104的用户102。计算设备106处理话语104并且收集与周围环境108相关联的数据。计算设备106将基于话语104以及环境108的数据传送至包括样本聚类器132以及阈值选择器146的服务器160。服务器160处理基于话语104的数据集以及基于其他话语的数据,以识别用于在周围环境108以及相似环境中验证用户的语音的说话者验证阈值。在一些实施方式中,验证用户的语音也能够包括识别用户的语音。
在使用计算设备106的说话者验证特征之前,用户102训练计算设备106来辨识用户的语音。为了训练计算设备106,用户102在由计算设备106提示时重复几个短语。短语可以包括热词以及其他词语和短语。例如,计算设备106可以提示用户说“Ok computer”、“open”、“call”、“message”以及其他词语。计算设备106处理来自用户的语音的音频,以创建语音模板,计算设备106能够使用该语音模板在计算设备106通过麦克风接收到音频时进行比较。计算设备106可以是桌面型计算机、膝上型计算机、智能电话或者平板计算机。
一旦计算设备106具有针对用户102的语音模板,用户便能够开始说出热词以发起语音命令。计算设备102可以处于麦克风激活并且处理通过麦克风所接收到的音频的锁定状态。计算设备106接收通过麦克风所接收到的音频并且将该音频存储在缓冲器中。计算设备106可以将前几秒的音频存储在缓冲器中。例如,计算设备106可以存储五秒的音频。代替处于锁定状态,计算设备102也可以处于非锁定状态。在此情况下,麦克风可以仍是激活的并且计算设备106能够接收特定量的音频并且存储在缓冲器中。在图1所示的示例中,用户102对计算设备106说出“Ok computer”。计算设备106接收用户的语音的音频以及在用户说话之前通过麦克风所接收到的音频并且存储经缓冲的音频110,用于进一步处理。
在一些实施方式中,尾指针112从计算设备106的缓冲器接收经缓冲的音频110。尾指针112可以在由计算设备106的一个或多个处理器执行的软件中来实现。尾指针112识别经缓冲的音频110的将话音与非话音分开的音频帧并且那些音频帧是端点。在图1所示的示例中,经缓冲的音频110包括非话音音频114以及话音音频116。非话音音频114对应于在用户开始说话之前由麦克风接收到的音频,并且话音音频116对应于用户说话。例如,非话音音频114对应于在用户102开始说话之前由麦克风拾取的噪音,并且话音音频116对应于用户说出“Ok computer”。
在一些实施方式中,代替尾指针112从计算设备106的缓冲器接收经缓冲的音频110,神经网络模块接收经缓冲的音频110。神经网络模块可以在由计算设备106的一个或多个处理器执行的软件中来实现。神经网络模块分析经缓冲的音频110以识别将话音与非话音分开的音频帧。在图1所示的示例中,神经网络识别将非话音音频114与话音音频116分开的音频帧。
热词器118从尾指针112或者神经网络模块接收话音音频116。类似于尾指针112,热词器可以在由计算设备106的一个或多个处理器执行的软件中来实现。热词器118将话音音频112与热词模板进行比较并且确定用户是否说出热词。在一些实施方式中,诸如服务器160的计算设备可以从说出热词并且组合每个热词音频片段的多个用户生成热词模板。热词模板可以是如由多个用户说出的热词音频片段的平均。在一些实施方式中,服务器160可以从说出热词的单个用户生成热词模板。在此情况下,热词模板可以是由单个用户说出的多个热词音频片段的平均。
说话者验证模块120从尾指针112接收经缓冲的音频110并且计算说话者验证置信分值122。说话者验证模块120的评分器124计算说话者验证置信分值122。说话者验证置信分值122反映用户的语音被捕捉到话音音频116中的可能性。为了计算说话者验证置信分值122,评分器124将话音音频116与针对用户的语音模板进行比较。在一些实施方式中,说话者验证置信分值122是介于0与1之间的值。用户的语音被记录在话音音频116中的可能性越高,则说话者验证置信分值122越接近于1。
说话者验证模块120的环境场境检测器125分析经缓冲的音频110以确定与经缓冲的音频110相关联的环境场境数据126。环境场境可以与非话音音频114的响度、话音音频116的响度或者话音音频116的响度与非话音音频114的响度的比相关。响度可以是非话音音频114、话音音频116的分贝水平或者二者之比。
使用说话者验证置信分值122以及环境场境126,说话者验证模块120使用阈值128来推断话音音频116是否对应于用户。根据环境场境126,可以存在不同的阈值。例如,如果环境场境指示非话音音频114的噪音水平是五十八分贝,则说话者验证模块120可以使用针对五十至六十分贝范围的阈值。说话者验证模块120将该阈值与说话者验证置信分值122进行比较,并且如果说话者验证置信分值122满足阈值,则说话者验证模块推断出说出话音音频116的说话者是授权用户。在一些实施方式中,如果说话者验证置信分值122大于或等于阈值,则说话者是授权用户。例如,如果阈值是0.7并且说话者验证置信分值122是0.7,则计算设备106推断出说话者是授权用户。
说话者验证模块120将说话者验证置信分值122以及环境场境数据126存储到数据集130中。在图1所示的示例中,数据集130包括0.7的说话者验证置信分值122以及58分贝的环境场境数据126。在一些实施方式中,数据集还包括经缓冲的音频110。
样本聚类器132从计算设备106接收数据集130。样本聚类器132可以在服务器的一个或多个处理器上运行的软件中来实现。样本聚类器132能够通过网络从计算设备106接收数据集130。样本聚类器132每当热词器118检测到说出的热词时也从计算设备106接收其他数据集并且从对他们相应的计算设备说出热词的其他用户134接收其他数据集。
在一些实施方式中,第二说话者验证模块136计算附加值以添加到数据集。包括样本聚类器132的服务器160也可以包括第二说话者验证模块136,其执行对经缓冲的音频110的处理。第二说话者验证模块136可以执行对经缓冲的音频110的更加鲁棒的分析,这在处理能力有限的计算设备106上可能无法实现。第二说话者验证模块136计算在以下方面与说话者验证模块120类似的值:该值可以介于0与1之间并且越接近1指示话音音频116与语音模板之间的匹配越接近。样本聚类器132可以将来自第二说话者验证模块136的说话者验证置信分值添加到每个数据集。
在一些实施方式中,准确性反馈模块138计算附加值以添加到数据集。准确性反馈模块138可以聚集从用户102收集的、关于用户在使用计算设备106的说话者验证特征中成功和失败的数据。可能存在用户102对计算设备106的麦克风说出热词而该计算设备106没有辨识用户102的情况。这被认为是假拒绝。替选地,可能存在冒名顶替者对计算设备106的麦克风说出热词而计算设备106不准确地将冒名顶替者识别为用户102的情况。这被认为是假接受。假接受的另一示例是用户102或冒名顶替者说出类似于热词的词语而计算设备106不准确地确定用户102说出热词。例如,用户102可能说出“hey scooter”,而计算设备106不正确地确定用户102说出“ok computer”。对用户102的准确验证是真接受,并且对冒名顶替者或者非热词的准确拒绝是真拒绝。
为了聚集来自用户102的反馈,计算设备106可以提示用户102密码或者通过除说话者验证外的其他方式验证用户的身份。一旦用户的身份被验证,计算设备106便可以关于用户102是否曾在特定时间试图使用说话者验证特征来访问计算设备106而提示用户102。用户102可以将每次访问尝试标记为真接受、真拒绝、假接受或者假拒绝。计算设备102将用户反馈提供给准确性反馈模块138。准确性反馈模块132将用户反馈添加到数据集130。
在用户102识别假拒绝的情况下,计算设备可以使用经缓冲的音频110以进一步细化被使用于辨识用户102的语音模板。作为示例,用户102说出“Ok computer”,并且计算设备106的热词器118辨识所说的热词。因为话语的说话者验证分值在针对用户正在说话的环境场境的说话者验证阈值以下,所以计算设备106的说话者验证模块120并未辨识用户的语音。计算设备106提示用户102,用户102是否曾说出“Ok computer”。用户102确认,用户102曾说出“Ok computer”,并且计算设备将该话语标记为假拒绝。由于计算设备没有辨识用户的语音,因此说话者验证模块120用最新的话语更新语音模板,以便改进对于用户102的说话者验证并且减少假拒绝以及假接受。
在一些实施方式中,第二说话者验证模块136向数据集添加指示数据集是对应于真拒绝、真接受、假拒绝还是假接受的标签。在此情况下,计算设备106在数据集130中包括指示说话者验证模块120是否将话音音频116识别为对应于语音模板的附加数据段。第二说话者验证模块136对经缓冲的音频110执行附加计算,以识别说话者验证模块120是作出真拒绝、真接受、假拒绝还是假接受。与计算设备106的计算资源相比,第二说话者验证模块136可以具有较多的可用计算资源。
根据相似的环境场境数据,样本聚类器132聚类数据集130以及其它数据集。样本聚类器132确定一个或多个环境场境数据范围,以致每个环境场境数据范围将包括最少数目的数据集。例如,样本聚类器132针对每个环境场境数据范围可以具有的最少数目的数据集为八百个数据集。在图1所示的示例中,样本聚类器132识别三个数据集聚类。数据集聚类140包含具有五十至六十分贝之间的环境场境数据的数据集。数据集聚类142包含具有六十至七十分贝之间的环境场境数据的数据集。数据集聚类144包含具有七十至八十分贝之间的环境场境数据的数据集。
在一些实施方式中,样本聚类器132聚类数据集130以及对应于由相同用户所说出的话语的其它数据集。在图1所示的示例中,样本聚类器132可以聚类对应于由用户102所说出的话语的数据集。当仅聚类对应于由特定用户所说出的话语的数据集时,每个环境场境所需的数据集的最少数目可以不同于当聚类对应于由多个用户所说出的话语的数据集时数据集的最少数目。
阈值选择器146使用选择准则148以从每个数据集聚类中选择特定数据集。所选择的数据集聚类是以下数据集:阈值选择器选择该数据集作为包括待用作用于与环境场境数据范围内的环境场境数据相关联的未来说话者验证置信值的说话者验证置信阈值的说话者验证置信值的数据集。在一些实施方式中,选择准则是凭经验定义的目标拒绝率。凭经验定义的目标拒绝率基于分析过去热词话语数据。在分析过去热词话语数据时,说出热词的授权用户与说出热词的冒名顶替者之间的界线可能变得明显,以致一定百分比的过去热词话语数据是来自说出热词的授权用户的。示例的凭经验定义的目标拒绝率是百分之七。采用百分之七的凭经验定义的目标拒绝率,阈值选择器146通过说话者验证分值来排名每个数据集聚类中的数据集并且选择说话者验证分值高于数据集聚类中的百分之七的数据集的数据集。
在图1所示的示例中,阈值选择器146针对数据集聚类140、142和144中的每一个识别处于百分之七目标拒绝率的数据集。如在说话者验证阈值表150中所示,包含具有五十至六十分贝之间的环境场境数据的数据集的数据集聚类140在百分之七的水平上具有包含0.7的说话者验证分值的数据集。包含具有六十至七十分贝之间的环境场境数据的数据集的数据集聚类142在百分之七的水平上具有包含0.6的说话者验证分值的数据集。包含具有七十至八十分贝之间的环境场境数据的数据集的数据集聚类144在百分之七的水平上具有包含0.4的说话者验证分值的数据集。
在一些实施方式中,阈值选择器146可以使用来自准确性反馈模块138的附加数据。采用来自准确性反馈模块138的数据,阈值选择器146通过说话者验证分值来排名每个数据集聚类中的数据集。阈值选择器146可以选择最好地将每个数据集组中的接受与拒绝分开的数据集,并且用于所选择的数据集的说话者验证置信分值是针对该数据集聚类的环境场境数据范围的说话者验证置信阈值。在每个数据集聚类中,所选择的数据集可以处于不同的百分率水平。当选择将每个数据集聚类中的接受与拒接分开的数据集时,因为数据集中的一些很可能是假拒绝和假接受,所以界线可能并不明显。在这些情况下,阈值选择器146可以选择划分数据集聚类的数据集,以致大多数的假拒绝与真接受在一侧,并且假接受与真拒绝在一侧。阈值选择器146也可以使用由第二说话者验证模块136添加并且以与来自准确性反馈模块138的附加数据相似的方式指示数据集是对应于真拒绝、真接受、假拒绝还是假接受的标签。
在一些实施方式中,阈值选择器146可以使用来自第二说话者验证模块136的附加数据。采用来自第二说话者验证模块136的数据,阈值选择器146可以通过来自第二说话者验证模块136的说话者验证置信分值来排名每个数据集聚类中的数据集。阈值选择器146可以使用凭经验定义的目标拒绝率来划分每个数据集聚类。阈值选择器146可以选择来自第二说话者验证模块136的说话者验证置信分值或者来自第二说话者验证模块120的说话者验证置信分值作为说话者验证置信阈值。
在一些实施方式中,阈值选择器146可以使用来自第二说话者验证模块136的附加数据以及来自准确性反馈模块138的附加数据两者。在此情况下,如前所述,阈值选择器146可以使用来自第二说话者验证模块136的说话者验证置信分值来排名数据集,并且基于来自说话者准确性反馈模块138的附加数据来选择数据集聚类。类似于上文,阈值选择器146可以选择来自第二说话者验证模块136的说话者验证置信分值或者来自第二说话者验证模块120的说话者验证置信分值作为说话者验证置信阈值。
阈值选择器146将说话者验证阈值表150提供给计算设备106以及其它计算设备152以便使用于说话者验证。阈值选择器146可以将说话者验证阈值表150周期性地,诸如每星期,或者作为其它软件更新的一部分,提供给计算设备。替选地,阈值选择器146可以在受到计算设备提示时将说话者验证阈值表150提供给计算设备。如果用户102频繁提供反馈,表明说话者验证阈值模块120具有许多假接受或者假拒绝,则计算设备120可以请求更新的说话者验证阈值表150。一旦计算设备120接收到说话者验证阈值表150,计算设备120便将说话者验证阈值表150存储在阈值128中,用于未来的说话者验证。
图2是用于说话者验证的示例过程200的图示。过程200可以由计算设备来执行,诸如图1中的包括样本聚类器132以及阈值选择器146的服务器160。过程200分析有关说话者验证的数据集并且计算说话者验证置信分值的阈值,以便用于不同的环境场境。
计算设备针对热词的多个话语中的每一个,接收数据集,该数据集至少包括:(i)与所述话语相关联的说话者验证置信分值,以及(ii)与所述话语相关联的环境场境数据(210)。数据集由从用户接收热词的话语的用户设备来创建。用户设备通过将热词话语与针对用户的语音模板进行比较而计算说话者验证置信分值。用户设备计算环境场境数据,其通常基于话语的噪声水平。在一些实施方式中,环境场境数据指定在用户说出话语之前的时间段内由用户设备检测到的噪声量。例如,环境场境数据可以基于在用户说话之前的特定时间段内所接收的音频信号的均方根或者分贝水平。在一些实施方式中,环境场境数据可以基于话语的响度。例如,环境场境数据可以基于话语的均方根或者分贝水平。在一些实施方式中,环境场境数据可以基于话语的信噪比或者是在用户说话之前的特定时间段内所接收的音频信号的响度与话语的响度之比。
在一些实施方式中,计算设备可以将附加数据添加到数据集。计算设备可以添加后触发准确性指示符。在用户设备基于音频信号进行关于用户的验证的确定之后,计算设备可以聚集后触发准确性数据。例如,用户设备拒绝对使用说话者验证特征的用户尝试并且再通过提示用户输入密码来认证用户。在此情况下,计算设备能够向数据集添加该数据集表示假拒绝。在一些实施方式中,用户设备也可以包括数据集中的音频信号。计算设备可以分析音频信号以计算不同的第二说话者验证置信分值,以包含在数据集中。
计算设备从数据集当中选择与特定环境场境相关联的数据集的子集(220)。计算设备基于环境场境数据来聚类数据集,以致聚类各自包括至少最少数目的数据集。计算设备可以选择环境场境数据范围以聚类数据集。例如,计算设备可以基于在用户说话之前的特定时间段内所接收的音频信号的响度来聚类数据集。
计算设备基于一个或多个选择准则,从数据集的子集当中选择特定数据集(230)。计算设备根据环境场境数据来排名数据集的子集。在一些实施方式中,计算设备可以基于凭经验定义的目标拒绝率来选择特定数据集。在一些实施方式中,计算设备可以基于后触发准确性数据来选择特定数据集。在一些实施方式中,计算设备可以根据不同的第二说话者验证置信分值来排名数据集的子集并且基于不同的第二说话者验证置信分值来选择特定数据集。
计算设备选择包括在特定数据集中的说话者验证置信分值作为针对特定环境场境的说话者验证阈值(240)。例如,计算设备在五十至六十分贝的环境场境数据范围内选择具有0.7的说话者验证置信分值的数据集。0.7的说话者验证置信分值是用于五十至六十分贝范围内的话语的说话者验证置信阈值。
计算设备提供说话者验证阈值以便使用于执行对与特定环境场境相关联的话语的说话者验证(250)。在一些实施方式中,计算设备将环境场境数据范围和对应的说话者验证置信阈值以及其它的环境场境数据范围和对应的说话者验证置信阈值提供给用户设备以便使用于说话者验证。
在一些实施方式中,计算设备基于环境场境数据来选择由特定用户说出的数据集的子集。在此情况下,计算设备识别针对特定用户的说话者验证阈值并且将对应的说话者验证阈值以及环境场境数据提供给特定用户的设备。计算设备也可以使用来自后触发准确性指示符的数据以及不同的第二说话者验证分值来识别针对特定用户的说话者验证阈值。
本说明书中所述的主题的实施例以及操作能够在数字电路中、或者在计算机软件、固件或硬件中、或者其中一个或多个的组合中来实现,包括本说明书中所公开的结构以及其结构等同物。本说明书中所述的主题的实施例能够被实现为一个或多个计算机程序,即在计算机存储介质上编码的计算机程序指令的一个或多个模块,用于由数据处理装置来执行或者控制其操作。替选地或附加地,程序指令能够被编码于人工生成的传播信号上,例如机器生成的电子、光学或者电磁信号,该信号被生成以编码用于传输至适当的接收器装置的信息,以便由数据处理装置来执行。计算机存储介质能够是计算机可读的存储设备、计算机可读的存储衬底、随机或串行存取存储器阵列或设备或者其中一个或多个的组合,或者包括在其中。此外,尽管计算机存储介质并非传播信号,但计算机存储介质能够是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也能够是一个或多个单独的物理组件或介质(例如,多个CD、盘或者其他存储设备),或者包括在其中。
在本说明书中所述的操作能够被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其他源接收的数据执行的操作。
术语“数据处理装置”涵盖所有类型的用于处理数据的装置、设备和机器,例如包括可编程的处理器、计算机、片上系统或者前述项的多个或组合。所述装置能够包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。所述装置除硬件之外还能够包括为考虑中的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或者其中一个或多个的组合的代码。所述装置和执行环境能够实现各种不同计算模型的基础设施,诸如web服务、分布式计算以及网格计算的基础设施。
计算机程序(也称为程序、软件、软件应用、脚本或者代码)能够以任何形式的编程语言来编写,包括编译或解释语言、声明性或过程式语言,并且其能够以任何形式来部署,包括部署为独立程序或者模块、组件、子例程、对象或者适于在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序能够被存储于保存其他程序或者数据(例如存储成标记语言文档的一个或多个脚本)的文件的一部分中、专用于考虑中的程序的单个文件中或者多个协作文件(例如存储一个或多个模块、子程序或者代码的多个部分的文件)中。计算机程序能够被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且通过通信网络而互联的多个计算机上来执行。
本说明书中所述的过程以及逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行动作的一个或多个可编程处理器来执行。所述的过程以及逻辑流程也能够通过专用逻辑电路来执行,并且装置也能够被实现为专用逻辑电路,所述专用逻辑电路例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。
适于执行计算机程序的处理器例如包括通用和专用的微处理器以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器会从只读存储器或随机存取存储器或者二者接收指令和数据。计算机的基本元素是用于根据指令来执行动作的处理器以及用于存储指令和数据的一个或多个存储设备。通常,计算机还会包括或者可操作地耦合至用于存储数据的一个或多个大容量存储设备以自其接收数据或向其传送数据或者两者,所述大容量存储设备例如磁盘、磁光盘或者光盘。然而,计算机不必具有这样的设备。此外,计算机能够被嵌入另一设备,例如,移动电话、个人数字助理(PDA)、移动式音频或视频播放器、游戏机、全球定位系统(GPS)接收器或者便携式存储设备(例如通用串行总线(USB)闪盘驱动器),仅此举出几例。适于存储计算机程序指令和数据的设备包括所有形式的非易失存储器、介质和存储设备,例如包括半导体存储设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内置硬盘或可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器能够增加或结合专用逻辑电路。
为提供与用户的交互,本说明书中所述的主题的实施例能够在计算机上来实现,该计算机具有用于将信息显示给用户的显示设备,例如CRT(阴极射线管)或者LCD(液晶显示器)监视器,以及用户能够借以向计算机提供输入的键盘和定点设备,例如鼠标或跟踪球。其他种类的设备也能够被使用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或者触觉反馈;并且来自用户的输入能够以任何形式来接收,包括声音、话音或者触觉输入。此外,计算机能够通过将文档发送至由用户所使用的设备并且从由用户所使用的设备接收文档,例如通过响应于从用户的客户端设备上的web浏览器所接收的请求而将网页发送至该web浏览器,来与用户交互。
本说明书中所述主题的实施例能够在包括例如作为数据服务器的后端组件、包括例如应用服务器的中间件组件、包括例如具有用户能够借以与本说明书中所述主题的实施方式交互的图形用户界面或者web浏览器的客户端计算机的前端组件或者一个或多个这样的后端、中间件或前端组件的任意组合的计算系统中来实现。系统的组件能够通过任何形式或者介质的数字数据通信来互联,例如,通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网(例如,因特网)以及点对点网络(例如,ad-hoc点对点网络)。
一个或多个计算机的系统能够被配置成借助具有安装于所述系统上、在操作中使得所述系统执行动作的软件、固件、硬件或其组合而执行特定的操作或动作。一个或多个计算机程序能够被配置成借助包括当由数据处理装置执行时使得所述装置执行所述动作的指令而执行特定的操作或动作。
计算系统能够包括客户端以及服务器。客户端与服务器一般彼此远离,并且通常通过通信网络来进行交互。客户端与服务器的关系借助在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序来实现。在一些实施例中,服务器将数据(例如,HTML页面)传送至客户端设备(例如,目的在于向与客户端设备交互的用户显示数据并且从该用户接收用户输入)。在客户端设备处所生成的数据(例如,用户交互的结果)能够在服务器处从客户端设备来接收。
虽然本说明书包含许多特定的实施方式细节,但这些不应当被解释为对任何发明或者可能要求保护的内容的范围的限制,而应被理解为针对特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也能够在单个实施例中组合来实施。反之,在单个实施例的上下文中描述的各种特征也能够单独地在多个实施例中或者以任何适当的子组合来实施。此外,尽管在上文可以将特征描述为以某些组合进行动作乃至最初如此要求保护特征,但来自要求保护的组合的一个或多个特征在一些情况下能够从所述组合中排除,并且所要求保护的组合可以涉及子组合或者子组合的变型。
类似地,虽然在图中以特定顺序来描绘操作,但这不应被理解为要求以所示的特定顺序或者以相继顺序来执行这样的操作,或者执行所有图示的操作,以获得期望的结果。在某些情况下,多任务以及并行处理可能是有利的。此外,上述实施例中的各种系统组件的分离不应被理解为在所有实施例中要求这样的分离,而应理解的是,所述的程序组件和系统一般能够一起被集成于单个软件产品中或者被封装到多个软件产品中。
因此,已对所述主题的特定实施例进行了描述。其他实施例在所附权利要求的范围内。在一些实例中,能够以不同的顺序来执行权利要求中所述的动作并且仍然获得期望的结果。此外,在附图中所描绘的过程不一定要求所示的特定顺序或者相继顺序来获得期望的结果。在某些实施方式中,多任务以及并行处理可能是有利的。
图3示出能够被使用于实现本文所述技术的计算设备300以及移动计算设备350。计算设备300旨在表示各种形式的数字计算机,诸如膝上型计算机、桌面型计算机、工作站、个人数字助理、服务器、刀片服务器、主机以及其他适当的计算机。移动计算设备350旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话以及其他类似的计算设备。在此所示的组件、它们的连接和关系以及它们的功能意在仅作示例,而并非意在是限制性的。
计算设备300包括处理器302、存储器304、存储设备306、连接至存储器304和多个高速扩展端口310的高速接口308以及连接至低速扩展端口314和存储设备306的低速接口312。处理器302、存储器304、存储设备306、高速接口308、高速扩展端口310以及低速接口312中的每一个使用各种总线来互联,并且可以被安装于公共母板上或者酌情以其他方式安装。处理器302能够处理用于在计算设备300内执行的指令,包括存储在存储器304中或者存储设备306上的指令,以在诸如耦合至高速接口308的显示器316的外部输入/输出设备上显示GUI图形信息。在其他实施方式中,可以酌情使用多个处理器和/或多个总线连同多个存储器和多种类型的存储器。此外,可以连接多个计算设备,每个设备提供所需操作的多个部分(例如,作为服务器组(server bank)、刀片服务器组或者多处理器系统)。
存储器304存储计算设备300内的信息。在一些实施方式中,存储器304是一个或多个易失性存储器单元。在一些实施方式中,存储器304是一个或多个非易失性存储器单元。存储器304也可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备306能够为计算设备300提供大容量存储。在一些实施方式中,存储设备306可以是或者包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或者带设备、闪存或者其他类似的固态存储器设备、或者设备的阵列,包括存储区域网络或者其他配置中的设备。指令能够被存储在信息载体中。指令当由一个或多个处理设备(例如处理器302)执行时执行一个或多个方法,诸如上文所述那些方法。指令也能够由诸如计算机或机器可读的介质的一个或多个存储设备来存储(例如,存储器304、存储设备306或者处理器302上的存储器)。
高速接口308管理用于计算设备300的带宽密集(bandwidth-intensive)操作,而低速接口312管理较低的带宽密集操作。这样的功能分配仅为示例。在一些实施方式中,高速接口308耦合至存储器304、显示器316(例如,通过图形处理器或者加速器)以及可以接受各种扩展卡(未示出)的高速扩展端口310。在该实施方式中,低速接口312耦合至存储设备306以及低速扩展端口314。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口314可以耦合至一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或者诸如通过例如网络适配器的交换机或者路由器的网络设备。
如图中所示,计算设备300可以以数种不同的形式来实现。例如,它可以被实现为标准服务器320或者多倍这样的服务器组。此外,它可以被实现在诸如膝上型计算机322的个人计算机中。它还可以被实现为架式(rack)服务器系统324的一部分。替选地,来自计算设备300中的组件可以与诸如移动计算设备350的移动设备(未示出)中的其他组件组合。这样的设备中的每一个可以包含计算设备300以及移动计算设备350中的一个或多个,并且整个系统可以由相互通信的多个计算设备组成。
移动计算设备350除其他组件外还包括处理器352、存储器364、诸如显示器354的输入/输出设备、通信接口366以及收发器368。移动计算设备350还可以具有用于提供附加存储的存储设备,诸如微驱动器或者其他设备。处理器352、存储器364、显示器354、通信接口366以及收发器368中的每一个使用各种总线互联,并且组件中的几个可以被安装在公共母板上或者酌情以其他方式安装。
处理器352可以执行移动计算设备350内的指令,包括存储在存储器364中的指令。处理器352可以被实现为包括单独的多个模拟和数字处理器的芯片的芯片组。例如,处理器352可以提供移动计算设备350的其他组件的协作,诸如用户界面的控制、由移动计算设备350运行的应用以及通过移动计算设备350的无线通信。
处理器352可以通过耦合至显示器354的控制接口358以及显示器接口356与用户通信。例如,显示器354可以是TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机发光二极管)显示器或者其他适当的显示技术。显示器接口356可以包括用于驱动显示器354将图形信息以及其他信息呈现给用户的适当电路。控制接口358可以从用户接收命令并且将它们进行变换以便提交给处理器352。此外,外部接口362可以提供与处理器352的通信,以便实现移动计算设备350与其他设备的邻近区域通信。例如,外部接口362可以提供在一些实施方式中的有线通信,或者在其他实施方式中的无线通信,并且还可以使用多个接口。
存储器364存储移动计算设备350内的信息。存储器364能够被实现为以下中的一个或多个:一种或多种计算机可读介质、一个或多个易失性存储单元或者一个或多个非易失性存储单元。还可以提供扩展存储器374并且通过扩展接口372连接至移动计算设备350,该扩展接口372可以包括例如SIMM(单列直插存储模块)卡接口。扩展存储器374可以提供用于移动计算设备350的额外存储空间,或者还可以存储用于移动计算设备350的应用或者其他信息。具体地,扩展存储器374可以包括用于实行或者补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器374可以被提供作为用于移动计算设备350的安全模块,并且可以用允许移动计算设备350的安全使用的指令来进行编程。此外,安全应用可以连同附加信息一起经由SIMM卡来提供,诸如将识别信息以不可遭受黑客攻击的方式设置在SIMM卡上。
存储器可以包括例如快闪存储器和/或NVRAM存储器(非易失性随机存取存储器),如下文所讨论。在一些实施方式中,指令被存储在信息载体中,指令当由一个或多个处理设备(例如处理器352)执行时执行一个或多个方法,诸如上文所述那些方法。指令也能够由诸如一个或多个计算机或机器可读的介质的一个或多个存储设备来存储(例如,存储器364、扩展存储器374或者处理器352上的存储器)。在一些实施方式中,能够在传播信号中接收指令,例如通过收发器368或者外部接口362。
移动计算设备350可以通过通信接口366进行无线通信,该通信接口366必要时可以包括数字信号处理电路。通信接口366可以提供在各种模式或者协议下的通信,诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息收发服务)或者MMS消息收发(多媒体消息收发服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或者GPRS(通用分组无线电服务)等等。这样的通信可以例如通过使用射频的收发器368来发生。此外,可以发生短距离通信,诸如使用蓝牙、WiFi或者其他这样的收发器(未示出)。此外,GPS(全球定位系统)接收器模块370可以将另外的导航与位置相关的无线数据提供给移动计算设备350,其可以酌情供移动计算设备350上运行的应用使用。
移动计算设备350还可以使用音频编解码器360来进行可听通信,该音频编解码器360可以从用户接收所说的信息并且将其变换为可用的数字信息。音频编解码器360可以同样为用户生成可听声音,诸如通过例如在移动计算设备350的听筒中的扬声器。这样的声音可以包括来自语音电话呼叫的声音,可以包括已记录的声音(例如,语音消息、音乐文件等)并且还可以包括通过在移动计算设备350上操作的应用所生成的声音。
移动计算设备350可以以数种不同的形式来实现,如图中所示。例如,它可以被实现为蜂窝电话380。它还可以被实现为智能电话382、个人数字助理或者其他类似的移动设备的一部分。
本文所述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中来实现。这些各种实施方式可以包括可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,所述可编程系统包括耦合以从存储系统接收数据和指令并且向存储系统传送数据和指令的、可以是专用或通用的至少一个可编程处理器、至少一个输入设备以及至少一个输出设备。
这些计算机程序(也被称作程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令,并且能够以高级程序语言和/或面向对象的编程语言和/或汇编/机器语言来实现。如本文中所使用,术语机器可读介质和计算机可读介质是指用于将机器指令和/或数据提供给可编程处理器的任意计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语机器可读信号是指用于将机器指令和/或数据提供给可编程处理器的任意信号。
为提供与用户的交互,本文所述的系统和技术能够在计算机上来实现,该计算机具有用于将信息显示给用户的显示设备(例如CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户能够借以向计算机提供输入的键盘和定点设备(例如鼠标或跟踪球)。其他种类的设备也能够被使用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈(例如,视觉反馈、听觉反馈或者触觉反馈);并且来自用户的输入能够以任何形式来接收,包括声音、话音或者触觉输入。
本文所述的系统和技术能够在包括后端组件(例如作为数据服务器)、包括中间件组件(例如应用服务器)、包括前端组件(例如具有用户能够借以与本文所述的系统和技术的实施方式交互的图形用户界面或者web浏览器的客户端计算机)或者这样的后端、中间件或前端组件的任意组合的计算系统中来实现。系统的组件能够通过任何形式或者介质的数字数据通信(例如,通信网络)来互联。通信网络的示例包括局域网(LAN)、广域网(WAN)以及因特网。
计算系统能够包括客户端以及服务器。客户端与服务器一般彼此远离,并且通常通过通信网络来进行交互。客户端与服务器的关系借助在相应计算上运行并且彼此具有客户端-服务器关系的计算机程序来实现。
虽然上文已详细描述几个实施方式,但其他修改可行。例如,尽管客户端应用被描述为访问代表,但在其他实施方式中,代表可以供由一个或多个处理器实现的其他应用所采用,诸如在一个或多个服务器上执行的应用。此外,在附图中所描绘的逻辑流程并不要求所示的特定顺序或者相继顺序来获得期望的结果。此外,可以提供其他动作,或者可以从所述的流程中除去多个动作,并且可以将其他组件添加到所述系统,或者从所述系统移除其他组件。因此,其他实施方式在所附权利要求的范围内。
Claims (40)
1.一种计算机实施的方法,包括:
针对热词的多个话语中的每一个,接收一个数据集,该数据集至少包括:(i)与所述话语相关联的说话者验证置信分值,以及(ii)与所述话语相关联的环境场境数据;
从多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集;
基于一个或多个选择准则,从所述多个数据集的所述子集当中选择特定数据集;
选择包括在所述特定数据集中的所述说话者验证置信分值作为针对所述特定环境场境的说话者验证阈值;以及
提供所述说话者验证阈值来输出给说话者验证系统以用于执行对与所述特定环境场境相关联的话语的说话者验证。
2.如权利要求1所述的方法,其中,所述环境场境数据指定在接收到所述话语的前一刻所检测到的噪声量。
3.如权利要求1所述的方法,其中,所述环境场境数据指定所述话语的响度。
4.如权利要求1所述的方法,其中,所述环境场境数据指定编码所述话语的音频信号的响度的信噪比。
5.如权利要求1所述的方法,其中,所述一个或多个选择准则是凭经验定义的拒绝率。
6.如权利要求1所述的方法,包括:
用与所述话语相关联的后触发准确性指示符来标记所述多个数据集。
7.如权利要求1所述的方法,包括:
用不同的第二说话者验证置信分值来标记所述多个数据集。
8.如权利要求1所述的方法,其中,所述多个数据集的每一个进一步包括编码所述话语的音频信号。
9.如权利要求1所述的方法,其中,从所述多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集包括:
确定环境场境数据范围;以及
选择所述多个数据集的所述子集,所述子集包括在所述环境场境数据范围内的与所述话语相关联的所述环境场境数据。
10.如权利要求1所述的方法,其中,基于一个或多个选择准则而从所述多个数据集的所述子集当中选择特定数据集包括:
基于所述一个或多个选择准则而确定阈值;以及
从所述多个数据集的所述子集当中识别所述特定数据集,所述特定数据集不及所述多个数据集的所述子集中的其他数据集满足所述阈值。
11.如权利要求1所述的方法,包括:
从所述多个数据集当中选择所述多个数据集的多个子集,所述多个子集各自与相应的特定环境场境相关联;
基于所述一个或多个选择准则,选择多个特定数据集,每个特定数据集来自所述多个数据集的相应的子集当中;
选择包括在每个特定数据集中的多个说话者验证置信分值作为多个说话者验证阈值,所述说话者验证阈值中的每一个针对所述相应的特定环境场境;以及
提供所述多个说话者验证阈值来输出给所述说话者验证系统以用于执行对与所述相应的特定环境场境相关联的话语的说话者验证。
12.如权利要求1所述的方法,包括:
从所述多个数据集当中选择所述多个数据集的多个子集,所述多个子集各自与相应的用户相关联;
基于所述一个或多个选择准则,选择多个特定数据集,每个特定数据集来自所述多个数据集的相应的子集当中;
选择包括在每个特定数据集中的多个说话者验证置信分值作为多个说话者验证阈值,所述说话者验证阈值中的每一个针对所述相应的用户;以及
提供所述多个说话者验证阈值来输出给所述说话者验证系统以用于执行对与所述相应的用户相关联的话语的说话者验证。
13.如权利要求1所述的方法,其中,提供所述说话者验证阈值来输出给所述说话者验证系统以用于执行对与所述特定环境场境相关联的话语的说话者验证包括:
提供环境场境数据范围以及针对所述环境场境数据范围的说话者验证阈值来输出给用户设备。
14.一种用于说话者验证的系统,包括:
一个或多个计算机以及存储指令的一个或多个存储设备,所述指令当由所述一个或多个计算机来执行时可操作成使得所述一个或多个计算机执行操作,所述操作包括:
针对热词的多个话语中的每一个,接收一个数据集,该数据集至少包括:(i)与所述话语相关联的说话者验证置信分值,以及(ii)与所述话语相关联的环境场境数据;
从多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集;
基于一个或多个选择准则,从所述多个数据集的所述子集当中选择特定数据集;
选择包括在所述特定数据集中的所述说话者验证置信分值作为针对所述特定环境场境的说话者验证阈值;以及
提供所述说话者验证阈值来输出给说话者验证系统以用于执行对与所述特定环境场境相关联的话语的说话者验证。
15.如权利要求14所述的系统,其中,从所述多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集包括:
确定环境场境数据范围;以及
选择所述多个数据集的所述子集,所述子集包括在所述环境场境数据范围内的与所述话语相关联的所述环境场境数据。
16.如权利要求14所述的系统,其中,基于一个或多个选择准则而从所述多个数据集的所述子集当中选择特定数据集包括:
基于所述一个或多个选择准则而确定阈值;以及
从所述多个数据集的所述子集当中识别所述特定数据集,所述特定数据集不及所述多个数据集的所述子集中的其他数据集满足所述阈值。
17.如权利要求14所述的系统,其中,所述操作进一步包括:
从所述多个数据集当中选择所述多个数据集的多个子集,所述多个子集各自与相应的特定环境场境相关联;
基于所述一个或多个选择准则,选择多个特定数据集,每个特定数据集来自所述多个数据集的相应的子集当中;
选择包括在每个特定数据集中的多个说话者验证置信分值作为多个说话者验证阈值,所述说话者验证阈值中的每一个针对所述相应的特定环境场境;以及
提供所述多个说话者验证阈值来输出给所述说话者验证系统以用于执行对与所述相应的特定环境场境相关联的话语的说话者验证。
18.如权利要求14所述的系统,其中,所述操作进一步包括:
从所述多个数据集当中选择所述多个数据集的多个子集,所述多个子集各自与相应的用户相关联;
基于所述一个或多个选择准则,选择多个特定数据集,每个特定数据集来自所述多个数据集的相应的子集;
选择包括在每个特定数据集中的多个说话者验证置信分值作为多个说话者验证阈值,所述说话者验证阈值中的每一个针对所述相应的用户;以及
提供所述多个说话者验证阈值来输出给所述说话者验证系统以用于执行对与所述相应的用户相关联的话语的说话者验证。
19.如权利要求14所述的系统,其中,提供所述说话者验证阈值来输出给说话者验证系统以用于执行对与所述特定环境场境相关联的话语的说话者验证包括:
提供环境场境数据范围以及针对所述环境场境数据范围的说话者验证阈值来输出给用户设备。
20.一种非暂时性计算机可读介质,存储包括可由一个或多个计算机执行的指令的软件,所述指令在这样的执行后使得所述一个或多个计算机执行操作,所述操作包括:
针对热词的多个话语中的每一个,接收一个数据集,该数据集至少包括:(i)与所述话语相关联的说话者验证置信分值,以及(ii)与所述话语相关联的环境场境数据;
从多个数据集当中选择与特定环境场境相关联的所述多个数据集的子集;
基于一个或多个选择准则,从所述多个数据集的所述子集当中选择特定数据集;
选择包括在所述特定数据集中的所述说话者验证置信分值作为针对所述特定环境场境的说话者验证阈值;以及
提供所述说话者验证阈值来输出给说话者验证系统以用于执行对与所述特定环境场境相关联的话语的说话者验证。
21.一种计算机实施的方法,包括:
由使用基于语音的说话者识别的计算设备接收与预定热词的用户的话语相对应的音频数据;
响应于与所述话语相对应的所述音频数据的假拒绝,提示用户使用除基于语音的说话者识别之外的技术来验证其识别;
响应于所述用户使用除基于语音的说话者识别之外的所述技术来成功地验证其识别,提示所述用户确认与所述话语相对应的所述音频数据被假拒绝;
接收指示所述用户已确认与所述话语相对应的所述音频数据被假拒绝的数据;以及
响应于接收指示所述用户已确认与所述话语相对应的所述音频数据被假拒绝的所述数据,在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述音频数据。
22.如权利要求21所述的方法,其中,提示用户使用除基于语音的说话者识别之外的技术来验证其识别包括:
针对密码而提示所述用户。
23.如权利要求21所述的方法,包括:
响应于所述用户使用除基于语音的说话者识别之外的所述技术来成功地验证其识别,提示所述用户确认与所述预定热词的所述用户的附加话语相对应的附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝。
24.如权利要求23所述的方法,包括:
接收指示所述用户已指示与所述附加话语相对应的所述附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝的附加数据;以及
响应于接收指示所述用户已指示与所述附加话语相对应的所述附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝的所述附加数据,在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述附加的先前接收的音频数据。
25.如权利要求23所述的方法,其中,提示所述用户确认与所述预定热词的所述用户的附加话语相对应的附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝包括:
在提示所述用户的同时提供指示所述附加话语被接收的时间戳的数据以显示。
26.如权利要求21所述的方法,包括:
识别与接收与所述预定热词的用户的话语相对应的所述音频数据相关联的环境场境;
其中在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述音频数据包括在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述环境场境。
27.如权利要求26所述的方法,其中,所述环境场境指定所述话语的响度、在接收到所述话语的前一刻所检测到的噪声量、或编码所述话语的音频信号的响度的信噪比。
28.一种用于说话者验证的系统,包括:
一个或多个计算机以及存储指令的一个或多个存储设备,所述指令当由所述一个或多个计算机来执行时可操作成使得所述一个或多个计算机执行操作,所述操作包括:
由使用基于语音的说话者识别的计算设备接收与预定热词的用户的话语相对应的音频数据;
响应于与所述话语相对应的所述音频数据的假拒绝,提示用户使用除基于语音的说话者识别之外的技术来验证其识别;
响应于所述用户使用除基于语音的说话者识别之外的所述技术来成功地验证其识别,提示所述用户确认与所述话语相对应的所述音频数据被假拒绝;
接收指示所述用户已确认与所述话语相对应的所述音频数据被假拒绝的数据;以及
响应于接收指示所述用户已确认与所述话语相对应的所述音频数据被假拒绝的所述数据,在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述音频数据。
29.如权利要求28所述的系统,其中,提示用户使用除基于语音的说话者识别之外的技术来验证其识别包括:
针对密码而提示所述用户。
30.如权利要求28所述的系统,其中,所述操作进一步包括:
响应于所述用户使用除基于语音的说话者识别之外的所述技术来成功地验证其识别,提示所述用户确认与所述预定热词的所述用户的附加话语相对应的附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝。
31.如权利要求30所述的系统,其中所述操作进一步包括:
接收指示所述用户已指示与所述附加话语相对应的所述附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝的附加数据;以及
响应于接收指示所述用户已指示与所述附加话语相对应的所述附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝的所述附加数据,在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述附加的先前接收的音频数据。
32.如权利要求30所述的系统,其中,提示所述用户确认与所述预定热词的所述用户的附加话语相对应的附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝包括:
在提示所述用户的同时提供指示所述附加话语被接收的时间戳的数据以显示。
33.如权利要求28所述的系统,其中,所述操作进一步包括:
识别与接收与所述预定热词的用户的话语相对应的所述音频数据相关联的环境场境;
其中在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述音频数据包括在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述环境场境。
34.如权利要求33所述的系统,其中,所述环境场境指定所述话语的响度、在接收到所述话语的前一刻所检测到的噪声量、或编码所述话语的音频信号的响度的信噪比。
35.一种非暂时性计算机可读介质,存储包括可由一个或多个计算机执行的指令的软件,所述指令在这样的执行后使得所述一个或多个计算机执行操作,所述操作包括:
由使用基于语音的说话者识别的计算设备接收与预定热词的用户的话语相对应的音频数据;
响应于与所述话语相对应的所述音频数据的假拒绝,提示所述用户使用除基于语音的说话者识别之外的技术来验证其识别;
响应于所述用户使用除基于语音的说话者识别之外的所述技术来成功地验证其识别,提示所述用户确认与所述话语相对应的所述音频数据被假拒绝;
接收指示所述用户已确认与所述话语相对应的所述音频数据被假拒绝的数据;以及
响应于接收指示所述用户已确认与所述话语相对应的所述音频数据被假拒绝的所述数据,在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述音频数据。
36.如权利要求35所述的介质,其中,提示用户使用除基于语音的说话者识别之外的技术来验证其识别包括:
针对密码而提示所述用户。
37.如权利要求35所述的介质,其中,所述操作进一步包括:
响应于所述用户使用除基于语音的说话者识别之外的所述技术来成功地验证其识别,提示所述用户确认与所述预定热词的所述用户的附加话语相对应的附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝。
38.如权利要求37所述的介质,其中,所述操作进一步包括:
接收指示所述用户已指示与所述附加话语相对应的所述附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝的附加数据;以及
响应于接收指示所述用户已指示与所述附加话语相对应的所述附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝的所述附加数据,在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述附加的先前接收的音频数据。
39.如权利要求37所述的介质,其中,提示所述用户确认与所述预定热词的所述用户的附加话语相对应的附加的先前接收的音频数据被正确接受、正确拒绝、假接受或假拒绝包括:
在提示所述用户的同时提供指示所述附加话语被接收的时间戳的数据以显示。
40.如权利要求35所述的介质,其中,所述操作进一步包括:
识别与接收与所述预定热词的用户的话语相对应的所述音频数据相关联的环境场境;
其中在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述音频数据包括在确定与随后接收的所述预定热词的所述用户的话语相对应的音频数据是否被接受或拒绝中使用所述环境场境。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910004262.8A CN110060694B (zh) | 2014-06-24 | 2015-05-01 | 用于说话者验证的动态阈值 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462016384P | 2014-06-24 | 2014-06-24 | |
US62/016,384 | 2014-06-24 | ||
US14/340,720 | 2014-07-25 | ||
US14/340,720 US9384738B2 (en) | 2014-06-24 | 2014-07-25 | Dynamic threshold for speaker verification |
PCT/US2015/028859 WO2015199813A1 (en) | 2014-06-24 | 2015-05-01 | Dynamic threshold for speaker verification |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910004262.8A Division CN110060694B (zh) | 2014-06-24 | 2015-05-01 | 用于说话者验证的动态阈值 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105960628A CN105960628A (zh) | 2016-09-21 |
CN105960628B true CN105960628B (zh) | 2019-01-01 |
Family
ID=54870212
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580006803.0A Active CN105960628B (zh) | 2014-06-24 | 2015-05-01 | 用于说话者验证的动态阈值 |
CN201910004262.8A Active CN110060694B (zh) | 2014-06-24 | 2015-05-01 | 用于说话者验证的动态阈值 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910004262.8A Active CN110060694B (zh) | 2014-06-24 | 2015-05-01 | 用于说话者验证的动态阈值 |
Country Status (6)
Country | Link |
---|---|
US (4) | US9384738B2 (zh) |
EP (4) | EP3937166A1 (zh) |
JP (2) | JP6474827B2 (zh) |
KR (4) | KR20180011361A (zh) |
CN (2) | CN105960628B (zh) |
WO (1) | WO2015199813A1 (zh) |
Families Citing this family (197)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
LT4913B (lt) | 2000-06-15 | 2002-05-27 | G. Uždavinio Įmonė "Žara" | Grūdų produkto receptūrinė kompozicija |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10719591B1 (en) | 2013-03-15 | 2020-07-21 | Google Llc | Authentication of audio-based input signals |
US11064250B2 (en) | 2013-03-15 | 2021-07-13 | Google Llc | Presence and authentication for media measurement |
US10541997B2 (en) | 2016-12-30 | 2020-01-21 | Google Llc | Authentication of packetized audio signals |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11942095B2 (en) * | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10311219B2 (en) * | 2016-06-07 | 2019-06-04 | Vocalzoom Systems Ltd. | Device, system, and method of user authentication utilizing an optical microphone |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
FR3058558B1 (fr) * | 2016-11-07 | 2020-01-10 | Pw Group | Procede et systeme d'authentification par biometrie vocale d'un utilisateur |
GB2555661A (en) * | 2016-11-07 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for biometric authentication in an electronic device |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR102653450B1 (ko) * | 2017-01-09 | 2024-04-02 | 삼성전자주식회사 | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 |
US10878831B2 (en) * | 2017-01-12 | 2020-12-29 | Qualcomm Incorporated | Characteristic-based speech codebook selection |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
WO2018195185A1 (en) | 2017-04-20 | 2018-10-25 | Google Llc | Multi-user authentication on a device |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
KR102371313B1 (ko) * | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
CN109427336B (zh) * | 2017-09-01 | 2020-06-16 | 华为技术有限公司 | 语音对象识别方法及装置 |
KR102087202B1 (ko) * | 2017-09-13 | 2020-03-10 | (주)파워보이스 | 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10896673B1 (en) | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN108064007A (zh) * | 2017-11-07 | 2018-05-22 | 苏宁云商集团股份有限公司 | 用于智能音箱的增强人声识别的方法及微控制器和智能音箱 |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10102858B1 (en) | 2017-11-29 | 2018-10-16 | International Business Machines Corporation | Dynamically changing audio keywords |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
KR20200108858A (ko) * | 2018-01-23 | 2020-09-21 | 시러스 로직 인터내셔널 세미컨덕터 리미티드 | 화자 식별 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
KR102585231B1 (ko) * | 2018-02-02 | 2023-10-05 | 삼성전자주식회사 | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
KR102550598B1 (ko) * | 2018-03-21 | 2023-07-04 | 현대모비스 주식회사 | 음성 화자 인식 장치 및 그 방법 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
KR102531654B1 (ko) | 2018-05-04 | 2023-05-11 | 삼성전자주식회사 | 음성 입력 인증 디바이스 및 그 방법 |
WO2019212221A1 (ko) * | 2018-05-04 | 2019-11-07 | 삼성전자 주식회사 | 음성 입력 인증 디바이스 및 그 방법 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
CN108735221A (zh) * | 2018-05-28 | 2018-11-02 | 深圳市街角电子商务有限公司 | 一种基于深度学习的说话人识别系统及识别方法 |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
CN110634489B (zh) * | 2018-06-25 | 2022-01-14 | 科大讯飞股份有限公司 | 一种声纹确认方法、装置、设备及可读存储介质 |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
KR102621881B1 (ko) * | 2018-09-05 | 2024-01-05 | 주식회사 케이티 | 상담사와 상담하는 화자를 인증하는 서버 및 방법 |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR102623246B1 (ko) * | 2018-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체. |
KR102622350B1 (ko) * | 2018-10-12 | 2024-01-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR102655628B1 (ko) * | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
WO2020111880A1 (en) | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | User authentication method and apparatus |
KR20200066149A (ko) * | 2018-11-30 | 2020-06-09 | 삼성전자주식회사 | 사용자 인증 방법 및 장치 |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109448725A (zh) * | 2019-01-11 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种语音交互设备唤醒方法、装置、设备及存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
WO2020213996A1 (en) * | 2019-04-17 | 2020-10-22 | Samsung Electronics Co., Ltd. | Method and apparatus for interrupt detection |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
WO2021123462A1 (es) * | 2019-12-16 | 2021-06-24 | Sigma Technologies, S.L. | Método y sistema para estimar características de hablante sobre la marcha para hablante desconocido con alta precisión y baja latencia |
US11526688B2 (en) * | 2020-04-16 | 2022-12-13 | International Business Machines Corporation | Discovering ranked domain relevant terms using knowledge |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11664033B2 (en) * | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN111508503B (zh) * | 2020-06-16 | 2020-10-20 | 北京爱数智慧科技有限公司 | 一种识别同一说话人的方法和装置 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11521604B2 (en) | 2020-09-03 | 2022-12-06 | Google Llc | User mediation for hotword/keyword detection |
KR20220111574A (ko) | 2021-02-02 | 2022-08-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN112951247A (zh) * | 2021-03-23 | 2021-06-11 | 上海掌数科技有限公司 | 一种基于应用场景进行声纹快速验证的方法及其应用 |
CN113160822B (zh) * | 2021-04-30 | 2023-05-30 | 北京百度网讯科技有限公司 | 语音识别处理方法、装置、电子设备以及存储介质 |
CN114203178B (zh) * | 2021-12-10 | 2022-09-20 | 镁佳(北京)科技有限公司 | 一种智能语音系统拒识方法、装置及计算机设备 |
US11861521B2 (en) | 2021-12-21 | 2024-01-02 | PolyAI Limited | System and method for identification and verification |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999045530A1 (en) * | 1998-03-03 | 1999-09-10 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
CN101385074A (zh) * | 2006-02-20 | 2009-03-11 | 微软公司 | 说话者验证 |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
CN102918591A (zh) * | 2010-04-14 | 2013-02-06 | 谷歌公司 | 用于增强话音识别准确度的有地理标记的环境音频 |
US8380521B1 (en) * | 2007-07-17 | 2013-02-19 | West Corporation | System, method and computer-readable medium for verbal control of a conference call |
CN103065631A (zh) * | 2013-01-24 | 2013-04-24 | 华为终端有限公司 | 一种语音识别的方法、装置 |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01321499A (ja) * | 1988-06-23 | 1989-12-27 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
GB9021489D0 (en) | 1990-10-03 | 1990-11-14 | Ensigma Ltd | Methods and apparatus for verifying the originator of a sequence of operations |
US6081782A (en) | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
US5893057A (en) | 1995-10-24 | 1999-04-06 | Ricoh Company Ltd. | Voice-based verification and identification methods and systems |
JP3522421B2 (ja) * | 1995-10-31 | 2004-04-26 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
US6073101A (en) | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
EP0856832A1 (fr) | 1997-02-03 | 1998-08-05 | Koninklijke Philips Electronics N.V. | Procédé de reconnaissance vocale de mots et dispositif dans lequel ledit procédé est mis en application |
US6847717B1 (en) * | 1997-05-27 | 2005-01-25 | Jbc Knowledge Ventures, L.P. | Method of accessing a dial-up service |
US6107935A (en) | 1998-02-11 | 2000-08-22 | International Business Machines Corporation | Systems and methods for access filtering employing relaxed recognition constraints |
US6253179B1 (en) | 1999-01-29 | 2001-06-26 | International Business Machines Corporation | Method and apparatus for multi-environment speaker verification |
DE10000973A1 (de) | 2000-01-06 | 2001-07-12 | Deutsche Telekom Ag | Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem |
JP3849841B2 (ja) * | 2000-03-15 | 2006-11-22 | オムロン株式会社 | 話者認識装置 |
JP2001319045A (ja) | 2000-05-11 | 2001-11-16 | Matsushita Electric Works Ltd | 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体 |
US6735562B1 (en) | 2000-06-05 | 2004-05-11 | Motorola, Inc. | Method for estimating a confidence measure for a speech recognition system |
US20040190688A1 (en) * | 2003-03-31 | 2004-09-30 | Timmins Timothy A. | Communications methods and systems using voiceprints |
US6973426B1 (en) | 2000-12-29 | 2005-12-06 | Cisco Technology, Inc. | Method and apparatus for performing speaker verification based on speaker independent recognition of commands |
US6804647B1 (en) * | 2001-03-13 | 2004-10-12 | Nuance Communications | Method and system for on-line unsupervised adaptation in speaker verification |
JP2002329118A (ja) * | 2001-04-26 | 2002-11-15 | Ricoh Co Ltd | 経営者向け情報提供方法、サーバ装置、およびプログラム |
ATE335195T1 (de) | 2001-05-10 | 2006-08-15 | Koninkl Philips Electronics Nv | Hintergrundlernen von sprecherstimmen |
US20020178004A1 (en) * | 2001-05-23 | 2002-11-28 | Chienchung Chang | Method and apparatus for voice recognition |
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
JP3826032B2 (ja) | 2001-12-28 | 2006-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US7203652B1 (en) | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
US7113169B2 (en) * | 2002-03-18 | 2006-09-26 | The United States Of America As Represented By The Secretary Of The Air Force | Apparatus and method for a multiple-user interface to interactive information displays |
US7079007B2 (en) | 2002-04-19 | 2006-07-18 | Cross Match Technologies, Inc. | Systems and methods utilizing biometric data |
US7457745B2 (en) | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7415410B2 (en) | 2002-12-26 | 2008-08-19 | Motorola, Inc. | Identification apparatus and method for receiving and processing audible commands |
US7933226B2 (en) | 2003-10-22 | 2011-04-26 | Palo Alto Research Center Incorporated | System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions |
US8005668B2 (en) | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
KR100679044B1 (ko) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | 사용자 적응형 음성 인식 방법 및 장치 |
JP2007052496A (ja) * | 2005-08-15 | 2007-03-01 | Advanced Media Inc | ユーザ認証システム及びユーザ認証方法 |
JP4556028B2 (ja) * | 2005-11-04 | 2010-10-06 | 株式会社国際電気通信基礎技術研究所 | 発話主体同定装置及びコンピュータプログラム |
US7545962B2 (en) | 2005-12-22 | 2009-06-09 | Daon Holdings Limited | Biometric authentication system |
JP2008058452A (ja) * | 2006-08-30 | 2008-03-13 | Pioneer Electronic Corp | 音声情報認証装置及び音声情報認証方法 |
US7949536B2 (en) | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
JP5151103B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
TWI342010B (en) * | 2006-12-13 | 2011-05-11 | Delta Electronics Inc | Speech recognition method and system with intelligent classification and adjustment |
US8050919B2 (en) | 2007-06-29 | 2011-11-01 | Microsoft Corporation | Speaker recognition via voice sample based on multiple nearest neighbor classifiers |
JP2010109618A (ja) * | 2008-10-29 | 2010-05-13 | Ntt Communications Kk | 認証装置、認証方法、及びプログラム |
TWI421857B (zh) | 2009-12-29 | 2014-01-01 | Ind Tech Res Inst | 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統 |
US8311820B2 (en) | 2010-01-28 | 2012-11-13 | Hewlett-Packard Development Company, L.P. | Speech recognition based on noise level |
US20110320201A1 (en) * | 2010-06-24 | 2011-12-29 | Kaufman John D | Sound verification system using templates |
US8639508B2 (en) | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
DK2713367T3 (en) | 2012-09-28 | 2017-02-20 | Agnitio S L | Speech Recognition |
TWI601032B (zh) | 2013-08-02 | 2017-10-01 | 晨星半導體股份有限公司 | 應用於聲控裝置的控制器與相關方法 |
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US8775191B1 (en) * | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
US10248771B1 (en) | 2014-01-24 | 2019-04-02 | Microstrategy Incorporated | Performing biometrics operations in uncontrolled environments |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
-
2014
- 2014-07-25 US US14/340,720 patent/US9384738B2/en active Active
-
2015
- 2015-05-01 CN CN201580006803.0A patent/CN105960628B/zh active Active
- 2015-05-01 WO PCT/US2015/028859 patent/WO2015199813A1/en active Application Filing
- 2015-05-01 KR KR1020187002191A patent/KR20180011361A/ko not_active IP Right Cessation
- 2015-05-01 EP EP21193230.6A patent/EP3937166A1/en active Pending
- 2015-05-01 KR KR1020187002192A patent/KR20180014176A/ko not_active IP Right Cessation
- 2015-05-01 EP EP18213656.4A patent/EP3537434B1/en active Active
- 2015-05-01 EP EP16190433.9A patent/EP3154055B1/en active Active
- 2015-05-01 KR KR1020167021187A patent/KR101824158B1/ko active IP Right Grant
- 2015-05-01 EP EP15722860.2A patent/EP3100261B1/en active Active
- 2015-05-01 CN CN201910004262.8A patent/CN110060694B/zh active Active
- 2015-05-01 KR KR1020167020986A patent/KR101824157B1/ko active IP Right Grant
- 2015-05-01 JP JP2016549233A patent/JP6474827B2/ja active Active
-
2016
- 2016-06-21 US US15/188,047 patent/US9502039B2/en active Active
- 2016-08-02 JP JP2016151822A patent/JP6474762B2/ja active Active
- 2016-11-03 US US15/342,388 patent/US9679569B2/en active Active
-
2017
- 2017-05-19 US US15/599,578 patent/US9972323B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999045530A1 (en) * | 1998-03-03 | 1999-09-10 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
CN101385074A (zh) * | 2006-02-20 | 2009-03-11 | 微软公司 | 说话者验证 |
US8380521B1 (en) * | 2007-07-17 | 2013-02-19 | West Corporation | System, method and computer-readable medium for verbal control of a conference call |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN102918591A (zh) * | 2010-04-14 | 2013-02-06 | 谷歌公司 | 用于增强话音识别准确度的有地理标记的环境音频 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
CN103065631A (zh) * | 2013-01-24 | 2013-04-24 | 华为终端有限公司 | 一种语音识别的方法、装置 |
Non-Patent Citations (1)
Title |
---|
"说话人识别鲁棒性增强研究";赵剑;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第03期);I136-47 |
Also Published As
Publication number | Publication date |
---|---|
EP3154055A2 (en) | 2017-04-12 |
EP3154055A3 (en) | 2017-06-21 |
EP3154055B1 (en) | 2020-02-26 |
EP3100261B1 (en) | 2018-12-26 |
EP3937166A1 (en) | 2022-01-12 |
US20150371639A1 (en) | 2015-12-24 |
CN110060694A (zh) | 2019-07-26 |
KR101824157B1 (ko) | 2018-02-01 |
JP2017068243A (ja) | 2017-04-06 |
JP6474827B2 (ja) | 2019-02-27 |
KR20160105496A (ko) | 2016-09-06 |
JP2017507352A (ja) | 2017-03-16 |
US20160300575A1 (en) | 2016-10-13 |
CN110060694B (zh) | 2021-03-23 |
EP3537434A1 (en) | 2019-09-11 |
US20170103759A1 (en) | 2017-04-13 |
US9502039B2 (en) | 2016-11-22 |
US9972323B2 (en) | 2018-05-15 |
KR20180014176A (ko) | 2018-02-07 |
JP6474762B2 (ja) | 2019-02-27 |
CN105960628A (zh) | 2016-09-21 |
US20170345430A1 (en) | 2017-11-30 |
KR101824158B1 (ko) | 2018-02-01 |
WO2015199813A1 (en) | 2015-12-30 |
US9679569B2 (en) | 2017-06-13 |
US9384738B2 (en) | 2016-07-05 |
KR20170012188A (ko) | 2017-02-02 |
KR20180011361A (ko) | 2018-01-31 |
EP3100261A1 (en) | 2016-12-07 |
EP3537434B1 (en) | 2021-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105960628B (zh) | 用于说话者验证的动态阈值 | |
JP7384877B2 (ja) | コロケーション情報を使用した話者照合 | |
JP7362851B2 (ja) | 話者検証のためのニューラルネットワーク | |
US11157910B1 (en) | Selective passive voice authentication | |
US9589560B1 (en) | Estimating false rejection rate in a detection system | |
US10979423B1 (en) | Bi-directional voice authentication | |
US20140045596A1 (en) | Methods and systems for determining the location of online gaming clients | |
US10225329B2 (en) | Methods and systems for sending and receiving alerts | |
US20160277535A1 (en) | System and method for notification provision based on availability | |
US20240267367A1 (en) | Systems and methods for authentication using partitioned authentication tokens | |
CN107040512A (zh) | 一种信息验证的修正方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |