CN110024027A - 说话人识别 - Google Patents
说话人识别 Download PDFInfo
- Publication number
- CN110024027A CN110024027A CN201780071869.7A CN201780071869A CN110024027A CN 110024027 A CN110024027 A CN 110024027A CN 201780071869 A CN201780071869 A CN 201780071869A CN 110024027 A CN110024027 A CN 110024027A
- Authority
- CN
- China
- Prior art keywords
- language
- speaker
- identification process
- received signal
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 212
- 230000008569 process Effects 0.000 claims abstract description 176
- 230000004044 response Effects 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 230000005055 memory storage Effects 0.000 claims 2
- 238000013518 transcription Methods 0.000 description 8
- 230000035897 transcription Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004166 bioassay Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种说话人识别系统的操作的方法,包括:对所接收的信号执行说话人识别过程;当已经识别了第一说话人时,禁用所述说话人识别过程;当禁用了所述说话人识别过程时,对所接收的信号执行话语开始识别过程;响应于所述话语开始识别过程检测到所接收的信号中的话语开始事件而启用所述说话人识别过程。
Description
本公开内容的代表性实施方案的领域涉及与说话人识别有关或相关的方法、装置和/或实施方式,也就是说,涉及话语(speech)通道中的一个或多个说话人的自动识别。
语音(voice)生物测定技术被用于说话人识别,且此技术的一种用途是在语音捕获设备中。这样的设备使用一个或多个麦克风来检测声音,且在任何时间确定谁正在说话。该设备通常还执行话语识别过程。然后可以使用关于谁正在说话的信息,例如以决定是否响应于说出的命令,或以决定如何响应于说出的命令,或以注释话语的转写本(transcript)。该设备还可以执行其他功能,诸如电话功能和/或话语记录。
然而,执行说话人识别消耗功率。
本公开内容的实施方案涉及可以帮助减少此功率消耗的方法和装置。
因此,根据本发明,提供了一种说话人识别系统的操作的方法,所述方法包括:对所接收的信号执行说话人识别过程;当已经识别了第一说话人时,禁用所述说话人识别过程;当禁用了所述说话人识别过程时,对所接收的信号执行话语开始识别过程;以及,响应于所述话语开始识别过程检测到所接收的信号中的话语开始事件而启用所述说话人识别过程。
根据本发明,还提供了一种说话人识别系统的操作的方法,所述方法包括:接收表示话语的数据;且在多个相继的时间:使用从开始时间直到那个时间所接收的所有数据,获得表示所述话语是已登记用户的话语的置信度的匹配分数;将所述匹配分数与上限阈值和下限阈值比较;且如果所述匹配分数高于所述上限阈值,则确定所述话语是已登记用户的话语并且终止所述方法,或如果所述匹配分数低于所述下限阈值,则确定所述话语不是已登记用户的话语并且终止所述方法。
根据本发明的其他方面,提供了说话人识别系统,所述说话人识别系统被配置为根据这些方法中的任一种方法进行操作,且提供了计算机程序产品,所述计算机程序产品包括计算机可读介质,所述计算机可读介质包含用于使处理器执行这些方法中的任一种方法的指令。
为了更好地理解本公开内容的实施例,且为了更清楚地示出如何有效地实施所述实施例,现在将仅通过实施例的方式参考下面的附图,在附图中:
图1例示了被配置用于作为语音捕获设备操作的智能电话。
图2例示了专用语音捕获设备。
图3是语音捕获设备的示意性例示。
图4是示出了多个过程的进程的时间历史。
图5是例示了说话人识别方法的流程图。
下文的描述阐述了根据本公开内容的示例性实施方案。另一些示例性实施方案和实施方式对于本领域普通技术人员来说将是明显的。此外,本领域普通技术人员将认识到,可以应用多种等同技术来代替下文所讨论的实施方案或与下文所讨论的实施方案结合,且所有这样的等同物应被视为被本公开内容包含。
图1示出了电子设备10的一个实施例,诸如智能电话或其他移动电话,或平板计算机。
在图1中示出的实施例中,设备10具有多个声音入口12、14,所述声音入口允许麦克风(未示出在图1中)检测环境声音。该设备可以具有不止两个这样的麦克风,例如定位在该设备的其他表面上。
电子设备10可以设有合适的软件(或者作为它的标准操作软件的一部分,或者是单独下载的),允许它作为语音捕获设备操作,如下文更详细描述的。
图2例示了专用语音捕获设备30的一个实施例。
在图1示出的实施例中,设备30具有围绕其周边定位的多个声音入口32、34、36、38,所述声音入口允许麦克风(未示出在图2中)检测环境声音。该设备可以具有任何数目的这样的麦克风,或者多于或者少于图2的实施例中的四个。
语音捕获设备10设有合适的软件,如下文更详细描述的。
图3是示意框图,例示了根据本发明的实施方案的设备50的一般形式,该设备可以例如是如图1中示出的电子设备10或如图2中示出的语音捕获设备30。
设备50具有输入模块52,用于接收或生成表示声音的电子信号。在诸如图1和图2示出的那些设备的设备中,输入模块可以包括一个或多个麦克风,所述麦克风以这样的方式定位使得它们检测环境声音。在其他设备中,输入模块可以是表示在不同位置或者实时地或者在较早时间检测到的声音的信号源。
因此,在设备50呈如图1中示出的智能电话的形式的情况下,输入模块可以包括一个或多个麦克风,以检测该设备附近的声音。这允许该设备被定位在会话中的多个参与者附近,且充当语音捕获设备,以识别那些参与者中的一个或多个。输入模块可以附加地或替代地包括与智能电话的无线电收发器电路系统的连接,允许该设备充当语音捕获设备,以识别使用电话举行的电话会议中的参与者中的一个或多个。
设备50还具有信号处理模块54,用于执行任何必需的信号处理,以赋予所接收的或所生成的电子信号合适的形式用于后续处理。如果输入模块生成模拟电子信号,则信号处理模块54至少可以包含模拟数字转换器。在一些实施方案中,例如,信号处理模块54还可以包含用于声学补偿和/或降噪处理的均衡器。
设备50还具有处理器模块56,用于执行如下文更详细描述的说话人识别过程。处理器模块56被连接到一个或多个存储器模块58,所述存储器模块存储将要由处理器56运行的程序指令,且在必需时还存储工作数据。
处理器模块56还被连接到输出模块60,该输出模块可以例如包括显示器,诸如设备50的屏幕,或该输出模块可以包括收发器电路系统,该收发器电路系统用于通过有线或无线链路将信息传输到单独的设备。
本文所描述的实施方案主要涉及说话人识别过程,在说话人识别过程中,确定说话的人的身份。在这些实施方案中,在处理器模块中部分地或全部地执行说话人识别过程,但是也可以在远程设备中部分地或全部地执行说话人识别过程。可以结合话语识别过程方便地执行说话人识别过程,在话语识别过程中,确定话语的内容。因此,例如,处理器模块56可以被配置用于执行话语识别过程,或所接收的信号可以被发送到输出模块60,以用于传输到远程服务器,使该远程服务器在云中执行话语识别。
如本文所使用的,术语“模块”应被用来至少指装置或设备的功能单元或功能块。该功能单元或功能块可以至少部分地由专用硬件部件(诸如自定义电路系统)实施,和/或至少部分地由一个或多个软件处理器实施,或在合适的通用处理器上运行的适当代码实施。一个模块本身可以包括其他模块或功能单元。
图4示出了在一个实施例中在设备50中操作的多个过程的时间历史。在此实施例中,假设设备50是具有合适的软件的智能电话,该软件允许该智能电话作为语音捕获设备操作,且具体地允许该智能电话识别可以由该设备的一个或多个麦克风检测到的会话中说话的一个或多个人。
具体地,图4示出了在会话中在不同时间不同的说话人中的哪些说话人正说话。在此例示性实施例中,存在三个说话人S1、S2和S3,且说话人S1和S2是登记的。也就是说,说话人S1和S2已经提供了他们的话语的样本,允许说话人识别过程形成他们的语音的模型,如常规的那样。可以存在任何数目的已登记说话人。
图4例示了语音活动检测过程的结果。语音活动检测过程接收由该设备的一个或多个麦克风检测到的信号,且确定何时这些信号表示话语。更具体地,语音活动检测过程确定何时这些信号具有为了允许说话人识别过程以足够的准确度起作用所要求的特性(例如,信噪比或频谱特性)。
图4还例示了说话人改变识别过程的结果。说话人改变识别过程接收由设备的一个或多个麦克风所检测到的信号,且根据这些信号确定一个人停止说话和另一个人开始说话的时间。例如,可以基于信号的频谱内容已经以在单个人的说话期间不太可能的方式改变的确定来做出此确定。替代地或附加地,在说话人改变识别过程接收由多个麦克风检测到的信号的情况下,可以基于声音到达麦克风处的到达时间之间的差异来估计声音源的位置。因此,可以基于声音源的位置已经以突然方式改变的确定来做出一个人已经停止说话且另一个人已经开始说话的确定。
上文已经提及,可以在处理器模块中部分地并且在远程设备中部分地执行说话人识别过程。在一个具体实施例中,可以在云中远程地执行说话人改变识别过程,而在处理器模块中执行整个过程的其他方面。
语音活动检测过程和说话人改变识别过程可以一起被视为话语开始识别过程,因为它们一起识别特定说话人的新的话语片段的开始。
图4例示了所执行的说话人识别过程使用累积认证的一个实施例。也就是说,所接收的信号被用来产生匹配分数,该匹配分数表示话语是相关的已登记说话人的话语的确定性程度。随着所接收的信号继续,该匹配分数被更新,以表示关于话语是否是相关的已登记说话人的话语的更高程度的确定性。因此,在一个实施方案中,当接收到被认为表示话语的信号时,从所述信号提取多种特征以形成特征向量。将此特征向量与该或每个已登记说话人的模型进行比较。如上文提及的,可以存在任何数目的已登记说话人。
该或每个比较产生一个匹配分数,该匹配分数表示话语是相关的已登记说话人的话语的确定性程度。一接收到足够样本的信号,例如在1秒之后,就产生匹配分数的值,但是这样的短话语片段通常不能够产生具有高程度确定性的输出。然而,以规则的间隔随着时间的推移,且更多样本已经变得可用于在比较中使用,匹配分数可以被更新,且结果中的确定性程度将倾向于随着时间的过去增加。因此,在一些实施方案中,在相继的时间,从开始时间直到那个时间所接收的所有数据被用来获得表示话语是已登记用户的话语的置信度的分数。在其他实施方案中,使用所接收的数据样本中的一些(例如,预定数目的最近所接收的数据样本)获得该分数。在任何情况下,更新该分数的过程可以包括对正在使用的所有数据执行生物测定过程,以获得新的单个分数。替代地,更新该分数的过程可以包括对最近所接收的数据执行生物测定过程,以获得与该数据相关的新的分数,且然后将那个分数与该分数的当前值融合,以获得新的分数。
对于每个已登记用户,该过程可以继续直到该分数变得高于上限阈值,在此情况下,可以确定话语是已登记用户的话语并且该方法可以被终止,或者直到该分数变得低于下限阈值,在此情况下,可以确定话语不是已登记用户的话语。一旦已经确定话语不是任何已登记用户的话语,则也可以终止该过程。
因此,图4例示了随着时间的过去由两个说话人识别过程(即,将所接收的信号与已登记说话人S1的模型进行比较的说话人识别过程,以及将接收的信号与已登记说话人S2的模型进行比较的说话人识别过程)所产生的匹配分数的进展。
图4还指示说话人识别过程处于活动的时间。
图4中示出的时间历史开始于时间t0。在此时间,说话人S1开始说话。因此,语音活动检测过程能够确定所接收的信号包含话语,且语音活动检测过程产生肯定输出。
结果,同样在时间t0,两个说话人识别过程开始。更具体地,在S1识别过程中,将从所接收的信号导出的特征向量与已登记说话人S1的模型进行比较,而在S2识别过程中,将从所接收的信号导出的特征向量与已登记说话人S2的模型进行比较。这两个过程继续,其中匹配分数随着时间的过去累积。
因为是已登记说话人S1正在说话,所以由S1识别过程所产生的匹配分数倾向于随着时间的过去增加,表示已登记说话人S1正在说话的确定性程度增加,而由S2识别过程所产生的匹配分数倾向于随着时间的过去减小,表示已登记说话人S2没有正在说话的确定性程度增加。
在时间t1,由S2识别过程所产生的匹配分数达到下限阈值T2.2,表示已登记说话人S2没有正在说话的确定性程度高。在此时间,可以停止S2识别过程。也就是说,不再将从话语信号导出的特征向量与已登记说话人S2的模型进行比较。
在时间t2,由S1识别过程所产生的匹配分数达到上限阈值T1.1,表示已登记说话人S1正在说话的确定性程度高。在此时间,可以提供输出,以指示说话人S1正在说话。例如,可以在设备50上指示说话人S1的身份。
如果设备50正在使用较早所描述的话语识别过程产生话语的转写本,则该转写本可以示出说话人S1说出在从t0到t2的时段期间所识别的词语。
如果设备50正在试图使用较早所描述的话语识别过程来识别说出的命令,则说话人S1的身份可以被用来确定响应于所识别的任何命令应采取什么动作。例如,可以授权特定用户发出仅某些命令。作为另一个实施例,某些说出的命令可以具有取决于说话人的身份的含义。例如,如果设备识别命令“打电话回家”,则需要知道哪个用户正在说话,以识别该用户的家庭电话号码。
上限阈值T1.1可以从特定的错误接受率(FAR)导出。因此,根据说话人识别过程所要求的安全性程度和确定性程度,可以调整该错误接受率,且可以相应地调整上限阈值。
在此时间t2,可以停止或禁用S1识别过程。因为两个说话人识别过程现在都已经停止,所以不再必需从信号提取多种特征以形成特征向量。
因此,仅必需执行说话人识别过程直到已经识别了说话人的时间。在典型的会话中,来自人的话语片段通常可能持续许多秒(例如,10-20秒),而到可接受的阈值的生物测定识别可能仅采用1-2秒的话语,因此当已经识别了说话人时禁用说话人识别过程意味着说话人识别算法以仅10%的有效占空比操作,使功率消耗减少90%。
因此,图4示出了在时间t0和t2之间启用说话人识别过程。
只要说话人S1继续说话,说话人识别过程就可以保持禁用。在此时间期间,可以继续提供输出,如上文所描述的,以指示说话人S1正在说话,或可以基于仍然是说话人S1正在说话的假设来采取其他动作。
在时间t3,说话人S1停止说话,且接着是无话语时段(静默或环境噪声)。在此时段期间,语音活动检测过程确定所接收的信号不包含话语,且语音活动检测过程产生否定输出。因此,说话人识别过程在时间t3之后保持禁用。
在时间t4,说话人S2开始说话。因此,语音活动检测过程能够确定所接收的信号包含话语,且语音活动检测过程产生肯定输出。
响应于话语开始识别过程的语音活动检测过程的此肯定确定,同样在时间t4,开始或启用两个说话人识别过程。更具体地,在S1识别过程中,将从所接收的信号导出的特征向量与已登记说话人S1的模型进行比较,而在S2识别过程中,将从所接收的信号导出的特征向量与已登记说话人S2的模型进行比较。这两个过程继续,其中匹配分数随着时间的过去累积。
因为已登记说话人S2正在说话,所以由S1识别过程所产生的匹配分数倾向于随着时间的过去减小,表示已登记说话人S1没有正在说话的确定性程度增加,而由S2识别过程所产生的匹配分数倾向于随着时间的过去增加,表示已登记说话人S2正在说话的确定性程度增加。
在时间t5,由S1识别过程所产生的匹配分数达到下限阈值T2.1,表示已登记说话人S1没有正在说话的确定性程度高。在此时间,可以停止S1识别过程。也就是说,不再将从话语信号导出的特征向量与已登记说话人S1的模型进行比较。
在时间t6,由S2识别过程所产生的匹配分数达到上限阈值T1.2,表示已登记说话人S2正在说话的确定性程度高。在此时间,可以提供输出,以指示说话人S2正在说话。例如,可以在设备50上指示说话人S2的身份。
如果设备50正在使用较早所描述的语音识别过程产生话语的转写本,则该转写本可以示出说话人S2说出在从t4到t6的时段期间所识别的词语。
如果设备50正在试图使用较早所描述的话语识别过程来识别说出的命令,则说话人S2的身份可以被用来确定响应于所识别的任何命令应采取什么动作,如先前针对说话人S1所描述的。
上限阈值T1.2可以从特定的错误接受率(FAR)导出。因此,根据说话人识别过程所要求的安全性程度和确定性程度,可以调整此错误接受率,且可以相应地调整上限阈值。由S2识别过程所应用的上限阈值T1.2可以与由S1识别过程所应用的上限阈值T1.2相同,或可以不同。
在此时间t6,可以停止或禁用S2识别过程。因为两个说话人识别过程现在都已经停止,所以不再必需从信号提取多种特征以形成特征向量。
因此,如之前,仅必需执行说话人识别过程直到已经识别了说话人的时间。具体地,图4示出说话人识别过程在时间t4和t6之间被启用,但是其后被禁用。
只要说话人S2继续说话,说话人识别过程就可以保持禁用。在此时间期间,可以继续提供输出,如上文所描述的,以指示说话人S1正在说话,或可以基于仍然是说话人S1正在说话的假设来采取其他动作。
在时间t7,说话人S2停止说话,且未登记的说话人S3开始说话。语音活动检测过程确定所接收的信号继续包含话语,且语音活动检测过程产生肯定输出。
此外,说话人改变识别过程确定说话人已经改变,且说话人改变识别过程产生肯定输出。
响应于话语开始识别过程的说话人改变识别过程的此肯定确定,同样在时间t7,开始或启用两个说话人识别过程。
更具体地,在S1识别过程中,将从所接收的信号导出的特征向量与已登记说话人S1的模型进行比较,而在S2识别过程中,将从所接收的信号导出的特征向量与已登记说话人S2的模型进行比较。这两个过程继续,其中匹配分数随着时间的过去累积。
因为已登记说话人S1或S2都没有正在说话,所以由S1识别过程所产生的匹配分数和由S2识别过程所产生的匹配分数都倾向于随着时间的过去减小,分别表示已登记说话人S1没有正在说话的确定性程度增加,以及已登记说话人S2没有正在说话的确定性程度增加。
在时间t8,由S1识别过程所产生的匹配分数达到下限阈值T2.1,表示已登记说话人S1没有正在说话的确定性程度高,且由S2识别过程所产生的匹配分数达到下限阈值T2.2,表示已登记说话人S2没有正在说话的确定性程度高。在此时间,S1识别过程和S2识别过程都可以被停止或禁用。
因为两个说话人识别过程现在都已经被停止,所以不再必需从信号提取多种特征以形成特征向量。
因此,如之前,仅必需执行说话人识别过程直到已经识别了说话人的时间。因此,图4示出了说话人识别过程在时间t7和t8之间被启用,但是其后被禁用。
在时间t8,可以提供输出,以指示说话的人不是已登记说话人之一。例如,可以在设备50上提供此指示。
如果设备50正在使用较早所描述的话语识别过程产生话语的转写本,则该转写本可以示出未登记的说话人说出在从t7到t8的时段期间所识别的词语。
如果设备50正在试图使用较早所描述的话语识别过程来识别说出的命令,则不能够识别说话人S3这一事实可以被用来确定响应于所识别的任何命令应采取什么动作。例如,可以忽略要求任何程度的安全性授权的任何命令。
只要说话人S3继续说话,说话人识别过程就可以保持禁用。在此时间期间,可以继续提供输出,如上文所描述的,以指示未登记的说话人正在说话,或可以基于仍然是未登记的说话人正在说话的假设来采取其他动作。
在时间t9,未登记的说话人S3停止说话,且说话人S1开始说话。语音活动检测过程确定所接收的信号继续包含话语,且语音活动检测过程产生肯定输出。
此外,说话人改变识别过程确定说话人已经改变,且说话人改变识别过程产生肯定输出。
响应于话语开始识别过程的说话人改变识别过程的此肯定确定,也在时间t9,启用两个说话人识别过程。
更具体地,在S1识别过程中,将从所接收的信号导出的特征向量与已登记说话人S1的模型进行比较,而在S2识别过程中,将从所接收的信号导出的特征向量与已登记说话人S2的模型进行比较。这两个过程继续,其中匹配分数随着时间的过去累积。
因为已登记说话人S1正在说话,所以由S1识别过程所产生的匹配分数倾向于随着时间的过去增加,表示已登记说话人S1正在说话的确定性程度增加,而由S2识别过程所产生的匹配分数倾向于随着时间的过去减小,表示已登记的说话人S2没有正在说话的确定性程度增加。
在时间t10,由S2识别过程所产生的匹配分数达到下限阈值T2.2,表示已登记说话人S2没有正在说话的确定性程度高。在此时间,可以停止或禁用S2识别过程。也就是说,不再将从话语信号导出的特征向量与已登记说话人S2的模型进行比较。
在时间t11,由S1识别过程所产生的匹配分数达到上限阈值T1.1,表示已登记说话人S1正在说话的确定性程度高。在此时间,可以提供输出,以指示说话人S1正在说话。例如,可以在设备50上指示说话人S1的身份,话语的转写本可以示出说话人S1说出在从t10到t11的时段期间所识别的词语,可以基于说话人S1说出命令的假设来处理说出的命令,或可以采取任何其他所要求的动作。
在此时间t11,可以停止S1识别过程。因为两个说话人识别过程现在都已经被停止或禁用,因此不再必需从信号提取多种特征以形成特征向量。
因此,如之前,仅必需执行说话人识别过程直到已经识别了说话人的时间。具体地,图4示出了说话人识别过程在时间t9和t11之间被启用,但是其后被禁用。
只要说话人S1继续说话,说话人识别过程就可以保持禁用。在此时间期间,可以继续提供输出,如上文所描述的,以指示说话人S1正在说话,或可以基于仍然是说话人S1正在说话的假设来采取其他动作。
因此,图4示出说话人识别过程在时间t0和t2之间、t4和t6之间、t7和t8之间以及t9和t11之间被启用,但是在时间t2和t4,t6和t7、t8和t9之间以及在时间t11之后被禁用。在稍后的这些时间时段期间,仅必需激活语音活动检测过程和/或说话人改变识别过程。由于这些过程的计算密集程度远低于说话人识别过程,因此与说话人识别过程持续运行的系统相比,这大大降低了功率消耗。
图5是概括地例示了如上文所描述的说话人识别系统的操作的方法的流程图。
在步骤80处,对所接收的信号执行说话人识别过程。
所述说话人识别过程可以是累积认证过程,或可以是连续认证过程。在累积认证过程的情况下,执行说话人识别过程可以包括生成生物测定匹配分数,以及当所述生物测定匹配分数超过阈值时,识别说话人。所述阈值可以与预定的错误接受率相关联。
在步骤82处,当已经识别了第一说话人时,禁用所述说话人识别过程。
在步骤84处,当禁用了所述说话人识别过程时,对所接收的信号执行话语开始识别过程。
所述话语开始识别过程可以适于在所接收的信号不包含话语的时段之后检测所接收的信号中包括话语的开始的话语开始事件。在该情况下,所述话语开始识别过程可以是语音活动检测过程。所述语音活动检测过程可以被配置为检测所述说话人识别过程成功操作所要求的所接收的信号的特性。
所述话语开始识别过程可以适于检测所接收的信号中包括第二说话人的话语的开始的话语开始事件,而在所述第一说话人和所述第二说话人之间没有明显的话语间隙。在该情况下,所述话语开始识别过程可以适于通过检测检测到话语声音的方向的改变来检测所接收的信号中包括第二说话人的话语的开始的话语开始事件。替代地或附加地,所述话语开始识别过程可以适于通过检测所检测到的话语声音的频率内容的改变来检测所接收的信号中包括第二说话人的话语的开始的话语开始事件。
在步骤86,响应于所述话语开始识别过程检测到所接收的信号中的话语开始事件而启用说话人识别过程。
应注意,上文所提及的实施方案例示而非限制本发明,且在不脱离所附权利要求的范围的前提下,本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除权利要求中列出的元件或步骤之外的元件或步骤的存在,“一”或“一个”不排除多个,且单个特征或其他单元可以实现权利要求中所记载的几个单元的功能。权利要求中的任何附图标记或标注不应被解释为限制它们的范围。
Claims (18)
1.一种说话人识别系统的操作的方法,所述方法包括:
对所接收的信号执行累积认证说话人识别过程,累积认证过程包括生成生物测定匹配分数、随着接收到信号而更新所述生物测定匹配分数以及当所述生物测定匹配分数超过第一阈值时识别第一说话人;
在已经识别了所述第一说话人时,禁用所述说话人识别过程;
当禁用了所述说话人识别过程时,对所接收的信号执行话语开始识别过程;以及
响应于所述话语开始识别过程检测到所接收的信号中的话语开始事件而启用所述说话人识别过程。
2.根据权利要求1所述的方法,其中所述话语开始识别过程适于在所接收的信号不包含话语的时段之后检测所接收的信号中包括话语的开始的话语开始事件。
3.根据权利要求2所述的方法,其中所述话语开始识别过程是语音活动检测过程。
4.根据权利要求3所述的方法,其中所述语音活动检测过程被配置为检测所述说话人识别过程成功操作所要求的所接收的信号的特性。
5.根据权利要求1至4中的任一项所述的方法,其中所述话语开始识别过程适于检测所接收的信号中包括第二说话人的话语的开始的话语开始事件。
6.根据权利要求5所述的方法,其中所述话语开始识别过程适于通过检测检测到话语声音的方向的改变来检测所接收的信号中包括第二说话人的话语的开始的话语开始事件。
7.根据权利要求5或6所述的方法,其中所述话语开始识别过程适于通过检测所检测到的话语声音的频率内容的改变来检测所接收的信号中包括第二说话人的话语的开始的话语开始事件。
8.根据前述权利要求中的任一项所述的方法,其中所述阈值与预定的错误接受率相关联。
9.根据前述权利要求中的任一项所述的方法,还包括将所述生物测定匹配分数与第二阈值进行比较,其中所述第二阈值低于所述第一阈值,且如果所述生物测定匹配分数低于所述第二阈值,则确定所述第一说话人没有正在说话。
10.根据任一项前述权利要求所述的方法,还包括:响应于确定没有能够识别到说话人而禁用所述说话人识别过程。
11.一种说话人识别系统,被配置为根据权利要求1至10中的任一项所述的方法操作。
12.一种计算机程序产品,包括计算机可读介质,所述计算机可读介质包含用于使处理器执行根据权利要求1至10中的任一项所述的方法的指令。
13.一种设备,包括一个处理器和一个存储器,其中所述存储器存储待由所述处理器运行的程序指令,所述程序指令使所述处理器执行根据权利要求1至10中的任一项所述的方法。
14.一种说话人识别系统的操作的方法,所述方法包括:
接收表示话语的数据;且
在多个相继的时间:
使用从开始时间直到那个时间所接收到的所有数据,获得表示所述话语是已登记用户的话语的置信度的匹配分数;
将所述匹配分数与上限阈值和下限阈值进行比较;且
如果所述匹配分数高于所述上限阈值,则确定所述话语是已登记用户的话语并且终止所述方法,或
如果所述匹配分数低于所述下限阈值,则确定所述话语不是已登记用户的话语并且终止所述方法。
15.根据权利要求14所述的方法,其中存在多个已登记用户,且包括在多个相继的时间:
使用直到那个时间所接收的所有数据,获得多个匹配分数,每个匹配分数表示所述话语是相应的已登记用户的话语的置信度;
将所述匹配分数与相应的上限阈值和相应的下限阈值进行比较;且
如果任何匹配分数高于所述相应的上限阈值,则确定所述话语是相应的已登记用户的话语并且终止所述方法,或
如果任何匹配分数低于所述相应的下限阈值,则确定所述话语不是相应的已登记用户的话语和停止获得表示所述话语是该相应的已登记用户的话语的置信度的匹配分数。
16.一种说话人识别系统,被配置为根据权利要求14或15中的任一项所述的方法操作。
17.一种计算机程序产品,包括计算机可读介质,所述计算机可读介质包含用于使处理器执行根据权利要求14或15中的任一项所述的方法的指令。
18.一种设备,包括一个处理器和一个存储器,其中所述存储器存储待由所述处理器运行的程序指令,所述程序指令使所述处理器执行根据权利要求14或15中的任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662429196P | 2016-12-02 | 2016-12-02 | |
US62/429,196 | 2016-12-02 | ||
GB1707094.7A GB2557375A (en) | 2016-12-02 | 2017-05-04 | Speaker identification |
GB1707094.7 | 2017-05-04 | ||
PCT/GB2017/053629 WO2018100391A1 (en) | 2016-12-02 | 2017-12-01 | Speaker identification |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110024027A true CN110024027A (zh) | 2019-07-16 |
Family
ID=62242838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780071869.7A Pending CN110024027A (zh) | 2016-12-02 | 2017-12-01 | 说话人识别 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180158462A1 (zh) |
CN (1) | CN110024027A (zh) |
WO (1) | WO2018100391A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN108986844B (zh) * | 2018-08-06 | 2020-08-28 | 东北大学 | 一种基于说话人语音特征的语音端点检测方法 |
KR102623246B1 (ko) | 2018-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체. |
US11308966B2 (en) | 2019-03-27 | 2022-04-19 | Panasonic Intellectual Property Corporation Of America | Speech input device, speech input method, and recording medium |
US20230113883A1 (en) * | 2021-10-13 | 2023-04-13 | Google Llc | Digital Signal Processor-Based Continued Conversation |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200087A1 (en) * | 2002-04-22 | 2003-10-23 | D.S.P.C. Technologies Ltd. | Speaker recognition using dynamic time warp template spotting |
US20080046241A1 (en) * | 2006-02-20 | 2008-02-21 | Andrew Osburn | Method and system for detecting speaker change in a voice transaction |
US20090150155A1 (en) * | 2007-03-29 | 2009-06-11 | Panasonic Corporation | Keyword extracting device |
US20090228268A1 (en) * | 2008-03-07 | 2009-09-10 | Gakuto Kurata | System, method, and program product for processing voice data in a conversation between two persons |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
US20100198598A1 (en) * | 2009-02-05 | 2010-08-05 | Nuance Communications, Inc. | Speaker Recognition in a Speech Recognition System |
US20130339018A1 (en) * | 2012-06-15 | 2013-12-19 | Sri International | Multi-sample conversational voice verification |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
US20140249817A1 (en) * | 2013-03-04 | 2014-09-04 | Rawles Llc | Identification using Audio Signatures and Additional Characteristics |
US20150161370A1 (en) * | 2013-12-06 | 2015-06-11 | Adt Us Holdings, Inc. | Voice activated application for mobile devices |
US20150245154A1 (en) * | 2013-07-11 | 2015-08-27 | Intel Corporation | Mechanism and apparatus for seamless voice wake and speaker verification |
US20160217792A1 (en) * | 2015-01-26 | 2016-07-28 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
CN105913849A (zh) * | 2015-11-27 | 2016-08-31 | 中国人民解放军总参谋部陆航研究所 | 一种基于事件检测的说话人分割方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
US6691089B1 (en) * | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
US6748356B1 (en) * | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
JP4213716B2 (ja) * | 2003-07-31 | 2009-01-21 | 富士通株式会社 | 音声認証システム |
US8078463B2 (en) * | 2004-11-23 | 2011-12-13 | Nice Systems, Ltd. | Method and apparatus for speaker spotting |
US7603275B2 (en) * | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
US7716048B2 (en) * | 2006-01-25 | 2010-05-11 | Nice Systems, Ltd. | Method and apparatus for segmentation of audio interactions |
TWI342010B (en) * | 2006-12-13 | 2011-05-11 | Delta Electronics Inc | Speech recognition method and system with intelligent classification and adjustment |
EP2083417B1 (en) * | 2008-01-25 | 2015-07-29 | Yamaha Corporation | Sound processing device and program |
US8843372B1 (en) * | 2010-03-19 | 2014-09-23 | Herbert M. Isenberg | Natural conversational technology system and method |
KR101750338B1 (ko) * | 2010-09-13 | 2017-06-23 | 삼성전자주식회사 | 마이크의 빔포밍 수행 방법 및 장치 |
US9336780B2 (en) * | 2011-06-20 | 2016-05-10 | Agnitio, S.L. | Identification of a local speaker |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
US9530417B2 (en) * | 2013-01-04 | 2016-12-27 | Stmicroelectronics Asia Pacific Pte Ltd. | Methods, systems, and circuits for text independent speaker recognition with automatic learning features |
US9293140B2 (en) * | 2013-03-15 | 2016-03-22 | Broadcom Corporation | Speaker-identification-assisted speech processing systems and methods |
US10141011B2 (en) * | 2014-04-21 | 2018-11-27 | Avaya Inc. | Conversation quality analysis |
JP6303971B2 (ja) * | 2014-10-17 | 2018-04-04 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
US10242677B2 (en) * | 2015-08-25 | 2019-03-26 | Malaspina Labs (Barbados), Inc. | Speaker dependent voiced sound pattern detection thresholds |
US9728191B2 (en) * | 2015-08-27 | 2017-08-08 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US9972322B2 (en) * | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
-
2017
- 2017-12-01 WO PCT/GB2017/053629 patent/WO2018100391A1/en active Application Filing
- 2017-12-01 US US15/828,592 patent/US20180158462A1/en not_active Abandoned
- 2017-12-01 CN CN201780071869.7A patent/CN110024027A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200087A1 (en) * | 2002-04-22 | 2003-10-23 | D.S.P.C. Technologies Ltd. | Speaker recognition using dynamic time warp template spotting |
US20080046241A1 (en) * | 2006-02-20 | 2008-02-21 | Andrew Osburn | Method and system for detecting speaker change in a voice transaction |
US20090150155A1 (en) * | 2007-03-29 | 2009-06-11 | Panasonic Corporation | Keyword extracting device |
US20090228268A1 (en) * | 2008-03-07 | 2009-09-10 | Gakuto Kurata | System, method, and program product for processing voice data in a conversation between two persons |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
US20100198598A1 (en) * | 2009-02-05 | 2010-08-05 | Nuance Communications, Inc. | Speaker Recognition in a Speech Recognition System |
US20130339018A1 (en) * | 2012-06-15 | 2013-12-19 | Sri International | Multi-sample conversational voice verification |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
US20140249817A1 (en) * | 2013-03-04 | 2014-09-04 | Rawles Llc | Identification using Audio Signatures and Additional Characteristics |
US20150245154A1 (en) * | 2013-07-11 | 2015-08-27 | Intel Corporation | Mechanism and apparatus for seamless voice wake and speaker verification |
US20150161370A1 (en) * | 2013-12-06 | 2015-06-11 | Adt Us Holdings, Inc. | Voice activated application for mobile devices |
US20160217792A1 (en) * | 2015-01-26 | 2016-07-28 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
CN105913849A (zh) * | 2015-11-27 | 2016-08-31 | 中国人民解放军总参谋部陆航研究所 | 一种基于事件检测的说话人分割方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018100391A1 (en) | 2018-06-07 |
US20180158462A1 (en) | 2018-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210192033A1 (en) | Detection of replay attack | |
US10515640B2 (en) | Generating dialogue based on verification scores | |
CN110024027A (zh) | 说话人识别 | |
US10720166B2 (en) | Voice biometrics systems and methods | |
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
US20220230642A1 (en) | Speaker Attributed Transcript Generation | |
US9324322B1 (en) | Automatic volume attenuation for speech enabled devices | |
WO2018018906A1 (zh) | 一种语音门禁和安静环境监控方法及系统 | |
EP3963901A1 (en) | Synchronization of audio signals from distributed devices | |
KR20190015488A (ko) | 보이스 사용자 인터페이스 | |
WO2020222930A1 (en) | Audio-visual diarization to identify meeting attendees | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
EP2721609A1 (en) | Identification of a local speaker | |
WO2012154798A1 (en) | Speaker liveness detection | |
US20180174574A1 (en) | Methods and systems for reducing false alarms in keyword detection | |
WO2020222921A1 (en) | Audio stream processing for distributed device meeting | |
US11626104B2 (en) | User speech profile management | |
KR101644015B1 (ko) | 시스템과 다수 사용자 간의 대화 인터페이스 장치 | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
US11468895B2 (en) | Distributed device meeting initiation | |
Kramberger et al. | Door phone embedded system for voice based user identification and verification platform | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
JP2015055835A (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
CN111199742A (zh) | 一种身份验证方法、装置及计算设备 | |
GB2557375A (en) | Speaker identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |
|
RJ01 | Rejection of invention patent application after publication |