CN111201570A - 分析话语信号 - Google Patents
分析话语信号 Download PDFInfo
- Publication number
- CN111201570A CN111201570A CN201880065835.1A CN201880065835A CN111201570A CN 111201570 A CN111201570 A CN 111201570A CN 201880065835 A CN201880065835 A CN 201880065835A CN 111201570 A CN111201570 A CN 111201570A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- utterance
- speaker
- channel
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 161
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000001228 spectrum Methods 0.000 claims description 102
- 230000007774 longterm Effects 0.000 claims description 37
- 230000000694 effects Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 17
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种分析音频信号的方法,包括:接收代表话语的音频信号;提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量。基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。
Description
技术领域
本文所描述的实施方案涉及用于分析话语信号的方法和设备。
背景技术
许多设备都包括麦克风,所述麦克风可用于检测周边声音。在许多情形中,周边声音包括一个或多个附近说话人的话语。可以以许多方式使用通过麦克风所生成的音频信号。例如,代表话语的音频信号可以被用作话语识别系统的输入,以允许用户使用口语命令来控制设备或系统。
发明内容
根据本发明的第一方面,提供了一种分析音频信号的方法,该方法包括:接收代表话语的音频信号;提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及,基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。
根据本发明的另一方面,提供了一种用于分析音频信号的系统,该系统被配置为用于执行所述方法。
根据本发明的另一方面,提供了一种包括这种系统的设备。所述设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。
根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第一方面的方法的指令。
根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。
根据本发明的第二方面,提供了一种说话人标识的方法,包括:接收代表话语的音频信号;从所接收的音频信号中去除信道和/或噪声的影响,以获得干净的音频信号;获得所述干净的音频信号的至少一部分的平均频谱;将所述平均频谱与已注册说话人的长期平均说话人模型进行比较;以及,基于所述比较来确定所述话语是否是所述已注册说话人的话语。
获得所述干净的音频信号的至少一部分的平均频谱可以包括获得所述干净的音频信号中代表浊音话语的一部分的平均频谱。
获得所述干净的音频信号的至少一部分的平均频谱可以包括获得所述干净的音频信号中代表第一声学类别的一部分的第一平均频谱以及获得所述干净的音频信号中代表第二声学类别的一部分的第二平均频谱,且将所述平均频谱与已注册说话人的长期平均说话人模型进行比较可以包括将所述第一平均频谱与所述已注册说话人的第一声学类别的长期平均说话人模型进行比较以及将所述第二平均频谱与所述已注册说话人的第二声学类别的长期平均说话人模型进行比较。
第一声学类别可以是浊音话语且第二声学类别是清音话语。
该方法可以包括:将所述平均频谱与多个已注册说话人中的每一已注册说话人的相应长期平均说话人模型进行比较;以及,基于所述比较来确定所述话语是否是所述已注册说话人中的一个已注册说话人的话语。
该方法可以进一步包括:将所述平均频谱与通用背景模型(UniversalBackground Model)进行比较;以及,在确定所述话语是否是所述已注册说话人中的一个已注册说话人的话语时包括所述平均频谱与所述通用背景模型进行比较的结果。
该方法可以包括将所述已注册说话人中的一个已注册说话人标识为所述话语的源的最可能候选人。
该方法可以包括:通过以下步骤获得关于信道和/或噪声对所接收的音频信号的影响的信息:接收代表话语的音频信号;提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及,基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。
该方法可以包括:用多个已注册用户的话语的第一声学类别和第二声学类别的模型来分析所述音频信号的第一分量和第二分量,以获得所述信道的相应假设值;以及,确定所述话语不是其模型产生所述信道的物理上不可信的假设值的任何已注册说话人的话语。
如果所述信道的假设值在相关频率范围内包含超过一阈值水平的变化,则可以认为所述信道的假设值是物理上不可信的。如果所述信道的假设值包含显著的不连续性,则可以认为所述信道的假设值是物理上不可信的。
根据本发明的另一方面,提供了一种用于分析音频信号的系统,该系统被配置为执行所述方法。
根据本发明的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。
根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第二方面的方法的指令。
根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第二方面的方法。
附图说明
为了更好地理解本发明,且为了示出如何实施本发明,现在将参考附图,在附图中:
图1例示了一个智能电话;
图2是例示智能电话的形式的示意图;
图3是例示分析音频信号的方法的流程图;
图4是例示用于分析音频信号的系统的框图;
图5例示了图3的方法中的结果;
图6是例示用于分析音频信号的一个替代系统的框图;
图7是例示用于分析音频信号的另一替代系统的框图;
图8是例示用于分析音频信号的另一替代系统的框图;
图9例示了对语音生物测定系统的可能的中继攻击;
图10例示了重放攻击的效果;
图11是例示检测重放攻击的方法的流程图;
图12是例示标识说话人的方法的流程图;
图13是例示用于标识说话人的系统的框图;以及
图14是例示用于标识说话人的系统的框图。
具体实施方式
下面的描述阐述了根据本公开内容的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实施方式将是显而易见的。此外,本领域普通技术人员将认识到,可以代替下面所讨论的实施方案或与下面所讨论的实施方案结合地应用多种等同技术,且所有这样的等同物应被认为是本公开内容所涵盖的。
本文所描述的方法可以在各种各样的设备和系统中实施。然而,为了易于解释一个实施方案,将描述一个例示性实施例,其中实施方式发生在智能电话中。
图1例示了一个智能电话10,该智能电话10具有用于检测周边声音的麦克风12。在正常使用中,麦克风当然用于检测握持智能电话10以靠近他们的脸的用户的话语。
图2是例示智能电话10的形式的示意图。
具体地,图2示出了智能电话10的多个互连部件。应理解,智能电话10实际上将包含许多其他部件,但是以下描述对于理解本发明是足够的。
因此,图2示出了上面所提及的麦克风12。在某些实施方案中,智能电话10设置有多个麦克风12、12a、12b等。
图2还示出了存储器14,该存储器实际上可以被设置为单个部件或多个部件。存储器14被设置用于存储数据和程序指令。
图2还示出了处理器16,该处理器16实际上再次可以被设置为单个部件或多个部件。例如,处理器16的一个部件可以是智能电话10的应用处理器。
图2还示出了收发器18,该收发器18被设置用于允许智能电话10与外部网络通信。例如,收发器18可以包括用于经由WiFi局域网或经由蜂窝网络建立互联网连接的电路系统。
图2还示出了音频处理电路系统20,用于根据需要对由麦克风12所检测到的音频信号执行操作。例如,音频处理电路系统20可以对音频信号进行滤波,或可执行其他信号处理操作。
在此实施方案中,智能电话10设置有语音生物测定功能且设置有控制功能。因此,智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够在来自已注册用户的口语命令和由一个不同的人说出的相同命令之间进行区分。因此,本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备将命令发送至一个分立的设备。
在一些实施方案中,虽然在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能,但是使用收发器18将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。
本文所描述的方法源于对用户话语的不同部分具有不同的特性的认识。
具体地,已知的是,话语可以被划分为浊音声音和清音声音或无声声音。浊音声音是说话人的声带振动的声音,而无声声音是说话人的声带不振动的声音。
现在已经认识到,浊音声音和清音声音具有不同的频率特性,且这些不同的频率特性可以被用来获得有关话语信号的有用信息。
图3是例示分析音频信号的方法的流程图,以及图4是例示了分析系统中的功能块的框图。
具体地,在图3的方法的步骤50中,预期包含话语的音频信号在图4中所示出的系统的输入70上被接收。
所接收的信号被划分为多个帧,所述帧例如可以具有处于10ms-100ms的范围内的长度,然后被传送至浊音/清音检测块72。因此,在该过程的步骤52中,从所接收的信号中提取音频信号中代表话语的不同的第一声学类别和第二声学类别的第一分量和第二分量。提取音频信号的第一分量和第二分量可以包括标识音频信号包含话语的第一声学类别的时段,以及标识音频信号包含话语的第二声学类别的时段。更具体地,提取音频信号的第一分量和第二分量可以包括标识音频信号包含话语的第一声学类别的帧,以及标识音频信号包含话语的第二声学类别的帧。
当话语的第一声学类别和第二声学类别为浊音话语和清音话语时,存在若干方法可被用于标识浊音话语和清音话语,例如:使用针对黄金参考训练的深度神经网络(DNN)(例如,使用Praat软件);对话语信号执行具有单位延迟的自相关(因为浊音话语对于非零滞后具有较高的自相关);执行线性预测编码(LPC)分析(因为初始反射系数是浊音话语的良好指示符);查看话语信号的过零率(因为清音话语具有较高的过零率);查看信号的短期能量(对于浊音话语,短期能量往往较高);跟踪第一共振峰频率F0(因为清音话语不包含第一格式频率);检查线性预测编码(LPC)分析中的误差(因为浊音话语的LPC预测误差较低);使用自动话语识别来标识正在说出的单词,从而将话语划分为浊音话语和清音话语;或融合以上任何或全部。
在下面进一步所描述的实施方案中,话语的第一声学类别和第二声学类别是浊音话语和清音话语。然而,话语的第一声学类别和第二声学类别可以是任何在语音学上可区分的声学类别。例如,它们可以是不同的音素类别,例如两个不同的元音集;它们可以是两个不同的摩擦音(fricative);或者第一类别可以是摩擦音,而第二类别是咝擦音(sibilant)。
所接收的信号可以被提供至语音活动检测块,且仅在确定它确实包含话语时才被提供至浊音/清音检测块72。在那种情况下,或在有理由相信音频信号仅包含话语时的其他情况下,标识音频信号包含清音话语的时段的步骤可以包括:标识音频信号包含浊音话语的时段,以及将话语的剩余时段标识为包含清音话语。
浊音/清音检测块72可以例如基于Praat话语分析软件。
因此,浊音/清音检测块72输出代表浊音话语的音频信号的第一分量Sv和代表清音话语的第二分量Su。
更具体地,在一些实施方案中,代表浊音话语的音频信号的第一分量Sv和代表清音话语的第二分量Su是话语的浊音分量和清音分量的平均频谱。平均频谱是指在多个帧上获得且进行平均的话语的频谱。
可以在足以提供关于话语信号所获得的信息的合理置信度的数据中对频谱进行平均。一般而言,随着更多的数据被用于形成平均频谱,此信息将变得更可靠。
在一些情况下,对500ms的相关话语进行平均的频谱将足以提供可靠的平均频谱。可以基于话语的发音速度来适配生成平均频谱的时间长度,以确保话语包含足够的语音变化(phonetic variation)来提供可靠的平均值。可以基于话语的内容来适配生成平均频谱的时间长度。如果用户正在说预定的已知短语,则这可能比说用户所选择的词更具辨别力,因此可以在较短的时段内获得有用的平均值。图3中所例示的过程可以在用户说话时定期地执行,随着更多的话语被接收,在方法结束时定期地提供更新信息。然后,当该方法的结果收敛至稳定值时,可以判断已经处理了足够的话语。
在输入70上所接收的信号也被传送至说话人识别块74,该说话人识别块74执行语音生物测定过程以从多个已注册说话人中标识说话人。说话人识别系统中的注册过程通常涉及说话人提供话语样本,从该话语样本中提取特定特征,且所提取的特征被用于形成说话人话语的模型。在使用中,从话语样本中提取对应的特征,且将这些特征与之前所获得的模型进行比较,以获得说话人是先前已注册说话人的可能性的测量。
在某些情形中,说话人识别系统试图标识一个或多个已注册说话人,而不需要关于说话人应该是谁的先前预期。在其他情形中,例如因为正在使用的特定设备存在仅一个已注册用户,或者因为该用户已经以某一其他方式对自己进行了标识,所以存在关于说话人应该是谁的先前预期。
在此所例示的实施例中,说话人识别块74被用来标识说话人。在其他实施例中,可以假设说话人是一个特定的人,或者选自一小组人。
在图3中所示出的过程的步骤54中,将音频信号的第一分量和第二分量与已注册用户的话语的第一声学类别(例如,浊音分量)的模型和已注册用户的话语的第二声学类别(例如,清音分量)的模型进行比较。例如,将音频信号的第一分量和第二分量与已注册用户的浊音话语的模型和清音话语的模型进行比较可以包括将所述音频信号在多个预定频率处的幅度与所述模型中的幅度进行比较。
因此,在图4中所示出的系统中,一个或多个扬声器模型被存储例如在数据库中。基于说话人识别块74的输出,或者基于关于预期说话人是谁的先前假设,选择一个或多个说话人模型。
在此实施方案中,每一说话人模型包含已注册用户的浊音话语和清音话语的分立模型。更具体地,已注册用户的浊音话语的模型和清音话语的模型各自包括与多个频率对应的幅度值。
因此,图5示出了多个扬声器模型。
具体地,图5中所示出的每一说话人模型包括话语的浊音分量的长期平均频谱和话语的清音分量的长期平均频谱。这些模型是在先前的分立注册过程期间从相应的说话人获得的,在此过程中,说话人说出预定的标准测试短语或说他们自己所选择的词。
图5示出了五个说话人的说话人模型,被标记为说话人1-说话人5。说话人1的模型包括话语的浊音分量的长期平均频谱90和话语的清音分量的长期平均频谱91;说话人2的模型包括话语的浊音分量的长期平均频谱92和话语的清音分量的长期平均频谱93;说话人3的模型包括话语的浊音分量的长期平均频谱94和话语的清音分量的长期平均频谱95;说话人4的模型包括话语的浊音分量的长期平均频谱96和话语的清音分量的长期平均频谱97;以及,说话人5的模型包括话语的浊音分量的长期平均频谱98和话语的清音分量的长期平均频谱99。
在每种情况下,话语的模型包括一个矢量,该矢量包含多个频率处的幅度值。
可以从包含用于在说话人之间进行辨别的最有用信息的频率范围内选择多个频率。例如,所述范围可以是从20 Hz至8 kHz,或从20 Hz至4 kHz。
获取幅度值的频率可以被线性地间隔开,其中每一相邻频率对之间具有相等的频率间隔。替代地,频率可以被非线性地间隔开。例如,频率可以在梅尔标度上等距地间隔开。
可以依赖于频率间隔来选择用于形成话语的模型的幅度值的数目。例如,使用线性间隔,模型可以包含用于64至512个频率的幅度值。使用梅尔间隔,可以使用更少的频率,例如在10至20个梅尔间隔的频率之间。
因此,浊音话语的模型可以被指示为Mv,其中Mv代表在每一选定频率处包括一个幅度值的矢量,而清音话语的模型可以被指示为Mu,其中Mu代表在每一选定频率处包括一个幅度值的矢量。
如应理解,所接收的包含用户话语的信号将受到信道的属性的影响,我们认为这是指产生用户话语和由麦克风所生成的话语信号之间的差的任何因素改变,且所接收的信号也还将受到噪声的影响。
因此,假设在对所接收的信号进行平均以形成所接收的话语的第一和第二分量的时段内,信道和噪声是恒定的,则这些第一分量和第二分量可以表达为:
Sv=α.Mv+n,以及
Sv=α.Mv+n,
其中:
α代表倍数干扰分量(multiplicative disturbance component)的频谱,倍数干扰分量在此被称为信道,以及
n代表附加干扰分量的频谱,附加干扰分量在此被称为噪声。
因此,利用测量Sv和Su以及模型Mv和Mu,这两个方程可以针对两个未知数α和n求解。
因此,出于例示性目的,
为完整起见,应注意的是,利用在多个频率处进行的频谱测量,可以在每一频率处有效地求解这两个方程。
替代地,利用在f个不同的频率处进行的测量,方程Sv=α.Mv+n和Su=α.Mu+n可以各自被视为待求解的f个不同的方程。
在那种情况下,求解方程之后,可能有用的是,对结果应用低通滤波器或统计滤波器(例如,Savitsky-Golay滤波器),以获得信道和噪声特性的经低通滤波型式。
作为替代实施例,最小二乘法可以被用于获得2f个不同的方程的解。
应注意,上面所阐述的计算依赖于确定清音话语的模型与浊音话语的模型之间的差(Mu-Mv)。如果这些是相似的,例如在图5中的说话人1的情况下,在1.3kHz-1.6kHz范围内,则任何一个模型中的任何小的不确定性都将潜在地被放大为用于信道和/或噪声的计算值中的大误差。因此,处于任何这样的频率范围内的计算值可以在使用计算值的任何后续处理步骤中被赋予较低的重要性,例如,降低的权重可能被应用至随后处理步骤中所使用的值。替代地,当事先已知清音话语的模型和浊音话语的模型在特定频率范围内是相似的时,对于此范围内的频率,不需要求解以上给出的方程。
因此,如图3中所示出的过程的步骤56处所示,获得了关于影响音频信号的信道和/或噪声的信息。
此信息可以以许多不同的方式使用。
图6例示了一种这样的用途。图6中所示出的系统类似于图4的系统,且相同的附图标记被用于指代系统的相同部件。
在图6的系统中,比较块78被用于获得关于影响所接收的音频信号的信道α的信息。具体地,比较块78可以被用于获得信道的频谱。此可以被用于补偿所接收的音频信号,以将信道纳入考虑。
对于一个实施例,图6示出了信道补偿块120,输入70上所接收的音频信号被提供至该信道补偿块120。信道补偿块120还接收信道α的频谱。该信道补偿块120用于通过将所接收的信号除以所计算的信道α来从所接收的信号中去除信道的影响,之后将所接收的信号传送至说话人识别块74。
因此,可以改善说话人识别块74在输出122上的输出。换言之,它可以提供关于说话人的身份的更可靠信息。然后,此可以被提供至处理块124,且用于任何需要的目的。
信道补偿块120的输出(包含所接收的信号在去除信道的影响之后)可以被提供至任何合适的处理块126,例如话语识别系统等。
图7例示了另一这样的用途。图7中所示出的系统类似于图4的系统,且相同的参考数字被用于指代系统的相同部件。
在图7的系统中,比较块78被用于获得关于影响所接收的音频信号的噪声n的信息。具体地,比较块78可以被用于获得噪声的频谱。在处理所接收的音频信号时,此可以被用于将噪声纳入考虑。
对于一个实施例,图7示出了滤波器块128,在输入70上所接收的音频信号被提供至该滤波器块128。滤波器块128还接收噪声n的频谱。滤波器块128用于确保噪声不会不利地影响说话人识别块74的操作。
例如,可以在从所接收的信号中减去所计算的噪声特性n之后,进行任何进一步的处理。
在另一实施例中,当一个或多个频率处的噪声水平超过了预定阈值水平使得说话人识别块74的操作可能折中的情况下,滤波器块128可以去除所接收的音频信号在那些频率处的损坏分量(corrupted component),之后将所述信号传送至说话人识别块74。替代地,这些分量可以替代地被标记为潜在损坏的,之后被传送至说话人识别块74或任何进一步的信号处理块。
因此,可以改善说话人识别块74在输出122上的输出。换言之,它可以提供关于说话人的身份的更可靠信息。然后,此可以被提供至任何合适的处理块124,且被用于任何所需要的目的。
滤波器块128的输出(包含所接收的信号在去除被噪声过度损坏的频率分量之后)可以被提供至任何合适的处理块130,例如话语识别系统等。
图8例示了另一这样的用途。图8中所示出的系统类似于图4的系统,且相同的附图标记被用于指代系统的相同部件。
在图8的系统中,比较块78被用于获得关于影响所接收的音频信号的信道α和噪声n的信息。具体地,比较块78可被用于获得信道的频谱和噪声的频谱。在处理所接收的音频信号时,此可被用于将信道和噪声纳入考虑。
对于一个实施例,图8示出了组合滤波器块134,在输入70上所接收的音频信号被提供至该组合滤波器块。组合滤波器块134还接收信道α的频谱和噪声n的频谱。组合滤波器块134用于确保信道影响和噪声不会不利地影响说话人识别块74的操作。
例如,可以从所接收的信号中减去所计算的噪声特性n,且可以将剩余信号除以所计算的信道α,之后再进行任何进一步处理。
因此,可以改善说话人识别块74在输出122上的输出。换言之,它可以提供关于说话人的身份的更可靠信息。然后,此可以被提供至任何合适的处理块124,且被用于任何所需要的目的。
组合滤波器块134的输出(包含所接收的信号在去除了信道和噪声的影响之后)可以被提供至任何合适的处理块136,例如话语识别系统等。
所获得的关于影响音频信号的信道和/或噪声的信息的另一用途是战胜试图通过以所谓的重放攻击或欺骗攻击播放已注册用户的语音的录音来哄骗语音生物测定系统。
附加地,所获得的关于影响音频信号的信道和/或噪声的信息的另一用途是从所接收的音频信号中去除它们的影响,意味着音频信号中所包含的话语的平均频谱可以被用作生物测定。
图9示出了正在执行重放攻击的情形的一个实施例。因此,在图9中,智能电话10设置有语音生物测定功能。在此实施例中,智能电话10至少暂时地拥有一个攻击者,该攻击者具有另一智能电话30。智能电话30已经被用于记录智能电话10的已注册用户的语音。使智能电话30靠近智能电话10的麦克风入口12,且回放已注册用户的语音的录音。如果语音生物测定系统不能够确定其所识别的已注册用户的语音是录音,则攻击者将获得对旨在仅由已注册用户可访问的一个或多个服务的访问权。
已知的是,智能电话诸如智能电话30通常设置具有相对低质量的扬声器。因此,通过这样的扬声器所回放的已注册用户的语音的录音将不会与该用户的语音完美匹配,且此事实可被用于标识重放攻击。
图10例示了典型扬声器的频率响应。因此,在低于下限阈值频率(lowerthreshold frequency)fL的频率处,扬声器经受低频滚降,因为低音响应受限于扬声器隔膜的尺寸。在高于上限阈值频率(upper threshold frequency)fU的频率处,扬声器经受高频滚降。在下限阈值频率fL和上限阈值频率fU之间的频率处,存在一定程度的通带纹波,这是因为响应的幅度在β1和β2之间周期性地变化。
这些影响的大小将由扬声器的质量确定。例如,在高质量扬声器中,下限阈值频率fL和上限阈值频率fU应该使得在人类通常可听的频率范围内存在最小的低频滚降或高频滚降。但是,尺寸和成本约束意味着许多市售的扬声器(诸如,设置在智能电话诸如智能电话30中的那些扬声器)确实在一定程度上经受这些影响。
类似地,通带纹波的幅度(即,β1和β2之间的差)也将依赖于扬声器的质量。
如果通过具有图10所示的总体形式的频率响应的扬声器回放扬声器的语音,则在所接收的包含该说话人的话语的音频信号中可检测到该语音。先前已经认识到,如果所接收的音频信号具有特定的频率特性,则那可能是所接收的音频信号是重放攻击的结果的标志。然而,所接收的信号的频率特性依赖于其他因素,例如话语本身的频率特性以及任何周边噪声的属性,从而仅基于所接收的信号的频率特性,很难准确地确定信号来自于重放攻击。然而,图3中所示出且参考图3所描述的方法可以被用于更可靠地确定信号是否来自于重放攻击。
在一种可能的情况下,如图7中所示出的,周边噪声的频率特性被确定,且周边噪声的频率特性通过滤波器128从所接收的音频信号中减去。所接收的信号(其中去除了噪声)被提供至处理块130,在这种情况下,该处理块130可以是重放攻击检测块。
例如,重放攻击检测块可以执行EP-2860706A中所公开的任何方法,诸如测试特定的频谱比率(例如,0-2kHz的信号能量与2kHz-4kHz的信号能量的比率)是否具有一个可以指示通过扬声器重放的值,或者测试某一频带内的能量的与整个频谱的能量的比率是否具有一个可以指示通过扬声器重放的值。
在另一可能性中,图3中所示出的方法被用于确定影响所接收的话语的信道的频率特性。如果已经通过扬声器回放了话语,则扬声器的频率响应应该在信道的频率特性中可见。
图11是例示确定所接收的信号是否可能来自于重放攻击的方法的流程图。
在图11的方法中,在步骤140中,接收代表话语的音频信号。
在步骤142中,获得关于影响所述音频信号的信道的信息。例如,关于信道的信息可以通过图3中所示出的方法获得。
在步骤144中,确定信道是否具有扬声器的至少一个特性。
如步骤146处所示出的,确定该信道是否具有扬声器的至少一个特性可以包括确定该信道是否具有低频滚降。例如,对于低于下限截止频率fL(其可能例如在50Hz-700Hz范围内)的频率,低频滚降可能涉及所测量的信道以相对恒定的速率(诸如,6分贝/倍频程)减小。
如步骤148处所示出的,确定信道是否具有扬声器的至少一个特性可以包括确定信道是否具有高频滚降。例如,对于高于上限截止频率fU(其可能例如在18kHz-24kHz范围内)的频率,高频滚降可能涉及所测量的信道以相对恒定的速率(诸如,6分贝/倍频程)减小。
如步骤150处所示出的,确定信道是否具有扬声器的至少一个特性可以包括确定信道在其通带中是否具有纹波。例如,这可以包括将Welch周期图应用于信道,且确定特性中是否存在预定量的纹波。通带的中心部分(例如,100Hz-10kHz)上的纹波水平(即,图10中所示出的频率响应中的β1和β2之间的差)超过一个阈值(诸如,1分贝)且具有约100Hz的峰谷频率可以被视为扬声器的特性。
例如,可以执行步骤146、148和150中的两个或三个,且将结果应用至分类器,以确定那些步骤的结果是否确实是扬声器频率响应的特性。
作为另一实施例,信道频率响应可以被用作神经网络的输入,该神经网络已经被训练为将作为扬声器的特性的信道与其他信道区分开。
如果确定信道具有扬声器的特性,则可能得还基于其他指示符,可以确定所接收的音频信号是重放攻击的结果。在那种情况下,当试图验证说话人是预期的已注册说话人时,可以忽略所接收的音频信号中的话语。
图12是例示说话人标识的方法的流程图,以及图13是用于执行说话人标识的系统的框图。
如上面所描述的,可以在智能电话诸如智能电话10或具有语音生物测定功能的任何其他设备中实施该系统。因此,智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够区分来自已注册用户的口语命令和由一个不同的人说的相同命令。因此,本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备将命令传输至一个分立设备。
在一些实施方案中,虽然在智能电话10或靠近用户的其他设备上执行语音生物测定功能,但是使用收发器18将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。
在图12的方法的步骤160中,接收由麦克风12响应于周边声音所生成的信号。
所接收的信号被划分成多个帧,所述帧例如可以具有在10ms-100ms范围内的长度。可以分析这些帧以确定它们是否代表话语,且仅进一步考虑代表话语的帧。
代表话语的帧被传送至信道/噪声去除块180,且在该方法的步骤162中,从所接收的音频信号中去除信道和/或噪声的影响,以获得干净的音频信号。
可以通过上面所描述的方法或通过任何其他合适的方法来确定信道和/或噪声的影响,以留下不受任何信道或噪声影响不利影响的干净的音频信号。
在该方法的步骤164中,将干净的音频信号传送至平均块182,该平均块182获得干净的音频信号的至少一部分的平均频谱。
平均频谱是在多个帧上获得且进行平均的话语的一个或多个相关部分的频谱。
可以在足以提供信息平均值的合理置信度的数据中对一个或多个频谱进行平均。一般而言,随着更多的数据被用于形成一个或多个平均频谱,此平均值将变得更可靠。在一些情况下,对500ms的相关话语进行平均的频谱将足以提供可靠的平均频谱。可以基于话语的发音速度来适配生成一个或多个平均频谱的时间长度,以确保话语包含足够的语音变化来提供可靠的平均值。可以基于话语的内容来适配生成一个或多个平均频谱的时间长度。
如上面所提及的,在步骤164中获得干净的音频信号的至少一部分的平均频谱。例如,此可以包括获得干净的音频信号中代表一个或多个音频类别的部分的平均频谱。
为了实现此,从干净的音频信号中提取干净的音频信号中代表话语的不同声学类别的一个或多个分量。提取干净的音频信号的该分量或每一分量可以包括标识干净的音频信号中包含话语的相关声学类别的时段。更具体地,提取干净的音频信号的该或多个分量可以包括标识干净的音频信号中包含话语的相关声学类别的帧。
在一些实施方案中,获得干净的音频信号的至少一部分的平均频谱包括获得干净的音频信号中代表浊音话语的一部分的平均频谱。
在一些其他实施方案中,获得干净的音频信号的至少一部分的平均频谱包括获得干净的音频信号中代表浊音话语的一部分的第一平均频谱,以及获得干净的音频信号中代表清音话语的一部分第二平均频谱。
当该方法涉及获得干净的音频信号中代表一个或多个音频类别的部分的平均频谱且声学类别是浊音话语(或话语的第一声学类别和第二声学类别是浊音话语和清音话语)时,存在若干种可以用来标识浊音话语和清音话语的方法,例如:使用针对黄金参考训练的深度神经网络(DNN)(例如,使用Praat软件);对话语信号执行具有单位延迟的自相关(因为浊音话语对于非零滞后具有较高的自相关);执行线性预测编码(LPC)分析(因为初始反射系数是浊音话语的良好指示符);查看话语信号的过零率(因为清音话语具有较高的过零率);查看信号的短期能量(对于浊音话语,短期能量往往更高);跟踪第一共振峰频率F0(因为清音话语不包含第一格式频率);检查线性预测编码(LPC)分析中的误差(因为浊音话语的LPC预测误差较低);使用自动话语识别来标识正在说出的单词,从而将话语划分为浊音话语和清音话语;或融合以上任何或全部。
如上面所提及的,话语的声学类别可以是浊音话语和清音话语。然而,话语的声学类别可以是任何在语音学上可区分的声学类别。例如,它们可以是不同的音素类别,例如两个不同的元音集;它们可以是两个不同的摩擦音;或者第一类别可以是摩擦音,而第二类别是咝擦音。
在该方法的步骤166中,所获得的干净的音频信号的至少一部分的平均频谱被传送至比较块184。比较块184还接收一个或多个已注册说话人的一个或多个长期平均说话人模型。术语“长期”平均说话人模型是指在注册期间或后续期间使用已注册说话人的足够话语来形成模型,该模型是相对稳定的。
在一些实施方案或情形中,仅存在一个已注册说话人,因此比较块184接收该已注册说话人的一个或多个长期平均说话人模型。在一些其他实施方案或情形中,存在不止一个已注册说话人,因此比较块184接收每一已注册说话人的一个或多个长期平均说话人模型。
在某些其他实施方案或情形中,存在不止一个已注册说话人,但是存在关于假定说话人(purported speaker)的一些附加信息。例如,设备的用户可能已经以某种方式标识了自己。在那种情况下,比较块184接收该已注册说话人的一个或多个长期平均说话人模型。
另外,在一些实施方案中,比较块184可以附加地或替代地接收通用背景模型(UBM),例如以统计平均用户的模型的形式。
一个或多个长期平均说话人模型以及通用背景模型(UBM)(如果使用的话)被存储在模型数据库186中。
比较块184可以接收一个或多个长期平均扬声器模型,所述模型对应于干净的音频信号中用于获得平均频谱的部分。
因此,例如,获得干净的音频信号的至少一部分的平均频谱可以包括获得干净的话语信号中代表浊音话语的一部分的平均频谱。换言之,利用浊音话语的频谱的测量Sv,以及针对信道α和噪声n所计算出的值,浊音话语的频谱的干净的测量SCv可以计算为:
然后,此可以与比较块184正在考虑的该或每一已注册说话人的浊音话语的长期平均说话人模型Mv进行比较。
在其他实施例中,获得干净的音频信号的至少一部分的平均频谱可以包括获得干净的音频信号中代表浊音话语的一部分的第一平均频谱以及获得干净的音频信号中代表清音话语的一部分的第二平均频谱。
如之前一样,干净的音频信号中代表浊音话语的一部分的平均频谱可以计算为
且类似地,干净的音频信号中代表清音话语的一部分的平均频谱可以计算为:
将第一平均频谱SCv与比较块184正在考虑的该或每一已注册说话人的浊音话语的长期平均说话人模型Mv进行比较,且将第二平均频谱SCu与比较块184正在考虑的该或每一已注册说话人的清音话语的长期平均说话人模型Mu进行比较。
在该方法的步骤168中,比较的结果被传送至确定块188,确定块188基于该比较来确定话语是否是比较块184正在考虑的已注册说话人的话语。如上面所提及的,此确定可以是基于比较的、关于所接收的话语是否与预期是说话人的已注册用户足够接近地匹配的接受/拒绝决定。
在一些实施例中,注册了少量的说话人(例如,2至10个),且在注册过程期间获得了他们的话语的合适模型。然后,由确定块188做出的确定涉及那些已注册说话人中的哪一个是所接收的音频信号中的话语的源的最可能的候选人。
作为实施例,此确定可以基于所接收的来自不同模型的话语的相应对数谱距离(LSD),或者可以使用主成分分析(PCA)或线性辨别分析(LDA)。
当还考虑通用背景模型(UBM)时,该确定可以将所接收的话语、已注册用户的话语的模型和背景模型之间的比较结果纳入考虑。
图14是用于执行说话人标识的系统的另一框图。
如上面所描述的,可以在智能电话诸如智能电话10或具有语音生物测定功能的任何其他设备中实施该系统。因此,智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够区分来自已注册用户的口语命令和由一个不同的人说的相同命令。因此,本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备将命令传输至一个分立设备。
在一些实施方案中,虽然在智能电话10或靠近用户的其他设备上执行语音生物测定功能,但是使用收发器18将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。
一些实施方案特别适合在诸如家庭控制系统、家庭娱乐系统或车载娱乐系统的设备中使用,在这些设备中经常将存在多个已注册用户(例如,两个到十个这样的用户),且其中响应于口语命令而执行的预期操作(诸如,“播放我最喜欢的音乐”或例如“增加我房间的温度”)将依赖于说话人的身份。
如在图13的系统中,接收由麦克风12响应于周边声音所生成的信号。所接收的信号被划分成多个帧,所述帧例如可以具有10ms-100ms范围内的长度。可以分析这些帧来确定它们是否代表话语,且仅进一步考虑代表话语的帧。
然后,在提取块192中提取所接收的音频信号中代表话语的不同声学类别的分量。提取干净的音频信号的该或每一分量可以包括标识音频信号中包含话语的相关声学类别的时段。更具体地,提取音频信号的该或多个分量可以包括标识音频信号中包含话语的相关声学类别的帧。
在所例示的实施方案中,提取块192是浊音/清音检测器(VU),其提取代表浊音话语和清音话语的相应分量,且输出音频信号中代表浊音话语的一部分的平均频谱Sv以及音频信号中代表清音话语的一部分的平均频谱Su。
当话语的第一声学类别和第二声学类别是浊音话语和清音话语时,存在若干种可以用来标识浊音话语和清音话语的方法,例如:使用针对黄金参考训练的深度神经网络(DNN)(例如,使用Praat软件);对话语信号执行具有单位延迟的自相关(因为浊音话语对于非零滞后具有较高的自相关);执行线性预测编码(LPC)分析(因为初始反射系数是浊音话语的良好指示符);查看话语信号的过零率(因为清音话语具有较高的过零率);查看信号的短期能量(对于浊音话语,短期能量往往更高);跟踪第一共振峰频率F0(因为清音话语不包含第一格式频率);检查线性预测编码(LPC)分析中的误差(因为浊音话语的LPC预测误差较低);使用自动话语识别来标识正在说出的单词,从而将话语划分为浊音话语和清音话语;或融合以上任何或全部。
如上面所提及的,话语的声学类别可以是浊音话语和清音话语。然而,话语的声学类别可以是任何在语音学上可区分的声学类别。例如,它们可以是不同的音素类别,例如两个不同的元音集;它们可以是两个不同的摩擦音;或者第一类别可以是摩擦音,而第二类别是咝擦音。
然后,信号中代表话语的两个声学类别的两个分量的平均频谱被传送至信道/噪声计算和去除块194。
在一些实施方案中,系统设置有说话人的假定身份,且需要确定所接收的信号是否实际上来自该说话人(称为说话人验证)。在其他实施方案中,系统具有多个已注册说话人,但是不具有关于已注册说话人中的哪一个在任何给定时间正在讲话的更多信息,且需要标识那些已注册说话人中的哪一个是说话人(称为说话人标识)。
系统包括数据库196,该数据库196存储该或每一已注册说话人的浊音话语的长期平均说话人模型Mv以及该或每一已注册说话人的清音话语的长期平均说话人模型Mu(或者每一已注册说话人的其他声学类别的话语的模型)。
如上面所描述的,系统可能需要执行说话人验证或说话人标识。
在说话人验证的情况下,音频信号中代表浊音话语的部分的平均频谱Sv以及音频信号中代表清音话语的部分的平均频谱Su与假定说话人的浊音话语的模型Mv以及假定说话人的清音话语的长期平均说话人模型Mu相结合,以获得信道α和噪声n的值。具体来说,如之前一样:
信道/噪声计算和去除块194然后去除所计算的信道和噪声的影响,以获得浊音话语的平均频谱的干净的测量SCv,计算为:
在其他实施方案中,清音话语的平均频谱的干净的测量SCu可以类似地计算为:
然后,话语的相关部分的平均频谱的干净的测量被传送至比较块198,用于与假定用户的话语的该部分的相应模型进行比较。输出比较得分,以指示话语的相关部分的平均频谱的干净的测量是否足够接近模型,以具有信号来自假定说话人的话语的所要求的置信度。如之前一样,比较块198可以附加地从数据库196接收通用背景模型(UBM),例如以统计平均用户的模型的形式,且可以在提供输出比较得分时使用此。
在说话人标识的情况下,将音频信号中代表浊音话语的部分的平均频谱Sv以及音频信号中代表清音话语的部分的平均频谱Su与每一已注册说话人的浊音话语的相应模型Mv以及每一已注册说话人的清音话语的长期平均说话人模型Mu相结合,以获得信道α和噪声n的初步或假设值。具体来说,如之前一样:
为每一可能的说话人计算信道和噪声的这些值。
结果可能是使得明显的是,话语可能不是来自已注册说话人中的一个或多个。具体地,如果信道α基于特定说话人的模型的计算值显然在物理上是不可信的,则可以假设该说话人不是所接收的话语信号的源。例如,如果所计算的信道中的一个在相关频率范围内存在很大的变化(例如,大于20dB),或者如果所计算的信道中的一个存在显著的不连续性,则可能指示该信道在物理上不可信,从而说话人(该说话人的模型产生所计算的信道)不是那时说话的人。
在其他情况下,信道/噪声计算和去除块194从所接收的信号中去除每一所计算的信道和噪声值的影响,以在假设说话人是其话语模型被用作信道和噪声的那些计算值基础的人的情况下,获得浊音话语的平均频谱的相应干净的假设测量SCv。
因此,在具有两个已注册说话人A和B的情况下,两个已注册说话人A和B具有他们的浊音话语的相应模型MvA和MvB以及他们的清音话语的相应模型MuA和MuB,可以获得信道和噪声的相应假设值,即:
对于已注册说话人A,
对于已注册说话人B,
然后,从所接收的信号中临时地去除它们,以提供两个已注册用户的相应假设的干净的测量,即:
然后,话语的相关部分的平均频谱的这些假设的干净的测量被传送至比较块198,用于与相关用户的话语的该部分的相应模型进行比较。
因此,对于已注册说话人A,将SCvA与模型MvA进行比较,对于已注册说话人B,将SCvB与模型MvB进行比较。
然后,输出比较得分,指示已注册说话人中的一个的话语的相关部分的平均频谱的假设干净的测量值是否足够接近相应的模型,以具有信号来自该说话人的话语的所要求的置信度。
由比较块198所输出的结果可以简单地指示那些已注册说话人中的哪个是所接收的音频信号中的话语的源的最可能的候选人。
本领域技术人员将认识到,上文所描述的装置和方法的一些方面可以具体化为例如位于非易失性载体介质(诸如,磁盘、CD-ROM或DVD-ROM、程序化存储器诸如只读存储器(固件))上或位于数据载体(诸如,光学信号载体或电信号载体)上的处理器控制代码。对于许多应用,本发明的实施方案将被实施在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上。因此,代码可以包括常规程序代码或微代码或例如用于设立或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如,可重新编程逻辑门阵列)的代码。类似地,代码可以包括用于硬件描述语言(诸如,Verilog TM或VHDL(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解,代码可以被分布在彼此通信的多个经耦合的部件之间。在适当的情况下,还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。
注意,如本文中所使用的,术语模块应被用来指代可以至少部分地由专用硬件部件(诸如,自定义电路系统)实施的功能单元或功能块,和/或至少部分地由一个或多个软件处理器或由在合适的通用处理器等上运行的适当的代码实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。
实施方案可以在主机设备中实施,尤其是便携式主机设备和/或电池供电主机设备,诸如移动计算设备(例如,膝上型计算机或平板计算机)、游戏控制台、远程控制设备、家庭自动化控制器或家用电器(包括家用温度或照明控制系统)、玩具、机器(诸如,机器人)、音频播放器、视频播放器或移动电话(例如,智能电话)。
应注意,上文所提及的实施方案是例示本发明而不是限制本发明,且在不偏离随附权利要求的范围的情况下,本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了在权利要求中所列出的那些元件或步骤之外的元件或步骤的存在,“一”或“一个”不排除多个,且单个特征或其他单元可以实现权利要求中所列举的若干个单元的功能。权利要求中的任何参考数字或参考标注不应被解释为对所述权利要求范围的限制。
Claims (43)
1.一种分析音频信号的方法,该方法包括:
接收代表话语的音频信号;
提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;
用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及
基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。
2.根据权利要求1所述的方法,其中提取所述音频信号的第一分量和第二分量包括:
标识所述音频信号包含浊音话语的时段;以及
将话语的剩余时段标识为包含清音话语。
3.根据权利要求1或2所述的方法,其中用所述已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量包括:
将所述音频信号在多个预定频率处的幅度与所述话语的第一声学类别的模型和第二声学类别的模型中的幅度进行比较。
4.根据任一前述权利要求所述的方法,包括针对信道和/或噪声补偿所接收的音频信号。
5.根据任一前述权利要求所述的方法,包括:
对所接收的音频信号执行说话人标识过程,以形成关于说话人的身份的临时决定;
基于关于所述说话人的身份的临时决定,从多个模型中选择所述已注册用户的话语的第一声学类别的模型和第二声学类别的模型;
针对信道和/或噪声来补偿所接收的音频信号;以及
对经补偿的所接收的音频信号执行第二说话人标识过程,以形成所述说话人的身份的最终结论。
6.根据权利要求5所述的方法,其中针对信道和/或噪声来补偿所接收的音频信号包括:
标识所接收的音频信号中噪声水平超过阈值水平的频谱的至少一部分;以及
在执行所述第二说话人标识过程时,忽略所接收的音频信号的频谱的已标识部分。
7.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括浊音话语和清音话语。
8.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括第一音素类别和第二音素类别。
9.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括第一摩擦音和第二摩擦音。
10.根据权利要求1至6中的任一项所述的方法,其中所述话语的第一声学类别和第二声学类别包括摩擦音和咝擦音。
11.一种用于分析音频信号的系统,该系统包括用于接收音频信号的输入,且被配置用于:
接收代表话语的音频信号;
提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;
用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;以及
基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。
12.一种包括根据权利要求1至10中的任一项所述的系统的设备。
13.根据权利要求12所述的设备,其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。
14.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求1至10中的任一项所述的方法的指令。
15.一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据权利要求1至10中的任一项所述的方法。
16.一种确定所接收的信号是否可能由重放攻击引起的方法,该方法包括:
接收代表话语的音频信号;
获得关于影响所述音频信号的信道的信息;以及
确定所述信道是否具有扬声器的至少一个特性。
17.根据权利要求16所述的方法,其中确定所述信道是否具有扬声器的至少一个特性包括:
确定所述信道是否具有低频滚降。
18.根据权利要求17所述的方法,其中确定所述信道是否具有低频滚降包括对于低于下限截止频率的频率,确定所述信道是否以一恒定的速率减小。
19.根据权利要求16或17所述的方法,其中确定所述信道是否具有扬声器的至少一个特性包括:
确定所述信道是否具有高频滚降。
20.根据权利要求19所述的方法,其中确定所述信道是否具有高频滚降包括对于高于上限截止频率的频率,确定所述信道是否以一恒定的速率减小。
21.根据权利要求16、17或19所述的方法,其中确定所述信道是否具有扬声器的至少一个特性包括:
确定所述信道在其通带中是否具有纹波。
22.根据权利要求21所述的方法,其中确定所述信道在其通带中是否具有纹波包括确定在所述通带的中心部分上的纹波的程度是否超过一个阈值量,所述纹波的程度例如为从100Hz至10kHz。
23.一种用于确定所接收的信号是否可能由重放攻击引起的系统,该系统包括用于接收音频信号的输入,且被配置用于:
接收代表话语的音频信号;
获得关于影响所述音频信号的信道的信息;以及
确定所述信道是否具有扬声器的至少一个特性。
24.一种包括根据权利要求16至22中的任一项所述的系统的设备。
25.根据权利要求24所述的设备,其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。
26.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求16至22中的任一项所述的方法的指令。
27.一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据权利要求16至22中的任一项所述的方法。
28.一种说话人标识的方法,包括:
接收代表话语的音频信号;
从所接收的音频信号中去除信道和/或噪声的影响,以获得干净的音频信号;
获得干净的音频信号的至少一部分的平均频谱;
将所述平均频谱与已注册说话人的长期平均说话人模型进行比较;以及
基于所述比较来确定所述话语是否是所述已注册说话人的话语。
29.根据权利要求28所述的方法,其中获得干净的音频信号的至少一部分的平均频谱包括获得所述干净的音频信号中代表浊音话语的部分的平均频谱。
30.根据权利要求28所述的方法,其中获得干净的音频信号的至少一部分的平均频谱包括获得所述干净的音频信号中代表第一声学类别的部分的第一平均频谱以及获得所述干净的音频信号中代表第二声学类别的部分的第二平均频谱,且其中
将所述平均频谱与已注册说话人的长期平均说话人模型进行比较包括将所述第一平均频谱与所述已注册说话人的第一声学类别的长期平均说话人模型进行比较以及将所述第二平均频谱与所述已注册说话人的第二声学类别的长期平均说话人模型进行比较。
31.根据权利要求28所述的方法,其中所述第一声学类别是浊音话语且所述第二声学类别是清音话语。
32.根据权利要求28、29、30或31所述的方法,包括将所述平均频谱与多个已注册说话人中的每一已注册说话人的相应长期平均说话人模型进行比较;以及
基于所述比较来确定所述话语是否是所述已注册说话人中的一个已注册说话人的话语。
33.根据权利要求32所述的方法,进一步包括将所述平均频谱与通用背景模型进行比较;以及
在确定所述话语是否是所述已注册说话人中的一个已注册说话人的话语时包括所述平均频谱与所述通用背景模型进行比较的结果。
34.根据权利要求32所述的方法,包括将所述已注册说话人中的一个已注册说话人标识为所述话语的源的最可能候选人。
35.根据权利要求28至34中的任一项所述的方法,包括:
通过以下步骤获得关于信道和/或噪声对所接收的音频信号的影响的信息:
接收代表话语的音频信号;
提取所述音频信号中分别代表所述话语的第一声学类别和第二声学类别的第一分量和第二分量;
用已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量;
基于所述分析,获得关于影响所述音频信号的信道和噪声中的至少一个的信息。
36.根据权利要求35所述的方法,包括用多个已注册用户的话语的第一声学类别的模型和第二声学类别的模型来分析所述音频信号的第一分量和第二分量,以获得所述信道的相应假设值,以及确定所述话语不是其模型产生所述信道的在物理上不可信的假设值的任何已注册说话人的话语。
37.根据权利要求36所述的方法,其中如果所述信道的假设值在相关频率范围内包含超过阈值水平的变化,则认为所述信道的假设值在物理上是不可信的。
38.根据权利要求36所述的方法,其中如果所述信道的假设值包含显著的不连续性,则认为所述信道的假设值在物理上是不可信的。
39.一种用于分析音频信号的系统,该系统包括用于接收音频信号的输入,且被配置用于:
接收代表话语的音频信号;
从所接收的音频信号中去除信道和/或噪声的影响,以获得干净的音频信号;
获得所述干净的音频信号的至少一部分的平均频谱;
将所述平均频谱与已注册说话人的长期平均说话人模型进行比较;以及
基于所述比较,确定所述话语是否是所述已注册说话人的话语。
40.一种包括根据权利要求39所述的系统的设备。
41.根据权利要求40所述的设备,其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。
42.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求28至38中的任一项所述的方法的指令。
43.一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据权利要求28至38中的任一项所述的方法。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762571978P | 2017-10-13 | 2017-10-13 | |
US62/571,978 | 2017-10-13 | ||
US201762578667P | 2017-10-30 | 2017-10-30 | |
US62/578,667 | 2017-10-30 | ||
GB1719734.4 | 2017-11-28 | ||
GB1719731.0 | 2017-11-28 | ||
GBGB1719734.4A GB201719734D0 (en) | 2017-10-30 | 2017-11-28 | Speaker identification |
GB1719731.0A GB2567503A (en) | 2017-10-13 | 2017-11-28 | Analysing speech signals |
PCT/GB2018/052905 WO2019073233A1 (en) | 2017-10-13 | 2018-10-11 | ANALYSIS OF VOICE SIGNALS |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111201570A true CN111201570A (zh) | 2020-05-26 |
Family
ID=66100464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880065835.1A Pending CN111201570A (zh) | 2017-10-13 | 2018-10-11 | 分析话语信号 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111201570A (zh) |
GB (1) | GB2580821B (zh) |
WO (1) | WO2019073233A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808595A (zh) * | 2020-06-15 | 2021-12-17 | 颜蔚 | 一种从源说话人到目标说话人的声音转换方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070129941A1 (en) * | 2005-12-01 | 2007-06-07 | Hitachi, Ltd. | Preprocessing system and method for reducing FRR in speaking recognition |
WO2013022930A1 (en) * | 2011-08-08 | 2013-02-14 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
EP2860706A2 (en) * | 2013-09-24 | 2015-04-15 | Agnitio S.L. | Anti-spoofing |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040236573A1 (en) * | 2001-06-19 | 2004-11-25 | Sapeluk Andrew Thomas | Speaker recognition systems |
-
2018
- 2018-10-11 GB GB2004481.4A patent/GB2580821B/en active Active
- 2018-10-11 WO PCT/GB2018/052905 patent/WO2019073233A1/en active Application Filing
- 2018-10-11 CN CN201880065835.1A patent/CN111201570A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070129941A1 (en) * | 2005-12-01 | 2007-06-07 | Hitachi, Ltd. | Preprocessing system and method for reducing FRR in speaking recognition |
WO2013022930A1 (en) * | 2011-08-08 | 2013-02-14 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
EP2860706A2 (en) * | 2013-09-24 | 2015-04-15 | Agnitio S.L. | Anti-spoofing |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808595A (zh) * | 2020-06-15 | 2021-12-17 | 颜蔚 | 一种从源说话人到目标说话人的声音转换方法及装置 |
CN113808595B (zh) * | 2020-06-15 | 2024-07-16 | 颜蔚 | 一种从源说话人到目标说话人的声音转换方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
GB2580821A (en) | 2020-07-29 |
GB2580821B (en) | 2022-11-09 |
WO2019073233A1 (en) | 2019-04-18 |
GB202004481D0 (en) | 2020-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270707B2 (en) | Analysing speech signals | |
US20200227071A1 (en) | Analysing speech signals | |
US12026241B2 (en) | Detection of replay attack | |
US11631402B2 (en) | Detection of replay attack | |
US11694695B2 (en) | Speaker identification | |
CN110832580B (zh) | 重放攻击的检测 | |
US20200075028A1 (en) | Speaker recognition and speaker change detection | |
US20200201970A1 (en) | Biometric user recognition | |
US10839810B2 (en) | Speaker enrollment | |
US11074917B2 (en) | Speaker identification | |
US10818298B2 (en) | Audio processing | |
CN111201570A (zh) | 分析话语信号 | |
US10762905B2 (en) | Speaker verification | |
US11024318B2 (en) | Speaker verification | |
CN113767431A (zh) | 语音检测 | |
Paul et al. | Presence of speech region detection using vowel-like regions and spectral slope information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200526 |