CN111344782A

CN111344782A - 说话人注册

Info

Publication number: CN111344782A
Application number: CN201880073188.9A
Authority: CN
Inventors: R·赛义迪
Original assignee: Cirrus Logic International Semiconductor Ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2017-11-21
Filing date: 2018-11-20
Publication date: 2020-06-26
Also published as: GB2581677B; GB202006213D0; US20190156836A1; GB201801657D0; WO2019102187A1; US10839810B2; GB2581677A

Abstract

一种用于说话人识别系统的说话人建模方法，包括：接收包括说话人的话语的信号；以及，针对所述信号的多个帧：获得所述说话人的话语的频谱；通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；以及，从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征。该方法还包括基于所提取的特征来形成至少一个话语模型。

Description

说话人注册

技术领域

本文所描述的实施方案涉及例如在说话人识别系统中用于说话人注册的方法和设备。

背景技术

说话人识别系统是已知的，其中用户能够向系统提供口语输入，例如以控制系统的某一方面的操作。为了提供一定程度的安全性，系统尝试验证说话人是被授权向系统提供该输入的人。在本文中，这被称为说话人识别，所述说话人识别可以包括：说话人辨认，其中系统尝试确定若干已注册用户中的哪一个正在说话；以及，说话人验证，其中系统尝试确定说话人是否是他们声称的那个人。说话人识别的过程通常要求用户在首次使用系统之前应该在系统中注册。注册要求用户说一些单词或短语，然后系统获得用户的话语的模型。在系统的后续使用中，将任何口语输入与已注册用户的话语的模型比较，以验证说话人是否为已注册用户。

此过程的一个问题是，说话人的语音的属性可能会变化。例如，用户通常将通过选择在条件看起来良好时(例如，存在相对低水平的背景噪声时)讲话来在系统中注册。但是，在使用中，条件可能不太好。例如，可能存在高水平的背景噪声，或者用户可能位于距包含说话人识别系统的设备某一距离的位置。这些因素通常将意味着，用户将在他们的语音产生中使用较高水平的发声力度(vocal effort)，而此较高水平的发声力度往往会改变用户的话语的一些特性。除了附加噪声或混响的任何不利影响之外，发声力度的改变也是远场话语造成的。

发明内容

根据本发明的一方面，提供了一种用于说话人识别系统的说话人建模的方法。该方法包括接收包括说话人的话语的信号。针对该信号的多个帧，获得所述说话人的话语的频谱，通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱，以及从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征。基于所提取的特征形成至少一个话语模型。

针对包含浊音话语的信号的多个帧，可以获得所述说话人的话语的频谱。所述帧可能重叠。每一帧可能具有10ms和50ms之间的持续时间。

该方法可以包括通过施加与相应的发声力度有关的影响来生成多个经修改的频谱。

生成至少一个经修改的频谱的步骤可以包括：确定所述说话人的话语的至少一个共振峰分量的频率和带宽；通过修改该共振峰分量或每一共振峰分量的频率和带宽中的至少一个来生成至少一个经修改的共振峰分量；以及，由该经修改的共振峰分量或每一经修改的共振峰分量生成经修改的频谱。

该方法可以包括确定所述说话人的话语的处于3-5个范围内的共振峰分量的频率和带宽。

生成经修改的共振峰分量可以包括修改该共振峰分量或每一共振峰分量的频率和带宽。

从用户的话语的频谱中所提取的特征可以包括梅尔频率倒谱系数。

形成至少一个话语模型的步骤可以包括形成说话人的话语的模型，然后可以在所述说话人识别系统中对所述说话人进行注册时执行该方法。

形成至少一个话语模型的步骤可以包括部分地基于所述说话人的话语来形成用于所述说话人识别系统的背景模型。

根据本发明的另一方面，提供了一种用于说话人识别系统的说话人建模的系统，该系统被配置用于执行根据第一方面的方法。在那种情况下，该系统可以包括：输入，用于接收包括说话人的话语的信号；以及，处理器，被配置用于针对该信号的多个帧：获得所述说话人的话语的频谱；通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征；以及，基于所提取的特征形成至少一个话语模型。

根据本发明的另一方面，提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面，提供了一种计算机程序产品，包括计算机可读有形介质，以及用于执行根据第一方面的方法的指令。

根据本发明的另一方面，提供了一种非暂时性计算机可读存储介质，在所述非暂时性计算机可读存储介质上存储有计算机可执行指令，当由处理器电路系统执行所述计算机可执行指令时，所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。

附图说明

为了更好地理解本发明，且为了示出如何实施本发明，现在将参考附图，在附图中：

图1例示了一个智能电话；

图2是例示智能电话的形式的示意图；

图3是例示说话人注册的方法的流程图；以及

图4例示了用于说话人注册的系统。

具体实施方式

下面的描述阐述了根据此公开内容的示例实施方案。对于本领域普通技术人员而言，其他示例实施方案和实施方式将是显而易见的。此外，本领域普通技术人员将认识到，可以代替下面所讨论的实施方案或与下面所讨论的实施方案结合地应用多种等同技术，且所有这样的等同物应被认为是本公开内容所涵盖的。

图1例示了一个智能电话10，该智能电话10具有一个或多个用于检测周边声音的麦克风12。在正常使用中，麦克风当然用于检测握持智能电话10的用户的话语。

尽管本文所描述的方法的例示性实施例被实施在智能电话中，但是该方法可以被实施在任何合适的设备中。

图2是例示智能电话10的形式的示意图。

具体地，图2示出了设备(在这种情况下为智能电话10)的多个互连部件。应理解，智能电话10实际上将包含许多其他部件，但是以下描述对于理解本发明是足够的。

因此，图2示出了上面所提及的麦克风12。在某些实施方案中，智能电话10设置有多个麦克风12、12a、12b等。在此情况下，系统可以选择由这些麦克风中的仅一个麦克风所生成的信号。替代地，可以组合由多个麦克风所生成的信号，以形成单个输入信号。

图2还示出了存储器14，该存储器14实际上可以被设置为单个部件或多个部件。存储器14被设置用于存储数据和程序指令。

图2还示出了处理器16，该处理器16实际上也可以被设置为单个部件或多个部件。例如，处理器16的一个部件可以是智能电话10的应用处理器。

图2还示出了收发器18，该收发器18被设置用于允许智能电话10与外部网络通信。例如，收发器18可以包括用于经由WiFi局域网或经由蜂窝网络建立互联网连接的电路系统。

图2还示出了音频处理电路系统20，用于根据需要对由麦克风12所检测到的音频信号执行操作。例如，音频处理电路系统20可以对音频信号进行滤波，或可执行其他信号处理操作。

在此实施方案中，智能电话10设置有语音生物测定功能且设置有控制功能。因此，智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够在来自已注册用户的口语命令和由一个不同的人所说出的相同命令之间进行区分。因此，本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备，例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等，其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统，如果语音生物测定功能能够确认说话人是已注册用户，则智能电话或其他设备将命令发送至一个分立的设备。

在一些实施方案中，虽然在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能，但是使用收发器18将口语命令传输至远程话语识别系统，该远程话语识别系统确定口语命令的含义。例如，话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后，基于口语命令的含义的信号被返回至智能电话10或其他本地设备。在其他实施例中，在智能电话10中执行一些或所有话语识别。

语音生物测定功能尝试通过将说话人的语音与在注册过程期间所获得的模型进行比较来确认说话人是否为已注册用户。

图3是例示语音生物测定系统中的说话人注册的方法的流程图，以及图4是例示语音生物测定系统中的功能块的框图。

具体地，在图3的方法的步骤48中，在图4中所示出的系统的输入70上接收话语信号。

例如，通常在用户指示希望在说话人识别系统中注册之后，可以从设备10的麦克风12接收话语信号。例如，可能已经提示用户说特定的单词或短语。替代地，话语信号可以代表由用户所选择的单词或短语。作为另一替代方案，可以基于用户的随机话语来开始注册过程。

输入70上所接收的信号被传递至组帧块(framing block)72，该组帧块72将所接收的信号划分成多个帧，如图3的步骤50中所示出的。

例如，所接收的信号可以被划分成重叠的帧。作为一个实施例，可以将所接收的信号划分成长度为20ms的帧，其中每一帧与前一帧重叠10ms。作为另一实施例，可以将所接收的信号划分成长度为30ms的帧，其中每一帧与前一帧重叠15ms。

在图3的方法的步骤52中，将帧传递至频谱估计块74。频谱生成块74提取用户的话语的一帧的短时频谱(short term spectrum)。例如，频谱生成块74可以执行线性预测(LP)方法。更具体地，可以使用L1正则化的LP模型执行全极点分析来找到短时频谱。

基于短时频谱，可以确定用户的话语在该帧期间是浊音还是清音。存在若干种方法可以被用来辨认浊音话语和清浊话语，例如：使用针对黄金参考进行训练的深度神经网络(DNN)(例如，使用Praat软件)；对话语信号执行具有单位延迟的自相关(因为浊音话语对于非零滞后具有较高的自相关)；执行线性预测编码(LPC)分析(因为初始反射系数是浊音话语的良好指示符)；查看话语信号的过零率(因为清音话语具有较高的过零率)；查看信号的短时能量(对于浊音话语，短时能量往往较高)；跟踪第一共振峰频率F0(因为清音话语不包含第一格式频率)；检查线性预测编码(LPC)分析中的误差(因为浊音话语的LPC预测误差较低)；使用自动话语识别来辨认正在说出的单词，从而将话语分为浊音话语和清音话语；或融合以上任何或全部。

浊音话语是特定说话人的更多特征，因此，在一些实施方案中，丢弃包含很少浊音话语或丢弃没有浊音话语的帧，且仅进一步考虑包含大量浊音话语的帧。

在图3的方法的步骤54中，针对一个帧所提取的短时频谱被传递至频谱修改块76，该频谱修改块76通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱。

换言之，认识到，说话人所使用的发声力度会使说话人的语音的频谱特征失真。这被称为伦巴德效应。

在一个实施方案中，在此假设用户将在相对有利的条件下执行注册过程，例如存在低周边噪声，且设备相对靠近用户的口部定位。在注册过程开始时提供给用户的指令会建议在这种条件下执行该过程。此外，度量(诸如，信噪比)的测量可以被用来测试在适当的条件下执行注册。在这种情况下，所要求的发声力度将相对低。

然而，认识到，在注册之后的使用中，当期望验证说话人确实是已注册用户时，该用户所所采用的发声力度的水平可能会变化。例如，用户可能处于较高的周边噪声中，或者可能正在对例如距他们的口部某一距离的设备说话。

因此，通过频谱修改块76生成一个或多个经修改的频谱。例如，该经修改的频谱或每一经修改的频谱对应于特定水平的发声力度，而这些修改对应于由伦巴德效应所产生的失真。

例如，在一个实施方案中，步骤52中所获得的频谱通过用户的话语的一个或多个共振峰分量的频率和带宽来表征。例如，可以考虑前四个共振峰。在另一实施方案中，仅考虑第一共振峰。如上面所提及的，在频谱生成块74执行全极点分析的情况下，可以考虑对那些共振峰有贡献的共轭极点。

然后，生成一个或多个相应的经修改的共振峰分量。例如，可以通过修改所述一个或多个共振峰分量的频率和带宽中的至少一个来生成一个或多个经修改的共振峰分量。如上面所提及的，在频谱生成块74执行全极点分析且考虑了对那些共振峰有贡献的共轭极点的情况下，修改可以包括修改极点幅度和/或角度，从而实现预期的频率和/或带宽修改。

例如，随着发声力度增大，第一共振峰F1的频率会增加，而第二共振峰F2的频率会略微下降。类似地，随着发声力度增大，每一共振峰的带宽会减小。在I.Kwak andH.G.Kang,“Robust formant features for speaker verification in the Lombardeffect”,2015Asia-Pacific Signal and Information Processing Association AnnualSummit and Conference(APSIPA),Hong Kong,2015,pp.114-118中提出了，针对不同水平的周边噪声，对于量化前四个共振峰分量的频率和带宽中的改变的尝试。周边噪声导致说话人使用较高的发声力度，而发声力度的此改变对说话人的话语的频谱产生了影响。

然后，可以从每组经修改的共振峰分量中获得经修改的频谱。

因此，作为实施例，可以生成一个、两个、三个、四个、五个、多达十个或十个以上的经修改的频谱，每一经修改的频谱具有与由特定水平的发声力度所产生的失真相对应的修改。

通过实施例的方式，在该实施例中仅考虑第一共振峰，上面所提及的文献“Robustformant features for speaker verification in the Lombard effect”的图3指示，第一共振峰F1的频率将在存在65dB SPL的嘈杂语噪声的情况下平均增大约10％，在存在70dBSPL的嘈杂语噪声的情况下平均增大约14％，在存在75dB SPL的嘈杂语噪声的情况下平均增大约17％，在存在65dB SPL的粉红噪声的情况下平均增大8％，在存在70dB SPL的粉红噪声的情况下平均增大约11％，在存在75dB SPL的粉红噪声的情况下平均增大约15％。同时，图4指示，第一共振峰F1的带宽将在存在65dB SPL的嘈杂语噪声的情况下平均减小约9％，在存在70dB SPL的嘈杂语噪声的情况下平均减小约9％，在存在75dB SPL的嘈杂语噪声的情况下平均减小约11％，在存在65dB SPL的粉红噪声的情况下平均减小约8％，在存在70dBSPL的粉红噪声的情况下平均减小约9％，在存在75dB SPL的粉红噪声的情况下平均减小约10％。

因此，这些变化可以被用来从步骤52中所获得的频谱中形成经修改的频谱。例如，如果期望形成两个经修改的频谱，则70dB SPL的嘈杂语噪声和70dB SPL的粉红噪声的影响可以被用于形成经修改的频谱。

因此，代表70dB SPL的嘈杂语噪声的影响的经修改的频谱可以通过如下方式来形成：采用在步骤52中所获得的频谱，然后将第一共振峰F1的频率增大14％，且将F1的带宽减小9％。代表70dB SPL的粉红噪声的影响的经修改的频谱可以通过如下方式来形成：采用在步骤52中所获得的频谱，然后将第一共振峰F1的频率增大11％，且将F1的带宽减小9％。

上面所提及的文献的图3和图4还指示了其他共振峰的频率和带宽中所发生的改变，因此在其他实施例中，这些影响在形成经修改的频谱时也可以考虑。在图3的方法的步骤56中，针对该帧所提取的短时频谱以及该经修改的频谱或每一经修改的频谱被传递至特征提取块78，该特征提取块78提取频谱的特征。

例如，所提取的特征可以是梅尔频率倒谱系数(MFCC)，尽管可以提取任何合适的特征，例如可以提取感知线性预测(PLP)特征、线性预测编码(LPC)特征、线性频率倒谱系数(LFCC)、由小波或Gammatone滤波器组所提取的特征或基于深度神经网络(DNN)的特征。

在图3的方法的步骤58中，确定是否存在任何其他待分析的帧。如果存在，则过程返回至步骤52，且重复后续的步骤。如果不存在其他待分析的帧，例如因为用户已停止说话或因为已达到上限时间，则过程行进至步骤60，在步骤60中，建模块80基于步骤56中所提取的特征来形成用户的话语的至少一个模型。

一种可能性是，建模块80可以基于注册说话人的话语的多个帧的短时频谱的所提取的特征，以及针对多个帧中的每一帧所获得的该经修改的频谱或每一经修改的频谱，来形成单个模型。在后续的使用中，然后将用户的话语与该模型比较。

另一可能性是，建模块80可以基于注册说话人的话语的多个帧的频谱的所提取的特征来形成一个模型。然后，建模块80还可以基于从多个帧所获得的经修改的频谱，针对用于生成经修改的频谱的每一力度水平，形成另一模型。因此，在这种情况下，如果在步骤54中，基于第一水平和第二水平的附加发声力度为每一帧生成两个经修改的频谱，则建模块80可以基于所提取的注册说话人的话语的多个帧的未经修改的频谱的特征来形成一个模型以及两个附加模型，其中一个附加模型基于根据第一水平的附加发声力度所修改的注册说话人的话语的多个帧的频谱，而第二附加模型基于根据第二水平的附加发声力度所修改的注册说话人的话语的多个帧的频谱。

在后续的使用中，然后将用户的话语与这些模型的每一模型分别进行比较。

因此，在任一种情况下，都可以将用户的话语与将由附加的发声力度所导致的可能失真纳入考虑的模型进行比较。

在上面所给出的实施例中，出于在说话人识别系统中注册的目的，对用户的话语进行建模。

在其他实施例中，出于对一个或多个人的话语进行建模以用于形成在说话人识别系统中所使用的背景模型的目的，可以使用相同的方法。

因此，在许多说话人识别系统中，来自大量不同的说话人的开发话语(development speech)被用来形成背景模型，例如通用背景模型(UBM)。将在测试阶段所接收的话语与注册时从用户的话语所获得的模型以及背景模型进行比较，从而确定在测试阶段所接收的话语是否来自于已注册的说话人。

在形成背景模型时，可以使用本文所述的方法。具体地，如上面所提及的，背景模型是基于多个说话人的话语。对于那些多个说话人中的一个或多个说话人，可以接收包括说话人的话语的信号。然后，对于该信号的多个帧，获得该说话人或每一说话人的话语的频谱，且通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱。然后，来自该说话人或每一说话人的话语的频谱和至少一个经修改的频谱的特征被用于形成背景模型，该背景模型包含该说话人或每一说话人的话语的模型。来自其他说话人的话语的频谱的特征也可以被用于形成背景模型。

本领域技术人员将认识到，上文所描述的装置和方法的一些方面可以具体化为例如位于非易失性载体介质(诸如，磁盘、CD-ROM或DVD-ROM、程序化存储器诸如只读存储器(固件))上或位于数据载体(诸如，光学信号载体或电信号载体)上的处理器控制代码。对于许多应用，本发明的实施方案将被实施在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上。因此，代码可以包括常规程序代码或微代码或例如用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如，可重新编程逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如Verilog TM或VHDL(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解，代码可以被分布在彼此通信的多个经耦合的部件之间。在适当的情况下，还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。

注意，如本文中所使用的，术语模块应被用来指代可以至少部分地由专用硬件部件(诸如，自定义电路系统)实施的功能单元或功能块，和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当的代码实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。

实施方案可以在主机设备中实施，尤其是便携式主机设备和/或电池供电主机设备，诸如移动计算设备(例如，膝上型计算机或平板计算机)、游戏控制台、远程控制设备、家庭自动化控制器或家用电器(包括家用温度或照明控制系统)、玩具、机器(诸如，机器人)、音频播放器、视频播放器或移动电话(例如，智能电话)。

应注意，上文所提及的实施方案例示而非限制本发明，且在不偏离随附权利要求的范围的情况下，本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了权利要求中所列出的那些元件或步骤之外的元件或步骤的存在，“一”或“一个”不排除多个，且单个特征或其他单元可以实现权利要求中所记载的若干单元的功能。权利要求中的任何参考数字或参考标注不应被解释为对所述权利要求范围的限制。

Claims

1.一种用于说话人识别系统的说话人建模的方法，包括：

接收包括说话人的话语的信号；以及

对于该信号的多个帧：

获得所述说话人的话语的频谱；

通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；以及

从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征；以及

进一步包括：

基于所提取的特征形成至少一个话语模型。

2.根据权利要求1所述的方法，包括：

对于包含浊音话语的信号的多个帧，获得所述说话人的话语的频谱。

3.根据权利要求1或2所述的方法，包括：

对于所述信号的多个重叠帧，获得所述说话人的话语的频谱。

4.根据权利要求1、2或3所述的方法，其中每一帧具有10ms和50ms之间的持续时间。

5.根据权利要求1至4中的一项所述的方法，包括：

通过施加与相应的发声力度有关的影响来生成多个经修改的频谱。

6.根据任一项前述权利要求所述的方法，其中生成至少一个经修改的频谱的步骤包括：

确定所述说话人的话语的至少一个共振峰分量的频率和带宽；

通过修改该共振峰分量或每一共振峰分量的频率和带宽中的至少一个来生成至少一个经修改的共振峰分量；以及

由该经修改的共振峰分量或每一经修改的共振峰分量生成经修改的频谱。

7.根据权利要求6所述的方法，包括确定所述说话人的话语中处于3-5个范围内的共振峰分量的频率和带宽。

8.根据权利要求6或7所述的方法，其中生成经修改的共振峰分量包括：

修改该共振峰分量或每一共振峰分量的频率和带宽。

9.根据任一项前述权利要求所述的方法，其中从用户的话语的频谱中所提取的特征包括梅尔频率倒谱系数。

10.根据任一项前述权利要求所述的方法，其中形成至少一个话语模型的步骤包括形成所述说话人的话语的模型。

11.根据权利要求10所述的方法，其中所述方法是在所述说话人识别系统中对所述说话人进行注册时执行的。

12.根据任一项前述权利要求所述的方法，其中形成至少一个话语模型的步骤包括部分地基于所述说话人的话语形成用于所述说话人识别系统的背景模型。

13.一种用于说话人识别系统的说话人建模的系统，该系统被配置用于执行根据权利要求1至12中的任一项所述的方法。

14.一种用于说话人建模的系统，该系统包括：

输入，用于接收包括说话人的话语的信号；以及

处理器，被配置用于针对该信号的多个帧，执行如下步骤：

获得所述说话人的话语的频谱；

通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；

基于所提取的特征形成至少一个话语模型。

15.一种包括根据权利要求13或14中的任一项所述的系统的设备。

16.根据权利要求15所述的设备，其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

17.一种计算机程序产品，包括计算机可读有形介质，以及用于执行根据权利要求1至12中的任一项所述的方法的指令。

18.一种非暂时性计算机可读存储介质，在所述非暂时性计算机可读存储介质上存储有计算机可执行指令，当由处理器电路系统执行所述计算机可执行指令时，所述计算机可执行指令使所述处理器电路系统执行根据权利要求1至12中的任一项所述的方法。