CN104616655B

CN104616655B - 声纹模型自动重建的方法和装置

Info

Publication number: CN104616655B
Application number: CN201510061721.8A
Authority: CN
Inventors: 郑方; 李蓝天; 邬晓钧; 别凡虎; 王军
Original assignee: BEIJING D-EAR TECHNOLOGIES Co Ltd
Current assignee: Beijing d-Ear Technologies Co., Ltd.
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2018-01-16
Anticipated expiration: 2035-02-05
Also published as: US10540980B2; KR20170105034A; EP3255631A1; CN104616655A; US20170365259A1; JP6502512B2; KR101963993B1; WO2016123900A1; EP3255631A4; EP3255631B1; JP2018509649A

Abstract

本申请提供了一种声纹模型自动重建的方法和装置，包括：将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括：参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息；以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据；确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；使用筛选后的多组语音数据更新时间窗管道中的语音数据；使用更新后的时间窗管道中的语音数据自动重建声纹模型。从而解决了由于时间变化导致说话人模型波动，进而导致话说人识别正确率低的问题。

Description

声纹模型自动重建的方法和装置

技术领域

本申请涉及计算机及信息服务技术领域，特别是涉及一种声纹模型自动重建的方法和装置。

背景技术

说话人识别技术，又称为声纹识别技术，主要是基于语音中说话人包含的个性特征的信息，利用计算机以及各种信息识别技术，自动地实现说话人身份的确认。

近几年来，随着互联网的飞速发展，语音作为一种非接触性信息载体，人们可以依靠各种移动终端设备，例如：手机、麦克风和IP电话等，随时随地的完成语音采集，并通过网络传输和后台服务器来实现人机交互和说话人身份识别。

目前说话人识别最为主流的技术路线是GMM-UBM框架或者全变量子空间的i-vector模型。对于GMM-UBM框架采用混合高斯模型(Gaussian Mixture Model，GMM)模拟每个说话人模型及单独的通用背景模型(Universal Background Model，UBM)，每个说话人的数十秒语音借助充分语音训练得到的通用背景模型(UBM)，通过模型自适应的方法得到能够反映说话人自身特征的高斯混合模型(GMM)，并使用GMM-UBM进行说话人身份确定。而对于i-vector模型则是预先通过最大期望EM算法迭代求得一个线性变换矩阵T，语音片段借助该线性变换矩阵训练得到对应的i-vector模型，并使用该i-vector模型进行说话人身份确定。

上述框架在进行说话人身份确定时存在以下问题：首先，从生理学角度看，说话人的生理特性和发音特性是随时间不断发生变化的。例如，声道长度的变化，基音频率的变化等。这种变化分为短期变化(一天内不同时段的变化)、中期变化(一年内的变化)、长期变化(年龄段的变化)，由于时间变化的不确定性，无法得到一个稳定且鲁棒的说话人模型，从而在进行说话人身份确定时，存在说话人识别正确率低的问题，同时，如果持续性的让用户提供大量的建模语音必然会大大影响用户的使用体验。

其次，录音的通讯设备或者移动终端，由于长时间的使用也会出现设备老化、信号不稳等情况，在一定程度上影响到录音准确性和保真度。

发明内容

本申请提供一种声纹模型自动重建的方法和装置，以解决由于时间变化导致说话人模型波动，进而导致话说人识别正确率低的问题。

为了解决上述问题，本申请公开了一种声纹模型自动重建的方法，包括：

将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括：参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息；

以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据；

确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；

使用筛选后的多组语音数据更新时间窗管道中的语音数据；

使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。

优选地，将语音数据以时间点为标签构建时变数据库的步骤包括：

使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理，获取参数化的语音数据；

使用语音识别器识别语音数据，获得语音数据对应的音素；

根据参数化的语音数据和语音数据对应的音素构建时变数据库。

优选地，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据的步骤包括：

当新的参数化的语音数据进入时间窗管道中时，将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配，将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据；

根据更新结果获得筛选后的多组语音数据。

优选地，还包括：当时间窗管道中的语音数据更新频率超过一定阈值时，采用模型自适应的方式创建声纹模型。

优选地，所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据，各段语音数据可以是文本相关或文本无关。

为了解决上述问题，本申请还公开了一种声纹模型自动重建的装置，包括：

构建模块，用于将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括：参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息；

获取模块，用于以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据；

确定模块，用于确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；

筛选模型，用于使用筛选后的多组语音数据更新时间窗管道中的语音数据；

建立模块，用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。

优选地，构建模块在将语音数据以时间点为标签构建时变数据库包括：

使用美尔频域倒谱系数将所述语音数据按照语音数据帧进行参数化处理，获取参数化的语音数据；

使用语音识别器识别语音数据，获得语音数据对应的音素；

优选地，确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据包括：

根据更新结果获得筛选后的多组语音数据。

优选地，所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据，各段语音数据中的文本之间文本相关或文本无关。

与现有技术相比，本申请包括以下优点：

本申请首先，将语音数据以时间点为标签构建时变数据库，使用时变数据库存储用户各个时间段的语音数据，同时将语音数据进行语音数据帧的参数化处理，从而大大降低了时变数据库的存储成本。

其次，本申请通过以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中的参数化的语音数据，根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据，使用筛选后的多组语音数据更新时间窗管道中的语音数据，并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型，通过实时获取时间窗管道中当前用户的最新语音数据，并使用最新的语音数据生成声纹模型，保证了声纹模型对说话人识别的准确性，同时也维持了系统的鲁棒性。

附图说明

图1是本申请实施例一中的一种声纹模型自动重建的方法的流程图；

图2是本申请实施例二中的一种声纹模型自动重建的方法的流程图；

图3是本申请语音数据帧端点检测的示意图；

图4是本申请时变数据库的存储方式示意图；

图5是本申请语音信号预处理模块处理语音数据的示意图；

图6是本申请时间窗管道中的更新语音数据的示意图；

图7是本申请参数化的语音数据帧对应的音素的空间分布信息示意图；

图8是实现本申请声纹模型自动重建方法的示意图；

图9是本申请实施例三中的一种声纹模型自动重建装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请一种声纹模型自动重建的方法，包括：

步骤101：将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括：参数化的语音数据、语音数据对应的音素、语音数据对应的音素的空间分布信息和每个音素对应的语音数据帧，其中，语音数据对应参数化的语音数据。

合理的存储和表示时变的语音数据是整个发明实现的第一步，因此，时变数据库的设计和存储方法是至关重要的。由此本申请提出将语音数据以时间为标签构建用户的时变数据库。

步骤102：以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据。

时间窗管道是指根据实际情况设定合理连续时间长度的数据缓冲区，其中的语音数据用于声纹模型训练，该数据缓冲区称为时间窗管道。随着时间的推移，时间窗管道中的语音数据同步更新，使得声纹模型得以重新训练，从而实现新老声纹模型的更迭。

时间窗管道中可容纳的语音数据的数据量10至20段语音数据，根据实际情况各段语音数据可以是文本相关的，也可以是文本无关的。

根据语音内容，说话人识别可以分为文本相关(Text-Dependent)和文本无关(Text-Independent)两种方式。文本相关的说话人识别要求说话人按规定的文本内容发音。而文本无关的说话人识别则不需要事先确定语音内容。文本相关可以直接利用规定文本中的音节或者音素等语音信息，通常文本相关优于文本无关的系统，然而，在很多实际应用中无法使用特定的文本，而且人类能够不依赖说话的内容而辨别说话人。

步骤103：确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据。

步骤104：使用筛选后的多组语音数据更新时间窗管道中的语音数据。

步骤105：使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。

使用建立的声纹模型对用户进行说话人识别。

通过本实施例，首先，将语音数据以时间点为标签构建时变数据库，使用时变数据库存储用户各个时间段的语音数据，同时将语音数据进行语音数据帧的参数化处理，从而大大降低了时变数据库的存储成本。

参照图2，示出了本申请实施例二中的一种声纹模型自动重建的方法的流程图。

步骤201：构建时变数据库。

在时变数据库的构建中，单纯的存储语音数据文件不仅难以组织而且还占用大量存储空间，不利于时变数据库的管理维护和持续性存储。因此，在时变数据库的前端加入语音信号预处理模块，语音信号预处理模块的作用是删除语音数据中的静音部分语音、消减噪声影响。

语音信号预处理模块对语音数据进行端点检测(Voice Activity Detection，VDA)，使用基于能量的语音端点检测方法对语音数据进行端点检测，检测方法包括：以语音数据帧为单位，依次统计每帧语音数据帧中各采样点对应的能量，并将能量低于规定阈值的语音数据删除，保留能量较高且稳定的语音数据，如图3所示。

使用美尔频域倒谱系数MFCC将所述语音数据按照语音数据帧进行参数化处理，获取参数化的语音数据。

参数化处理过程中，使用公式(1),实现0阶MFCC特征到对应一阶Delta和二阶Delta特征的转换。

pFrame[i]＝(2*(f₂[i]-b₂[i])+(f₁[i]-b₁[i]))/10. (1)

其中，pFrame[i]表示参数化的语音数据帧，f₁[i]、f₂[i]分别代表第i帧语音的前面第一帧和前面第二帧的特征值；b₁[i]、b₂[i]分别代表第i帧语音的后面第一帧和后面第二帧的特征值。二阶Delta则可在一阶Delta的基础上通过公式(1)迭代即可求得参数化的语音数据，以此获取语音帧的前后连续关系

使用语音识别器识别语音数据，获得语音数据对应的音素；

使用音素匹配器识别语音数据帧，获得语音数据帧对应的音素的空间分布信息。

根据参数化的语音数据、语音数据帧对应的音素的空间分布信息和语音数据对应的音素构建时变数据库。

构建的时变数据库的存储方式如图4所示，其中，语音数据与参数化的语音数据具有对应关系，语音数据与语音数据的音素也就有对应关系，通过语音数据的关系可以得到参数化的语音数据与语音数据的音素也具有相应的对应关系，并且每个音素与语音数据帧也具有相应的对应关系。本申请的时变数据库采用树形的存数结构，便于时变数据库的管理，方便查询和检错。

基于上述方法，参见图5示出了实现本方法的应用实例。以一条wav格式1Mb大小的语音数据为例。首先，对1M语音数据进行端点检测，获得稳定的语音数据,即600Kb的语音数据。其次，语音数据以帧为单位，使用美尔频域倒谱系数MFCC将语音数据按照语音数据帧进行参数化处理，获取参数化的语音数据，即参数化的语音数据为140Kb。再次，将参数化的语音数据保存至时变数据库中。由此可知，通过上次处理该1M的语音数据仅为140Kb，节省存储空间近10倍。

步骤202：以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据。

步骤203：确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据。

参数图6示出了本申请时间窗管道中的更新语音数据的示意图，具体包括：

当新的参数化的语音数据601进入时间窗管道中时，将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息602-605进行匹配，也即将新的参数化的语音数据601与原语音数据602-605分别进行匹配，经过匹配后，得出新的参数化的语音数据与原语音数据605的匹配概率最高，因此将匹配概率最高的时间窗管道中的原语音数据605更新为新的参数化的语音数据，并将时间窗管道中的原语音数据605删除，根据更新结果获得筛选后的多组语音数据。

尽管实时获取到用户最新的语音数据，但是如果不考虑音素空间的分布信息，直接使用这些语音数据进行声纹建模是不合理的。例如，对于0到9的数字说话人识别系统而言，如果不考虑数字的分布，直接将时间窗管道的语音数据用于建立声纹模型，容易出现数字模型分布不均衡的现象。如图7所示，如果仅采用包含1、3、5、8数字的参数化的语音数据帧进行模型重建，显然会逐渐导致用户模型的畸变。在用户读入0、2、4、6、7、9数字进行验证识别时，很大程度上采用重建后的模型会比重建前的模型的识别正确率低。

步骤204：使用筛选后的多组语音数据更新时间窗管道中的语音数据，也即时间窗管道中的语音数据601-604。

步骤205：使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。

其次，本申请通过以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中的参数化的语音数据帧，根据确定出的参数化的语音数据帧对应的音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据，使用筛选后的多组语音数据更新时间窗管道中的语音数据，并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型，通过实时获取时间窗管道中当前用户的最新语音数据，并使用最新的语音数据生成声纹模型，保证了声纹模型对说话人识别的准确性，同时也维持了系统的鲁棒性。

参照图8示出了本申请声纹模型自动重建方法的示意图，包括：实施例一和实施例二的操作步骤，具体的，包括：

步骤801：使用语音识别器识别语音数据，获得语音数据对应的音素。

步骤802：使用美尔频域倒谱系数将所述语音数据按照语音数据帧进行参数化处理，获取参数化的语音数据。

步骤803：将语音数据对应的音素和参数化的语音数据保存到时变数据库中。

在实际应用中，步骤801和步骤802可以同时进行，也可以先执行步骤801再执行步骤802，或先执行步骤802再执行步骤801，对此本申请不作具体限制。

步骤804：使用音素匹配器确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据。

步骤805：使用筛选后的多组语音数据更新时间窗管道中的语音数据。

步骤806：使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。

进一步的，语音数据分别经过语音识别为了最大化地实时地跟踪用户的发音状态，训练更加准确的声纹模型，当时间窗管道中的语音数据更新频率超过一定阈值时，采用模型自适应的方式创建声纹模型，即将已知的声纹模型借助少量的最新的语音数据进行模型重建。该方法的优点在于解决训练数据少的问题，能够最大程度的利用时变更新语音数据；此外，其自适应效率相比声纹模型训练运算更快，效率更高。

当时变数据库中的更新频率较快时，或者说当用户使用系统的频率较高时，在一个时间窗管道中的更新语音数据的速度较快，可以采用直接重新训练的策略，即将更新后的时间窗内的语音数据直接进行声纹建模的自动重建。该方法的优点在于避免了重复的自适应带来的模型不稳定性，并且直接重新训练得到的声纹模型也更能准确地反映用户当前的声学特性。

针对上述两种模型重建策略，根据实际情况设定时变数据库更新频率阈值。例如，假设以一个星期为一个周期，我们首先判断在以一个星期内新增时变语音的数量N，如果N达到一个时间窗的长度，那可以采用更新后的时间窗内的语音数据直接进行声纹建模的自动重建；反之，采用模型自适应的方式创建声纹模型。

基于上述方法实施例的说明，本申请还提供了相应的一种声纹模型自动重建的装置的实施例，来实现上述方法实施例所述的内容。

参见图9，示出了本申请实施例三中的一种声纹模型自动重建的装置的结构框图，具体可以包括：

构建模块901，用于将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括：参数化的语音数据、语音数据对应的音素、和语音数据对应的音素的空间分布信息；

获取模块902，用于以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据；

确定模块903，用于确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；

筛选模块904，用于使用筛选后的多组语音数据更新时间窗管道中的语音数据；

建立模块905，用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。

使用语音识别器识别语音数据，获得语音数据对应的音素；

根据更新结果获得筛选后的多组语音数据。

优选地，所述装置还包括：

当时间窗管道中的语音数据更新频率超过一定阈值时，采用模型自适应的方式创建声纹模型。

优选地，所述时间窗管道中可容纳的语音数据的数据量为10至20段的语音数据，根据实际情况各段语音数据可以是文本相关的，也可以是文本无关的。

综上所述，本申请实施例一种声纹模型自动重建的装置主要包括以下优点：首先，将语音数据以时间点为标签构建时变数据库，使用时变数据库存储用户各个时间段的语音数据，同时将语音数据进行语音数据帧的参数化处理，从而大大降低了时变数据库的存储成本。

其次，通过以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中的参数化的语音数据，根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据，使用筛选后的多组语音数据更新时间窗管道中的语音数据，并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型，通过实时获取时间窗管道中当前用户的最新语音数据，并使用最新的语音数据生成声纹模型，保证了声纹模型对说话人识别的准确性，同时也维持了系统的鲁棒性。

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种声纹模型自动重建的方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声纹模型自动重建的方法，其特征在于，包括：

使用筛选后的多组语音数据更新时间窗管道中的语音数据；

2.根据权利要求1所述的方法，其特征在于，将语音数据以时间点为标签构建时变数据库的步骤包括：

使用语音识别器识别语音数据，获得语音数据对应的音素；

根据参数化的语音数据、语音数据对应的音素和语音数据帧对应的音素的空间分布信息构建时变数据库。

3.根据权利要求1所述的方法，其特征在于，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据的步骤包括：

根据更新结果获得筛选后的多组语音数据。

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据，各段语音数据可以是文本相关或文本无关。

6.一种声纹模型自动重建的装置，其特征在于，包括：

筛选模块，用于使用筛选后的多组语音数据更新时间窗管道中的语音数据；

7.根据权利要求6所述的装置，其特征在于，构建模块在将语音数据以时间点为标签构建时变数据库包括：

使用语音识别器识别语音数据，获得语音数据对应的音素；

8.根据权利要求6所述的装置，其特征在于，确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据包括：

根据更新结果获得筛选后的多组语音数据。

9.根据权利要求6所述的装置，其特征在于，还包括：

10.根据权利要求6所述的装置，其特征在于，所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据，各段语音数据可以是文本相关或文本无关。