CN107240396B

CN107240396B - 说话人自适应方法、装置、设备及存储介质

Info

Publication number: CN107240396B
Application number: CN201710457375.4A
Authority: CN
Inventors: 黄�俊; 李先刚; 蒋兵
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2023-01-17
Anticipated expiration: 2037-06-16
Also published as: CN107240396A; US10665225B2; US20180366109A1

Abstract

本发明实施例公开了一种说话人自适应方法、装置、设备及存储介质。所述说话人自适应方法包括：获取目标说话人的第一语音数据；将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型。本发明实施例通过将目标说话人的第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型，可以简化说话人自适应过程，降低自适应复杂度，提高自适应性能。

Description

说话人自适应方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种说话人自适应方法、装置、设备及存储介质。

背景技术

说话人自适应技术在近年来得到越来越多的重视，这项技术利用特定说话人数据对说话人无关(Speaker Independent，以下简称SI)码本进行改造，其目的是得到说话人自适应(Speaker Adapted，以下简称SA)码本以提升识别性能。

在某个说话人训练数据足够多的情况下，针对当前说话人数据采用传统的训练方法可以得到说话人相关(Speaker Dependent，以下简称SD)码本，由于SD码本很好地反映了当前说话人的特征，因此通常有很好的性能表现；可是在某些情况下，说话人的数据不足以训练一个稳健的SD模型，此时就需要利用自适应以避免欠训练的情况出现，相比SD码本需要大量的数据进行训练，说话人自适应只需要很少的数据量就得到比较大的性能提高。

说话人自适应的实质是利用自适应数据调整SI码本以符合当前说话人特性，由于传统训练方法得到的SI码本不可避免地受训练集特性的影响，在训练集和自适应数据失配时这会导致自适应效果变得不明显，原始码本越具有说话人无关性，在自适应时就越能迅速地趋近当前说话人的特征。与自适应相结合的码本训练对SI码本、训练集内每个说话人特性分别建立模型，因此可以得到更具说话人无关性的SI码本。

目前主要有以下两种方式进行说话人自适应：第一种是基于特征层的说话人自适应，其主要思路是利用语音信号的特征参数构造变换方法，将说话人相关的特征变换为说话人无关的特征，然后将其送入说话人无关模型进行识别，从而实现说话人自适应。第二种是基于模型层的说话人自适应，利用说话人的语音数据对说话人无关模型进行调整，对不同的说话人自适应出不同的声学模型，然后用自适应后的模型进行识别，从而实现说话人自适应。

但是，上述自适应过程较为繁琐，在自适应过程中通常需要二遍解码，所以自适应过程需要较多时间，效率较低。并且，由于说话人的语音数据有限，而需要自适应的参数较多，两者之间的矛盾使得自适应性能不好。

发明内容

本发明实施例提供一种说话人自适应方法、装置、设备及存储介质，可以简化说话人自适应过程，降低自适应复杂度，提高自适应性能。

第一方面，本发明实施例提供了一种说话人自适应方法，该方法包括：

获取目标说话人的第一语音数据；

将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型。

第二方面，本发明实施例还提供了一种说话人自适应装置，该装置包括：

语音数据获取模块，用于获取目标说话人的第一语音数据；

模型训练模块，用于将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型。

第三方面，本发明实施例还提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例任一所述的说话人自适应方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例任一所述的说话人自适应方法。

本发明实施例通过将目标说话人的第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型，可以简化说话人自适应过程，降低自适应复杂度，提高自适应性能。

附图说明

图1是本发明实施例一提供的一种说话人自适应方法的流程图；

图2是本发明实施例二提供的一种说话人自适应方法的流程图；

图3是本发明实施例三提供的一种说话人自适应方法的流程图；

图4是本发明实施例四提供的一种说话人自适应装置的结构图；

图5是本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种说话人自适应方法的流程图，本实施例可适用于说话人自适应的情况，该方法可以由本发明实施例提供的说话人自适应装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成在终端设备中或终端设备的应用端中。其中，终端设备可以为但不限于为移动终端(平板电脑或智能手机)。

其中，应用端可以为内嵌于终端设备中的某个客户端的插件，或者为所述终端设备的操作系统的插件，与内嵌于终端设备中的说话人自适应客户端或者终端设备的操作系统中的说话人自适应应用程序配合使用；应用端也可以为所述终端设备中一个独立的可提供说话人自适应的客户端，本实施例对此不进行限制。

如图1所述，本实施例的方法具体包括：

S101、获取目标说话人的第一语音数据。

其中，语音数据可以为原始语音信号，也可以为对原始语音信号经过处理得到的语音特征数据。

具体的，可通过终端设备的语音输入装置回好的或录音装置获取语音数据。

S102、将第一语音数据输入预先训练得到的批规范化(Batch Normalization，BN)网络中进行自适应训练，得到包含目标说话人语音参数的语音识别模型。

其中，语音参数为方差和/或均值，可通过将第一语音数据BN网络训练得到。

具体的，将语音数据分成m帧，将m帧语音数据输入BN网络中，通过BN网络中BN变换公式得到方差和均值，及包含方差和均值语音识别模型：

其中，m为语音数据帧数，x_i为第i帧语音数据，μ_B为均值，

为方差。

由于BN网络自适应不需要添加额外的层，使自适应过程更加简单，且通过BN网络得到的均值和方差均为一维向量，所以自适应时需要调整的参数量较少，且本实施例语音参数(即均值和方差)由预先训练得到的BN网络进行自适应训练得到，不需要二遍解码。

因此，本实施例通过将目标说话人的第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含目标说话人语音参数的语音识别模型，可以简化说话人自适应过程，降低自适应复杂度，提高自适应性能。

实施例二

图2是本发明实施例二提供的一种说话人自适应方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，进一步包括如下步骤获取参考说话人的语音数据；根据参考说话人的语音数据训练得到BN网络，BN网络中包含全局语音参数，及包含全局语音参数的语音识别模型。

相应的，本实施例的方法具体包括：

S201、获取参考说话人的语音数据。

其中，参考说话人的数量为一个或多个。

S202、根据参考说话人的语音数据训练得到BN网络，BN网络中包含全局语音参数，及包含全局语音参数的语音识别模型。

其中，全局语音参数为方差和/或均值。具体的，可通过上述BN变换公式得到每个参考说话人的全局语音参数，然后求取平均得到一个全局语音参数，作为BN网络中的全局语音参数，并训练得到包含该全局语音参数的语音识别模型。

S203、获取目标说话人的第一语音数据。

S204、将第一语音数据输入BN网络中进行自适应训练，得到包含目标说话人语音参数的语音识别模型。

具体的，将第一语音数据输入BN网络中，得到目标说话人的语音参数，使用目标说话人的语音参数替换语音识别模型中的全局语音参数，得到包含目标说话人的语音参数的语音识别模型。或者，为提高语音识别性能，还可将目标说话人的语音参数与全局语音参数的加权作为该目标说话人最终的语音参数，并使用该语音参数替换语音识别模型中的全局语音参数，得到包含目标说话人的语音参数的语音识别模型。

或者，当目标说话人为多个时，通过上述自适应过程，可得到属于每个目标说话人专有的语音识别模型，每个目标说话人语音识别模型之间除了语音参数(即均值和方差)不同，其他参数都相同。

本实施例通过根据参考说话人的语音数据训练得到BN网络，BN网络中包含全局语音参数，及包含全局语音参数的语音识别模型，然后将将目标说话人的第一语音数据输入BN网络中进行自适应训练，得到包含目标说话人语音参数的语音识别模型，可以简化说话人自适应过程，降低自适应复杂度，提高自适应性能。

实施例三

图3是本发明实施例三提供的一种说话人自适应方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，进一步包括如下步骤：根据目标说话人的第二语音数据，得到目标说话人的语音参数；将目标说话人的语音参数输入语音识别模型进行识别，得到对应的文本信息。

相应的，本实施例的方法具体包括：

S301、获取目标说话人的第一语音数据。

S302、将第一语音数据输入预先训练得到的BN网络中进行自适应训练，得到包含目标说话人语音参数的语音识别模型。

S303、根据目标说话人的第二语音数据，得到目标说话人的语音参数。

其中，第一语音数据和第二语音数据可以为相同数据，也可以为不同的数据。

具体的，将目标说话人的第二语音数据输入BN网络中进行自适应训练，得到目标说话人的语音参数。其中，语音参数可以为均值和方差。

S304、将目标说话人的语音参数输入包含目标说话人语音参数的语音识别模型进行识别，得到对应的文本信息。

具体的，可以将目标说话人的语音参数直接输入语音识别模型进行识别，得到对应的文本信息。也可以，计算目标说话人的语音参数和全局语音参数的加权；将加权输入语音识别模型进行识别，得到对应的文本信息。例如，目标说话人的语音参数对应的权重为w1，全局语音参数的对应的权重为w2，目标说话人的语音参数为x1，全局语音参数为x2，则对应的加权为x1*w1+x2*w2。

由于本实施例的语音识别模型通过将目标说话人的第一语音数据输入预先训练得到的BN网络中进行自适应训练得到，且BN网络的自适应性能较高，本实施例通过将目标说话人的第二语音参数输入包含目标说话人语音参数的语音识别模型进行识别，得到对应的文本信息，可以提高语音识别效率。

实施例四

图4是本发明实施例四提供的一种说话人自适应装置的结构图。本实施例可适用于说话人自适应的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在终端设备中或终端设备的应用端中。其中，终端设备可以为但不限于为移动终端(平板电脑或智能手机)。

其中，应用端可以为内嵌于终端设备中的某个客户端的插件，或者为终端设备的操作系统的插件，与内嵌于终端设备中的说话人自适应客户端或者终端设备的操作系统中的说话人自适应应用程序配合使用；应用端也可以为终端设备中一个独立的可提供说话人自适应的客户端，本实施例对此不进行限制。

如图4所示，所述装置包括：语音数据获取模块401和模型训练模块402，其中：

语音数据获取模块401用于获取目标说话人的第一语音数据；

模型训练模块402用于将第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含目标说话人语音参数的语音识别模型。

本实施例的说话人自适应装置用于执行上述各实施例的说话人自适应方法，其技术原理和产生的技术效果类似，这里不再赘述。

在上述各实施例的基础上，所述装置还包括：语音识别模块403；

语音识别模块403用于根据目标说话人的第二语音数据，得到目标说话人的语音参数；将目标说话人的语音参数输入语音识别模型进行识别，得到对应的文本信息。

在上述各实施例的基础上，语音数据获取模块401还用于：获取参考说话人的语音数据；

模型训练模块402还用于：根据参考说话人的语音数据训练得到BN网络，BN网络中包含全局语音参数，及包含全局语音参数的语音识别模型。

在上述各实施例的基础上，模型训练模块402具体用于：将第一语音数据输入BN网络中，得到目标说话人的语音参数，使用目标说话人的语音参数替换语音识别模型中的全局语音参数，得到包含目标说话人的语音参数的语音识别模型。

在上述各实施例的基础上，语音识别模块403具体用于：计算目标说话人的语音参数和全局语音参数的加权；将加权输入语音识别模型进行识别，得到对应的文本信息。

在上述各实施例的基础上，语音参数为方差和/或均值。

上述各实施例所提供的说话人自适应装置可执行本发明任意实施例所提供的说话人自适应方法，具备执行说话人自适应方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的说话人自适应方法：

获取目标说话人的第一语音数据；

进一步的，所述方法还包括：

根据所述目标说话人的第二语音数据，得到所述目标说话人的语音参数；

将所述目标说话人的语音参数输入所述语音识别模型进行识别，得到对应的文本信息。

进一步的，所方法还包括：

获取参考说话人的语音数据；

根据所述参考说话人的语音数据训练得到所述BN网络，所述BN网络中包含所述全局语音参数，及包含所述全局语音参数的语音识别模型。

进一步的，所述将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型包括：

将所述第一语音数据输入所述BN网络中，得到所述目标说话人的语音参数，使用所述目标说话人的语音参数替换所述语音识别模型中的全局语音参数，得到包含所述目标说话人的语音参数的语音识别模型。

进一步的，所述将所述目标说话人的语音参数输入所述语音识别模型进行识别，得到对应的文本信息包括：

计算所述目标说话人的语音参数和所述全局语音参数的加权；

将所述加权输入所述语音识别模型进行识别，得到对应的文本信息。

进一步的，所述语音参数为方差和/或均值。

实施例六

本发明实施例6还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的说话人自适应方法：

获取目标说话人的第一语音数据；

进一步的，所述方法还包括：

进一步的，所方法还包括：

获取参考说话人的语音数据；

进一步的，所述语音参数为方差和/或均值。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种说话人自适应方法，其特征在于，包括：

获取目标说话人的第一语音数据；

将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型；

获取参考说话人的语音数据；

根据所述参考说话人的语音数据训练得到所述BN网络，所述BN网络中包含全局语音参数，及包含所述全局语音参数的语音识别模型；

其中，所述将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型，包括：

将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到所述目标说话人语音参数，采用所述目标说话人语音参数替换所述全局语音参数，得到包含所述目标说话人语音参数的语音识别模型；或者，

将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到所述目标说话人语音参数，将所述目标说话人语音参数与所述全局语音参数的加权作为目标说话人的最终语音参数，并使用所述最终语音参数替换所述语音识别模型中的全局语音参数，得到包含所述目标说话人语音参数的语音识别模型；

其中，所述语音参数为通过语音数据的帧数计算得到的方差和/或均值。

2.一种说话人自适应装置，其特征在于，包括：

语音数据获取模块，用于获取目标说话人的第一语音数据；

模型训练模块，用于将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到包含所述目标说话人语音参数的语音识别模型；

所述语音数据获取模块还用于：获取参考说话人的语音数据；

所述模型训练模块还用于：根据所述参考说话人的语音数据训练得到所述BN网络，所述BN网络中包含全局语音参数，及包含所述全局语音参数的语音识别模型；

所述模型训练模块具体用于：将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到所述目标说话人语音参数，采用所述目标说话人语音参数替换所述全局语音参数，得到包含所述目标说话人语音参数的语音识别模型；或者，将所述第一语音数据输入预先训练得到的批规范化BN网络中进行自适应训练，得到所述目标说话人语音参数，将所述目标说话人语音参数与所述全局语音参数的加权作为目标说话人的最终语音参数，并使用所述最终语音参数替换所述语音识别模型中的全局语音参数，得到包含所述目标说话人语音参数的语音识别模型；其中，所述语音参数为通过语音数据的帧数计算得到的方差和/或均值。

3.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1中所述的说话人自适应方法。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1中所述的说话人自适应方法。