CN107464569A

CN107464569A - 声码器

Info

Publication number: CN107464569A
Application number: CN201710538424.7A
Authority: CN
Inventors: 王东; 李蓝天
Original assignee: Beijing Fortune Star Intelligent Technology Co Ltd; Tsinghua University
Current assignee: Beijing Fortune Star Intelligent Technology Co Ltd; Tsinghua University
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-12-12

Abstract

本发明提供一种声码器，包括：编码器和解码器；编码器包括：第一获取模块，用于获取目标语音信号并转成log域频谱；第一提取模块，用于基于log域频谱，利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子，利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子，发给解码器；解码器包括：重构模块，用于利用预先训练的内容谱重构模型将内容因子重构成内容谱，利用预先训练的声纹谱重构模型将说话人因子重构成声纹谱；合成模块，用于将内容谱和声纹谱相加，获得重构后的log域频谱。本发明能基于内容和说话人对语音信号进行分解重构，与任务具有更强的相关性，重构效率高，重构后的语音信号与原语音信号比较相近。

Description

声码器

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种声码器。

背景技术

声码器在发送端对语音信号进行分析，提取出语音信号的特征参量加以编码和加密，以取得和信道的匹配，经信息通道传递到接收端，接收端根据收到的特征参量恢复(重构)原始语音波形。

传统声码器一般基于源-滤波器(Source-Filter)模型，将语音信号x(t)分解成声门激励e(t)和声道调制h(t)两部分，写成卷积形式如下：

x(t)＝x(t)×e(t)。

这一基础分解方式是很多语音信号处理技术的基础，如语音编码中的参数编码器，语音合成中的声码器。现有技术中还没有一种声码器是基于内容和说话人对语音信号进行分解重构的。

鉴于此，如何提供一种能够基于内容和说话人对语音信号进行分解重构的声码器成为目前需要解决的技术问题。

发明内容

为解决上述的技术问题，本发明实施例提供一种声码器，能够基于内容和说话人实现对语音信号的分解重构，与任务具有更强的相关性，重构效率高，重构后的语音信号与原语音信号比较相近。

第一方面，本发明实施例提供一种声码器，包括：编码器和解码器；

所述编码器，包括：

第一获取模块，用于获取目标语音信号，将所述目标语音信号转换成log域频谱；

第一提取模块，用于基于所述目标语音信号的log域频谱，利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子，以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子，并将每一帧目标语音信号的内容因子和说话人因子发送给所述解码器；

所述解码器，包括：

重构模块，用于利用预先训练的内容谱重构模型，将每一帧目标语音信号的内容因子重构成内容谱，以及利用预先训练的声纹谱重构模型，将每一帧目标语音信号的说话人因子重构成声纹谱；

合成模块，用于将所述内容谱和所述声纹谱相加，获得所述目标语音信号重构后的log域频谱。

可选地，所述第一获取模块，具体用于

获取目标语音信号，将所述目标语音信号进行傅立叶变换，获得所述目标语音信号的log域频谱。

可选地，所述编码器，还包括：

第一训练模块，用于对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，以及对说话人因子提取模型进行预先训练，以使所述说话人因子提取模型对说话人的区分能力最大化。

可选地，所述第一训练模块，具体用于

基于Fisher准则，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，以及基于Fisher准则，对说话人因子提取模型进行预先训练，以使所述说话人因子提取模型对说话人的区分能力最大化。

可选地，所述第一训练模块，具体用于

基于交叉熵，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，以及基于交叉熵，对说话人因子提取模型进行预先训练，以使所述说话人因子提取模型对说话人的区分能力最大化。

可选地，所述内容因子提取模型和所述说话人因子提取模型均是基于深度神经网络来实现的。

可选地，所述编码器，还包括：

第二获取模块，用于获取样本语音信号，将所述样本语音信号转换成log域频谱；

第二提取模块，用于基于所述样本语音信号的log域频谱，利用预先训练的内容因子提取模型提取每一帧样本语音信号的内容因子，以及利用预先训练的说话人因子提取模型提取每一帧样本语音信号的说话人因子；

相应地，所述解码器，还包括：

第二训练模块，用于基于每一帧样本语音信号的内容因子和说话人因子，训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型。

可选地，第二获取模块，具体用于

获取样本语音信号，将所述样本语音信号进行傅立叶变换，获得所述样本语音信号的log域频谱。

可选地，所述内容谱重构模型和所述声纹谱重构模型均是基于深度神经网络来实现的。

由上述技术方案可知，本发明实施例的声码器，能够基于内容和说话人实现对语音信号的分解重构，本发明实施例的分解方式与现有技术相比，与任务具有更强的相关性，重构效率高，重构后的语音信号与原语音信号比较相近。

附图说明

图1为本发明一实施例提供的一种声码器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种声码器的结构示意图，如图1所示，本实施例的声码器，包括：编码器1和解码器2；

所述编码器1，包括：第一获取模块11和第一提取模块12；其中：

所述第一获取模块11，用于获取目标语音信号X(t)，将所述目标语音信号转换成log域频谱log(X(t))；

所述第一提取模块12，用于基于所述目标语音信号的log域频谱log(X(t))，利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子fc(t)，以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子fs(t)，并将每一帧目标语音信号的内容因子fc(t)和说话人因子fs(t)发送给所述解码器2；

所述解码器2，包括：重构模块21和合成模块22；其中：

所述重构模块21，用于利用预先训练的内容谱重构模型，将每一帧目标语音信号的内容因子重构成内容谱，以及利用预先训练的声纹谱重构模型，将每一帧目标语音信号的说话人因子重构成声纹谱；

所述合成模块22，用于将所述内容谱和所述声纹谱相加，获得所述目标语音信号重构后的log域频谱。

在具体应用中，举例来说，所述第一获取模块11在获取目标语音信号X(t)后，可以将所述目标语音信号X(t)进行傅立叶变换，获得所述目标语音信号的log域频谱log(X(t))。

可以理解的是，本实施例中，每一帧目标语音信号包含两类因子：内容因子fc(t)和说话人因子fs(t)(即声纹因子)。其中，内容因子fc(t)和说话内容相关，说话人因子fs(t)和说话人特征相关。

在具体应用中，所述内容因子提取模型可用内容因子提取函数f来表示，所述第一提取模块12通过内容因子提取模型提取每一帧目标语音信号的内容因子fc(t)，所述内容因子提取模型为：

fc(t)＝f(log(X(t))) (1)；

所述说话人因子提取模型可用说话人因子提取函数g来表示，所述第一提取模块12通过说话人因子提取模型，提取每一帧样本语音信号的说话人因子fs(t)，所述说话人因子提取模型为：

fs(t)＝g(log(X(t))) (2)。

在具体应用中，所述编码器1，还可以包括图中未示出的：

可以理解的是，所述内容因子提取模型是基于深度神经网络和使内容因子提取模型对音素的区分能力最大化准则来训练实现的。使内容因子提取模型对音素的区分能力最大化准则可以有多种，举例来说，所述第一训练模块可以基于Fisher准则，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化；或者，所述第一训练模块也可以基于交叉熵，对内容因子提取模型进行预先训练，以使所述内容因子提取模型对音素的区分能力最大化，即在所述第一训练模块中，内容因子提取模型可采用音素作为区分学习的对象，用模型预结果和实际音素标记的交叉熵作为训练的目标函数。

可以理解的是，所述说话人因子提取模型是基于深度神经网络和使说话人因子提取模型对说话人的区分能力最大化准则来训练实现的。使说话人因子提取模型对说话人的区分能力最大化准则可以有多种，举例来说，所述第一训练模块可以基于Fisher准则，对说话人因子提取模型进行预先训练，以使所述说话人因子提取模型对说话人的区分能力最大化；或者，所述第一训练模块也可以基于交叉熵，对说话人因子提取模型进行预先训练，以使所述说话人因子提取模型对说话人的区分能力最大化，即在所述第一训练模块中，说话人因子提取模型可采用说话人作为区分学习的对象，用模型预结果和实际说话人标记的交叉熵作为训练的目标函数。

在具体应用中，所述编码器1，还可以包括图中未示出的：

第二提取模块，用于基于所述样本语音信号的log域频谱，利用预先训练的内容因子提取模型(即上述公式(1))提取每一帧样本语音信号的内容因子，以及利用预先训练的说话人因子提取模型(即上述公式(2))提取每一帧样本语音信号的说话人因子；

相应地，所述解码器2，还包括图中未示出的：

在具体应用中，举例来说，所述第二获取模块在获取样本语音信号后，可以将所述目标语音信号进行傅立叶变换，获得所述目标语音信号的log域频谱。

可以理解的是，所述内容谱重构模型和所述声纹谱重构模型是基于深度神经网络来训练实现的，所述内容谱重构模型可用内容谱重构函数F来表示，所述声纹谱重构模型可用声纹谱重构函数G来表示，所述内容谱重构模型为：

C(t)＝F(fc(t))＝F(f(log(X(t)))) (3)

公式(3)中：C(t)为语音信号X(t)重构后的内容谱，fc(t)为每一帧语音信号X(t)的内容因子；

所述声纹谱重构模型为：

S(t)＝G(fs(t))＝G(g(log(X(t)))) (4)

需要说明的是，公式(4)中：S(t)为语音信号X(t)重构后的声纹谱，fc(t)为每一帧语音信号X(t)的说话人因子。

需要说明的是，所述第二训练模块训练时的目标是使重构后的log域频谱与重构前的原log域频谱尽可能相近，在训练时可以通过对下述公式(5)进行优化，进而得到优化的F和G；

L(F,G)＝∑_tD(C(t)+S(t),log(X(t))) (5)

式中：D为距离度量函数，L为训练目标函数。

在具体应用中，D对距离的度量可以采用平方误差。

本实施例的声码器，通过编码器中的第一获取模块获取目标语音信号，将所述目标语音信号转换成log域频谱，通过编码器中的第一提取模块基于所述目标语音信号的log域频谱，利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子，以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子，并将每一帧目标语音信号的内容因子和说话人因子发送给解码器，然后通过解码器中的重构模块利用预先训练的内容谱重构模型，将每一帧目标语音信号的内容因子重构成内容谱，以及利用预先训练的声纹谱重构模型，将每一帧目标语音信号的说话人因子重构成声纹谱，通过解码器中的合成模块将所述内容谱和所述声纹谱相加，获得所述目标语音信号重构后的log域频谱，由此，能够基于内容和说话人实现对目标语音信号的分解重构，本发明实施例的分解方式与现有技术(源-滤波器分解)相比，与任务具有更强的相关性，重构效率高，重构后的语音信号与原语音信号比较相近。

本实施例的声码器在众多应用场景中有重要应用价值，具有通用性，例如，可以利用本实施例的声码器中的编码器作为高效的语音编码工具，该编码器输出的内容因子和说话人因子可用于精简语音编码，适合低带宽网络传输。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种声码器，其特征在于，包括：编码器和解码器；

所述编码器，包括：

所述解码器，包括：

2.根据权利要求1所述的声码器，其特征在于，所述第一获取模块，具体用于

3.根据权利要求1所述的声码器，其特征在于，所述编码器，还包括：

4.根据权利要求3所述的声码器，其特征在于，所述第一训练模块，具体用于

5.根据权利要求3所述的声码器，其特征在于，所述第一训练模块，具体用于

6.根据权利要求3所述的声码器，其特征在于，所述内容因子提取模型和所述说话人因子提取模型均是基于深度神经网络来实现的。

7.根据权利要求3所述的声码器，其特征在于，所述编码器，还包括：

相应地，所述解码器，还包括：

8.根据权利要求7所述的声码器，其特征在于，第二获取模块，具体用于

9.根据权利要求7所述的声码器，其特征在于，所述内容谱重构模型和所述声纹谱重构模型均是基于深度神经网络来实现的。