CN109887484B

CN109887484B - 一种基于对偶学习的语音识别与语音合成方法及装置

Info

Publication number: CN109887484B
Application number: CN201910135575.7A
Authority: CN
Inventors: 王健宗; 程宁; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2023-08-04
Anticipated expiration: 2039-02-22
Also published as: CN109887484A; WO2020168752A1

Abstract

本发明实施例公开了一种基于对偶学习的语音识别与语音合成方法及装置，其中，所述方法包括：初始化有标数据集Φ_(x，y)、语音识别参数θ_xy、语音合成参数θ_yx，Φ_(x，y)＝{(x^(j)，y^(j))}^K，x^(j)为语音数据，y^(j)为文本数据；从Φ_(x，y)中选取N对有标数据{(x⁽ⁱ⁾，y⁽ⁱ⁾)}^N；提取x⁽ⁱ⁾的声学特征，根据x⁽ⁱ⁾的声学特征，获取x⁽ⁱ⁾对应的音素的后验概率和x⁽ⁱ⁾对应的音素的转移概率生成文本数据计算等于y⁽ⁱ⁾的第一对数似然；获取y⁽ⁱ⁾对应的声音特征序列，生成语音数据计算等于x⁽ⁱ⁾的第二对数似然；以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，优化θ_xy和θ_yx。本发明实施例有效利用了对偶学习进行语音识别与语音合成，提高语音识别和语音生成的训练速度，以及输出结果的精度。

Description

一种基于对偶学习的语音识别与语音合成方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于对偶学习的语音识别与语音合成方法及装置。

背景技术

近年来，以深度学习和增强学习为代表的人工智能技术取得了长足的进步，在很多应用取得了巨大的成功。然而，深度学习限制于大规模的带标注的数据，增强学习限制于持续的可交互环境。首先，大规模的带标注的数据的获取及交互环境的维护的代价均很高，为了使深度学习和增强学习能够取得更广泛的成功，我们需要降低其对大规模标注数据和交互环境的依赖性。为了解决这个问题，出现了一种新的学习范式，我们把它称作对偶学习。

在有监督的学习任务中，发现很多问题具有双重的形式，即输入和输出是以对偶的形式出现的，其中一个任务的输入和输出就是另一个任务的输出和输入，比如在机器翻译里面，不同语言之间的相互翻译互为对偶任务。这两个任务在内部有概率的关系，有相关性模型，但是这种联系没有得到有效的利用，因为人们通常在训练模型时是将两个任务独立地完成的。所以对偶学习的出现就是利用这两个模型之间的相关性，对这两者同时开展训练，简化训练流程，对偶学习并不依赖于大规模标注数据。

传统技术中通常将语音识别和语音生成分开进行训练，未能有效利用语音识别和语音生成之间的对偶性。利用语音识别和语音生成之间的对偶性，联合语音识别训练和语音生成训练进行对偶学习，是语音识别和语音生成技术的一大发展趋势。然而，如何将对偶学习应用于实际场景中依然面临巨大的挑战，如何基于对偶学习有效的进行语音识别和语音生成，提高语音识别和语音生成的训练速度及输出结果的精度是目前急需解决的技术问题。

发明内容

本发明实施例提供了一种基于对偶学习的语音识别与语音合成方法及装置，能够有效的利用对偶学习进行语音识别与语音合成，提高语音识别和语音生成的训练速度，以及提高语音识别和语音生成输出结果的精度。

第一方面，本发明实施例提供了一种基于对偶学习的语音识别与语音合成方法，该方法包括以下步骤：

初始化有标数据集Φ_(x,y)、语音识别参数θ_xy、语音合成参数θ_yx和训练数据规模N，其中，有标数据集Φ_(x,y)＝{(x^(j),y^(j))}^K，有标数据集Φ_(x,y)中包含K对有标数据，(x^(j),y^(j))表示有标数据集Φ_(x,y)中的第j对有标数据，x^(j)为第j对有标数据中的语音数据，y^(j)为第j对有标数据中的文本数据，K为正整数，N为小于等于K的正整数；

从有标数据集Φ_(x,y)中选取N对有标数据{(x⁽ⁱ⁾,y⁽ⁱ⁾)}^N；

提取语音数据x⁽ⁱ⁾的声学特征，根据语音数据x⁽ⁱ⁾的声学特征，获取语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率；

根据语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率，生成文本数据计算文本数据/>等于文本数据y⁽ⁱ⁾的第一对数似然；

获取y⁽ⁱ⁾对应的声音特征序列，并根据声音序列特征，生成语音数据计算语音数据/>等于语音数据x⁽ⁱ⁾的第二对数似然；

针对N对有标数据，以最大化第一对数似然和所述第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，优化θ_xy和θ_yx。

本发明实施例中，通过获取语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率，生成文本数据获取y⁽ⁱ⁾对应的声音特征序列，生成语音数据/>针对N对有标数据，以最大化文本数据/>等于文本数据y⁽ⁱ⁾的对数似然和语音数据/>等于语音数据x⁽ⁱ⁾的对数似然为目标，并将语音识别和语音合成的概率对偶性作为约束条件，从而优化语音识别和语音合成效果。有效的利用了对偶学习进行语音识别与语音合成，提高语音识别和语音生成的训练速度，以及提高语音识别和语音生成输出结果的精度。

可选的，从有标数据集Φ_(x,y)中随机选取N对有标数据(x⁽ⁱ⁾,y⁽ⁱ⁾)之前，方法还包括：从有标数据集Φ_(x,y)中随机选取S对有标数据，对待训练的第一语音识别模型进行预训练，得到经过预训练的第二语音识别模型，以及对待训练的第一语音合成模型进行预训练，得到经过预训练的第二语音合成模型，第二语音识别模型包括深度神经网络和隐形马尔科夫模型，第二语音合成模型包括编码器、解码器和神经声码器，S为小于等于K的正整数。

本发明实施例中，通过随机选取S对有标数据，对语音识别模型和语音合成模型进行预训练，为基于对偶学习的语音识别与语音合成训练做准备。

可选的，提取语音数据x⁽ⁱ⁾的声学特征，获取语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率，包括：将语音数据x⁽ⁱ⁾的声学特征输入第二语音识别模型，逐帧提取语音数据x⁽ⁱ⁾的声学特征，将语音数据x⁽ⁱ⁾的声学特征输入第二语音识别模型中的深层神经网络，获取语音数据x⁽ⁱ⁾对应的音素的后验概率，将语音数据x⁽ⁱ⁾对应的音素输入第二语音识别模型中的隐马尔科夫模型，获取语音数据x⁽ⁱ⁾对应的音素的转移概率。

本发明实施例中，在第二语音识别模型中，通过深层神经网络获取语音数据x⁽ⁱ⁾对应的音素的后验概率，利用隐马尔科夫模型获取语音数据x⁽ⁱ⁾对应的音素的转移概率，上述语音识别模型具有优异的学习好建模能力，能够有效提高语音识别效果。

可选的，获取文本数据y⁽ⁱ⁾对应的声音特征序列，并根据声音序列特征，获得语音数据包括：将文本数据y⁽ⁱ⁾输入所述第二语音合成模型的编码器，生成语义序列/>将所述语义序列/>输入所述第二语音合成模型的第一解码器，生成声音特征序列，将所述声音序列特征输入所述第二语音合成模型的神经声码器，生成语音数据/>

本发明实施例中，在第二语音合成模型中，通过编码器生成文本数据对应的语义序列，利用解码器将语义序列转化为声音特征序列特征，并利用神经声码器输出语音数据，相对传统的语音合成模型，能够进行高质量的语音合成输出。

可选的，以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，优化θ_xy和θ_yx，包括：以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，联立目标函数和约束条件，采用拉格朗日乘数优化算法，对θ_xy和θ_yx进行迭代优化。

本发明实施例中，联立目标函数和约束条件，采用拉格朗日乘数优化算法，对θ_xy和θ_yx进行迭代优化，能够有效提高语音识别和语音生成的训练速度，以及提高语音识别和语音生成输出结果的精度。

第二方面，本发明实施例还提供了一种基于对偶学习的语音识别与语音合成的装置，该装置能实现上述第一方面所描述的基于对偶学习的语音识别与语音合成方法所具备的有益效果。其中，该装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括至少一个与上述功能相对应的模块。

可选的，该装置包括初始化单元、选取单元、处理单元、第一生成单元、第二生成单元和优化单元。

初始化单元，用于初始化有标数据集Φ_(x,y)、语音识别参数θ_xy、语音合成参数θ_yx和训练数据规模N，其中，有标数据集Φ(x,y)＝{(x^(j),y^(j))}^K，有标数据集Φ_(x,y)中包含K对有标数据，(x^(j),y^(j))表示有标数据集Φ_(x,y)中的第j对有标数据，x^(j)为第j对有标数据中的语音数据，y^(j)为第j对有标数据中的文本数据，K为正整数，N为小于等于K的正整数。

选取单元，用于从有标数据集Φ_(x,y)中选取N对有标数据{(x⁽ⁱ⁾,y⁽ⁱ⁾)}^N。

处理单元，用于提取语音数据x⁽ⁱ⁾的声学特征，根据语音数据x⁽ⁱ⁾的声学特征，获取语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率。

第一生成单元，用于根据语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率，生成文本数据计算文本数据/>等于文本数据y⁽ⁱ⁾的第一对数似然。

第二生成单元，用于获取文本数据y⁽ⁱ⁾对应的声音特征序列，并根据声音序列特征，生成语音数据计算语音数据/>等于语音数据x⁽ⁱ⁾的第二对数似然。

优化单元，用于针对N对有标数据，以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作约束条件，优化θ_xy和θ_yx。

可选的，选取单元从有标数据集Φ_(x,y)中选取N对有标数据{(x⁽ⁱ⁾,y⁽ⁱ⁾)}N之前，还包括：预训练单元，用于从有标数据集Φ_(x,y)中随机选取S对有标数据，对待训练的第一语音识别模型进行预训练，得到经过预训练的第二语音识别模型，以及对待训练的第一语音合成模型进行预训练，得到经过预训练的第二语音合成模型，第二语音识别模型包括深度神经网络和隐形马尔科夫模型，第二语音合成模型包括编码器、解码器和神经声码器，S为小于等于K的正整数。

可选的，处理单元，包括：提取单元和获取单元。

提取单元，用于将语音数据x⁽ⁱ⁾的声学特征输入第二语音识别模型，逐帧提取语音数据x⁽ⁱ⁾的声学特征。

获取单元，用于将语音数据x⁽ⁱ⁾的声学特征输入第二语音识别模型中的深层神经网络，获取语音数据x⁽ⁱ⁾对应的音素的后验概率，将语音数据x⁽ⁱ⁾对应的音素输入第二语音识别模型中的隐马尔科夫模型，获取语音数据x⁽ⁱ⁾对应的音素的转移概率。

可选的，第二生成单元具体用于：将文本数据y⁽ⁱ⁾输入第二语音合成模型的编码器，生成语义序列将语义序列/>输入第二语音合成模型的第一解码器，生成声音特征序列，将声音序列特征输入第二语音合成模型的神经声码器，生成语音数据/>计算语音数据/>等于语音数据x⁽ⁱ⁾的第二对数似然。

可选的，优化单元具体用于：以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，联立目标函数和约束条件，采用拉格朗日乘数优化算法，对θ_xy和θ_yx进行迭代优化。

第三方面，本发明实施例还提供了一种网络设备，该网络设备能实现上述第一方面所描述的基于对偶学习的语音识别与语音合成方法所具备的有益效果。其中，该网络设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括至少一个与上述功能相对应的模块。该网络设备包括存储器、处理器和收发器，存储器用于存储支持网络设备执行上述方法的计算机程序，所述计算机程序包括程序指令，处理器用于根据程序指令对网络设备的动作进行控制管理，收发器用于支持网络设备与其它通信设备的通信。

第四方面，本发明实施例提供一种计算机可读存储介质，可读存储介质上存储有指令，当其在处理器上运行时，使得处理器执行上述第一方面描述的基于对偶学习的语音识别与语音合成方法。

附图说明

下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种服务器的结构示意图；

图2是本发明实施例提供的一种基于对偶学习的语音识别与语音合成方法的流程示意图；

图3是本发明实施例提供的一种基于对偶学习的语音识别与语音合成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

对偶学习是一种利用一组对偶任务之间的对偶性建立反馈信号，并用这个信号约束训练的学习方案。对偶性广泛存在于人工智能任务之中，例如，机器翻译就是让机器将自然语言从一种语言翻译到另一种语言，中文到英文和英文到中文互为对偶任务。图像识别和图像合成也互为对偶任务，图像识别指的是给定一张图片，判别它的类别和具体信息。图像生成指的是给定一个类别和具体信息，生成一张对应的图片。同样，语音识别和语音合成也互为对偶任务，语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，语音合成是将计算机自己产生的、或外部输入的文字信息，通过机械的、电子的方法转变为语音的技术。

语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，更自然、高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务。语音合成技术在我们生活中也具有广泛的应用，如电子阅读、车载语音导航、银行医院排号系统、交通播报等等。本发明实施例提供的基于对偶学习的语音识别与语音合成方法可以应用于终端设备、服务器和车载网络设备等具备语音识别和语音合成功能的网络设备，上述终端设备包括智能手机、智能手环、电子阅读设备、笔记本和平板电脑。本发明对此不做具体限定。下面以服务器为例对上述基于对偶学习的语音识别与语音合成方法的应用设备的功能进行详细介绍。

请参见图1，图1为本发明实施例提供的一种服务器100的硬件结构示意图，服务器100包括：存储器101、收发器102及与所述存储器101和收发器102耦合的处理器103。存储器101用于存储计算机程序，所述计算机程序包括程序指令，处理器103用于执行存储器101存储的程序指令，收发器102用于在处理器103的控制下与其他设备进行通信。当处理器103在执行指令时可根据程序指令执行基于对偶学习的语音识别与语音合成方法。

其中，处理器103可以是中央处理器(英文：central processing unit，简称：CPU)，通用处理器，数字信号处理器(英文：digital signal processor，简称：DSP)，专用集成电路(英文：application-specific integrated circuit，简称：ASIC)，现场可编程门阵列(英文：field programmable gate array，简称：FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。收发器102可以是通信接口、收发电路等，其中，通信接口是统称，可以包括一个或多个接口，例如服务器与终端之间的接口。

可选地，服务器100还可以包括总线104。其中，存储器101、收发器102以及处理器103可以通过总线104相互连接；总线104可以是外设部件互连标准(英文：peripheralcomponent interconnect，简称：PCI)总线或扩展工业标准结构(英文：extended industrystandard architecture，简称：EISA)总线等。总线104可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

除了图1所示的存储器101、收发器102、处理器103以及上述总线104之外，实施例中服务器100通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

在上述运行环境下，本发明实施例提供了如图2所示的基于对偶学习的语音识别与语音合成方法。请参阅图2，所述基于对偶学习的语音识别与语音合成方法包括：

S201、初始化有标数据集Φ_(x,y)、语音识别参数θ_xy、语音合成参数θ_yx和训练数据规模N，其中，Φ_(x,y)＝{(x^(j),y^(j))}^K，有标数据集Φ_(x,y)中包含K对有标数据，x^(j)为语音数据，y^(j)为文本数据。

具体的，选取K对有标数据，形成有标数据集Φ_(x,y)＝{(x^(j),y^(j))}^K，有标数据集Φ_(x,y)中包含K对有标数据，(x^(j),y^(j))表示有标数据集Φ_(x,y)中的第j对有标数据，x^(j)为第j对有标数据中的语音数据，y^(j)为第j对有标数据中的文本数据，K为正整数，N为小于等于K的正整数。训练数据规模N为有标数据集Φ_(x,y)中参与基于对偶学习的语音识别与语音合成优化训练的有标数据的数量。语音识别参数θ_xy为影响语音识别效果的参数，语音合成参数θ_yx为影响语音合成效果的参数。

可以理解，有标数据集Φ_(x,y)中的K个语音数据的内容均不同，K个语音数据中的长度可以一致，也可以不一致。语音数据可以来自电视机的新闻播报、日常对话、会议录音等，上述K个语音数据的来源场景可以相同，也可以不同。本发明对此均不作具体限定。

可选的，随机初始化语音识别参数θ_xy和语音合成参数θ_yx，例如θ_xy和θ_yx的初始值均取1。

S202、基于对偶学习的语音识别与合成设备从有标数据集Φ_(x,y)中选取N对有标数据，构成有标数据集Φ_(x,y) ^N，Φ_(x,y) ^N＝{(x⁽ⁱ⁾,y⁽ⁱ⁾)}^N。

可选的，基于对偶学习的语音识别与合成设备从有标数据集Φ_(x,y)中随机选取N对有标数据之前，上述基于对偶学习的语音识别与语音合成方法还包括：

基于对偶学习的语音识别与合成设备从有标数据集Φ_(x,y)中随机选取S对有标数据{(x^(r),y^(r))}^S，对待训练的第一语音识别模型进行预训练，得到经过预训练的第二语音识别模型，S为小于等于K的正整数，具体包括以下步骤：基于对偶学习的语音识别与合成设备将有标数据{(x^(r),y^(r))}^S中的语音数据x^(r)输入待训练的第一语音识别模型，首先，对上述语音数据x^(r)进行预处理，获取语音数据x^(r)对应的频率倒谱系数特征。然后，基于对偶学习的语音识别与合成设备将上述频率倒谱系数特征作为输入数据，对由高斯混合模型(英文全称：Adaptive background mixture models for real-time tracking，英文缩写：GMM)和隐形马尔科夫模型(英文全称：Hidden Markov Model，英文缩写：HMM)构成声学模型进行训练，获取预训练后的GMM输出的音素状态的似然概率特征及预训练后的HMM输出的音素状态的转移概率。基于对偶学习的语音识别与合成设备通过强制对齐将音素状态的似然概率特征转换为音素状态的后验概率特征，根据上述S对有标数据及音素状态的后验概率特征，得到(英文全称：Deep Neural Network，英文缩写：DNN)模型中输出层节点间的矩阵权重值和矩阵偏置值，生成预训练后的DNN模型。第二语音识别模型包括上述预训练后的DNN模型和上述预训练后的HMM。

基于对偶学习的语音识别与合成设备从有标数据集Φ_(x,y)中随机选取S对有标数据{(x^(t),y^(t))}^S对待训练的第一语音合成模型进行预训练，得到经过预训练的第二语音合成模型，具体包括以下步骤：基于对偶学习的语音识别与合成设备将有标数据{(x^(t),y^(t))}^S中的文本数据y^(t)输入待训练的第一语音识别模型，首先，通过编码器对文本数据进行文本解析，获取文本数据y^(t)对应的表示文本语义的中间语义向量。然后，基于对偶学习的语音识别与合成设备将上述中间语义向量输入解码器，获取文本数据y^(t)对应的声音序列特征。将上述声音序列特征输入神经声码器，输出文本数据y^(t)对应的语音数据。上述编码器、解码器和神经声码器均采用循环神经网络(英文全称：Hidden Markov Model，英文缩写：HMM)模型，第二语音合成模型包括上述编码器、解码器和神经声码器。

可以理解，GMM就是用高斯概率密度函数精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数形成的模型。HMM是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。

S203、基于对偶学习的语音识别与合成设备提取语音数据x⁽ⁱ⁾的声学特征，根据语音数据x⁽ⁱ⁾的声学特征，获取语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率。

具体的，基于对偶学习的语音识别与合成设备将语音数据x⁽ⁱ⁾输入第二语音识别模型，滤除不重要的信息以及背景噪声，将语音数据x⁽ⁱ⁾分成多帧语音信号。对每帧语音信号进行分析处理，提取语音数据x⁽ⁱ⁾对应的每帧语音信号的滤波器组特征作为语音数据x⁽ⁱ⁾的声学特征。基于对偶学习的语音识别与合成设备将语音数据x⁽ⁱ⁾的声学特征输入第二语音识别模型中的DNN模型，获取DNN模型输出的语音数据x⁽ⁱ⁾对应的音素的后验概率，并将所述语音数据x⁽ⁱ⁾对应的音素输入第二语音识别模型中的HMM，获取语音数据x⁽ⁱ⁾对应的音素的转移概率。

可以理解，HMM输出的音素转移概率包括第一音素状态转至第一音素状态的音素转移概率和所述第一音素状态转至第二音素状态的音素转换概率，第二音素状态为第一音素状态的下一状态。

S204、基于对偶学习的语音识别与合成设备根据语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率，生成文本数据计算文本数据/>等于文本数据y⁽ⁱ⁾的第一对数似然。

基于对偶学习的语音识别与合成设备根据语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率，生成文本数据具体的，基于对偶学习的语音识别与合成设备根据语音数据x⁽ⁱ⁾对应的音素的后验概率和语音数据x⁽ⁱ⁾对应的音素的转移概率得到不同单词的概率，不同单词组成不同的网络路径，获取每条网络路径的概率，选择概率最大的网络路径作为最优的网络路径，根据上述最优的网络路径生成相应的文本数据

HMM模型是对语音信号的时间序列结构建立统计模型，可以看作一个数学上的双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含随机过程，另一个是与马尔可夫链链的每一个状态相关联的外界可见的观测序列的随机过程。HMM模型包含以下元素：隐藏状态、观察序列、隐藏状态的初始概率分布、隐藏状态的转移概率矩阵，观测值的发射概率。语音识别过程中，给定一个训练好的HMM模型和一个观测序列(即语音数据的声学特征)，找到观测序列对应的最优的状态序列，从而将语音转化为文本。根据每个单词的发音过程，以音素作为隐藏节点，音素的变化过程构成了HMM状态序列，每一个音素以一定的概率密度函数生成观测向量。

可以理解，根据每个单词的HMM状态转移概率计算每个状态生成该观测值的概率，若一个单词的HMM状态序列的联合概率最大，则判断该段语音对应上述单词。举例来说，以单词five的语音数据为例，单词“five”由[f]、[ay]和[v]这三个音素状态连接而成，隐藏节点的每一个状态对应于一个单独音素。我们以单词“one”、“two”、“three”和“five”为例，采用前向算法分别计算观测序列的后验概率，并从中去找概率最大的单词作为识别结果。

可选的，计算等于y⁽ⁱ⁾的第一对数似然，即计算将x⁽ⁱ⁾输入第二语音识别模型，识别出y⁽ⁱ⁾的第一对数似然。第一对数似然表征条件概率分布P_f(y⁽ⁱ⁾|x⁽ⁱ⁾,θ_xy)的对数似然函数，第一对数似然的计算表达式如下所示。

logP_f(y⁽ⁱ⁾|x⁽ⁱ⁾,θ_xy)＝logP{f(x⁽ⁱ⁾)＝y⁽ⁱ⁾,θ_xy}

S205、基于对偶学习的语音识别与合成设备获取文本数据y⁽ⁱ⁾对应的声音特征序列特征，并根据声音序列特征，生成语音数据计算语音数据/>等于语音数据x⁽ⁱ⁾的第二对数似然。

基于对偶学习的语音识别与合成设备获取y⁽ⁱ⁾对应的声音特征序列特征，并根据声音序列特征，生成语音数据具体的，基于对偶学习的语音识别与合成设备将文本数据y⁽ⁱ⁾输入第二语音合成模型，首先，将文本数据y⁽ⁱ⁾拆分成具有语义的最小单位词。将文本数据y⁽ⁱ⁾对应的最小单位词输入第二语音合成模型的编码器，对文本数据y⁽ⁱ⁾对应的最小单位词进行语义分析并分类。然后，基于对偶学习的语音识别与合成设备对文本数据y⁽ⁱ⁾对应的最小单位词进行分类别的编码，输出文本数据y⁽ⁱ⁾对应的具有固定长度的中间语义向量。将上述中间语义向量输入第二语音合成模型的解码器，基于对偶学习的语音识别与合成设备对上述中间语义向量进行语义分析，并生成文本数据y⁽ⁱ⁾对应的声音序列特征。将上述声音序列特征输入第二语音合成模型的神经声码器，生成语音数据/>

可选的，对文本数据y⁽ⁱ⁾对应的最小单位词进行语义分析并分类，所分类别包括：中文、英文、韩文、数字、拼音和地名等。针对不同类别的最小单位词有不同的编码规则。

可选的，计算等于x⁽ⁱ⁾的第二对数似然，即计算将y⁽ⁱ⁾输入第二语音合成模型，识别出x⁽ⁱ⁾的第二对数似然。第二对数似然的计算表达式如下所示。

logP_f(x⁽ⁱ⁾|y⁽ⁱ⁾,θ_yx)＝logP{g(y⁽ⁱ⁾)＝x⁽ⁱ⁾,θ_yx}

S206、基于对偶学习的语音识别与合成设备针对N对有标数据，以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，优化θ_xy和θ_yx。

可选的，基于对偶学习的语音识别与合成设备针对有标数据集中的N对有标数据Φ_(x,y) ^N，以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件。理想情况下，语音识别模型和语音合成模型应满足概率对偶性，即P(x⁽ⁱ⁾)P(y⁽ⁱ⁾|x⁽ⁱ⁾,θ_xy)＝P(y⁽ⁱ⁾)P(x⁽ⁱ⁾|y⁽ⁱ⁾,θ_yx)，其中P(x⁽ⁱ⁾)和P(y⁽ⁱ⁾)分别表示语音数据x⁽ⁱ⁾和文本数据y⁽ⁱ⁾的边缘概率。目标函数和约束条件通过公式可表示如下。

可选的，联立目标函数和约束条件，采用拉格朗日乘数优化算法，将原目标函数F(θ_xy，θ_yx)转化为表示如下。

其中λ为拉格朗日因子，采用梯度下降算法，对θ_xy和θ_yx进行迭代优化。计算函数关于θ_xy和θ_yx的梯度，分别表示为/>和/>对θ_xy和θ_yx进行更新，其中，/> 迭代更新直到目标函数收敛或达到指定停止条件。

本发明实施例还提供了一种基于对偶学习的语音识别与语音合成装置，该装置能上述基于对偶学习的语音识别与语音合成方法所具备的有益效果。其中，该装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括至少一个与上述功能相对应的模块。

请参阅图3，图3是本发明实施例提供的一种基于对偶学习的语音识别与语音合成装置300的结构框图，所述装置包括：初始化单元301、选取单元302、处理单元303、第一生成单元304、第二生成单元305和优化单元306。

初始化单元301，用于初始化有标数据集Φ_(x,y)、语音识别参数θ_xy、语音合成参数θ_yx和训练数据规模N，其中，有标数据集Φ_(x,y)＝{(x^(j),y^(j))}^K，有标数据集Φ_(x,y)中包含K对有标数据，(x^(j),y^(j))表示有标数据集Φ_(x,y)中的第j对有标数据，x^(j)为第j对有标数据中的语音数据，y^(j)为第j对有标数据中的文本数据。

选取单元302，用于从有标数据集Φ_(x,y)中选取N对有标数据{(x⁽ⁱ⁾,y⁽ⁱ⁾)}^N，K为正整数，N为小于等于K的正整数。

处理单元303，用于提取x⁽ⁱ⁾的声学特征，根据x⁽ⁱ⁾的声学特征，获取x⁽ⁱ⁾对应的音素的后验概率和x⁽ⁱ⁾对应的音素的转移概率。

第一生成单元304，用于根据x⁽ⁱ⁾对应的音素的后验概率和x⁽ⁱ⁾对应的音素的转移概率，生成文本数据计算/>等于y⁽ⁱ⁾的第一对数似然。

第二生成单元305，用于获取y⁽ⁱ⁾对应的声音特征序列，并根据声音序列特征，生成语音数据计算/>等于x⁽ⁱ⁾的第二对数似然。

优化单元306，用于针对N对有标数据，以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作约束条件，优化θ_xy和θ_yx。

可选的，选取单元302从有标数据集Φ_(x,y)中选取N对有标数据{(x⁽ⁱ⁾,y⁽ⁱ⁾)}^N之前，还包括：预训练单元，用于从有标数据集Φ_(x,y)中随机选取S对有标数据，对第一语音识别模型进行预训练，得到第二语音识别模型，以及对第一语音合成模型进行预训练，得到第二语音合成模型，第二语音识别模型包括深度神经网络和隐形马尔科夫模型，第二语音合成模型包括编码器、解码器和神经声码器。

可选的，处理单元303，包括：提取单元和获取单元。

提取单元，用于将x⁽ⁱ⁾的声学特征输入第二语音识别模型，逐帧提取x⁽ⁱ⁾的声学特征。

获取单元，用于将x⁽ⁱ⁾的声学特征输入第二语音识别模型中的深层神经网络，获取x⁽ⁱ⁾对应的音素的后验概率，通过第二语音识别模型中的隐马尔科夫模型获取x⁽ⁱ⁾对应的音素的转移概率。

可选的，第二生成单元305具体用于：将y⁽ⁱ⁾输入第二语音合成模型的编码器，生成语义序列将/>输入第二语音合成模型的第一解码器，生成声音特征序列，将声音序列特征输入第二语音合成模型的神经声码器，生成语音数据/>计算/>等于x⁽ⁱ⁾的第二对数似然。

可选的，优化单元306具体用于：以最大化第一对数似然和第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，联立目标函数和约束条件，采用拉格朗日乘数优化算法，对θ_xy和θ_yx进行迭代优化。结合本发明实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(英文：random access memory，简称：RAM)、闪存、只读存储器(英文：read only memory，简称：ROM)、可擦除可编程只读存储器(英文：erasable programmable rom，简称：EPROM)、电可擦可编程只读存储器(英文：electrically eprom，简称：EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于网络设备中。当然，处理器和存储介质也可以作为分立组件存在于网络设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明实施例的保护范围，凡在本发明实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明实施例的保护范围之内。

Claims

1.一种基于对偶学习的语音识别与语音合成方法，其特征在于，所述方法包括：

初始化有标数据集、语音识别参数/>、语音合成参数/>和训练数据规模N，其中，所述有标数据集/>，所述有标数据集/>中包含K对有标数据，表示所述有标数据集/>中的第j对有标数据，/>为所述第j对有标数据中的语音数据，/>为所述第j对有标数据中的为文本数据，K为正整数，N为小于等于K的正整数；

从所述有标数据集中选取N对有标数据/>；

提取所述语音数据的声学特征，根据所述语音数据/>的声学特征，获取所述语音数据/>对应的音素的后验概率和所述语音数据/>对应的音素的转移概率；

根据所述语音数据对应的音素的后验概率和所述语音数据/>对应的音素的转移概率，生成文本数据/>，计算所述文本数据/>等于所述文本数据/>的第一对数似然；

获取所述文本数据对应的声音特征序列，并根据所述声音特征序列，生成语音数据，计算所述语音数据/>等于所述语音数据/>的第二对数似然；

针对所述N对有标数据，以最大化所述第一对数似然和所述第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，优化所述和所述/>；

从有标数据集中随机选取N对有标数据/>之前，所述方法还包括：

从有标数据集中随机选取S对有标数据，对待训练的第一语音识别模型进行预训练，得到经过预训练的第二语音识别模型，以及对待训练的第一语音合成模型进行预训练，得到经过预训练的第二语音合成模型，所述第二语音识别模型包括深度神经网络和隐形马尔科夫模型，所述第二语音合成模型包括编码器、解码器和神经声码器，S为小于等于K的正整数；

所述提取所述语音数据的声学特征，获取所述语音数据/>对应的音素的后验概率和所述语音数据/>对应的音素的转移概率，包括：

将所述语音数据的声学特征输入所述第二语音识别模型，逐帧提取所述语音数据的声学特征，将所述语音数据/>的声学特征输入所述第二语音识别模型中的深层神经网络，获取所述语音数据/>对应的音素的后验概率，将所述语音数据/>对应的音素输入所述第二语音识别模型中的隐马尔科夫模型，获取所述语音数据/>对应的音素的转移概率。

2.根据权利要求1所述的方法，其特征在于，所述获取所述文本数据对应的声音特征序列，并根据所述声音特征序列，获得语音数据/>，包括：

将文本数据输入所述第二语音合成模型的编码器，生成语义序列/>，将所述语义序列/>输入所述第二语音合成模型的第一解码器，生成声音特征序列，将所述声音特征序列输入所述第二语音合成模型的神经声码器，生成语音数据/>。

3.根据权利要求2所述的方法，其特征在于，所述以最大化所述第一对数似然和所述第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作为约束条件，优化所述和所述/>，包括：

以最大化所述第一对数似然和所述第二对数似然为目标函数，并将所述语音识别和语音合成的概率对偶性作为约束条件，联立所述目标函数和所述约束条件，采用拉格朗日乘数优化算法，对所述和所述/>进行迭代优化。

4.一种基于对偶学习的语音识别与语音合成装置，其特征在于，所述装置包括：

初始化单元，用于初始化有标数据集、语音识别参数/>、语音合成参数/>和训练数据规模N，其中，所述有标数据集/>，/>表示所述有标数据集中的第j对有标数据，所述有标数据集/>中包含K对有标数据，/>为所述第j对有标数据中的语音数据，/>为所述第j对有标数据中的文本数据，K为正整数，N为小于等于K的正整数；

选取单元，用于从所述有标数据集中选取N对有标数据/>；

处理单元，用于提取所述语音数据的声学特征，根据所述语音数据/>的声学特征，获取所述语音数据/>对应的音素的后验概率和所述语音数据/>对应的音素的转移概率；

第一生成单元，用于根据所述语音数据对应的音素的后验概率和所述语音数据/>对应的音素的转移概率，生成文本数据/>，计算所述文本数据/>等于所述文本数据/>的第一对数似然；

第二生成单元，用于获取所述文本数据对应的声音特征序列，并根据所述声音特征序列，生成语音数据/>，计算所述语音数据/>等于所述语音数据/>的第二对数似然；

优化单元，用于针对所述N对有标数据，以最大化所述第一对数似然和所述第二对数似然为目标函数，并将语音识别和语音合成的概率对偶性作约束条件，优化所述和所述；

所述装置还包括：

预训练单元，用于在选取单元从所述有标数据集中选取N对有标数据/>之前，从有标数据集/>中随机选取S对有标数据，对待训练的第一语音识别模型进行预训练，得到经过预训练的第二语音识别模型，以及对待训练的第一语音合成模型进行预训练，得到经过预训练的第二语音合成模型，所述第二语音识别模型包括深度神经网络和隐形马尔科夫模型，所述第二语音合成模型包括编码器、解码器和神经声码器，S为小于等于K的正整数；

所述处理单元，包括：

提取单元，用于将所述语音数据的声学特征输入所述第二语音识别模型，逐帧提取所述语音数据/>的声学特征；

获取单元，用于将所述语音数据的声学特征输入所述第二语音识别模型中的深层神经网络，获取所述语音数据/>对应的音素的后验概率，将所述语音数据/>对应的音素输入所述第二语音识别模型中的隐马尔科夫模型，获取所述语音数据/>对应的音素的转移概率。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至3任意一项所述的方法。

6.一种服务器，其特征在于，包括用于执行如权利要求1-3任一项所述的方法的单元。