CN113345450A

CN113345450A - 语音转换方法、装置、设备及存储介质

Info

Publication number: CN113345450A
Application number: CN202110711815.0A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-03

Abstract

本发明涉及音频转换领域，公开了一种语音转换方法、装置、设备及存储介质，用于提高语音转换的准确率。所述语音转换方法包括：对源语音数据进行预处理，得到初始梅尔频谱；对源语音数据进行说话人类别提取，得到第一说话人类别；对初始梅尔频谱、第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量；将语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；将目标梅尔频谱输入预置的分类器进行说话人类别检测，得到第二说话人类别，并判断第二说话人类别与第一说话人类别是否相同；若相同，则对目标梅尔频谱进行语音转换，得到目标语音数据。此外，本发明还涉及区块链技术，目标语音数据可存储于区块链节点中。

Description

语音转换方法、装置、设备及存储介质

技术领域

本发明涉及音频转换领域，尤其涉及一种语音转换方法、装置、设备及存储介质。

背景技术

随着科学技术的发展，多种即时通信软件可以首先录制用户的语音信息，然后将录制的语音信息转换为各种音色的语音，并将转换得到的语音发送给其他用户，从而提高用户之间交流的趣味性。

现有方案对语音进行转换时，通常通过循环神经网络模型(recurrent neuralnetwork，RNN)对输入的语音进行编码再解码，得到目标语音数据，使用传统的循环神经网络模型进行编码和解码很难解决长时依赖问题，容易影响转换后句子整体的韵律，导致转换后的语音自然度差，即现有方案转换得到的语音准确率低。

发明内容

本发明提供了一种语音转换方法、装置、设备及存储介质，用于提高语音转换的准确率。

本发明第一方面提供了一种语音转换方法，所述语音转换方法包括：获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱；对所述源语音数据进行说话人类别提取，得到第一说话人类别；对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量；将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同；若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据。

可选的，在本发明第一方面的第一种实现方式中，所述获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱，包括：从预设的语音数据库中读取待处理的源语音数据；对所述源语音数据进行短时傅里叶变换，得到所述源语音数据对应的语音频谱；通过预置的滤波器对所述语音频谱进行滤波操作，得到所述源语音数据对应的初始梅尔频谱。

可选的，在本发明第一方面的第二种实现方式中，所述对所述源语音数据进行说话人类别提取，得到第一说话人类别，包括：对所述源语音数据进行分帧，得到多个语音帧；对所述多个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征；基于每个语音帧对应的声学特征生成与所述源语音数据对应的第一说话人类别。

可选的，在本发明第一方面的第三种实现方式中，所述对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量，包括：对所述初始梅尔频谱进行独热向量编码，得到编码向量；按照预置编码规则，将所述第一说话人类别和预置的位置信息嵌入所述编码向量，得到语音特征向量。

可选的，在本发明第一方面的第四种实现方式中，所述将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱，包括：将所述语音特征向量输入预置的语音转换模型中卷积神经网络，通过所述卷积神经网络对所述语音特征向量进行高层次的特征提取，得到高层次特征向量；将所述高层次特征向量输入所述语音转换模型中的双向长短时记忆网络，通过所述双向长短时记忆网络对所述高层次特征向量进行处理，得到音节序列和拼音序列；将所述音节序列和所述拼音序列输入所述语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换，得到目标梅尔频谱。

可选的，在本发明第一方面的第五种实现方式中，所述将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同，包括：将所述目标梅尔频谱输入预置的分类器中两层循环神经网络进行特征提取，得到所述初始梅尔频谱对应的分类向量；将所述分类向量输入所述分类器中的三层卷积神经网络进行说话人分类，得到第二说话人类别；对所述第二说话人类别与所述第一说话人类别进行比较，得到比较结果；若所述比较结果为预设目标值，则确定所述第二说话人类别与所述第一说话人类别相同；若所述比较结果不为预设目标值，则确定所述第二说话人类别与所述第一说话人类别不相同。

可选的，在本发明第一方面的第六种实现方式中，所述若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据，包括：若所述第二说话人类别与所述第一说话人类别相同，则将所述目标梅尔频谱输入预置的序列生成模型进行格式转换，得到所述目标梅尔频谱对应的目标格式文件；对所述目标格式文件进行语音转换，得到目标语音数据。

本发明第二方面提供了一种语音转换装置，所述语音转换装置包括：获取模块，用于获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱；提取模块，用于对所述源语音数据进行说话人类别提取，得到第一说话人类别；编码模块，用于对所述初始梅尔频谱、所述第一说话人类别和预置位置信息进行编码处理，得到语音特征向量；转换模块，用于将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；检测模块，用于将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同；输出模块，用于若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块具体用于：从预设的语音数据库中读取待处理的源语音数据；对所述源语音数据进行短时傅里叶变换，得到所述源语音数据对应的语音频谱；通过预置的滤波器对所述语音频谱进行滤波操作，得到所述源语音数据对应的初始梅尔频谱。

可选的，在本发明第二方面的第二种实现方式中，所述提取模块具体用于：对所述源语音数据进行分帧，得到多个语音帧；对所述多个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征；基于每个语音帧对应的声学特征生成与所述源语音数据对应的第一说话人类别。

可选的，在本发明第二方面的第三种实现方式中，所述编码模块具体用于：对所述初始梅尔频谱进行独热向量编码，得到编码向量；按照预置编码规则，将所述第一说话人类别和预置的位置信息嵌入所述编码向量，得到语音特征向量。

可选的，在本发明第二方面的第四种实现方式中，所述转换模块还包括：特征提取单元，用于将所述语音特征向量输入预置的语音转换模型中卷积神经网络，通过所述卷积神经网络对所述语音特征向量进行高层次的特征提取，得到高层次特征向量；处理单元，用于将所述高层次特征向量输入所述语音转换模型中的双向长短时记忆网络，通过所述双向长短时记忆网络对所述高层次特征向量进行处理，得到音节序列和拼音序列；转换单元，用于将所述音节序列和所述拼音序列输入所述语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换，得到目标梅尔频谱。

可选的，在本发明第二方面的第五种实现方式中，所述检测模块具体用于：将所述目标梅尔频谱输入预置的分类器中两层循环神经网络进行特征提取，得到所述初始梅尔频谱对应的分类向量；将所述分类向量输入所述分类器中的三层卷积神经网络进行说话人分类，得到第二说话人类别；对所述第二说话人类别与所述第一说话人类别进行比较，得到比较结果；若所述比较结果为预设目标值，则确定所述第二说话人类别与所述第一说话人类别相同；若所述比较结果不为预设目标值，则确定所述第二说话人类别与所述第一说话人类别不相同。

可选的，在本发明第二方面的第六种实现方式中，所述输出模块具体用于：若所述第二说话人类别与所述第一说话人类别相同，则将所述目标梅尔频谱输入预置的序列生成模型进行格式转换，得到所述目标梅尔频谱对应的目标格式文件；对所述目标格式文件进行语音转换，得到目标语音数据。

本发明第三方面提供了一种语音转换设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音转换设备执行上述的语音转换方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的语音转换方法。

本发明提供的技术方案中，获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱；对所述源语音数据进行说话人类别提取，得到第一说话人类别；对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量；将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同；若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据。本发明实施例中，通过对源语音数据进行预处理，得到初始梅尔频谱，在初始梅尔频谱中嵌入第一说话人类别和预置的位置信息，得到语音特征向量，通过预置的语音转换模型对语音特征向量进行语音转换处理，得到目标梅尔频谱，再通过预置的分类器对目标梅尔频谱进行说话人类别检测，最后根据检测结果为第二说话人类别与第一说话人类别相同的目标梅尔频谱生成目标语音数据，加强了目标语音数据与说话人的关联度，从而提高了语音转换的准确率。

附图说明

图1为本发明实施例中语音转换方法的第一个实施例示意图；

图2为本发明实施例中语音转换方法的第二个实施例示意图；

图3为本发明实施例中语音转换装置的第一个实施例示意图；

图4为本发明实施例中语音转换装置的第二个实施例示意图；

图5为本发明实施例中语音转换设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音转换方法、装置、设备及存储介质，用于提高语音转换的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中语音转换方法的第一个实施例包括：

101、获取待处理的源语音数据，并对源语音数据进行预处理，得到初始梅尔频谱；

可以理解的是，本发明的执行主体可以为语音转换装置，还可以是服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务器从预设的语音数据库中读取待处理的源语音数据，源语音数据为包含人说话的语音数据，例如：车载多媒体导航语音、动画短视频配音语音等；服务器对源语音数据进行短时傅里叶变换，得到源语音数据对应的语音频谱，然后服务器通过预置的滤波器对语音频谱进行滤波操作，得到初始梅尔频谱(mel-spectrogram)。

需要说明的是，服务器对源语音数据进行预处理时，服务器对源说话人语音(也就是，源语音数据)提取初始梅尔频谱，其中，梅尔频谱是模拟人耳对高频信号的抑制，对语音的线性谱进行处理得到的低维特征，强调低频部分，弱化高频部分所得到的语音特征。

102、对源语音数据进行说话人类别提取，得到第一说话人类别；

具体的，服务器对源语音数据进行说话人类别提取，首先对源语音数据进行分帧，进一步地，当预设的每帧长度为25毫秒时，每两帧之间交叠，交叠的长度为10毫秒，服务器按照每帧长度(25毫秒)将源语音数据分割成多个语音帧，每个语音帧的帧长为25毫秒，这些语音帧中两个相邻的音频段之间的帧移为10毫秒；服务器再对多个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征，其中，预增强处理是为了对每个语音帧的高频部分进行加强，去除杂音的影响，增加语音的高频分辨率，加窗处理是通过预置的汉明窗函数对预增强处理后的多个语音帧进行声学特征提取；最后服务器基于每个语音帧对应的声学特征生成与源语音数据对应的第一说话人类别。进一步地，服务器对源语音数据进行说话人类别提取时是通过预置的语音识别工具对源语音数据进行分帧，得到多个语音帧，语音识别工具可以为kaldi语音识别工具，此处不作具体的限定。

103、对初始梅尔频谱、第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量；

具体的，服务器将初始梅尔频谱对应源语音数据中的目标词汇进行特征数字化，得到特征数字，并对特征数字进行编码，得到编码向量，例如：当初始梅尔频谱对应源语音数据中的目标词汇为“男人”，“小李”，“吃”时，服务器将“男人”进行特征数字化，得到特征数字为0，将“小李”进行特征数字化，得到特征数字为1，将“吃”进行特征数字化，得到特征数字为3，对特征数字进行编码，得到编码向量为[0,1,3]。然后，服务器按照预置的编码规则，将第一说话人类别和预置的位置信息嵌入编码向量，得到语音特征向量。进一步地，预置的编码规则对应的编码顺序为[编码向量,第一说话人类别,位置信息]，例如：当编码向量为[0,1,3]，第一说话人类别为2，位置信息为4，服务器将第一说话人类别2和预置的位置信息4嵌入编码向量[0,1,3]，得到语音特征向量为[0,1,3,2,4]。

需要说明的是，预置的位置信息是因为注意力机制忽视了位置的因素，因此添加位置信息来补充位置信息对于网络特征学习的影响。

104、将语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；

具体的，服务器将语音特征向量输入预置的语音转换模型进行语音转换，通过语音转换模型对语音特征向量进行语音转换，得到目标梅尔频谱。其中，语音转换是对源语音数据中的音色、韵律、源语音数据对应说话人的发音习惯、语调、语速等进行转换，使得转换后得到的目标梅尔频谱具备语音转换前源语音数据的所有语音特征。进一步地，语音转换模型包括卷积神经网络(也就是，CNN网络)、双向长短时记忆网络(也就是，Bi-LSTM网络)和前序编解码预测器(也就是，transformer网络)，其中，卷积神经网络用于对语音特征向量进行高层次的特征提取，双向长短时记忆网络用于对高层次特征向量进行向量到序列的转换，前序编解码预测器用于对输入序列到输出序列的转换，此外前序编解码预测器对源语音数据特征进行转换时，不会改变源语音数据中的语音内容，目标语音数据的语音内容与源语音数据的语音内容相同。

105、将目标梅尔频谱输入预置的分类器进行说话人类别检测，得到目标梅尔频谱对应的第二说话人类别，并判断第二说话人类别与第一说话人类别是否相同；

具体的，服务器将目标梅尔频谱输入预置的分类器进行说话人类别检测，得到目标梅尔频谱对应的第二说话人类别，预置的分类器可以为预训练pretrained分类器，也可以为其他类型的分类器，具体此处不做限定。pretrained分类器包括两层循环神经网络和三层卷积神经网络，其中，两层循环神经网络用于对目标梅尔频谱进行特征提取，三层卷积神经网络用于对说话人进行类别识别，得到第二说话人类别。服务器判断第二说话人类别和第一说话人类别是否相同，若第二说话人类别与第一说话人类别相同，则服务器执行步骤106；

进一步地，若第二说话人类别与第一说话人类别不相同，则服务器对源语音数据进行新一轮的处理(也就是，服务器重复执行步骤101至步骤104)，并对生成的目标语音数据进行纠错，例如：假设在看电视的场景下，谈论电视节目，带有麦克风拾取说话人的声音并进行识别，当识别得到的源语音数据“这个电视剧剧情编排的不错，主角都很有名”，目标梅尔频谱输出的音素信息为“zhe ge dian shi ju ju qing bian pai de bu cuo，zhujue dou hen you ming”，此处的音素信息可能有很多种表达方式，如“这歌电视局巨擎匾牌得不错，主角都很有名”、“这个电视剧巨青编派得补错，主角逗恨又明”等多种表达结果，根据源语音数据的场景和语音语境信息，神经网络能学习到场景和语音语境信息，在前序编解码预测器处理时跟场景和语音语境信息进行匹配，生成目标语音数据的内容“这个电视剧剧情编排的不错，主角都很有名”。

106、若第二说话人类别与第一说话人类别相同，则对目标梅尔频谱进行语音转换，得到目标语音数据。

具体的，若第二说话人类别和第一说话人类别相同，则服务器通过预置的序列生成模型(例如，wavenet模型)对目标梅尔频谱进行格式转换，将目标梅尔频谱转换为目标格式文件，其中，目标格式文件可以为wav格式文件，序列生成模型包括多个卷积网络和激活softmax层，多个卷积网络用于对目标梅尔频谱进行采样，每个卷积层都对前一层进行卷积，卷积核越大层数越多，时域上的感知能力越强感知范围越大；服务器将目标梅尔频谱输入多个卷积网络进行处理后，得到处理后的目标梅尔频谱；服务器通过softmax层将处理后的目标梅尔频谱输出为目标格式文件，目标格式文件可以为音频流文件；服务器再将目标格式文件转换为目标语音数据，其中，目标语音数据和源语音数据的语音内容相同且说话人类别也相同。例如：当源语音数据为“你认为最近哪部电影比较好看”时，转换得到的目标语音数据为“你认为最近哪部电影比较好看”，所输出的语音具有源语音数据的音色、韵律、源用户的讲话方式、语速等等，与源语音数据对应的说话人发出的语音相同。

进一步地，服务器将目标语音数据存储于区块链数据库中，具体此处不做限定。

本发明实施例中，通过对源语音数据进行预处理，得到初始梅尔频谱，在初始梅尔频谱中嵌入第一说话人类别和预置的位置信息，得到语音特征向量，通过预置的语音转换模型对语音特征向量进行语音转换处理，得到目标梅尔频谱，再通过预置的分类器对目标梅尔频谱进行说话人类别检测，最后根据检测结果为第二说话人类别与第一说话人类别相同的目标梅尔频谱生成目标语音数据，加强了目标语音数据与说话人的关联度，从而提高了语音转换的准确率。

请参阅图2，本发明实施例中语音转换方法的第二个实施例包括：

201、获取待处理的源语音数据，并对源语音数据进行预处理，得到初始梅尔频谱；

其中，待处理的源语音数据可以存储于预设的语音数据库中，其中，语音数据库中包含多个源语音数据，每个源语音数据为包含人说话的语音数据，预处理包括短时傅里叶变换和滤波操作。

可选的，服务器从预设的语音数据库中读取待处理的源语音数据；服务器对源语音数据进行短时傅里叶变换，得到源语音数据对应的语音频谱；服务器通过预置的滤波器对语音频谱进行滤波操作，得到源语音数据对应的初始梅尔频谱。进一步地，服务器通过滤波器对语音频谱滤波并去除噪音信号，得到源语音数据对应的初始梅尔频谱，其中，语音数据库包括多个包含人说话的语音数据。

需要说明的是，短时傅里叶变换(short-time Fourier transform，STFT)是用于确定时变信号其局部区域正弦波的频率与相位，短时傅里叶变换是通过时间窗内的一段信号来表示语音中的某一时刻的信号特征，在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好，此外，预置的滤波器可以为梅尔滤波器(Mel filter)，此处不作具体的限定。

202、对源语音数据进行说话人类别提取，得到第一说话人类别；

其中，第一说话人类别包括源语音数据对应说话人的说话风格，说话风格可以是声纹信息等。可选的，服务器对源语音数据进行分帧，得到多个语音帧；服务器对多个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征；服务器基于每个语音帧对应的声学特征生成与源语音数据对应的第一说话人类别。

进一步地，服务器通过预置的语音识别工具计算源语音数据中语音帧的数目，根据语音帧的数目、预置的帧长25ms和帧移10ms，对源语音数据进行分帧，得到多个语音帧，进一步地，当预设的每帧长度为25毫秒时，每两帧之间交叠，交叠的长度为10毫秒，服务器按照每帧长度为25毫秒将源语音数据分割成多个帧长为25毫秒的语音帧，这些语音帧中两个相邻的音频段之间的帧移为10毫秒，分帧后得到多个语音帧；服务器对每个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征，进一步地，服务器通过传递函数为H(z)＝1-az^-1的一阶FIR高通数字滤波器对每个语音帧进行预增强处理，得到多个增强语音帧，其中H(z)为高通滤波器的幅频，a为预加重系数且a的取值范围为：0.9<a<1.0，z为采样频率，服务器对每个增强语音帧进行特征级声道长度归一化，得到每个语音帧对应的声学特征，其中，预增强处理是为了对语音帧的高频部分进行加重，去除噪音的影响，增加语音的高频分辨率，加窗处理是指对每个语音帧进行加窗以减小吉布斯效应的影响；服务器基于每个语音帧对应的声学特征生成与源语音数据对应的第一说话人类别，其中，第一说话人类别包括用户的多个语音特征，例如：用户的声纹信息，声纹信息包括声腔的尺寸和发声方式，还包括咽喉的尺寸、鼻腔的尺寸、口腔尺寸和唇齿之间的相互作用等。

203、对初始梅尔频谱、第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量；

具体的，独热向量编码用于处理初始梅尔频谱中不具备大小关系的语音特征，独热向量编码可以使初始梅尔频谱中的语音特征以数值表现在一个编码向量中，从而实现对初始梅尔频谱中的语音特征集中体现。

可选的，服务器对初始梅尔频谱进行独热向量编码，得到编码向量；服务器按照预置编码规则，将第一说话人类别和预置的位置信息嵌入编码向量，得到语音特征向量。

具体的，预置的位置信息是因为注意力机制忽视了位置的因素，因此在编码向量中添加位置信息来补充位置信息对于网络特征学习的影响。也就是，服务器将第一说话人类别和预置的位置信息嵌入编码向量，服务器按照[编码向量,说话人类别,位置信息]的编码规则，将第一说话人类别和预置的位置信息嵌入编码向量，得到语音特征向量。例如：服务器对初始梅尔频谱进行独热向量编码，得到编码向量，当编码向量为[1,2,3,3]，位置信息为5，第一说话人类别为4时，语音特征向量为[1,2,3,3,4,5]。

204、将语音特征向量输入预置的语音转换模型中卷积神经网络，通过卷积神经网络对语音特征向量进行高层次的特征提取，得到高层次特征向量；

具体的，服务器将语音特征向量输入预置的语音转换模型中的卷积神经网络，将语音特征向量经过由深度卷积神经网络组成的分层结构的神经网络，服务器通过卷积神经网络中的局部感受野学习特性，服务器将输入的语音特征向量被分层结构的神经网络在局部和全局两个角度上进行更抽象高层次的特征提取，得到高层次特征向量。

205、将高层次特征向量输入语音转换模型中的双向长短时记忆网络，通过双向长短时记忆网络对高层次特征向量进行处理，得到音节序列和拼音序列；

具体的，服务器将高层次特征向量输入预置的语音转换模型中双向长短时记忆网络进行处理，得到音节序列和拼音序列。服务器通过双向长短时记忆网络的上下文信息跟踪和学习的特点，能更加准确解码识别语音数据关联的声学信息。需要说明的是，双向长短时记忆网络是由双层的双向长短时记忆循环神经网络组成的网络，由于音频信号是跟时间相关的序列信号，而双向长短时记忆网络的特点是能跟踪与时间强相关的时序信号，能更充分地表示其时序信息，双向长短时记忆网络中的每一神经元内嵌了精细的记忆门控与传递结构，保证数据能以正反两种顺序输入，双向长短时记忆网络的正向输入包括了生成语音的声音信号，反向输入包括了未来的信息，即生成目标语音数据后的反馈输入信息。

206、将音节序列和拼音序列输入语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换，得到目标梅尔频谱；

具体的，服务器将音节序列和拼音序列输入语音转换模型中的前序编解码预测器，并通过前序编解码预测器实现输入序列到输出序列的转换，得到目标梅尔频谱。服务器通过前序编解码预测器对音节序列和拼音序列进行非线性计算的复杂结构和上下文信息学习，以将音节序列和拼音序列转换为目标梅尔频谱。需要说明的是，前序编解码预测器是由一个编码器块和一个解码器块组成，编码器块和解码器块分别由相互堆叠在一起的多个相同的编码器和解码器构成，编码器堆栈和解码器堆栈要求相同数量的单元，其中，每个编码器和解码器都由前馈神经网络和自注意力模型构成。

207、将目标梅尔频谱输入预置的分类器进行说话人类别检测，得到目标梅尔频谱对应的第二说话人类别，并判断第二说话人类别与第一说话人类别是否相同；

具体的，服务器将目标梅尔频谱输入预置的分类器进行说话人类别检测，得到目标梅尔频谱对应的第二说话人类别，在判断第二说话人类别与第一说话人类别是否相同时，服务器获取目标梅尔频谱对应的场景和语音语境信息，分类器进行说话人类别检测时对场景和语音语境信息进行匹配，生成目标语音数据，降低了字符的错误率，提高了语音转换的准确率。

可选的，服务器将目标梅尔频谱输入预置的分类器中两层循环神经网络进行特征提取，得到初始梅尔频谱对应的分类向量；服务器将分类向量输入预置的分类器中三层卷积神经网络进行说话人分类，得到第二说话人类别；服务器对第二说话人类别与第一说话人类别进行比较，得到比较结果；若比较结果为预设目标值，则服务器确定第二说话人类别与第一说话人类别相同；若比较结果不为预设目标值，则服务器确定第二说话人类别与第一说话人类别不相同。

进一步地，若比较结果不为预设目标值，则服务器确定第二说话人类别与第一说话人类别不相同，例如：当预设目标值设置为1，比较结果为1时，此时预设目标值与比较结果相同，则服务器确定第二说话人类别与第一说话人类别相同；若第二说话人类别与第一说话人类别不相同，则服务器对源语音数据进行新一轮的处理(也就是，服务器重复执行步骤201至步骤207)，并对生成的目标语音数据进行纠错，例如：当预设目标值设置为1，比较结果为0，此时预设目标值与比较结果不同，则服务器确定第二说话人类别与第一说话人类别相同。需要说明的是，分类器能够从目标梅尔频谱中得到最有可能的说话人类别，服务器将归一化得分最高的说话人分类作为分类器预测类别标签，得到第二说话人类别。

208、若第二说话人类别和第一说话人类别相同，则对目标梅尔频谱进行语音转换，得到目标语音数据。

具体的，目标梅尔频谱是包括源语音数据中的语音特征和说话人类别的梅尔频谱，在对目标梅尔频谱进行语音转换时保留了说话人类别的特征，提高了转换后得到的语音的准确率。

可选的，若第二说话人类别与第一说话人类别相同，则服务器将目标梅尔频谱输入预置的序列生成模型进行格式转换，得到目标梅尔频谱对应的目标格式文件；服务器对目标格式文件进行语音转换，得到目标语音数据。

进一步地，若第二说话人类别和第一说话人类别相同，则服务器对目标梅尔频谱进行语音转换，通过预置的序列生成模型将目标梅尔频谱转换为目标格式文件，其中，序列生成模型包括多个卷积网络和softmax层，多个卷积网络用于对目标梅尔频谱进行采样，每个卷积网络对前一层卷积网络进行卷积，卷积核越大层数越多，卷积网络在时域上的感知能力越强感知范围越大，服务器再通过softmax层将目标梅尔频谱输出为目标格式文件，目标格式文件为音频流文件，服务器将目标格式文件转换为目标语音数据，目标语音数据和源语音数据的语音内容相同且说话人类别也相同，例如：当源语音数据为“明天一起去看海”时，语音转换后得到的目标语音数据“明天一起去看海”，所输出的语音具有源语音数据的音色、韵律、源用户的讲话方式、语速等等，与源语音数据对应的说话人发出的语音相同，提高了语音转换的自然度。

上面对本发明实施例中语音转换方法进行了描述，下面对本发明实施例中语音转换装置进行描述，请参阅图3，本发明实施例中语音转换装置第一个实施例包括：

获取模块301，用于获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱；

提取模块302，用于对所述源语音数据进行说话人类别提取，得到第一说话人类别；

编码模块303，用于对所述初始梅尔频谱、所述第一说话人类别和预置位置信息进行编码处理，得到语音特征向量；

转换模块304，用于将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；

检测模块305，用于将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同；

输出模块306，用于若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据。

进一步地，将目标语音数据存储于区块链数据库中，具体此处不做限定。

请参阅图4，本发明实施例中语音转换装置第二个实施例包括：

可选的，所述获取模块301具体用于：从预设的语音数据库中读取待处理的源语音数据；对所述源语音数据进行短时傅里叶变换，得到所述源语音数据对应的语音频谱；通过预置的滤波器对所述语音频谱进行滤波操作，得到所述源语音数据对应的初始梅尔频谱。

可选的，所述提取模块302具体用于：对所述源语音数据进行分帧，得到多个语音帧；对所述多个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征；基于每个语音帧对应的声学特征生成与所述源语音数据对应的第一说话人类别。

可选的，所述编码模块303具体用于：对所述初始梅尔频谱进行独热向量编码，得到编码向量；按照预置编码规则，将所述第一说话人类别和预置的位置信息嵌入所述编码向量，得到语音特征向量。

可选的，所述转换模块304还包括：特征提取单元3041，用于将所述语音特征向量输入预置的语音转换模型中卷积神经网络，通过所述卷积神经网络对所述语音特征向量进行高层次的特征提取，得到高层次特征向量；处理单元3042，用于将所述高层次特征向量输入所述语音转换模型中的双向长短时记忆网络，通过所述双向长短时记忆网络对所述高层次特征向量进行处理，得到音节序列和拼音序列；转换单元3043，用于将所述音节序列和所述拼音序列输入所述语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换，得到目标梅尔频谱。

可选的，所述检测模块305具体用于：将所述目标梅尔频谱输入预置的分类器中两层循环神经网络进行特征提取，得到所述初始梅尔频谱对应的分类向量；将所述分类向量输入所述分类器中的三层卷积神经网络进行说话人分类，得到第二说话人类别；对所述第二说话人类别与所述第一说话人类别进行比较，得到比较结果；若所述比较结果为预设目标值，则确定所述第二说话人类别与所述第一说话人类别相同；若所述比较结果不为预设目标值，则确定所述第二说话人类别与所述第一说话人类别不相同。

可选的，所述输出模块306具体用于：若所述第二说话人类别与所述第一说话人类别相同，则将所述目标梅尔频谱输入预置的序列生成模型进行格式转换，得到所述目标梅尔频谱对应的目标格式文件；对所述目标格式文件进行语音转换，得到目标语音数据。

上面图3和图4从模块化功能实体的角度对本发明实施例中的语音转换装置进行详细描述，下面从硬件处理的角度对本发明实施例中语音转换设备进行详细描述。

图5是本发明实施例提供的一种语音转换设备的结构示意图，该语音转换设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对语音转换设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在语音转换设备500上执行存储介质530中的一系列指令操作。

语音转换设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的语音转换设备结构并不构成对语音转换设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种语音转换设备，所述语音转换设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述语音转换方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述语音转换方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音转换方法，其特征在于，所述语音转换方法包括：

获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱；

对所述源语音数据进行说话人类别提取，得到第一说话人类别；

对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量；

将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；

将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同；

若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据。

2.根据权利要求1所述的语音转换方法，其特征在于，所述获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱，包括：

从预设的语音数据库中读取待处理的源语音数据；

对所述源语音数据进行短时傅里叶变换，得到所述源语音数据对应的语音频谱；

通过预置的滤波器对所述语音频谱进行滤波操作，得到所述源语音数据对应的初始梅尔频谱。

3.根据权利要求1所述的语音转换方法，其特征在于，所述对所述源语音数据进行说话人类别提取，得到第一说话人类别，包括：

对所述源语音数据进行分帧，得到多个语音帧；

对所述多个语音帧进行预增强处理和加窗处理，得到每个语音帧对应的声学特征；

基于每个语音帧对应的声学特征生成与所述源语音数据对应的第一说话人类别。

4.根据权利要求1所述的语音转换方法，其特征在于，所述对所述初始梅尔频谱、所述第一说话人类别和预置的位置信息进行编码处理，得到语音特征向量，包括：

对所述初始梅尔频谱进行独热向量编码，得到编码向量；

按照预置编码规则，将所述第一说话人类别和预置的位置信息嵌入所述编码向量，得到语音特征向量。

5.根据权利要求1所述的语音转换方法，其特征在于，所述将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱，包括：

将所述语音特征向量输入预置的语音转换模型中卷积神经网络，通过所述卷积神经网络对所述语音特征向量进行高层次的特征提取，得到高层次特征向量；

将所述高层次特征向量输入所述语音转换模型中的双向长短时记忆网络，通过所述双向长短时记忆网络对所述高层次特征向量进行处理，得到音节序列和拼音序列；

将所述音节序列和所述拼音序列输入所述语音转换模型中的前序编解码预测器进行输入序列到输出序列的转换，得到目标梅尔频谱。

6.根据权利要求1所述的语音转换方法，其特征在于，所述将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同，包括：

将所述目标梅尔频谱输入预置的分类器中两层循环神经网络进行特征提取，得到所述初始梅尔频谱对应的分类向量；

将所述分类向量输入所述分类器中的三层卷积神经网络进行说话人分类，得到第二说话人类别；

对所述第二说话人类别与所述第一说话人类别进行比较，得到比较结果；

若所述比较结果为预设目标值，则确定所述第二说话人类别与所述第一说话人类别相同；

若所述比较结果不为预设目标值，则确定所述第二说话人类别与所述第一说话人类别不相同。

7.根据权利要求1-6中任一项所述的语音转换方法，其特征在于，所述若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据，包括：

若所述第二说话人类别与所述第一说话人类别相同，则将所述目标梅尔频谱输入预置的序列生成模型进行格式转换，得到所述目标梅尔频谱对应的目标格式文件；

对所述目标格式文件进行语音转换，得到目标语音数据。

8.一种语音转换装置，其特征在于，所述语音转换装置包括：

获取模块，用于获取待处理的源语音数据，并对所述源语音数据进行预处理，得到初始梅尔频谱；

提取模块，用于对所述源语音数据进行说话人类别提取，得到第一说话人类别；

编码模块，用于对所述初始梅尔频谱、所述第一说话人类别和预置位置信息进行编码处理，得到语音特征向量；

转换模块，用于将所述语音特征向量输入预置的语音转换模型进行语音转换，得到目标梅尔频谱；

检测模块，用于将所述目标梅尔频谱输入预置的分类器进行说话人类别检测，得到所述目标梅尔频谱对应的第二说话人类别，并判断所述第二说话人类别与所述第一说话人类别是否相同；

输出模块，用于若所述第二说话人类别与所述第一说话人类别相同，则对所述目标梅尔频谱进行语音转换，得到目标语音数据。

9.一种语音转换设备，其特征在于，所述语音转换设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音转换设备执行如权利要求1-7中任一项所述的语音转换方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的语音转换方法。