CN110808034A

CN110808034A - 语音转换方法、装置、存储介质及电子设备

Info

Publication number: CN110808034A
Application number: CN201911053971.1A
Authority: CN
Inventors: 舒景辰; 张岱; 史彩庆; 谭星; 胡凯
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-18

Abstract

本申请实施例公开了一种语音转换方法、装置、存储介质及电子设备，属于语音处理领域。所述方法包括：采集用户的语音数据，提取所述语音数据的声学特征；将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型对应不同的语言类型；计算多个候选音素序列的概率，以及将概率最大的候选音素序列作为目标音素序列；基于文本转换模型将所述目标音素序列进行文本转换得到文本数据，实现对不同语言类型的语音数据的识别和文本转换，提供文本转换的准确率。

Description

语音转换方法、装置、存储介质及电子设备

技术领域

本申请涉及语音处理领域，尤其涉及一种语音转换方法、装置、存储介质及电子设备。

背景技术

随着社会的发展，越来越多的人会选择学习各种各样的知识来不断扩充自己。其中，由于传统的学生与教师面对面授课均需要双方在路上耗费大量的时间及精力。因此，随着互联网技术的发展，网络在线教育已被广大的用户所接受，网络在线教育是由身为教师的终端设备通过网络与学生通过各自的终端设备进行远程授课。

在对用户进行语音识别时，需要接收用户的语音数据，并根据该语音的语言类型，选择对应的语音的声学模型对其进行文字识别，并输出对应的文字数据。例如：当语音数据的语言类型为中文时，选择中文声学模型对其进行文字识别，并输出对应的文字数据。当接收到的语音数据中存在中英文混合语音数据的情况时，利用传统的声学模型进行识别则会导致针对该语音数据的识别率不高的问题。

发明内容

本申请实施例提供了的语音转换方法、装置、存储介质及终端，可以解决对混合语音类型的语音数据进行文本转换的准确率不高的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种语音转换方法，所述方法包括：

采集用户的语音数据，以及提取所述语音数据的声学特征；

将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，所述多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据；

计算多个候选音素序列的概率，以及将概率最大的候选音素序列作为目标音素序列；

基于文本转换模型将所述目标音素序列进行文本转换得到文本数据。

第二方面，本申请实施例提供了一种语音转换装置，所述装置包括：

提取单元，用于采集用户的语音数据，以及提取所述语音数据的声学特征；

处理单元，用于将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据

选择单元，用于计算多个候选音素序列的概率，以及选择概率最大的候选音素序列为目标音素序列；

转换单元，用于基于文本转换模型将所述目标音素序列进行文本转换得到文本数据。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

提取语音数据的声学特征，基于多个声学模型对声学特征进行文本转换得到多个候选音素序列，基于概率计算在多个候选音素序列中选取目标音素序列，然后基于文本转换模型对目标音素序列进行文本转换得到文本数据，解决相关技术中使用单一语言类型的声学模型带来的转换的文本数据准确率不高的问题，本申请能自适应的根据不同语言类型的语音类型选择相应的声学模型进行文本转换，提高文本转换的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音转换文本的用户界面示意图；

图2是本申请实施例提供的语音转换方法的流程示意图；

图3是本申请实施例提供的语音转换方法的另一流程示意图；

图4是本申请实施例提供的训练声学模型的示意图；

图5是本申请提供的一种装置的结构示意图；

图6是本申请提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

参考图1，图1为电子设备执行语音转换文本的示意图。其中，语音转换文本可应用在语音控制、在线翻译或字符输入等过程。电子设备检测到麦克风图标13上的点击操作，基于点击操作生成录音指令，响应于录音指令采集用户的语音数据，将语音数据进行语音文本转换后得到文本数据显示在用户界面12上。

其中，语音转换文本可应用于语音控制过程，电子设备的显示屏处于熄屏状态时，电子设备采集用户发出的语音，将语音转换为语音数据，提取语音数据中的声学特征，将声学特征输入到声纹个人模型，声纹个人模型对声学特征进行声纹唤醒，识别用户是否为预设用户，若为是，继续判断语音数据中是否包括唤醒词，若为是，将语音控制功能切换为激活状态，将激活状态保持预设时长，以及将显示屏切换为点亮状态。

其中，在激活状态下，电子设备11可以接收用户发出的控制语音，将控制语音转换为控制指令，然后执行控制指令对应的操作。例如：给XX联系人打电话、查询天气、播放音乐、启动应用程序等操作。其中，电子设备11可以将语音数据转换为文本数据，然后在显示屏上显示该文本数据。

例如：电子设备11中预设的唤醒词为“XX同学”，用户1发出一段语音，电子设备采集到语音得到语音数据，将语音数据转换为文本数据为“XX同学”，电子设备根据声纹个人模型确定文本数据中包括预设的唤醒词，然后提取语音数据的声学特征，将声学特征输入到声纹个人模型，根据声学特征识别出发出语音数据的用户为预设用户，激活语音控制功能，然后显示用户界面12，用户界面12包括麦克风图标13，语音控制功能处于激活状态，麦克风图标13由静态显示切换为动态显示，动态显示的麦克风图标13用于提示用户电子设备的语音控制功能处于激活状态，电子设备11在预设时长内保持语音控制功能的激活状态，超出预设时长后，电子设备11将语音控制功能由激活状态切换为休眠状态，同时显示屏切换为熄屏状态，同时麦克风图标13采用静态方式进行显示。在熄屏状态下，如果用户需要使用语音控制功能，需要使用上述的方式重新激活语音控制功能，如果电子设备11处于亮屏状态下，用户可以点击麦克风图标13将语音控制功能切换为激活状态。

其中，电子设备11还上可以安装有各种通信客户端应用，例如：语音交互应用、视频录制应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。

其中，电子设备11可以是硬件，也可以是软件。当电子设备11为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当电子设备11为软件时，可以是安装上上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当电子设备101为硬件时，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(Cathode raytubedisplay，简称CR)、发光二极管显示器(Light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(Liquidcrystal display，简称LCD)、等离子显示面板(Plasma displaypanel，简称PDP)等。用户可以利用电子设备11上的显示设备，来查看显示的文字、图片、视频等信息。

需要说明的是，本申请实施例提供的语音转换方法一般由电子设备执行，相应的，语音转换装置一般设置于电子设备中。

本申请实施例提供一种语音转换方法，所述语音转换方法可以应用于电子设备中。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(AugmentedReality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

下面将结合附图2-附图6，对本申请实施例提供的语音转换方法进行详细介绍。其中，本申请实施例中的语音转换装置可以是图2-图6所示的电子设备。

请参见图2，为本申请实施例提供了一种语音转换方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201、采集用户的语音数据，提取语音数据的声学特征。

其中，用户发出语音后，电子设备通过音频采集装置将语音转换为模拟形式的语音信号，音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。然后，电子设备将模拟形式的语音信号经过预处理后得到数字形式的语音数据，预处理过程包括但不限于滤波、放大、采样、模数转换和格式转换。语音数据可以无损格式的语音数据，例如：语音数据的格式为：CD、WAV(波形文件)、FLAC(Free LosslessAudio Codec，无损音频压缩编码)格式等。

其中，电子设备可以采集用户的多段语音数据，多段语音数据都是用户朗读相同的内容生成的，保证用户的声纹特征的稳定性，提高模型训练的效率。

例如：电子设备只能处理采样率为32kHz的单声道的WAV格式的语音数据，电子设备通过单个麦克风采集到16kHz的FLAC格式的语音数据，电子设备根据语音数据进行插值处理，得到采样率为32kHz的语音数据，然后电子设备将FLAC格式转换为WAV格式，以便电子设备进行候选的声纹唤醒。

其中，音频采集设备采集的是时域上的语音信号，为了便于对语音信号进行分析，需要将时域上的语音信号转换为频域上的语音信号，本申请的声学特征可以是频域上的声学特征，声学特征可以使用语谱图来表示。

S202、将声学特征输入到预设的多个声学模型中各自得到一个候选音素序列。

具体的，声学模型用于将语音数据转换为文本数据，多个声学模型各自对应一种语言类型，其中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据。例如：电子设备预存储有3个声学模型：声学模型1、声学模型2和声学模型3，声学模型1对应语言类型1，声学模型2对应语言类型2，声学模型3对应语言类型1和语言类型2的混合。电子设备将声学特征分别输入到多个声学模型各自得到一个候选音素序列，候选音素序列是由多个音素组成的序列。候选音素序列的数量和声学模型的数量相等，即最终得到多个候选音素序列，多个候选音素序列中只有一个候选音素序列是优先的。

S203、计算多个候选音素序列的概率，以及选择概率最大的候选音素序列作为目标音素序列。

在一个实施例中，电子设备从多个候选音素序列中确定一个最准确的候选音素序列的方法可以包括：

在一个或多个实施例中，电子设备计算多个候选音素序列的后验概率，后验概率可以使用先验概率和贝叶斯公式得到。候选音素序列的后验概率表示利用已经得到的候选音素序列修正该后续隐私序列的概率。候选音素序列的先验概率表示尚未进行年龄估测，计算候选音素序列发生的概率。电子设备确定多个候选音素序列中中后验概率最大的候选音素序列，将该后验概率最大的候选音素序列最为目标音素序列。

在一个或多个实施例中，从多个候选音素序列中确定一个最准确的候选音素序列的方法可以包括：

电子设备将声学特征输入到各个声学模型，各自得到一个候选音素序列，电子设备中预存储或预配置有标签候选音素序列，然后分别计算各个候选音素序列和标签候选音素序列之间的相似度，从多个候选音素序列中确定相似度最大的候选音素序列，将该相似度最大的候选音素序列作为目标音素序列。

S204、基于文本转换模型将目标音素序列进行文本转换得到文本数据。

其中，电子设备可以基于语音文本转换模型将目标音素序列进行文本转换得到文本数据，文本转换模型是一种机器学习模型，文本转换模型是利用训练样本集合训练得到的，训练样本集合中包括多个音素序列，训练样本集合中的训练样本都带有标签，电子设备根据机器学习算法挖掘训练样本集合中的训练样本和文本数据之间的内在关系，然后利用训练好的文本转换模型将目标音素序列转换为文本数据。

本申请实施例的方案在执行时，提取语音数据的声学特征，基于多个声学模型对声学特征进行文本转换得到多个候选音素序列，基于概率计算在多个候选音素序列中选取目标音素序列，然后基于文本转换模型对目标音素序列进行文本转换得到文本数据，解决相关技术中使用单一语言类型的声学模型带来的转换的文本数据准确率不高的问题，本申请能自适应的根据不同语言类型的语音类型选择相应的声学模型进行文本转换，提高文本转换的准确率。

请参见图3，为本申请实施例提供了一种语音转换方法的流程示意图。本实施例以语音转换方法应用于电子设备中来举例说明。该语音转换方法可以包括以下步骤：

S301、对多个训练样本集合进行模型训练得到多个声学模型。

其中，声学模型用于生成语音数据对应的音素序列，音素序列是由多个音素组成的序列。在训练声学模型之前，可预先设置一个初始声学模型，初始声学模型中的各个参数进行初始化。例如：在神经网络模型中，神经网络模型的偏置和权重初始化为0。电子设备对预存储或预配置的多个训练样本集合各自进行模型训练得到多个声学模型，多个年龄训练样本集合各自对应不同的语言类型。

应理解，多个声学模型除电子设备训练出来之外，也可以是其他设备训练出来的，然后将训练好的多个声学模型移植到本申请的电子设备上。

其中，多个年龄训练样本集合各自对应不同的语言类型，各个训练样本集合可以包括多个音素序列，音素序列的语音类型是已知的，即训练样本集合中的各个训练样本携带语音类型标签，各个训练样本集合对应的语言类型根据实际需求而定。

在一个或多个实施例中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据。例如：多个声学模型为：中文声学模型、英文声学模型和中英文混合声学模型。中文声学模型的语言类型为中文，即中文声学模型是利用中文的训练样本训练出来的；英文声学模型的语言类型为英文，即英文声学模型是利用英文的训练样本训练出来的；中英文混合声学模型是利用中英文混合的样本训练出来的。

举例来说：参见图4所示的声学模型的训练过程示意图，3个训练样本集合分别为训练样本集合40、训练样本集合41和训练样本集合42，训练样本集合40中训练样本的语言类型为中文，训练样本集合41中训练样本的语音类型为英文，训练样本集合42中训练样本的语言类型为中英文混合，即音素序列中既包括中文的音素又包括英文的音素。将训练样本集合40经过模型训练得到声学模型43，将训练样本集合41经过模型训练得到声学模型44，将训练样本集合42经过模型训练得到声学模型45。

S302、训练文本转换模型。

其中，文本转换模型用于将音素序列转换为文本数据，文本转换模型是一种机器学习模型，文本转换模型是利用训练样本集合训练出来的，训练样本集合包括携带标签的多个音素序列，训练样本集合中每个音素序列对应的文本数据是已知的，电子设备利用机器学习算法挖掘音素序列和文本数据之间的关联关系。然后利用训练好的文本转换模型将训练文本转换为文本数据。

S303、采集用户的语音数据。

其中，用户发出语音后，电子设备通过音频采集装置将语音转换为模拟形式的语音信号，音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。然后，电子设备将模拟形式的语音信号经过预处理得到数字形式的语音数据，预处理过程包括但不限于滤波、放大、采样、模数转换和格式转换等过程。

在一个实施例中，电子设备通过音频采集装置获取用户的语音数据，音频采集装置可以是一个麦克风或多个麦克风组成的麦克风阵列，通过麦克风阵列中的每个麦克风对应一个采集通道，通过对多个采集通道上采集到的语音信号进行合并得到清晰度更高的语音信号，音频采集装置采集到的语音信号是模拟形式的，电子设备需要将该模拟形式的语音信号进行预处理得到数字形式的语音数据。

其中，电子设备通过音频采集装置采集用户发出的语音信号的过程还包括，对根据语音信号的持续时间，将语音信号进行分段，划分为多个语音帧。例如：采集到的语音信号的持续时间为6秒，那么则可切分得到6个1秒长的语音帧。

S304、将语音数据和预设的参考环境噪音数据进行比较，从语音数据中分离出环境噪音数据。

其中，电子设备可以预存储或预配置有参考环境噪音数据，参考环境噪音数据的相关参数可以是电子设备预先采集的。电子设备可以使用将语音控制数据和预设的参考环境噪音数据进行差分运算的方式，从语音控制数据中分离出环境噪音，通过对语音控制数据中唤醒噪音的滤除，能够得到有效的文本数据的正确率。

S305、从去除环境噪声数据的语音数据中提取声学特征。

具体的，音频采集设备采集的是时域上的语音信号，为了便于对语音信号进行分析，需要将时域上的语音信号转换为频域上的语音信号，本申请的声学特征可以是频域上的声学特征，声学特征可以使用语谱图来表示。

在一个实施例中，参见图5所示，提取声学特征的方法可以是预处理、加窗、傅里叶变化和MFCC提取，将最后得到的MFCC特征作为声学特征。预处理过程包括高通滤波，电子设备使用高通滤波器对语音数据进行高通滤波，高通滤波器的滤波性能表达式可以是：H(z)＝1-a×z^-1，a是修正系数，一般取0.95～0.97之间的数值。加窗用于平滑信号的边缘，例如：使用汉明窗对预处理后是进行加窗处理，汉明窗表示为

其中，n为整数，n＝0、1、2、…、M，M为傅里叶变换的点数。MFCC提取从傅里叶变换后的信号提取MFCC特征。例如：使用公式

其中f为傅里叶变化后的频点。

在一个实施例中，提取到的MFCC特征包括多个MFCC特征分量，不同的MFCC特征分量具有的不同的优先级，为了减少电子设备的计算量和计算时延，可以将第2个分量C₂和第16个分量C₁₆之间的15个分量作为最终的声学特征，减少将MFCC特征中所有的分量作为声学特征造成的数据量大和延迟高的问题。

在一个实施例中，可以将提取得到的声学特征进行存储，以便后续的使用声纹个人模型进行声纹唤醒，不需要重新计算声学特征，减少计算量。

S306、将声学特征输入到预设的多个声学模型得到多个候选音素序列。

其中，多个声学模型是S301中训练出的，多个声学模型分别对应不同的语言类型，电子设备分别将声学特征输入到多个声学模型得到多个候选音素序列，多个候选音素序列可能相同，也可能不相同。

在一个或多个实施例中，将声学特征输入到预设的多个声学模型各自得到一个候选音素序列之前，还包括：

对语音数据进行声纹识别，识别出所述用户为预设用户。

在一个或多个实施例中，对语音数据进行声纹识别的方法可以包括：

利用预设的用户的声纹识别模型识别语音数据是否为预设用户，声纹识别模型是利用用户的声纹样本训练出来的。

计算声学特征和用户预设的模板声学特征之间的相似度；在所述相似度大于预设阈值时，确定所述用户为预设用户；或在所述相似度小于或等于预设阈值时，确定所述用户不为预设用户。

S307、计算多个候选音素序列的后验概率。

其中，电子设备计算多个候选音素序列的后验概率，后验概率的计算可以依照现有技术的任意一种方法，例如：可以根据贝叶斯公式和先验概率计算得到后验概率。

例如：可以使用贝叶斯公式

来计算后验概率，其中，中λ_i是第i个声学模型的GMM(gaussianmixture model，高斯混合模型)模型参数，X为输入的语音数据。

S308、将后验概率最大的候选音素序列作为目标音素序列。

S309、基于文本转换模型将目标音素序列进行文本转换得到文本数据。

其中，电子设备利用S302中训练好的文本转换模型将目标音素序列进行文本转换得到文本数据。

本申请实施例的方案在执行时，提取语音数据的声学特征，基于中文声学模、英文声学模型和中英文混合声学模型对声学特征进行文本转换得到多个候选音素序列，基于概率计算在多个候选音素序列中选取目标音素序列，然后基于文本转换模型对目标音素序列进行文本转换得到文本数据，解决相关技术中使用单一语言类型的声学模型带来的转换的文本数据准确率不高的问题，本申请能自适应的根据不同语言类型的语音类型选择相应的声学模型进行文本转换，提高文本转换的准确率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图5，其示出了本申请一个示例性实施例提供的文本转换装置的结构示意图，以下简称装置5。该装置5可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。装置5包括：提取单元501、处理单元502、选择单元503和转换单元504。

提取单元501，用于采集用户的语音数据，提取所述语音数据的声学特征。

处理单元502，用于将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据。

选择单元503，用于计算多个候选音素序列的概率，以及选择概率最大的候选音素序列为目标音素序列。

转换单元504，用于基于文本转换模型将所述目标音素序列进行文本转换得到文本数据。

在一个或多个实施例中多个声学模型包括中文声学模型、英文声学模型和中英文混合模型，中文声学模型是基于包含中文音素序列的训练样本集合训练得到的，英文声学模型是基于包含英语音素序列的训练样本集合训练得到的，中英文混合模型是基于包含中英文混合音素序列的训练样本集合得到的。

在一个或多个实施例中，所述计算多个候选音素序列的概率包括：

基于贝叶斯算法计算多个候选音素序列的后验概率。

在一个或多个实施例中，还包括：识别单元，用于对所述语音数据进行声纹识别，识别出所述用户为预设用户。

在一个或多个实施例中，所述对所述语音数据进行声纹识别，包括：

将所述声学特征输入到预设的声纹识别模型识别所述用户是否为预设用户。

计算所述声学特征和预设的模板声学特征之间的相似度；

在所述相似度大于预设阈值时，确定所述用户为预设用户；或

在所述相似度小于或等于预设阈值时，确定所述用户不为预设用户。

在一个或多个实施例中，所述采集用户的语音数据，以及提取所述语音数据的声学特征包括：

采集用户的语音数据；

将所述语音数据和预设的参考环境噪音数据进行比较，从所述语音数据中分离出环境噪音数据；

从去除环境噪音数据的语音数据中提取声学特征。

需要说明的是，上述实施例提供的装置5在执行语音文本转换方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音转换装置与语音转换方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图4所示实施例的方法步骤，具体执行过程可以参见图2-图4所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的语音转换方法。

请参见图6，为本申请实施例提供了一种终端设备的结构示意图。如图6所示，所述终端设备6(电子设备)可以包括：至少一个处理器601，至少一个网络接口604，用户接口603，存储器605，至少一个通信总线602。

其中，通信总线602用于实现这些组件之间的连接通信。

其中，用户接口603可以包括显示屏(Display)、摄像头(Camera)，可选用户接口603还可以包括标准的有线接口、无线接口。

其中，网络接口604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器601可以包括一个或者多个处理核心。处理器601利用各种借口和线路连接整个终端600内的各个部分，通过运行或执行存储在存储器605内的指令、程序、代码集或指令集，以及调用存储在存储器605内的数据，执行终端600的各种功能和处理数据。可选的，处理器601可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogicArray，PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器601中，单独通过一块芯片进行实现。

其中，存储器605可以包括随机存储器(RandomAccess Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示，作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及声纹唤醒应用程序。

在图6所示的终端设备6中，用户接口603主要用于为用户提供输入的接口，获取用户输入的数据；而处理器601可以用于调用存储器605中存储的触摸操作响应应用程序，并具体执行以下操作：

采集用户的语音数据，以及提取所述语音数据的声学特征；

将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据；

在一个或多个实施例中，多个声学模型包括中文声学模型、英文声学模型和中英文混合模型，中文声学模型是基于包含中文音素序列的训练样本集合训练得到的，英文声学模型是基于包含英语音素序列的训练样本集合训练得到的，中英文混合模型是基于包含中英文混合音素序列的训练样本集合得到的。

在一个或多个实施例中，处理器601执行所述计算多个候选音素序列的概率包括：

基于贝叶斯算法计算多个候选音素序列的后验概率。

在一个或多个实施例中，处理器601还用于执行：

对所述语音数据进行声纹识别，识别出所述用户为预设用户。

在一个或多个实施例中，处理器601执行所述对所述语音数据进行声纹识别，包括：

计算所述声学特征和预设的模板声学特征之间的相似度；

在一个或多个实施例中，处理器601执行所述采集用户的语音数据，以及提取所述语音数据的声学特征包括：

采集用户的语音数据；

从去除环境噪音数据的语音数据中提取声学特征。

在本申请实施例中，电子设备提取语音数据的声学特征，基于多个声学模型对声学特征进行文本转换得到多个候选音素序列，基于概率计算在多个候选音素序列中选取目标音素序列，然后基于文本转换模型对目标音素序列进行文本转换得到文本数据，解决相关技术中使用单一语言类型的声学模型带来的转换的文本数据准确率不高的问题，本申请能自适应的根据不同语言类型的语音类型选择相应的声学模型进行文本转换，提高文本转换的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

采集用户的语音数据，提取所述语音数据的声学特征；

2.根据权利要求2所述的方法，其特征在于，所述第一语音类型为中文，所述第二语音类型为英文。

3.根据权利要求1或2所述的方法，其特征在于，所述计算多个候选音素序列的概率包括：

基于贝叶斯算法计算多个候选音素序列的后验概率。

4.根据权利要求1所述的方法，其特征在于，所述将声学特征输入到预设的多个声学模型各自得到一个候选音素序列之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述语音数据进行声纹识别，包括：

将所述声学特征输入到预设的声纹识别模型进行识别。

6.根据权利要求4所述的方法，其特征在于，所述对所述语音数据进行声纹识别，包括：

计算所述声学特征和预设的模板声学特征之间的相似度；

7.根据权利要求1至6所述的方法，其特征在于，所述采集用户的语音数据，以及提取所述语音数据的声学特征包括：

采集用户的语音数据；

从去除环境噪音数据的语音数据中提取声学特征。

8.一种语音转换装置，其特征在于，所述装置包括：

提取单元，用于采集用户的语音数据，提取所述语音数据的声学特征；

处理单元，用于将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。