CN110223673A

CN110223673A - 语音的处理方法及装置、存储介质、电子设备

Info

Publication number: CN110223673A
Application number: CN201910540082.1A
Authority: CN
Inventors: 聂镭; 李睿; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-10
Anticipated expiration: 2039-06-21
Also published as: CN110223673B

Abstract

本发明提供了一种语音的处理方法及装置、存储介质、电子设备，其中，该方法包括：将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素，计算所述预测音素与所述语音的标准音素之间的音素相似度，基于所述音素相似度确定所述语音是否满足采集要求，可见，对于语音的采集不需要先进行语音识别得到该语音的文本信息，而是通过训练的音素预测模型确定语音是否满足采集要求，从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息，由于语音识别不准确，导致语音样本收集效率低、成本高的技术问题，达到了语音样本收集效率高和低成本的效果。

Description

语音的处理方法及装置、存储介质、电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种语音的处理方法及装置、存储介质、电子设备。

背景技术

现有技术对语音数据进行采集的时候，需要对被收集语音的质量和内容进行识别判断。确保所收集的语音是有质量的，语音的内容要符合要求。但是，完全绝对的语音音素匹配实际上是不可行的。原因有二，首先，因为我国的地域广大，各地口音众多，完全绝对的语音匹配不能满足同时收集各地口音不一致的语音。其次，我们的收集需求不要求100%完全匹配通过时（如，训练命令词和唤醒词的神经网络）。语音音素完全匹配会损失掉大量的语音样本，造成语音样本收集效率低和增加语音收集的成本。

此外，现有技术中公开了一种通过对语音数据进行语音识别得到与语音数据对应的目标文本，再将目标文本与初始语料进行文本相似度匹配，得到目标文本与初始语料之间的文本相似度，进而根据该文本相似度来确定目标文本对应的语音数据是否符合要求。但是，此种方法依赖于语音识别的准确度，当语音识别不准确时（特别是带有口音的语音数据），会造成大量原本合格的语音样本的损失，造成语音样本收集效率低和增加语音收集的成本。

针对相关技术中的上述问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种语音的处理方法及装置、存储介质、电子设备，以至少解决相关技术中语音样本收集效率低、成本高的技术问题。

根据本发明的一个实施例，提供了一种语音的处理方法，包括：将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素；对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度；基于所述音素相似度确定所述语音是否满足采集要求。

根据本发明的另一个实施例，提供了一种语音的处理装置，包括：音素预测模块，用于将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素；音素相似度计算模块，用于对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度；判断模块，用于基于所述音素相似度确定所述语音是否满足采集要求。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素，计算所述预测音素与所述语音的标准音素之间的音素相似度，基于所述音素相似度确定所述语音是否满足采集要求，可见，对于语音的采集不需要先进行语音识别得到该语音的文本信息，而是通过训练的音素预测模型确定语音是否满足采集要求，从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息，由于语音识别不准确，导致语音样本收集效率低、成本高的技术问题，达到了语音样本收集效率高和低成本的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的语音的处理方法的终端的硬件结构框图；

图2是根据本发明实施例的语音的处理方法流程图；

图3是根据本发明实施例的语音的处理方法的音素模型的示意图；

图4是根据本发明实施例的语音的处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音的处理方法的终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音的处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音的处理方法，图2是根据本发明实施例的语音的处理方法流程图，如图2所示，该流程包括如下步骤：

步骤S100，将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素；

步骤S200，对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度；

步骤S300，基于所述音素相似度确定所述语音是否满足采集要求。

通过上述步骤S100至步骤S300，通过本发明，将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素，计算所述预测音素与所述语音的标准音素之间的音素相似度，基于所述音素相似度确定所述语音是否满足采集要求，可见，对于语音的采集不需要先进行语音识别得到该语音的文本信息，而是通过训练的音素预测模型确定语音是否满足采集要求，从而解决了相关技术中语音样本收集需要先对语音进行语音识别转化为文本信息，由于语音识别不准确，导致语音样本收集效率低、成本高的技术问题，达到了语音样本收集效率高和低成本的效果。

下面将结合具体的实施方式对各个步骤进行详细的说明。

步骤S100，将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素。

需要说明的是，本实施例中涉及到的语音可以是中文、韩文、日文等等，可以根据用户的需要进行设置。语音数据可以是wav，mp3等可以播放形式的，也可以是以数字形式保存的csv，此处没有限制。

在本申请的一些实施例中，在将语音输入到音素预测模型之前，先对语音进行预处理得到预算后的语音数据。预处理操作包括：对语音进行预加重、分帧、加窗等预处理操作。通过预处理，消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响，尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

在本申请的一些实施中，步骤S100包括以下步骤：

步骤S100-1，对语音进行分帧处理；

例如输入一个长2秒的音频，音频的内容是“早上好”的语音，按25毫秒作为一帧，10毫秒作为步长，经过分帧处理后，一共得到199帧的音频数据。

步骤S100-2，将分帧后的每一帧语音输入语音特征提取模块，获得所述每一帧语音的第一特征参数；

将分帧后的音频数据输入语音音频提取模块，得到提取出的语音特征参数。语音特征参数可以是MFCC，也可以是梅尔功率谱，还可以是其它的语音特征参数。提取特征的方法，可以是直接使用常规参数定义好的滤波器组，也可以是将滤波器组拼接到CNN网络中，通过神经网络反向传播来训练参数，将它作为神经网络的一层。

步骤S100-3，将所述每一帧语音的第一特征参数输入所述预先训练好的音素预测模型，得到每一帧语音的音素预测结果；

步骤S100-4，根据所述音素预测结果确定所述语音对应的预测音素。

在本申请的一些实施例中，步骤S100-3的预测结果包括：音素预测类别和音素预测向量。

在本实施中，使用音素来表达音频的内容，例如音频的内容是“早上好”的语音，音频对应的音素表达为“z,ao,sh,ang,h,ao”6个有序的音素。对于一段音频如“早上好”，长2秒的音频，我们按25毫秒作为一帧，10毫秒作为步长，共199帧的音频数据，经过音素预测模型，输出的结果为199个音素预测结果，每帧的音素预测结果包含两个内容:{音素预测类别，音素预测向量}，结果以形如{label:“ao”，vector：“[0.23 , 0.55 ... 0.772]”}。

在此实施例中，步骤S100-4，根据所述音素预测结果确定所述语音对应的预测音素包括：

步骤S100-5，根据所述音素预测类别和所述音素预测向量确定所述语音对应的预测音素。

在本申请的一些实施例中，步骤S100-5包括：将所述音素预测类别和所述音素预测向量输入集束搜索模型或者贪婪搜索模型，得到所述语音对应的预测音素。

例如：199帧的预测结果为“zzzzzzzzzzz...zzzzzaosh sh...shshanghao”（如上所述，预测结果中每一个音素对应一个音素预测向量，），使用Beam search（集束搜索模型）或者是greedy search（贪婪搜索模型）得到结果“z,ao,sh,ang,h,ao”。

在本申请的一些实施例中，步骤S100-5包括：根据每一类的所述音素预测类别，对其对应的所述音素预测向量进行求平均处理，得到所述语音对应的预测音素。

在本申请的一些实施例中，步骤S100-5包括：将所述音素预测类别和所述音素预测向量进行聚类处理，得到所述语音对应的预测音素。

例如，可以是求kmeans（K均值聚类算法）的聚类中心，也可以是先排除离群点的向量再按加权求聚类中心。

在本申请的一些实施例中，所述音素预测模型包括述音素预测模型包括语音特征提取模块、卷积神经网络、长短时记忆网络和CTC解码模块。

如图3所示，其为根据本发明实施例的语音的处理方法的音素模型的示意图。如图3所示，语音特征提取模块为MFCC提取模块（MFCC，MelFrequencyCepstrumCoefficient，梅尔频率倒谱系数），其用于对语音进行MFCC特征参数的提取。提取MFCC特征的过程为现有技术，在此不再详述。卷积神经网络（CNN ，Convolutional Neural Networks,）对MFCC特征进行一步地处理。CNN擅长减小频域变化，可以更好地提取语音特征参数，同时从实用性上考虑，在音素预测模型加入CNN，相对于单纯使用MFCC特征来说，比较容易实现大规模并行化运算，提高模型的运行效率。CNN后面接长短时记忆网络（LSTM，Long Short Term MemoryNetwork)，LSTM可以提供长时记忆。CNN用来提取深度特征，LSTM用来序列的特征识别，二者无缝结合，用在音素预测上性能更好，并且可以提高预测精度。音素预测模型还包括CTC解码模块（CTC，Connectionist temporal classification），CTC是一种损失函数，即CTC-loss，它用来衡量输入的序列数据经过神经网络之后，和真实的输出相差有多少，损失函数的结果，进行逐层的反向传播，调整LSTM参数，调整CNN参数，最后调整为MFCC提取模块的参数，以此完成对网络的训练。下面对模型的训练进行详细的说明。

比如输入一个长2秒的音频，音频的内容是“早上好”的语音，按25ms作为一帧，10ms作为步长，共199帧的音频数据。经过音素预测模型处理之后，出来的还是序列长度是199的数据。音素预测模型输出的结果都是“z,ao,sh,ang,h,ao”这6个有序的音素，但是因为不同人的发音特点不一样，比如，有的人说的快有的人说的慢，原始的音频数据在经过音素预测模型预测之后，得到的结果可能是：“zzaaaaooooshshshshang……hhhaaaaoooo”(长度是199)，或者结果可能是：“zzzzzaaaaaaooooshshshshang……hhhhhaaaaaooo”(长度是199)，这两种结果都是属于正确的计算结果。显而易见，长度为199的数据，最后可以对应上“zaoshanghao”这个发音顺序的结果是非常多的。使用CTC在这种序列有多种可能性的情况下，可以计算和最后真实序列值的损失值。

训练过程详细描述如下：

训练集合为S={(x₁,z₁),(x₂,z₂),...(x_N,z_N)}, 表示有N个训练语音样本，x是输入语音样本，z是对应的真实输出的label（即语音样本的标签）。一个语音样本的输入是一个序列，输出的label也是一个序列。对于其中一个语音样本(x,z)，x=(x₁,x₂,x₃,...,x_T)表示一个长度为T帧的语音数据，每一帧的语音数据是一个维度为m的向量，即每个x_i∈R^m。 x_i可以理解为对于一段语音，每25ms作为一帧，10ms作为步长，其中第i帧的数据经过MFCC和CNN计算后得到的结果。z=(z₁,z₂,z₃,...z_U)表示这段样本语音对应的正确的音素，即语音样本的label。比如，一段语音“早上好”的声音，经过MFCC和CNN计算后，得到语音特征x，对应的音素信息是z=[z,ao,sh,ang,h,ao]。特征x在经过LSTM的计算之后，得到音素的后验概率y。(k=1,2,3,...n，t=1,2,3,...,T)表示在t时刻，第k个发音音素的概率，其中，音素的种类个数一共n个， k表示第k个音素，在一帧的数据上所有的音素概率加起来为1，即 =1,≥0。此外，每一帧的预测结果为{k，v_t}，其中，k表示音素预测类别，即， k=1,2,3,...n，n表示音素的种类个数一共为n个，v_t为音素预测向量，即音素预测结果为第k个音素的向量。即每一帧的音素预测结果包含两个内容:{音素预测类别，音素预测向量}，结果以形如{label:“ao”，vector：“[0.23 , 0.55 ... 0.772]”}。音素预测模型数据处理的过程可以看做是对输入的语音特征数据x做了变换N_w:(R^m)^T→(Rⁿ)^T，其中N_w表示LSTM的变换，w表示LSTM中的参数集合。以一段“早上好”的语音为例，经过MFCC和CNN特征提取后产生了199帧，每帧含有12个特征，即x∈R^199×6(这里以6个音素为例)，矩阵里的每一列之和为1。经过LSTM变换得到后验概率y，后面基于CTC-loss的训练就是根据后验概率y计算得到的,即根据反向传播算法完成整个音素预测模型的训练。

本申请实施提供的MFCC+CNN+LSTM+CTC的音素预测模型，具有以下优点：

1.CNN擅长减小频域变化，可以更好地提取语音特征参数，同时从实用性上考虑，在音素预测模型加入CNN，相对于单纯使用MFCC特征来说，比较容易实现大规模运算，提高模型的运行效率；

2.CNN用来提取深度特征，LSTM用来对序列的特征识别，二者结合，用在音素预测上性能更好，并且可以提高预测精度；

3.模型的输出不仅可以得到整段语音的音素，同时还可以输出每一帧语音的预测结果，其为后续的模糊匹配提供了基础。

步骤S200，对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度。

将语音通过音素预测模型得到预测音素后，将预测音素与标准的音素进行相似度匹配，从而得到音素相似度。

在本申请的一些实施例中，步骤S200对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度包括以下步骤：

步骤S200-1，计算所述预测音素与所述语音的标准音素的编辑距离d；

在本实施例中，通过编辑距离来计算预测音素的相似度。编辑距离是针对两个字符串（例如英文字）的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。例如：给定 2 个字符串“a”，“b”，编辑距离是将 a 转换为 b 的最少操作次数，操作只允许如下 3 种：

1. 插入一个字符，例如：f，j -> f，x，j

2. 删除一个字符，例如：f，x，j -> f，j

3. 替换一个字符，例如：j，x，j -> f，y，j

步骤S200-2，确定被编辑的音素，并根据所述被编辑的音素的音素预测向量计算所述被编辑的音素的余弦距离c；

对于每个音素的音素预测向量，可以直接计算余弦距离来衡量音素间的相似度。

步骤S200-3，根据所述余弦距离d得到所述预测音素与所述语音的标准音素之间的音素相似度θ。

在本申请的一些实施例中，当所述编辑距离d≥2时，通过以下方法步骤确定所述得到所述预测音素与所述语音的标准音素之间的音素相似度θ：

步骤S200-4，分别根据所述被编辑的音素的音素预测向量计算所述被编辑的音素的余弦距离c₁,c₂…w_d,其中d≥2；

步骤S200-5通过以下方式计算所述预测音素与所述语音的标准音素之间的音素相似度θ：

θ=[ (1-c₁)+(1-c₂) +…+(1- w_d)] / max（L₁，L₂）

其中，L1为所述预测音素的音素长度，L2为所述语音的标准音素的音素长度。

下面举例进行说明：音频的内容是“早上好”的语音，其标准的音素为“z,ao,sh,ang,h,ao”，将语音输入训练好的音素预测模型进行处理，输出预测结果为预测音素“z,u,sh,ang,w,ao”。计算预测音素“z,u,sh,ang,w,ao”与所述语音的标准音素“z,ao,sh,ang,h,ao”的编辑距离d=2，即将预测音素“z,u,sh,ang,w,ao”变成标准音素“z,ao,sh,ang,h,ao”，最小编辑次数为2，即编辑距离为2。然后，再比较被编辑的音素，它们分别是“ao”-->“u”,和“h”-->“w”，计算余弦距离c，根据“ao”,“u”,“h”,“w”的音素预测向量，分别计算“ao”和“u”余弦相似度c₁，和“h”和“w”的余弦相似度c₂，预测音素与标准音素的音素长度L₁与L₂均为2，因此，预测音素与标准音素之间的音素相似度θ为：[ (1-c₁)+(1-c₂)] / 2。

通过上述计算预测音素与标准音素的编辑距离的方法，可以对语音进行模糊匹配，其相对于仅仅是计算预测音素与标准音素之间的向量相似度的方法，其在保证了所收集的语音准确性的同时，使得语音收集具有更宽的误差范围，进而使得语音样本收集效率高和低成本。

在计算出预测音素与标准音素之间的音素的音素相似度θ后，可以与预设的相似度阈值进行比较，若音素相似度θ大于等于预设的相似度阈值，则确定该语音为符合采集要求的语音。

实施例2

在本实施例中还提供了一种网页的处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的语音的处理装置的结构框图，如图4所示，该装置包括：音素预测模块100，用于将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素；音素相似度计算模块200，与音素预测模块100耦合连接，用于对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度；判断模块300，与音素相似度计算模块200耦合连接，用于基于所述音素相似度确定所述语音是否满足采集要求。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音的处理方法，其特征在于，包括：

将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素；

对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度；

基于所述音素相似度确定所述语音是否满足采集要求。

2.根据权利要求1所述的方法，其特征在于，将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素包括：

对语音进行分帧处理；

将分帧后的每一帧语音输入语音特征提取模块，获得所述每一帧语音的第一特征参数；

将所述每一帧语音的第一特征参数输入所述预先训练好的音素预测模型，得到每一帧语音的音素预测结果；

根据所述音素预测结果确定所述语音对应的预测音素。

3.根据权利要求2所述的方法，其特征在于，所述预测结果包括：音素预测类别和音素预测向量；

根据所述音素预测结果确定所述语音对应的预测音素包括：

根据所述音素预测类别和所述音素预测向量确定所述语音对应的预测音素。

4.根据权利要求3所述的方法，其特征在于，根据所述音素预测类别和所述音素预测向量确定所述语音对应的预测音素包括：

将所述音素预测类别和所述音素预测向量输入集束搜索模型或者贪婪搜索模型，得到所述语音对应的预测音素；或者，

根据每一类的所述音素预测类别，对其对应的所述音素预测向量进行求平均处理，得到所述语音对应的预测音素；或者，

将所述音素预测类别和所述音素预测向量进行聚类处理，得到所述语音对应的预测音素。

5.根据权利要求1-4任一所述的方法，其特征在于，所述音素预测模型包括语音特征提取模块、卷积神经网络、长短时记忆网络和CTC解码模块。

6.根据权利要求1-5所述的方法，其特征在于，对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度包括：

计算所述预测音素与所述语音的标准音素的编辑距离d；

确定被编辑的音素，并根据所述被编辑的音素的音素预测向量计算所述被编辑的音素的余弦距离c；

根据所述余弦距离c得到所述预测音素与所述语音的标准音素之间的音素相似度θ。

7.根据权利要求6所述的方法，其特征在于，当所述编辑距离d≥2时，通过以下方法步骤确定所述得到所述预测音素与所述语音的标准音素之间的音素相似度θ：

分别根据所述被编辑的音素的音素预测向量计算所述被编辑的音素的余弦距离w₁,w₂…w_d,其中d≥2；

通过以下方式计算所述预测音素与所述语音的标准音素之间的音素相似度θ：

θ=[ (1-c₁)+(1-c₂) +…+(1-w_d)] / max（L₁，L₂）

其中，L₁为所述预测音素的音素长度，L₂为所述语音的标准音素的音素长度。

8.一种语音的处理装置，其特征在于，包括：

音素预测模块，用于将语音输入预先训练好的音素预测模型，获得所述语音对应的预测音素；

音素相似度计算模块，用于对所述预测音素与所述语音的标准音素进行音素相似度匹配，得到所述预测音素与所述语音的标准音素之间的音素相似度；

判断模块，用于基于所述音素相似度确定所述语音是否满足采集要求。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。