CN112185363A

CN112185363A - 音频处理方法及装置

Info

Publication number: CN112185363A
Application number: CN202011131544.3A
Authority: CN
Inventors: 高强; 王卓然; 王宏伟; 夏龙; 刘前; 闫永超; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-05
Anticipated expiration: 2040-10-21
Also published as: CN112185363B

Abstract

本说明书提供音频处理方法及装置，其中所述音频处理方法包括：获取包含至少两个语种的音频文件；确定所述音频文件对应的特征矩阵，并将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本；根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，并确定所述音频文件的音频时长；基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速；实现对存在混合语种的语音语速进行精准的确定，进一步满足不同业务场景的使用需求。

Description

音频处理方法及装置

技术领域

本说明书涉及音频处理技术领域，特别涉及音频处理方法及装置。

背景技术

随着互联网技术的发展，语音识别技术被应用到了更为广泛的应用场景，如即时通讯场景、视频播放场景或音频播放场景等等，都会涉及语音识别技术的应用，而语速作为感情表达的方式之一，不仅能够反映用户的讲话节奏，还是用户调整表述方式的一种手段。在语音处理场景中，识别语音中用户讲话的语速是处理语音的重要手段，现有技术在识别语音中用户讲话的语速时，通常是根据音节速率来估计讲话用户的语速，但是在不同的语种中一个音节并不一定表达一个字符，这就导致估计混合语音时(包含至少两个语种)出现估计语速和真实语速不一致的问题，从而影响下游的业务处理，因此亟需一种有效的方案以解决该问题。

发明内容

有鉴于此，本说明书实施例提供了一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种音频处理方法，包括：

获取包含至少两个语种的音频文件；

确定所述音频文件对应的特征矩阵，并将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本；

根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，并确定所述音频文件的音频时长；

基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速。

可选的，所述将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本，包括：

将所述特征矩阵输入至所述语音识别模型，通过所述语音识别模型中的编码器进行特征编码，输出所述音频文件的特征序列；

将所述特征序列引入注意力机制之后通过所述语音识别模型中的解码器进行解码，输出所述音频文件的目标特征序列；

通过所述语音识别模型中的输出层对所述目标特征序列进行处理，输出包含所述语种识别符的所述目标文本。

可选的，所述确定所述音频文件对应的特征矩阵，包括：

对所述音频文件进行分帧处理，获得多个音频帧；

确定所述多个音频帧分别对应的特征向量；

基于所述多个音频帧分别对应的特征向量生成所述音频文件对应的所述特征矩阵。

可选的，所述语音识别模型通过如下方式训练：

获取样本音频文件，并对所述样本音频文件进行分帧处理，获得多个样本音频帧；

确定所述多个样本音频帧分别对应的样本特征向量，基于所述样本特征向量组成所述样本音频文件对应的样本特征矩阵；

确定所述样本音频文件对应的样本文本，并按照所述样本文本中包含的语种类型在所述样本文本中添加语种识别符，获得样本目标文本；

基于所述样本特征矩阵和所述样本目标文本训练初始语音识别模型，获得所述语音识别模型。

可选的，所述根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，包括：

确定所述语种识别符中与所述目标文本包含的至少两个语种分别对应的语种子识别符；

按照所述至少两个语种分别对应的语种子识别符对所述目标文本进行归类，获得与所述至少两个语种分别对应的目标子文本；

识别所述至少两个语种分别对应的目标子文本中包含的字符，根据识别结果确定所述至少两个语种分别对应的目标字符。

可选的，所述确定所述音频文件的音频时长，包括：

构建音频文件对应的音量幅度特征，并根据所述音量幅度特征确定所述音频文件中的静默音频片段；

确定所述静默音频片段的静默音频时长，以及所述音频文件的音频总时长；

计算所述音频总时长与所述静默音频时长二者的差值，获得所述音频时长。

可选的，所述基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速，包括：

确定所述至少两个语种分别对应的目标字符的字符数量，并将所述至少两个语种分别对应的目标字符的字符数量进行求和，获得总字符数量；

计算所述总字符数量和所述音频时长二者的比值，获得所述音频文件中声源的语速。

可选的，所述基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速步骤执行之后，还包括：

确定所述音频文件中所述至少两个语种分别对应的语种音频片段；

按照所述语速对所述至少两个语种分别对应的语种音频片段进行调整，根据调整结果生成目标音频文件。

可选的，所述确定所述多个音频帧分别对应的特征向量，包括：

对所述多个音频帧进行加窗处理，并根据加窗处理结果构建所述多个音频帧对应的第一频谱；

通过预设的滤波组将所述第一频谱转换为第二频谱，并对所述第一频谱进行倒谱处理，获得所述多个音频帧分别对应的特征向量。

根据本说明书实施例的第二方面，提供了一种音频处理装置，包括：

获取模块，被配置为获取包含至少两个语种的音频文件；

处理模块，被配置为确定所述音频文件对应的特征矩阵，并将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本；

确定模块，被配置为根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，并确定所述音频文件的音频时长；

计算模块，被配置为基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取包含至少两个语种的音频文件；

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述音频处理方法的步骤。

本说明书提供的音频处理方法，在获取到包含至少两个语种的音频文件后，将确定所述音频文件对应的特征矩阵，之后将特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本，实现了通过结合语种识别符精准的对音频文件中的多个语种进行划分，之后根据语种识别符确定不用语种分别对应的目标字符，同时确定音频文件的音频时长，最后基于不同语种分别对应的目标字符和音频时长进行音频文件中声源的语速计算，可以有效的避免语速估计的误差，而且结合语种识别符识别不同语种对应的字符，进一步提高了针对多语言的混合音频语速的计算精准度，更加方便后续音频处理过程的有效进行。

附图说明

图1是本说明书一实施例提供的一种音频处理方法的流程图；

图2是本说明书一实施例提供的一种音频处理方法中的模型处理过程的结构示意图；

图3是本说明书一实施例提供的一种音频处理方法中的模型结构示意图；

图4是本说明书一实施例提供的一种应用于中英文混合音频识别场景中的音频处理方法的处理流程图；

图5是本说明书一实施例提供的一种音频处理装置的结构示意图；

图6是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

语速：用户的讲话速度；音素：是根据语音的自然属性划分出来的最小语音单位。

音节速率：用户讲话的过程中，发音的音节速率，单位是：音节/分钟。

卷积神经网络(CNN，Convolutional Neural Network)：一种神经网络；是一类包含卷积计算且具有深度结构的前馈神经网络。

前向神经网络(DNN，Dense Neural Network)：一种深度神经网络。

循环神经网络(RNN，Recurrent Neural Network)：一种神经网络；是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。

CDNN：一种神经网络，由CNN接DNN实现。

BLSTM(Bidirectional Long Short-Term Memory)：一种RNN，是由前向LSTM(LongShort-Term Memory)与后向LSTM组合而成。

Encoder-Decoder：一种网络架构，结合RNN使用，可以将一种序列映射为另外一种序列，两种序列的长度可以不等长。

注意力机制(Attention)：用以提高神经网络效果的一种机制。

中英文混合音频：说话人说话的内容既包含中文，也包含英文的音频。

在本说明书中，提供了一种音频处理方法，本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，由于估计出音频中用户讲话的语速无法精准的反应用户真实的讲话语速，因此将会导致后续音频处理时存在一定的误差；而涉及到混合音频时(音频中包含至少两个语种)，由于不同的语种中单个音节并不一定对应单个字符，这就导致估计语速的精准度再度降低，导致后续误差变得更大，从而影响后续音频处理过程的正常进行，因此精准的计算出混合音频中用户讲话的语速是较为重要的。

本说明书提供的音频处理方法，为了能够提高语速计算精准度，在获取到包含至少两个语种的音频文件后，将确定所述音频文件对应的特征矩阵，之后将特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本，实现了通过结合语种识别符精准的对音频文件中的多个语种进行划分，之后根据语种识别符确定不用语种分别对应的目标字符，同时确定音频文件的音频时长，最后基于不同语种分别对应的目标字符和音频时长进行音频文件中声源的语速计算，可以有效的避免语速估计的误差，而且结合语种识别符识别不同语种对应的字符，进一步提高了针对多语言的混合音频语速的计算精准度，更加方便后续音频处理过程的有效进行。

图1示出了根据本说明书一实施例提供的一种音频处理方法的流程图，具体包括以下步骤：

步骤S102，获取包含至少两个语种的音频文件。

具体实施时，由于不同的语种在发音时对应的音节数目不同，因此在计算用户的语速时，如果按照音节进行计算就会导致语速计算不精准的问题，尤其涉及到混合音频时，如果按照单个音节对应单个字符的方式进行语速的计算，计算出的语速与真实语速的误差将会变得更大；比如音频文件为中英文混合音频，由于中文一般都是一个汉字对应一个音节，而英文存在一个单词对应一个音节，也存在一个单词对应两个或两个以上音节的情况，此时采用音节语速计算方法对中英文混合音频中用户讲话的语速进行计算时，就无法满足语速计算的精准度，从而影响后续音频处理过程。

基于此，本申请通过将包含至少两个语种的音频文件进行语种识别，并按照语种进行目标字符的确定，从而可以实现精准的计算音频中声源的语速，不仅能够完成对混合音频的语速识别，还能够保证后续音频处理过程的正常进行，进一步满足音频处理场景的语速精准度计算的需求。

进一步的，所述音频文件具体是指包含至少两个语种的音频，所述至少两个语种具体是指具有不同表达方式的语言，如汉语(中文)，英语(英文)，韩语(韩文)等等；本实施例将以所述音频文件包含中文和英文两个语种为例，对所述音频处理方法进行描述，包含其他语种的处理过程均可参见本实施相应的描述内容，在此不作过多赘述。

步骤S104，确定所述音频文件对应的特征矩阵，并将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本。

具体的，在上述获取到包含至少两个语种的音频文件的基础上，进一步的，为了能够得到满足使用需求的音频文件，将需要计算音频文件中用户讲话的语速，从而实现对音频文件进行调整；而在此过程中，由于用户讲话的方式是中英文混合表达，因此就需要按照语种类型对音频文件中的字符进行划分，从而按照语种计算语速，能够有效的提高语速计算的精准度。

基于此，首先将确定所述音频文件对应的特征矩阵，所述特征矩阵具体是指音频文件中每帧音频的梅尔频谱倒数系数特征(MFCC(Mel Frequency Cepstrum Coefficient)特征)组成的矩阵；其次将特征矩阵输入至所述语音识别模型进行处理，实现将音频文件转换为文本的同时，按照音频文件中包含的语种类型添加语种识别符，从而可以根据语种识别符将不同语种对应的子文本进行区分，方便后续统计不同语种对应的字符，其中，所述语音识别模型具体是指具备语种识别能力的语音识别模型，即该模型不仅可以实现语音识别，同时也可以实现对语种的类型进行识别，相应的，所述语种识别符包含表达语种的符号和表达音频结束的符号，即表达语种的符号可以确定字符后相连接的字符属于哪个语种，表达音频结束的符号可以确定当前音频文件中用户的讲话内容结束。

需要说明的是，不同的语种将对应不同的语种子识别符，并且语种子识别符不重复，从而方便后续进行不同语种的字符的统计；而所述语种子识别符可以根据实际需求进行设定，如将识别中文的语种子识别符设定为[CN]，将识别英文的语种子识别符设定为[EN]，将识别韩文的语种子识别符设定为[KR]等等，相应的，表达音频结束的符号可以设定为[E]等，具体设置语种子识别字符时可以根据实际需求进行设定，本实施例在此不作任何限定。

例如，参见图2所示，用户讲话的中英文混合音频对应的内容是“greta小朋友晚上好，我们今天学习了animals”，此时确定中英文混合音频对应的特征矩阵S，并将特征矩阵S输入至语音识别模型进行处理，获得包含语种子识别符的中英文文本为“[EN]greta[CN]小朋友晚上好，我们今天学习了[EN]animals[E]”，其中[EN]表示英文识别符，[CN]表示中文识别符，[E]表示音频结束符，在获得包含语种识别符的中英文文本后，再进行后续计算用户的语速，以提高语速计算的精准度。

进一步的，由于音频文件未经处理无法作为模型的输入，因此需要确定所述音频文件对应的特征矩阵，再用于语音识别模型，本实施例中，确定所述特征矩阵的过程如下所述：

对所述音频文件进行分帧处理，获得多个音频帧；

通过预设的滤波组将所述第一频谱转换为第二频谱，并对所述第一频谱进行倒谱处理，获得所述多个音频帧分别对应的特征向量；

具体的，由于音频文件中的语音是在一定的范围内不停变动的，没有固定的特征无法进行处理，因此此时将对所述多个音频帧进行加窗处理，从而解决各个音频帧中信号不连续的问题，实际应用中，加窗处理时所使用窗函数可以是方窗函数、汉明窗函数或汉宁窗函数；所述第一频谱具体是指通过傅里叶变换后得到的频谱，所述第二频谱具体是指对第一频谱通过Mel滤波器组进行处理后得到的Mel频率，所述特征向量具体是指每个音频帧分别对应的MFCC特征向量。

基于此，首先对所述音频文件进行分帧处理，获得所述多个音频帧，其次采用窗函数对各个音频帧进行加窗处理，并根据加窗处理结果对每个短时分析窗进行傅里叶变换，获得所述多个音频帧对应的第一频谱，再次将得到的第一频谱通过Mel滤波器组进行转换，获得第二频谱，在第二频谱上进行倒谱分析(取对数，做逆变换，即通过DCT(DiscreteCosine Transform)离散余弦变换来实现，取DCT的第2个到第13个系数作为MFCC系数)从而得到Mel频谱倒谱系数MFCC，Mel频谱倒谱系数MFCC即为每个音频帧对应的特征向量，最后根据多个音频帧分别对应的特征向量即可生成所述音频文件对应的特征矩阵，以作为模型的输入，用于进行语种识别处理。需要说明的是，分帧处理时可以根据实际需求设定每帧的长度，长度范围可以设置在10～30ms之间。

综上，在对包含至少两个语种的音频文件进行处理之前，将抽取每帧音频的梅尔频谱倒数系数特征，并基于梅尔频谱倒数系数特征生成音频文件对应的特征矩阵作为模型的输入，有效的提高了音频处理效率。

更进一步的，在上述确定所述音频文件对应的特征矩阵之后，此时需要将所述特征矩阵输入至语音识别模型进行处理，从而获得满足后续使用需求的目标文本，而在此过程中，为了能够满足对多语种的音频文件进行精准的识别，输出满足使用需求的目标文本，需要对模型进行有针对性的训练才能够完成上述过程，本实施例中，所述语音识别模型通过如下方式训练：

具体的，由于所述语音识别模型不仅需要完成语种的识别，还需要将音频转换为文本，因此语音识别模型需要满足通过深度神经网络将音频映射到字符序列；参见图3所示，所述语音识别模型可以采用Encoder-Decoder架构，并使用神经网络BLSTM(Bidirectional Long Short-Term Memory)，在Encoder和Decoder之间引入注意力机制(Attention)，从而实现在对音频文件对应的特征矩阵进行处理时，可以生成与所述音频文件对应的目标文本，并且目标文本中将具有划分语种的语种识别符，从而方便后续计算音频中用户讲话的语速；其中MFCC1，MFCC2……MFCC m表示各个音频帧对应的梅尔频谱倒数系数特征，作为语音识别模型的输入，Token1，Token2……Token n表示音频文件映射的字符序列。需要说明的是，在Encoder层和Decoder层都设置有多层BLSTM，从而实现更加精准的对音频文件中映射的字符进行识别。

基于此，在构建出满足使用需求的初始语音识别模型之后，此时将对所述初始语音识别模型进行训练：首先获取样本音频文件，其中样本音频文件为包含多个语种的音频文件，并且由于不同的音频中包含的语种类型可能不同，因此可以针对不同的语种组合的音频训练不同的语音识别模型，从而满足应用到更多的语速计算场景中；其次对样本音频文件进行分帧处理，获得多个样本音频帧，可以将每个样本音频帧设置为10ms，并抽取每个样本音频帧分别对应的样本特征向量(梅尔频谱倒数系数特征)生成样本特征矩阵作为模型的输入；之后确定样本音频文件对应的样本文本，同时按照样本文本中包含的语种对其添加语种子识别符，获得样本目标文本作为模型的输入，利用样本特征矩阵和样本目标文本训练初始语音识别模型，从而得到满足使用需求的语音识别模型。

进一步的，在对初始语音识别模型进行训练的过程中，为了能够得到满足使用需求的语音识别模型，可以在训练的过程中不断的监控模型的损失函数的损失值，当损失值满足预设阈值的情况下，即可确定当前训练完成的模型可以进行使用，则将当前训练完成的模型作为所述语音识别模型用于后续音频处理即可。

例如，样本音频文件中的内容是“hello，把这个玩具送给你”，此时基于样本音频文件对中英文语音识别模型进行训练，首先对样本音频文件进行分帧处理，并抽取分帧处理后的每帧音频的MFCC特征生成特征矩阵作为模型的输入，其次对样本音频文件中的内容“hello，把这个玩具送给你”添加语种子识别符，获得样本目标文本“[EN]hello[CN]把这个玩具送给你[E]”作为模型的输出，最后基于特征矩阵和样本目标文本对中英文语音识别模型进行训练，即可获得能够对中英文混合音频进行语种识别，并且将其转换为文本的模型，从而方便对中英文混合音频进行识别和转换。

综上，通过采用上述架构的神经网络构建所述语音识别模型，不仅可以提高模型识别语种的精准度，还能够避免转换出的文本不会出现错字、漏字和多字等问题，从而有效的提高后续计算音频中用户讲话语速的精准度。

更进一步的，当得到满足使用需求的语音识别模型之后，将利用到所述音频处理方法，从而实现对语种混合音频的精准识别，本实施例中，所述语音识别模型完成语种识别的过程，具体实现方式如下所述：

具体的，在基于上述训练得到满足使用需求的语音识别模型之后，将采用该语音识别模型对所述音频文件对应的特征矩阵进行处理，从而得到包含语种识别符的目标文本；基于此，首先将所述特征矩阵输入至所述语音识别模型，该模型中的编码器将对特征矩阵中每帧音频对应的特征向量进行编码，从而获得各个音频帧对应的特征子序列，全部特征子序列即可构成所述音频文件的特征序列；其次将编码后得到的特征序列引入注意力机制得到融合特征序列，通过语音识别模型中的解码器对融合特征序列进行解码和语种识别，从而得到音频文件的目标特征序列，最后通过所述语音识别模型中的输出层对所述目标特征序列进行处理，即可将音频文件映射到文本，并且会在文本中针对不同的语种添加语种识别符，从而方便后续统计文本中的字符数量。

也即是说，当解码器进行解码后，将输出语种子识别符(对应一个语种的识别符)，之后输出对应该语种子识别符的字符，直至输出另一个语种子识别符或音频结束符停止；而后当输出的是另一个语种识子别符后，继续输出与另一个语种子识别符对应的字符，直至输出另一个语种子识别符或音频结束符停止，以此类推，最后将输出音频结束符，此时表明对音频文件进行识别完毕，再进行后续的音频处理过程即可。

此外，本实施例提供的语音识别模型还可以通过多个语种分别对应的语音识别子模型，以及多语种分类子模型组合而成，实现通过每个语种分别对应的语音识别子模型只识别音频文件中属于相同语种的语音并转换成文本，之后通过多语种分类子模型对转换得到的文本添加语种识别符，最后组装成目标文本即可用于后续音频处理过程。

另一方面，采用Encoder-Decoder架构的语音识别模型还可以用其他深度神经网络架构代替，以及BLSTM神经网络也可以用其他神经网络架构代替，具体实施时，可以根据实际应用场景进行设定，本实施例在此不作任何限定。

综上，通过将引入注意力机制的特征序列输入至解码器进行解码，不仅能够通过注意力机制充分考虑各个音频帧之间相互的影响，还通过特征融合的方式提升特征的丰富度和精准度，从而实现通过模型得到更加满足使用需求的目标文本，有效提高后续语速计算的精准度。

步骤S106，根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，并确定所述音频文件的音频时长。

具体的，在上述获得包含语种识别符的目标文本的基础上，进一步的，此时将对目标文本中包含的字符进行统计，但是由于不同的语种对应的字符不同，因此需要根据所述语种识别符完成统计过程，比如在汉语中一个字符表示一个汉字，而在英语中一个字符表示一个单词；因此需要按照语种识别符对所述目标文本中包含的不同语种对应的字符进行确定，其中，所述目标字符具体是指对应不同语种的字符，相应的，还需要确定所述音频文件的音频时长，所述音频时长具体是指所述音频文件中用户讲话的时长。

基于此，在确定所述目标文本中包含的至少两个语种分别对应的目标字符后，即可统计出所述目标文本中包含的至少两个语种分别对应的目标字符数量，从而方便后续进行语速的计算。

进一步的，在确定所述目标文本中与至少两个语种分别对应的目标字符的过程中，由于目标文本中包含的字符可能较多，并且对应不同的语种，因此可以采用归类的方式确定各个语种分别对应的字符，本实施例中，具体实现方式如下所述：

具体的，所述语种子识别符具体是指与每个语种分别对应的字符，所述目标子文本具体是指与每个语种对应的文本，并且该文本属于所述目标文本。基于此，首先确定所述语种识别符中与所述目标文本中包含的至少两个语种分别对应的语种子识别符，其次按照所述各个语种分别对应的语种子识别符对所述目标文本进行归类，从而得到各个语种分别对应的目标子文本，即由属于同一语种的子文本组成的即可，最后通过识别各个语种分别对应的目标子文本中包含的字符，即可确定所述至少两个语种分别对应的目标字符。

沿用上例，当获得中英文混合音频对应的中英文文本“[EN]greta[CN]小朋友晚上好，我们今天学习了[EN]animals[E]”之后，此时确定在中英文文本中包含两种语种子识别符，分别是对应中文的[CN]和对应英文的[EN]，之后按照中文语种子识别字符和英文语种子识别字符对中英文文本进行归类处理，确定中文对应的目标子文本为“小朋友晚上好，我们今天学习了”，以及英文对应的目标子文本为“greta/animals”，从而确定中文对应的目标字符为{小、朋、友、晚、上、好、我、们、今、天、学、习、了}，英文对应的目标字符为{greta、animals}，以用于后续语速的计算。

综上，通过语种子识别字符对各个语种分别进行归类，可以精准的统计出所述目标文本中属于各个语种的目标字符，从而能够提高后续计算语速的精准度。

更进一步的，在确定所述音频文件的音频时长时，由于音频文件中不仅包含发声的音频片段，还可能存在未发声或者无用的音频片段，因此如果在计算语速时，将其他不属于用户发声的音频片段也算入到音频时长中，将会造成计算出的语速不准确的问题，因此可以将音频文件中无用的音频片段删除，从而得出真实的音频时长，以提高后续计算语速的精准度，本实施例中，具体实现方式如下所述：

具体的，在删除所述音频文件中无用的音频片段时，需要按照所述音频文件的音量幅度特征确定，所述音频幅度特征具体是指所述音频文件的能量大小，能量越小说明对应的音频片段声音越小，则是无用音频片段的概率越高，相应的，所述静默音频片段即为音频文件中无用音频片段。

基于此，在构建出所述音频文件对应的音量幅度特征之后，即可通过分析所述音量幅度特征确定所述音频文件中的静默音频片段，之后确定所述静默音频片段的静默音频时长，以及所述音频文件的音频总时长，最后计算音频总时长与静默音频时长二者的差值，即可确定所述音频文件中用户讲话的音频时长，以提高后续计算语速的精准度。

沿用上例，确定用户录制中英文混合音频所使用的时间是3s，而通过构建中英文混合音频对应的音量幅度特征，确定在该中英文混合音频中用户存在三次断句，并且断句时长分别是0.2s，01s和0.1s，则此时确定用户讲话的时长是3-0.2-0.1-0.1＝2.6s，即中英文混合音频的音频时长为2.6s。

此外，在确定所述音频时长时，还可以根据声源发声的起始时间点和结束时间点进行确定，具体实施时，可以根据实际应用场景进行选择确定音频时长的方式，本实施例在此不作过多限定。

综上，在确定所述音频文件的音频时长时，通过将所述音频文件中无用的音频片段进行删除，可以精准的确定音频中用户真实讲话的时长，从而可以有效的提高后续计算语速的精准度。

步骤S108，基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速。

具体的，在上述确定所述各个语种分别对应的目标字符和所述音频文件的音频时长的基础上，进一步的，此时将基于所述音频时长和各个语种分别对应的目标字符的数量计算出所述音频文件中声源的语速，所述声源可以是讲话的用户，也可以播放讲话内容的播放器。

进一步的，由于在不同的语种中不同的字符代表方式不同，因此需要按照语种进行字符的数量统计，从而提高语速计算的精准度，本实施例中，具体实现方式如下所述：

具体的，在确定所述至少两个语种分别对应的目标字符的字符数量后，此时将按照语种进行字符数量的求和，得到所述目标文本中包含的全部字符数量，之后计算所述总字符数量和所述音频时长二者的比值，即可确定所述音频文件中声源的语速。

具体实施时，在计算所述语速的过程中，可以通过如下公式计算获得：

s＝(∑n_cn+∑n_en+……+∑n_mn)/d

其中s表示语速，d表示音频时长，n_mn表示每个语种的字符数量，通过将音频文件中用户讲话的总字符进行求和，并与音频时长进行比值的计算，即可确定音频文件中用户讲话的语速。

沿用上例，确定中文对应的目标字符为{小、朋、友、晚、上、好、我、们、今、天、学、习、了}，英文对应的目标字符为{greta、animals}后，确定中文字符的总数量是13个，英文字符的总数量是2个，即中英文文本对应的总字符数量是15个，而中英文混合音频的音频时长是2.6s，通过计算确定s＝(13+2)/2.6*60＝346.20(字符/分钟)，即用户讲话的语速是346.20(字符/分钟)。

更进一步的，在完成语速计算之后，为了能够生成方便用户收听，且满足用户收听需求的优质音频文件，可以按照所述语速对音频文件进行调整，本实施例中，具体实现方式如下所述：

具体的，所述语种音频片段具体是指各个语种分别对应的音频片段，对语种音频片段进行调整，具体是指根据实际收听需求对音频片段播放速度加快或变慢，从而得到满足收听需求的目标音频片段。

沿用上例，当获得用户讲话语速之后，为了方便收听该语音的其他用户收听，可以根据语速对中英文混合音频中的中文音频片段适当减慢速度，对英文音频片段适当加快速度，从而得到满足播放需求的目标中英文混合音频，以播放给其他用户收听。

实际应用中，按照所述语速对所述至少两个语种分别对应的语种音频片段进行调整时，可以根据实际需求选择调整的快/慢或者保持不变，其目的是为了能够得到适合用户收听的音频，故可以根据实际应用场景进行设定，比如在小说阅读场景中，可以加快播放速度，或者在授课场景中，可以减慢播放速度，本实施例在此不作任何限定。

综上，通过按照所述语速对音频文件中不同语种的音频片段进行调整，进而得到满足其他用户收听需求的音频，可以有效的提高用户的收听体验，提高用户的触达率。

下述结合附图4，以本说明书提供的音频处理方法在中英文混合音频识别场景中的应用为例，对所述音频处理方法进行进一步说明。其中，图4示出了本说明书一实施例提供的一种应用于中英文混合音频识别场景中的音频处理方法的处理流程图，具体包括以下步骤：

步骤S402，获取中英文混合音频。

本实施例通过将包含中文和英文的两个语种的音件进行语种识别，并按照语种进行目标字符的确定，从而可以实现精准的计算音频中声源的语速，不仅能够完成对混合音频的语速识别，还能够保证后续音频处理过程的正常进行，进一步满足音频处理场景的语速精准度计算的需求。

步骤S404，对中英文混合音频进行分帧处理，获得多个音频帧，并确定多个音频帧分别对应的MFCC特征。

步骤S406，将多个音频帧分别对应的MFCC特征输入至中英文语音识别模型进行处理，获得包含语种识别符的目标文本。

步骤S408，确定语种识别符中的中文语种子识别符和英文语种子识别符。

步骤S410，按照中文语种子识别符和英文语种子识别符对目标文本进行归类，获得中文文本和英文文本。

步骤S412，识别中文文本中的中文字符和英文文本中的英文字符，并确定中英文混合音频的音频时长。

步骤S414，确定中文字符数量和英文字符数量，并将二者进行求和得到总字符数量。

步骤S416，计算总字符数量和音频时长二者的比值，获得中英文混合音频中用户的语速。

具体的，在计算出用户的语速之后，为了能够生成方便其他用户收听，且满足用户收听需求的优质音频文件，可以按照所述语速对音频文件进行调整；此外，本实施例中未详细描述的内容均可参见上述实施例中相应的描述内容，本实施例在此不作过多赘述。

本说明书提供的音频处理方法，实现了通过结合语种识别符精准的对音频文件中的多个语种进行划分，并且可以有效的避免语速估计的误差，结合语种识别符识别不同语种对应的字符，进一步提高了针对多语言的混合音频语速的计算精准度，更加方便后续音频处理过程的有效进行。

与上述方法实施例相对应，本说明书还提供了音频处理装置实施例，图5示出了本说明书一实施例提供的一种音频处理装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取包含至少两个语种的音频文件；

处理模块504，被配置为确定所述音频文件对应的特征矩阵，并将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本；

确定模块506，被配置为根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，并确定所述音频文件的音频时长；

计算模块508，被配置为基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速。

一个可选的实施例中，所述处理模块504，包括：

特征编码单元，被配置为将所述特征矩阵输入至所述语音识别模型，通过所述语音识别模型中的编码器进行特征编码，输出所述音频文件的特征序列；

特征解码单元，被配置为将所述特征序列引入注意力机制之后通过所述语音识别模型中的解码器进行解码，输出所述音频文件的目标特征序列；

输出单元，被配置为通过所述语音识别模型中的输出层对所述目标特征序列进行处理，输出包含所述语种识别符的所述目标文本。

一个可选的实施例中，所述处理模块504，包括：

分帧处理单元，被配置为对所述音频文件进行分帧处理，获得多个音频帧；

确定特征向量单元，被配置为确定所述多个音频帧分别对应的特征向量；

生成特征矩阵单元，被配置为基于所述多个音频帧分别对应的特征向量生成所述音频文件对应的所述特征矩阵。

一个可选的实施例中，所述语音识别模型通过如下方式训练：

一个可选的实施例中，所述确定模块506，包括：

确定语种子识别符单元，被配置为确定所述语种识别符中与所述目标文本包含的至少两个语种分别对应的语种子识别符；

归类单元，被配置为按照所述至少两个语种分别对应的语种子识别符对所述目标文本进行归类，获得与所述至少两个语种分别对应的目标子文本；

识别字符单元，被配置为识别所述至少两个语种分别对应的目标子文本中包含的字符，根据识别结果确定所述至少两个语种分别对应的目标字符。

一个可选的实施例中，所述确定模块506，包括：

构建音量幅度特征单元，被配置为构建音频文件对应的音量幅度特征，并根据所述音量幅度特征确定所述音频文件中的静默音频片段；

确定音频时长单元，被配置为确定所述静默音频片段的静默音频时长，以及所述音频文件的音频总时长；

计算音频时长单元，被配置为计算所述音频总时长与所述静默音频时长二者的差值，获得所述音频时长。

一个可选的实施例中，所述计算模块508，包括：

确定总字符数量单元，被配置为确定所述至少两个语种分别对应的目标字符的字符数量，并将所述至少两个语种分别对应的目标字符的字符数量进行求和，获得总字符数量；

计算语速单元，被配置为计算所述总字符数量和所述音频时长二者的比值，获得所述音频文件中声源的语速。

一个可选的实施例中，所述音频处理装置，还包括：

确定语种音频片段模块，被配置为确定所述音频文件中所述至少两个语种分别对应的语种音频片段；

调整模块，被配置为按照所述语速对所述至少两个语种分别对应的语种音频片段进行调整，根据调整结果生成目标音频文件。

一个可选的实施例中，所述确定特征向量单元，包括：

加窗处理子单元，被配置为对所述多个音频帧进行加窗处理，并根据加窗处理结果构建所述多个音频帧对应的第一频谱；

频谱转换子单元，被配置为通过预设的滤波组将所述第一频谱转换为第二频谱，并对所述第一频谱进行倒谱处理，获得所述多个音频帧分别对应的特征向量。

本实施例提供的音频处理装置，在获取到包含至少两个语种的音频文件后，将确定所述音频文件对应的特征矩阵，之后将特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本，实现了通过结合语种识别符精准的对音频文件中的多个语种进行划分，之后根据语种识别符确定不用语种分别对应的目标字符，同时确定音频文件的音频时长，最后基于不同语种分别对应的目标字符和音频时长进行音频文件中声源的语速计算，可以有效的避免语速估计的误差，而且结合语种识别符识别不同语种对应的字符，进一步提高了针对多语言的混合音频语速的计算精准度，更加方便后续音频处理过程的有效进行。

上述为本实施例的一种音频处理装置的示意性方案。需要说明的是，该音频处理装置的技术方案与上述的音频处理方法的技术方案属于同一构思，音频处理装置的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

图6示出了根据本说明书一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令：

获取包含至少两个语种的音频文件；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

获取包含至少两个语种的音频文件；

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取包含至少两个语种的音频文件；

2.根据权利要求1所述的音频处理方法，其特征在于，所述将所述特征矩阵输入至语音识别模型进行处理，获得包含语种识别符的目标文本，包括：

3.根据权利要求1所述的音频处理方法，其特征在于，所述确定所述音频文件对应的特征矩阵，包括：

对所述音频文件进行分帧处理，获得多个音频帧；

确定所述多个音频帧分别对应的特征向量；

4.根据权利要求1所述的音频处理方法，其特征在于，所述语音识别模型通过如下方式训练：

5.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述语种识别符确定所述目标文本中包含的至少两个语种分别对应的目标字符，包括：

6.根据权利要求1所述的音频处理方法，其特征在于，所述确定所述音频文件的音频时长，包括：

7.根据权利要求1或6所述的音频处理方法，其特征在于，所述基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速，包括：

8.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述至少两个语种分别对应的目标字符和所述音频时长计算所述音频文件中声源的语速步骤执行之后，还包括：

9.根据权利要求3所述的音频处理方法，其特征在于，所述确定所述多个音频帧分别对应的特征向量，包括：

10.一种音频处理装置，其特征在于，包括：

获取模块，被配置为获取包含至少两个语种的音频文件；

11.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

获取包含至少两个语种的音频文件；

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至9任意一项所述音频处理方法的步骤。