CN115798459A

CN115798459A - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN115798459A
Application number: CN202310053893.5A
Authority: CN
Inventors: 刘艳鑫
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-03-14
Anticipated expiration: 2043-02-03
Also published as: CN115798459B

Abstract

本申请实施例公开了一种音频处理方法、装置、存储介质及电子设备。该方法包括：获取初始音频数据，并将初始音频数据切分为多个子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，基于语种信息识别子音频对应的字幕文件。本申请实施例可以对音频数据进行切分并识别出音频所对应的语种信息，基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本申请涉及音频数据处理技术领域，具体涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术

近年来，随着智能音箱和语音助手等的普及，语音识别越来越被大家所接受，这项技术被应用的场景也越来越多，例如：通过语音来控制设备、实现内容搜索成为大家日常生活中很重要的一部分。但目前训练一个能够商用的语音识别系统是比较困难的，因为训练这样的语音识别系统需要大量的标注语料（上万小时），而获取这些语料成本过于昂贵。

目前常用的获取训练语料的两种方法，一种方法是，数据公司招募并组织用户采集数据，采集后的数据需要进行清洗和标注，但这样的流程执行起来有诸多限制，一是需要投入大量的资金；二是由于需要人工参与，采集流程很长，不能保证时效性。另一种方法是，从互联网上可以低成本获取海量语料，但是这样的语料质量无法保证，例如：存在大量非人声噪音，字幕和音频不能完全对应等问题。

发明内容

本申请实施例提供一种音频处理方法、装置、存储介质及电子设备，可以识别出音频所对应的语种信息，并基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

本申请实施例提供了一种音频处理方法，包括：

获取初始音频数据，并将所述初始音频数据切分为多个子音频；

对所述子音频的音频数据进行傅里叶变换，得到频域数据；

对所述频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息；

将所述频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据所述概率值确定所述子音频对应的语种信息；

基于所述语种信息识别所述子音频对应的字幕文件。

在一实施例中，在对所述子音频的音频数据进行傅里叶变换，得到频域数据之前，所述方法还包括：

按照预设帧长以及偏移量，对所述子音频的音频数据进行预加重、分帧和加窗处理，得到处理后的音频数据。

在一实施例中，所述语种分类模型的构建过程包括：

通过卷积层构建特征编码层，基于所述特征编码层提取所述频域特征信息的高维语音特征；

对所述高维语音特征进行矩阵变换；

通过注意力层或长短时神经网络层构建时序处理器，并将所述矩阵变换后的特征信息通过时序处理器进行映射；

将映射后的特征信息通过分类器进行分类，以输出预测的标签编码。

在一实施例中，所述语种分类模型的训练过程包括：

获取语音样本对应的频域特征信息以及真实标签编码；

通过所述语种分类模型输出所述语音样本的预测标签编码；

根据所述真实标签编码与所述预测标签编码计算损失函数，并利用所述损失函数通过反向传播和梯度下降算法对所述语种识别模型进行训练。

在一实施例中，所述将所述初始音频数据切分为多个子音频，包括：

对所述初始音频数据的采样率进行转换；

对转换采样率后的音频数据进行人声提取处理；

将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到多个包含时间戳的子音频。

在一实施例中，所述静音时长阈值包括依次递减的多个阈值，所述将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，包括：

根据第一静音时长阈值在所述人声音频中选择第一切分点，并基于所述第一切分点对所述人声音频进行首次切分，以得到多个音频段；

在所述多个音频段中，针对音频时长大于所述预设音频时长区间的音频段基于第二静音时长阈值再次进行切分；

根据剩余的静音时长阈值依次进行切分，直到根据最小的静音时长阈值切分后，得到多个子音频。

在一实施例中，所述基于所述语种信息识别所述子音频对应的字幕文件，包括：

根据所述语种信息对所述子音频进行语音识别；

根据语音识别结果生成所述子音频对应的字幕文件。

本申请实施例还提供一种音频处理装置，包括：

切分模块，用于获取初始音频数据，并将所述初始音频数据切分为多个子音频；

第一处理模块，用于对所述子音频的音频数据进行傅里叶变换，得到频域数据；

第二处理模块，用于对所述频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息；

分类模块，用于将所述频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据所述概率值确定所述子音频对应的语种信息；

识别模块，用于基于所述语种信息识别所述子音频对应的字幕文件。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的音频处理方法中的步骤。

本申请实施例还提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的音频处理方法中的步骤。

本申请实施例提供的音频处理方法、装置、存储介质及电子设备，可以获取初始音频数据，并将初始音频数据切分为多个子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，基于语种信息识别子音频对应的字幕文件。本申请实施例可以对音频数据进行切分并识别出音频所对应的语种信息，基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音频处理装置的一种系统示意图。

图2为本申请实施例提供的音频处理方法的一种流程示意图。

图3为本申请实施例提供的音频处理方法的另一种流程示意图。

图4为本申请实施例提供的语种识别模型的网络结构示意图。

图5为本申请实施例提供的音频处理装置的一种结构示意图。

图6为本申请实施例提供的音频处理装置的另一结构示意图。

图7为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频处理方法、装置、存储介质及电子设备。具体地，本申请实施例的音频处理方法可以由电子设备或服务器执行，其中，该电子设备可以为终端。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机（PC，PersonalComputer）、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是媒体播放客户端或即时通信客户端等。

例如，当该音频处理方法运行于电子设备时，电子设备可以获取初始音频数据，并将初始音频数据切分为多个子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，基于语种信息识别子音频对应的字幕文件。其中终端设备可以通过图形用户界面与用户进行交互。该终端设备将图形用户界面提供给用户的方式可以包括多种，例如，可以渲染显示在终端设备的显示屏上，或者，通过全息投影呈现图形用户界面。例如，终端设备可以包括触控显示屏和处理器，该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

请参阅图1，图1为本申请实施例提供的音频处理装置的系统示意图。该系统可以包括至少一个电子设备1000，至少一个服务器或个人电脑2000。用户持有的电子设备1000可以通过网络连接到不同的服务器或个人电脑。电子设备1000可以是具有计算硬件的终端设备，该计算硬件能够支持和执行与多媒体对应的软件产品。另外，电子设备1000还可以具有用于感测和获得用户通过在一个或者多个触控显示屏的多个点执行的触摸或者滑动操作的输入的一个或者多个多触敏屏幕。另外，电子设备1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络，比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外，不同的电子设备1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他嵌入式平台或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供了一种音频处理方法，该方法可以由电子设备或服务器执行。本申请实施例以音频处理方法由电子设备执行为例来进行说明。其中，该电子设备包括触控显示屏和处理器，该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。用户通过触控显示屏对图形用户界面进行操作时，该图形用户界面可以通过响应于接收到的操作指令控制电子设备本地的内容，也可以通过响应于接收到的操作指令控制服务器端的内容。例如，用户作用于图形用户界面产生的操作指令包括用于对初始音频数据进行处理的指令，处理器被配置为在接收到用户提供的指令之后启动对应的应用程序。此外，处理器被配置为在触控显示屏上渲染和绘制与应用程序相关联的图形用户界面。触控显示屏是能够感测屏幕上的多个点同时执行的触摸或者滑动操作的多触敏屏幕。用户在使用手指在图形用户界面上执行触控操作，图形用户界面在检测到触控操作时，控制应用的图形用户界面中显示对应的操作。

请参阅图2，该方法的具体流程可以如下：

步骤101，获取初始音频数据，并将初始音频数据切分为多个子音频。

在一实施例中，若初始音频数据包含关联的字幕文件，则可以直接获取该字幕文件，并结合初始音频数据作为后续的训练语料，无需进行后续处理。若初始音频数据当中不包含关联的字幕文件，还可以进一步判断当前的初始音频数据当中是否包含内嵌字幕，若同样不包含，则可以继续执行将初始音频数据切分为多个子音频的步骤。

在一实施例在，若初始音频数据当中不包含关联的字幕文件，但包含内嵌字幕，则可以对内嵌字幕进行识别，以提取出字幕文件。具体的，针对包含内嵌字幕的音频文件或视频文件，可以舍弃一闪而过的文字、运动文字、关键词以及特定标签，在基于分类器舍弃文字，最后保存未舍弃的文本框记录作为字幕文件。其中上述关键词可以包括常见的文字信息，例如：CCTV、湖南卫视、浙江卫视等等。若文本框记录中文字出现在列表中，且该文字出现的持续时长(t2-t1)占总帧数的比值大于阈值β（阈值β可根据需求调节），则舍弃该文本框记录。特定标签指的是该文本框记录出现持续时长(t2-t1)与总帧数的比值大于阈值λ（阈值λ可根据需求调节，阈值λ大于阈值β）的文本，例如：一个视频中该文本框记录持续出现时长占总时长的80%，则认为该文本框记录中的文字为特定标签，并不是语音中出现的，则舍弃该文本框记录。

在一实施例中，上述初始音频数据可以为纯音频文件或视频文件，还可以为从视频文件中提取得到的音频文件，也可以是用户上传的音频文件或者是通过录音文件得到的音频，音频文件或视频文件可以是本地或者从网络下载的文件，还可以是从其他设备获取到的文件。

比如，用户可以通过客户端上传想要处理的音频文件或视频文件，客户端接收到上传的音频文件或视频文件后，将接收到的音频文件或视频文件传给服务器。服务器可以将接收到的音频文件作为初始音频数据，或者服务器可以从接收到的音频文件或视频文件中提取初始音频数据。

在一实施例中，电子设备可以从网络端、本地存储介质或外部存储介质中直接得到初始音频数据；也可以是从网络端、本地存储介质或外部存储介质中得到未经处理的原始音频数据，并通过对原始音频数据进行预处理而得到对应的初始音频数据。

以从网络端得到初始音频数据为例，电子设备可以获取网页中的音频数据，比如通过传入的URL链接得到当前网页的源码，然后使用正则表达式方法获取所需视频或音频的URL，并保存视频或音频的ID以及URL等信息。然后通过保存的视频或音频URL下载对应的视频或音频，具体的，针对下载的视频文件，可以将所有视频转化成相同格式，如mp4、avi、rmvb等。针对下载的音频文件，可以将所有音频转化成采样率16kHz的音频。其中，转换工具可使用ffmpeg、sox等，且视频或音频格式可根据需求调整，本申请对此不作进一步限定。

在一实施例中，在将初始音频数据切分为多个子音频之前，还可以根据相关参数对初始音频数据进行预处理，其中上述相关参数具体可以包括降噪参数、防破音参数、音量参数、声音均衡参数等。具体来说，降噪参数用于降低音频的噪音，具体可通过数字信号处理(Digital Signal Processing，DSP)降噪算法等相关降噪算法来实现；声音均衡参数可以通过对不同频率的电信号的调节来补偿扬声器和声场的缺陷，可以根据音频的类型进行优化。此处仅介绍降噪参数和声音均衡参数，其他参数不做一一介绍。至于参数具体设置的方法，本优选实施例以声音均衡参数的设置为例做具体说明，如一段音乐为男高音，则可将声音均衡参数中的频段设置为164-698HZ，如为女高音，则频段可设置为220-1100HZ。综上所述，设置这些参数可以减少音频中的噪音、破音，从而提高了音频的质量，在根据上述降噪参数、防破音参数、音量参数、声音均衡参数等参数对初始音频数据进行相应的降噪、去破音等处理后，最终将得到处理后的高质量的音频。

步骤102，对子音频的音频数据进行傅里叶变换，得到频域数据。

在一实施例中，在对子音频的音频数据进行傅里叶变换，得到频域数据之前，上述方法还可以包括：按照预设帧长以及偏移量，对子音频的音频数据进行预加重、分帧和加窗处理，得到处理后的音频数据。比如，在进行特征提取时可以对子音频的原始音频数据进行预加重、分帧和加窗等预处理，得到初始音频数据。这是因为音频信号是时变的信号，但是在很短的时间范围内的音频信号可被认为是稳定的，所以，为了便于后续处理，可以对原始音频数据进行分帧处理。例如，可以将原始音频数据分成20-40毫秒(ms)的帧，既能避免分帧时长过短时每帧数据量不足而导致后续频谱无法估计的问题，又能避免分帧时长过长而不满足音频信号稳定的假设的问题。并且，分帧处理的过程中，可同时进行预加重和加窗的处理，例如，可将时间窗口的偏移量设置为帧长的一半，以避免频谱泄漏和音频信号的特性变化过大的问题，消除每个帧的短时信号在其两端边缘处出现的信号不连续性问题。

进一步的，还可以将初始音频数据由时域转换至频域，即对初始音频数据进行傅里叶变换，得到初始频域数据。该初始频域数据为浮点型的频谱幅值，其数值分布范围较广，若直接采用该初始频域数据进行频域特征的提取和频域的一些计算，将会进一步扩大频谱幅值的数值分布范围，导致其所需的存储空间较大且计算速度较慢。所以，电子设备可进一步对初始频域数据进行整数转换，以将浮点型数据转换为整型数据，得到中间频域数据。

在一些实施例中，上述对初始频域数据进行整数转换处理，生成中间频域数据的步骤可以包括：对初始频域数据进行归一化处理，并对归一化后的初始频域数据进行整数转换处理，生成中间频域数据。

步骤103，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息。

之后，电子设备可对该中间频域数据进行特征提取，如对中间频域数据执行梅尔(mel)滤波、取对数或离散余弦变换(DiscreteCosine Transform，DCT)等处理，得到频域特征信息。其中，离散余弦变换的常见用途是对音视频进行数据压缩。离散余弦变换具有信号谱分量丰富、能量集中，且不需要对语音相位进行估算等优点，能在较低的运算复杂度下取得较好的语音增强效果。

步骤104，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息。

在一实施例中，在获取到子音频的频域特征信息之后，便可以输入已训练好的语种分类模型，识别得到音频对应的语种，例如此音频语种是韩语，则结果返回韩语。具体的，将语音特征输入至语种分类模型后，会输出多种语种信息各自对应的概率值，将得到的概率值进行二值化，比如二值化阈值可选取为0.5，或依据测试集的结果进行阈值选择，进而根据二值化后的数值确定子音频对应的语种类型信息。

步骤105，基于语种信息识别子音频对应的字幕文件。

在一实施例中，在获取到多个子音频对应的语种信息后，便可以基于语种信息提取子音频中的文本信息。其中，文本信息是指音频信息中包含的文本，即将音频信息中包含的内容用文本的形式显示。最终将每个子音频中的文本信息制作为对应的字幕文件，字幕文件包含起止时间戳。

在一实施例中，可以通过语音识别提取每个子音频中的文本信息，语音识别用于把语音信息对应的语音信号转变为对应的文本信息。可选的，可以采用隐马尔可夫模型(Hidden Markov Model，HMM)对输入语音进行语音识别，以确定输入语音对应的文本信息；或者，也可以通过将获取的语音信号与语音数据库中语音进行比对，找到相同的语音，进而得到语音数据库中语音对应的文本信息作为输入语音对应的文本信息，本实施例对此不做进一步限定。

由上可知，本申请实施例提供的音频处理方法可以获取初始音频数据，并将初始音频数据切分为多个子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，基于语种信息识别子音频对应的字幕文件。本申请实施例可以对音频数据进行切分并识别出音频所对应的语种信息，基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

请参阅图3，为本申请实施例提供的音频处理方法的另一流程示意图。该方法的具体流程可以如下：

步骤201，获取初始音频数据，对初始音频数据的采样率进行转换，对转换采样率后的音频数据进行人声提取处理。

举例来说，电子设备可以获取网页中的初始音频数据，比如通过传入的URL链接得到当前网页的源码，然后使用正则表达式方法获取所需视频或音频的URL，并保存视频或音频的ID以及URL等信息。然后通过保存的视频或音频URL下载对应的视频或音频，具体的，针对下载的视频文件，可以将所有视频转化成相同格式，如mp4、avi、rmvb等。针对下载的音频文件，可以将所有音频转化成采样率16kHz的音频。其中，转换工具可使用ffmpeg、sox等，且视频或音频格式可根据需求调整。

在转换采样率之后，便可以对初始音频数据的人声和环境声进行分离，得到人声音频。在一种可实现的实施方式中，可以将音频数据输入已有的人声分离模型中，进行人声音频和环境音频的分离，得到人声音频，其中人声分离模型可以为基于PIT(PermutationInvariant Train，置换不变训练)的深度神经网络的人声分离模型。另一种可实现的方式为，利用分离工具进行人声音频和伴奏音频的分离，得到人声音频，比如可以根据音频数据的频谱特征或频率特征来进行人声提取处理。

步骤202，将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到多个包含时间戳的子音频。

在一实施例中，在提取得到人声音频后，便可以通过VAD工具对其进行切分，以得到包含起止时间戳的多个子音频。具体的，本实施例可以预先设置音频时长区间[min,max]以及静音时长阈值θ1，VAD切分标准按照设定的音频时长区间和连续静音时长阈值进行切分，比如按照静音时长大于静音时长阈值θ1来选择人声音频中的切分点，切分点可以位于静音段的中点，通过上述切分点对人声音频进行切分，以得到多个子音频。需要说明的是，切分后的子音频的时长应该位于音频时长区间[min,max]之内。

进一步的，上述静音时长阈值还可以包括依次递减的多个阈值，比如包括连续的四个静音时长阈值θ1、θ2、θ3、θ4，并且θ1、θ2、θ3、θ4依次递减，在进行切分时，第一轮按照静音时长大于静音时长阈值θ1来选择人声音频中的切分点，切分点位于静音段的中点，然后对于第一轮切分后的音频段中音频时长仍然大于max的音频段进行第二轮切分，此时可以按照静音时长大于静音时长阈值θ2选择音频段中的切分点，以完成第二轮切分。再然后对于第二轮切分后的音频段中音频时长仍然大于max的音频段进行第三轮切分，此时可以按照静音时长大于静音时长阈值θ3选择音频段中的切分点，以完成第三轮切分。最终再对于第三轮切分后的音频段中音频时长仍然大于max的音频段进行第四轮切分，此时可以按照静音时长大于静音时长阈值θ4选择音频段中的切分点，以完成第四轮分。也即静音时长阈值包括依次递减的多个阈值，将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分的步骤可以包括：根据第一静音时长阈值在人声音频中选择第一切分点，并基于第一切分点对人声音频进行首次切分，以得到多个音频段，在多个音频段中，针对音频时长大于预设音频时长区间的音频段基于第二静音时长阈值再次进行切分，根据剩余的静音时长阈值依次进行切分，直到根据最小的静音时长阈值切分后，得到多个子音频。

进一步的，在上述4轮切分全部完成后，若仍然存在音频时长大于max的音频段，该音频只有人声部分，则不再切分。若存在音频市场小于min时长的音频段，则可以合并两个或多个音频直至音频时长在区间[min,max]内，比如将当前音频段与前一段或后一段相邻的音频段进行合并。

步骤203，对子音频的音频数据进行傅里叶变换，得到频域数据。

步骤204，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息。

上述对子音频进行傅里叶变换、梅尔滤波以及离散余弦变换等处理的步骤可参考上述处理过程，本实施例不在进一步赘述。

步骤205，构建语种分类模型，并基于语音样本以及对应的真实标签编码对语种分类模型进行训练。

在一实施例中，语种识别模型包含多层非线性层，如图4所示，可由卷积层、全连接层、注意力层、长短时神经网络层等构建而成。首先，通过卷积层构建特征编码层，提取得到高维语音特征，之后对高维语音特征进行矩阵变换（如矩阵拼接、矩阵相加等）。利用注意力层或长短时神经网络层等构建时序处理器，并将变换后的特征通过时序处理器进行映射。最后，使用分类器进行分类，输出预测的类别编码，分类器可由全连接层和输出层组成。输出层可以由sigmoid单元组成，这些单元分别为每个语种类别对应的概率。也即语种分类模型的构建过程包括：通过卷积层构建特征编码层，基于特征编码层提取频域特征信息的高维语音特征，对高维语音特征进行矩阵变换，通过注意力层或长短时神经网络层构建时序处理器，并将矩阵变换后的特征信息通过时序处理器进行映射，将映射后的特征信息通过分类器进行分类，以输出预测的标签编码。

在训练时，基于提取到的频域特征信息及其对应的真实标签编码，频域特征信息经语种分类模型处理后，得到预测的类别编码。计算输出层与真实标签编码之间的sigmoid交叉熵作为损失：

其中，M为类别数量，y⁽ⁱ⁾和ŷ⁽ⁱ⁾分别为真实标签向量、分类器输出层前的网络的输出向量。利用损失函数，通过反向传播和梯度下降算法，训练得到语种分类模型。也即语种分类模型的训练过程可以包括：获取语音样本对应的频域特征信息以及真实标签编码，通过语种分类模型输出语音样本的预测标签编码，根据真实标签编码与预测标签编码计算损失函数，并利用损失函数通过反向传播和梯度下降算法对语种识别模型进行训练。

步骤206，将频域特征信息输入至训练好的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息。

在一实施例中，在获取到子音频的频域特征信息之后，便可以输入已训练好的语种分类模型，输出多种语种信息各自对应的概率值，将得到的概率值进行二值化，比如二值化阈值可选取为0.5，或依据测试集的结果进行阈值选择，进而根据二值化后的数值确定子音频对应的语种类型信息，例如此音频语种是韩语，则结果返回韩语。

步骤207，根据语种信息对子音频进行语音识别，根据语音识别结果生成子音频对应的字幕文件。

在一实施例中，在进行语音识别后便可以得到每个子音频中的文本信息。其中，文本信息是指音频信息中包含的文本，即将音频信息中包含的内容用文本的形式显示。最终将每个子音频中的文本信息制作为对应的字幕文件，字幕文件包含起止时间戳。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

由上可知，本申请实施例提供的音频处理方法可以获取初始音频数据，对初始音频数据的采样率进行转换，对转换采样率后的音频数据进行人声提取处理，将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到多个包含时间戳的子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，构建语种分类模型，并基于语音样本以及对应的真实标签编码对语种分类模型进行训练，将频域特征信息输入至训练好的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，根据语种信息对子音频进行语音识别，根据语音识别结果生成子音频对应的字幕文件。本申请实施例可以对音频数据进行切分并识别出音频所对应的语种信息，基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

为便于更好的实施本申请实施例的音频处理方法，本申请实施例还提供一种音频处理装置。请参阅图5，图5为本申请实施例提供的音频处理装置的一种结构示意图。该音频处理装置可以包括：

切分模块301，用于获取初始音频数据，并将所述初始音频数据切分为多个子音频；

第一处理模块302，用于对所述子音频的音频数据进行傅里叶变换，得到频域数据；

第二处理模块303，用于对所述频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息；

分类模块304，用于将所述频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据所述概率值确定所述子音频对应的语种信息；

识别模块305，用于基于所述语种信息识别所述子音频对应的字幕文件。

在一实施例中，请进一步参阅图6，图6为本申请实施例提供的音频处理装置的另一种结构示意图。其中，切分模块301可以包括：

转换子模块3011，用于对所述初始音频数据的采样率进行转换；

提取子模块3012，用于对转换采样率后的音频数据进行人声提取处理；

切分子模块3013，用于将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，以得到多个包含时间戳的子音频。

在一实施例中，所述音频处理装置还包括：

构建模块306，用于通过卷积层构建特征编码层，基于所述特征编码层提取所述频域特征信息的高维语音特征，对所述高维语音特征进行矩阵变换，通过注意力层或长短时神经网络层构建时序处理器，并将所述矩阵变换后的特征信息通过时序处理器进行映射，将映射后的特征信息通过分类器进行分类，以输出预测的标签编码。

训练模块307，用于获取语音样本对应的频域特征信息以及真实标签编码，通过所述语种分类模型输出所述语音样本的预测标签编码，根据所述真实标签编码与所述预测标签编码计算损失函数，并利用所述损失函数通过反向传播和梯度下降算法对所述语种识别模型进行训练。

由上可知，本申请实施例提供的音频处理装置，通过获取初始音频数据，并将初始音频数据切分为多个子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，基于语种信息识别子音频对应的字幕文件。本申请实施例可以对音频数据进行切分并识别出音频所对应的语种信息，基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机（PC，PersonalComputer）、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图7所示，图7为本申请实施例提供的电子设备的结构示意图。该电子设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备400的各种功能和处理数据，从而对电子设备400进行整体监控。

在本申请实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

对所述子音频的音频数据进行傅里叶变换，得到频域数据；

基于所述语种信息识别所述子音频对应的字幕文件。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图7所示，电子设备400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器（LCD，LiquidCrystal Display）、有机发光二极管（OLED，OrganicLight-Emitting Diode）等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作），并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行应用程序在触控显示屏403上生成图形用户界面。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一电子设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息（例如指纹、虹膜、面部信息等），以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给电子设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图7中未示出，电子设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的电子设备，可以获取初始音频数据，并将初始音频数据切分为多个子音频，对子音频的音频数据进行傅里叶变换，得到频域数据，对频域数据进行梅尔滤波以及离散余弦变换处理，得到频域特征信息，将频域特征信息输入至预训练的语种分类模型，输出多个语种类别所分别对应的概率值，并根据概率值确定子音频对应的语种信息，基于语种信息识别子音频对应的字幕文件。本申请实施例可以对音频数据进行切分并识别出音频所对应的语种信息，基于语种信息识别音频对应的字幕文件，使得最终得到的字幕文件准确性更高。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种音频处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

对所述子音频的音频数据进行傅里叶变换，得到频域数据；

基于所述语种信息识别所述子音频对应的字幕文件。

其中，该存储介质可以包括：只读存储器（ROM，Read OnlyMemory）、随机存取记忆体（RAM，Random AccessMemory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

对所述子音频的音频数据进行傅里叶变换，得到频域数据；

基于所述语种信息识别所述子音频对应的字幕文件。

2.如权利要求1所述的音频处理方法，其特征在于，在对所述子音频的音频数据进行傅里叶变换，得到频域数据之前，所述方法还包括：

3.如权利要求1所述的音频处理方法，其特征在于，所述语种分类模型的构建过程包括：

对所述高维语音特征进行矩阵变换；

4.如权利要求3所述的音频处理方法，其特征在于，所述语种分类模型的训练过程包括：

获取语音样本对应的频域特征信息以及真实标签编码；

通过所述语种分类模型输出所述语音样本的预测标签编码；

5.如权利要求1所述的音频处理方法，其特征在于，所述将所述初始音频数据切分为多个子音频，包括：

对所述初始音频数据的采样率进行转换；

对转换采样率后的音频数据进行人声提取处理；

6.如权利要求5所述的音频处理方法，其特征在于，所述静音时长阈值包括依次递减的多个阈值，所述将提取到的人声音频按照预设音频时长区间以及静音时长阈值进行切分，包括：

7.如权利要求1所述的音频处理方法，其特征在于，所述基于所述语种信息识别所述子音频对应的字幕文件，包括：

根据所述语种信息对所述子音频进行语音识别；

根据语音识别结果生成所述子音频对应的字幕文件。

8.一种音频处理装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-7任一项所述的音频处理方法中的步骤。

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-7任一项所述的音频处理方法中的步骤。