CN111444382A

CN111444382A - 一种音频处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN111444382A
Application number: CN202010236419.2A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-24
Anticipated expiration: 2040-03-30
Also published as: CN111444382B

Abstract

本申请实施例公开了一种音频处理方法、装置、计算机设备以及存储介质，音频处理方法包括：获取样本音频数据的样本频率时间序列；样本频率时间序列包括第一频率特征和第二频率特征；调用样本特征提取模型对第一频率特征编码处理，得到第一频率特征的样本时序特征；调用样本特征预测模型对样本时序特征解码处理，得到处于第二音频时间段上的预测频率特征；根据预测频率特征、第二频率特征和样本特征预测模型，训练样本特征提取模型，得到特征提取模型，特征提取模型用于识别目标音频数据的音频时序特征。采用本申请，可以准确提取音频特征，提高音频识别模型的识别准确率。

Description

一种音频处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频处理方法、装置、计算机设备以及存储介质。

背景技术

随着互联网技术的快速发展及手持录音设备的普及，人们可获取的音频数据呈爆炸式增长。为了有效管理、利用海量音频数据，音频检索成为应用热点。为了实现音频检索，首先需要将音频表示为一个向量或者一个矩阵，这个向量或者这个矩阵可以称为音频特征，音频特征越具有辨识度和区分性，在后续的检索中就越容易检索出满足业务要求的目标音频。

目前，训练一个音频分类模型用于提取音频特征，为了训练音频分类模型每个参与模型训练的样本音频都要携带分类标签，需要专业人士为每个样本音频手动设置分类标签。人工为样本音频设置分类标签效率低下，造成携带分类标签的样本音频数量较少，由少量样本音频训练得到的音频分类模型不能准确提取出音频的深层次特征，会降低后续音频分类模型基于音频特征对音频进行识别的识别精度。

发明内容

本申请实施例提供一种音频处理方法、装置、计算机设备以及存储介质，可以准确提取音频特征，提高对音频的识别精度。

本申请实施例一方面提供了一种音频处理方法，包括：

获取样本音频数据的样本频率时间序列；样本频率时间序列是对样本音频数据进行频谱分析后得到，样本频率时间序列包括第一频率特征和第二频率特征；第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同；

调用样本特征提取模型对第一频率特征编码处理，得到第一频率特征的样本时序特征；

调用样本特征预测模型对样本时序特征解码处理，得到处于第二音频时间段上的预测频率特征；

根据预测频率特征、第二频率特征和样本特征预测模型，训练样本特征提取模型，得到特征提取模型，特征提取模型用于识别目标音频数据的音频时序特征。

本申请实施例一方面提供了一种音频处理方法，包括：

获取目标音频数据的频率时间序列；频率时间序列是对目标音频数据进行频谱分析后得到；频率时间序列包括至少两组单位频率时间序列；

调用特征提取模型分别提取每组单位频率时间序列的单位时序特征；

将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为目标音频数据的音频时序特征；

输出目标音频数据的音频时序特征。

本申请实施例一方面提供了一种音频处理装置，包括：

第一获取模块，用于获取样本音频数据的样本频率时间序列；样本频率时间序列是对样本音频数据进行频谱分析后得到，样本频率时间序列包括第一频率特征和第二频率特征；第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同；

第一调用模块，用于调用样本特征提取模型对第一频率特征编码处理，得到第一频率特征的样本时序特征；

第二调用模块，用于调用样本特征预测模型对样本时序特征解码处理，得到处于第二音频时间段上的预测频率特征；

训练模块，用于根据预测频率特征、第二频率特征和样本特征预测模型，训练样本特征提取模型，得到特征提取模型，特征提取模型用于识别目标音频数据的音频时序特征。

其中，第一音频时间段和第二音频时间段相邻，且第二音频时间段位于第一音频时间段之后；

训练模块，具体用于确定预测频率特征和第二频率特征之间的特征误差，根据特征误差调整样本特征提取模型的模型参数以及样本特征预测模型的模型参数，以及当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时，将调整后的样本特征提取模型作为特征提取模型。

其中，第一获取模块，具体用于将样本音频数据转换为时域信号，将时域信号划分为多个单位时域信号，根据时间采样间隔对单位时域信号采样得到离散单位时域信号，将离散单位时域信号频谱分析得到单位频域信号，根据频率采样间隔对单位频域信号采样得到样本频率特征，将多个样本频率特征组合为样本频率时间序列。

其中，样本特征提取模型是循环神经网络模型，第一频率特征包括第一单位频率特征和第二单位频率特征，第一单位频率特征所属的音频时间段和第二单位频率特征所属的音频时间段相邻；

第一调用模块，具体用于基于循环神经网络模型的隐藏层权重矩阵和循环神经网络模型的原始编码向量，对第一单位频率特征编码处理，得到辅助编码向量，基于隐藏层权重矩阵和辅助编码向量对第二单位频率特征编码处理，得到第一频率特征的样本时序特征。

其中，样本特征预测模型是卷积神经网络模型；

第二调用模块，具体用于基于卷积神经网络模型的卷积层权重矩阵对样本时序特征卷积处理，得到卷积特征，对卷积特征池化处理，得到处于第二音频时间段上的预测频率特征。

本申请实施例一方面提供了一种音频处理装置，包括：

第二获取模块，用于获取目标音频数据的频率时间序列；频率时间序列是对目标音频数据进行频谱分析后得到；频率时间序列包括至少两组单位频率时间序列；

编码模块，用于调用特征提取模型分别提取每组单位频率时间序列的单位时序特征，将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为目标音频数据的音频时序特征；

输出模块，用于输出目标音频数据的音频时序特征。

其中，还包括：

第一响应模块，用于响应于音频时序特征获取请求，获取音频区块链；音频区块链包括第一业务区块，第一业务区块用于存储目标音频数据；

第一响应模块，还用于从音频区块链中的第一业务区块中读取目标音频数据；

则输出模块，具体用于根据目标音频数据的音频时序特征生成第二业务区块，将第二业务区块添加至音频区块链。

其中，还包括：

第二响应模块，用于响应于音频推荐请求，获取查询音频数据，确定查询音频数据的音频时序特征，确定查询音频数据的音频时序特征和目标音频数据的音频时序特征之间的特征相似度，若特征相似度大于相似度阈值，则将目标音频数据作为推荐音频数据。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请通过样本特征提取模型对处于第一音频时间段上的第一频率特征进行编码，以得到第一频率特征的时序特征，通过样本特征预测模型对第一频率特征解码，以预测处于第二音频时间段上的预测频率特征，将处于第二音频时间段上真实的第二频率特征以及处于第二音频时间段上的预测频率特征训练样本特征提取模型。可见，根据音频自身构造用于特征提取模型训练的训练数据，无需为音频数据手动设置分类标签，可以扩大训练数据的数量，基于大量训练数据所训练的特征提取模型可以准确提取出音频的深层次特征，进而提高基于深层次音频特征对音频识别的识别准确率；同时，无需设置分类标签可以提高模型训练效率，降低人力成本；进一步地，通过训练可以捕捉音频时序关系的特征提取模型，还可以提升特征提取模型对音频的时序特征表达能力，时序特征在后续的序列任务上具有明显优势。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理的系统架构图；

图2a-图2c是本申请实施例提供的一种音频处理的场景示意图；

图3是本申请实施例提供的一种音频处理方法的流程示意图；

图4是本申请实施例提供的一种频谱示意图；

图5是本申请实施例提供的一种语言模型的结构示意图；

图6是本申请实施例提供的一种模型训练的示意图；

图7是本申请实施例提供的一种音频处理发方法的流程示意图；

图8是本申请实施例提供的一种区块链的系统架构图；

图9是本申请实施例提供的一种音频处理方法的流程示意图；

图10是本申请实施例提供的一种音频处理装置的结构示意图；

图11是本申请实施例提供的一种音频处理装置的结构示意图；

图12是本发明实施例提供的一种计算机设备的结构示意图；

图13是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请所提供的方案属于人工智能领域下属的语音处理技术以及机器学习/深度学习。本申请通过深度学习训练特征提取模型，该特征提取模型可以提取音频数据的时序特征，该时序特征可以表达音频数据的前后时序关系，时序特征可以应用于分词，词性标注，命名实体识别，关键词抽取等序列任务。

本申请具体涉及深度学习中的人工神经网络模型中的循环神经神经网络模型(RNN，Recurrent Neural Network)以及卷积神经网络模型(CNN，Convolutional NeuralNetworks)。

请参见图1，是本申请实施例提供的一种音频处理的系统架构图。本申请涉及后台服务器10d以及终端设备集群，终端设备集群可以包括：终端设备10a、终端设备10b、...、终端设备10c等。

后台服务器10d获取样本音频数据的样本频率时间序列，样本频率时间序列包括第一频率特征和第二频率特征，且第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段属于两个不同的时间段。调用样本特征提取模型，对第一频率特征编码以得到第一频率特征的样本时序特征，调用样本特征预测模型对样本时序特征解码，以得到处于第二音频时间段的预测频率特征，根据预测频率特征、第二频率特征以及样本特征预测模型训练样本特征提取模型，以得到特征提取模型，该特征提取模型可以提取音频数据的音频时序特征。

后续，后台服务器10d可以将特征提取模型下发至终端设备集群，终端设备集群中的任意终端设备可以基于特征提取模型自动提取待处理音频数据的音频时序特征，以将音频数据转换为一个向量或者一个矩阵，该时序特征可以用于后续的音频检索、精准排序以及其他时序任务等。

其中，图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、可穿戴设备等。

下述图2a以后台服务器10d如何训练样本特征提取模型为例进行具体说明，图2b-图2c以后台服务器10d如何根据训练好的样本特征提取模型自动识别目标音频数据的音频时序特征为例进行具体说明。

请参见图2a-图2c，是本申请实施例提供的一种音频处理的场景示意图。如图2a所示，后台服务器10d获取音频数据20a，将音频数据20a转换为时域信号，时域信号是指音频数据20a在不同时间下的振幅强度。后台服务器10d将时域信号划分为多个单位时域信号，将每个单位时域信号进行频谱分析，以将单位时域信号转换为单位频域信号，单位频域信号是指处于某个时间段内的单位音频数据在不同频率下的振幅强度，音频数据20a可以包括多个单位音频数据。后台服务器10d为对每个单位频域信号采样，将采样得到的振幅强度进行组合即可得到每个单位频域信号分别对应的频率特征。

从多个频率特征中提取出3个频率特征，作为模型训练的一组样本，如图2a所示，假设选择出频率特征20b、频率特征20c以及频率特征20d，且频率特征20b属于第一时间段，频率特征20c属于第二时间段，频率特征20d属于第三时间段；在时间轴上第一时间段、第二时间段和第三时间段相邻，且第一时间段在前，第二时间段居中，第三时间段最后。

后台服务器10d将频率特征20b输入循环神经网络模型20e，循环神经网络模型20e对频率特征20b编码，输出隐藏向量H1，将隐藏向量H1以及频率特征20c再输入循环神经网络模型20e，循环神经网络模型20e基于隐藏向量H1对频率特征20c编码，输出隐藏向量H2。此时的隐藏向量H2即是频率特征20b以及频率特征20c的时序特征，该时序特征记忆了频率特征20b和频率特征20c的时序关系。为了确定特征误差，还需要对时序特征(即隐藏向量H2)进行深度建模，可以采用卷积神经网络模型20f对上述时序特征进行深度建模，即是将上述隐藏向量H2输入卷积神经网络模型20f，以对隐藏向量H2进行卷积和池化，输出处于第三时间段的预测特征20f。后台服务器10d采用预设的损失函数确定预测特征20f以及处于第三时间段的真实的频率特征20d之间的误差，通过反向传播将该误差传播回卷积神经网络模型20f和循环神经网络模型20e，以调整卷积神经网络模型20f的模型参数和循环神经网络模型20e的模型参数。

需要说明的是，上述将2个频率特征作为模型输入是根据循环神经网络模型20e的输入层数量来决定的，循环神经网络模型的输入层数量可以根据业务需求来确定，换句话说，本申请对输入模型的音频特征的数量没有限定。

至此，就完成了对卷积神经网络模型20f和循环神经网络模型20e的一次训练，后续可以从剩余的频率特征中再选择选择3个频率特征作为下一组样本，以继续训练卷积神经网络模型20f和循环神经网络模型20e。

当模型参数调整后的卷积神经网络模型20f和循环神经网络模型20e达到模型收敛条件时，后台服务器10d可以停止训练。此时调整后的循环神经网络模型可以很好的提取音频数据的时序特征，音频数据的时序特征在时序任务中具有明显优势。

下面描述训练好的循环神经网络模型的使用过程：请参见图2b，获取当前待处理的音频数据30a，将音频数据30a转换为时域信号。后台服务器10d将时域信号划分为多个单位时域信号，将每个单位时域信号进行频谱分析，以将单位时域信号转换为单位频域信号。后台服务器10d为对每个单位频域信号采样，即可得到每个单位频域信号分别对应的频率特征。此处，从音频数据30a中提取出频率特征和前述图2a所描述的从频数据30a中提取出频率特征的过程相同。如图2b所示，假设后台服务器10d从音频数据30a中提取出频率特征30b、频率特征30c以及频率特征30d。

后台服务器10d将频率特征30b输入循环神经网络模型20e(此时的循环神经网络模型20e已经训练好了)，循环神经网络模型20e对频率特征30b编码，输出隐藏向量H1，将隐藏向量H1以及频率特征30c输入循环神经网络模型20e，循环神经网络模型20e基于上述隐藏向量H1对频率特征30c编码，输出隐藏向量H2。此时的隐藏向量H2即是频率特征30b以及频率特征30c的时序特征。

后台服务器10d将频率特征30c输入循环神经网络模型20e，循环神经网络模型20e对频率特征30c编码，输出隐藏向量H1，将隐藏向量H1以及频率特征30d输入循环神经网络模型20e，循环神经网络模型20e基于上述隐藏向量H1对频率特征30d编码，输出隐藏向量H2。此时的隐藏向量H2即是频率特征30c以及频率特征30d的时序特征。

后台服务器10d可以将上述2个时序特征直接组合为音频数据30a的时序特征30e，此时的时序特征30e就是一个矩阵；后台服务器10d也可以将频率特征30b和频率特征30c的时序特征池化为一个数值，以及将频率特征30c和频率特征30d的时序特征池化为一个数值。将上述2个数值组合为音频数据30a的时序特征30e，此时的时序特征30e就是一个向量。

至此，基于训练好的循环神经网络模型20e就提取了音频数据30a的时序特征30e，从上述可知，卷积神经网络模型20f不参与音频数据的时序特征的提取。当音频数据是歌曲时，后台服务器10d可以采用相同的方式提取不同歌曲的时序特征，将歌曲的时序特征以及歌曲的标识关联存储至数据库。当进行音频检索时，可以直接从数据库中查找满足检索条件的歌曲。检索过程如下：

请参见图2c，若当前场景为用户输入一段音频数据，后台服务器10d需要从歌曲数据库中查找中与用户输入的音频数据最相似的歌曲作为推荐歌曲。后台服务器10d获取用户输入的音频数据40a，基于循环神经网络模型提取音频数据40a的时序特征40e，提取音频数据40a的时序特征40e的过程和前述图2b所示描述的提取音频数据30a的时序特征30e的过程相同。

后台服务器10d可以计算时序特征40e与数据库中的多个时序特征之间的余弦相似度，将余弦相似度最大的k个时序特征所对应的歌曲作为推荐歌曲，后台服务器10d可以向用户返回查找到的推荐歌曲。

其中，获取第一频率特征(如上述实施例中的频率特征20b以及频率特征20c)和第二频率特征(如上述实施例中的频率特征20d)，调用样本特征提取模型(如上述实施例中的循环神经网络模型20e)对第一频率特征编码以得到样本时序特征，调用样本特征预测模型对样本时序特征解码以得到预测频率特征(如上述实施例中的预测特征20f)的具体过程可以参见下述图3-图6对应的实施例。

请参见图3，是本申请实施例提供的一种音频处理方法的流程示意图，本实施例主要涉及特征提取模型的训练过程，音频处理方法可以包括如下步骤：

步骤S101，获取样本音频数据的样本频率时间序列；样本频率时间序列是对样本音频数据进行频谱分析后得到，样本频率时间序列包括第一频率特征和第二频率特征；第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同。

由于模型训练涉及大量的运算，下述实施例以性能更好的服务器为执行主体进行描述：

具体的，服务器(如上述图2a-图2c对应实施例中的后台服务器10d)获取用于模型训练的音频数据，称为样本音频数据(如上述图2a对应实施例中的音频数据20a)，对样本音频数据进行频谱分析得到该样本音频数据对应的样本频率时间序列，频谱分析是指找出音频数据在不同频率下的振幅(功率、强度或相位等)。样本频率时间序列包括多个样本频率特征，每个样本频率特征都对应一个音频时间段，各样本频率特征对应的音频时间段各不相同。

下面对如何获取样本音频数据的样本频率时间序列进行具体的说明：

服务器可以将样本音频数据表示为时域信号，时域信号是指样本音频数据在不同时间下的振幅(功率、强度或相位等)，即时域信号的横坐标是时间t，纵坐标是振幅(功率、强度或相位等)。服务器将时域信号划分为多个单位时域信号，划分的原则是多个单位时域信号分别对应的时长尽可能的相同。下述以一个单位时域信号为例进行说明：获取时间采样间隔(时间采样间隔可以是0.1秒)，根据时间采样间隔对单位时域信号采样，得到离散单位时域信号。服务器将离散单位时域信号进行频谱分析得到单位频域信号，服务器获取频率采样间隔，根据频率采样间隔对单位频域信号采样，将采样得到的振幅(功率、强度或相位等)组合为样本频率特征。其中，将离散单位时域信号进行频谱分析以得到单位频域信号可以采用快速傅里叶变换(Fast Fourier Transform，FFT)、梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)、离散傅里叶变换(Discrete FourierTransform，DFT)等等。

举例来说，单位时域信号所属的音频时间段为0秒-3秒，且时间采样间隔为0.1秒，那么在上述单位时域信号中可以采样30次，将30次采样得到的时间-振幅(功率、强度或相位等)组合为离散单位时域信号。对离散单位时域信号进行频谱分析，得到单位频域信号，单位频域信号的横坐标是频率f，纵坐标是振幅(功率、强度或相位等)。若单位频域信号的频率的上下限是0-F，且频率采用间隔是10hz，那么从该单位频域信号中可以采用出F/10个振幅(功率、强度或相位等)，将采样出的F/10个振幅(功率、强度或相位等)组合为样本频率特征。对应到音乐上，音乐的某些部分低音很重，那这些部分的样本频率特征的低频值就很大，有些部分高音很高，那这些部分的样本频率特征的高频值很大。

其余的单位时域信号都可以采用相同的方式确定与之对应的样本频率特征，可以知道，每个样本频率特征是一个向量且对应一个音频时间段，向量维度都相同，多个向量中同一个位置的数值表示在不同音频时间段，但相同频率下的振幅(功率、强度或相位等)。

请参见图4，是本申请实施例提供的一种频谱示意图，在图4中横轴表示时间，图4所表示的时域信号被划分为4个单位时域信号，每个单位时域信号的时长大约为1.75秒，每个单位时域信号对应的频率是竖轴，频率的上下限为110hz～3520hz，颜色深浅代表不同频率对应的振幅(功率、强度或相位等)的大小。

服务器可以将多个样本频率特征组合为样本频率时间序列，下述以样本音频时间序列包括第一频率特征(如上述图2a-图2c对应实施例中的频率特征20b以及频率特征20c)和第二频率特征(如上述图2a-图2c对应实施例中的频率特征20d)为例进行说明，当然第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段不同，且第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段在时间轴上相邻。

步骤S102，调用样本特征提取模型对第一频率特征编码处理，得到第一频率特征的样本时序特征。

具体的，服务器调用样本特征提取模型(如上述图2a-图2c对应实施例中的循环神经网络模型20e)对第一频率特征进行编码处理，以得到第一频率特征的时序特征(称为样本时序特征)。样本特征提取模型可以是语言模型，语言模型本质上是在回答一个问题：出现的语句是否合理。在历史的发展中，语言模型经历了专家语法规则模型，统计语言模型，神经网络语言模型。假设有一个文本序列{我爱中国}，语言模型的目的，就是要最大化P(我)*P(爱|我)*P(中|我，爱)*P(国|我，爱，中)的概率，也就是当出现“我”的时候，希望下一个词是“爱”，当出现“我爱”的时候，希望下一个字词“中”。也就是说，语言模型希望能预测出当前文本序列的下一个词，即P(xi|x1,x2,...xi-1)。目前语言模型应用最广泛的是RNN(Recurrent Neural Network，循环神经神经网络模型)，RNN结构可以参见图5。

如图5所示，将每个字/词转换为向量表示，将它们输入RNN，输出一个隐藏向量h(此处的隐藏向量h也可以表示为输入字符序列的时序特征)，将隐藏向量h输入分类层，分类层输出一个向量，该向量的每一个分量表示每个已知字/词的置信度，将置信度最大的字/词作为预测输入序列的下一个字/词。如图5所示，置信度最大的字/词是“国”，说明预测输入序列“我爱中”的下一个字/词是“国”。

但是对于音频数据来说，并不是由多个字/词构成，而是由多个频率向量来表示这个音频数据，所以无法直接用图5所示的模型来提取音频数据的时序特征，还需要对RNN输出的隐藏向量h进行重建，具体过程如下：

本申请的样本特征提取模型可以是循环神经网络模型，循环神经网络模型包括输入层和隐藏层，输入层数量和第一频率特征中所包含的样本频率特征的数量相同，每个输入层对应一个样本频率特征。若第一频率特征所包含的样本频率特征的数量为1(即循环神经网络模型的输入层的数量为1)，那么直接将第一频率特征输入循环神经网络模型，循环神经网络模型的输出即是第一频率特征的样本时序特征。

若第一频率特征包括多个样本频率特征，下述以第一频率特征包括两个样本频率特征为例进行说明，第一频率特征包括第一单位频率特征和第二单位频率特征，且第一单位频率特征所属的音频时间段和第二单位频率特征所属的音频时间段在时间轴上相邻。

将第一单位频率特征输入循环神经网络模型，基于循环神经网络模型中的隐藏层权重矩阵和循环神经网络模型的原始编码向量，对第一单位频率特征进行编码处理，得到辅助编码向量，这个过程可以用下述公式(1)表示：

H1＝f(U·X1+W·H0) (1)

其中，公式(1)中的H1表示辅助编码向量，函数f()表示激活函数，U,W表示隐藏层权重矩阵，X1表示第一单位频率特征，H0表示循环神经网络模型的原始编码向量。

再将第二单位频率特征输入循环神经网络模型，基于循环神经网络模型中的隐藏层权重矩阵和辅助编码向量，对第二单位频率特征进行编码处理，得到第一频率特征的样本时序特征，这个过程可以用下述公式(2)表示：

H2＝f(U·X2+W·H1) (2)

其中，公式(2)中的H2表示第一频率特征的样本时序特征，函数f()表示激活函数，U,W表示隐藏层权重矩阵，X2表示第二单位频率特征，H1表示辅助编码向量。

需要说明的是，本申请的样本特征提取模型可以是循环神经网络模型，还可以是长短期记忆网络模型(LSTM，Long Short-Term Memory)。

步骤S103，调用样本特征预测模型对样本时序特征解码处理，得到处于第二音频时间段上的预测频率特征。

具体的，由于图5所示的语言模型是把h输入到分类层，来预测下一个是哪个字/词。但本申请的样本频率特征是一个向量，不是一个字，无法用多分类的方式来处理(因为向量的取值是无穷无尽的，不存在说从有限的几个向量里预测出某一个)，所以我们需要对样本特征提取模型输出的样本时序特征进行深度建模，具体过程如下：

服务器调用样本特征预测模型(如上述图2a-图2c对应实施例中的卷积神经网络模型20f)，对第一频率特征的样本时序特征进行解码处理，以得到处于第二音频时间段上的预测频率特征。样本特征预测模型可以是卷积神经网络模型，也可以是Auto-Encoding自动编码器。卷积神经网络模型可以包括卷积层和池化层。

服务器将样本时序特征输入卷积神经网络模型，基于卷积神经网络模型的卷积层对样本时序特征进行卷积处理，以提取卷积特征，基于卷积神经网络模型的池化层对卷积特征进行池化处理，以得到处于第二音频时间段上的预测频率特征，预测频率特征可以是一个向量，且预测频率特征的向量维度与第二频率特征的向量维度相同。

步骤S104，根据预测频率特征、第二频率特征和样本特征预测模型，训练样本特征提取模型，得到特征提取模型，特征提取模型用于识别目标音频数据的音频时序特征。

具体的，服务器采用误差函数计算预测频率特征和第二频率特征之间的特征误差，根据特征误差反向调整样本特征提取模型的模型参数(即是调整样本特征提取模型中的隐藏层权重矩阵U,W)以及调整样本特征预测模型的模型参数，其中误差函数还可以是计算余弦相似度的函数，此处的误差函数可以是余弦相似度。

至此，就完成了对样本特征提取模型的一次训练。服务器可以从样本频率时间序列中采用窗口滑动的形式确定下一组第一频率特征和第二频率特征，继续训练样本特征提取模型。举例来说，样本频率时间序列包括样本频率特征1、样本频率特征2、样本频率特征3以及样本频率特征4，服务器可以首先将样本频率特征1和样本频率特征2作为第一频率特征，将样本频率特征3作为第二频率特征，基于这一组第一频率特征和第二频率特征对样本特征提取模型进行一次训练；下一次可以将样本频率特征2和样本频率特征3作为新的第一频率特征，将样本频率特征4作为新的第二频率特征，基于这一组第一频率特征和第二频率特征对样本特征提取模型再进行一次训练。不断循环，不断调样本特征提取模型的模型参数。

当调整次数达到次数阈值，或者调整前模型参数和调整后的模型参数小于参数差异量阈值，或者特征误差小于特征差异量阈值，说明此时样本特征提取模型和样本特征预测模型满足模型收敛条件。当样本特征提取模型和样本特征预测模型均满足模型收敛条件时，将此时的样本特征提取模型作为特征提取模型，特征提取模型可以用于提取目标音频数据的音频时序特征。

请参见图6，是本申请实施例提供的一种模型训练的示意图，图6中的循环神经网络模型可以对应本申请中的样本特征提取模型，卷积神经网络模型可以对应本申请中的样本特征预测模型。G3，G4以及G5可以对应本申请中第一频率特征，G6可以对应本申请中第二频率特征。将G3，G4以及G5依次输出循环神经网络模型，循环神经网络模型输出G3，G4以及G5的时序特征h，将时序特征h输入卷积神经网络模型，卷积神经网络模型对时序特征h解码，得到与G6处于相同音频时间段的预测频率特征G6’。我们希望G6’向G6靠拢(理想情况下G6’和G6完全相同)，于是可以用G6’和G6的余弦相似度来衡量他俩的差异性。所以模型在训练时，就需要最大化余弦相似度，从而使得循环神经网络模型和+卷积神经网络模型能够根据G3 G4 G5预测出下一个是G6。

以上描述了服务器如何基于音频数据本身构造用于训练样本特征提取模型的训练数据，下面对训练好的特征提取模型的使用过程进行说明：

服务器获取当前待提取特征的目标音频数据，对目标音频数据进行频谱分析得到频率时间序列，其中获取频率时间序列的和前述中获取样本频率时间序列的过程相同，只是处理对象由样本音频数据变为了目标音频数据，频率时间序列包括多个目标频率特征。获取特征提取模型的输入层的数量，以及根据输入层数量和滑动步长将频率时间序列中的多个目标频率特征划分为多组单位频率时间序列，每组单位频率时间序列中所包含的目标频率特征的数量等于输入层的数量。服务器调用特征提取模型对每个单位频率时间序列分别进行编码处理，以提取每个单位频率时间序列的单位时序特征。服务器可以将多个单位时序特征组合为隐藏特征，直接将隐藏特征作为目标音频数据的音频时序特征；服务器也可以对每个单位时序特征进行池化处理，得到每个单位时序特征的池化处理结果，服务器将所有的池化处理结果组合为目标音频数据的音频时序特征。

根据音频自身构造用于特征提取模型训练的训练数据，无需为音频数据手动设置分类标签，可以扩大训练数据的数量，基于大量训练数据所训练的特征提取模型可以准确提取出音频的深层次特征，进而提高基于深层次音频特征对音频识别的识别准确率；同时，无需设置分类标签可以提高模型训练效率，降低人力成本；进一步地，通过训练可以捕捉音频时序关系的特征提取模型，还可以提升特征提取模型对音频的时序特征表达能力，时序特征在后续的序列任务(例如，分词，词性标注，命名实体识别，关键词抽取)上具有明显优势。

请参见图7，是本申请实施例提供的一种音频处理方法的流程示意图，本实施例主要涉及特征提取模型的使用过程，使用特征提取模型的执行主体可以是终端设备，且该特征提取模型可以是前述中的服务器下发至终端设备的。需要说明的是，在样本特征提取模型的训练阶段有样本特征预测模型的参与，但后续提取音频数据的音频时序特征时样本特征预测模型就不再参与。

下述以终端设备为执行主体进行说明，当然除了由终端设备来使用特征提取模型也可以是服务器使用特征提取模型：

步骤S201，获取目标音频数据的频率时间序列；频率时间序列是对目标音频数据进行频谱分析后得到；频率时间序列包括至少两组单位频率时间序列。

具体的，终端设备获取当前待提取特征的音频数据(称为目标音频数据，图上述图2a-图2c对应实施例中的音频数据30a)，将目标音频数据转换为目标时域信号，目标时域信号的横轴表示时间，纵轴表示振幅(功率、强度或相位等)。终端设备将目标时域信号划分为多个目标单位时域信号，根据预设的时间采样间隔对每个目标单位时域信号采样，得到多个目标离散时域信号，对每个目标离散时域信号分别进行频谱分析得到目标单位频域信号，目标单位频域信号的横轴表示频率，纵轴表示振幅(功率、强度或相位等)。根据预设的频率采样间隔对每个目标单位频域信号采样，得到多个目标频率特征，目标频率特征的数量和目标单位时域信号的数量相同，且每个目标频率特征所属的音频时间段都各不相同。终端设备将所有的目标频率特征组合为频率时间序列(如上述图2a-图2c对应实施例中的频率特征30b、频率特征30c以及频率特征30e)。

获取频率时间序列的和前述中获取样本频率时间序列的过程相同，只是处理对象由样本音频数据变为了目标音频数据。

获取特征提取模型的输入层的数量，以及根据输入层数量和滑动步长将频率时间序列中的多个目标频率特征划分为多组单位频率时间序列，每组单位频率时间序列中所包含的目标频率特征的数量等于输入层的数量，频率时间序列包括至少2组单位频率时间序列。

举例来说，特征提取模型的输入层的数量为3，频率时间序列包括5个目标频率特征，分别为目标频率特征1、目标频率特征2、目标频率特征3、目标频率特征4以及目标频率特征5，且滑动步长为1。终端设备可以将目标频率特征1、目标频率特征2、目标频率特征3组合为单位频率时间序列1；将目标频率特征2、目标频率特征3、目标频率特征4组合为单位频率时间序列2；将目标频率特征3、目标频率特征4以及目标频率特征5组合为单位频率时间序列3。

步骤S202，调用特征提取模型分别提取每组单位频率时间序列的单位时序特征，将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为目标音频数据的音频时序特征。

下面以一组单位频率时间序列为例进行说明：

终端设备调用特征提取模型对单位频率时间序列进行编码处理，以提取单位频率时间序列的时序特征(称为单位时序特征)。确定单位时序特征的过程和前述中确定第一频率特征的样本时序特征的过程相同，只是处理对象由第一频率特征变为了单位频率时间序列。

对其余的单位频率时间序列的都采用相同的方式确定与之对应的单位时序特征，终端设备可以对每个单位时序特征进行池化处理，得到每个单位时序特征的池化处理结果。此处的池化处理可以是最大池化处理，也可以是平均池化处理，其中最大池化处理是指在单位时序特征中找出最大的数值作为该单位时序特征的池化处理结果；平均池化处理是指将单位时序特征的平均值作为该单位时序特征的池化处理结果。

举例来说，单位时序特征为：[1,3,5,2]，若对该单位时序特征进行最大池化处理，该单位时序特征的池化处理结果为：5；若对该单位时序特征进行平均池化处理，该单位时序特征的池化处理结果为：(1+3+5+2)/4＝2.75。

终端设备将所有的池化处理结果组合为目标音频数据的音频时序特征，当然此时的音频时序特征是一个向量。

或者，终端设备可以将多个单位时序特征组合为隐藏特征，以及直接将隐藏特征作为目标音频数据的音频时序特征，当然此时目标音频数据的音频时序特征是一个矩阵。

可选的，下面以服务器为执行主体对特征提取模型的训练过程进行说明：

服务器获取样本音频数据的样本频率时间序列，样本频率时间序列包括第一频率特征和第二频率特征，第一频率特征属于第一音频时间段，第二频率特征属于第二音频时间段。调用样本特征提取模型对第一频率特征编码，得到第一频率特征的样本时序特征，调用样本特征预测模型对样本时序特征解码，得到处于第二音频时间段的预测频率特征，根据第二音频时间段上的真实的第二频率特征和预测频率特征训练样本特征预测模型和样本特征提取模型。当训练后的样本特征预测模型和样本特征提取模型均满足模型收敛条件时，将此时的样本特征提取模型作为特征提取模型。样本特征提取模型的具体训练过程可以参见上述图3对应实施例中的步骤S101-步骤S104。

步骤S203，输出目标音频数据的音频时序特征。

可选的，目标音频数据的音频时序特征可以用于音频检索，音频检索分为两步，第一步是将音频数据表示为一个向量或者一个矩阵(即是本申请的主要内容)；第二步就是基于向量表示或者矩阵表示进行检索，下面对音频时序特征在音频检索过程中的应用进行说明：

用户可以在终端设备中输入查询音频数据，点击“查询”按钮，表示用户希望终端设备推送与查询音频数据相似的音频数据。终端设备生成音频推荐请求，响应于该音频推荐请求，对查询音频数据进行频谱分析得到查询音频数据的查询频率时间序列，其中确定查询频率时间序列，与前述中确定频率时间序列以及确定样本频率时间序列的方式相同，只是将目标音频数据(或者样本音频数据)调整为查询音频数据即可。

终端设备调用特征提取模型对查询频率时间序列编码，得到查询音频数据的音频时序特征，计算查询音频数据的音频时序特征和目标音频数据的音频时序特征之间的特征相似度，其中可以采用余弦相似度来度量两个音频时序特征之间的特征相似度。

若特征相似度大于预设的相似度阈值，则终端设备可以将目标音频数据作为推荐音频数据，并将用户推送推荐音频数据(即是目标音频数据)。

上述可知，本申请通过时间频率序列来表示音频数据，使得音频数据和语言模型可以相结合，进而基于语言模型的动态性可以提取音频数据的时序特征，该时序特征具有记忆性，时序特征在后续的序列任务(例如，分词，词性标注，命名实体识别，关键词抽取)上具有明显优势；同时，音频时序是通过对单位时序特征池化处理后生成的，由于池化处理可以降低数据维度，在保证音频时序特征具有辨识度和区分性的前提下，减少音频时序特征所占用的存储空间，节约存储资源。

本申请中的目标音频数据以及目标音频数据的音频时序特征可以存储在区块链上，因此本申请可以应用于区块链(Block chain)场景下。区块链是分布式数据存储、点对点传输(P2P，Peer To Peer)、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一个或多个交易信息，用于验证其信息的有效性(防伪)和生成下一个区块。

请参见图8，是本申请实施例提供的一种区块链的系统架构图。前述实施例中的服务器以及终端设备均可以为图8中的节点1、或节点2或节点3或节点4，所有的节点可以组合为区块链系统，每个节点都包括硬件层、中间层、操作系统层和应用层。从图8中可以看出，区块链系统的中的每个节点所存储的区块链数据都相同。可以知道，上述节点可以包括计算机设备。下述实施例以目标区块链节点为执行主体进行描述，目标区块链节点是区块链系统中多个节点中的任一节点，目标区块链节点可以对应前述中的终端设备：

请一并参见图9，是本申请实施例提供的一种音频处理方法的流程示意图，音频处理方法包括如下步骤：

步骤S301，响应于音频时序特征获取请求，获取音频区块链；音频区块链包括第一业务区块，第一业务区块用于存储目标音频数据。

具体的，目标区块链节点获取音频时序特征获取请求，获取音频区块链，音频区块链包括多个业务区块，业务区块可以是其他节点根据业务要求将音频数据添加至音频区块链上的。该音频时序特征获取请求携带区块高度，目标区块链节点在音频区块链中，将该区块高度所对应的区块作为第一业务区块，第一业务区块是用于存储目标音频数据。

依托于区块链的完整属性以及不可篡改属性，可以保证目标区块链节点获取到的目标音频数据是可信且未被篡改的，以增加对后续获取音频时序特征的信任度。

步骤S302，从音频区块链中的第一业务区块中读取目标音频数据。

具体的，目标区块链节点从音频区块链上获取第一业务区块，从第一业务区块的区块体中读取目标音频数据。

步骤S303，获取目标音频数据的频率时间序列；频率时间序列是对目标音频数据进行频谱分析后得到；频率时间序列包括至少两组单位频率时间序列。

步骤S304，调用特征提取模型分别提取每组单位频率时间序列的单位时序特征，将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为目标音频数据的音频时序特征。

其中，步骤S303-步骤S304的具体过程可以参见上述图5对应实施例中的步骤S201-步骤S202，只需要将执行主体由终端设备调整为目标区块链节点即可。

步骤S305，根据目标音频数据的音频时序特征生成第二业务区块，将第二业务区块添加至音频区块链。

具体的，目标区块链节点将目标音频数据的音频时序特征存储至区块体，计算上述音频时序特征的默克尔根，获取当前音频区块链的最后一个业务区块的哈希值，目标区块链节点将音频时序特征的默克尔根、当前音频区块链的最后一个业务区块的哈希值以及当前时间戳存储至区块头，目标区块链节点将该区块头以及存储了音频时序特征的区块体组合为第二业务区块，并将第二业务区块添加至目标区块链节点所存储的音频区块链，以及向其余的节点广播第二业务区块，以使其余的节点将第二业务区块添加至各自维护的音频区块链，使得各节点所维护的音频区块链达到同步。

后续，需要执行音频检索的节点可以从音频区块链中读取第二业务区块，以及从第二业务区块中读取目标音频数据的音频时序特征，进而基于目标音频数据的音频时序特征进行音频检索。

上述可知，依托于区块链的完整属性以及不可篡改属性，可以保证目标区块链节点获取到的目标音频数据是可信且未被篡改的，因此基于目标音频数据所提取的音频时序特征也是可信任的，可以保证对音频时序特征的提取过程的安全性。

进一步的，请参见图10，是本申请实施例提供的一种音频处理装置的结构示意图。如图10所示，音频处理装置1可以应用于上述图3-图6对应实施例中的服务器，音频处理装置1可以包括：第一获取模块11、第一调用模块12、第二调用模块13以及训练模块14。

第一获取模块11，用于获取样本音频数据的样本频率时间序列；样本频率时间序列是对样本音频数据进行频谱分析后得到，样本频率时间序列包括第一频率特征和第二频率特征；第一频率特征所属的第一音频时间段和第二频率特征所属的第二音频时间段互不相同；

第一调用模块12，用于调用样本特征提取模型对第一频率特征编码处理，得到第一频率特征的样本时序特征；

第二调用模块13，用于调用样本特征预测模型对样本时序特征解码处理，得到处于第二音频时间段上的预测频率特征；

训练模块14，用于根据预测频率特征、第二频率特征和样本特征预测模型，训练样本特征提取模型，得到特征提取模型，特征提取模型用于识别目标音频数据的音频时序特征。

第一音频时间段和第二音频时间段相邻，且第二音频时间段位于第一音频时间段之后；

训练模块14，具体用于确定预测频率特征和第二频率特征之间的特征误差，根据特征误差调整样本特征提取模型的模型参数以及样本特征预测模型的模型参数，以及当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时，将调整后的样本特征提取模型作为特征提取模型。

第一获取模块11，具体用于将样本音频数据转换为时域信号，将时域信号划分为多个单位时域信号，根据时间采样间隔对单位时域信号采样得到离散单位时域信号，将离散单位时域信号频谱分析得到单位频域信号，根据频率采样间隔对单位频域信号采样得到样本频率特征，将多个样本频率特征组合为样本频率时间序列。

样本特征提取模型是循环神经网络模型，第一频率特征包括第一单位频率特征和第二单位频率特征，第一单位频率特征所属的音频时间段和第二单位频率特征所属的音频时间段相邻；

第一调用模块12，具体用于基于循环神经网络模型的隐藏层权重矩阵和循环神经网络模型的原始编码向量，对第一单位频率特征编码处理，得到辅助编码向量，基于隐藏层权重矩阵和辅助编码向量对第二单位频率特征编码处理，得到第一频率特征的样本时序特征。

样本特征预测模型是卷积神经网络模型；

第二调用模块13，具体用于基于卷积神经网络模型的卷积层权重矩阵对样本时序特征卷积处理，得到卷积特征，对卷积特征池化处理，得到处于第二音频时间段上的预测频率特征。

其中，第一获取模块11、第一调用模块12、第二调用模块13以及训练模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104，这里不再进行赘述。

进一步的，请参见图11，是本申请实施例提供的一种音频处理装置的结构示意图。如图11所示，音频处理装置2可以应用于上述图7对应实施例中的终端设备或者应用于图9对应实施例中的目标区块链节点，音频处理装置2可以包括：第二获取模块21、编码模块22以及输出模块23。

第二获取模块21，用于获取目标音频数据的频率时间序列；频率时间序列是对目标音频数据进行频谱分析后得到；频率时间序列包括至少两组单位频率时间序列；

编码模块22，用于调用特征提取模型分别提取每组单位频率时间序列的单位时序特征，将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为目标音频数据的音频时序特征；

输出模块23，用于输出目标音频数据的音频时序特征。

其中，第二获取模块21、编码模块22以及输出模块23的具体功能实现方式可以参见上述图7对应实施例中的步骤S201-步骤S203，这里不再进行赘述。

请再参见图11，音频处理装置2可以包括第二获取模块21、编码模块22以及输出模块23，还可以包括：第一响应模块24。

第一响应模块24，用于响应于音频时序特征获取请求，获取音频区块链；音频区块链包括第一业务区块，第一业务区块用于存储目标音频数据；

第一响应模块24，还用于从音频区块链中的第一业务区块中读取目标音频数据；

则输出模块23，具体用于根据目标音频数据的音频时序特征生成第二业务区块，将第二业务区块添加至音频区块链。

其中，第一响应模块24以及输出模块23的具体功能实现方式可以参见上述图9对应实施例中的步骤S301-步骤302以及步骤S305，这里不再进行赘述。

音频处理装置2可以包括第二获取模块21、编码模块22以及输出模块23，还可以包括：第二响应模块25。

第二响应模块25，用于响应于音频推荐请求，获取查询音频数据，确定查询音频数据的音频时序特征，确定查询音频数据的音频时序特征和目标音频数据的音频时序特征之间的特征相似度，若特征相似度大于相似度阈值，则将目标音频数据作为推荐音频数据。

其中，第二响应模块25的具体功能实现方式可以参见上述图7对应实施例中的步骤S203，这里不再进行赘述。

进一步地，请参见图12，是本发明实施例提供的一种计算机设备的结构示意图。上述图3-图6对应实施例中的服务器可以为计算机设备1000，如图12所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图12所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

应当理解，本发明实施例中所描述的计算机设备1000可执行前文图3到图6所对应实施例中对音频处理方法的描述，也可执行前文图10所对应实施例中对音频处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的音频处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3到图6所对应实施例中对音频处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

进一步地，请参见图13，是本发明实施例提供的一种计算机设备的结构示意图。上述图7对应实施例中的终端设备以及图9对应实施例中的目标区块链节点可以为电子设备2000，如图13所示，电子设备2000可以包括：用户接口2002、处理器2004、编码器2006以及存储器2008。信号接收器2016用于经由蜂窝接口2010、WIFI接口2012、...、或NFC接口2014接收或者发送数据。编码器2006将接收到的数据编码为计算机处理的数据格式。存储器2008中存储有计算机程序，处理器2004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器2008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器2008可进一步包括相对于处理器2004远程设置的存储器，这些远程存储器可以通过网络连接至电子设备2000。用户接口2002可以包括：键盘2018和显示器2020。

在图13所示的电子设备2000中，处理器2004可以用于调用存储器2008中存储计算机程序，以实现：

输出目标音频数据的音频时序特征。

应当理解，本发明实施例中所描述的电子设备2000可执行前文图7到图9所对应实施例中对音频处理方法的描述，也可执行前文图11所对应实施例中对音频处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的音频处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图7到图9所对应实施例中对音频处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取样本音频数据的样本频率时间序列；所述样本频率时间序列是对所述样本音频数据进行频谱分析后得到，所述样本频率时间序列包括第一频率特征和第二频率特征；所述第一频率特征所属的第一音频时间段和所述第二频率特征所属的第二音频时间段互不相同；

调用样本特征提取模型对所述第一频率特征编码处理，得到所述第一频率特征的样本时序特征；

调用样本特征预测模型对所述样本时序特征解码处理，得到处于所述第二音频时间段上的预测频率特征；

根据所述预测频率特征、所述第二频率特征和所述样本特征预测模型，训练所述样本特征提取模型，得到特征提取模型，所述特征提取模型用于识别目标音频数据的音频时序特征。

2.根据权利要求1所述的方法，其特征在于，所述第一音频时间段和所述第二音频时间段相邻，且所述第二音频时间段位于所述第一音频时间段之后；

所述根据所述预测频率特征、所述第二频率特征和所述样本特征预测模型，训练所述样本特征提取模型，得到特征提取模型，包括：

确定所述预测频率特征和所述第二频率特征之间的特征误差，根据所述特征误差调整所述样本特征提取模型的模型参数以及所述样本特征预测模型的模型参数；

当调整后的样本特征提取模型以及调整后的样本特征预测模型均满足模型收敛条件时，将调整后的样本特征提取模型作为所述特征提取模型。

3.根据权利要求1所述的方法，其特征在于，所述获取样本音频数据的样本频率时间序列，包括：

将所述样本音频数据转换为时域信号，将所述时域信号划分为多个单位时域信号；

根据时间采样间隔对单位时域信号采样得到离散单位时域信号，将所述离散单位时域信号频谱分析得到单位频域信号，根据频率采样间隔对所述单位频域信号采样得到样本频率特征；

将多个样本频率特征组合为所述样本频率时间序列。

4.根据权利要求3所述的方法，其特征在于，所述样本特征提取模型是循环神经网络模型，所述第一频率特征包括第一单位频率特征和第二单位频率特征，所述第一单位频率特征所属的音频时间段和所述第二单位频率特征所属的音频时间段相邻；

所述调用样本特征提取模型对所述第一频率特征编码处理，得到所述第一频率特征的样本时序特征，包括：

基于所述循环神经网络模型的隐藏层权重矩阵和所述循环神经网络模型的原始编码向量，对所述第一单位频率特征编码处理，得到辅助编码向量；

基于所述隐藏层权重矩阵和所述辅助编码向量对所述第二单位频率特征编码处理，得到所述第一频率特征的所述样本时序特征。

5.根据权利要求1所述的方法，其特征在于，所述样本特征预测模型是卷积神经网络模型；

所述调用样本特征预测模型对所述样本时序特征解码处理，得到处于所述第二音频时间段上的预测频率特征，包括：

基于所述卷积神经网络模型的卷积层权重矩阵对所述样本时序特征卷积处理，得到卷积特征；

对所述卷积特征池化处理，得到处于所述第二音频时间段上的所述预测频率特征。

6.一种音频处理方法，其特征在于，包括：

获取目标音频数据的频率时间序列；所述频率时间序列是对所述目标音频数据进行频谱分析后得到；所述频率时间序列包括至少两组单位频率时间序列；

将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为所述目标音频数据的音频时序特征；

输出所述目标音频数据的音频时序特征。

7.根据权利要求6所述的方法，其特征在于，还包括：

响应于音频时序特征获取请求，获取音频区块链；所述音频区块链包括第一业务区块，所述第一业务区块用于存储所述目标音频数据；

从所述音频区块链中的所述第一业务区块中读取所述目标音频数据；

则所述输出所述目标音频数据的音频时序特征，包括：

根据所述目标音频数据的音频时序特征生成第二业务区块，将所述第二业务区块添加至所述音频区块链。

8.根据权利要求6所述的方法，其特征在于，还包括：

响应于音频推荐请求，获取查询音频数据，确定所述查询音频数据的音频时序特征；

确定所述查询音频数据的音频时序特征和所述目标音频数据的音频时序特征之间的特征相似度；

若所述特征相似度大于相似度阈值，则将所述目标音频数据作为推荐音频数据。

9.一种音频处理装置，其特征在于，包括：

第一获取模块，用于获取样本音频数据的样本频率时间序列；所述样本频率时间序列是对所述样本音频数据进行频谱分析后得到，所述样本频率时间序列包括第一频率特征和第二频率特征；所述第一频率特征所属的第一音频时间段和所述第二频率特征所属的第二音频时间段互不相同；

第一调用模块，用于调用样本特征提取模型对所述第一频率特征编码处理，得到所述第一频率特征的样本时序特征；

第二调用模块，用于调用样本特征预测模型对所述样本时序特征解码处理，得到处于所述第二音频时间段上的预测频率特征；

训练模块，用于根据所述预测频率特征、所述第二频率特征和所述样本特征预测模型，训练所述样本特征提取模型，得到特征提取模型，所述特征提取模型用于识别目标音频数据的音频时序特征。

10.一种音频处理装置，其特征在于，包括：

第二获取模块，用于获取目标音频数据的频率时间序列；所述频率时间序列是对所述目标音频数据进行频谱分析后得到；所述频率时间序列包括至少两组单位频率时间序列；

编码模块，用于调用特征提取模型分别提取每组单位频率时间序列的单位时序特征，将每个单位时序特征分别池化处理，将每个单位时序特征的池化处理结果组合为所述目标音频数据的音频时序特征；

输出模块，用于输出所述目标音频数据的音频时序特征。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8中任一项所述方法的步骤。

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-8任一项所述的方法。