CN111309966A

CN111309966A - 音频匹配方法、装置、设备及存储介质

Info

Publication number: CN111309966A
Application number: CN202010202160.XA
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-06-19
Anticipated expiration: 2040-03-20
Also published as: CN111309966B

Abstract

本申请公开了一种音频匹配方法、装置、设备及存储介质，属于多媒体处理领域。该方法包括：获取第一音频的第一特征向量和第二音频的第二特征向量；调用长短记忆LSTM神经网络层对第一特征向量和第二特征向量进行融合，得到第一音频和第二音频的预测向量；调用分类层对预测向量进行预测，得到第一音频和第二音频的相似概率。通过在音频匹配模型中构建LSTM神经网络，使得构建有LSTM神经网络的音频匹配模型能够预测不同歌曲之间的相似度，从而取得精度较高的相似度计算结果，同时简化了音频匹配模型的结构，降低服务器负载。

Description

音频匹配方法、装置、设备及存储介质

技术领域

本申请涉及多媒体处理领域，特别涉及一种音频匹配方法、装置、设备及存储介质。

背景技术

音频匹配是指根据音频之间的相似度判断音频之间是否存在关系。按照匹配类型来分，音频匹配包括：音频片段匹配和全音频匹配。音频片段匹配是指给定一个音频片段Q，判断音频片段Q是否属于音频D的一部分。全音频匹配是指给定一个音频A，判断音频A和音频B的相似性。

相关技术中，音频匹配均是从音频信号处理的角度，通过提取音频信号的若干特征，借助于音频指纹技术(选取音频信号中比较显著的时间频率点，编码为数字，该数字被命名为指纹)，将音频匹配转化为不同数字间的检索问题，从而得到音频之间的匹配程度。

由于音频片段匹配针对同一乐曲的音频片段和全音频进行匹配，所以基于信号处理的音频指纹技术在音频片段匹配的场景下具有较好的匹配效果，但是在全音频匹配的场景下，需要对不同的两首歌曲计算相似度，此时音频指纹技术的应用受限，无法取得较好的匹配效果。

发明内容

本申请实施例提供了一种音频匹配方法、装置、设备及存储介质，能够通过LSTM神经网络预测全音频的相似概率。所述技术方案如下：

根据本申请的一个方面，提供了一种音频匹配方法，所述方法包括：

获取第一音频的第一特征向量和第二音频的第二特征向量；

调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合，得到所述第一音频和所述第二音频的预测向量；

调用分类层对所述预测向量进行预测，得到所述第一音频和所述第二音频的相似概率。

根据本申请的另一方面，提供了一种音频匹配装置，所述装置包括：

获取模块，用于获取第一音频的第一特征向量和第二音频的第二特征向量；

LSTM神经网络模块，用于对所述第一特征向量和所述第二特征向量进行融合，得到所述第一音频和所述第二音频的预测向量；

分类模块，用于对所述预测向量进行预测，得到所述第一音频和所述第二音频的相似概率。

在一个可选的实施例中，所述LSTM神经网络模块包括第一单向LSTM神经网络模块、第二单向LSTM神经网络模块和第三单向LSTM神经网络模块；

所述第一单向LSTM神经网络模块，用于对所述第一特征向量进行融合，得到第一输出向量；

所述第二单向LSTM神经网络模块，用于对所述第二特征向量和所述第一输出向量进行融合，得到第二输出向量；

所述第三单向LSTM神经网络模块，用于对所述第一特征向量和所述第二输出向量进行融合，得到所述第一音频和所述第二音频的预测向量。

在一个可选的实施例中，所述装置包括训练模块；

所述训练模块，用于根据音频属性特征对所述音频库中的音频进行聚类，得到音频类簇，所述音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度；根据所述音频类簇中的音频生成候选音频对，所述候选音频对中包含两段音频，且所述两段音频属于同一音频类簇或不同音频类簇；根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对，其中，所述音频正样本对中的音频属于同一音频类簇，所述音频负样本对中的音频属于不同音频类簇；根据所述音频正样本对和所述音频负样本对音频匹配模型进行训练，所述音频匹配模型包括所述LSTM神经网络模块和所述分类模块。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的音频匹配方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的音频匹配方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过LSTM神经网络层将第一音频的第一特征向量和第二音频的第二特征向量进行融合，并通过分类层得到第一音频和第二音频的相似概率，使得构建有LSTM神经网络层的音频匹配模型能够预测不同的全音频之间的相似度，从而取得精度较高的相似度计算结果，同时简化了音频匹配模型的结构，降低服务器负载。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的音频的频谱图；

图2是本申请一个示例性实施例提供的音频匹配模型的结构框图；

图3是本申请一个示例性实施例提供的计算机系统的框图；

图4是本申请一个示例性实施例提供的应用场景示意图；

图5是本申请一个示例性实施例提供的音频匹配方法的流程图；

图6是本申请一个示例性实施例提供的长短记忆神经网络的结构示意图；

图7是本申请另一个示例性实施例提供的音频匹配方法的流程图；

图8是本申请一个示例性实施例提供的音频匹配模型的匹配流程的框图；

图9是本申请一个示例性实施例提供的音频匹配模型的训练方法的流程图；

图10是本申请另一个示例性实施例提供的音频匹配模型的匹配流程的框图；

图11是本申请一个示例性实施例提供的音频特征的提取方法的流程图；

图12是本申请一个示例性实施例提供的音频召回场景的示意图；

图13是本申请一个示例性实施例提供的音频推荐场景的示意图；

图14是本申请另一个示例性实施例提供的音频匹配装置的框图；

图15是本申请一个示例性实施例提供的服务器的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

长短记忆神经网络(Long Short Term Memory，LSTM)：是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，属于循环神经网络(Recurrent Neural Network，RNN)中的一种。

在一个示例中，当预测“云彩在X中”X的内容时，相关信息“云彩”与预测的答案X“天空”的位置之间的间隔较小，循环神经网络会根据相关信息预测出“天空”，但如果预测“我在法国长大，我会说一口流利的Y”时，需要预测的答案Y是一种语言(法语)，由于Y与“法国”之间的间隔较长，此时运用循环神经网络预测Y的内容，可能会产生预测失败的问题，而运用LSTM神经网络预测的方式则能够避免产生此类问题。

LSTM神经网络具有“门”结构(包括输入门、遗忘门和输出门)，能够消除或者增加信息到细胞状态(Cell)的能力，使得LSTM神经网络能够记住长期的信息。

频谱图：是指通过图像的形式表示音频信号的时间序列和频率序列之间的关系。如图1所示，频谱图的横轴是时间(单位为秒)，对应有音频的四个时域序列分组，纵轴是时间段对应的频率，表示每个时域序列分组的频域序列。以时段一为例，时间段在1.75秒左右，即每隔1.75秒分割一个时间片段，每个时间片段对应的频率是纵轴，频率在110赫兹(Hz)至3520赫兹(Hz)之间，以横线的颜色深浅代表不同频率对应的值的大小。

基于图像可以表示成二维矩阵(矩阵中的每个值都是像素点值)，文本可以表示成二维矩阵(行向量代表文本的每个词，列向量代表文本中每个词的词向量)，但音频信号与图像、文本两种类型的信息存在如下区别：

1、图像矩阵中每个值均表示像素点的排列，而音频信号的频谱图的横轴跟文本矩阵中的行向量代表的含义类似，两者均代表了时间顺序，是一个时间序列。

2、文本矩阵中的列向量代表词语的词向量，但词向量的每个值是无物理含义的，而音频信号的频谱图的纵轴代表不同频率，是具有物理含义的。

基于上述区别，本申请提供了一种音频匹配方法，采用LSTM神经网络构建音频匹配模型，能够对全音频进行预测，得到全音频之间的相似概率。

图2示出了本申请一个示例性实施例提供的音频匹配模型的结构框图。音频匹配模型110包括特征提取层103、LSTM神经网络层104和分类层105。

示意性的，待匹配的音频是第一音频和第二音频，该第一音频和第二音频是全音频，即完整的音频，本申请实施例以全音频为完整的乐曲为例。将第一音频的第一时频序列和第二音频的第二时频序列输入特征提取层103中，时频序列包括时间序列和频率序列。第一时频序列和第二时频序列可分别从第一音频对应的第一频谱图和第二音频对应的第二频谱图中获取。在一些实施例中，服务器实时从音频的时频序列中提取特征向量，或者，服务器预先从音频的时频序列中提取出特征向量，并存储该特征向量，在使用时根据音频标识直接获取音频的特征向量，提高音频模匹配型的匹配效率。

通过特征提取层103从第一音频中提取第一特征向量，从第二音频中提取第二特征向量。将第一特征向量和第二特征向量输入至LSTM神经网络层104，LSTM神经网络层104包括三层单向LSTM神经网络：第一单向LSTM神经网络层1041、第二单向LSTM神经网络层1042和第三单向LSTM神经网络层1043，三层单向LSTM神经网络分层次对第一音频特征和第二音频特征进行处理，输出第一音频和第二音频的预测向量，将预测向量输入至分类层105中，得到第一音频和第二音频的相似概率，从而可根据相似概率判断第一音频和第二音频是否相似。

相比于结构复杂的卷积神经网络，通过三层单向LSTM神经网络对第一音频和第二音频的特征向量进行处理，使得音频匹配模型能够预测全音频的相似概率，并且单向LSTM神经网络层的结构更简单，节省服务器的计算资源。

图3示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括：终端120和服务器140。

终端120运行有支持运行音频的平台，该平台可以是音频播放程序或小程序(依赖宿主程序运行的程序)、音频播放网页、视频播放程序或小程序、视频播放网页中的任意一种。

终端120通过无线网络或有线网络与服务器140相连。

服务器包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的，服务器包括处理器144和存储器142，存储器142又包括特征提取模块1421、LSTM神经网络模块1422和分类模块1423。特征提取模块1421用于提取时频序列中的音频特征，LSTM神经网络模块1422用于融合待匹配音频，得到待匹配音频的预测向量，分类模块1423用于对预测向量进行预测，得到待匹配音频的相似概率。在一些实施例中，服务器140从终端120中获取待匹配音频的时频序列，或者从存储器142中获取待匹配音频的时频序列。

终端120泛指一个或多个终端，比如，上述终端可以仅为一个，或者上述终端为十几个或几百个，或者更多数量，本申请实施例仅以终端120为例进行说明，终端的类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。本申请实施例对终端的数量和类型不加以限定。

如图4所示，音频匹配的应用场景包括离线匹配场景301、近线匹配场景303和在线匹配场景305。

离线匹配场景301中的音频匹配模型的结构比较复杂，但精确度较高，服务器在线下对音频的相似概率进行预测，适合计算资源充足、对精度要求较高的场景。

在线匹配场景305中对音频匹配模型的精度要求不高，但要求较高的实时性，服务器通过在线对音频的相似概率进行预测，当用户查询音频时，将匹配结果快速反馈给用户。

近线匹配场景303的匹配速度介于在线匹配场景和离线匹配场景之间，其音频匹配模型的精度介于在线匹配方式和离线匹配方式之间，服务器可以在线下预先从音频的时频序列中提取音频的特征向量，在线上进行音频匹配时直接根据音频标识获取音频的特征向量，通过线上线下结合的方式提高音频匹配模型的匹配效率。

可以理解的是，三种匹配场景中的音频匹配模型可以分别独立实施，也可以任意组合实施在同一个音频匹配系统中。

本申请针对音频匹配的近线匹配场景，服务器结合线上线下调用音频匹配模型对音频的相似概率进行预测，能够在保证预测结果的精度下，提高音频匹配模型的匹配效率。

图5示出了本申请一个示例性实施例提供的音频匹配方法的流程图，该方法可应用于如图3所示的计算机系统100中的服务器140中。该方法包括如下步骤：

步骤501，获取第一音频的第一特征向量和第二音频的第二特征向量。

第一音频和第二音频是全音频，即完整的音频，如一首完整的流行歌曲，或一首完整的钢琴曲，本申请实施例以音频为完整的乐曲进行说明。

在一些实施例中，第一音频和第二音频是音频片段，如乐曲的前奏部分、间奏部分或一首歌曲的副歌部分。

音频的音频信号包括时域和频域两种维度的表达方式，即音频信号既可以表达为一个时间序列，也可以表达为一个频率序列，简称为时频序列。

在一些实施例中，第一特征向量和第二特征向量是分别从第一音频和第二音频的时频序列中提取到的特征向量，本申请实施例对提取音频特征的方式不加以限定。

在一些实施例中，可通过特征提取层103提取特征向量，如图2所示。特征提取层103是参数固定且已训练后的网络层，本申请实施例对特征提取层的具体实现方式不加以限定。将第一音频的第一时频序列输入至特征提取模层103，得到第一特征向量。示意性的，以m个向量表示第一音频(m为正整数)，则第一特征向量表示为{hA1，hA2，…，hAm}。在一些实施例中，m与特征提取层103中的卷积核的数目对应。同理，将第二时频序列输入至特征提取层103，得到第二特征向量，第二特征向量表示为{hB1，hB2，…，hBk}(k为正整数)。在一些实施例中，k与m相等，或k与m不相等。第一特征向量中的m个向量和第二特征向量中的k个向量的物理含义是一致的，每个向量均由时域向量和频域向量拼接而成，表示音频在时间维度和频率维度的信息。

步骤502，调用LSTM神经网络层对第一特征向量和第二特征向量进行融合，得到第一音频和第二音频的预测向量。

LSTM神经网络的结构如图6所示，LSTM神经网络中包括细胞状态(C_t)600、遗忘门601、输入门602和输出门603。其中，C_t-1与C_t之间的连线表示细胞状态600，用于存储t时刻的记忆信息(t＞0)，圆圈表示运算操作，箭头表示向量的传输方向，各种“门”结构能够让信息选择性通过，用来去除或增加细胞状态中的信息。

在LSTM神经网络中，遗忘门601用于决定哪些信息需要从细胞状态600中被遗忘。遗忘门601以上一层的输出向量h_t-1和本次待输入的向量X_t作为输入，通过一个逻辑回归函数(Sigmoid)得到输出结果，输出结果的取值在[0，1]区间，表示上一层细胞状态(即输出向量h_t-1对应的细胞状态)被遗忘的概率，“1”代表完全保留，“0”代表完全舍弃。

输入门602包括两个部分：第一，使用Sigmoid函数的部分，第二，使用双曲正切(tanh)函数的部分。第一部分用于决定哪些新信息该被加入细胞状态600中，确定哪些新信息要加入后，需要将新信息通过tanh函数转换成能够加入到细胞状态600的形式。示意性的，细胞状态600由C_t-1更新为C_t。

输出门603基于细胞状态600保存的内容来确定输出向量h_t，即选择性地输出细胞状态600保存的内容。输出门也需要使用Sigmoid函数确定哪部分内容需要输出，然后使用tanh函数转换输出内容的形式。

将第一特征向量和第二特征向量输入至LSTM神经网络中，通过遗忘门、输入门、输出门等结构，输出第一音频和第二音频的预测向量。

步骤503，调用分类层对预测向量进行预测，得到第一音频和第二音频的相似概率。

在一些实施例中，通过设置阈值或对相似概率划分等级来进一步确定第一音频和第二音频之间的相似程度，如阈值为80％，当第一音频和第二音频的相似概率高于80％时，服务器确定第一音频和第二音频高度相似，可归属为同一类型的音频。

综上所述，本实施例提供的方法，通过LSTM神经网络层将第一音频的第一特征向量和第二音频的第二特征向量进行融合，并通过分类层得到第一音频和第二音频的相似概率，使得构建有LSTM神经网络层的音频匹配模型能够预测不同歌曲之间的相似度，从而取得精度较高的相似度计算结果，同时简化了音频匹配模型的结构，降低服务器负载。

图7示出了本申请另一个示例性实施例提供的音频匹配方法的流程图。该方法可应用于如图3所示的计算机系统100中的服务器140中。该方法包括如下步骤：

步骤701，获取第一音频的第一特征向量和第二音频的第二特征向量。

第一音频对应有第一时频序列，第二音频对应有第二时频序列。在一些实施例中，第一特征向量和第二特征向量是分别从第一音频和第二音频的时频序列中提取到的特征向量，本申请实施例对提取音频特征的方式不加以限定。

在一些实施例中，第一时频序列可以从第一音频对应的频谱图(第一频谱图)中获取，第二时频序列可以从第二音频对应的频谱图(第二频谱图)中获取。

在一些实施例中，服务器存储第一音频和第二音频，并从第一音频和第二音频中分别提取第一特征向量和第二特征向量。在另一些实施例中，服务器预先从第一音频和第二音频中分别提取出第一特征向量和第二特征向量，并对第一特征向量和第二特征向量进行存储。

以一首歌曲为例，在一个示例中，对歌曲进行时间维度的采样，如每隔0.1秒采样一个音频信号，得到一个离散的时间序列T₁～T_n，T_i表示音频在该采样点上的大小。然后按照固定时间段对时间序列进行组合，如时间段为3秒，采样间隔为0.1秒，则每组时间序列包括30个值(3秒/0.1秒)，以T₁～T₃₀对该30个值进行表示，将该组命名为G₁，示意性的，T₃₁～T₆₀被命名为G₂，以此类推。对每组时间序列(即G₁、G₂……)进行频域变换，得到每组时间序列对应的频率信号。在一些实施例中，频域变换包括快速傅里叶变换(Fast FourierTransform，FFT)、梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)、离散傅里叶变换(Discrete Fourier Transform，DFT)等方式，本申请实施例不限定频域变换的方式。

频率信号代表一组时间序列里面包括的不同频率的分布，对频率信号进行频率维度的采样，比如，每隔10赫兹(Hz)采样一个音频信号，得到一个离散的频率序列。假设频率的上下限分别是0和f，则每组频率序列中包括f/10个数值，同样以G_i表示每组频率序列。对应的乐曲上，乐曲的某些部分低音很重，该部分对应的G_i低频值很大；某些部分高音很高，该部分对应的G_i高频值很大。因此，G_i既可以表示时间序列，也可以表示频率序列，从而形成一张频谱图，如图1所示。横轴是时间，时间段在1.75秒左右，即每隔1.75秒分割一个时间片段，每隔时间片段对应的频率是纵轴，频率上下限为110赫兹和3520赫兹，颜色深浅代表不同频率对应的值的大小。

如图8所示，从第一频谱图101中获取第一时频序列，从第二频谱图102中获取第二时频序列，将第一时频序列和第二时频序列输入至特征提取层103中，得到第一音频的第一特征向量{hA1，hA2，…，hAm}和第二音频的第二特征向量{hB1，hB2，…，hBk}，其中，k和m均为正整数。在一些实施例中，k和m可以相等，或k和m不相等。在一些实施例中，特征提取层103是预先训练好的网络层，可直接使用特征提取层提取音频特征。

在一些实施例中，LSTM神经网络层104包括第一单向LSTM神经网络层1041、第二单向LSTM神经网络层1042和第三单向LSTM神经网络层1043，在单向LSTM神经网络层104中，信息沿单一方向流动。上述步骤502还可以替换为步骤702至步骤704。

步骤702，调用第一单向LSTM神经网络层对第一特征向量进行融合，得到第一输出向量。

步骤702可替换为如下步骤：

步骤7021，将第一单向LSTM神经网络层的初始状态归零。

将第一单向LSTM神经网络层1041的初始状态(细胞状态C_t1)设置为0，即第一单向LSTM神经网络层1041中的细胞状态无上一层细胞状态传递过来的信息，输入只有第一特征向量。

步骤7022，调用第一单向LSTM神经网络层根据初始状态对第一特征向量沿着第一融合方向进行迭代处理，得到第一输出向量。

如图6所示，第一融合方向可以是与细胞状态600的更新方向(即细胞状态600的箭头方向)相同的方向，或者是与细胞状态600的更新方向相反的方向。结合图8，以第一单向LSTM神经网络层1041的左侧箭头指向的方向为第一融合方向。

基于上述实施例可知，第一音频的第一特征向量{hA1，hA2，…，hAm}从第一单向LSTM神经网络层1041的左侧箭头处输入，经过遗忘门、输入门和输出门等组件，对第一特征向量进行迭代处理，得到第一输出向量，以h’A表示第一输出向量，第一输出向量是第一音频通过第一单向LSTM神经网络层1041进行时间序列编码后的向量。此时，第一单向LSTM神经网络层1041的细胞状态由C_t1更新为C’_t1。

步骤703，调用第二单向LSTM神经网络层对第二特征向量和第一输出向量进行融合，得到第二输出向量。

步骤703可替换为如下步骤：

步骤7031，将第一输出向量设置为第二单向LSTM神经网络层的初始状态向量。

第一单向LSTM神经网络层1041将输出的第一输出向量h’A传递至第二单向LSTM神经网络层1042中，第二单向LSTM神经网络层1042中的遗忘门将第一输出向量h’A设置为自身的初始细胞状态，即此时第二单向LSTM神经网络层1042的细胞状态为C’_t1，将第一输出向量h’A也作为本次输入向量。

步骤7032，调用第二单向LSTM神经网络层根据初始状态向量对第二特征向量沿着第一融合方向进行迭代处理，得到第二输出向量。

如图6所示，第一融合方向可以是与细胞状态600的更新方向(即细胞状态600的箭头方向)相同的方向，或者是与细胞状态600的更新方向相反的方向。结合图8，以第二单向神经网络层1042的左侧箭头指向的方向为第一融合方向。

在细胞状态C’_t1的基础上，将第二特征向量{hB1，hB2，…，hBk}输入至第二单向LSTM神经网络1042的左侧箭头处，经过遗忘门、输入门和输出门等组件，对第二特征向量进行迭代处理，得到第二输出向量，以h”B表示第二输出向量，第二输出向量是融合第一音频的第二音频通过第二单向LSTM神经网络层1042进行时间序列编码后的向量。此时，第二单向LSTM神经网络层1042的细胞状态由C’_t1更新为C_t2。

步骤704，调用第三单向LSTM神经网络层对第一特征向量和第二输出向量进行融合，得到第一音频和第二音频的预测向量。

步骤704可替换为如下步骤：

步骤7041，将第二输出向量设置为第三单向LSTM神经网络层的初始状态向量。

第二单向LSTM神经网络层1042将输出的第二输出向量h”B传递至第三单向LSTM神经网络层1043中，第三单向LSTM神经网络层1043中的遗忘门将第二输出向量设置为自身的初始细胞状态，即此时第三单向LSTM神经网络层1043的细胞状态为C_t2，将第二输出向量h”B也作为本次输入向量。

步骤7042，调用第三单向LSTM神经网络层根据初始状态向量对第一特征向量沿着第二融合方向进行处理，得到预测向量。

如图6所示，第二融合方向可以是与细胞状态600的更新方向(即细胞状态600的箭头方向)相同的方向，或者是与细胞状态600的更新方向相反的方向。结合图8，以第三单向神经网络层1043的右侧箭头指向的方向为第二融合方向。

在细胞状态C_t2的基础上，将第一特征向量{hA1，hA2，…，hAm}输入至第三单向LSTM神经网络层1043的右侧箭头处，经过遗忘门、输入门和输出门等组件，对第一特征向量进行迭代处理，得到预测向量，以h”’A表示预测向量，预测向量是将第一音频和第二音频融合为一个音频后，通过第三单向LSTM神经网络层1043对该融合后的音频进行时间序列编码后的总体向量。此时，第三单向LSTM网络的细胞状态C_t2更新为C_t3。

步骤705，调用分类层对预测向量进行预测，得到第一音频和第二音频的相似概率。

在一些实施例中，采用归一化指数函数(Softmax)对预测向量进行分类，得到第一音频和第二音频的相似概率106，相似概率用于表示第一音频和第二音频的相似程度。在一个示例中，第一音频和第二音频的相似概率为95％，则服务器确定第一音频和第二音频相匹配。

在一些实施例中，若两音频的相似程度较高，服务器将第一音频和第二音频归为同一类型音频(如，美声类型)，或者归为同一主题下的音频(如，摇滚主题)，或者为两音频打上同一标签(如，标签是情歌对唱)。当用户进行音频类型的检索时，服务器可将第一音频和第二音频发送至客户端。

在一些实施例中，第一音频是用户在客户端播放过的音频，服务器确定与该音频相似度较高的第二音频，并将第二音频发送至客户端，即，将第二音频推荐给用户。

可以理解的是，本实施例中的单向LSTM神经网络的层数可以为更多，本申请实施例仅以三层单向LSTM神经网络为例进行说明，单向LSTM神经网络的层数越多，匹配结果越精确。

综上所述，本实施例提供的方法，通过构建三层单向LSTM神经网络对第一特征向量和第二特征向量逐步融合，并通过分类层得到第一音频和第二音频的相似概率，使得构建有LSTM神经网络层的音频匹配模型能够预测不同歌曲之间的相似度，从而取得精度较高的相似度计算结果，同时简化了音频匹配模型的结构，降低服务器负载。

对上述实施例中的音频匹配模型的训练方式进行说明。

图9示出了本申请一个示例性实施例提供的音频匹配模型的训练方法的流程图，该方法应用于如图3所示的计算机系统100中的服务器140中，该方法包括如下步骤：

步骤901，根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度。

其中，音频库中存储有大量音频，该音频可以包括歌曲、纯音乐、交响曲、钢琴曲或其他演奏乐曲等等，本申请实施例并不对音频库中音频的类型进行限定。可选的，该音频库为音频播放应用程序的曲库。

可选的，音频具有各自的音频属性特征，该音频属性特征可以是音频自身的属性特征，也可以是人为赋予的属性特征，且同一段音频可以包含多个不同维度的属性特征。

在一种可能的实施方式中，音频的音频属性特征包括如下至少一种：文本特征、音频特征、情感特征和场景特征。可选的，文本特征可以包括音频本身的文本特征(比如歌词、作曲者、作词者、流派等等)，也可以包括人为赋予的文本特征(比如评论)；音频特征用于表征音频本身的旋律、节奏、时长等音频特性；情感特征用于表征音频所表达的情感；场景特征用于表征音频所使用的播放场景。当然，除了上述音频属性特征外，音频还可以包括其他维度的属性特征，本实施例对此不作限定。

本申请实施例中，基于音频属性特征进行音频聚类的过程可以被称为初筛，用于初步筛选出音频属性特征相似的音频。为了提高初筛质量，计算机设备根据至少两个不同维度的属性特征进行聚类，避免基于单一维度属性特征进行聚类造成的聚类偏差。

经过聚类后，计算机设备得到若干音频类簇，同一音频类簇中的音频具有相似的音频属性特征(与其它音频类簇中的音频相比)。其中，音频类簇的数量可以是在聚类阶段预先设置(可以基于经验值)，避免聚类过于泛化或者过于细化。

步骤902，根据音频类簇中的音频生成候选音频对，候选音频对中包含两段音频，且两段音频属于同一音频类簇或不同音频类簇。

由于同一音频类簇中的音频具有相似音频属性特征，而不同音频类簇中的音频在音频属性特征上存在较大差异，因此服务器可以基于音频类簇初步生成音频样本，其中，每一条音频样本是由两首音频构成的候选音频对。

由于音频库中包含大量音频，因此基于音频类簇生成候选音频对的数量也十分庞大，比如，对于包含y段音频的音频库，生成的候选音频对的数量为C(y，2)。然而，虽然基于音频类簇能够生成海量候选音频对，但是并非所有候选音频对均能够用于后续模型训练。比如，当候选音频对中音频为同一歌曲(比如不同歌手演唱的同一歌曲)，或者，候选音频对中的音频完全不同(比如一首英国民谣，一首唢呐曲)时，将该候选音频对作为模型训练样本过于简单，无法训练得到高质量的模型。

为了提高音频样本的质量，本申请实施例中，计算机设备通过精筛，进一步从候选音频对中筛选出高质量的音频对作为音频样本。

步骤903，根据音频库中音频的历史播放记录，确定候选音频对中的音频正样本对和音频负样本对，其中，音频正样本对中的音频属于同一音频类簇，音频负样本对中的音频属于不同音频类簇。

通过分析发现，用户的音频播放行为与音频之间的相似度存在密切关系，比如用户经常会连续播放相似度较高，但是并不完全相同的音频。因此本申请实施例中，计算机设备基于音频的历史播放记录，对生成的候选音频对进行精筛，得到音频样本对。其中，精筛得到的音频样本对包括由相似音频构成的音频正样本对(从由同一音频类簇中音频构成的候选音频对中筛选得到)，以及由差异音频构成的音频负样本对(从由不同音频类簇中音频构成的候选音频对中筛选得到)。

可选的，该历史播放记录为各个用户帐号下的音频播放播放记录，其可以是根据播放先后顺序形成的音频播放列表。比如，该历史播放记录可以是音频播放应用程序服务器收集的各个用户的歌曲播放记录。

在一些实施例中，基于历史播放记录筛选出的音频正样本对和音频负样本对之间的区分度较低，从而提高后续基于音频样本对训练得到模型的质量。

步骤904，根据音频正样本对和音频负样本对音频匹配模型进行训练，音频匹配模型包括LSTM神经网络层和分类层。

样本是用于神经网络训练和测试的对象，该对象包含标注信息，该标注信息为神经网络输出结果的参考值(或称为真值或监督值)，其中，标注信息为1的样本为正样本，标注信息为0的样本为负样本。本申请实施例中的样本指用于训练LSTM神经网络的音频样本，且该音频样本采用样本对的形式，即音频样本中包含两段音频。在一些实施例中，当音频样本(对)的标注信息为1时，表明音频样本对中的两段音频为相似音频，即音频正样本对；当音频样本(对)的标注信息为0时，表明音频样本对中的两段音频不是相似音频，即音频负样本对。

音频匹配模型是指具有音频匹配功能的机器学习模型，音频匹配模型用于根据输入音频输出音频之间的相似概率或匹配程度。

在一些实施例中，将音频正样本对的相似度确定为1，将音频负样本对的相似度确定为0，以音频正样本对和音频负样本对训练得到音频匹配模型，该音频匹配模型包括LSTM神经网络层和分类层。从而根据输入的第一音频和第二音频输出两音频之间的相似概率。

或，根据音频正样本对中两个音频的特征向量的距离，确定该音频正样本对的相似概率。根据音频负样本对中两个音频的特征向量的距离，确定该音频负样本对的相似概率。以音频正样本对和音频负样本对训练得到音频匹配模型，该音频匹配模型包括LSTM神经网络层和分类层。从而根据输入的第一音频和第二音频输出两音频之间的相似概率。

或，根据音频正样本对中两个音频所属的类簇的距离，确定该音频正样本对的相似概率。根据音频负样本对中两个音频所属的类簇的距离，确定该音频负样本对的相似概率。以音频正样本对和音频负样本对训练得到音频匹配模型，该音频匹配模型包括LSTM神经网络层和分类层。从而根据输入的第一音频和第二音频输出两音频之间的相似概率。

基于上述实施例，在近线匹配场景中，服务器可通过客户端反馈的信息收集更多的音频样本，从而训练LSTM神经网络，以及更新分类层的参数。

在一些实施例中，对音频匹配模型中的特征提取层、LSTM神经网络层和分类层进行训练。在另一些实施例中，若特征提取层是已经预先训练好的网络层，则只需要对LSTM神经网络层和分类层进行训练即可。

通过根据不同维度的音频属性特征，对音频库中具有相似特征的音频进行聚类得到音频类簇，从而得到若干属于相同或不同音频类簇的组合，即候选音频对，基于音频的历史播放记录，从候选音频对中筛选出音频正样本对和音频负样本对，用于后续LSTM神经网络层训练；通过融合音频多维度的属性特征进行聚类，并基于用户的音频播放记录筛选正负样本对，使生成音频样本对能够从多角度反映音频之间的相似性(包括音频本身属性和用户收听习惯)，在实现自动生成音频样本对的同时，提高了生成的音频样本对的质量，进而提高基于该音频样本对训练的音频匹配模型中LSTM神经网络层的精度，以及分类层对音频预测的准确率。

基于上述实施例，如图10所示，以特征提取模层103包括序列自相关层1031和特征提取层1032为例对特征提取过程进行说明。

图11示出了本申请一个示例性实施例提供的音频特征提取方法的流程图。该方法可应用于如图3所示的计算机系统100中的服务器140中。该方法包括如下步骤：

步骤1101，获取第一音频的第一时频序列和第二音频的第二时频序列。

时频序列是指音频的时间(时域)序列和频率(频域)序列所组成的序列。在一些实施例中，从第一频谱图101中获取第一音频的第一时频序列，如上述实施例中所述的G_i，对G_i进行频域变化后得到频域序列{G₁，G₂，…，G_n}，即频域序列包括按照时序排列的n个频域向量。同理，从第二频谱图102中获取第二音频的第二时频序列，以H_i表示。

步骤1102，调用序列相关层对第一时频序列和第二时频序列进行自相关处理，得到第一音频的第一自相关特征向量序列和第二音频的第二自相关特征向量序列。

以序列自相关层1031对第一时频序列进行自相关处理为例。

以G_i表示第一频域序列为例，计算第一频域序列中第i个频域向量与其他频域向量之间的相关性分数，公式如下：

上述公式中，为了衡量其他值对G_i的影响，分子和分母分别减掉G_i*G_i和

序列自相关模块1031输出第一自相关特征向量序列：{G₁*score(G₁)，…，G_i*score(G_i)，…，G_n*score(G_n)}，将score(G_i)作为频域向量G_i的相关性权重，从而输出的第一自相关特征向量序列是经过权重影响后的频域序列，以{G’₁，G’₂，…，G’_n}表示。

步骤1103，调用特征提取层对第一自相关特征向量序列和第二自相关特征向量序列进行特征提取，得到第一特征向量和第二特征向量。

以特征提取层1032对第一自相关特征向量序列进行特征提取的过程为例进行说明。

特征提取层1032包括时域卷积核和频域卷积核，调用时域卷积核沿时域方向对第一自相关特征向量序列进行时域卷积处理，得到时域卷积向量。

经过序列自相关层1031，得到n个值的时间序列T_i，T_i是一个m维的向量，时间序列对应的频谱图是一个m×n的二维矩阵，卷积核的大小是a1×a2，a1的大小与m一致，a2为正整数，卷积的方向是沿着时间序列从0至n的方向卷积。经过时域卷积核卷积处理后得到的时域卷积向量T’_i与向量T_i的维度一致，代表不同频率的频率值。若对时域卷积向量进行池化，沿时间方向池化，池化维度与时域卷积向量的维度一致。

调用频域卷积核沿频域方向对第一自相关特征向量序列进行频域卷积处理，得到频域卷积向量。

与时域卷积的方式类似，上述每个向量G_i里的m个值代表m个离散频率，以f₁～f_m表示。根据上述实施例可知，对f₁～f_m进行间隔采样，得到n个G_i。对每个离散的f_i，都存在n个值对应不同G_i在同一个频率上的不同值，所以f_i可以用这n个值表示，即相比于时间序列对应的m×n的二维矩阵，从频域的角度，f_i是m个n维向量，卷积的方向是沿着频率方向卷积，经过频域卷积核卷积后处理后得到的频域卷积向量f’_i和向量f_i的维度一致，物理含义也相同，代表不同时间段上频率值的分布。若对频域卷积向量进行池化，沿频率方向池化，池化维度与频域卷积向量的维度一致。

将时域卷积向量和频域卷积向量进行拼接，得到音频的特征向量。

可以理解的是，上述序列自相关层和时频域卷积层可以预先训练好，与本申请实施例中的LSTM神经网络层结合实施，完成预测音频的相似概率的过程。即本实施例提供的音频特征提取方法可以与上述实施例中音频匹配方法结合实施。第一时频序列和第二时频序列可通过同一个特征提取层提取音频特征，或分别通过各自对应的特征提取层提取音频特征，本申请实施例对此不加以限定。

综上所述，本实施例提供的方法，通过调用序列相关层和特征提取层对第一时频序列和第二时频序列进行处理，得到第一音频的第一特征向量和第二音频的第二特征向量，使得提取出的音频特征更符合音频信号的特征，提高了后续基于该特征向量进行音频相似度预测时的准确率。

基于图5和图7的实施例，结合应用场景对本申请实施例提供的音频匹配方法进行说明。

以音频召回场景为例，图12示出了本申请一个示例性实施例提供的音频召回场景的示意图，基于上述实施例，对音频召回场景中音频匹配的方法进行说明，该方法包括如下步骤：

步骤1，获取播放音频的时频序列。

在一些实施例中，播放音频是终端1210通过用户账号登录音频播放应用程序后，即可通过音频播放应用程序播放本地存储的音乐或者播放网络音乐。也可以是终端1210通过用户账号登录音频播放网站，并通过音频播放网站播放在线音乐，本申请实施例对此不作限定。

服务器1220可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一些实施例中，服务器1220是音频播放平台(提供音频播放服务的应用程序或者网站)的后台服务器。比如，服务器1220是终端1210中安装的音频播放应用程序的后台服务器。服务器1220从音频播放应用程序中获取播放音频的时频序列。

步骤2，根据时频序列中的信息与待召回的音频所对应的信息进行匹配。

终端1210中安装有音频播放应用程序，使用音频播放应用程序播放音乐过程中，终端1210将音频播放记录同步至音频播放应用程序的服务器1220，相应的，服务器1220将用户帐号与音频播放记录进行关联存储。基于大量用户帐号对应的音频播放记录，以及音频库中音频的多维度属性信息，服务器1220从音频库中确定出用于训练音频匹配模型的音频样本，从而利用音频样本对音频匹配模型进行训练。服务器1220得到训练后的音频匹配模型，音频匹配模型包括特征提取层、LSTM神经网络层和分类层。

在一些实施例中，服务器从音频播放应用程序中获取乐曲B对应的时频序列，将待召回的乐曲A的时频序列和乐曲B的时频序列分别输入至序列自相关层，得到两者的自相关特征向量序列，将自相关特征向量序列输入至特征提取层中，得到两者的特征向量。示意性的，将待召回的乐曲A的特征向量输入至第一单向LSTM神经网络层中(初始状态归零)，得到第一输出向量，将第一输出向量设置为第二单向LSTM神经网络层的初始状态向量，输入乐曲B的特征向量，得到第二输出向量，将第二输出向量设置为第三单向LSTM神经网络层的初始状态向量，输入待召回的乐曲A的特征向量，得到第一预测向量。

步骤3，响应于相似概率大于第一预设阈值时，向客户端发送召回指示，召回指示用于指示客户端召回与播放音频相似的音频。

将第一预测向量输入至分类层中，得到待召回的乐曲A和乐曲B的相似概率。示意性的，第一预设阈值为95％，待召回乐曲A和乐曲B的相似概率为99％，服务器1220将乐曲B召回。

综上所述，本实施例提供的方法，通过将待匹配的音频的预测向量输入至分类层中，得到待匹配的音频的相似概率，从而能够进行相似音频的召回。

以音频推荐场景为例，在一些实施例中，服务器根据用户听歌的习惯或喜好，向用户推荐相似类型或相似风格的歌曲。

图13示出了本申请一个示例性实施例提供的音频推荐场景的示意图，基于上述实施例，对音频推荐场景中音频匹配的方法进行说明，该方法包括如下步骤：

步骤11，获取播放音频的时频序列。

如图13所示，在一些实施例中，播放音频是终端1310通过用户账号登录音频播放应用程序后，即可通过音频播放应用程序播放本地存储的音乐或者播放网络音乐。也可以是终端1310通过用户账号登录音频播放网站，并通过音频播放网站播放在线音乐，本申请实施例对此不作限定。

服务器1220从音频播放应用程序中获取播放音频的时频序列。

步骤12，根据时频序列中的信息匹配与客户端音频相似的待推荐音频。

在一种可能的实施方式中，服务器1220是由行为数据服务器1321，音频库服务器1322和推荐服务器1323构成的服务器集群，其中，行为数据服务器1321用于对各个终端1310上传的音频播放记录进行存储，音频库服务器1322用于响应终端1310的音频播放请求，并将音频数据发送至终端1310，推荐服务器1323则用于进行音乐推荐。在音频匹配模型的训练过程中，推荐服务器1323从音频库服务器1322处获取音频的多维度属性信息，并从行为数据服务器1321处获取各个用户帐号对应的历史播放记录，从而确定出音频样本，进而进行模型训练。服务器1220得到训练后的音频匹配模型，音频匹配模型包括特征提取层、LSTM神经网络层和分类层。

在一些实施例中，用户喜欢听歌曲C。服务器1321将歌曲C的时频序列和歌曲D的时频序列分别输入至序列自相关层，得到两者的自相关特征向量序列，将自相关特征向量序列输入至特征提取层中，得到两者的特征向量。示意性的，将歌曲C的特征向量输入至第一单向LSTM神经网络层中(初始状态归零)，得到第三输出向量，将第三输出向量设置为第二单向LSTM神经网络层的初始状态向量，输入歌曲D的特征向量，得到第四输出向量，将第四输出向量设置为第三单向LSTM神经网络层的初始状态向量，输入歌曲C的特征向量，得到第二预测向量。

步骤13，响应于相似概率大于第二预设阈值时，将待推荐音频发送至客户端。

将第二预测向量输入至分类层中，得到歌曲C和歌曲D的相似概率。示意性的，第二预设阈值为80％，歌曲C和歌曲D的相似概率为90％，服务器1323将歌曲D推荐至客户端。

综上所述，本实施例提供的方法，通过将待匹配的音频的预测向量输入至分类层中，得到待匹配的音频的相似概率，从而能够将相似音频推荐给用户。

可以理解的是，本申请实施例提供的方法还可应用于歌曲录制程序中，如用户在歌曲录制程序中演唱一首歌曲，歌曲录制程序记录下用户演唱整首歌曲时的音频信号，通过本申请实施例的方法，将用户演唱时的录制音频与歌曲的原唱音频进行相似度比较，两音频之间的相似概率越高则用户得到的演唱分数越高。

在一些实施例中，如图4所示，当乐曲曲库中乐曲的数量级在百万量级302和千万量级300之间时，通过离线匹配场景301中的音频匹配模型预测两段全音频之间的相似概率；当乐曲曲库中乐曲的数量级在十量级306和千量级304之间时，通过在线匹配场景305中的音频匹配模型预测两段全音频之间的相似概率。本申请实施例是针对近线匹配场景303下，乐曲曲库中乐曲的数量级在千量级304和百万量级302之间，通过近线匹配场景303中的音频匹配模型预测待匹配乐曲310(全音频)之间的相似概率。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图14示出了本申请的一个示例性实施例提供的音频匹配装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置包括：

获取模块1410，用于获取第一音频的第一特征向量和第二音频的第二特征向量；

LSTM神经网络模块1420，用于对第一特征向量和第二特征向量进行融合，得到第一音频和第二音频的预测向量；

分类模块1430，用于对预测向量进行预测，得到第一音频和第二音频的相似概率。

在一个可选的实施例中，LSTM神经网络模块1420包括第一单向LSTM神经网络模块14201、第二单向LSTM神经网络模块14202和第三单向LSTM神经网络模块14203；

所述第一单向LSTM神经网络模块14201，用于对第一特征向量进行融合，得到第一输出向量；

所述第二单向LSTM神经网络模块14202，用于对第二特征向量和第一输出向量进行融合，得到第二输出向量；

所述第三单向LSTM神经网络模块14203，用于对第一特征向量和第二输出向量进行融合，得到第一音频和第二音频的预测向量。

在一个可选的实施例中，所述第一单向LSTM神经网络模块14201，用于将第一单向LSTM神经网络模块14201的初始状态归零；根据初始状态对第一特征向量沿着第一融合方向进行迭代处理，得到第一输出向量。

在一个可选的实施例中，所述第二单向LSTM神经网络模块14202，用于将第一输出向量设置为第二单向LSTM神经网络模块14202的初始状态向量；根据初始状态向量对第二特征向量沿着第一融合方向进行迭代处理，得到第二输出向量。

在一个可选的实施例中，所述第三单向LSTM神经网络模块14203，用于将第二输出向量设置为第三单向LSTM神经网络模块14203的初始状态向量；根据初始状态向量对第一特征向量沿着第二融合方向进行迭代处理，得到预测向量。

在一个可选的实施例中，该装置包括训练模块1440；

所述训练模块1440，用于根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度；根据音频类簇中的音频生成候选音频对，候选音频对中包含两段音频，且两段音频属于同一音频类簇或不同音频类簇；根据音频库中音频的历史播放记录，确定候选音频对中的音频正样本对和音频负样本对，其中，音频正样本对中的音频属于同一音频类簇，音频负样本对中的音频属于不同音频类簇；根据音频正样本对和音频负样本对音频匹配模型进行训练，音频匹配模型包括LSTM神经网络模块和分类模块。

在一个可选的实施例中，该装置包括序列相关模块1450和特征提取模块1460；

所述获取模块1410，用于获取第一音频的第一时频序列和第二音频的第二时频序列；

所述序列相关模块1450，用于对第一时频序列和第二时频序列进行自相关处理，得到第一音频的第一自相关特征向量序列和第二音频的第二自相关特征向量序列；

所述特征提取模块1460，用于对第一自相关特征向量序列和第二自相关特征向量序列进行特征提取，得到第一特征向量和第二特征向量。

图15示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图3所示的计算机系统100中的服务器140。具体来讲：

服务器1500包括中央处理单元(CPU，Central Processing Unit)1501、包括随机存取存储器(RAM，Random Access Memory)1502和只读存储器(ROM，Read Only Memory)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。服务器1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1507及其相关联的计算机可读介质为服务器1500提供非易失性存储。也就是说，大容量存储设备1507可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

根据本申请的各种实施例，服务器1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的音频匹配方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的音频匹配方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频匹配方法，其特征在于，所述方法包括：

获取第一音频的第一特征向量和第二音频的第二特征向量；

2.根据权利要求1所述的方法，其特征在于，所述LSTM神经网络层包括第一单向LSTM神经网络层、第二单向LSTM神经网络层和第三单向LSTM神经网络层；

所述调用LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合，得到所述第一音频和所述第二音频的预测向量，包括：

调用所述第一单向LSTM神经网络层对所述第一特征向量进行融合，得到第一输出向量；

调用所述第二单向LSTM神经网络层对所述第二特征向量和所述第一输出向量进行融合，得到第二输出向量；

调用所述第三单向LSTM神经网络层对所述第一特征向量和所述第二输出向量进行融合，得到所述第一音频和所述第二音频的预测向量。

3.根据权利要求2所述的方法，其特征在于，所述调用所述第一单向LSTM神经网络层对所述第一特征向量进行融合，得到第一输出向量，包括：

将所述第一单向LSTM神经网络层的初始状态归零；

调用所述第一单向LSTM神经网络层根据所述初始状态对所述第一特征向量沿着第一融合方向进行迭代处理，得到所述第一输出向量。

4.根据权利要求2所述的方法，其特征在于，所述调用所述第二单向LSTM神经网络层对所述第二特征向量和所述第一输出向量进行融合，得到第二输出向量，包括：

将所述第一输出向量设置为所述第二单向LSTM神经网络层的初始状态向量；

调用所述第二单向LSTM神经网络层根据所述初始状态向量对所述第二特征向量沿着第一融合方向进行迭代处理，得到所述第二输出向量。

5.根据权利要求2所述的方法，其特征在于，所述调用所述第三单向LSTM神经网络层对所述第一特征向量和所述第二输出向量进行融合，得到所述第一音频和所述第二音频的预测向量，包括：

将所述第二输出向量设置为所述第三单向LSTM神经网络层的初始状态向量；

调用所述第三单向LSTM神经网络层根据所述初始状态向量对所述第一特征向量沿着第二融合方向进行迭代处理，得到所述预测向量。

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

根据音频属性特征对所述音频库中的音频进行聚类，得到音频类簇，所述音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度；

根据所述音频类簇中的音频生成候选音频对，所述候选音频对中包含两段音频，且所述两段音频属于同一音频类簇或不同音频类簇；

根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对，其中，所述音频正样本对中的音频属于同一音频类簇，所述音频负样本对中的音频属于不同音频类簇；

根据所述音频正样本对和所述音频负样本对音频匹配模型进行训练，所述音频匹配模型包括所述LSTM神经网络层和所述分类层。

7.根据权利要求1至5任一所述的方法，其特征在于，所述获取第一音频的第一特征向量和第二音频的第二特征向量，包括：

获取所述第一音频的第一时频序列和所述第二音频的第二时频序列；

调用序列相关层对所述第一时频序列和所述第二时频序列进行自相关处理，得到第一音频的第一自相关特征向量序列和第二音频的第二自相关特征向量序列；

调用特征提取层对所述第一自相关特征向量序列和所述第二自相关特征向量序列进行特征提取，得到所述第一特征向量和所述第二特征向量。

8.一种音频匹配装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述LSTM神经网络模块包括第一单向LSTM神经网络模块、第二单向LSTM神经网络模块和第三单向LSTM神经网络模块；

10.根据权利要求8或9任一所述的装置，其特征在于，所述装置包括训练模块；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的音频匹配方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如权利要求1至7任一项所述的音频匹配方法。