CN111462775B

CN111462775B - 音频相似度确定方法、装置、服务器及介质

Info

Publication number: CN111462775B
Application number: CN202010239644.1A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-11-03
Anticipated expiration: 2040-03-30
Also published as: CN111462775A

Abstract

本申请公开了一种音频相似度确定方法、装置、服务器及介质，属于音频处理技术领域。本申请实施例提供的技术方案，在确定音频相似度时，通过对音频序列进行移位匹配，从而基于移位后两个音频序列的重合部分的相似与否，来确定音频之间的相似度，由于重合部分用于表示一个音频的局部，因此通过对重合部分的相似度的确定，能够从局部的角度来将相似的音频识别出来，提高了相似度确定的准确性。

Description

音频相似度确定方法、装置、服务器及介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种音频相似度确定方法、装置、服务器及介质。

背景技术

随着网络技术的发展，越来越多的用户会利用网络来满足自身对音频的需求，因此，为了满足用户需求，应用运营商也会为其提供相应的功能。例如，很多应用运营商提供了相似音频推荐功能，也即是，根据用户播放过的音频，为其推荐相似音频。然而，为了实现该相似音频推荐，通常要做的是根据通过有监督学习的方式，来通过大量的标注好的训练样本来训练模型，最终利用训练好的模型来进行相似音频的推荐。这种方式需要人工对大量的训练样本进行标注，且其相似与否是对于音频整体来说的，显然其相似度识别的准确性较低。

发明内容

本申请实施例提供了一种音频相似度确定方法、装置、服务器及介质，可以提高相似度识别的准确性。所述技术方案如下：

一方面，提供了一种音频相似度确定方法，所述方法包括：

获取两个音频序列，所述两个音频序列分别对应于两个待处理音频；

确定所述两个音频序列的多个序列相似度，一个序列相似度用于表示以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时的重叠部分之间的相似度；

基于所述多个序列相似度，确定所述两个音频之间的音频相似度。

一方面，提供了一种音频相似度确定装置，所述装置包括：

序列获取模块，用于获取两个音频序列，所述两个音频序列分别对应于两个待处理音频；

第一相似度获取模块，用于确定所述两个音频序列的多个序列相似度，一个序列相似度用于表示以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时的重叠部分之间的相似度；

第二相似度获取模块，用于基于所述多个序列相似度，确定所述两个音频之间的音频相似度。

在一种可能实现方式中，所述第一相似度获取模块包括：

重叠确定单元，用于保持一个音频序列不动，以所述一个音频序列一个序列位置作为起点，确定另一个音频序列与所述起点以后的序列之间的重叠部分；

序列确定单元，用于确定所述重叠部分对应的相似度序列，一个相似度序列中包括所述重叠部分对应位置的元素之间的元素相似度；

序列相似度确定单元，用于基于所述相似度序列中的多个元素相似度，确定所述相似度序列的序列相似度。

在一种可能实现方式中，所述序列确定单元用于将所述相似度序列中的多个初始相似度和所述多个初始相似度的均值分别相减，得到所述多个元素相似度。

在一种可能实现方式中，序列相似度确定单元，用于以所述相似度序列中第一个位置为序列起点，获取包括有所述第一个位置上元素的多个相似度子序列，每个相似度子序列的序列长度不同；

分别对所述多个相似度子序列中的元素取均值，将所述多个相似度子序列的均值中的最大均值作为所述相似度序列的序列相似度。

在一种可能实现方式中，第二相似度获取模块，包括：

排序单元，用于对所述多个序列相似度进行排序，得到相似度排序结果；

音频相似度确定单元，用于基于所述相似度排序结果，将符合目标条件的序列相似度，确定为所述两个音频之间的音频相似度。

在一种可能实现方式中，所述音频相似度确定单元，用于：

基于所述相似度排序结果，确定最大的序列相似度，将所述最大的序列相似度确定为所述两个音频之间的音频相似度；

或，

基于所述相似度排序结果，确定位于前第一目标位数内的序列相似度，将所述序列相似度所对应的重叠部分最长的序列相似度，确定为所述两个音频之间的音频相似度。

在一种可能实现方式中，第二相似度获取模块用于：

对所述多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，确定位于前第一目标位数内的序列相似度；

对于所确定的多个序列相似度，按照所述所确定的多个序列相似度所对应的重叠部分所包括的序列长度，确定所述所确定的多个序列相似度的第一调整系数，序列长度与对应的第一调整系数正相关；

将所述所确定的多个序列相似度和对应的第一调整系数相乘，得到调整后的多个序列相似度。

将所述调整后的多个序列相似度中的最大序列相似度，确定为该两个音频之间的音频相似度。

在一种可能实现方式中，第二相似度获取模块用于：

比较两次相邻匹配过程所确定的重叠部分分别对应的第一序列相似度和第二序列相似度；

若所述第一序列相似度和所述第二序列相似度之间的差值小于目标阈值，则为所述第一序列相似度和所述第二序列相似度中数值大的序列相似度设置第二调整系数；

将所述多个序列相似度和对应的第二调整系数相乘，得到处理后的多个序列相似度；

对所述调整后的多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，将符合目标条件的序列相似度，确定为所述两个音频之间的音频相似度。

在一种可能实现方式中，序列获取模块，包括：

时域序列获取单元，用于对于所述两个音频中的任一个音频，对所述音频进行采样，得到时域序列；

音频序列获取单元，用于对所述时域序列进行时频转换，得到所述音频序列。

在一种可能实现方式中，音频序列获取单元，用于对所述时域序列进行时频转换，得到频域序列；

确定所述频域序列中对应音频不同歌曲部分的元素；

按照不同部分的切分信息，将所述不同部分分别切分为多个用于进行匹配的子序列，得到包含多个子序列的音频序列。

在一种可能实现方式中，所述装置还包括对应关系创建模块，用于：

确定作为所述音频相似度的序列相似度所对应的重叠部分在所述两个音频中所处的歌曲部分，创建所述两个音频、所述音频相似度和所述所处的歌曲部分之间的对应关系；或，

创建所述两个音频和所述音频相似度之间的对应关系。

在一种可能实现方式中，所述装置还包括音频检索模块，用于响应于接收到音频检索请求，基于所述音频检索请求携带的音频标识，从音频数据库中获取与所述音频标识之间具有对应关系且音频相似度的排序位于前第二目标位数内的音频标识，输出获取到的所述音频标识对应的音频。

一方面，提供了一种服务器，所述服务器包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述音频相似度确定方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述音频相似度确定方法。

本申请实施例提供的技术方案，在确定音频相似度时，通过对音频序列进行移位匹配，从而基于移位后两个音频序列的重合部分的相似与否，来确定音频之间的相似度，由于重合部分用于表示一个音频的局部，因此通过对重合部分的相似度的确定，能够从局部的角度来将相似的音频识别出来，提高了相似度确定的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频相似度确定方法的实施环境的示意图；

图2是本申请实施例提供的一种音频相似度确定方法的流程图；

图3是本申请实施例提供的一种音频相似度确定方法的流程图；

图4是本申请实施例提供的一种频率图；

图5是本申请实施例提供的一种重叠部分以及相应相似度的示意图；

图6是本申请实施例提供的一种音频相似度确定方法的流程图；

图7是本申请实施例提供的一种音频相似度确定方法的流程图；

图8是本申请实施例提供的一种音频相似度确定装置结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种音频相似度确定方法的实施环境的示意图，参见图1，该实施环境中包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。终端110可以是智能手机、平板电脑、便携计算机等设备。终端110安装和运行有支持音频的应用程序。该应用程序可以是社交应用类应用程序、音频类应用程序、视频类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。服务器140可以是云计算平台、虚拟化中心等。该服务器140还可以包括音频数据库以及用户信息数据库等。服务器140用于为终端110上运行的应用程序提供后台服务。终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。该终端110可以发起音频搜索请求，从而使得服务器140基于该音频搜索请求，为终端110输出搜索到的音频。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2是本申请实施例提供的一种音频相似度确定方法的流程图。该方法可以应用在服务器上，参见图2，该方法包括：

201、服务器获取两个音频序列，该两个音频序列分别对应于两个待处理音频。

该音频可以是任一种歌曲的音频，本申请实施例对此不作限定。而服务器在获取该两个音频的音频序列之前，可以先确定本次需处理的两个音频，其具体确定方式可以是随机从音频数据库中选择，也可以是基于已确定的音频，随机选择一个音频来与其执行下述步骤，本申请实施例对此不做限定。

202、服务器确定该两个音频序列的多个序列相似度，一个序列相似度用于表示以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时的重叠部分之间的相似度。

在该步骤202中，该多个序列相似度可以是基于多次移位匹配确定的，服务器可以分别将一个音频序列的多个序列位置作为起点，来与另一个音频序列进行匹配，来确定出多个重叠部分对应的相似度。该移位匹配可以是指按照目标步长，一次移动一个位置，来将其中一个音频序列和另一个音频序列之间的重叠部分，再确定重叠部分的相似度。

203、基于该多个序列相似度，确定该两个音频之间的音频相似度。

该多个序列相似度可以用于表示两个音频之间的多种匹配可能性，因此，可以通过该多个序列相似度来确定两个音频之间的音频相似度。

本申请实施例提供的方法，在确定音频相似度时，通过对音频序列进行移位匹配，从而基于移位后两个音频序列的重合部分的相似与否，来确定音频之间的相似度，由于重合部分用于表示一个音频的局部，因此通过对重合部分的相似度的确定，能够从局部的角度来将相似的音频识别出来，提高了相似度确定的准确性。

图3是本申请实施例提供的一种音频相似度确定方法的流程图。该方法可以应用在服务器上，参见图3，该方法包括：

301、服务器获取两个音频序列，该两个音频序列分别对应于两个待处理音频。

其中，对于该两个音频中的任一个音频，服务器对该音频进行采样，得到时域序列；对该时域序列进行时频转换，得到该音频序列。

需要说明的是，音频有时域和频域这两种维度的表达，也即是，一个音频既可以表达为一个时间序列，也可以表达为一个频率序列。

基于此，该申请实施例中，服务器对该音频进行采样，得到时域序列的具体过程可以包括：服务器对音频进行时间维度的采样，每隔采样间隔采样一个音频信号，得到离散的时间序列T1～Tn，每个值代表音频在该采样点上的大小，然后再按固定时间段成一个子时域序列，而对于一个音频来说，其可以生成包括多个子时域序列的第一时域序列。

比如，该固定时间段长度为3s，而采样间隔0.1s，则基于这样的设置进行采样和组合后，每组序列就包含了3s/0.1s＝30个数值，比如T1～T30为一组，将其称为叫G1,T31～T60为一组，将其称为G2，依次类推，则该第一音频所得到的第一时域序列可以包括G1至Gn，其中，n为大于或等于2的正整数。

进一步地，该申请实施例中，服务器对该时域序列进行时频转换，得到该音频序列的具体过程可以包括：服务器可以对每组时间序列做频域变换，以得到多组频率信号，一组频率信号用以代表一组时间序列里面包含的不同频率的分布，再对多组频率信号按照预设频率(比如10hz)进行采样，从而得到一个离散的频率序列。

在假设音频的频率的上下限是0～f,那么每个频率序列的个数是f/10，每个Gi都可以表示成多个频率序列，只不过区别在于不同Gi的同样频率的值大小不同，对应到音乐上，音乐的某些部分低音很重，那这些Gi的低频值就很大，有些部分高音很高，那这些Gi的高频值很大。所以，以G1为例，G1既可以表示为时间序列T1～T30，也可以表示为频率序列，统一起来就是一张频率图。参见图4，图4所示为一个真实的音频的频谱图，横轴是时间，图中所示的时间段大概是1.75s左右，也就是每隔1.75s切一个时间片段；每个时间片段对应的频率是竖轴，频率上下限110hz～3520hz，灰度深浅代表不同频率对应的值的大小。

通过上述处理，服务器可以将一个音频表示为一个如{G1,G2...,Gi...}的序列，序列里每个Gi是一个向量，可以是原始频谱图中的向量，也可以是经过任一种音频处理方法之后所得到的能够用于表示音频特性的向量，本申请实施例对此不作限定。

当然，服务器可以事先在音频数据库中存储有该音频分别对应的音频序列，从而在需要对该两个音频进行相似度确定时，可以根据两个音频的音频标识，从音频数据库中获取对应的音频序列，而无需每次均重新生成，能够大大降低服务器的处理压力。

例如，基于上述处理过程，可以得到两个音频的频谱序列为Q＝{Q1,Q2,...}和H＝{H1,H2,...}为例，假设序列Q中有M个子序列，H中有N个子序列，其中，M和N为大于1的正整数。

在另一种可能实现方式中，由于歌曲对应于不同歌曲部分，例如，不同歌曲部分可以包括前奏、主歌、副歌。对于上述这些歌曲部分，可以通过对信号的识别来进一步区分，例如，前奏部分位于音频的最前端，且不包含人声，因此，该前奏部分可以通过对音频进行人声识别以确定，主歌部分一般位于前奏部分之后，副歌部分一般具有多次循环的特点，基于不同歌曲部分的特性，可以将不同歌曲部分对应的元素组成一组，再对一组内的元素进行切分，以生成对应的子序列，使得音频序列中包含多个用于匹配的子序列。也即是，该对所述时域序列进行时频转换，得到所述音频序列包括：对所述时域序列进行时频转换，得到频域序列；确定所述频域序列中对应音频不同歌曲部分的元素；按照不同部分的切分信息，将所述不同部分分别切分为多个用于进行匹配的子序列，得到包含多个子序列的音频序列。例如，对于频率序列中前奏部分所对应的元素，其切分信息可以为切分成一个子序列，则可以将这些元素组成一个子序列，而对于频率序列中连续出现多次的多个元素，其切分信息是按照元素组成规律进行切分，则可以将其确定为副歌部分，则将每次同时出现的元素组成一个子序列，而对于主歌，其切分信息可以为按照预设数量进行切分，则可以将预设数量的元素划分为一个子序列，以得到多个包括相同数量元素的子序列。在后续进行移位匹配时，则可以采用一个子序列作为一个匹配时的一个单元，每次匹配完一次再进行移位时，其移位步长也为一个子序列，从而使得在局部对比过程中，可以充分考虑到不同歌曲部分的特点，提高相似度的确定准确性。

302、服务器保持一个音频序列不动，以该一个音频序列一个序列位置作为起点，确定另一个音频序列与该起点以后的序列之间的重叠部分。

通过上述过程，可以确定两个音频序列的多种重叠可能性，对于两个音频来说，其具有相似性的段落可能不是在音频的同一部分发生，对于这种情况，利用相关技术就很难去确认两个音频是相似的，而通过本申请这种移位匹配的方式，则可以将多种重叠可能性找出来，并基于多种重叠可能性来进一步确定音频之间的相似与否，能够带来更准确的相似度。

该过程中，服务器可以保持一个音频序列不动，以该音频序列中各个子序列逐个作为另一个音频序列的移位匹配的起点，从而确定多对重叠部分，这里所说的一对重叠部分包括一个音频序列中的子序列以及另一个音频序列中经移位匹配后对应位置上的子序列。

303、服务器确定该重叠部分对应的相似度序列，一个相似度序列中包括该重叠部分对应位置的元素之间的元素相似度。

可选地，该相似度序列中的元素相似度可以是经过处理的元素相似度，也即是，不是原始相似度，例如，将该相似度序列中的多个初始相似度和该多个初始相似度的均值分别相减，得到该多个元素相似度。也即是，在确定子序列之间的相似度时，可以直接基于子序列来计算初始相似度，然后，基于重叠部分所包括的对应子序列之间的初始相似度，求取均值，并将各个位置上的初始相似度与均值做差，将所得到的差值作为该位置上的元素相似度。通过这种处理，可以平衡相似度序列，用具有相对性的数值来更直观的表示子序列之间的相似程度。

在上述步骤302至303中，可以先确定两个音频序列之间两两元素之间的相似度，然后再确定了重叠部分后，再基于已确定的相似度，来确定重叠部分对应的相似度序列，当然，也可以先确定重叠部分，再确定重叠部分对应的相似度序列，本申请实施例对此不作限定。

下面针对上述302至303的过程，基于上述频谱序列Q和H的相似度确定来进行举例说明：

首先，服务器可以计算出这M和N个子序列之间两两的相似度，得到M*N个相似度，定义Qi和Hj之间的初始相似度为S_f，其计算公式可以如下：

S_f<Qi,Hj>＝Qi*Hj

其中，Qi表示序列Q中第i个子序列，Hj示序列H中第j个子序列，“*”表示向量内积。

可选地，对于所有计算得到的初始相似度，对其进行均值计算，得到初始相似度的均值，再将所有初始相似度减去该均值，以得到子序列之间的相似度S，需要说明的是，该相似度S可以为正数或者负数。

其次，服务器可以穷举Q和H所有可能的相似度序列，一个相似度序列用于表示两个频谱序列的一种重叠可能性，再基于相似度序列来确定每种重叠可能性的相似度。其具体方法可以示例如下：

参见图5，服务器可以保持频谱序列Q不动，以该频谱序列Q中各个子序列逐个作为另一个频谱序列H的移位匹配的起点，确定多个相似度序列，每个相似度序列中包括一次移位匹配中两个频谱序列之间的重叠部分的子序列之间的元素相似度。

例如，若确定的匹配起点为频谱序列Q中的Q1，则将{Q1,Q2,...}和{H1,H2,...}对应位置进行匹配，以确定两个频谱序列中重叠部分的子序列，例如图5中的501、502和503中所示，基于在上述计算得到的子序列之间的元素相似度，组成相似度序列{S<Q1,H1>,S<Q2,H2>,...}；

若确定的匹配起点为频谱序列Q中的Q2，则将{Q2,Q3,...}和{H1,...}对应位置进行匹配，基于在上述计算得到的子序列之间的元素相似度，组成相似度序列{S<Q2,H1>,S<Q3,H2>,...}；

……

以此类推，可以得到M个相似度序列。

在上述过程中，可以先保持频谱序列Q不动，将频谱序列H向后移动，从而得到一系列的匹配可能性，也就是序列的重叠部分，比如一开始是{S<Q1,H1>,S<Q2,H2>,...},然后H向后移动一个位置，就变成{S<Q2,H1>,S<Q3,H2>,...},一直移动到H1跟Q的最后一个子序列素匹配，此时只有一个子序列重叠，即{S<H1,Q_M>}。

接着还可以固定频谱序列H不动，将频谱序列Q向后移动，得到{S<Q1,H2>,S<Q2,H3>,...}。通过上述过程，服务器可以得到所有的相似度序列。

需要说明的是，每个相似度序列的长度都不一样，因为Q和H在移动过程中，重叠部分的长度不同，例如，当H1移动到跟QM重叠时，则其相似度序列中只有一个数值。

304、服务器基于该相似度序列中的多个元素相似度，确定该相似度序列的序列相似度。

在本申请实施例中，对于一个相似度序列来说，需要采用一个数值来代表这种重叠可能性的相似度，因此，可采用下述过程来却行序列相似度：以所述相似度序列中第一个位置为序列起点，获取包括有所述第一个位置上元素的多个相似度子序列，每个相似度子序列的序列长度不同；分别对所述多个相似度子序列中的元素取均值，将所述多个相似度子序列的均值中的最大均值作为所述相似度序列的序列相似度。

继续基于上述的Q和H进行举例，假设服务器现在面对的可能性是{S<Q1,H2>,S<Q2,H3>...}，为了方便起见，下面将其记为{s1,s2,....}。为了衡量序列的匹配性，服务器可以对于每个相似度序列，求取相似度序列内以第一个位置为起点的多个相似度子序列内元素的均值，再选取将最大均值作为该序列相似度，其计算公式可以参见下式：

best_S＝max((s1+...+si)/i)

其中，best_S用于表示序列相似度，max()用于表示取最大值，i为一个相似度序列中的元素位置，s1至si用于表示该相似度序列中元素。例如，假设{s1,s2...}＝{0.1,-3,5,100,-1000,2000，-10000}，则通过上述公式可以看出，元素最大值发生在第6个位置，即i＝6的时候，则可以将该相似度序列中从第一位到第六位的元素均值作为该相似度序列对应的序列相似度。

305、服务器对所述多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，确定最大的序列相似度，将所述最大的序列相似度确定为所述两个音频之间的音频相似度。

该步骤305是基于该对所述多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，将符合目标条件的序列相似度，确定为所述两个音频之间的音频相似度的过程，在其他实施例中，还可以基于其他参考条件从该多个序列相似度中确定出音频相似度，例如，基于所述相似度排序结果，确定位于前第一目标位数内的序列相似度，将所述序列相似度所对应的重叠部分最长的序列相似度，确定为所述两个音频之间的音频相似度，以便在保证相似度准确的同时，能够确保相似部分能够较长，能够被人耳所识别。

当然，为了进一步提升相似度的准确性，服务器还可以根据序列相似度所对应的重叠部分来为序列相似度赋予不同第一调整系数，以便根据序列相似度和第一调整系数的乘积，来进一步进行音频相似度的确定，例如，将最大乘积作为音频相似度。

继续基于上述的Q和H进行举例，对每种重叠可能性的相似度序列，服务器都得到这样一个序列相似度，然后服务器从所有的序列相似度中，将最大的序列相似度，作为Q和H最终的音频相似度。

在确定音频相似度时，通过对音频序列进行移位匹配，从而基于移位后两个音频序列的重合部分的相似与否，来确定音频之间的相似度，由于重合部分用于表示一个音频的局部，因此通过对重合部分的相似度的确定，能够从局部的角度来将相似的音频识别出来，提高了相似度确定的准确性。例如，有两首歌曲，他们的高潮段落给人的听觉感受十分类似，那这就是两首相似的歌曲；再比如有一首歌曲的前奏用了另一首乐曲的高潮段落，那也能是相似歌曲，最常见的就是流行音乐歌手用古典音乐的篇章来作为自己歌曲的前奏或伴奏，本申请实施例所提供的相似度确定方法不仅可以将前一种相似情况准确确定，也能够准确确定后一种情况，不会由于其相似段落分别位于歌曲的不同阶段，而导致无法将其确定为相似歌曲。

进一步地，在本申请实施例的基础上，服务器可以创建该音频相似度与对应的两个音频之间，从而在进行音频检索时，可以作为相似音频检索的参考，例如，若服务器响应于接收到音频检索请求，基于所述音频检索请求携带的音频标识，从音频数据库中获取与所述音频标识之间具有对应关系且音频相似度的排序位于前第二目标位数内的音频标识，输出获取到的所述音频标识对应的音频。于上述实施例中所确定的音频相似度所进行的检索，大大提高了检索的准确性，也能够为用户带来更优质的视听体验。

进一步地，在本申请实施例的基础上，服务器还可以确定作为所述音频相似度的序列相似度所对应的重叠部分在所述两个音频中所处的歌曲部分，从而创建所述两个音频、所述音频相似度和所述所处的歌曲部分之间的对应关系，以便在输出音频相似度排序位于前第二目标位数的音频标识的音频时，可以提示相似部分分别处于歌曲哪个部分，以便用户能够快速锁定对应的歌曲位置。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

上述图3所示实施例是通过直接根据序列相似度中的最大值来确定音频相似度，而在一种可能实现方式中，考虑到重叠部分的长度，还可以对相似度进行均衡，参见图6所示的实施例，图6是本申请实施例提供的一种音频相似度确定方法的流程图。该方法可以应用在服务器上，参见图6，该方法包括：

601、服务器获取两个音频序列，该两个音频序列分别对应于两个待处理音频。

602、服务器保持一个音频序列不动，以该一个音频序列一个序列位置作为起点，确定另一个音频序列与该起点以后的序列之间的重叠部分。

603、服务器确定该重叠部分对应的相似度序列，一个相似度序列中包括该重叠部分对应位置的元素之间的元素相似度。

604、服务器基于该相似度序列中的多个元素相似度，确定该相似度序列的序列相似度。

上述步骤601至604与上述步骤301至304同理，在此不做赘述。

605、服务器对所述多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，确定位于前第一目标位数内的序列相似度。

对于序列相似度过小的相似度，说明其本身相似程度较低，则可以将这部分序列相似度舍弃，仅以数值较大的序列相似度来作为后续基于重叠部分的长度的相似度确定。该步骤605还可以基于相似度阈值来进行选择，也即是过滤掉序列相似度小于相似度阈值的序列相似度，基于剩余的序列相似度执行下属步骤606至607，以避免数值过小的序列相似度的干扰。

606、服务器对于所确定的多个序列相似度，按照该多个序列相似度所对应的重叠部分所包括的序列长度，确定该多个序列相似度的第一调整系数，序列长度与对应的第一调整系数正相关。

对于各个序列相似度来说，其对应的重叠部分所包括的序列长度不同，序列长度越长，说明音频之间可能相似的部分越多，因此，可以基于序列长度来为各个经上述筛选得到的多个序列相似度设置第一调整系数，例如，根据上述第一目标位数，可以对应有从小到大五个第一调整系数，则根据序列长度从小到大，将上述五个第一调整系数分配设置给对应的序列相似度。

需要说明的是，上述第一调整系数可以均为大于1的数值，以使得序列相似度均以不同比例增大。

607、服务器该多个序列相似度和对应的第一调整系数相乘，得到调整后的多个序列相似度。

通过上述第一调整系数的调整，可以使得序列相似度能够同时体现序列内元素相同与否以及重叠部分长度对相似度的影响，能够大大丰富相似度所能够表现的信息。

608、服务器将该调整后的多个序列相似度中的最大序列相似度，确定为该两个音频之间的音频相似度。

通过上述调整处理后，为了使得音频相似度充分体现两个音频的相似情况，则可以选择多个序列相似度中的最大序列相似度来代表两个音频之间的音频相似度。

本申请实施例提供的方法，在确定音频相似度时，通过对音频序列进行移位匹配，从而基于移位后两个音频序列的重合部分的相似与否，来确定音频之间的相似度，由于重合部分用于表示一个音频的局部，因此通过对重合部分的相似度的确定，能够从局部的角度来将相似的音频识别出来，提高了相似度确定的准确性。进一步地，在确定音频相似度时，还考虑了重叠部分的序列长度对相似程度的影响，从而使得所确定的音频相似度能够体现更多维度的匹配情况。

图7是本申请实施例提供的一种音频相似度确定方法的流程图。该方法可以应用在服务器上，参见图7，该方法包括：

701、服务器获取两个音频序列，该两个音频序列分别对应于两个待处理音频。

702、服务器保持一个音频序列不动，以该一个音频序列一个序列位置作为起点，确定另一个音频序列与该起点以后的序列之间的重叠部分。

703、服务器确定该重叠部分对应的相似度序列，一个相似度序列中包括该重叠部分对应位置的元素之间的元素相似度。

704、服务器基于该相似度序列中的多个元素相似度，确定该相似度序列的序列相似度。

上述步骤701至704与上述步骤301至304同理，在此不做赘述。

705、服务器比较两次相邻匹配过程所确定的重叠部分分别对应的第一序列相似度和第二序列相似度。

一次匹配过程是指上述以一个音频序列的一个序列位置作为起点，来确定另一个音频序列与该起点以后的序列之间的重叠部分的过程，而在一次匹配过程之后，服务器会将上述序列位置的下一个序列位置作为起点，来与另一个音频序列进行匹配，这两个过程可以称为相邻匹配过程。

本申请实施例仅以两个相邻匹配过程进行举例说明，对于任两个相邻匹配过程均可以采用上述过程进行处理，以在后续根据实际情况对多个序列相似度进行调整。

706、服务器若该第一序列相似度和该第二序列相似度之间的差值小于目标阈值，则为该第一序列相似度和该第二序列相似度中数值大的序列相似度设置第二调整系数。

在每个匹配过程中，可以确定两个序列中的重叠部分，若其两个序列相似度较相近，由于音频本身具有平滑过渡的特性，因此，可以认为其音频上连续多处的相似程度较高，。因此，可以设置一目标阈值，用以将相近的序列相似度找出来，从而再针对性的调整其中数值较大的序列相似度。

其中，该第二调整系数对于每两个相邻序列相似度可以是相同数值，从而使得在调整的程度上各个序列相似度均等，以避免对有些相似度过度调整造成的相似度不准确的情况。

707、服务器将该多个序列相似度和对应的第二调整系数相乘，得到处理后的多个序列相似度。

通过上述第二调整系数的调整，可以使得序列相似度能够同时体现序列内元素相同与否以及音频的平滑过渡特性的影响，能够大大丰富相似度所能够表现的信息。

708、服务器对该调整后的多个序列相似度进行排序，得到相似度排序结果，基于该相似度排序结果，将符合目标条件的序列相似度，确定为该两个音频之间的音频相似度。

该步骤708的具体过程可以与上述步骤305同理，在此不做赘述。

本申请实施例提供的方法，在确定音频相似度时，通过对音频序列进行移位匹配，从而基于移位后两个音频序列的重合部分的相似与否，来确定音频之间的相似度，由于重合部分用于表示一个音频的局部，因此通过对重合部分的相似度的确定，能够从局部的角度来将相似的音频识别出来，提高了相似度确定的准确性。进一步地，在确定音频相似度时，还考虑了相邻匹配过程中序列相似度之间是否相近对相似程度的影响，从而使得所确定的音频相似度能够体现更多维度的匹配情况。

图8是本申请实施例提供的一种音频相似度确定装置的结构示意图。参见图8，所述装置包括：

序列获取模块801，用于获取两个音频序列，所述两个音频序列分别对应于两个待处理音频；

第一相似度获取模块802，用于确定所述两个音频序列的多个序列相似度，一个序列相似度用于表示以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时的重叠部分之间的相似度；

第二相似度获取模块803，用于基于所述多个序列相似度，确定所述两个音频之间的音频相似度。

该申请实施例中，对该音频进行采样，得到时域序列的具体过程可以包括：服务器对音频进行时间维度的采样，每隔采样间隔采样一个音频信号，得到离散的时间序列，每个值代表音频在该采样点上的大小，然后再按固定时间段成一个子时域序列，而对于一个音频来说，其可以生成包括多个子时域序列的第一时域序列。

该申请实施例中，对该时域序列进行时频转换，得到该音频序列的具体过程可以包括：服务器可以对每组时间序列做频域变换，以得到多组频率信号，一组频率信号用以代表一组时间序列里面包含的不同频率的分布，再对多组频率信号按照预设频率进行采样，从而得到一个离散的频率序列。

当然，可以事先在音频数据库中存储有该音频分别对应的音频序列，从而在需要对该两个音频进行相似度确定时，可以根据两个音频的音频标识，从音频数据库中获取对应的音频序列和音频序列，而无需每次均重新生成，能够大大降低服务器的处理压力。

在一种可能实现方式中，所述第一相似度获取模块包括：

在一种可能实现方式中，第二相似度获取模块，包括：

在一种可能实现方式中，所述音频相似度确定单元，用于：

或，

在一种可能实现方式中，第二相似度获取模块用于：

在一种可能实现方式中，序列获取模块，包括：

确定所述频域序列中对应音频不同歌曲部分的元素；

创建所述两个音频和所述音频相似度之间的对应关系。

需要说明的是：上述实施例提供的音频相似度确定装置在音频相似度确定时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频相似度确定装置与音频相似度确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processingunits，CPU)901和一个或多个的存储器902，其中，所述一个或多个存储器902中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的音频相似度确定方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频相似度确定方法，其特征在于，所述方法包括：

以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时，确定所述两个音频序列的重叠部分对应的相似度序列，一个相似度序列中包括所述重叠部分对应位置的元素之间的元素相似度；

以所述相似度序列中第一个位置为序列起点，获取包括有所述第一个位置上元素的多个相似度子序列，每个相似度子序列的序列长度不同；

根据所述多个相似度子序列，确定所述相似度序列的序列相似度，一个序列相似度用于表示以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时的重叠部分之间的相似度；

基于多个序列相似度，确定所述两个音频之间的音频相似度。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

保持一个音频序列不动，以所述一个音频序列一个序列位置作为起点，确定另一个音频序列与所述起点以后的序列之间的重叠部分。

3.根据权利要求1所述的方法，其特征在于，所述确定所述两个音频序列的重叠部分对应的相似度序列包括：

将所述相似度序列中的多个初始相似度和所述多个初始相似度的均值分别相减，得到多个元素相似度。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述多个相似度子序列，确定所述相似度序列的序列相似度包括：

5.根据权利要求1所述的方法，其特征在于，所述基于多个序列相似度，确定所述两个音频之间的音频相似度包括：

对所述多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，将符合目标条件的序列相似度，确定为所述两个音频之间的音频相似度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述相似度排序结果，将符合目标条件的序列相似度，确定为所述两个音频之间的音频相似度包括：

或，

7.根据权利要求1所述的方法，其特征在于，所述基于多个序列相似度，确定所述两个音频之间的音频相似度包括：

将所述所确定的多个序列相似度和对应的第一调整系数相乘，得到调整后的多个序列相似度；

将所述调整后的多个序列相似度中的最大序列相似度，确定为所述两个音频之间的音频相似度。

8.根据权利要求1所述的方法，其特征在于，所述基于多个序列相似度，确定所述两个音频之间的音频相似度包括：

对调整后的多个序列相似度进行排序，得到相似度排序结果，基于所述相似度排序结果，将符合目标条件的序列相似度，确定为所述两个音频之间的音频相似度。

9.根据权利要求1所述的方法，其特征在于，所述获取两个音频序列包括：

对于所述两个音频中的任一个音频，对所述音频进行采样，得到时域序列；对所述时域序列进行时频转换，得到所述音频序列。

10.根据权利要求9所述的方法，其特征在于，所述对所述时域序列进行时频转换，得到所述音频序列包括：

对所述时域序列进行时频转换，得到频域序列；

确定所述频域序列中对应音频不同歌曲部分的元素；

11.根据权利要求1所述的方法，其特征在于，所述基于多个序列相似度，确定所述两个音频之间的音频相似度之后，所述方法还包括：

创建所述两个音频和所述音频相似度之间的对应关系。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于接收到音频检索请求，基于所述音频检索请求携带的音频标识，从音频数据库中获取与所述音频标识之间具有对应关系且音频相似度的排序位于前第二目标位数内的音频标识，输出获取到的所述音频标识对应的音频。

13.一种音频相似度确定装置，其特征在于，所述装置包括：

第一相似度获取模块，包括序列确定单元和序列相似度确定单元，所述序列确定单元，用于以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时，确定所述两个音频序列的重叠部分对应的相似度序列，一个相似度序列中包括所述重叠部分对应位置的元素之间的元素相似度；

所述序列相似度确定单元，用于以所述相似度序列中第一个位置为序列起点，获取包括有所述第一个位置上元素的多个相似度子序列，每个相似度子序列的序列长度不同；根据所述多个相似度子序列，确定所述相似度序列的序列相似度，一个序列相似度用于表示以一个音频序列的一个序列位置作为起点和另一个音频序列进行匹配时的重叠部分之间的相似度；

第二相似度获取模块，用于基于多个序列相似度，确定所述两个音频之间的音频相似度。

14.根据权利要求13所述的装置，其特征在于，所述第一相似度获取模块还包括：

重叠确定单元，用于保持一个音频序列不动，以所述一个音频序列一个序列位置作为起点，确定另一个音频序列与所述起点以后的序列之间的重叠部分。

15.根据权利要求13所述的装置，其特征在于，所述序列确定单元，还用于：

16.根据权利要求14或15所述的装置，其特征在于，所述序列相似度确定单元，还用于：

17.根据权利要求13所述的装置，其特征在于，所述第二相似度获取模块，包括：

18.根据权利要求17所述的装置，其特征在于，所述音频相似度确定单元，用于：

或，

19.根据权利要求13所述的装置，其特征在于，所述第二相似度获取模块，还用于：

20.根据权利要求13所述的装置，其特征在于，所述第二相似度获取模块，还用于：

21.根据权利要求13所述的装置，其特征在于，所述序列获取模块，包括：

22.根据权利要求21所述的装置，其特征在于，所述音频序列获取单元，还用于：

对所述时域序列进行时频转换，得到频域序列；

确定所述频域序列中对应音频不同歌曲部分的元素；

23.根据权利要求13所述的装置，其特征在于，所述装置还包括对应关系创建模块，用于：

创建所述两个音频和所述音频相似度之间的对应关系。

24.根据权利要求13所述的装置，其特征在于，所述装置还包括：

音频检索模块，用于响应于接收到音频检索请求，基于所述音频检索请求携带的音频标识，从音频数据库中获取与所述音频标识之间具有对应关系且音频相似度的排序位于前第二目标位数内的音频标识，输出获取到的所述音频标识对应的音频。

25.一种服务器，其特征在于，所述服务器包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的音频相似度确定方法。

26.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的音频相似度确定方法。