CN111309285A

CN111309285A - 多媒体数据排序方法、装置、终端设备及存储介质

Info

Publication number: CN111309285A
Application number: CN202010073163.8A
Authority: CN
Inventors: 邢玲; 杨天宝
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-12-09
Filing date: 2020-01-21
Publication date: 2020-06-19

Abstract

本发明提供一种多媒体数据排序方法、装置、终端设备及存储介质，通过快速排序算法对相似度数组进行一次排序，分割成左部分相似度数据和右部分相似度数据，采用递归方式对左部分相似度数据进行快速排序并获取待排序数据的数据量，在待排序数据的数据量小于或等于第一阈值时对待排序数据进行插入排序；在待排序数据的数据量大于第一阈值时获取对左部分相似度数据进行快速排序的递归深度，在对左部分相似度数据进行快速排序的递归深度大于第二阈值时对待排序数据进行堆排序；并采用相同排序方式对右部分相似度数据进行排序，可以同时满足时间复杂度和空间复杂度要求，实现对海量源多媒体数据与目标多媒体数据之间的相似度的大小排序。

Description

多媒体数据排序方法、装置、终端设备及存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及一种多媒体数据排序方法、装置、终端设备及存储介质。

背景技术

现有的数据排序技术主要分为比较排序和非比较排序，其中，比较排序包括插入排序、选择排序、冒泡排序、快速排序、堆排序、归并排序、希尔排序和二叉树排序，非比较排序包括计数排序、桶排序和基数排序。非比较排序对数据的特性有要求，当数据包含定位特征，不需要通过比较来确定数据中元素的位置时，可以选择非比较排序。相比于非比较排序，比较排序对数据的特性没有严格要求，因此更为常用。

然而，每种比较排序算法都因为自身实现原理的局限性，而在不同应用场景下存在性能差异，目前尚没有任何一种比较排序算法能够作为通用型排序方法，来同时满足时间复杂度和空间复杂度的要求。

发明内容

有鉴于此，本发明实施例提供了一种多媒体数据排序方法、装置、终端设备及存储介质，以解决现有技术中每种比较排序算法都因为自身实现原理的局限性，而在不同应用场景下存在性能差异，目前尚没有任何一种比较排序算法能够作为通用型排序方法，来同时满足时间复杂度和空间复杂度的要求的问题。

本发明实施例的第一方面提供了一种多媒体数据排序方法，包括：

采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据；其中，所述相似度数组为由若干源多媒体数据与目标多媒体数据之间的相似度构成的一维数组；

采用递归方式对所述左部分相似度数据进行快速排序；

在对所述左部分相似度数据进行快速排序的过程中，获取所述左部分相似度数据中的待排序数据的数据量；

在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行插入排序；

在所述左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述左部分相似度数据进行快速排序的递归深度；

在对所述左部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述左部分相似度数据中的待排序数据进行堆排序；

采用与所述左部分相似度数据相同的排序方式对所述右部分相似度数据进行排序，完成对所述相似度数组的排序，得到所述若干源多媒体数据与所述目标多媒体数据之间的相似度的大小顺序。

在一个实施例中，采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据，包括：

获取相似度数组的数据总量；

在所述数据总量小于或等于第三阈值时，采用三数取中法获取基准值；其中，第三阈值＞第一阈值；

在所述数据总量大于第三阈值时，采用N数取中法获取基准值；其中，N＞3且为整数；

采用快速排序算法，根据所述基准值对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据。

在一个实施例中，获取相似度数组的数据总量之后，所述方法还包括：

在所述数据总量小于或等于第一阈值时，对所述相似度数组进行插入排序。

在一个实施例中，在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行插入排序，包括：

在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行带哨兵的插入排序。

在一个实施例中，采用与所述左部分相似度数据相同的排序方式对所述右部分相似度数据进行排序，完成对所述相似度数组的排序，包括：

在完成对所述左部分相似度数据的排序之后，采用与所述左部分相似度数据相同的排序方式对所述右部分相似度数据进行排序，完成对所述相似度数组的排序；

或者，在对所述左部分相似度数据进行排序的同时，采用与所述左部分相似度数据相同的排序方式对所述右部分相似度数据进行排序，完成对所述相似度数组的排序。

在一个实施例中，在所述左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述左部分相似度数据进行快速排序的递归深度之后，所述方法还包括：

在对所述左部分相似度数据进行快速排序的递归深度小于或等于第二阈值时，继续采用递归方式对所述左部分相似度数据中的待排序数据进行快速排序。

在一个实施例中，采用递归方式对所述左部分相似度数据进行快速排序，包括：

获取所述左部分相似度数据中的待排序数据的数据总量；

根据所述基准值对所述左部分相似度数据中的待排序数据的进行快速排序。

本发明实施例的第二方面提供了一种多媒体数据排序装置，包括：

快速排序模块，用于采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据；其中，所述相似度数组为由若干源多媒体数据与目标多媒体数据之间的相似度构成的一维数组；

所述快速排序模块还用于采用递归方式对所述左部分相似度数据进行快速排序；

第一获取模块，用于在对所述左部分相似度数据进行快速排序的过程中，获取所述左部分相似度数据中的待排序数据的数据量；

插入排序模块，用于在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行插入排序；

第二获取模块，用于在所述左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述左部分相似度数据进行快速排序的递归深度；

堆排序模块，用于在对所述左部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述左部分相似度数据中的待排序数据进行堆排序；

所述快速排序模块还用于采用递归方式对所述右部分相似度数据进行快速排序；

所述第一获取模块还用于在对所述右部分相似度数据进行快速排序的过程中，获取所述右部分相似度数据中的待排序数据的数据量；

所述插入排序模块还用于在所述右部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述右部分相似度数据中的待排序数据进行插入排序；

所述第二获取模块还用于在所述右部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述右部分相似度数据进行快速排序的递归深度；

所述堆排序模块还用于在对所述右部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述右部分相似度数据中的待排序数据进行堆排序，完成对所述相似度数组的排序，得到所述若干源多媒体数据与所述目标多媒体数据之间的相似度的大小顺序。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述多媒体数据排序方法的步骤。

本发明实施例的第四方面提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明实施例第一方面所述多媒体数据排序方法的步骤。

本发明实施例通过采用快速排序算法对相似度数组进行一次排序，将相似度数组分割成左部分相似度数据和右部分相似度数据，采用递归方式对左部分相似度数据进行快速排序，可以降低时间复杂度；通过在对左部分相似度数据进行快速排序的过程中，获取左部分相似度数据中的待排序数据的数据量，在左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对左部分相似度数据中的待排序数据进行插入排序，可以防止快速排序的递归深度过深而导致堆栈溢出的问题，降低时间复杂度和空间复杂度，提高稳定性；通过在左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对左部分相似度数据进行快速排序的递归深度，在对左部分相似度数据进行快速排序的递归深度大于第二阈值时，对左部分相似度数据中的待排序数据进行堆排序，可以进一步防止快速排序的递归深度过深而导致堆栈溢出的问题，并进一步降低时间复杂度和空间复杂度；通过采用与左部分相似度数据相同的排序方式对右部分相似度数据进行排序，完成对相似度数组的排序，可以在同时满足时间复杂度和空间复杂度要求的情况下，实现对海量源多媒体数据与目标多媒体数据之间的相似度的大小排序，可以广泛应用于图像识别、语音识别、监控、机器视觉等领域。

本发明实施例通过获取相似度数组的数据总量，在数据总量小于或等于第三阈值时，采用三数取中法获取基准值，在数据总量大于第三阈值时，采用N数取中法获取基准值，使N＞3且为整数，然后采用快速排序算法，根据基准值对相似度数组相似度数组进行一次排序，将相似度数组分割成左部分相似度数据和右部分相似度数据，并采用递归方式对左部分相似度数据和右部分相似度数据进行快速排序，可以提高选取的基准值的合理性，从而降低时间复杂度。

本发明实施例通过在相似度数组的数据总量小于或等于第一阈值时，对相似度数组进行插入排序，可以在相似度数组的数据量较小时，直接采用插入排序方式对相似度数组进行排序，可以有效降低空间复杂度并提高稳定性。

本发明实施例通过在对左部分相似度数据进行排序的同时，采用与左部分相似度数据相同的排序方式对右部分相似度数据进行排序，完成对相似度数组的排序，可以实现对左部分相似度数据和右部分相似度数据的并行排序，从而有效提高排序效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多媒体数据排序方法的第一种流程示意图；

图2是本发明实施例提供的多媒体数据排序方法的第二种流程示意图；

图3是本发明实施例提供的排序算法的性能示意图；

图4是本发明实施例提供的多媒体数据排序方法的第三种流程示意图；

图5是本发明实施例提供的三数取中法的原理示意图；

图6是本发明实施例提供的多媒体数据排序装置的结构示意图；

图7是本发明实施例提供的终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

本发明实施例提供一种多媒体数据排序方法，应用于桌上型计算机、笔记本电脑、服务器等计算设备，也可以应用于手机、平板电脑、个人数字助理、头戴式显示器(HeadMountedDisplay，HMD)等移动终端，还可以应用于语音识别设备、监控设备、机器视觉设备、机器人、自助终端机等设备。所述多媒体数据排序方法用于采用快速排序算法对海量源多媒体数据与目标多媒体数据之间的相似度的进行递归排序，并在快速排序过程中根据待排序数据数据量大小和递归深度，结合插入排序算法和/或堆排序算法对待排序数据进行排序，可以同时满足时间复杂度和空间复杂度的要求。

如图1所示，在本发明的一个实施例中，所述多媒体数据排序方法，包括由所述多媒体数据排序方法所应用的终端或设备中的处理器来执行的以下步骤：

步骤S101、采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据；其中，所述相似度数组为由若干源多媒体数据与目标多媒体数据之间的相似度构成的一维数组。

在应用中，多媒体数据可以是音频数据、图像数据、视频数据等类型的多媒体数据，还可以是其他类型的整型数据、时间数据等。相似度数组是由若干源多媒体数据与目标多媒体数据之间的相似度构成的一维数组，每个源多媒体数据与目标多媒体数据之间的相似度为相似度数组中的一个元素。相似度数组的数据量可以是海量，可以在同时满足时间复杂度和空间复杂度要求的情况下，实现对海量数据的排序，可以广泛应用于语音识别、图像识别、监控、机器视觉等需要要对海量多媒体数据与目标多媒体数据之间的相似度进行大小排序的领域，可以实现人脸识别、物体识别、场景识别、声纹识别、语音识别等功能。

在一个实施例中，步骤S101之前，包括：

分别对若干源多媒体数据中的每个源多媒体数据进行特征提取，得到每个源多媒体数据的特征值；

对目标多媒体数据进行特征提取，得到目标多媒体数据的特征值；

根据每个源多媒体数据的特征值和目标多媒体数据的特征值，计算每个源多媒体数据与目标多媒体数据之间的相似度；

构建包括所有源多媒体数据与目标多媒体数据之间的相似度的一维数组，得到相似度数组。

在应用中，根据多媒体数据的数据类型的不同，可以采用相应的特征提取方法来提取每种类型的多媒体数据的特征，得到特征值。例如，当多媒体数据为音频数据时，可以采用python提取音频数据的频率、振幅、节拍(bpm)、过零率、短时能量、MFCC(Mel-FrequencyCepstralCoefficients，梅尔频率倒谱系数)等特征；当多媒体数据为图像数据时，可以采用SIFT(Scale-invariant feature transform，尺度不变特征变换)、SURF(Speeded Up Robust Features，加速稳健特征)、ORB(Oriented FAST and RotatedBRIEF，快速特征点提取和描述)、LBP(Local Binary Pattern，局部二值模式)、HAAR(Haar-like feature，哈尔特征)等方法来提取对应的图像特征。相似度是根据源多媒体数据与目标多媒体数据的特征值之间的匹配程度来确定，例如，源多媒体数据与目标多媒体数据的全部特征值都相同，则二者的匹配程度为100％，对应的相似度也为100％，源多媒体数据与目标多媒体数据的特征值有80％相同，则二者的匹配程度为80％，对应的相似度也为80％，也即源多媒体数据与目标多媒体数据之间的相似度正比于二者的特征值之间的匹配程度。

步骤S102、采用递归方式对所述左部分相似度数据进行快速排序。

在应用中，采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据之后，采用递归方式分别对所述左部分相似度数据和右部分相似度数据进行快速排序。通过采用快速排序算法对相似度数组进行一次排序，将相似度数组分割成左部分相似度数据和右部分相似度数据，然后采用递归方式对左部分相似度数据和右部分相似度数据进行快速排序，可以降低时间复杂度。

对相似度数组进行快速排序的实现过程如下：

(1)首先设定一个基准值，通过该基准值将相似度数组分割成左右两部分；

(2)将相似度数组中大于或等于基准值的数据集中到右边，小于基准值的数据集中到左边，此时，左部分相似度数据中各元素都小于基准值，而右部分相似度数据中各元素都大于或等于基准值；

(3)然后采用快速排序算法分别对左部分相似度数据和右部分相似度数据进行独立排序，对于左部分相似度数据，又可以取一个新的基准值，将该部分数据分成左右两部分，同样在左边放置较小值，右边放置较大值，右部分相似度数据也做相同处理；

(4)重复上述过程，即完成对相似度数组的快速排序。可以看出，上述排序过程是一个递归定义。通过递归方式分别对左部分相似度数据和右部分相似度数据进行快速排序，当左、右两个部分数据排序完成后，即完成对相似度数组的快速排序。

步骤S103、在对所述左部分相似度数据进行快速排序的过程中，获取所述左部分相似度数据中的待排序数据的数据量。

在应用中，递归深度为1时，待排序数据为全部左部分相似度数据；递归深度为2时，待排序数据为由左部分相似度数据分割成的左部分相似度数据或右部分相似度数据，其他递归深度的待排序数据依此类推。

步骤S104、在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行插入排序。

在应用中，在获取左部分相似度数据中的待排序数据的数据量后，比较待排序数据的数据量与第一阈值的大小并获取比较结果，在比较结果为左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对左部分相似度数据中的待排序数据进行插入排序。第一阈值可以根据实际需要设置为一个较小值，例如，6～10中的任意值，具体可以为6。通过在对左部分相似度数据进行快速排序的过程中，获取左部分相似度数据中的待排序数据的数据量，在左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对左部分相似度数据中的待排序数据进行插入排序，可以防止快速排序的递归深度过深而导致堆栈溢出的问题，降低时间复杂度和空间复杂度，提高稳定性。

在一个实施例中，步骤S104，包括：

在应用中，哨兵是为了简化插入排序过程中的边界条件而引入的附加结点，通过设置哨兵可以减少一次for循环的条件判断，可以进一步提高排序效率，哨兵的作用有两个，其一是在进入查找(插入位置)循环之前，它保存了有序数组中数据arr[i]的副本，从而不会因记录后移而丢失arr[i]的内容；其二是在查找循环中监视下标变量j是否越界，一旦越界(即j＝0)，则不满足arr[0]<arr[j]时就结束循环，从而避免了在该循环内的每一次均要检测j是否越界(即省略了一次for循环的条件判断)。如下，示例性的示出了一段查找循环代码：

其中，arr表示有序数组(array)，i和j为数组的下标变量，arr[i]表示有序数组arr中下标变量为i的数据，arr[j]表示有序数组arr中下标变量为j的数据。

步骤S105、在所述左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述左部分相似度数据进行快速排序的递归深度；

步骤S106、在对所述左部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述左部分相似度数据中的待排序数据进行堆排序。

在应用中，在快速排序的基础上结合插入排序的情况下，还是会出现递归深度过深的问题，因此，还需要再额外设置一个第二阈值，以在检测到待排序数据量大于第一阈值且递归深度大于第二阈值时，采用堆排序算法对待排序数据进行排序。第二阈值可以根据实际需要设置，第二阈值的设定与相似度数组的数据总量有关，例如，第二阈值可以为2*lg(n)。通过在左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对左部分相似度数据进行快速排序的递归深度，在对左部分相似度数据进行快速排序的递归深度大于第二阈值时，对左部分相似度数据中的待排序数据进行堆排序，可以进一步防止快速排序的递归深度过深而导致堆栈溢出的问题，并进一步降低时间复杂度和空间复杂度。

在一个实施例中，步骤S105之后，还包括：

在应用中，在递归深度小于或等于第二阈值时，则继续采用递归方式对待排序数据进行快速排序，并在待排序数据的数据量小于或等于第一阈值时，对待排序数据进行插入排序，即在递归深度小于或等于第二阈值且待排序数据的数据量大于第一阈值时，采用递归方式对待排序数据进行快速排序；在递归深度小于或等于第二阈值且待排序数据的数据量小于或等于第一阈值时，对待排序数据进行插入排序。

步骤S107、采用与所述左部分相似度数据相同的排序方式对所述右部分相似度数据进行排序，完成对所述相似度数组的排序，得到所述若干源多媒体数据与所述目标多媒体数据之间的相似度的大小顺序。

在应用中，可以采用与步骤S102～S106中相同的排序方式对右部分相似度数据进行排序。通过采用与左部分相似度数据相同的排序方式对右部分相似度数据进行排序，完成对相似度数组的排序，可以在同时满足时间复杂度和空间复杂度要求的情况下，实现对海量源多媒体数据的排序。

在一个实施例中，步骤S107包括：

在应用中，可以在完成对左部分相似度数据的排序之后，再采用相同排序方式对右部分相似度数据进行排序，如此，可以减少单位时间内的数据计算量，节省内存占用空间。也可以在对左部分相似度数据进行排序的同时，采用与左部分相似度数据相同的排序方式对右部分相似度数据进行排序，可以实现对左部分相似度数据和右部分相似度数据的并行排序，从而有效提高排序效率。

如图2所示，示例性的示出了采用并行方式同时对左部分相似度数据和右部分相似度数据进行排序时，所述多媒体数据排序方法的流程图；图2中在步骤S101～S106的基础上还包括在S101之后的如下步骤：

步骤S201、采用递归方式对所述右部分相似度数据进行快速排序；

步骤S202、在对所述右部分相似度数据进行快速排序的过程中，获取所述右部分相似度数据中的待排序数据的数据量；

步骤S203、在所述右部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述右部分相似度数据中的待排序数据进行插入排序；

步骤S204、在所述右部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述右部分相似度数据进行快速排序的递归深度；

步骤S205、在对所述右部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述右部分相似度数据中的待排序数据进行堆排序。

在应用中，步骤S201～S205的实现原理与步骤S102～S106相同，此处不再赘述。

如图3所示，示例性的示出了冒泡排序、选择排序、插入排序、归并排序、快速排序、堆排序、计数排序和桶排序的时间复杂度、空间复杂度和稳定性，其中时间复杂度、最好情况和最坏情况这三列分别表示各排序算法的时间复杂度的平均情况、最好情况和最坏情况。

本发明实施例通过采用快速排序算法对相似度数组进行一次排序，分割成左部分相似度数据和右部分相似度数据，采用递归方式对左部分相似度数据进行快速排序，在对左部分相似度数据进行快速排序的过程中，获取待排序数据的数据量，在待排序数据的数据量小于或等于第一阈值时，对待排序数据进行插入排序；在待排序数据的数据量大于第一阈值时，获取对左部分相似度数据进行快速排序的递归深度，在对左部分相似度数据进行快速排序的递归深度大于第二阈值时，对待排序数据进行堆排序；同理，采用与相同的排序方式对右部分相似度数据进行排序，完成对相似度数组的排序，可以在同时满足时间复杂度和空间复杂度要求的情况下，实现对海量图像数据的排序。

如图4所示，在一个实施例中，步骤S101包括：

步骤S401、获取相似度数组的数据总量；

步骤S402、在所述数据总量小于或等于第三阈值时，采用三数取中法获取基准值；其中，第三阈值＞第一阈值；

步骤S403、在所述数据总量大于第三阈值时，采用N数取中法获取基准值；其中，N＞3且为整数；

步骤S404、采用快速排序算法，根据所述基准值对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据。

在应用中，在对相似度数组进行快速排序的过程中，需要对相似度数组设定一个基准值，在基准值选取不理想的情况下，会导致对相似度数组进行分割之后，产生一个空的区间，例如，当基准值大于相似度数组中的任一元素时，采用快速排序算法对相似度数组进行一次排序之后，左部分相似度数据包括相似度数组中的全部数据，右部分相似度数据为空。因此，为了避免产生空的区间，需要合理设置基准值。常用的基准值设定方法为三数取中法(median-of-three)，如图5所示，三数取中法的原理为：

取相似度数组的左端、中间、右端三个元素，然后对这三个元素进行排序，将中间元素(中值)作为基准值；

根据基准值将相似度数组分割为左右两部分，从基准值左边找到大于或等于基准值的元素放在右边，从基准值右边找到小于基准值的元素放在左边，完成对相似度数组的排序。

例如，假设相似度数组包括7个元素，分别为4、5、7、8、1、2、3、6，则左端、中间、右端三个元素分别为4、8和6，对这三个元素进行排序后获知4、8和6的大小顺序为4、6、8，基准值即为中间值6，由于8大于基准值6，需要将8放在基准值6右边，首先交换8和6的位置，得到相似度数组的7个元素的顺序分别为4、5、7、6、1、2、3、8，再交换3和6的位置，得到相似度数组的7个元素的顺序分别为4、5、7、3、1、2、6、8；然后对相似度数组进行扫描，从左边找到大于或等于基准值6的元素7，从右边找到小于基准6的元素2，交换7和2的位置，得到相似度数组的7个元素的顺序分别为4、5、2、3、1、6、7、8，左部分相似度数据为4、5、2、3、1，右部分相似度数据为7、8；在递归过程中采用相同方法对左部分相似度数据和右部分相似度数据取基准值进行快速排序。

在应用中，在数据总量小于或等于第三阈值时，采用三数取中法获取基准值。在数据总量大于第三阈值时，采用N数取中法获取基准值，其获取原理与三数取中法类似，不同的是在相似度数组的左端、中间和右端共取N个元素，然后进行排序取中值作为基准值。例如，假设相似度数组包括8个元素，分别为3、5、1、7、4、6、8、9，则左端的元素为相似度数组的第一个元素3，右端的元素为相似度数组的最后一个元素9，中间的元素为相似度数组的第一个元素3和最后一个元素9之间的6个元素(即5、1、7、4、6、8)，可以在中间的6元素中选择至少两个元素(例如，5、1、7、4、6、8中的1和6)并与左端的元素和右端的元素进行排序取中值。

在应用中，第三阈值可以根据实际需要设置为一个相对于第一阈值较大的值，例如，2000～6000中的任意值。

在一个实施例中，N＝(数据总量/第四阈值)+1，第三阈值＝3*第四阈值。

在应用中，在计算数据总量/第四阈值时可以向上取整或向下取整，例如，数据总量＝3300第四阈值＝1000时，向上取整时，数据总量/第四阈值＝4，N＝5；向下取整时，数据总量/第四阈值＝3，N＝4。第三阈值为第四阈值的3被，例如，第三阈值为3000时，第四阈值为1000。在数据总量大于第三阈值时，采用三数取中法不能保证选择基准值比较合理，因此，可以选用N数取中法从更多元素中选择基准值。N＝(数据总量/第四阈值)+1且数据总量/第四阈值时可以向上取整时，相当于是从相似度数组的首端开始，每间隔第四阈值个元素取一个元素，直到尾端，然后对这些元素进行排序取中值。

在一个实施例中，步骤S102包括：

获取所述左部分相似度数据中的待排序数据的数据总量；

在应用中，采用递归方式对右部分相似度数据进行快速排序的方式与对左部分相似度数据进行快速排序的方式相同，此处不再赘述。

在应用中，采用递归方式对左部分相似度数据或右部分相似度数据进行快速排序时，获取左部分相似度数据或右部分相似度数据中的待排序数据的数据总量，然后依据上述三数取中法或N数取中法的原理获取左部分相似度数据或右部分相似度数据中的基准值，然后进行快速排序。

图4所对应的实施例通过获取相似度数组的数据总量，在数据总量小于或等于第三阈值时，采用三数取中法获取基准值，在数据总量大于第三阈值时，采用N数取中法获取基准值，使N＞3且为整数，然后采用快速排序算法，根据基准值对相似度数组相似度数组进行一次排序，将相似度数组分割成左部分相似度数据和右部分相似度数据，并采用递归方式对左部分相似度数据和右部分相似度数据进行快速排序，可以提高选取的基准值的合理性，从而降低时间复杂度。

在一个实施例中，步骤S401之后，包括：

在应用中，当相似度数组或待排序数据的数据总量较小时，可以直接对相似度数组或待排序数据进行插入排序，以有效降低空间复杂度并提高稳定性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图6所示，本发明的一个实施例提供一种多媒体数据排序装置6，用于执行上述实施例中的多媒体数据排序方法。多媒体数据排序装置6可以是计算设备、移动终端、监控设备、机器视觉设备、机器人、自助终端机等设备，也可以这些终端或设备的处理器中的虚拟装置(virtual appliance)。多媒体数据排序装置6包括：

快速排序模块61，用于采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据；其中，所述相似度数组为由若干源多媒体数据与目标多媒体数据之间的相似度构成的一维数组；

所述快速排序模块61还用于采用递归方式对所述左部分相似度数据进行快速排序；

第一获取模块62，用于在对所述左部分相似度数据进行快速排序的过程中，获取所述左部分相似度数据中的待排序数据的数据量；

插入排序模块63，用于在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行插入排序；

第二获取模块64，用于在所述左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述左部分相似度数据进行快速排序的递归深度；

堆排序模块65，用于在对所述左部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述左部分相似度数据中的待排序数据进行堆排序；

所述快速排序模块61还用于在对在完成对所述左部分相似度数据的排序之后或在对所述左部分相似度数据进行排序的同时，采用递归方式对所述右部分相似度数据进行快速排序；

所述第一获取模块62还用于在对所述右部分相似度数据进行快速排序的过程中，获取所述右部分相似度数据中的待排序数据的数据量；

所述插入排序模块63还用于在所述右部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述右部分相似度数据中的待排序数据进行插入排序；

所述第二获取模块64还用于在所述右部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述右部分相似度数据进行快速排序的递归深度；

所述堆排序模块65还用于在对所述右部分相似度数据进行快速排序的递归深度大于第二阈值时，对所述右部分相似度数据中的待排序数据进行堆排序，完成对所述相似度数组的排序，得到所述若干源多媒体数据与所述目标多媒体数据之间的相似度的大小顺序。

在一个实施例中，所述多媒体数据排序装置还包括：

特征值提取模块，用于分别对若干源多媒体数据中的每个源多媒体数据进行特征提取，得到每个源多媒体数据的特征值；对目标多媒体数据进行特征提取，得到目标多媒体数据的特征值；

相似度计算模块，用于根据每个源多媒体数据的特征值和目标多媒体数据的特征值，计算每个源多媒体数据与目标多媒体数据之间的相似度；

数组构建模块，用于构建包括所有源多媒体数据与目标多媒体数据之间的相似度的一维数组，得到相似度数组。

在一个实施例中，所述快速排序模块还用于在对所述左部分相似度数据进行快速排序的递归深度小于或等于第二阈值时，继续采用递归方式对所述左部分相似度数据中的待排序数据进行快速排序。

在一个实施例中，所述快速排序模块具体用于：

获取相似度数组的数据总量；

在所述数据总量小于或等于第三阈值时，采用三数取中法获取基准值；其中，第三阈值＞第一阈值。

在所述数据总量大于第三阈值时，采用N数取中法获取基准值；其中，N≥3且为整数；

在一个实施例中，所述插入排序模块还用于在所述数据总量小于或等于第一阈值时，对所述相似度数组进行插入排序。

本实施例通过采用快速排序算法对相似度数组进行一次排序，将相似度数组分割成左部分相似度数据和右部分相似度数据，采用递归方式对左部分相似度数据进行快速排序，可以降低时间复杂度；通过在对左部分相似度数据进行快速排序的过程中，获取左部分相似度数据中的待排序数据的数据量，在左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对左部分相似度数据中的待排序数据进行插入排序，可以防止快速排序的递归深度过深而导致堆栈溢出的问题，降低时间复杂度和空间复杂度，提高稳定性；通过在左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对左部分相似度数据进行快速排序的递归深度，在对左部分相似度数据进行快速排序的递归深度大于第二阈值时，对左部分相似度数据中的待排序数据进行堆排序，可以进一步防止快速排序的递归深度过深而导致堆栈溢出的问题，并进一步降低时间复杂度和空间复杂度；通过采用与左部分相似度数据相同的排序方式对右部分相似度数据进行排序，完成对相似度数组的排序，可以在同时满足时间复杂度和空间复杂度要求的情况下，实现对海量源多媒体数据与目标多媒体数据之间的相似度的大小排序，可以广泛应用于图像识别、语音识别、监控、机器视觉等领域。

如图7所示，本发明的一个实施例还提供一种终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如数据排序程序。所述处理器70执行所述计算机程序72时实现上述各个多媒体数据排序方法实施例中的步骤，例如图1所示的步骤S101至S107。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块的功能，例如图6所示模块61至65的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如，所述计算机程序72可以被分割成快速排序模块、第一获取模块、插入排序模块、第二获取模块、堆排序模块，各模块具体功能如下：

在一个实施例中，所述计算机程序72可以被分割成特征值提取模块、相似度计算模块、数组构建模块，各模块具体功能如下：

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体数据排序方法，其特征在于，包括：

采用递归方式对所述左部分相似度数据进行快速排序；

2.如权利要求1所述的多媒体数据排序方法，其特征在于，采用快速排序算法对相似度数组进行一次排序，将所述相似度数组分割成左部分相似度数据和右部分相似度数据，包括：

获取相似度数组的数据总量；

3.如权利要求2所述的多媒体数据排序方法，其特征在于，获取相似度数组的数据总量之后，所述方法还包括：

4.如权利要求1所述的多媒体数据排序方法，其特征在于，在所述左部分相似度数据中的待排序数据的数据量小于或等于第一阈值时，对所述左部分相似度数据中的待排序数据进行插入排序，包括：

5.如权利要求1所述的多媒体数据排序方法，其特征在于，采用与所述左部分相似度数据相同的排序方式对所述右部分相似度数据进行排序，完成对所述相似度数组的排序，包括：

6.如权利要求1所述的多媒体数据排序方法，其特征在于，在所述左部分相似度数据中的待排序数据的数据量大于第一阈值时，获取对所述左部分相似度数据进行快速排序的递归深度之后，所述方法还包括：

7.如权利要求1～6任一项所述的多媒体数据排序方法，其特征在于，采用递归方式对所述左部分相似度数据进行快速排序，包括：

获取所述左部分相似度数据中的待排序数据的数据总量；

8.一种多媒体数据排序装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述多媒体数据排序方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多媒体数据排序方法的步骤。