CN117171599A

CN117171599A - 一种用于排序问题度量空间的均匀采样方法

Info

Publication number: CN117171599A
Application number: CN202310958405.5A
Authority: CN
Inventors: 李新宇; 桂林; 高亮
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-12-05

Abstract

本发明属于排序问题相关技术领域，并公开了一种用于排序问题度量空间的均匀采样方法。该方法包括：S1对于规模为n采样数量为k_n的排序问题，降低该排序问题的规模至m并获得确定在新的规模m下对应的采样数量；S2计算规模为m的排序问题的解的总数量以及每个解之间的距离，利用解之间的距离对所有解进行聚类，以此将所有解划分为t类，计算每类解的中心点获得t个中心点，即t个均匀采样点；S3对于任意的规模m+i的排序问题，在规模m+i‑1的排序问题进行插入新元素和随机采样得到规模m+i的排序问题对应数量的采样点；S4重复步骤S3直至m+i＝n，以此获得规模为n的k_n个均匀采样点，即实现规模为n的均匀采样。通过本发明，解决排序问题中如何均匀采样的问题。

Description

一种用于排序问题度量空间的均匀采样方法

技术领域

本发明属于排序问题相关技术领域，更具体地，涉及一种用于排序问题度量空间的均匀采样方法。

背景技术

排序问题是指能够一组元素的全排序能够表达问题中所有的解的一种组合优化问题，该问题广泛地存在于生产制造、交通运输等不同领域。例如生产制造中的置换流水车间调度问题、零等待流水车间调度问题等，交通运输中的旅行商问题等都属于排序问题。

大多数排序问题都是NP(non-deterministic polynomial，多项式复杂程度的非确定性问题)完全问题，即到目前为止，没有一种算法能够在有限的时间内对排序问题进行精确求解。在这种情况下，智能优化算法成为求解该问题的首选，它能够在规定的时间里求得该问题的满意解。尽管在过去的几十年里，学者提出了很多智能优化算法对该问题进行求解，但近年来该算法的研究陷入停滞，一个很明显的标志是对于置换流水车间调度问题的标准算例集，在近十年的时间里，只有两个算例被更新。在这种其概况下，我们需要加强对问题本身的研究(即问题的适应度地形分析)和设计新的算法框架。

在现有研究中，对于排序问题的适应度地形分析都是采样随机采样的方式获取问题样本，这使得问题研究具有局限性。而在算法设计时大多数也采样的是随机初始化，这使得算法的鲁棒性不佳。在这种情况下，我们需要设计一种在排序问题中的均匀采样方法。然而，由于排序问题度量空间的复杂性，到目前为止并未有出现相关的研究。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种用于排序问题度量空间的均匀采样方法，解决排序问题中如何均匀采样的问题。

为实现上述目的，按照本发明，提供了一种用于排序问题度量空间的均匀采样方法，该方法包括下列步骤：

S1对于规模为n采样数量为k_n的排序问题，降低该排序问题的规模至m并获得确定在新的规模m下对应的采样数量t，m<n；

S2计算规模为m的排序问题的解的总数量以及每个解之间的距离，利用解之间的距离对所有解进行聚类，以此将所有解划分为t类，计算每类解的中心点获得t个中心点，该t个中心点即为规模为m的排序问题的t个均匀采样点；

S3对于任意的规模m+i的排序问题，在规模m+i-1的排序问题的K_m+i-1个采样点中插入规模m+i相比于m+i-1新增加的元素，以此获得K_m+i-1(m+i)个采样点，然后再采用随机采样的方式获得K_m+i-K_m+i-1(m+i)个采样点，将所述K_m+i-1(m+i)个采样点和K_m+i-K_m+i-1(m+i)个采样点混合即获得规模m+i的排序问题的K_m+i个采样点，i为正整数；

S4重复步骤S3直至m+i＝n，以此获得规模为n的k_n个均匀采样点，即实现规模为n的均匀采样。

进一步优选地，在步骤S1中，所述采样点排序问题的规模m满足采样点数量t＝k_n*m！/n！。

进一步优选地，在步骤S2中，所述聚类采用k-means聚类方法。

进一步优选地，在步骤S2中，所述利用解之间的距离对所有解进行聚类按照下列步骤进行：

S21在所有解中选取任意t个解分别作为t类解的中心点；

S22计算每个解到每个中心点的距离，当该解归属为距离该解距离最近的中心点所属的类，以此实现对所有解的聚类。

进一步优选地，在步骤S2中，计算每类解的中心点按照下列步骤进行：

S23对于规模为m的排序问题，对每个解中每个元素排列的位置进行权重赋值；

S24对于每个解，获取该解中每个元素对应的权重，以此获得所有解中所有元素对应的权重；

S25对于每个元素，将该元素在每个解中的权重求和，并计算权重的方差，以此获得该元素在所有解中对应的权重和与方差，按照权重和的大小将所有元素从小到大进行排序，对于权重和相同的元素，方差小的元素排在前面，该排序对应的点即为类的中心点。

进一步优选地，在步骤S2中，利用步骤S25中获得的中心点作为新的聚类的中心点，返回步骤S22，直至每类的中心点不再发生变化，以此获得最终所需的t个均匀采样点。

进一步优选地，在步骤S23中，所属赋值按照位置的先后顺序分别从正整数1开始赋值直至正整数t。

进一步优选地，在步骤S3中，所述在规模m+i-1的排序问题的K_m+i-1个采样点中插入规模m+i相比于m+i-1新增加的元素，所述插入的位置在所述K_m+i-1个排序中任意可行的位置。

进一步优选地，在步骤S3中，通过插入新元素获得的采样点采用拓展的拉丁方阵进行表示。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具备下列有益效果：

1.本发明中采用先将原规模问题降维，然后修降维规模按照k-means聚类获得均匀采样点，最后逐步升维获得原规模问题的均匀采样点，K-means聚类算法是一种无监督学习方法，其通过算法迭代将所有点根据距离的远近划分为指定数量的t类；另一方面，排序问题中所有的点是均匀分布在度量空间中，因此通过K-means聚类算法得到的类也同样均匀分布在度量空间中，因此每一类的中心点也是均匀分布在度量空间中，因此能够使用K-means聚类算法获得排序问题的均匀采样点；

2.本发明中在逐步升维至原规模的过程中，通过插入新元素和随机采样的方法获得所需数量的采样点，小规模排序问题中所有的点在度量空间中保持均匀分布，而大规模问题中所有的点通过在小规模问题上所有点的可行位置插入新元素而得到，且得到的所有的点也在度量空间中保持均匀分布，同理，通过在小规模问题的均匀采样点中，通过在所有可行位置插入新元素也能够得到大规模排序问题的均匀采样点；但通过插入方式得到的采样点的数量可能不满足要求，因此在上述基础上通过随机采样，使采样点的数量满足要求；随机采样能够保证问题中每一点被选取的概率相同，因此能在一定程度上保证采样点的均匀性；

3.本发明的聚类算法中先将所有解进行聚类获得中心点，将中心点作为均匀采样点，如上述所说，聚类方法能够得到在度量空间中均匀分布的类，因此通过将每一类的中心点作为采样点，能够直接保证得到的点在度量空间中是均匀分布的；

4.本发明中在获取中心点的过程中通过在排序位置上设定权重值，求解每个元素的权重和与方差，在计算类的中心点时，若只使用Borda法中计算每个元素的权重和，则有可能得到多个中心点，这里通过同时考虑每个元素的权重和与方差，避免这种情况，并且能够使得到的中心点更接近于真实中心点。

附图说明

图1是按照本发明的优选实施例所构建的排序问题度量空间的均匀采样的流程图；

图2是按照本发明的优选实施例所构建的k-means聚类方法原理图；

图3是按照本发明的优选实施例所构建的拓展拉丁矩阵的示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

每个采样点即为一种排序，规模为n，即元素数量为n，采样数量为kn即kn个n个元素的排序，对于规模为n的排序问题，其解空间的大小为n！,即该问题有n！个解。

一种用于排序问题度量空间的均匀采样方法，该方法包括下列步骤：

S1.根据排序问题的规模和采样点的数量，对采样问题的规模进行降维处理，计算出降维后的排序问题的规模以及均匀采样点的数目；

具体为，利用(采样点的数目/排序问题的规模)得到整数，则整数为新的采样点的数目，新的排序问题的规模为(原排序问题的规模-1)，保留该规模排序问题中需要的采样点的数目。若(新的采样点的数目>新的排序问题的规模*(新的排序问题的规模-1))，则重复进行上述排序问题规模与采样点的数目的转换；否则最终的结果为k-means聚类方法作用的新的排序问题的规模以及聚类的数目。其中，排序问题的规模指的是该排序问题中一个序列具有的元素数。

S2.在k-means聚类方法中使用一种改进的博达法，使其对新的排序问题进行聚类，以此获得降维后的排序问题的所需的均匀采样点；

k-means聚类方法中使用一种改进的博达法，使其能够对新的排序问题进行聚类，具体为，将排序问题的全排列作为k-means聚类的数据点，通过随机生成获得聚类数目的中心点。对所有数据点指派给最近的中心点，同一个中心点的为同一类别；随后在同一类别中计算出新的中心点，并重复上述迭代。

在计算排列问题的中心点时，利用一种改进的博达法，具体是计算排序问题中每一个元素在同一类别中不同位置号的平均值与方差值，通过先对方差值从小到大排序，再对平均值从小到大排序，最终得到的元素的序列为新的中心点。

S3.在降维后的排序问题的所需的均匀采样点的基础上，逐步增加排序问题规模的方法，分别采用插入法和随机采样的方法获得规模增加后的排序问题的采样点，逐步增加排序问题的规模直至获得所需采样规模对应的采样点，其中插入法利用拓展的拉丁方阵实现。

利用拓展的拉丁方阵和随机采样方法实现在原排序问题中的均匀采样。具体为，将聚类方法获得的中心点，通过存每个中心点的不同位置插入新的元素，获得排序问题规模+1的新排序问题中数量为(中心点数*(中心点数+1))的采样点，再在该规模的排序问题中，通过随机生成的方式使得采样点的总数达到权利中保留的数值；重复上述操作直到获得原问题的采样点的数目。

下面将结合具体的实施例进一步说明本发明。

本发明提供的一种用于排序问题度量空间的均匀采样方法，这里以在具有10个元素的排序问题中进行1000次采样为例。如图1所示，首先需要将原问题转换为新的排序问题和采样次数。对于具有10个元素的排序问题进行1000次采样，则根据S1中的描述，将原问题第一次转换为对9个元素进行1000/10＝100次采样；由于100>(9*8)，因此第二次转换为将问题第二次转换为对8个元素进行100/9＝11次采样。由于11<(8*7)，因此最终得到的问题就是对于具有8个元素的排序问题进行11次采样。

对于转换后的问题，首先利用k-means聚类方法进行聚类。在例子中，聚类方法的输入是具有8个元素的全排列(即8！＝40320个排列)和聚类的数目11。

首先通过初始化在40320个排列中随机选取11个排序作为聚类的中心点，随后利用肯德尔托距离将全排列中的每个排序指派给最近的聚类中心点。在完成指派后，利用改进的博达法重新计算同一个中心点的排序的中心序列。重复去全排列的指派与中心点的计算，直到中心点不发生变化。其中改进的博达法如图2所示，若只对(a,b,c,d)和(d,b,a,c)这两个排序求中心点，首先对排序的每个位置赋权重为{1,2,3,4}，随后就能计算每个元素的权重和与权重方差，最后通过先对方差进行从小到大排序，再通过对权重和进行从小到大排序，最终能够得到这两个排序的中心点为(b,a,d,c)。

在聚类的基础上利用拓展拉丁方阵和随机采样的方式得到原问题的采样。拓展拉丁方阵如图3所示，对于一个排序，通过在不同地方插入一个新的元素，得到一个方阵，方阵的每一行都作为一个新的排序。因此对于k-means方法得到的11个解，能够在9个位置插入新元素，会得到99个排序，在通过对9个元素的排序问题随机采样1个排序，得到100个排序。在这基础上，在通过插入新元素，则能够得到10个元素的1000个采样点。

我们利用计算采样点的差异度。其中P表示采样点的集合，N表示采样点的数量，x_i表示第i个采样点，D(x_i,P)表示x_i到集合P中所有其他采样点的距离之和，Var表示方差。当差异度值越小的时候表示采样点分布的越均匀。我们对不同规模的排序问题进行不同次数的采样，进行10次重复实验，结果如表1所示。其中Ig_b和Ig_m分别表示实验结果的最优值和平均值的百分值，t/s表示采样使用的时间，单位为秒。

表1：不同采样方法的对比结构

由以上实验结果可知，在TA数据集的50个算例中，本发明的邻域解评估方法，在评估的准确度和误差大小方面均优于现有的最好的评估方法，虽然在平均时间上略有不如，但也在可接受范围内。

实施例1

置换流水车间调度问题：是指有n个工件需要按照相同的顺序依次经过m台机床进行加工，不同工件在机床上的加工时间都不相同。需要确定工件的加工顺序使得所有工件完成加工的时间最短。在这个问题中就是需要对所有工件的加工顺序进行排序，如果用不同的自然数表示不同的工件时，则这n个工件可以由1,2，…，n表示。使用智能优化算法对该问题进行求解时，一般通过随机初始化得到若干个由上述这n个数字组成的初始解，在通过局部搜索和其他一些搜索策略，最终得到一个满意解。然而，当使用随机初始化时，可能会导致问题的一些区域并未被搜索，因此本发明提出一种均匀采样方法，其能够使得算法的初始解均匀的分布在问题的解空间中，进而使得算法能够充分的搜索问题的解空间。具体地：

根据上述，将具有n个工件的车间调度问题构映射为问题规模n的排序问题，并将求解车间调度问题的智能优化算法的初始解的数量作为需要获得的采样点的数量，即k_n。随后利用本专利提出的均匀采样方法，具体如下：

S1：现有n个工件需要在若干台机器上进行加工，且工件在不同机器上的加工顺序相同，确定这n个工件在机器上的加工顺序，以使得总的加工时间最短。该问题即具有n个工件的置换流水车间调度问题。对算法进行初始化，即生成k_n个初始解。为了提高智能优化算法的搜索性能，期望这些初始解能够在问题的解空间中均匀分布。但当n值很大时，实现均匀分布十分困难，因此先将n个工件的置换流水车间调度问题的初始化转换为m个工件的置换流水车间调度问题，其对应的初始化解的数量为t，t＝k_n*m！/n！，其中m<n；

S2：计算有m个工件的置换流水车间调度问题中所有解的总数，以及每个调度解之间的距离，利用解之间的距离对所有解进行k-means聚类，以此将所有解划分为t类，计算每类解的中心点获得t个中心点，该t个中心点是工件数为m的置换流水车间调度问题的均匀分布的初始解；

具体步骤如下：

S21在所有解中选取任意t个解分别作为t类解的中心点；

S23对于规模为m个工件的排序问题，对每个解中每个工件排列的位置进行权重赋值；

S24对于每个解，获取该解中每个工件对应的权重，以此获得所有解中所有工件对应的权重；

S25对于每个工件，将该工件在每个解中的权重求和，并计算权重的方差，以此获得该工件在所有解中对应的权重和与方差，按照权重和的大小将所有工件从小到大进行排序，对于权重和相同的工件，方差小的工件排在前面，该排序对应的点即为类的中心点。

S26返回步骤S22，直至每类的中心点不再发生变化，以此获得最终所需的t个均匀工件排序。

S3：对于工件数为m+i的置换流水车间调度问题，在工件数为m+i-1的置换流水车间调度问题的K_m+i-1均匀分布的解中插入规模m+i相比于m+i-1新增加的工件，以此获得K_m+i-1(m+i)个均匀分布的调度解，然后再采用随机采样的方式获得K_m+i-K_m+i-1(m+i)个调度解，将所述K_m+i-1(m+i)个采样点和K_m+i-K_m+i-1(m+i)个采样点混合即获得工件数量为m+i的排置换流水车间调度问题的的K_m+i个均匀分布的调度解，i为正整数；

S4重复步骤S3直至m+i＝n，以此获得工件数量为n的k_n个均匀分布的调度解，即实现规模为n的均匀采样。

将通过上述步骤得到的均匀采样点作为智能优化算法的初始解，随后通过智能优化算法的计算最终得到车间调度问题的调度方案。

实施例2

旅行商问题：其广泛的存在于物流、交通运输等行业。如快递小哥需要配送n个客户的货物，每个客户在城市的不同位置，需要达成的目标是需要完成n个客户货物的配送，且总的行驶距离最短。若将这n个客户用不同的自然数1,2，…，n表示，则需要确定一个排序。如上述相同，当使用智能优化算法对该问题进行求解时，一般通过随机初始化得到若干个由上述这n个数字组成的初始解，在通过局部搜索和其他一些搜索策略，最终得到一个满意解。然而，当使用随机初始化时，可能会导致问题的一些区域并未被搜索，因此本发明提出一种均匀采样方法，其能够使得算法的初始解均匀的分布在问题的解空间中，进而使得算法能够充分的搜索问题的解空间。

根据上述，将具有n城市的旅行商问题构映射为问题规模n的排序问题，并将求解车间调度问题的智能优化算法的初始解的数量作为需要获得的采样点的数量，即k_n。随后利用本专利提出的均匀采样方法，具体如下：

S1：现有n个城市需要访问，且每个城市只访问一次，确定这n个城市的访问顺序，以使得总的旅行路程或费用最少。该问题即旅行商问题。对算法进行初始化，即生成k_n个初始解。当n值很大时，实现均匀分布十分困难，因此先将n个城市的旅行商问题的初始化转换为m个城市的旅行商问题，其对应的初始化解的数量为t，其中m<n；

S2：计算有m个个城市的旅行商问题中所有旅行方案的总数，即该问题中解的综述，计算每个解之间的距离，利用解之间的距离对所有解进行聚类，以此将所有解划分为t类，计算每类解的中心点获得t个中心点，该t个中心点是工件数为m的城市的旅行商问题的均匀分布的初始解；

具体步骤如下：

S21在所有解中选取任意t个解分别作为t类解的中心点；

S23对于规模为m个城市的排序问题，对每个解中每个城市排列的位置进行权重赋值；

S24对于每个解，获取该解中每个城市对应的权重，以此获得所有解中所有城市对应的权重；

S25对于每个城市，将该城市在每个解中的权重求和，并计算权重的方差，以此获得该城市在所有解中对应的权重和与方差，按照权重和的大小将所有城市从小到大进行排序，对于权重和相同的城市，方差小的城市排在前面，该排序对应的点即为类的中心点。

S26返回步骤S22，直至每类的中心点不再发生变化，以此获得最终所需的t个均匀城市排序。

S3：对于城市数量为m+i的旅行商问题，在城市数为m+i-1的旅行商问题的K_m+i-1均匀分布的解中插入规模m+i相比于m+i-1新增加的城市，以此获得K_m+i-1(m+i)个均匀分布的旅行方案，然后再采用随机采样的方式获得K_m+i-K_m+i-1(m+i)个旅行方案，将所述K_m+i-1(m+i)个采样点和K_m+i-K_m+i-1(m+i)个采样点混合即获得城市数量为m+i的旅行商问题的的K_m+i个均匀分布的旅行方案，i为正整数；

S4重复步骤S3直至m+i＝n，以此获得城市数量为n的k_n个均匀分布的旅行方案，即实现规模为n的均匀采样。

将通过上述步骤得到的均匀采样点作为智能优化算法的初始解，随后通过智能优化算法的计算最终得到旅行商问题的规划方案。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于排序问题度量空间的均匀采样方法，其特征在于，该方法包括下列步骤：

2.如权利要求1所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S1中，所述排序问题的规模m满足采样点数量t＝k_n*m！/n！。

3.如权利要求1或2所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S2中，所述聚类采用k-means聚类方法。

4.如权利要求3所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S2中，所述利用解之间的距离对所有解进行聚类按照下列步骤进行：

S21在所有解中选取任意t个解分别作为t类解的中心点；

5.如权利要求4所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S2中，计算每类解的中心点按照下列步骤进行：

6.如权利要求5所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S2中，利用步骤S25中获得的中心点作为新的聚类的中心点，返回步骤S22，直至每类的中心点不再发生变化，以此获得最终所需的t个均匀采样点。

7.如权利要求5所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S23中，所述赋值按照位置的先后顺序分别从正整数1开始赋值直至正整数t。

8.如权利要求1或2所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S3中，所述在规模m+i-1的排序问题的K_m+i-1个采样点中插入规模m+i相比于m+i-1新增加的元素，所述插入的位置在所述K_m+i-1个排序中任意可行的位置。

9.如权利要求8所述的一种用于排序问题度量空间的均匀采样方法，其特征在于，在步骤S3中，通过插入新元素获得的采样点采用拓展的拉丁方阵进行表示。