CN112579983B

CN112579983B - 一种出行调查抽样的方法及装置

Info

Publication number: CN112579983B
Application number: CN202110222969.3A
Authority: CN
Inventors: 林涛; 刘恒; 丘建栋; 丁雪晴; 雷焕宇
Original assignee: Shenzhen Urban Transport Planning Center Co Ltd
Current assignee: Shenzhen Urban Transport Planning Center Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-07-30
Anticipated expiration: 2041-03-01
Also published as: CN112579983A

Abstract

本申请适用于数据处理的技术领域，提供了一种出行调查抽样的方法及装置，所述方法包括：获取不同区域等级下各个区域的特征数据；基于第一区域等级的第一区域对应的第一特征数据，得到第一区域的第一联合分布值；根据第一联合分布值，在第一样本集合中抽取第一区域对应的第一抽样样本集合；将第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于第二区域对应的第二特征数据，得到第二区域对应的第二联合分布值；根据第二联合分布值，在第一抽样样本集合中抽取第二区域对应的第二抽样样本集合。与传统抽样方法相比，由于本申请采用基于区域的分层抽样，故避免了单一参照条件带来的抽样弊端，提高了抽样样本的代表性。

Description

一种出行调查抽样的方法及装置

技术领域

本申请属于数据处理的技术领域，尤其涉及一种出行调查抽样的方法及装置。

背景技术

抽样的基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。抽样的目的是从被抽取样品单位的分析、研究结果来估计和推断全部样品特性，从而有效地提升后续数据分析、参数估计和建模的质量。

而传统的抽样方法，往往采用单一的参照条件进行抽样处理，导致得到的抽样样本不具有代表性。例如：在针对居民出行的抽样调查中，由于受制于区域发展的不均衡性以及居民出行行为差异等等多重因素的影响，导致无法获取具有代表性的抽样样本。

发明内容

有鉴于此，本申请实施例提供了一种出行调查抽样的方法、装置、终端设备以及计算机可读存储介质，可以解决无法获取具有代表性的抽样样本的技术问题。

本申请实施例的第一方面提供了一种出行调查抽样的方法，所述方法包括：

获取不同区域等级下各个区域的特征数据，所述特征数据包括第一特征数据和第二特征数据；

基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值；

根据所述第一联合分布值，在第一样本集合中抽取所述第一区域对应的第一抽样样本集合，所述第一样本集合为所述第一区域对应的总样本集合；

将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值；

根据所述第二联合分布值，在所述第一抽样样本集合中抽取所述第二区域对应的第二抽样样本集合；

其中，所述第一区域和所述第二区域为区域等级相邻的两个区域，所述第一区域等级大于所述第二区域等级，所述第一区域的范围包括所述第二区域。

本申请实施例的第二方面提供了一种出行调查抽样的方法装置，所述装置包括：

获取单元，用于获取不同区域等级下各个区域的特征数据，所述特征数据包括第一特征数据和第二特征数据；

第一计算单元，用于基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值；

第一抽样单元，用于根据所述第一联合分布值，在第一样本集合中抽取所述第一区域对应的第一抽样样本集合，所述第一样本集合为所述第一区域对应的总样本集合；

第二计算单元，用于将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值；

第二抽样单元，用于根据所述第二联合分布值，在所述第一抽样样本集合中抽取所述第二区域对应的第二抽样样本集合；其中，所述第一区域和所述第二区域为区域等级相邻的两个区域，所述第一区域等级大于所述第二区域等级，所述第一区域的范围包括所述第二区域。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请按照不同区域等级进行分层抽样，将上一层的抽样样本集合作为下一层的总样本集合，进行下层抽样，实现逐层精细化抽样。与传统的抽样方法相比，由于本申请采用基于区域的分层抽样，故避免了单一参照条件带来的抽样弊端，提高了抽样样本的代表性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请提供的一种出行调查抽样的方法的示意性流程图；

图2示出了本申请提供的一种出行调查抽样的方法中步骤101具体示意性流程图；

图3示出了本申请提供的一种出行调查抽样的方法中步骤102具体示意性流程图；

图4示出了本申请提供的一种出行调查抽样的方法中步骤102具体示意性流程图；

图5示出了本申请提供的另一种出行调查抽样的方法的示意性流程图；

图6示出了本申请提供的一种出行调查抽样的方法中步骤505具体示意性流程图；

图7示出了本申请提供的一种出行调查抽样的装置的示意图；

图8是本发明一实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。需要说明的是，本申请适用于不同应用场景的样本抽样。为了更好地解释本申请的技术方案，本申请以居民出行的抽样调查为例，对本申请的技术方案进行解释说明。其他场景的样本抽样方法可类比本申请的技术方案得到。

为了更好的理解本申请解决的技术问题，本申请针对背景技术进行进一步说明：

城市居民出行调查旨在发掘城市居民出行特征规律，研究交通的产生和需求分布，以改善政策制定和远期交通规划。调查抽样方案的制定是城市居民出行调查的关键一环，调查抽样的科学性对样本集合的代表性有着决定性的影响。如何在样本量约束下进行科学地抽样，从而有效地提升后续数据分析、参数估计和建模的质量，长期以来受到行业的专注。

针对出行调查抽样，国内外学者长期以来侧重于对有效交通调查抽样率的测算。例如：基于按比例分配和最优分配的抽样率公式，在不同城市规模的条件下进行抽样。又例如：基于工作地或居住地进行抽样。但上述抽样方式侧重于抽样率与样本代表性之间的关系，或是需要预先投入大量工作。从具体实施过程上看，在居民出行调查过程中，由于调查量往往受到预算约束限制，采用单一变量作为分层依据。然而，居住在不同城市空间的居民在年龄、收入结构以及出行行为等方面存在着巨大差距。综上，传统抽样方式无法获取具有代表性的抽样样本，容易造成资源浪费。

有鉴于此，本申请实施例提供了一种出行调查抽样的方法、装置、终端设备以及计算机可读存储介质，可以解决上述技术问题。

请参见图1，图1示出了本申请提供的一种出行调查抽样的方法的示意性流程图。

如图1所示，该方法可以包括如下步骤：

步骤101，获取不同区域等级下各个区域的特征数据，所述特征数据包括第一特征数据和第二特征数据。

为了适应区域发展的不均衡性以及居民生活习惯等等多重因素对居民出行方式的影响，故本申请以地理空间为分层逻辑。将不同大小的地理空间分为不同的区域等级，以针对不同的区域等级进行层层抽样。区域等级包括但不限于省份等级、行政市等级、行政区等级、街道等级以及社区等级等等区域等级。每个区域等级对应不同的区域，例如：行政市等级对应的区域为“深圳市、广州市以及惠州市等等”，行政区等级对应的区域为“福田区、南山区以及龙华区等等”，街道等级对应的区域为“福田街道、坂田街道以及华强北街道等等”。在本申请中的“第一区域”与“第二区域”为区域等级相邻的两个区域，第一区域等级大于第二区域等级，第一区域的范围包括第二区域。例如：深圳市中包含福田区、南山区以及龙华区等等，福田区中包含福田街道以及华强北街道等等。

本申请适用的区域等级的数量以及类型不限。为了更好地说明本申请的技术方案，本申请以第一区域为行政区，第二区域为街道为例，对本申请的技术方案进行解释说明。

特征数据是指表征不同区域的特征的数据，包括但不限于人口数据、户口数据、经济数据、出行行为数据以及车辆数据等一种数据或多种数据之间的组合。其中，每个区域的特征数据可以为单个数据，每个区域也可以有两个维度或两个以上维度的特征数据。优选地，为了进一步细化抽样处理，故本申请优选将每个区域对应两个维度或两个以上维度的特征数据。当每个区域有两个维度或两个以上维度的特征数据时，步骤101包括如下步骤：

需要说明的是，在步骤102计算联合分布值时，由于不同的算法对输入数据的要求不同，故特征数据可以是原始数据本身，特征数据也可以是在原始数据进行预处理后得到的数据（依据算法对输入数据的需求而定）。而由于本实施例采用迭代比例拟合算法，故需对原始数据进行预处理，得到特征数据。具体步骤如下：

作为本申请的一个可选实施例，当每个区域有两个维度或两个以上维度的特征数据时，步骤101包括如下步骤1011至步骤1014。请参见图2，图2示出了本申请提供的一种出行调查抽样的方法中步骤101具体示意性流程图。

步骤1011，获取多个当前区域的原始数据；每个所述当前区域有两个维度或两个以上维度的所述原始数据。

两个以上维度的原始数据包括但不限于人口数据、户口数据、经济数据、出行行为数据以及车辆数据等一种数据或多种数据之间的组合。

示例性地，以第一区域等级为行政区等级为例，假设行政区为：“福田区、南山区以及龙华区”。每个行政区对应的多个维度的原始数据如下表1所示：

表1：

行政区/多个维度的第一特征数据	福田区	南山区	龙华区
				人口数量	100万	90万	40万
户口数量	18万	20万	10万
				户均拥车量	1.2辆	0.8辆	1辆

需要强调的是，表1仅仅起示例作用，对于表1中的每个数据以及类型不做任何限定。

步骤1012，将同一维度的原始数据去量纲后相加，得到每种维度的原始数据总和。

将原始数据去量纲，得到如下表2所示：

表2：

行政区/多个维度的第一特征数据	福田区	南山区	龙华区
				人口数量	1000000	900000	400000
户口数量	180000	200000	100000
				户均拥车量	1.2	0.8	1

需要强调的是，表2仅仅起示例作用，对于表2中的每个数据以及类型不做任何限定。

人口数量总和=1000000+900000+400000=2300000

户口数量总和=180000+200000+100000=480000

户均拥车量总和=1.2+0.8+1=3

步骤1013，在所有所述每种维度的原始数据总和中选取最大总和。

如上述数据，最大总和为人口数量总和“2300000”。

步骤1014，将每种维度的原始数据进行等比放大，使其总和增加至所述最大总和，得到每种维度的原始数据对应的特征数据；其中，相同维度下的原始数据之间的比例与所述相同维度下的特征数据之间的比例保持一致。

其中，每个户口数量之间的比例为：9:10:5。每个户均拥车量之间的比例为：6:4:5。

在保持上述比例的情况下，将每种维度的原始数据进行等比放大，使其总和增加至最大总和，得到的每种特征数据如下表3所示：

表3：

行政区/多个维度的第一特征数据	福田区	南山区	龙华区
				人口数量	1000000	900000	400000
户口数量	862500	958333.33	479166.67
				户均拥车量	920000	613333.33	766666.67

需要强调的是，表3仅仅起示例作用，对于表3中的每个数据以及类型不做任何限定。

如表3所示，户口数量总和、户均拥车量总和与人口数量的总和一致，每个行政区对应的户口数量之间的比例不变，每个行政区对应的户均拥车量之间的比例不变。

值得注意的是，由于本申请采用分层抽样，故获取不同区域等级对应的特征数据时，可在同一个步骤中获取不同区域等级对应的特征数据，也可以不同的步骤中获取不同区域等级对应的特征数据。即步骤101可作为一个单独的步骤获取每个区域等级对应的特征数据，步骤101也可作为分开的子步骤获取每个区域等级对应的特征数据（子步骤分别在每一层抽样时执行，如：在步骤102之前获取第一特征数据，在步骤104之前获取第二特征数据）。

步骤102，基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值。

联合分布值是指多个特征数据的概率分布。而概率分布用于表示不同区域的抽样占比，以根据多个特征数据协调不同区域之间的抽样占比，提高抽样样本的代表性。

其中，求取联合分布值的方法包括但不限于概率密度函数以及迭代比例拟合算法（Iterative Proportional Fitting，IPF）等。为了更好地解释本申请的技术方案，本申请以求取方法为迭代比例拟合算法为例，对本申请的技术方案进行解释说明，具体过程分别为以下两个可选实施例：

作为本申请的一个可选实施例，当每个所述第一区域有三个维度的所述第一特征数据时，步骤102包括如下步骤A1至步骤A6。请参见图3，图3示出了本申请提供的一种出行调查抽样的方法中步骤102具体示意性流程图。

步骤A1，将三个维度的所述第一特征数据输入三维矩阵中。

步骤A2，按比例调整所述三维矩阵中每一行的元素，得到每一行的调整后元素；其中，在每一行间所述调整后元素总和相等。

根据公式一调整三维矩阵中每一行的元素，得到每一行的调整后元素；

所述公式一如下：

P _ijv(k)表示在第k轮迭代中位于第i行第j列第v切片的元素；

表示j个P _ijv(k)的总和；P _ijv(k+1)表示在第k+1轮迭代中位于第i行第j列第v切片的元素；Q _i表示第i行总和。

值得注意的是，在迭代比例拟合算法中对于每一行或每一列的调整，都作为一次迭代比例拟合的过程。即步骤A6为一次迭代比例拟合的过程，步骤A7为下一次迭代比例拟合的过程。

步骤A3，按比例调整所述三维矩阵中每一列的元素，得到每一列的调整后元素；其中，在每一列间所述调整后元素总和相等。

根据公式二调整三维矩阵中每一列的元素，得到每一列的调整后元素；

所述公式二如下：

P _ij(k+1)表示在第k+1轮迭代中位于第i行第j列第v切片的元素；

表示i个P _ijv(k+1)的总和；P _ij(k+2)表示在第k+2轮迭代中位于第i行第j列第v切片的元素；Q _j表示第j列总和。

步骤A4，按比例调整所述三维矩阵中每一切片的元素，得到每一切片的调整后元素，得到第二矩阵；其中，在每一切片间所述调整后元素总和相等。

根据公式三调整三维矩阵中每一切片的元素，得到每一切片的调整后元素；

所述公式三如下：

P _ij(k+3)表示在第k+3轮迭代中位于第i行第j列第v切片的元素；

表示i个P _ijv(k+2)的总和；P _ij(k+2)表示在第k+2轮迭代中位于第i行第j列第v切片的元素；Q _v表示第v切片总和。

步骤A5，若每一行的所述调整后元素总和、每一列的所述调整后元素总和以及每一切片的所述调整后元素总和都满足收敛条件，则第二矩阵作为所述第一联合分布值。

若每一行的所述调整后元素总和、每一列的所述调整后元素总和以及每一切片的所述调整后元素总和都满足如下公式四的收敛条件，则将第二矩阵作为第一联合分布值。

所述公式四如下：

其中，ε表示预设的误差值。

步骤A6，若每一行所述调整后元素总和、每一列所述调整后元素总和以及每一切片所述调整后元素总和中任意一个调整后元素总和不满足收敛条件，则返回执行所述按比例调整所述三维矩阵中每一行的元素，得到每一行的调整后元素的步骤以及后续步骤。

若每一行所述调整后元素总和、每一列所述调整后元素总和以及每一切片所述调整后元素总和中任意一个调整后元素总和不满足上述公式四，则返回循环执行步骤A1至步骤A6，直至调整后元素总和都满足上述公式四。

作为本申请的一个可选实施例，当每个第一区域有两个维度的所述第一特征数据时，步骤102包括如下步骤B1至步骤B5。请参见图4，图4示出了本申请提供的一种出行调查抽样的方法中步骤102具体示意性流程图。

步骤B1，将两个维度的所述第一特征数据输入二维矩阵中。

步骤B2，按比例调整所述二维矩阵中每一行的元素，得到每一行的调整后元素；其中，在每一行间所述调整后元素总和相等。

根据公式五调整二维矩阵中每一行的元素，得到每一行的调整后元素；

所述公式五如下：

P _ij(k)表示在第k轮迭代中位于第i行第j列的元素；

表示j个P _ij(k)的总和；P _ij(k+1)表示在第k+1轮迭代中位于第i行第j列的元素Q _i表示第i行总和。

步骤B3，按比例调整所述二维矩阵中每一列的元素，得到每一列的调整后元素，得到第一矩阵；其中，在每一列间所述调整后元素总和相等。

根据公式六调整二维矩阵中每一列的元素，得到每一列的调整后元素；

所述公式六如下：

P _ij(k+1)表示在第k+1轮迭代中位于第i行第j列的元素；

表示i个P _ij(k+1)的总和；P _ij(k+2)表示在第k+2轮迭代中位于第i行第j列的元素；Q _j表示第j列总和。

步骤B4，若每一行的所述调整后元素总和以及每一列的所述调整后元素总和都满足收敛条件，则将第一矩阵作为所述第一联合分布值。

若每一行的所述调整后元素总和以及每一列的所述调整后元素总和都满足如下公式七的收敛条件，则将第一矩阵作为所述第一联合分布值。

所述公式七如下：

其中，ε表示预设的误差值。

步骤B5，若每一行的所述调整后元素总和以及每一列的所述调整后元素总和中任意一个调整后元素总和不满足收敛条件，则返回执行所述按比例调整所述二维矩阵中每一行的元素，得到每一行的调整后元素的步骤以及后续步骤。

若每一行的所述调整后元素总和以及每一列的所述调整后元素总和中任意一个调整后元素总和不满足上述公式七，则返回循环执行步骤B1至步骤B5，直至调整后元素总和都满足上述公式七。

优选地，可优先选用步骤A1至A6作为区域等级较大的区域（例如：行政区级别）的抽样步骤，选用步骤B1至B5作为区域等级较小（例如：街道级别）的区域的抽样步骤。例如：步骤A1至A6作为行政区的抽样步骤，步骤B1至B5作为街道的抽样步骤。

步骤103，根据所述第一联合分布值，在第一样本集合中抽取所述第一区域对应的第一抽样样本集合，所述第一样本集合为所述第一区域对应的总样本集合。

每个第一区域都各自对应不同的总样本集合。示例性地，假设：若深圳市包括福田区、南山区以及龙华区，则福田区的第一样本集合为400万个样本，南山区的第一样本集合为300万个样本，龙华区的第一样本集合为300万个样本。根据福田区对应的第一联合分布值在400万个样本中，抽取福田区对应的第一抽样样本集合。根据南山区对应的第一联合分布值在300万个样本中，抽取南山区对应的第一抽样样本集合。根据龙华区对应的第一联合分布值在300万个样本中，抽取龙华区对应的第一抽样样本集合。

至此，第一区域等级的各个第一区域（即福田区、南山区以及龙华区）抽样完毕，需对第二区域等级的各个第二区域进行抽样，以实现分层抽样。

步骤104，将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值。

示例性地，若第一区域为福田区、南山区以及龙华区，则将福田区对应的第一抽样样本集合作为福田区下属所有街道对应的总样本集合，将南山区对应的第一抽样样本集合作为南山区下属所有街道对应的总样本集合，将龙华区对应的第一抽样样本集合作为龙华区下属所有街道对应的总样本集合。

基于第二特征数据计算第二联合分布值的方法，与上述可选实施例中的步骤A1至步骤A6以及步骤B1至步骤B5相同，详情可参照步骤A1至步骤A6以及步骤B1至步骤B5，在此不再赘述。

步骤105，根据所述第二联合分布值，在所述第一抽样样本集合中抽取所述第二区域对应的第二抽样样本集合；其中，所述第一区域和所述第二区域为区域等级相邻的两个区域，所述第一区域等级大于所述第二区域等级，所述第一区域的范围包括所述第二区域。

步骤105与步骤103的执行步骤相同，详情可参照步骤103，在此不再赘述。

需要强调的是，本申请适用于两层或两层以上的分层抽样，步骤102至步骤105适用于任意相邻层级之间的抽样过程。

作为本申请的一个可选实施例，在步骤105之后，还包括如下步骤：若所述第二区域为区域等级最小的区域，则将所述第二抽样样本集合作为最终的抽样结果，所述抽样结果用于预测出行规律。

若第二区域为区域等级最小的区域，则表示分层抽样仅为两层，故可将第二抽样样本集合作为最终的抽样结果。

若第二区域不为区域等级最小的区域，则循环执行步骤104或步骤105的过程，直至第二区域为区域等级最小的区域。

示例性地，若街道等级为最小等级，则将所有街道对应的第二抽样样本集合作为最终的抽样结果。若街道等级不为最小等级，则循环执行步骤104或步骤105的过程，直至所有区域抽样结束，将最小区域对应的第二抽样样本集合作为最终的抽样结果。

其中，以居民出行抽样为例，抽样样本是每个家庭的日常出行信息，出行信息包括出行时间、方式或出行路线等。在得到最终的抽样结果后，可进一步分析得到居民的出行规律。并根据出行规律改善政策制定和远期交通规划。

在本实施例中，按照不同区域等级进行分层抽样，将上一层的抽样样本集合作为下一层的总样本集合，进行下层抽样，实现逐层精细化抽样。与传统的抽样方法相比，由于本申请采用基于区域的分层抽样，故避免了单一参照条件带来的抽样弊端，提高了抽样样本的代表性。

可选地，在上述图1或图2所示实施例的基础上，当每个所述区域有两个维度或两个以上维度的所述特征数据时，所述方法，还包括如下步骤，请参见图5，图5示出了本申请提供的另一种出行调查抽样的方法的示意性流程图。本实施例中步骤506以及步骤508，与图1所示实施例中步骤103至步骤105相同，具体请参阅图1所示实施例中步骤103至步骤105的相关描述，此处不赘述。

步骤501，获取不同维度的待组合数据。

由于每个区域等级对应多种维度的待组合数据，例如：行政区等级对应的待组合数据包括但不限于人口数据、户口数据、车辆数据、经济数据、出行行为数据以及平级年龄数据等。而不同维度的待组合数据组合得到的抽样结果不同（例如：根据人口数据和户口数据抽样得到的第一抽样结果，与根据人口数据和车辆数据抽样得到的第二抽样结果之间的存在差异），不同抽样结果之间具有一定优劣差异。故为了在不同维度的待组合数据中选择最佳的多维组合，本申请在获取不同维度的待组合数据后，分别计算不同组合的联合分布值。并根据联合分布值选择最佳的多维组合，具体过程如下：

步骤502，将不同维度的待组合数据进行组合，得到不同的待组合数据组；每个所述待组合数据组中包含两个或两个以上维度的待组合数据。

若每个当前区域对应两个维度的特征数据，则将不同维度的待组合数据进行两两组合，得到多个待组合数据组。每个待组合数据组包含两个维度的待组合数据。

若每个当前区域对应三个维度的特征数据时，则将不同维度的待组合数据进行三三组合，得到多个待组合数据组。每个第二特征数据组包含三个维度的待组合数据。

每个当前区域对应特征数据的维度更多时，可根据上述进行类推，在此不再赘述。

步骤503，分别将不同的所述待组合数据组作为所述特征数据。

步骤504，分别计算每个所述待组合数据组对应的初始联合分布值。

步骤505，根据预设算法在所有所述初始联合分布值中，选择一个所述初始联合分布值作为所述第一联合分布值。

由于联合分布值的拟合程度越高，根据联合分布值抽取的样本集合越具有代表性。故本申请根据所有初始联合分布值的拟合程度，在所有初始联合分布值中选择一个初始联合分布值作为第一联合分布值，以提高抽样集合的代表性。

其中，对于联合分布值的拟合程度的计算如下：

作为本申请的一个可选实施例，步骤505包括如下步骤5051至步骤5052。请参见图6，图6示出了本申请提供的一种出行调查抽样的方法中步骤505具体示意性流程图。

步骤5051，以每个所述待组合数据组作为自变量，以每个所述待组合数据组对应的初始联合分布值作为因变量，进行多元线性回归，得到每个所述待组合数据组对应的拟合优度。

多元线性回归为现有技术，在此不再赘述。

步骤5052，将最大拟合优度对应的待组合数据组的初始联合分布值作为所述第一联合分布值。

由于拟合优度用于表示联合分布值的拟合程度，故拟合优度越高联合分布值越优。故本申请将最大拟合优度对应的待组合数据组的初始联合分布值作为所述第一联合分布值。

步骤506，根据所述第一联合分布值，在第一样本集合中抽取所述第一区域对应的第一抽样样本集合，所述第一样本集合为所述第一区域对应的总样本集合。

步骤507，将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值。

步骤508，根据所述第二联合分布值，在所述第一抽样样本集合中抽取所述第二区域对应的第二抽样样本集合；其中，所述第一区域和所述第二区域为区域等级相邻的两个区域，所述第一区域等级大于所述第二区域等级，所述第一区域的范围包括所述第二区域。

在本实施例中，通过将不同的维度的待组合数据进行组合，形成每个区域各自对应的不同待组合数据组。并根据每个待组合数据组对应的初始联合分布值，选择最优的待组合数据组，进行样本抽样，以提高抽样结果的代表性。

如图7本申请提供了一种出行调查抽样的装置7，请参见图7，图7示出了本申请提供的一种出行调查抽样的装置的示意图，如图7所示一种出行调查抽样的装置包括：

获取单元71，用于获取不同区域等级下各个区域的特征数据，所述特征数据包括第一特征数据和第二特征数据；

第一计算单元72，用于基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值；

第一抽样单元73，用于根据所述第一联合分布值，在第一样本集合中抽取所述第一区域对应的第一抽样样本集合，所述第一样本集合为所述第一区域对应的总样本集合；

第二计算单元74，用于将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值；

第二抽样单元75，用于根据所述第二联合分布值，在所述第一抽样样本集合中抽取所述第二区域对应的第二抽样样本集合；其中，所述第一区域和所述第二区域为区域等级相邻的两个区域，所述第一区域等级大于所述第二区域等级，所述第一区域的范围包括所述第二区域。

本申请提供的一种出行调查抽样的装置，按照不同区域等级进行分层抽样，将上一层的抽样样本集合作为下一层的总样本集合，进行下层抽样，实现逐层精细化抽样。与传统的抽样方法相比，由于本申请采用基于区域的分层抽样，故避免了单一参照条件带来的抽样弊端，提高了抽样样本的代表性。

图8是本发明一实施例提供的一种终端设备的示意图。如图8所示，该实施例的一种终端设备8包括：处理器81、存储器82以及存储在所述存储器82中并可在所述处理器81上运行的计算机程序83，例如一种出行调查抽样的程序。所述处理器81执行所述计算机程序83时实现上述各个一种出行调查抽样的方法实施例中的步骤，例如图1所示的步骤101至步骤105。或者，所述处理器81执行所述计算机程序83时实现上述各装置实施例中各单元的功能，例如图7所示单元71至75的功能。

示例性的，所述计算机程序83可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器82中，并由所述处理器81执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序83在所述一种终端设备8中的执行过程。例如，所述计算机程序83可以被分割成各单元的具体功能如下：

所述一种终端设备可包括，但不仅限于，处理器81、存储器82。本领域技术人员可以理解，图8仅仅是一种终端设备8的示例，并不构成对一种终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器81可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器82可以是所述一种终端设备8的内部存储单元，例如一种终端设备8的硬盘或内存。所述存储器82也可以是所述一种终端设备8的外部存储设备，例如所述一种终端设备8上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（SecureDigital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器82还可以既包括所述一种终端设备8的内部存储单元也包括外部存储设备。所述存储器82用于存储所述计算机程序以及所述一种终端设备所需的其他程序和数据。所述存储器82还可以用于暂时地存储已经输出或者将要输出的数据。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于监测到”。类似地，短语“如果确定”或“如果监测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦监测到[所描述条件或事件]”或“响应于监测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种出行调查抽样的方法，其特征在于，所述方法包括：

获取不同区域等级下各个区域的特征数据，所述特征数据包括第一特征数据和第二特征数据；基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值；其中，所述第一联合分布值是指由所述第一特征数据计算而得的第一抽样占比；

将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值；其中，所述第二联合分布值是指由所述第二特征数据计算而得的第二抽样占比；

2.如权利要求1所述方法，其特征在于，当每个第一区域有两个维度的所述第一特征数据时；

所述基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值，包括：

将两个维度的所述第一特征数据输入二维矩阵中；

按比例调整所述二维矩阵中每一行的元素，得到每一行的调整后元素；其中，在每一行间所述调整后元素总和相等；

按比例调整所述二维矩阵中每一列的元素，得到每一列的调整后元素，得到第一矩阵；其中，在每一列间所述调整后元素总和相等；

若每一行的所述调整后元素总和以及每一列的所述调整后元素总和都满足收敛条件，则将第一矩阵作为所述第一联合分布值；

若每一行的所述调整后元素总和以及每一列的所述调整后元素总和中任意一个调整后元素总和不满足收敛条件，则返回执行所述按比例调整所述二维矩阵中每一行的元素，得到每一行的调整后元素的步骤以及后续步骤。

3.如权利要求1所述方法，其特征在于，当每个第一区域有三个维度的所述第一特征数据时；

将三个维度的所述第一特征数据输入三维矩阵中；

按比例调整所述三维矩阵中每一行的元素，得到每一行的调整后元素；其中，在每一行间所述调整后元素总和相等；

按比例调整所述三维矩阵中每一列的元素，得到每一列的调整后元素；其中，在每一列间所述调整后元素总和相等；

按比例调整所述三维矩阵中每一切片的元素，得到每一切片的调整后元素，得到第二矩阵；其中，在每一切片间所述调整后元素总和相等；

若每一行的所述调整后元素总和、每一列的所述调整后元素总和以及每一切片的所述调整后元素总和都满足收敛条件，则第二矩阵作为所述第一联合分布值；

若每一行所述调整后元素总和、每一列所述调整后元素总和以及每一切片所述调整后元素总和中任意一个调整后元素总和不满足收敛条件，则返回执行所述按比例调整所述三维矩阵中每一行的元素，得到每一行的调整后元素的步骤以及后续步骤。

4.如权利要求1所述方法，其特征在于，当每个所述区域有两个维度或两个以上维度的所述特征数据时；

所述获取不同区域等级下各个区域的特征数据，包括：

获取多个当前区域的原始数据；每个所述当前区域有两个维度或两个以上维度的所述原始数据；

将同一维度的原始数据去量纲后相加，得到每种维度的原始数据总和；

在所有所述每种维度的原始数据总和中选取最大总和；

将每种维度的原始数据进行等比放大，使其总和增加至所述最大总和，得到每种维度的原始数据对应的特征数据；其中，相同维度下的原始数据之间的比例与所述相同维度下的特征数据之间的比例保持一致。

5.如权利要求1所述方法，其特征在于，当每个所述区域有两个维度或两个以上维度的所述特征数据时；

在所述获取不同区域等级下各个区域的特征数据之前，还包括：

获取不同维度的待组合数据；

将不同维度的待组合数据进行组合，得到不同的待组合数据组；每个所述待组合数据组中包含两个或两个以上维度的待组合数据；

所述获取不同区域等级下各个区域的特征数据，包括：

分别将不同的所述待组合数据组作为所述特征数据；

分别计算每个所述待组合数据组对应的初始联合分布值；

根据预设算法在所有所述初始联合分布值中，选择一个所述初始联合分布值作为所述第一联合分布值。

6.如权利要求5所述方法，其特征在于，所述根据预设算法在所有所述初始联合分布值中，选择一个所述初始联合分布值作为所述第一联合分布值，包括：

以每个所述待组合数据组作为自变量，以每个所述待组合数据组对应的初始联合分布值作为因变量，进行多元线性回归，得到每个所述待组合数据组对应的拟合优度；

将最大拟合优度对应的待组合数据组的初始联合分布值作为所述第一联合分布值。

7.如权利要求1所述方法，其特征在于，在所述根据所述第二联合分布值，在所述第一抽样样本集合中抽取所述第二区域对应的第二抽样样本集合之后，还包括：

若所述第二区域为区域等级最小的区域，则将所述第二抽样样本集合作为最终的抽样结果；所述抽样结果用于预测出行规律。

8.一种出行调查抽样的装置，其特征在于，所述装置包括：

第一计算单元，用于基于第一区域等级的第一区域对应的第一特征数据，得到所述第一区域对应的第一联合分布值；其中，所述第一联合分布值是指由所述第一特征数据计算而得的第一抽样占比；

第二计算单元，用于将所述第一抽样样本集合作为第二区域等级的第二区域对应的总样本集合，基于所述第二区域对应的第二特征数据，得到所述第二区域对应的第二联合分布值；其中，所述第二联合分布值是指由所述第二特征数据计算而得的第二抽样占比；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。