CN109461302A

CN109461302A - 一种基于卡方检验的数据分段方法

Info

Publication number: CN109461302A
Application number: CN201811080370.5A
Authority: CN
Inventors: 杨珍珍; 高自友
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-03-12

Abstract

本发明提供了一种基于卡方检验的数据分段方法，包括：确定因变量数据为第一变量数据，自变量数据为第二变量数据；将第二变量数据依次作为分段点，建立列联表；计算每个分段点对应的卡方值，并计算最大卡方值，记录当前的分段次数；比较最大卡方值是否小于设定阈值或分段次数是否大于预定次数阈值，若均不满足，则以最大卡方值对应的分段点将区间划分为两个区间，若至少满足其中一个，则停止计算，将卡方值大于设定阈值的所有分段点作为分段点集合，利用分段点集合将第二变量划分为若干分段区间。应用本发明的方法生成的分段点可以使分段之间的差异最大化，有效地将不同范畴的数据分开。

Description

一种基于卡方检验的数据分段方法

技术领域

本发明涉及交通数据信息处理技术领域，尤其涉及一种基于卡方检验的数据分段方法。

背景技术

随着信息技术的发展，数据分段在实际科学研究和工程实践中具有非常重要的意义。例如，道路的交通状态在一天之中会存在很大的差异，早晚高峰时段的交通状况比其他时间段更拥堵，而且对于不同城市、不同区域、不同路段，交通拥堵时段也有着很大差异，因此需要对每个研究对象的交通拥堵时段进行科学合理的划分。再如，城市交通信号灯路口，车辆遇到红色信号灯需要停车等待，车辆停车等待的时间越长，停车次数越多，则越容易造成交通拥堵，为了便于研究交通状态与停车时长和停车次数之间的关系，在一些基于机器学习的交通状态预测算法中需要对停车等待时间和停车次数进行分段。

现有技术中，传统的交通时段的划分方法是根据一天或几天的交通流量来绘制流量-时间的曲线图，根据曲线图的曲线特征，通过人工划分交通时段。此外，现有技术中还有一些常见的聚类分析方法，包括基于人工免疫的聚类分析方法、基于模糊C均值的聚类分析法和Fisher聚类分析法，基于人工免疫的聚类分析方法基于生物免疫系统的基本机制模仿人体的免疫系统，能够减少源数据的冗余信息，适用于大数据量的聚类问题；基于模糊C均值的聚类分析法引入隶属度函数表示每个数据所属各个类别的程度，对所有数据进行软划分，首先估计数据聚类的中心，然后调整聚类中心，使每个点与距离最近的中心的距离之和最小或满足终止条件；Fisher聚类分析法，针对有序样品进行分段，不需要改变数据的顺序。

上述现有技术中的交通时段的划分方法的缺点为：传统的划分方法具有很大的主观性，容易产生不合理的时段划分结果。基于模糊C均值的算法和人工免疫算法在应用上都会涉及人为经验，对分段结果影响较大。Fisher聚类分析对有序样本进行分类时，样本一旦划分到一类就固定不变。对于交通的实时性状况变通性差，并且，从实证分析来看，改进的Fisher聚类分析法并不能完全将相邻差异很大的数据分开或是将差异很小的数据合并。

发明内容

本发明的实施例提供了一种基于卡方检验的数据分段方法，以解决目前数据分段的不足。

为了实现上述目的，本发明采取了如下技术方案。

一种基于卡方检验的数据分段方法，包括：

S1确定因变量数据作为第一变量数据，自变量数据作为第二变量数据，并将第一变量数据和第二变量数据中的连续变量数据转换为分类变量数据；

S2将所述的所有第二变量数据依次作为分段点，建立列联表；

S3根据所述的列联表，计算每个所述分段点对应的卡方值，将所述分段点集合作为一个区间，并查找出所述区间的最大卡方值ε，并记录当前的分段次数n；

S4比较所述区间的最大卡方值ε是否小于设定阈值ε₁或分段次数n是否大于预定次数阈值ε₂，若均不满足，则以所述最大卡方值ε对应的分段点作为所述区间的最优分段点，将所述区间划分为两个区间，分别建立列联表，并对所述的两个区间分别执行S3，若至少满足其中一个，则执行S5；

S5停止计算，将卡方值大于设定阈值ε₁的所有分段点组成最优分段点集合，利用所述最优分段点将第二变量划分为若干分段区间。

优选的，所述的建立列联表包括以所述的分段点划分的两个分段区间作为行，所述的第一变量的数据作为列，表格数据是第一变量和第二变量组合的观测频数。

优选的，所述的卡方值按如下公式计算：

其中，O_ij表示第i行第j列的观测次数，E_ij表示第i行第j列的期望次数，n_i表示第i行观测频数总和，m_j表示第j列观测频数总和，R和C分别表示总行数和总列数，N表示观测频数总和，

优选的，所述的比较所述区间的最大卡方值ε是否小于设定阈值ε₁或分段次数n是否大于预定次数阈值ε₂，所述的ε₁＝100，ε₂＝10。

优选的，将交通状态作为因变量数据，将停车时长作为自变量数据，所述交通状态包括：1畅通，2缓慢，3拥堵，所述停车时长从1到T秒。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例的基于卡方检验的数据分段方法，通过迭代选择分段中最显著的分段点来增强效果，生成的分段点可以使分段之间的差异最大化，获取最优的数据分段结果，有效地将不同范畴的数据分开。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的基于卡方检验的数据分段方法的处理流程图；

图2为实施例2提供的停车时长分段点的卡方值变化趋势图；

图3为实施例3提供的停车次数分段点的卡方值变化趋势图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例的一种基于卡方检验的数据分段方法，旨在通过迭代选择分段中最显著的分段点来增强效果，使分段之间的差异最大化。

实施例1

图1为本发明实施例1提供的基于卡方检验的数据分段方法的处理流程图，参照图1，该方法包括：

所述的建立列联表包括以所述的分段点划分的两个分段区间作为行，所述的第一变量的数据作为列，表格数据表示第一变量和第二变量组合的观测频数。

列联表的形式如表1所示，O_ij表示第i行第j列的观测次数，即第一变量和第二变量组合的观测频数，n_i表示第i行观测频数总和，m_j表示第j列观测频数总和，N表示观测频数总和。

表1列联表示意表

卡方值表示观察值与理论值的偏差程度，卡方值等于观测频数与期望频数残差平方除以期望频数的和。

S4比较所述区间的最大卡方值ε是否小于设定阈值ε₁或分段次数是否大于预定次数阈值ε₂，例如ε₁＝100，ε₂＝10,若均不满足，则以所述最大卡方值ε对应的分段点作为所述区间的最优分段点，将所述区间划分为两个区间，分别建立列联表，并对所述的两个区间分别执行S3，若至少满足所述区间的最大卡方值ε小于设定阈值ε₁或分段次数大于预定次数阈值ε₂中的一个条件，则执行S5。

S5停止计算，采用所述卡方值大于设定阈值ε₁的所有分段点组成最优分段点集合，利用所述最优分段点集合将第二变量划分为若干分段区间。上述分段点集合可以包括卡方值最大的分段点。如果所有卡方值都不大于设定阈值ε₁，则不对第二变量进行分类划分，所有第二变量属于同一类别。

示意性地，卡方值最大的分段点作为一个最优分段点，标记为r₁，则第二变量被划分为两个分段：1～r₁和r₁～G，其中，G表示第二变量的分类变量数。

进一步地，卡方值按如下公式计算：

优选地，ε₁＝100，ε₂＝10。

实施例2

本实施例2用到的停车时长样例数据如表2所示，停车时长从1到1000秒，交通状态包括：1畅通，2缓慢，3拥堵。其中，交通状态为因变量，确定交通状态的因变量数据作为第一变量数据，确定停车时长为自变量，确定停车时长的自变量数据作为第二变量数据。

表2停车时长与交通状态样例数据

交通状态(1畅通，2缓慢，3拥堵)	停车时长(秒)
		1	28
1	65
		2	112
2	122
		3	340
3	640
		…	…

为了减少计算的复杂度，首先将停车时长划分为30秒一组的数据，即，将连续变量数据转换为分类变量数据。示意性地，1秒到29秒为第1组，30秒到59秒为第2组，以此类推，停车时长数据被划分为33组，即G＝33。

具体的停车时长分段步骤为：

步骤1，将停车时长分类变量所有值依次作为分段点，建立列联表，将分段点划分的两个分段区间作为行，将第一变量的所有值作为列，表格数据是第一变量和第二变量组合的观测频数。

以停车时长的第6组数据作为分段点为例，停车时长和交通状态的列联表形式如表3所示。

表3停车时长和交通状态的列联表示意表

步骤2，根据列联表，计算每个分段点对应的的卡方值，将所述分段点集合作为一个区间，并查找出所述区间的最大卡方值ε，并记录当前的分段次数 n；

步骤3，比较所述区间的最大卡方值ε是否小于设定阈值ε₁＝100或分段次数是否大于预定次数阈值ε₂＝10，若均不满足，则以所述最大卡方值ε对应的分段点作为所述区间的最优分段点，将所述区间划分为两个区间，分别建立列联表，并对所述的两个区间分别执行步骤2，若至少满足其中一个，则执行步骤4；

步骤4，停止计算，采用所述卡方值大于设定阈值ε₁的所有的最优分段点对所述第二变量数据进行数据分段。

示意性地，将卡方值最大的分段点作为一个最优分段点，标记为r₁，则第二变量被划分为两个区间：1～r₁和r₁～33。

表4列出了基于上述方法得到的停车时长最优分段间隔，第一个分段点设置在第6组，产生两个新的分段区间1～6组和7～33组。然后，在两个新的分段区间中，重复执行步骤2和3。从表中可以看出，排名第6的分段点，r＝5，卡方值42.14＜ε₁＝100，因此停止计算。图2为停车时长分段点的卡方值变化趋势图，参照图2可以看出从排名第6的分段点开始，卡方值急剧下降。因此，最终得到的停车时长分组数据共被划分为6个分段区间，分别为[1,2]，[3]，[4]，[5,6]，[7,10]，[11,33]。对应的停车时长s_t为：1≤s_t＜60秒， 60≤s_t＜90秒，90≤s_t＜120秒，120≤s_t＜180秒，180≤s_t＜300秒，s_t≥300秒。

表4停车时长在每个分段区间的最优分段点

区间	分段点r	卡方值	是否分开？	新的分段区间	排名
						[1,33]	6	15193.70	Yes	[1,6],[7,33]	1
[1,6]	4	4218.63	Yes	[1,4],[5,6]	2
						[7,33]	10	328.91	Yes	[7,10],[11,33]	4
[1,4]	3	1128.43	Yes	[1,3],[4]	3
						[5,6]	5	42.14	No		6
[7,10]	7	17.7656	No		8
						[11,33]	16	16	No		9
[1,3]	2	224.66	Yes	[1,2],[3]	5
						[1,2]	1	25.7881	No		7

实施例3

本实施例3所用到的停车次数样例数据如表5所示，参照表5，停车次数从1到7，交通状态包括：1畅通，2缓慢，3拥堵。交通状态为因变量，确定交通状态的因变量数据作为第一变量数据，确定停车时长为自变量，确定停车时长的自变量数据作为第二变量数据。

表5停车次数与交通状态样例数据

交通状态(1畅通，2缓慢，3拥堵)	停车次数
		1	1
2	2
		3	3
3	4
		…	…

具体的停车次数分段步骤为：

步骤1，将停车次数所有的值依次作为分段点，建立列联表，将分段点划分的两个分段区间作为行，将第一变量的所有值作为列，表格数据是第一变量和第二变量组合的观测频数。

以停车次数等于1作为分段点为例，停车次数和交通状态的列联表形式如表6所示。

表6停车次数和交通状态的列联表示意表

步骤3，比较所述区间的最大卡方值ε是否小于设定阈值ε₁＝100或分段次数是否大于预定次数阈值ε₂，若均不满足，则以所述最大卡方值ε对应的分段点作为所述区间的最优分段点，将所述区间划分为两个区间，分别建立列联表，并对所述的两个区间分别执行步骤2，若至少满足其中一个，则执行步骤4；

示意性地，将卡方值最大的分段点作为一个最优分段点，标记为r₁，则第二变量被划分为两个区间：1～r₁和r₁～7。

表7列出了基于上述方法得到的停车次数最优分段间隔。第一个分段点设置在第1组，产生两个新的分段区间第1组和2～7组。然后，在两个新的分段区间中重复上述过程。从表中可以看出，排名第3的分段点，r＝3，卡方值 26＜ε₁＝100，因此停止计算。图3为停车次数分段点的卡方值变化趋势图，参照图3可以看出，从排名第3的分段点开始，卡方值急剧下降，因此，最终得到的停车次数数据共被划分为3个分段区间，分别为[1]，[2]，[3,7]。对应的停车次数s_n为：s_n＝1，s_n＝2，3≤s_n≤7。

表7停车次数在每个分段区间的最优分段点

区间	分段点r	卡方值	是否分开？	新的分段区间	排名
						[1,7]	1	14969	Yes	[1],[2,7]	1
[2,7]	2	475	Yes	[2],[3,7]	2
						[3,7]	3	26	No		3

综上所述，本发明实施例的基于卡方检验的数据分段方法通过迭代选择先前分段中最显著的分段点来增强估计效果的方法，生成的分段点可以使分段之间的差异最大，得到最优的数据分段区间，有效地将不同范畴的数据分开。在交通数据分段问题中，基于卡方检验的数据分段方法能够最大程度地分离不同状态的交通数据，能够为交通预测等提供最优的基础数据，从而提高交通预测的准确率。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于卡方检验的数据分段方法，其特征在于，包括：

2.根据权利要求1所述的一种基于卡方检验的数据分段方法，其特征在于，所述的建立列联表包括以所述的分段点划分的两个分段区间作为行，所述的第一变量的数据作为列，表格数据是第一变量和第二变量组合的观测频数。

3.根据权利要求1所述的一种基于卡方检验的数据分段方法，其特征在于，所述的卡方值按如下公式计算：

4.根据权利要求1所述的一种基于卡方检验的数据分段方法，其特征在于，所述的比较所述区间的最大卡方值ε是否小于设定阈值ε₁或分段次数n是否大于预定次数阈值ε₂，所述的ε₁＝100，ε₂＝10。

5.根据权利要求1至4任一项所述的基于卡方检验的数据分段方法，其特征在于，将交通状态作为因变量数据，将停车时长作为自变量数据，所述交通状态包括：1畅通，2缓慢，3拥堵，所述停车时长从1到T秒。