CN106126328A

CN106126328A - 一种基于事件分类的交通元数据管理方法及系统

Info

Publication number: CN106126328A
Application number: CN201610471006.6A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 张亚英; 喻剑; 叶晨; 苏亚运
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2016-11-16
Anticipated expiration: 2036-06-24
Also published as: CN106126328B

Abstract

本发明提供一种基于事件分类的交通元数据管理方法及系统。其中，所述基于事件分类的交通元数据管理方法包括：获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据；根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器；将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。本发明的方案能够实现元数据服务器之间的负载均衡，提高数据检索速度，满足不同用户对不同数据的需求，提高用户访问效率。

Description

一种基于事件分类的交通元数据管理方法及系统

技术领域

本发明涉及一种计算机数据管理技术，特别是涉及一种基于事件分类的交通元数据管理方法及系统。

背景技术

在智能交通系统中，每天源源不断地产生不同种类的交通数据，例如来自道路摄像头的监控视频信和图像数据、来自交通路网传感器的交通流量和道路占有率数据、来自交通管理部门的交通违规和事故数据等。数据的规模达到了TB甚至PB级，数据类型种类繁多，主要有，并且，交通数据有一定的特征，例如道路交通数据除时间特性外还具有很强的空间特性；道路交通流信息存在实时性的特点，短期内信息会迅速膨胀；交通事故多发于早晚高峰时间、节假日以及车流量大的地区等。目前海量数据存储系统大多采用了对象存储技术，将数据和描述数据的元数据分开存储，引入了元数据服务器，在基于对象的空间数据的存储架构中，元数据的访问达到了50％～80％，元数据的操作占文件系统中所有文件操作的50％，由此可见，元数据服务器的性能成为决定系统性能的关键因素。由于交通数据具有来源广泛、数据规模庞大、形式多样、异构性和多层次的特点，以及不同用户对不同数据的需求不同，现有的元数据管理策略存在着元数据服务器之间负载不均衡和数据检索速度低等问题，最终导致用户访问的延迟，不能很好地应用于智能交通平台。

鉴于此，如何找到方便用户快捷有效访问的交通数据管理方案就成了本领域技术人员亟待解决的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于事件分类的交通元数据管理方法及系统，用于解决现有技术中交通元数据服务器之间负载不均衡和数据检索速度低等问题。

为实现上述目的及其他相关目的，本发明提供一种基于事件分类的交通元数据管理方法，所述基于事件分类的交通元数据管理方法包括：获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据；根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器；将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。

可选地，所述交通元数据的属性包括时间、地段和事件类型。

可选地，所述决策树算法包括C4.5决策树算法。

可选地，根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括：获取当前所有元数据服务器的状态指标值，并根据所述元数据服务器的状态指标值确定目标服务器；根据所有的目标服务器的状态指标值建立相对优属度矩阵，并对所述相对优属度矩阵进行归一化转化成规范矩阵；利用熵权法计算各个所述状态指标相应的熵权，进而计算得到加权目标优属度矩阵；根据所述加权目标优属度矩阵计算相对优属度向量，从而确定第一目标服务器与第二目标服务器。

可选地，所述状态指标值包括：CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。

可选地，所述基于事件分类的交通元数据管理方法还包括：当一个元数据服务器满足设定迁移条件时，选出所述元数据服务器中最热的子树数据，将所述最热的子树数据迁移到所述第一目标服务器。

可选地，所述设定迁移条件包括：所述元数据服务器的CPU利用率大于90％。

本发明提供一种基于事件分类的交通元数据管理系统，所述基于事件分类的交通元数据管理系统包括：交通元数据处理模块，用于获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据；目标服务器确定模块，用于根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器；数据存储复制模块，用于将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。

可选地，所述决策树算法包括C4.5决策树算法。

可选地，所述数据存储复制模块还用于：当一个元数据服务器满足设定迁移条件时，选出所述元数据服务器中最热的子树数据，将所述最热的子树数据迁移到所述第一目标服务器。

如上所述，本发明的一种基于事件分类的交通元数据管理方法及系统，具有以下有益效果：能够将文件系统的元数据管理策略与交通事件的特点相结合，构建一个交通事件的分类模型，面向智能交通监控平台，进行元数据管理策略的改进和优化。本发明的方案能够实现元数据服务器之间的负载均衡，提高数据检索速度，满足不同用户对不同数据的需求，提高用户访问效率。

附图说明

图1显示为本发明的基于事件分类的交通元数据管理方法的一实施例的流程示意图。

图2显示为本发明的基于事件分类的交通元数据管理方法的另一实施例的交通元数据分类示意图。

图3显示为本发明的基于事件分类的交通元数据管理方法的另一实施例的流程示意图。

图4显示为本发明的基于事件分类的交通元数据管理系统的一实施例的模块示意图。

元件标号说明

1 基于事件分类的交通元数据管理系统

11 交通元数据处理模块

12 目标服务器确定模块

13 数据存储复制模块

S1～S3 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明采用了一种被广泛使用的分类算法——决策树，决策树的优势在于构造过程不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。决策树(decision tree)是一个树结构，其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂自己尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：1，属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。2，属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。3，属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<＝split_point生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法，它决定了拓扑结构及分裂点split_point的选择。属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。决策树C4.5是在ID3决策树的基础之上稍作改进，C4.5克服了ID3的2个缺点：1.用信息增益选择属性时偏向于选择分枝比较多的属性值，即取值多的属性。2.不能处理连贯属性。

本发明还涉及到模糊优选法。模糊优选法通过相对优属度的概念建立了模糊优选模型，模型中每一个指针的权重确定采用了主客观综合考虑的综合赋权法，使得权重的取值更科学合理。模糊优选法的过程如下：1，建立目标特征值矩阵；2，通过规格化公式确定目标相对优属度矩阵；3，权重向量的确定—综合法。4，模糊优选方案的确定。

本发明提供一种基于事件分类的交通元数据管理方法。在一个实施例中，如图1所示，所述基于事件分类的交通元数据管理方法包括：

步骤S1，获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据。在一个实施例中，所述交通元数据的属性包括时间、地段和事件类型。所述决策树算法包括C4.5决策树算法。

在一个实施例中，选取C4.5决策树算法作为交通事件分类模型，对交通平台中的数据用事故发生的时间(Time)、事故类型或事件类型(Type)、事故发生的地段(Location)这些属性来衡量，确定所述交通元数据属于热点数据或非热点数据。具体地，先对事故发生的时间(Time)进行离散化：

先将时间(time属性)以一小时为单位等分化，分为k个区间。计算每个区间的Gini系数：m为类别数目，T为训练样集本，p_i为类别c_i在样本集T中出现的频率。合并相邻的区间，计算Gini系数，若Gini(k′)<Gini(K)，则停止合并。按照以上方法可以将时间属性划分为几个区间。

对于事故发生的地段(Location)这个属性，有多个取值，会产生多个分支，对于决策树而言，叶节点越少分类精度高，分支的过多可能会产生过拟合的现象，而且使得决策树的规模过于庞大，预测能力降低，为此要进行分支的合并，对于地段这个属性我们采取计算其各个属性值的熵，如果两个熵的差绝对值小于一定的阈值(本发明取0.001)，则将两个分支合并。

根据获取的交通数据的样本集S＝{x₁,x₂,x₃,…,x_m}，其中样本S的属性集A＝{A₁,A₂,…,A_m}，根据A_m的不同取值可以将样本划分为k个子集C₁,…,C_k。

根据数据集S的属性集A进行划分得到信息熵：

\inf o (S) = - Σ_{i = 1}^{k} p_{i} \log_{2} (p_{i})

Pi＝|C_i|/|S|(1≤i≤k),根据属性集A的每个属性进行划分，得到一组信息熵：

{info}_{A} (S) = Σ_{j = 1}^{t} \frac{| S_{j} |}{| S |} \inf o (S_{j})

根据以上两者的差可以得到A的信息增益：

gain(A)＝info(S)-info_A(S)

信息增益率的计算：

I G R (S, A_{i}) = \frac{g a i n (A)}{s p l i t_\inf o (S)}

其中

最后将同父节点下的具有相同值的叶子节点合并。

在一个实施例中，交通事件分类模型的建立以北京某一天的交通数据为例，进行整理后得到以下数据(部分)

首先进行时间段的合并

现将时间按一小时为间隔进行划分，等分为24个小时。

计算每个区间的Gini系数，例如7:00至8:00时间段内，出现了交通拥堵的数量为1，其余为0，整个数据集的交通拥堵数量为5，所以p1＝1/5，该区间的Gini＝1-1/25＝24/25,同样计算其他区间的gini系数，当相邻的Gini系数相加的值大于原先的值，那么合并该区间，否则停止合并。

得到如下结果：

7:01-10:00 10:01-13:00 13:01-15:00 15:01-17:00 17:01-19:00 19:00-7:00

共划分以上几个时间段

交通数据集S的属性集{A1，A2，A3}，A1＝时间，A2＝地段，A3＝事件类型；

数据集S中包含10条数据，其中yes为6，no为4,

其信息熵为info(s)＝-6/10*log2(6/10)-4/10log2(4/10)＝0.707564

计算每个属性的信息熵

Info(time)＝4/10*(-2/4*log2(2/4)-2/4*log2(2/4))+2/10*(-1/2*log2(1/2)-1/2*log2(1/2))+2/10*(-1/2*log2(1/2)-1/2*log2(1/2))+1/10*(-1/1*log2(1/1))+1/10*(-1/1*log2(1/1))

Info(location)＝2/10*(-2/2*log2(2/2))+3/10*(-3/3*log2(3/3))+3/10*(-1/3*log2(1/3)-2/3*log2(2/3))+2/10*(-2/2*log2(2/2))

Info(type)＝5/10*(-2/5*log2(2/5)-3/5*log2(3/5))+5/10*(-2/5*log2(2/5)-3/5*(log2(3/5))

计算每个属性的信息增益：

Gain(time)＝info(s)-info(time)

Gain(Location)＝info(s)-info(Location)

Gain(type)＝info(s)-info(type)

计算每个属性的分裂信息度

Split_info(time)＝-4/10*log2(4/10)-2/10*log2(2/10)-2/10*log2(2/10)-1/10*log2(1/10)-1/10*log2(1/10)

Split_info(Location)＝-2/10*log2(2/10)-3/10*log2(3/10)-3/10*log2(3/10)-2/10*log2(2/10)

Split_info(type)＝-5/10*log2(5/10)-5/10*log2(5/10)

计算每个属性的信息增益率

IGR(time)＝Gain(time)/Split_info(time)＝0.01276

IGR(location)＝Gain(location)/Split_info(location)＝0.07823

IGR(type)＝Gain(type)/Split_info(type)＝0.15234

由计算结果得出type的值最大，所以为首个分裂节点。

因为type＝{交通事故、拥堵}所以type会衍生出两个分支。同理在道路拥堵的这条分支下，我们再选取所有的道路拥堵的数据，表中有5条数据，则这五条数据组成新的数据集，再次进行如上的计算，选取下一个分裂的节点，进行分裂。最后将相同结果的分支进行合并，如Location进行分裂时，按照表中的数据则会分裂成四个分支，二环、三环、四环、五环。但是四环五环的结果相同都为no，所以进行了合并。以此类推，最后结果呈现如图2所示。该结果就将作为交通事件的分类模型，对后续上传的数据进行分类，将交通元数据分类成热点数据和非热点数据。

步骤S2，根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器。根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括：获取当前所有元数据服务器的状态指标值，并根据所述元数据服务器的状态指标值确定目标服务器；根据所有的目标服务器的状态指标值建立相对优属度矩阵，并对所述相对优属度矩阵进行归一化转化成规范矩阵；利用熵权法计算各个所述状态指标相应的熵权，进而计算得到加权目标优属度矩阵；根据所述加权目标优属度矩阵计算相对优属度向量，从而确定第一目标服务器与第二目标服务器。所述状态指标值包括：CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。

在一个实施例中，根据模糊优选法选出目标服务器集合的具体实现步骤如下：

判断服务器的CPU利用率、内存利用率。当CPU利用率和内存利用率都小于90％，则将该服务器加入候选节点服务器(S₁,S₂…S_n)，即目标服务器集。

考虑服务器中的以下6个指标进行优选：

元数据总热度P(O₁)；

传输成本cost(O₂)：两台MDS之间传输数据花费的代价，可以通过手动配置直接设定；

CPU的利用率(O₃)：t时间内CPU的平均利用率；

内存的利用率(O₄)：t时间内内存的平均利用率；

I/O(O₅)：t时间内的平均I/O；

带宽(O₆)：t时间内平均带宽利用率。

建立相对优属度矩阵

X = (\begin{matrix} x_{11} & ... & x_{1 n} \\ . & . \\ . & ... & . \\ . & . \\ x_{m 1} & ... & x_{m n} \end{matrix}) = {(X_{i j})}_{m \times n}, i = 1, 2, ..., m, j = 1, 2, ..., n, m = 6

其中，X_ij为对象j目标i的特征值。为了消除m个目标特征值不同的影响，需要对各目标值进行归一化，转化为规范矩阵R＝(r_ij)_m×n。本文选用成本型指标，相对优属度公式为

r_{i j} = \frac{s u p (X_{i j}) - X_{i j}}{s u p (X_{i j}) - \inf (X_{i j})}

其中，sup(X_ij)，inf(X_ij)分别为该指标下不同服务器的指标值X_ij中的最大值和最小值，r_ij为对象j目标i对优的隶属度。矩阵X的相对优属度矩阵为

R = (\begin{matrix} r_{11} & ... & r_{1 n} \\ . & . \\ . & ... & . \\ . & . \\ r_{m 1} & ... & r_{m n} \end{matrix}) = r_{i j}, i = 1, 2, ..., m, j = 1, 2, ..., n, m = 6

利用熵权法计算各指标的相应的权重向量

计算第i个指标下第j个项目的指标值的比重f_ij；

f_{i j} = \frac{1 + r_{i j}}{Σ_{j = 1}^{n} (1 + r_{i j})}, i = 1, 2, ..., m, j = 1, 2, ..., n

计算第i个指标的熵值H_i；

H_{i} = - \frac{Σ_{j = 1}^{n} (f_{i j} {lnf}_{i j})}{\ln n}, i = 1, 2, ..., m, j = 1, 2, .., n

计算第i个指标的熵权w_i

w_{i} = \frac{1 - H_{i}}{Σ_{j = 1}^{m} (1 - H_{i})}, j = 1, 2, ..., m

从而得到了目标权重向量

ω＝(ω₁，ω₂，ω₃，ω₄，ω₅，ω₆)^T

根据求得的相对优属度矩阵R和目标权重向量ω,计算加权目标优属度矩阵：

S = (\begin{matrix} S_{11} & ... & S_{1 n} \\ . & . & . \\ . & . & . \\ . & . & . \\ S_{61} & ... & S_{6 n} \end{matrix}) = S_{6 j}, j = 1, 2, ..., n

其中S_ij＝ω_ir_ij

定义相对理想方案与负理想方案的相对优属度向量分别为

最优相对优属度g＝(g₁，g₂，…g₆)^T＝(1,1,…,1)^T

考虑到目标的权重，则加权理想解为：

g^ω+＝(g₁ ^ω+,g₂ ^ω+,…,g₆ ^ω+)^T＝(ω₁,ω₂,…,ω₆)^T

最劣相对优属度b＝(b₁,b₂,…b₆)^T＝(0,0,…,0)^T

系统有目标优属度矩阵R，对象j的目标优属度向量为r_j＝(r_1j,r_2j,…,r_6j)^T,与其相对应的加权优属度向量为s_j＝(s_1j,s_2j,…,s_6j)^T

权距优距离

d (s_{j}, g_{ω}^{+}) = u_{j} {(Σ_{i = 1}^{6} {[d (s_{i j}, {g_{i}}^{ω +})]}^{p})}^{1 / p}

其中，p为距离参数，p＝1为汉明距离，p＝2为欧式距离。

权距劣距离

d (s_{j}, b) = u_{j} {(Σ_{i = 1}^{6} {[d (s_{i j}, 0)]}^{p})}^{1 / p}

为解出系统中的u_j的最优值，建立目标函数

m i n {F (u_{j}) = {u_{j}}^{2} {[d (s_{i j}, g_{ω}^{+})]}^{2} + {u_{j}^{'}}^{2} {[d (s_{i j}, b)]}^{2}}

即对象j的权距优距离平方和权劣距离平方和的总和最小。求解得u_j的最优值的计算公式为

u_{j} = \frac{1}{1 + {[\frac{Σ_{i = 1}^{m} {[d (s_{i j}, g_{ω}^{+})]}^{p}}{Σ_{i = 1}^{m} {[d (s_{i j}, 0)]}^{p}}]}^{2 / p}}

j＝1,2,…n,S_ij＝ω_ir_ij

解得相对优属度向量为u＝(u₁,u₂,…,u_n),最后得到候选服务器的优劣顺序。

具体地，在一个实施例中，假设有4台服务器s1，s2，s3，s4。在t时刻收集每台服务器的状态

服务器名称

Cpu利用率

内存利用率

i/o

带宽

元数据总热度

传输成本

S1

30％

50％

10％

200M

10

1

S2

40％

5％

100M

20

2

S3

50％

60％

3％

200M

40

2

S4

60％

70％

5％

100M

50

3

将cpu和内存的利用率小于90％的服务器加入候选节点，s1，s2，s3，s4均在候选节点中。

建立相对优属度矩阵：

x = (\begin{matrix} 0.3 & 0.4 & 0.5 & 0.6 \\ 0.5 & 0.4 & 0.6 & 0.7 \\ 0.1 & 0.05 & 0.03 & 0.05 \\ 200 & 100 & 200 & 100 \\ 10 & 20 & 40 & 50 \\ 1 & 2 & 2 & 3 \end{matrix})

转化为规范矩阵：

R = (\begin{matrix} 1 & 0.67 & 0.33 & 0 \\ 0.67 & 1 & 0.33 & 0 \\ 0 & 0.71 & 1 & 0.71 \\ 0 & 1 & 0 & 1 \\ 1 & 0.75 & 0.25 & 0 \\ 1 & 0.5 & 0.5 & 0 \end{matrix})

各个指标对应的权重向量：

W＝(0.9816,0.9816,0.9277,0.9652,0.9154,0.9849)T；

加权目标优属度矩阵：

s = (\begin{matrix} 0.9816 & 0.6577 & 0.3239 & 0 \\ 0.6577 & 0.9816 & 0.3239 & 0 \\ 0 & 0.6587 & 0.9277 & 0.6587 \\ 0 & 0.9652 & 0 & 0.9652 \\ 0.9154 & 0.6866 & 0.2289 & 0 \\ 0.9849 & 0.4925 & 0.4925 & 0 \end{matrix})

计算相对优属度向量

U＝(0.62810,0.88039,0.35228,0.26323)

由此得出目标服务器的顺序为(s2,s1，s3，s4)。即s2为第一目标服务器，s1为第二目标服务器。

步骤S3，将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。在一个实施例中，在t时刻上传一部分交通数据，我们将首先对这部分交通数据根据以上所建立的分类模型进行分类，分为热点和非热点数据，然后将得到的热点数据进行复制一份，将这些复制的数据分布到由模糊优选法得出的目标服务器列表中的第二台服务器上，热点和非热点的原始数据都将被存储到第一台选出的服务器上。

在一个实施例中，所述基于事件分类的交通元数据管理方法还包括：当一个元数据服务器满足设定迁移条件时，选出所述元数据服务器中最热的子树数据，将所述最热的子树数据迁移到所述第一目标服务器。所述设定迁移条件包括：所述元数据服务器的CPU利用率大于90％。在一个实施例中，如图3所示，基于事件分类的交通元数据管理方法的实施步骤主要包括：MDS(元数据服务器)定期上报，由Monitor(监视器)对元数据服务器的状态指标值进行收集。当检测到元数据服务器的CPU或内存利用率>90％时，将该元数据服务器加入到目标服务器集中作为候选节点，并通过模糊优选法选择出第一目标服务器与第二目标服务器。接收交通事件元数据，并采用C采取C4.5决策树作为交通事件的分类模型对交通事件进行分类，将交通事件元数据分成热点数据与非热点数据。将交通事件元数据(包括热点数据与非热点数据)存储到第一目标服务器中，将选出的热点数据复制到第二目标服务器中。针对CPU或者内存利用率<＝90％的元数据服务器，进行子树迁移。确定所述元数据服务器中最热的子树数据并将所述最热的子树数据迁移到第一目标服务器中。

本发明提供一种基于事件分类的交通元数据管理系统，所述基于事件分类的交通元数据管理系统可以采用如上所述的所述基于事件分类的交通元数据管理方法。在一个实施例中，如图4所示，所述基于事件分类的交通元数据管理系统1包括交通元数据处理模块11、目标服务器确定模块12以及数据存储复制模块13。其中：

交通元数据处理模块11用于获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据。在一个实施例中，所述交通元数据的属性包括时间、地段和事件类型。所述决策树算法包括C4.5决策树算法。在一个实施例中，选取C4.5决策树算法作为交通事件分类模型，对交通平台中的数据用事故发生的时间(Time)、事故类型或事件类型(Type)、事故发生的地段(Location)这些属性来衡量，确定所述交通元数据属于热点数据或非热点数据。

目标服务器确定模块12，用于根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器。根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括：获取当前所有元数据服务器的状态指标值，并根据所述元数据服务器的状态指标值确定目标服务器；根据所有的目标服务器的状态指标值建立相对优属度矩阵，并对所述相对优属度矩阵进行归一化转化成规范矩阵；利用熵权法计算各个所述状态指标相应的熵权，进而计算得到加权目标优属度矩阵；根据所述加权目标优属度矩阵计算相对优属度向量，从而确定第一目标服务器与第二目标服务器。所述状态指标值包括：CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。

数据存储复制模块13与交通元数据处理模块11和目标服务器确定模块12相连，用于将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。在一个实施例中，所述数据存储复制模块13还用于：当一个元数据服务器满足设定迁移条件时，选出所述元数据服务器中最热的子树数据，将所述最热的子树数据迁移到所述第一目标服务器。所述设定迁移条件包括：所述元数据服务器的CPU利用率大于90％。

在一个实施例中，所述基于事件分类的交通元数据管理系统采用了Ceph系统。Ceph是一个Linux PB级分布式文件系统。Ceph生态系统架构可以划分为四部分：1.Clients:客户端(数据用户)；2.cmds:Metadata server cluster，元数据服务器(缓存和同步分布式元数据)；3.cosd:Object storage cluster，对象存储集群(将数据和元数据作为对象存储，执行其他关键职能)；4.cmon:Cluster monitors，集群监视器(执行监视功能)。ceph的设计架构和实现机制能够保证，在故障发生前后以及故障产生的过程中，系统的性能保持不变。

综上所述，本发明的一种基于事件分类的交通元数据管理方法及系统能够将文件系统的元数据管理策略与交通事件的特点相结合，构建一个交通事件的分类模型，面向智能交通监控平台，进行元数据管理策略的改进和优化。本发明的方案能够实现元数据服务器之间的负载均衡，提高数据检索速度，满足不同用户对不同数据的需求，提高用户访问效率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于事件分类的交通元数据管理方法，其特征在于，所述基于事件分类的交通元数据管理方法包括：

获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据；

根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器；

将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。

2.根据权利要求1所述的基于事件分类的交通元数据管理方法，其特征在于：所述交通元数据的属性包括时间、地段和事件类型。

3.根据权利要求1所述的基于事件分类的交通元数据管理方法，其特征在于：根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括：获取当前所有元数据服务器的状态指标值，并根据所述元数据服务器的状态指标值确定目标服务器；根据所有的目标服务器的状态指标值建立相对优属度矩阵，并对所述相对优属度矩阵进行归一化转化成规范矩阵；利用熵权法计算各个所述状态指标相应的熵权，进而计算得到加权目标优属度矩阵；根据所述加权目标优属度矩阵计算相对优属度向量，从而确定第一目标服务器与第二目标服务器。

4.根据权利要求1所述的基于事件分类的交通元数据管理方法，其特征在于：所述状态指标值包括：CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。

5.根据权利要求1所述的基于事件分类的交通元数据管理方法，其特征在于：所述基于事件分类的交通元数据管理方法还包括：当一个元数据服务器满足设定迁移条件时，选出所述元数据服务器中最热的子树数据，将所述最热的子树数据迁移到所述第一目标服务器。

6.一种基于事件分类的交通元数据管理系统，其特征在于：所述基于事件分类的交通元数据管理系统包括：

交通元数据处理模块，用于获取交通元数据，并根据预设的决策树算法利用所述交通元数据的属性值进行决策，将所述交通元数据分成热点数据或非热点数据；

目标服务器确定模块，用于根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器；

数据存储复制模块，用于将所述热点数据和非热点数据存储到第一目标服务器，将所述热点数据复制到第二目标服务器。

7.根据权利要求6所述的基于事件分类的交通元数据管理系统，其特征在于：所述交通元数据的属性包括时间、地段和事件类型。

8.根据权利要求6所述的基于事件分类的交通元数据管理系统，其特征在于：根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括：获取当前所有元数据服务器的状态指标值，并根据所述元数据服务器的状态指标值确定目标服务器；根据所有的目标服务器的状态指标值建立相对优属度矩阵，并对所述相对优属度矩阵进行归一化转化成规范矩阵；利用熵权法计算各个所述状态指标相应的熵权，进而计算得到加权目标优属度矩阵；根据所述加权目标优属度矩阵计算相对优属度向量，从而确定第一目标服务器与第二目标服务器。

9.根据权利要求6所述的基于事件分类的交通元数据管理系统，其特征在于：所述状态指标值包括：CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。

10.根据权利要求6所述的基于事件分类的交通元数据管理系统，其特征在于：所述数据存储复制模块还用于：当一个元数据服务器满足设定迁移条件时，选出所述元数据服务器中最热的子树数据，将所述最热的子树数据迁移到所述第一目标服务器。