CN106126328A - 一种基于事件分类的交通元数据管理方法及系统 - Google Patents
一种基于事件分类的交通元数据管理方法及系统 Download PDFInfo
- Publication number
- CN106126328A CN106126328A CN201610471006.6A CN201610471006A CN106126328A CN 106126328 A CN106126328 A CN 106126328A CN 201610471006 A CN201610471006 A CN 201610471006A CN 106126328 A CN106126328 A CN 106126328A
- Authority
- CN
- China
- Prior art keywords
- server
- traffic
- data
- hot spot
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 44
- 238000003066 decision tree Methods 0.000 claims abstract description 29
- 238000010187 selection method Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000010076 replication Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
- G06F9/4856—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
- G06F9/4862—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于事件分类的交通元数据管理方法及系统。其中,所述基于事件分类的交通元数据管理方法包括:获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据;根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器;将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。本发明的方案能够实现元数据服务器之间的负载均衡,提高数据检索速度,满足不同用户对不同数据的需求,提高用户访问效率。
Description
技术领域
本发明涉及一种计算机数据管理技术,特别是涉及一种基于事件分类的交通元数据管理方法及系统。
背景技术
在智能交通系统中,每天源源不断地产生不同种类的交通数据,例如来自道路摄像头的监控视频信和图像数据、来自交通路网传感器的交通流量和道路占有率数据、来自交通管理部门的交通违规和事故数据等。数据的规模达到了TB甚至PB级,数据类型种类繁多,主要有,并且,交通数据有一定的特征,例如道路交通数据除时间特性外还具有很强的空间特性;道路交通流信息存在实时性的特点,短期内信息会迅速膨胀;交通事故多发于早晚高峰时间、节假日以及车流量大的地区等。目前海量数据存储系统大多采用了对象存储技术,将数据和描述数据的元数据分开存储,引入了元数据服务器,在基于对象的空间数据的存储架构中,元数据的访问达到了50%~80%,元数据的操作占文件系统中所有文件操作的50%,由此可见,元数据服务器的性能成为决定系统性能的关键因素。由于交通数据具有来源广泛、数据规模庞大、形式多样、异构性和多层次的特点,以及不同用户对不同数据的需求不同,现有的元数据管理策略存在着元数据服务器之间负载不均衡和数据检索速度低等问题,最终导致用户访问的延迟,不能很好地应用于智能交通平台。
鉴于此,如何找到方便用户快捷有效访问的交通数据管理方案就成了本领域技术人员亟待解决的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于事件分类的交通元数据管理方法及系统,用于解决现有技术中交通元数据服务器之间负载不均衡和数据检索速度低等问题。
为实现上述目的及其他相关目的,本发明提供一种基于事件分类的交通元数据管理方法,所述基于事件分类的交通元数据管理方法包括:获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据;根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器;将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。
可选地,所述交通元数据的属性包括时间、地段和事件类型。
可选地,所述决策树算法包括C4.5决策树算法。
可选地,根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括:获取当前所有元数据服务器的状态指标值,并根据所述元数据服务器的状态指标值确定目标服务器;根据所有的目标服务器的状态指标值建立相对优属度矩阵,并对所述相对优属度矩阵进行归一化转化成规范矩阵;利用熵权法计算各个所述状态指标相应的熵权,进而计算得到加权目标优属度矩阵;根据所述加权目标优属度矩阵计算相对优属度向量,从而确定第一目标服务器与第二目标服务器。
可选地,所述状态指标值包括:CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。
可选地,所述基于事件分类的交通元数据管理方法还包括:当一个元数据服务器满足设定迁移条件时,选出所述元数据服务器中最热的子树数据,将所述最热的子树数据迁移到所述第一目标服务器。
可选地,所述设定迁移条件包括:所述元数据服务器的CPU利用率大于90%。
本发明提供一种基于事件分类的交通元数据管理系统,所述基于事件分类的交通元数据管理系统包括:交通元数据处理模块,用于获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据;目标服务器确定模块,用于根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器;数据存储复制模块,用于将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。
可选地,所述交通元数据的属性包括时间、地段和事件类型。
可选地,所述决策树算法包括C4.5决策树算法。
可选地,根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括:获取当前所有元数据服务器的状态指标值,并根据所述元数据服务器的状态指标值确定目标服务器;根据所有的目标服务器的状态指标值建立相对优属度矩阵,并对所述相对优属度矩阵进行归一化转化成规范矩阵;利用熵权法计算各个所述状态指标相应的熵权,进而计算得到加权目标优属度矩阵;根据所述加权目标优属度矩阵计算相对优属度向量,从而确定第一目标服务器与第二目标服务器。
可选地,所述状态指标值包括:CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。
可选地,所述数据存储复制模块还用于:当一个元数据服务器满足设定迁移条件时,选出所述元数据服务器中最热的子树数据,将所述最热的子树数据迁移到所述第一目标服务器。
可选地,所述设定迁移条件包括:所述元数据服务器的CPU利用率大于90%。
如上所述,本发明的一种基于事件分类的交通元数据管理方法及系统,具有以下有益效果:能够将文件系统的元数据管理策略与交通事件的特点相结合,构建一个交通事件的分类模型,面向智能交通监控平台,进行元数据管理策略的改进和优化。本发明的方案能够实现元数据服务器之间的负载均衡,提高数据检索速度,满足不同用户对不同数据的需求,提高用户访问效率。
附图说明
图1显示为本发明的基于事件分类的交通元数据管理方法的一实施例的流程示意图。
图2显示为本发明的基于事件分类的交通元数据管理方法的另一实施例的交通元数据分类示意图。
图3显示为本发明的基于事件分类的交通元数据管理方法的另一实施例的流程示意图。
图4显示为本发明的基于事件分类的交通元数据管理系统的一实施例的模块示意图。
元件标号说明
1 基于事件分类的交通元数据管理系统
11 交通元数据处理模块
12 目标服务器确定模块
13 数据存储复制模块
S1~S3 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明采用了一种被广泛使用的分类算法——决策树,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。决策树(decision tree)是一个树结构,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策树的构造过程不依赖领域知识,它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂自己尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况:1,属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。2,属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试,按照“属于此子集”和“不属于此子集”分成两个分支。3,属性是连续值。此时确定一个值作为分裂点split_point,按照>split_point和<=split_point生成两个分支。
构造决策树的关键性内容是进行属性选择度量,属性选择度量是一种选择分裂准则,是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法,它决定了拓扑结构及分裂点split_point的选择。属性选择度量算法有很多,一般使用自顶向下递归分治法,并采用不回溯的贪心策略。决策树C4.5是在ID3决策树的基础之上稍作改进,C4.5克服了ID3的2个缺点:1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性。2.不能处理连贯属性。
本发明还涉及到模糊优选法。模糊优选法通过相对优属度的概念建立了模糊优选模型,模型中每一个指针的权重确定采用了主客观综合考虑的综合赋权法,使得权重的取值更科学合理。模糊优选法的过程如下:1,建立目标特征值矩阵;2,通过规格化公式确定目标相对优属度矩阵;3,权重向量的确定—综合法。4,模糊优选方案的确定。
本发明提供一种基于事件分类的交通元数据管理方法。在一个实施例中,如图1所示,所述基于事件分类的交通元数据管理方法包括:
步骤S1,获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据。在一个实施例中,所述交通元数据的属性包括时间、地段和事件类型。所述决策树算法包括C4.5决策树算法。
在一个实施例中,选取C4.5决策树算法作为交通事件分类模型,对交通平台中的数据用事故发生的时间(Time)、事故类型或事件类型(Type)、事故发生的地段(Location)这些属性来衡量,确定所述交通元数据属于热点数据或非热点数据。具体地,先对事故发生的时间(Time)进行离散化:
先将时间(time属性)以一小时为单位等分化,分为k个区间。计算每个区间的Gini系数:m为类别数目,T为训练样集本,pi为类别ci在样本集T中出现的频率。合并相邻的区间,计算Gini系数,若Gini(k′)<Gini(K),则停止合并。按照以上方法可以将时间属性划分为几个区间。
对于事故发生的地段(Location)这个属性,有多个取值,会产生多个分支,对于决策树而言,叶节点越少分类精度高,分支的过多可能会产生过拟合的现象,而且使得决策树的规模过于庞大,预测能力降低,为此要进行分支的合并,对于地段这个属性我们采取计算其各个属性值的熵,如果两个熵的差绝对值小于一定的阈值(本发明取0.001),则将两个分支合并。
根据获取的交通数据的样本集S={x1,x2,x3,…,xm},其中样本S的属性集A={A1,A2,…,Am},根据Am的不同取值可以将样本划分为k个子集C1,…,Ck。
根据数据集S的属性集A进行划分得到信息熵:
Pi=|Ci|/|S|(1≤i≤k),根据属性集A的每个属性进行划分,得到一组信息熵:
根据以上两者的差可以得到A的信息增益:
gain(A)=info(S)-infoA(S)
信息增益率的计算:
其中
最后将同父节点下的具有相同值的叶子节点合并。
在一个实施例中,交通事件分类模型的建立以北京某一天的交通数据为例,进行整理后得到以下数据(部分)
首先进行时间段的合并
现将时间按一小时为间隔进行划分,等分为24个小时。
计算每个区间的Gini系数,例如7:00至8:00时间段内,出现了交通拥堵的数量为1,其余为0,整个数据集的交通拥堵数量为5,所以p1=1/5,该区间的Gini=1-1/25=24/25,同样计算其他区间的gini系数,当相邻的Gini系数相加的值大于原先的值,那么合并该区间,否则停止合并。
得到如下结果:
7:01-10:00 10:01-13:00 13:01-15:00 15:01-17:00 17:01-19:00 19:00-7:00
共划分以上几个时间段
交通数据集S的属性集{A1,A2,A3},A1=时间,A2=地段,A3=事件类型;
数据集S中包含10条数据,其中yes为6,no为4,
其信息熵为info(s)=-6/10*log2(6/10)-4/10log2(4/10)=0.707564
计算每个属性的信息熵
Info(time)=4/10*(-2/4*log2(2/4)-2/4*log2(2/4))+2/10*(-1/2*log2(1/2)-1/2*log2(1/2))+2/10*(-1/2*log2(1/2)-1/2*log2(1/2))+1/10*(-1/1*log2(1/1))+1/10*(-1/1*log2(1/1))
Info(location)=2/10*(-2/2*log2(2/2))+3/10*(-3/3*log2(3/3))+3/10*(-1/3*log2(1/3)-2/3*log2(2/3))+2/10*(-2/2*log2(2/2))
Info(type)=5/10*(-2/5*log2(2/5)-3/5*log2(3/5))+5/10*(-2/5*log2(2/5)-3/5*(log2(3/5))
计算每个属性的信息增益:
Gain(time)=info(s)-info(time)
Gain(Location)=info(s)-info(Location)
Gain(type)=info(s)-info(type)
计算每个属性的分裂信息度
Split_info(time)=-4/10*log2(4/10)-2/10*log2(2/10)-2/10*log2(2/10)-1/10*log2(1/10)-1/10*log2(1/10)
Split_info(Location)=-2/10*log2(2/10)-3/10*log2(3/10)-3/10*log2(3/10)-2/10*log2(2/10)
Split_info(type)=-5/10*log2(5/10)-5/10*log2(5/10)
计算每个属性的信息增益率
IGR(time)=Gain(time)/Split_info(time)=0.01276
IGR(location)=Gain(location)/Split_info(location)=0.07823
IGR(type)=Gain(type)/Split_info(type)=0.15234
由计算结果得出type的值最大,所以为首个分裂节点。
因为type={交通事故、拥堵}所以type会衍生出两个分支。同理在道路拥堵的这条分支下,我们再选取所有的道路拥堵的数据,表中有5条数据,则这五条数据组成新的数据集,再次进行如上的计算,选取下一个分裂的节点,进行分裂。最后将相同结果的分支进行合并,如Location进行分裂时,按照表中的数据则会分裂成四个分支,二环、三环、四环、五环。但是四环五环的结果相同都为no,所以进行了合并。以此类推,最后结果呈现如图2所示。该结果就将作为交通事件的分类模型,对后续上传的数据进行分类,将交通元数据分类成热点数据和非热点数据。
步骤S2,根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器。根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括:获取当前所有元数据服务器的状态指标值,并根据所述元数据服务器的状态指标值确定目标服务器;根据所有的目标服务器的状态指标值建立相对优属度矩阵,并对所述相对优属度矩阵进行归一化转化成规范矩阵;利用熵权法计算各个所述状态指标相应的熵权,进而计算得到加权目标优属度矩阵;根据所述加权目标优属度矩阵计算相对优属度向量,从而确定第一目标服务器与第二目标服务器。所述状态指标值包括:CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。
在一个实施例中,根据模糊优选法选出目标服务器集合的具体实现步骤如下:
判断服务器的CPU利用率、内存利用率。当CPU利用率和内存利用率都小于90%,则将该服务器加入候选节点服务器(S1,S2…Sn),即目标服务器集。
考虑服务器中的以下6个指标进行优选:
元数据总热度P(O1);
传输成本cost(O2):两台MDS之间传输数据花费的代价,可以通过手动配置直接设定;
CPU的利用率(O3):t时间内CPU的平均利用率;
内存的利用率(O4):t时间内内存的平均利用率;
I/O(O5):t时间内的平均I/O;
带宽(O6):t时间内平均带宽利用率。
建立相对优属度矩阵
其中,Xij为对象j目标i的特征值。为了消除m个目标特征值不同的影响,需要对各目标值进行归一化,转化为规范矩阵R=(rij)m×n。本文选用成本型指标,相对优属度公式为
其中,sup(Xij),inf(Xij)分别为该指标下不同服务器的指标值Xij中的最大值和最小值,rij为对象j目标i对优的隶属度。矩阵X的相对优属度矩阵为
利用熵权法计算各指标的相应的权重向量
计算第i个指标下第j个项目的指标值的比重fij;
计算第i个指标的熵值Hi;
计算第i个指标的熵权wi
从而得到了目标权重向量
ω=(ω1,ω2,ω3,ω4,ω5,ω6)T
根据求得的相对优属度矩阵R和目标权重向量ω,计算加权目标优属度矩阵:
其中Sij=ωirij
定义相对理想方案与负理想方案的相对优属度向量分别为
最优相对优属度g=(g1,g2,…g6)T=(1,1,…,1)T
考虑到目标的权重,则加权理想解为:
gω+=(g1 ω+,g2 ω+,…,g6 ω+)T=(ω1,ω2,…,ω6)T
最劣相对优属度b=(b1,b2,…b6)T=(0,0,…,0)T
系统有目标优属度矩阵R,对象j的目标优属度向量为rj=(r1j,r2j,…,r6j)T,与其相对应的加权优属度向量为sj=(s1j,s2j,…,s6j)T
权距优距离
其中,p为距离参数,p=1为汉明距离,p=2为欧式距离。
权距劣距离
为解出系统中的uj的最优值,建立目标函数
即对象j的权距优距离平方和权劣距离平方和的总和最小。求解得uj的最优值的计算公式为
j=1,2,…n,Sij=ωirij
解得相对优属度向量为u=(u1,u2,…,un),最后得到候选服务器的优劣顺序。
具体地,在一个实施例中,假设有4台服务器s1,s2,s3,s4。在t时刻收集每台服务器的状态
服务器名称 | Cpu利用率 | 内存利用率 | i/o | 带宽 | 元数据总热度 | 传输成本 |
S1 | 30% | 50% | 10% | 200M | 10 | 1 |
S2 | 40% | 40% | 5% | 100M | 20 | 2 |
S3 | 50% | 60% | 3% | 200M | 40 | 2 |
S4 | 60% | 70% | 5% | 100M | 50 | 3 |
将cpu和内存的利用率小于90%的服务器加入候选节点,s1,s2,s3,s4均在候选节点中。
建立相对优属度矩阵:
转化为规范矩阵:
各个指标对应的权重向量:
W=(0.9816,0.9816,0.9277,0.9652,0.9154,0.9849)T;
加权目标优属度矩阵:
计算相对优属度向量
U=(0.62810,0.88039,0.35228,0.26323)
由此得出目标服务器的顺序为(s2,s1,s3,s4)。即s2为第一目标服务器,s1为第二目标服务器。
步骤S3,将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。在一个实施例中,在t时刻上传一部分交通数据,我们将首先对这部分交通数据根据以上所建立的分类模型进行分类,分为热点和非热点数据,然后将得到的热点数据进行复制一份,将这些复制的数据分布到由模糊优选法得出的目标服务器列表中的第二台服务器上,热点和非热点的原始数据都将被存储到第一台选出的服务器上。
在一个实施例中,所述基于事件分类的交通元数据管理方法还包括:当一个元数据服务器满足设定迁移条件时,选出所述元数据服务器中最热的子树数据,将所述最热的子树数据迁移到所述第一目标服务器。所述设定迁移条件包括:所述元数据服务器的CPU利用率大于90%。在一个实施例中,如图3所示,基于事件分类的交通元数据管理方法的实施步骤主要包括:MDS(元数据服务器)定期上报,由Monitor(监视器)对元数据服务器的状态指标值进行收集。当检测到元数据服务器的CPU或内存利用率>90%时,将该元数据服务器加入到目标服务器集中作为候选节点,并通过模糊优选法选择出第一目标服务器与第二目标服务器。接收交通事件元数据,并采用C采取C4.5决策树作为交通事件的分类模型对交通事件进行分类,将交通事件元数据分成热点数据与非热点数据。将交通事件元数据(包括热点数据与非热点数据)存储到第一目标服务器中,将选出的热点数据复制到第二目标服务器中。针对CPU或者内存利用率<=90%的元数据服务器,进行子树迁移。确定所述元数据服务器中最热的子树数据并将所述最热的子树数据迁移到第一目标服务器中。
本发明提供一种基于事件分类的交通元数据管理系统,所述基于事件分类的交通元数据管理系统可以采用如上所述的所述基于事件分类的交通元数据管理方法。在一个实施例中,如图4所示,所述基于事件分类的交通元数据管理系统1包括交通元数据处理模块11、目标服务器确定模块12以及数据存储复制模块13。其中:
交通元数据处理模块11用于获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据。在一个实施例中,所述交通元数据的属性包括时间、地段和事件类型。所述决策树算法包括C4.5决策树算法。在一个实施例中,选取C4.5决策树算法作为交通事件分类模型,对交通平台中的数据用事故发生的时间(Time)、事故类型或事件类型(Type)、事故发生的地段(Location)这些属性来衡量,确定所述交通元数据属于热点数据或非热点数据。
目标服务器确定模块12,用于根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器。根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括:获取当前所有元数据服务器的状态指标值,并根据所述元数据服务器的状态指标值确定目标服务器;根据所有的目标服务器的状态指标值建立相对优属度矩阵,并对所述相对优属度矩阵进行归一化转化成规范矩阵;利用熵权法计算各个所述状态指标相应的熵权,进而计算得到加权目标优属度矩阵;根据所述加权目标优属度矩阵计算相对优属度向量,从而确定第一目标服务器与第二目标服务器。所述状态指标值包括:CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。
数据存储复制模块13与交通元数据处理模块11和目标服务器确定模块12相连,用于将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。在一个实施例中,所述数据存储复制模块13还用于:当一个元数据服务器满足设定迁移条件时,选出所述元数据服务器中最热的子树数据,将所述最热的子树数据迁移到所述第一目标服务器。所述设定迁移条件包括:所述元数据服务器的CPU利用率大于90%。
在一个实施例中,所述基于事件分类的交通元数据管理系统采用了Ceph系统。Ceph是一个Linux PB级分布式文件系统。Ceph生态系统架构可以划分为四部分:1.Clients:客户端(数据用户);2.cmds:Metadata server cluster,元数据服务器(缓存和同步分布式元数据);3.cosd:Object storage cluster,对象存储集群(将数据和元数据作为对象存储,执行其他关键职能);4.cmon:Cluster monitors,集群监视器(执行监视功能)。ceph的设计架构和实现机制能够保证,在故障发生前后以及故障产生的过程中,系统的性能保持不变。
综上所述,本发明的一种基于事件分类的交通元数据管理方法及系统能够将文件系统的元数据管理策略与交通事件的特点相结合,构建一个交通事件的分类模型,面向智能交通监控平台,进行元数据管理策略的改进和优化。本发明的方案能够实现元数据服务器之间的负载均衡,提高数据检索速度,满足不同用户对不同数据的需求,提高用户访问效率。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于事件分类的交通元数据管理方法,其特征在于,所述基于事件分类的交通元数据管理方法包括:
获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据;
根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器;
将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。
2.根据权利要求1所述的基于事件分类的交通元数据管理方法,其特征在于:所述交通元数据的属性包括时间、地段和事件类型。
3.根据权利要求1所述的基于事件分类的交通元数据管理方法,其特征在于:根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括:获取当前所有元数据服务器的状态指标值,并根据所述元数据服务器的状态指标值确定目标服务器;根据所有的目标服务器的状态指标值建立相对优属度矩阵,并对所述相对优属度矩阵进行归一化转化成规范矩阵;利用熵权法计算各个所述状态指标相应的熵权,进而计算得到加权目标优属度矩阵;根据所述加权目标优属度矩阵计算相对优属度向量,从而确定第一目标服务器与第二目标服务器。
4.根据权利要求1所述的基于事件分类的交通元数据管理方法,其特征在于:所述状态指标值包括:CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。
5.根据权利要求1所述的基于事件分类的交通元数据管理方法,其特征在于:所述基于事件分类的交通元数据管理方法还包括:当一个元数据服务器满足设定迁移条件时,选出所述元数据服务器中最热的子树数据,将所述最热的子树数据迁移到所述第一目标服务器。
6.一种基于事件分类的交通元数据管理系统,其特征在于:所述基于事件分类的交通元数据管理系统包括:
交通元数据处理模块,用于获取交通元数据,并根据预设的决策树算法利用所述交通元数据的属性值进行决策,将所述交通元数据分成热点数据或非热点数据;
目标服务器确定模块,用于根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器;
数据存储复制模块,用于将所述热点数据和非热点数据存储到第一目标服务器,将所述热点数据复制到第二目标服务器。
7.根据权利要求6所述的基于事件分类的交通元数据管理系统,其特征在于:所述交通元数据的属性包括时间、地段和事件类型。
8.根据权利要求6所述的基于事件分类的交通元数据管理系统,其特征在于:根据元数据服务器的状态指标值采用模糊优选法确定第一目标服务器以及第二目标服务器的具体实现包括:获取当前所有元数据服务器的状态指标值,并根据所述元数据服务器的状态指标值确定目标服务器;根据所有的目标服务器的状态指标值建立相对优属度矩阵,并对所述相对优属度矩阵进行归一化转化成规范矩阵;利用熵权法计算各个所述状态指标相应的熵权,进而计算得到加权目标优属度矩阵;根据所述加权目标优属度矩阵计算相对优属度向量,从而确定第一目标服务器与第二目标服务器。
9.根据权利要求6所述的基于事件分类的交通元数据管理系统,其特征在于:所述状态指标值包括:CPU利用率、内存利用率、IO利用率、带宽利用率、元数据总热度以及传输成本的任一组合。
10.根据权利要求6所述的基于事件分类的交通元数据管理系统,其特征在于:所述数据存储复制模块还用于:当一个元数据服务器满足设定迁移条件时,选出所述元数据服务器中最热的子树数据,将所述最热的子树数据迁移到所述第一目标服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610471006.6A CN106126328B (zh) | 2016-06-24 | 2016-06-24 | 一种基于事件分类的交通元数据管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610471006.6A CN106126328B (zh) | 2016-06-24 | 2016-06-24 | 一种基于事件分类的交通元数据管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126328A true CN106126328A (zh) | 2016-11-16 |
CN106126328B CN106126328B (zh) | 2019-08-02 |
Family
ID=57268976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610471006.6A Active CN106126328B (zh) | 2016-06-24 | 2016-06-24 | 一种基于事件分类的交通元数据管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126328B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107196962A (zh) * | 2017-06-30 | 2017-09-22 | 郑州云海信息技术有限公司 | 一种用户访问控制方法及系统 |
CN108966448A (zh) * | 2018-05-31 | 2018-12-07 | 淮阴工学院 | 一种基于自适应模糊决策树的灯光动态调控方法 |
CN109035763A (zh) * | 2018-07-02 | 2018-12-18 | 东南大学 | 基于c4.5的高速公路事故主次因分析及事故类型判断方法 |
CN109409430A (zh) * | 2018-10-26 | 2019-03-01 | 江苏智通交通科技有限公司 | 交通事故数据智能分析与综合应用系统 |
CN113257000A (zh) * | 2021-02-19 | 2021-08-13 | 中用科技有限公司 | 一种道路黑冰智能化检测预警系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050015377A1 (en) * | 2002-11-12 | 2005-01-20 | Oracle International Corporation | Method and system for metadata reconciliation in a data warehouse |
CN101034406A (zh) * | 2007-04-04 | 2007-09-12 | 同济大学 | 基于分布式体系结构的多元数据源交通信息融合方法 |
CN101872451A (zh) * | 2009-10-30 | 2010-10-27 | 北京交通大学 | 基于多元数据的交警个体执勤微观行为分析方法 |
CN101901345A (zh) * | 2009-05-27 | 2010-12-01 | 复旦大学 | 一种差异蛋白质组学的分类方法 |
CN103281355A (zh) * | 2013-05-02 | 2013-09-04 | 同济大学 | 基于模糊决策的服务器推送方法 |
CN103927591A (zh) * | 2014-03-24 | 2014-07-16 | 北京交通大学 | 一种城市轨道交通应急疏散优化方法及系统 |
US20160021237A1 (en) * | 2013-04-01 | 2016-01-21 | Tata Consultancy Services Limited | System and method for power effective participatory sensing |
-
2016
- 2016-06-24 CN CN201610471006.6A patent/CN106126328B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050015377A1 (en) * | 2002-11-12 | 2005-01-20 | Oracle International Corporation | Method and system for metadata reconciliation in a data warehouse |
CN101034406A (zh) * | 2007-04-04 | 2007-09-12 | 同济大学 | 基于分布式体系结构的多元数据源交通信息融合方法 |
CN101901345A (zh) * | 2009-05-27 | 2010-12-01 | 复旦大学 | 一种差异蛋白质组学的分类方法 |
CN101872451A (zh) * | 2009-10-30 | 2010-10-27 | 北京交通大学 | 基于多元数据的交警个体执勤微观行为分析方法 |
US20160021237A1 (en) * | 2013-04-01 | 2016-01-21 | Tata Consultancy Services Limited | System and method for power effective participatory sensing |
CN103281355A (zh) * | 2013-05-02 | 2013-09-04 | 同济大学 | 基于模糊决策的服务器推送方法 |
CN103927591A (zh) * | 2014-03-24 | 2014-07-16 | 北京交通大学 | 一种城市轨道交通应急疏散优化方法及系统 |
Non-Patent Citations (4)
Title |
---|
HAMID KIAVARZ MOGHADDAM,XIN WANG: "Vehicle Accident Severity Rules Mining Using Fuzzy Granular Decision Tree", 《RSCTC 2014: ROUGH SETS AND CURRENT TRENDS IN COMPUTING》 * |
LIN WANG,XUAN ZHOU,RENTAO GU: "Traffic classification using cost based decision tree", 《PROCEEDINGS OF 2011 INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 * |
王国利,梁国华,吕涑琦: "基于改进定权法的多目标模糊优选模型及其应用", 《水资源与水工程学报》 * |
简祯富,许嘉裕: "《大数据分析与数据挖掘》", 31 March 2016 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107196962A (zh) * | 2017-06-30 | 2017-09-22 | 郑州云海信息技术有限公司 | 一种用户访问控制方法及系统 |
CN107196962B (zh) * | 2017-06-30 | 2020-05-29 | 郑州云海信息技术有限公司 | 一种用户访问控制方法及系统 |
CN108966448A (zh) * | 2018-05-31 | 2018-12-07 | 淮阴工学院 | 一种基于自适应模糊决策树的灯光动态调控方法 |
CN109035763A (zh) * | 2018-07-02 | 2018-12-18 | 东南大学 | 基于c4.5的高速公路事故主次因分析及事故类型判断方法 |
CN109409430A (zh) * | 2018-10-26 | 2019-03-01 | 江苏智通交通科技有限公司 | 交通事故数据智能分析与综合应用系统 |
WO2020083400A1 (zh) * | 2018-10-26 | 2020-04-30 | 江苏智通交通科技有限公司 | 交通事故数据智能分析与综合应用系统 |
CN109409430B (zh) * | 2018-10-26 | 2021-07-13 | 江苏智通交通科技有限公司 | 交通事故数据智能分析与综合应用系统 |
CN113257000A (zh) * | 2021-02-19 | 2021-08-13 | 中用科技有限公司 | 一种道路黑冰智能化检测预警系统及方法 |
CN113257000B (zh) * | 2021-02-19 | 2022-10-25 | 中用科技有限公司 | 一种道路黑冰智能化检测预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106126328B (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kahraman et al. | Hospital location selection using spherical fuzzy TOPSIS | |
Zhou et al. | Foresee urban sparse traffic accidents: A spatiotemporal multi-granularity perspective | |
CN106126328A (zh) | 一种基于事件分类的交通元数据管理方法及系统 | |
Wang et al. | GSNet: Learning spatial-temporal correlations from geographical and semantic aspects for traffic accident risk forecasting | |
Hu et al. | Distance indexing on road networks | |
Ning et al. | Modeling precursors for event forecasting via nested multi-instance learning | |
Guo et al. | Influence maximization in trajectory databases | |
Li et al. | A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks | |
Valverde-Rebaza et al. | Link prediction in complex networks based on cluster information | |
CN102737126A (zh) | 云计算环境下的分类规则挖掘方法 | |
Pan et al. | Mining regular behaviors based on multidimensional trajectories | |
Terekhov et al. | Forecasting a global air passenger demand network using weighted similarity-based algorithms | |
Liu et al. | Vulnerability of road networks | |
Cacheda et al. | Performance analysis of distributed information retrieval architectures using an improved network simulation model | |
Shi et al. | RUTOD: real-time urban traffic outlier detection on streaming trajectory | |
Wang et al. | Abnormal trajectory detection based on geospatial consistent modeling | |
Yang et al. | EWNStream+: Effective and real-time clustering of short text streams using evolutionary word relation network | |
Cunningham et al. | Assessing network representations for identifying interdisciplinarity | |
Xia et al. | Cost-effective and adaptive clustering algorithm for stream processing on cloud system | |
Huang et al. | Towards progressive and load balancing distributed computation: a case study on skyline analysis | |
Zhou et al. | Refined taxi demand prediction with ST-Vec | |
Sakai et al. | Emergency situation awareness during natural disasters using density-based adaptive spatiotemporal clustering | |
Tu et al. | A spatio-temporal decision support framework for large scale logistics distribution in the metropolitan area | |
Feng et al. | Urban Traffic Congestion Identification Based on Adaptive Graph Convolutional Network | |
Guo et al. | Classification of the Road Network Vulnerability Based on Fuzzy Clustering Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |