CN112612820A - 数据处理方法及装置、计算机可读存储介质及处理器 - Google Patents
数据处理方法及装置、计算机可读存储介质及处理器 Download PDFInfo
- Publication number
- CN112612820A CN112612820A CN202011419330.6A CN202011419330A CN112612820A CN 112612820 A CN112612820 A CN 112612820A CN 202011419330 A CN202011419330 A CN 202011419330A CN 112612820 A CN112612820 A CN 112612820A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- prediction
- multidimensional
- distribution network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 124
- 238000007418 data mining Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000002245 particle Substances 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000005065 mining Methods 0.000 claims description 12
- 238000003909 pattern recognition Methods 0.000 claims description 12
- 238000012098 association analyses Methods 0.000 claims description 5
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims 1
- 241001123248 Arma Species 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法及装置、计算机可读存储介质及处理器。其中,该方法包括:获取多个数据源的多维数据;利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果,其中,数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系;利用预测算法对多维数据进行分析预测,构建预测模型,其中,预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型;利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。本发明解决了海量数据的信息深度识别的技术问题。
Description
技术领域
本发明涉及数据领域,具体而言,涉及一种数据处理方法及装置、计算机可读存储介质及处理器。
背景技术
随着数据库系统的广泛应用和网络技术的高速发展,数据库技术也进入了一个全新的阶段,即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多类型的复杂数据,并且数据量也越来越大。数据库在给我们提供丰富信息的同时,也体现出明显的海量信息特征。信息爆炸时代,人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以更好地利用这些数据。海量信息给人们带来许多负面影响,最主要的就是有效信息难以提炼,过多无用的信息必然会产生信息距离和有用知识的丢失,
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及装置、计算机可读存储介质及处理器,以至少解决海量数据的信息深度识别的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,该方法包括:获取多个数据源的多维数据;利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果,其中,数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系;利用预测算法对多维数据进行分析预测,构建预测模型,其中,预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型;利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。
可选地,在利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果之后,方法还包括如下至少之一:基于充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;基于充电桩与配网的关联关系,构建配网评价指标,其中,配网评价指标用于量化车辆充电行为对配网的影响程度。
可选地,数据挖掘算法包括如下之一:粒子群算法、分类预测算法、optics聚类算法、Aprioir关联分析算法。
可选地,预测算法包括如下之一:ARIMA预测算法、基于CAR-LSSVM的事件序列预测算法。
可选地,在获取多个数据源的多维数据之后,该方法还包括:利用第二模式识别算法对多维数据进行分类,得到分类后的多维数据;对分类后的多维数据进行存储,其中,不同类别的多维数据存储的位置不同。
可选地,第二模式识别算法包括如下之一:K-means算法、KNN算法、GMM算法。
根据本发明实施例的另一方面,还提供了一种数据处理装置,该装置包括:获取模块,用于获取多个数据源的多维数据;挖掘模块,用于利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果,其中,数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系;预测模块,用于利用预测算法对多维数据进行分析预测,构建预测模型,其中,预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型;识别模块,用于利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。
可选地,该装置还包括:构建模块,用于基于充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;和/或,基于充电桩与配网的关联关系,构建配网评价指标,其中,配网评价指标用于量化车辆充电行为对配网的影响程度。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述的数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的数据处理方法。
在本发明实施例中,获取多个数据源的多维数据;利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果,利用预测算法对多维数据进行分析预测,构建预测模型,利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。通过模式识别相关算法,从而实现了海量数据归集、分类、分析挖掘的技术效果,进而解决了海量数据的信息深度识别的技术问题。为实现人工智能驱动的电动汽车智慧出行服务提供关键性技术支撑。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据处理方法的流程图;
图2是根据本发明实施例的一种可选的粒子群算法的基本步骤的流程图;
图3是根据本发明实施例的一种数据处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取多个数据源的多维数据。
上述步骤中的多个数据源可以包括:关系型数据库、数据仓库以及实时文件数据。多维数据的获取,可以通过抽取关系型数据库和数据仓库中存储的数据,得到抽取出的数据;之后可以通过一种文件整理处理技术对实时文件数据进行处理,得到处理后的数据;最后基于抽取出的数据和处理后的数据,得到多维数据。
步骤S104,利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果。
其中,数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系。
上述步骤中的数据挖掘算法可以是一种决策支持过程,它主要基于人工智能、机器学习、统计学技术,通过对原始数据自动化的分析处理,做出归纳性的推理,得到数据对象间的关系模式,这些关系模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象,数据挖掘更关注于发现未知的信息。数据挖掘任务可以分两类:描述性和预测性。描述性挖掘任务刻画数据的一般特性,主要基于非监督学习算法;预测性挖掘任务在当前数据上进行推断,以进行预测,一般基于监督学习算法。
在一个可选的实施例中,在智能电动汽车领域,通过对日志、地理位置数据、声音、图片、视频等信息通过数据挖掘算法进行数据挖掘,可以得到充电桩与交通网络的关联关系,充电桩与配网的关联关系,得知上述的关系后,车辆驾驶员可以根据数据挖掘给出的结果,作出合适的判断,极大的提升了用户的体验感。
步骤S106,利用预测算法对多维数据进行分析预测,构建预测模型。
其中,预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型。
上述步骤中的预测算法可以包含,分类分析,找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一;分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。
在一个可选的实施例中,数据挖掘算法可进行研究大规模电动汽车模型,构建包含车辆位置分布、充电预判以及充放电预测等分析模型,为公司进行车联网、电力网、交通网、信息网等,多网融合环境下公司运行规划、经营管理提供辅助决策支撑。
步骤S108,利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。
上述步骤中的第一模式识别算法可以是根据多维数据经过数据挖掘的结果,对多维数据进行识别,其中,识别可以是通过数据挖掘后从一组或多组训练样本中学习获得,从最终根据识别的结果,确定车辆的行驶路径。
在一个可选的实施例中,在电动汽车的应用场景下,首先可以对从数据库中获得的电网业务数据、海量实时数据、日志、地理位置数据、声音、图片、视频等数据处理,并通过数据挖掘算法对其进行关键信息提取及分析,在基于人工智能的模式识别算法下进行相关信息深度识别、感知以及深度挖掘,可以得到充电桩与交通网络的关联关系,充电桩与配网的关联关系等,再通过预测算法对上述数据进行分析预测,可以得到车辆位置分布模型、充放电预测模型等。
在本发明实施例中,获取多个数据源的多维数据;利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果,利用预测算法对多维数据进行分析预测,构建预测模型,利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。通过模式识别相关算法,从而实现了海量数据归集、分类、分析挖掘的技术效果,进而解决了海量数据的信息深度识别的技术问题。为实现人工智能驱动的电动汽车智慧出行服务提供关键性技术支撑。
可选地,在利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果之后,该方法还包括如下至少之一:基于充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;基于充电桩与配网的关联关系,构建配网评价指标,其中,配网评价指标用于量化车辆充电行为对配网的影响程度。
上述步骤中通过数据挖掘算法实现电网数据关联分析及挖掘,通过此可实现充电桩的位置分布与交通网络关系,构建路网模型及各道路拓扑结构,并建立能够充分反映网络规模、道路等级、路段长度、最高限速与通行能力的道路属性;还可以实现充电桩供电特性对配网的关联性影响,构建配网评价体系量化电动汽车充电行为对配网的影响程度。
上述步骤中的拓扑结构可以由神经网络实现,神经网络是目前最常用的网络态势预测和故障概率预测方法之一。该算法用大量的非线性并行处理器来模拟众多的人脑神经元,用处理器间错综灵活的连接关系来模拟人脑神经元间的突触行为,是一种大规模并行的非线性动态系统,它具有高度的非线性运算和映像能力、自学习和自组织能力高速运算能力、能以任意精度逼近函数关系、高度灵活可变的拓扑结构及很强的适应能力等优点,一般适用于中、短期预测,预测精度较高。神经网络具有自学习、自适应性和非线性处理的优点。
BP神经网络的基本思想如下:首先是正向传播,输入层接受样本值,经过各层神经元计算和传播之后,将结果经输出层输出;如果输出的结果与样本期望输出结果相差超出允许范围,就将误差经隐含层向输入层层层传递。在传递的过程中将误差分担给每个神经元,通过获得的误差信号调整各个单元的权值。通过大量的重复以上过程来完成神经网络的学习过程,直到达到终止条件。
BP神经网络通过不断学习来调整神经网络各个神经元之间的参数,使样本输入神经网络之后最大限度的得到符合期望输出的样本的输出。学习的过程可以分为以下两步:第一步,在神经网络结构的输入层输入一系列样本,样本包含两部分,分别是输入和期望的输出,隐含层接收到输入层输入的样本参数之后,进行逐层传播,最后隐含层传播完成之后,经输出层输出结果。第二步:将第一步获取到的输出值与期望的结果进行误差比较,如果误差较大且迭代次数没有达到终止条件,就按原路径反向传播。
可选地,数据挖掘算法包括如下之一:粒子群算法、分类预测算法、optics聚类算法、Aprioir关联分析算法。
上述步骤中的粒子群算法的的主要特征体现在以下几个方面:并行性,可以对群体中的单体同时进行处理;算法简单,参数小。因为粒子群算法使用的是实数编码;由于粒子的随机移动性,因此该算法可以搜索到较为复杂的区域;该算法具有全局和局部的搜索能力;最终结果与粒子的初始位置没有关系,收敛性极好。在粒子群算法中,每个粒子都有作为算法空间范围内的潜在解的可能,而目标函数是判断粒子的优劣程度的准则。粒子群算法被用来解决不可微问题、非线性问题等。分类预测算法可以是K-means和K-medoids两种,K-means算法较适合对规模较大的数据进行聚类分析。K-means算法的基本原理是采用Euclidean距离作为待分类实体间的相似性度量指标,其目标是通过一系列迭代计算得到相对于某初始聚类中心点向量V=(v1,v2,...,vk)T的最优分类,且使目标J的值为最小。用符号和公式,可对K-means算法描述如下:
首先,将待输入算法的数据集合表示为X={xj|xj∈Rn,i=1,2,...,n};
其次,将聚类K个中心分别表示为zj(j=1,2,...,k),而将K个类别表示为wj(j=1,2,...,k);
对于两个数据间的欧氏距离,则定义为:
式中的xi={xi,1,xi,2,...,xi,n}以及xj={xj,1,xj,2,...,xj,n}分别表示两个具有n维属性的数据实体。
于是,类别j的分类中心zj可以用下式表示,
其中,nj为类别j中的实体个数。
则,对于目标函数J有以下等式,
即通过迭代计算,使得该目标函数值最小化,进而使得算法产生K个最优分类。
K-medoids方法是选取聚类中心方法,由通过计算分类中所有数据实体的均值,改为选取分类中的一个具体的数据实体为代表;采用实体间相异性取代基于欧式距离的平方误差函数作为度量两个不同数据实体间差异方法。
optics聚类算法是基于密度的聚类算法,全称是Ordering points to identifythe clustering structure,目标是将空间中的数据按照密度分布进行聚类,optics算法可以获得不同密度的聚类,直接说就是经过optics算法的处理,理论上可以获得任意密度的聚类。因为optics算法输出的是样本的一个有序队列,从这个队列里面可以获得任意密度的聚类。
Apriori关联分析算法有以下几点:第一点,支持度:P(A∩B),既有A又有B的概率;第二点,置信度:P(B|A),在A发生的事件中同时发生B的概率p(AB)/P(A),例如购物篮分析:牛奶面包;第三点,如果事件A中包含k个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集;第四点,同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。
可选地,预测算法包括如下之一:ARIMA预测算法、基于CAR-LSSVM的事件序列预测算法。
上述步骤中的ARIMA预测算法,ARIMA模型全称为自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
在一个可选的实施例,检验标准化处理之后样本是否满足平稳特性,为ARMA准备。即:计算样本自相关和偏自相关函数,观察结尾特性(如果能很明显的确定模型截断数,就可以跳到第三步,直接得到ARIMA模型);利用BIC或者AIC准则进行模型定阶数。(计算量较大),从ARMA(0,1),ARMA(1,0),ARMA(1,1),ARMA(0,2),ARMA(2,0),ARMA(2,2),ARMA(1,2),ARMA(2,1)中选择最小AIC的模型作为最终模型;利用确定的ARMA(p,q)模型进行预测,有一步预测(预测明天的值)和多步预测(预测今后多天的值);预测值进行反标准化处理,恢复原值。
可选地,在获取多个数据源的多维数据之后,该方法还包括:利用第二模式识别算法对多维数据进行分类,得到分类后的多维数据;对分类后的多维数据进行存储,其中,不同类别的多维数据存储的位置不同。
上述步骤中的第二模式识别算法可以是K-means算法、KNN算法、GMM算法等。
在一个可选的实施例中,根据不同的数据类型,可以确定多维数据对应的存储位置,例如,行式存储适合处理结构化数据,若有业务指标数据、业务明细数据、汇总数据等结构化数据,此时当前的多维数据的存储位置就可以是行式存储。
可选地,第二模式识别算法包括如下之一:K-means算法、KNN算法、GMM算法。
上述步骤中的K-means算法把每样本点分为k簇,簇内的样本点具有较高的相似性,而簇间的样本点相似程度较低,相似度的计算是依据簇中样本点距离的平均值来进行的。K-Means算法可以处理大数据集,K-means算法是相对可伸缩的和高效率的,因为它的计算复杂度为O(nkt),其中n为对象个数,k为聚类个数,t为迭代次数,通常有tn,kn,因此它的复杂度通常也用O(n)表示。
K-近邻(K-Nearest Neighbors,KNN)是一种很好理解的分类算法,简单说来就是从训练样本中找出K个与其最相近的样本,然后看这K个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。KNN的思想很好理解,也非常容易实现,同时分类结果较高,对异常值不敏感。但计算复杂度较高,不适于大数据的分类问题。KNN算法步骤:计算已知类别数据集中每个点与当前点的距离;选取与当前点距离最小的K个点;统计前K个点中每个类别的样本出现的频率;返回前K个点出现频率最高的类别作为当前点的预测分类。
GMM算法而在GMM中,我们除了数据的信息,对数据的分类一无所知,因此,在运算时我们不仅需要估算每个数据的分类,还要估算这些估算后数据分类的均值和协方差矩阵。也就是说如果有1000个训练数据10租分类的话,需要求的未知数是1000+10+10(用未知数表示未必确切,确切的说是1000个1x10标志向量,10个与训练数据同维的平均向量,10个与训练数据同维的方阵)。
下面结合图2对本发明一种优选的实施例进行详细说明。如图2所示,是本发明中一种粒子群算法的基本步骤的流程图。
首先,初始化粒子群,设置参数初始值,随机生成r1r2,给粒子赋初速度和初始位置。之后计算每个粒子的适应度值,逐个比较粒子的适应度值和粒子群中所有粒子记录的最优值,如果当前粒子的适应度值相较于整个粒子群的历史最优解要更好,将其作为当前全局最优值,更新最佳适应度值和全局适应度值;接着更新粒子速度和位置;计算粒子的适应度值,重新确定局部最优值和全局最优值;最后判断种群是否满足终止条件,也即是否符合要求或者迭代次数是否满足最大迭代次数,如果不满足就跳转回初始化粒子群重新开始下一轮迭代;如果满足了以上条件,就终止迭代,返回结果。
在一个可选的实施例中,对人工智能的模式识别算法的研究,可对电网业务数据、海量实时数据、日志、地理位置数据、声音、图片、视频等数据处理,并对其进行关键信息提取及分析,在基于人工智能的模式识别算法下进行相关信息深度识别、感知以及深度挖掘,可以实现人工智能驱动的电动汽车智慧出行服务提供关键性技术支撑,能够提高车联网平台服务水平和运营效益,拓展增值服务,实现智慧出行服务。
实施例2
图3是根据本发明实施例的一种数据处理装置的示意图,如图3所示,该装置包括:
根据本发明实施例的另一方面,还提供了一种数据处理装置,该装置包括:
获取模块30,用于获取多个数据源的多维数据。
挖掘模块32,用于利用数据挖掘算法对多维数据进行数据挖掘,得到数据挖掘结果。
其中,数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系。
预测模块34,用于利用预测算法对多维数据进行分析预测,构建预测模型。
其中,预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型。
识别模块36,用于利用第一模式识别算法对多维数据进行识别,确定车辆的行驶路径。
可选地,该装置还包括:构建模块,用于基于充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;和/或,基于充电桩与配网的关联关系,构建配网评价指标,其中,配网评价指标用于量化车辆充电行为对配网的影响程度。
可选地,挖掘模块包括:第一构建单元,用于基于充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;第二构建单元,用于基于充电桩与配网的关联关系,构建配网评价指标,其中,配网评价指标用于量化车辆充电行为对配网的影响程度。
可选地,挖掘模块还包括粒子群算法、分类预测算法、optics聚类算法、Aprioir关联分析算法。
可选地,预测模块还包括ARIMA预测算法、基于CAR-LSSVM的事件序列预测算法。
可选地,该装置还包括:识别模块,用于利用第二模式识别算法对多维数据进行分类,得到分类后的多维数据;存储模块,用于对分类后的多维数据进行存储,其中,不同类别的多维数据存储的位置不同。
可选地,识别模块还包括K-means算法、KNN算法、GMM算法。
实施例3
根据本发明实施例,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述的数据处理方法。
实施例4
根据本发明实施例,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的数据处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取多个数据源的多维数据;
利用数据挖掘算法对所述多维数据进行数据挖掘,得到数据挖掘结果,其中,所述数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系;
利用预测算法对所述多维数据进行分析预测,构建预测模型,其中,所述预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型;
利用第一模式识别算法对所述多维数据进行识别,确定车辆的行驶路径。
2.根据权利要求1所述的方法,其特征在于,在利用数据挖掘算法对所述多维数据进行数据挖掘,得到数据挖掘结果之后,所述方法还包括如下至少之一:
基于所述充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;
基于所述充电桩与配网的关联关系,构建配网评价指标,其中,所述配网评价指标用于量化车辆充电行为对所述配网的影响程度。
3.根据权利要求1所述的方法,其特征在于,所述数据挖掘算法包括如下之一:粒子群算法、分类预测算法、optics聚类算法、Aprioir关联分析算法。
4.根据权利要求1所述的方法,其特征在于,所述预测算法包括如下之一:ARIMA预测算法、基于CAR-LSSVM的事件序列预测算法。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,在获取多个数据源的多维数据之后,所述方法还包括:
利用第二模式识别算法对所述多维数据进行分类,得到分类后的多维数据;
对所述分类后的多维数据进行存储,其中,不同类别的多维数据存储的位置不同。
6.根据权利要求5所述的方法,其特征在于,所述第二模式识别算法包括如下之一:K-means算法、KNN算法、GMM算法。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多个数据源的多维数据;
挖掘模块,用于利用数据挖掘算法对所述多维数据进行数据挖掘,得到数据挖掘结果,其中,所述数据挖掘结果包括如下至少之一:充电桩与交通网络的关联关系,充电桩与配网的关联关系;
预测模块,用于利用预测算法对所述多维数据进行分析预测,构建预测模型,其中,所述预测模型包括如下至少之一:车辆位置分布模型、充放电预测模型;
识别模块,用于利用第一模式识别算法对所述多维数据进行识别,确定车辆的行驶路径。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:构建模块,用于基于所述充电桩与交通网络的关联关系,构建路网模型和道路拓扑结构;和/或,基于所述充电桩与配网的关联关系,构建配网评价指标,其中,所述配网评价指标用于量化车辆充电行为对所述配网的影响程度。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的数据处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419330.6A CN112612820A (zh) | 2020-12-07 | 2020-12-07 | 数据处理方法及装置、计算机可读存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419330.6A CN112612820A (zh) | 2020-12-07 | 2020-12-07 | 数据处理方法及装置、计算机可读存储介质及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112612820A true CN112612820A (zh) | 2021-04-06 |
Family
ID=75229128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419330.6A Pending CN112612820A (zh) | 2020-12-07 | 2020-12-07 | 数据处理方法及装置、计算机可读存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612820A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064794A (zh) * | 2021-12-01 | 2022-02-18 | 国网辽宁省电力有限公司葫芦岛供电公司 | 一种基于大数据技术的业扩报装档案挖掘分析方法 |
CN114756557A (zh) * | 2022-06-15 | 2022-07-15 | 广州晨安网络科技有限公司 | 一种改进型计算机算法模型的数据处理方法 |
CN115100854A (zh) * | 2022-06-17 | 2022-09-23 | 上海市城市建设设计研究总院(集团)有限公司 | 智能网联道路边缘节点的数据存储方法 |
CN116049253A (zh) * | 2022-11-30 | 2023-05-02 | 南京通力峰达软件科技有限公司 | 一种基于深度学习的车联网数据建模方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778263A (zh) * | 2015-04-23 | 2015-07-15 | 储盈新能源科技(上海)有限公司 | 一种电动车充电站系统仿真数据挖掘方法 |
CN104881735A (zh) * | 2015-05-13 | 2015-09-02 | 国家电网公司 | 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法 |
CN106372733A (zh) * | 2016-08-31 | 2017-02-01 | 湖南深拓智能设备股份有限公司 | 柔性充电服务网络、充电方法及线下移动服务方法 |
CN108162771A (zh) * | 2017-11-09 | 2018-06-15 | 贵州电网有限责任公司电力科学研究院 | 一种电动汽车智能充电导航方法 |
-
2020
- 2020-12-07 CN CN202011419330.6A patent/CN112612820A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778263A (zh) * | 2015-04-23 | 2015-07-15 | 储盈新能源科技(上海)有限公司 | 一种电动车充电站系统仿真数据挖掘方法 |
CN104881735A (zh) * | 2015-05-13 | 2015-09-02 | 国家电网公司 | 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法 |
CN106372733A (zh) * | 2016-08-31 | 2017-02-01 | 湖南深拓智能设备股份有限公司 | 柔性充电服务网络、充电方法及线下移动服务方法 |
CN108162771A (zh) * | 2017-11-09 | 2018-06-15 | 贵州电网有限责任公司电力科学研究院 | 一种电动汽车智能充电导航方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064794A (zh) * | 2021-12-01 | 2022-02-18 | 国网辽宁省电力有限公司葫芦岛供电公司 | 一种基于大数据技术的业扩报装档案挖掘分析方法 |
CN114756557A (zh) * | 2022-06-15 | 2022-07-15 | 广州晨安网络科技有限公司 | 一种改进型计算机算法模型的数据处理方法 |
CN115100854A (zh) * | 2022-06-17 | 2022-09-23 | 上海市城市建设设计研究总院(集团)有限公司 | 智能网联道路边缘节点的数据存储方法 |
CN116049253A (zh) * | 2022-11-30 | 2023-05-02 | 南京通力峰达软件科技有限公司 | 一种基于深度学习的车联网数据建模方法与系统 |
CN116049253B (zh) * | 2022-11-30 | 2023-09-22 | 南京通力峰达软件科技有限公司 | 一种基于深度学习的车联网数据建模方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112612820A (zh) | 数据处理方法及装置、计算机可读存储介质及处理器 | |
CN111291678B (zh) | 一种基于多特征融合的人脸图像聚类方法及装置 | |
Rostami et al. | A novel method of constrained feature selection by the measurement of pairwise constraints uncertainty | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
CN113269647A (zh) | 基于图的交易异常关联用户检测方法 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN113435101A (zh) | 一种基于粒子群优化的支持向量机停电预测方法 | |
Zheng et al. | Modeling stochastic service time for complex on-demand food delivery | |
CN115691140B (zh) | 一种汽车充电需求时空分布的分析与预测方法 | |
Wang et al. | Dynamic traffic prediction based on traffic flow mining | |
Li et al. | Recidivism early warning model based on rough sets and the improved K-prototype clustering algorithm and a back propagation neural network | |
CN115730248A (zh) | 一种机器账号检测方法、系统、设备及存储介质 | |
KR102395876B1 (ko) | 딥러닝을 이용하여 유사한 이미지를 필터링할 수 있는 상품 분류 시스템 및 방법 | |
CN113407808A (zh) | 图神经网络模型适用性判定方法、装置和计算机设备 | |
Zhang et al. | Rough neural network modeling based on fuzzy rough model and its application to texture classification | |
CN113256024A (zh) | 一种融合群体行为的用户行为预测方法 | |
CN114625952A (zh) | 一种基于VSM和AMMK-means的信息推荐方法及系统 | |
Sharma | Congestion aware traffic prediction system based on pipelined time variant feature selection for improving transportation of real time service | |
Sridhar et al. | Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning | |
Karimi et al. | An improved K-Means with artificial bee colony algorithm for clustering crimes | |
Umer | Learning Extreme Verification Latency Quickly with Importance Weighting: FAST COMPOSE & LEVELIW | |
CN117132958B (zh) | 道路要素识别方法及相关装置 | |
Iranzamini et al. | Driver behavior profiling on smartphone data using machine learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |