CN116049253A - 一种基于深度学习的车联网数据建模方法与系统 - Google Patents

一种基于深度学习的车联网数据建模方法与系统 Download PDF

Info

Publication number
CN116049253A
CN116049253A CN202211535153.7A CN202211535153A CN116049253A CN 116049253 A CN116049253 A CN 116049253A CN 202211535153 A CN202211535153 A CN 202211535153A CN 116049253 A CN116049253 A CN 116049253A
Authority
CN
China
Prior art keywords
data
internet
vehicles
database
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211535153.7A
Other languages
English (en)
Other versions
CN116049253B (zh
Inventor
顾进峰
卢峰
蒋新星
吕清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tongli Fengda Software Technology Co ltd
Original Assignee
Nanjing Tongli Fengda Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tongli Fengda Software Technology Co ltd filed Critical Nanjing Tongli Fengda Software Technology Co ltd
Priority to CN202211535153.7A priority Critical patent/CN116049253B/zh
Publication of CN116049253A publication Critical patent/CN116049253A/zh
Application granted granted Critical
Publication of CN116049253B publication Critical patent/CN116049253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的车联网数据建模方法与系统,包括:对车联网数据进行数据预处理,将处理完成的数据导入至数据库;利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征;根据数据特征建立基准模型,并对基准模型进行无监督训练;利用基准模型对数据特征进行挖掘分析,生成关联规则;本发明通过数据预处理技术、聚类技术,从多维车联网数据中准确有效地提取出所需的数据特征,进一步地,通过建立基准模型,并结合数据挖掘技术,实现车联网数据自动化分析,提升系统的智能化水平,满足车联网不同数据类型的数据挖掘需求。

Description

一种基于深度学习的车联网数据建模方法与系统
技术领域
本发明涉及车联网数据分析的技术领域,尤其涉及一种基于深度学习的车联网数据建模方法与系统。
背景技术
车联网作为物联网的重要应用,需要充分挖掘其流数据中的关联关系,例如,交通事故黑点分析(交通事故和时间、地段、天气状况等因素之间的关联关系)等。由于车联网的一个很重要的应用就是通过对各种信息进行加工分析,发现异常情况并进行预警。数据挖掘(DateMining)是指从大量的、不完整的、模糊的、随机的数据中提取出隐含的、先前末知的、并有潜在价值的信息和知识的过程。通过使用数据挖掘技术可以从大量的未筛选的数据中发现有价值的,提供给学习者相关的信息和知识。传统数据挖掘算法是基于统计思想进行检测,其存在的问题是需要事先知道数据的分布特征,但是针对车联网数据量大的特点,不可能对全部的历史数据分析其分布特征;另外,现有车联网系统中,车联网产生的数据流具有实时、连续、快速到达等特点,并且有在线分析的应用需求,随着数据规模不断增大,以及终端采集设备的多样性数据格式的差异性等因素,造成现有数据挖掘算法不能对其中的数据进行有效分析和处理。
发明内容
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于深度学习的车联网数据建模方法,能够对不同类型的车联网数据进行自动化处理分析,满足车联网的不同数据类型的数据挖掘需求。
为解决上述技术问题,本发明提供如下技术方案,包括:对车联网数据进行数据预处理,将处理完成的数据导入至数据库;利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征;根据数据特征建立基准模型,并对基准模型进行无监督训练;利用基准模型对数据特征进行挖掘分析,生成关联规则;其中,数据特征包括质量特征、行为特征、参数特征。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述数据预处理包括:计算车联网数据的缺失比例,将缺失比例小于3%和大于80%的车联网数据进行数据预测,根据预测结果补全缺失数据;对车联网数据进行线性变换,获得第一向量集合;并对第一向量集合进行白化和正则化处理,获得第二向量集合;对第二向量集合进行特征值分解,并将分解结果导入数据库。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述聚类包括:将数据库的数据输入到第一树模型,获得初始化聚类的簇;其中,所述第一树模型包括多个数据记录单元、至少一个数据记录数组和子节点指针,所述数据记录数组包括至少一个数据记录单元;所述数据记录数组能够监控数据库中的数据分布Q,并将相同维度的同一数据记录单元中,获得初始化聚类的簇;将初始化聚类的簇输入至降噪编码器进行聚类学习;根据软标签概率P和数据分布Q,软标签概率P用于衡量当前数据属于不同簇的概率,通过KL散度损失对降噪编码器的网络参数进行训练,以优化聚类效果;其中,KL散度损失Loss为:
Loss=KL(P//Q)。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述数据特征包括:质量特征:用于评价车联网数据的时间精度、定位精度、数据准确性和采样频率;行为特征:用于描述车联网用户行为的特征信息;参数特征:包括时间戳、观测时间、经纬度、道路信息、位置信息及交通状态。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述基准模型包括:将数据特征输入至网络模型中,网络模型包括BP神经网络模型、岭回归模型、卷积神经网络模型和生成式对抗网络模型,输出预测结果;求取预测结果的平均值,并取整;根据取整结果计算网络模型的均方根误差,并根据均方根误差的阈值滤除过拟合的网络模型,获得基准模型,所述均方根误差的阈值设为0.01。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述无监督训练包括:将均方根误差的倒数作为基准模型的权重,将基准模型的权重输入到第二树模型,获得初始化聚类的权重簇;其中,所述第二树模型与第一树模型结构相同;将初始化聚类的权重簇输入至降噪编码器进行聚类学习,降噪编码器的每层自编码层单独进行迭代训练,直至达到训练目标,所述训练目标为最小的隐层输出与重构结果之间的误差。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述挖掘分析包括:步骤1:将数据特征划分为候选部分和频繁项集部分,计算候选部分中k项集的支持度;步骤2:通过枝剪过滤不满足最小支持度的项集,得到频繁k项集,并移入频繁项集部分;步骤3:通过全连接获取k+1项集,将k+1项集移入候选部分,令k’=k+1;步骤4:扫描k+1项集中的任意元素,若该元素为k项集中元素a的子集,则元素a的子集计数加1,并计算k+1项集的支持度,若不是,则输出频繁k项集;步骤5:重复执行步骤1至步骤4,直至当前项集的任意元素不为上一项集中元素的子集时停止执行,输出最终频繁k项集,即关联规则。
作为本发明所述的基于深度学习的车联网数据建模方法的一种优选方案,其中:所述数据库为OLAP数据库或时序数据库;OLAP数据库包括接入层、存储层、服务层和应用层,其中,存储层通过nginx代理clickhouse集群;配置时序数据库,将butterflies、honeybees字段设置为tag,将location、scientist字段设置为field,存储引擎为TSM引擎。
作为本发明所述的基于深度学习的车联网数据建模系统的一种优选方案,其中,数据处理模块,用于对车联网数据进行数据预处理,并将处理完成的数据导入至数据库;特征提取模块,与数据处理模块连接,用于利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征;建模模块,与特征提取模块连接,用于根据数据特征建立基准模型;模型训练模块,与建模模块连接,用于对基准模型进行无监督训练;数据挖掘模块,与模型训练模块连接,通过训练完成的基准模型对数据特征进行挖掘分析,生成关联规则。
作为本发明所述的基于深度学习的车联网数据建模系统的一种优选方案,其中,所述数据库为OLAP数据库或时序数据库;OLAP数据库包括接入层、存储层、服务层和应用层。
本发明的有益效果:本发明通过数据预处理技术、聚类技术,从多维车联网数据中准确有效地提取出所需的数据特征,进一步地,通过建立基准模型,并结合数据挖掘技术,实现车联网数据自动化分析,提升系统的智能化水平,满足车联网不同数据类型的数据挖掘需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于深度学习的车联网数据建模方法的挖掘分析流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的第一个实施例,该实施例提供了一种基于深度学习的车联网数据建模方法,包括:
S1:对车联网数据进行数据预处理,将处理完成的数据导入至数据库。
(1)数据预处理;
(a)计算车联网数据的缺失比例,将缺失比例小于3%和大于80%的车联网数据进行数据预测,根据预测结果补全缺失数据;
本实施例通过高斯混合模型、KNN填补法或Gain算法进行数据预测。
(b)对车联网数据进行线性变换,获得第一向量集合;并对第一向量集合进行白化和正则化处理,获得第二向量集合;对第二向量集合进行特征值分解,并将分解结果导入数据库。
较佳的是,本实施例通过对第一向量集合进行白化和正则化处理,能够减少要估计的参数的数量,降低第一向量集合的维度,防止数据过拟合。
为了进一步压缩第二向量集合的信息量,减少模型训练时高维度带来的困扰,本实施例采用主成分分析(PrincipalComponentAnalysis,PCA)算法对第二向量集合进行特征分解,主成分分析算法是一种在尽可能保持原有信息量情况下有效的线性降维方法,主要是通过寻找某种线性投影,将高维的数据映射到低维的空间中表示,目的在所投影的维度上数据的方差最大,从而使得使用较少的数据维度可以最大化保留原数据点的特性。
(2)将处理完成的数据导入至数据库;
为了能更高效低地处理海量车联网数据,本实施例采用的数据库为OLAP数据库或时序数据库;
OLAP数据库包括接入层、存储层、服务层和应用层,其中,存储层通过nginx代理clickhouse集群;OLAP数据库采用列式存储,数据类型一致,压缩性能更高,同时硬件利用率高,提高了磁盘驱动器的效率;
时序数据库具有很强的高并发能力,以实时对大量数据进行计算,在使用前,需对时序数据库进行配置,具体的,首先将butterflies、honeybees字段设置为tag,其次将location、scientist字段设置为field,最后选取TSM引擎作为存储引擎。
TSM引擎主要由四个部分组成:cache、wal、tsmfile、compactor;
cache:插入数据时,先往cache中写入再写入wal中,可以认为cache是wal文件中的数据在内存中的缓存;
wal:预写日志,对比MySQL的binlog,其内容与内存中的cache相同,作用是为了持久化数据,当系统崩溃后可以通过wal文件恢复还没有写入到tsm文件中的数据,当InfluxDB启动时,会遍历所有的wal文件,重新构造cache;
tsmfile:每个tsm文件的大小上限是2GB;当达到cache-snapshot-memory-size,cache-max-memory-size的限制时会触发将cache写入tsm文件;
compactor:主要进行两种操作,一种是cache数据达到阀值后,进行快照,生成一个新的tsm文件;另外一种就是合并当前的tsm文件,将多个小的tsm文件合并成一个,减少文件的数量,并且进行一些数据删除操作。
S2:利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征。
(1)将数据库的数据输入到第一树模型,获得初始化聚类的簇。
第一树模型包括多个数据记录单元、至少一个数据记录数组和子节点指针,数据记录数组包括至少一个数据记录单元;数据记录数组能够监控数据库中的数据分布Q,并将相同维度的同一数据记录单元中,获得初始化聚类的簇;
(2)将初始化聚类的簇输入至降噪编码器进行聚类学习;
(3)根据软标签概率P和数据分布Q,软标签概率P用于衡量当前数据属于不同簇的概率,通过KL散度损失对降噪编码器的网络参数进行训练,以优化聚类效果;
其中,KL散度损失Loss为:
Loss=KL(P//Q)。
(4)获得数据特征,包括质量特征、行为特征、参数特征。
质量特征:用于评价车联网数据的时间精度、定位精度、数据准确性和采样频率;
行为特征:用于描述车联网用户行为的特征信息;
参数特征:包括时间戳、观测时间、经纬度、道路信息、位置信息及交通状态。
较佳的是,本实施例通过建立第一树模型,能够对多维数据组层转换为单维数据进行处理,实现了对多维数据特征的快速提取。
S3:根据数据特征建立基准模型,并对基准模型进行无监督训练。
(1)将数据特征分别输入BP神经网络模型、岭回归模型、卷积神经网络模型和生成式对抗网络模型,输出预测结果;
(2)求取预测结果的平均值,并取整;
(3)根据取整结果计算基准模型的均方根误差,并根据均方根误差的阈值滤除过拟合的网络模型,获得基准模型,均方根误差的阈值设为0.01,其中需要说明的是,均方根误差用于指示模型在预测中会产生的误差。
(4)对基准模型无监督训练:
(a)将均方根误差的倒数作为基准模型的权重,将基准模型的权重输入到第二树模型,获得初始化聚类的权重簇;其中,第二树模型与第一树模型结构相同;
(b)将初始化聚类的权重簇输入至降噪编码器进行聚类学习,降噪编码器的每层自编码层单独进行迭代训练,直至达到训练目标,训练目标为最小的隐层输出与重构结果之间的误差。
通过结合自定义树模型和降噪编码器对基准模型进行训练,有效提高了基准模型的预测准确率和运行速度。
S4:利用基准模型对数据特征进行挖掘分析,生成关联规则。
参照图1,挖掘分析的具体步骤包括:
步骤1:将数据特征划分为候选部分和频繁项集部分,计算候选部分中k项集的支持度;
其中需要说明的是,频繁项集为在数据集中频繁出现的项集,若一个项集中含有k个项目,则称为k项集,若同时满足最小支持度,则该项集为频繁k项集;支持度为数据集中包含该项集的记录所占的比例;本实施例通过设置最小支持度来对关联程度低于阈值的项集进行枝剪。
步骤2:通过枝剪过滤不满足最小支持度的项集,得到频繁k项集,并移入频繁项集部分;
步骤3:通过全连接获取k+1项集,将k+1项集移入候选部分,令k’=k+1;
步骤4:扫描k+1项集中的任意元素,若该元素为k项集中元素a的子集,则元素a的子集计数加1,并计算k+1项集的支持度;若不是,则输出频繁k项集;
步骤5:重复执行步骤1至步骤4,直至当前项集的任意元素不为上一项集中元素的子集时停止执行,输出最终频繁k项集,即关联规则,输出的关联规则供业务人员查看使用。
实施例2
本实施例不同于第一个实施例的是,提供了一种基于深度学习的车联网数据建模系统,包括,
数据处理模块,用于对车联网数据进行数据预处理,并将处理完成的数据导入至数据库;数据库为OLAP数据库或时序数据库;OLAP数据库包括接入层、存储层、服务层和应用层。OLAP数据库采用列式存储,数据类型一致,压缩性能更高,同时硬件利用率高,提高了磁盘驱动器的效率。
特征提取模块,与数据处理模块连接,用于利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征。
建模模块,与特征提取模块连接,用于根据数据特征建立基准模型。
模型训练模块,与建模模块连接,用于对基准模型进行无监督训练。
数据挖掘模块,与模型训练模块连接,通过训练完成的基准模型对数据特征进行挖掘分析,生成关联规则。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度学习的车联网数据建模方法,其特征在于,包括:
对车联网数据进行数据预处理,将处理完成的数据导入至数据库;
利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征;
根据数据特征建立基准模型,并对基准模型进行无监督训练;
利用基准模型对数据特征进行挖掘分析,生成关联规则;
其中,数据特征包括质量特征、行为特征、参数特征。
2.如权利要求1所述的基于深度学习的车联网数据建模方法,其特征在于,所述数据预处理包括:
计算车联网数据的缺失比例,将缺失比例小于3%和大于80%的车联网数据进行数据预测,根据预测结果补全缺失数据;
对车联网数据进行线性变换,获得第一向量集合;并对第一向量集合进行白化和正则化处理,获得第二向量集合;对第二向量集合进行特征值分解,并将分解结果导入数据库。
3.如权利要求2所述的基于深度学习的车联网数据建模方法,其特征在于,所述聚类包括:
将数据库的数据输入到第一树模型,获得初始化聚类的簇;其中,所述第一树模型包括多个数据记录单元、至少一个数据记录数组和子节点指针,所述数据记录数组包括至少一个数据记录单元;所述数据记录数组能够监控数据库中的数据分布Q,并将相同维度的同一数据记录单元中,获得初始化聚类的簇;
将初始化聚类的簇输入至降噪编码器进行聚类学习;
根据软标签概率P和数据分布Q,软标签概率P用于衡量当前数据属于不同簇的概率,通过KL散度损失对降噪编码器的网络参数进行训练,以优化聚类效果;
其中,KL散度损失Loss为:
Loss=KL(P//Q)。
4.如权利要求3所述的基于深度学习的车联网数据建模方法,其特征在于,所述数据特征包括:
质量特征:用于评价车联网数据的时间精度、定位精度、数据准确性和采样频率;
行为特征:用于描述车联网用户行为的特征信息;
参数特征:包括时间戳、观测时间、经纬度、道路信息、位置信息及交通状态。
5.如权利要求4所述的基于深度学习的车联网数据建模方法,其特征在于,所述基准模型包括
将数据特征输入至网络模型中,网络模型包括BP神经网络模型、岭回归模型、卷积神经网络模型和生成式对抗网络模型,输出预测结果;
求取预测结果的平均值,并取整;
根据取整结果计算网络模型的均方根误差,并根据均方根误差的阈值滤除过拟合的网络模型,获得基准模型,所述均方根误差的阈值设为0.01。
6.如权利要求5所述的基于深度学习的车联网数据建模方法,其特征在于,所述无监督训练包括:
将均方根误差的倒数作为基准模型的权重,将基准模型的权重输入到第二树模型,获得初始化聚类的权重簇;其中,所述第二树模型与第一树模型结构相同;
将初始化聚类的权重簇输入至降噪编码器进行聚类学习,降噪编码器的每层自编码层单独进行迭代训练,直至达到训练目标,所述训练目标为最小的隐层输出与重构结果之间的误差。
7.如权利要求1或6所述的基于深度学习的车联网数据建模方法,其特征在于,所述挖掘分析包括:
步骤1:将数据特征划分为候选部分和频繁项集部分,计算候选部分中k项集的支持度;
步骤2:通过枝剪过滤不满足最小支持度的项集,得到频繁k项集,并移入频繁项集部分;
步骤3:通过全连接获取k+1项集,将k+1项集移入候选部分,令k’=k+1;
步骤4:扫描k+1项集中的任意元素,若该元素为k项集中元素a的子集,则元素a的子集计数加1,并计算k+1项集的支持度,若不是,则输出频繁k项集;
步骤5:重复执行步骤1至步骤4,直至当前项集的任意元素不为上一项集中元素的子集时停止执行,输出最终频繁k项集,即关联规则。
8.如权利要求1所述的基于深度学习的车联网数据建模方法,其特征在于,所述数据库为OLAP数据库或时序数据库;
OLAP数据库包括接入层、存储层、服务层和应用层,其中,存储层通过nginx代理clickhouse集群;
配置时序数据库,将butterflies、honeybees字段设置为tag,将location、scientist字段设置为field,存储引擎为TSM引擎。
9.一种基于深度学习的车联网数据建模系统,其特征在于,包括:
数据处理模块,用于对车联网数据进行数据预处理,并将处理完成的数据导入至数据库;
特征提取模块,与数据处理模块连接,用于利用聚类优化算法对处理后的车联网数据进行聚类,获得数据特征;
建模模块,与特征提取模块连接,用于根据数据特征建立基准模型;
模型训练模块,与建模模块连接,用于对基准模型进行无监督训练;
数据挖掘模块,与模型训练模块连接,通过训练完成的基准模型对数据特征进行挖掘分析,生成关联规则。
10.如权利要求9所述的基于深度学习的车联网数据建模系统,其特征在于,所述数据库为OLAP数据库或时序数据库;
OLAP数据库包括接入层、存储层、服务层和应用层。
CN202211535153.7A 2022-11-30 2022-11-30 一种基于深度学习的车联网数据建模方法与系统 Active CN116049253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211535153.7A CN116049253B (zh) 2022-11-30 2022-11-30 一种基于深度学习的车联网数据建模方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211535153.7A CN116049253B (zh) 2022-11-30 2022-11-30 一种基于深度学习的车联网数据建模方法与系统

Publications (2)

Publication Number Publication Date
CN116049253A true CN116049253A (zh) 2023-05-02
CN116049253B CN116049253B (zh) 2023-09-22

Family

ID=86129387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211535153.7A Active CN116049253B (zh) 2022-11-30 2022-11-30 一种基于深度学习的车联网数据建模方法与系统

Country Status (1)

Country Link
CN (1) CN116049253B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281617A (zh) * 2013-07-10 2015-01-14 广州中国科学院先进技术研究所 一种基于领域知识的多层关联规则挖掘方法及系统
CN106844585A (zh) * 2017-01-10 2017-06-13 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN110533112A (zh) * 2019-09-04 2019-12-03 天津神舟通用数据技术有限公司 车联网大数据跨域分析融合方法
CN110633314A (zh) * 2018-06-05 2019-12-31 上海博泰悦臻网络技术服务有限公司 车联网数据处理方法及装置
CN112348068A (zh) * 2020-10-28 2021-02-09 东南大学 一种基于降噪编码器和注意力机制的时序数据聚类方法
CN112612820A (zh) * 2020-12-07 2021-04-06 国网北京市电力公司 数据处理方法及装置、计算机可读存储介质及处理器
GB202114395D0 (en) * 2020-11-12 2021-11-24 Optum Inc Machine learning techniques for predictive prioritization
CN114741603A (zh) * 2022-04-25 2022-07-12 大连理工大学 基于用户聚类和商品聚类的混合协同过滤推荐算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281617A (zh) * 2013-07-10 2015-01-14 广州中国科学院先进技术研究所 一种基于领域知识的多层关联规则挖掘方法及系统
CN106844585A (zh) * 2017-01-10 2017-06-13 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN110633314A (zh) * 2018-06-05 2019-12-31 上海博泰悦臻网络技术服务有限公司 车联网数据处理方法及装置
CN110533112A (zh) * 2019-09-04 2019-12-03 天津神舟通用数据技术有限公司 车联网大数据跨域分析融合方法
CN112348068A (zh) * 2020-10-28 2021-02-09 东南大学 一种基于降噪编码器和注意力机制的时序数据聚类方法
GB202114395D0 (en) * 2020-11-12 2021-11-24 Optum Inc Machine learning techniques for predictive prioritization
CN112612820A (zh) * 2020-12-07 2021-04-06 国网北京市电力公司 数据处理方法及装置、计算机可读存储介质及处理器
CN114741603A (zh) * 2022-04-25 2022-07-12 大连理工大学 基于用户聚类和商品聚类的混合协同过滤推荐算法

Also Published As

Publication number Publication date
CN116049253B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
US10176246B2 (en) Fast grouping of time series
US11841839B1 (en) Preprocessing and imputing method for structural data
CN111445597B (zh) 用于机器学习的数据拼接和整合
CN112835570A (zh) 一种基于机器学习的可视化数学建模方法和系统
Gonzalez-Vidal et al. Beats: Blocks of eigenvalues algorithm for time series segmentation
CN117557414B (zh) 基于遥感图像自动解译的耕地监管方法、装置、设备及存储介质
CN116611546B (zh) 基于知识图谱的目标研究区域滑坡预测方法及系统
CN115775116B (zh) 基于bim的路桥工程管理方法及系统
Gorokhovatskyi et al. Transforming image descriptions as a set of descriptors to construct classification features
CN113420506A (zh) 掘进速度的预测模型建立方法、预测方法及装置
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
CN112580780A (zh) 模型训练的处理方法、装置、设备和存储介质
Jo et al. Disentangled representation of data distributions in scatterplots
CN114792397A (zh) 一种sar影像城市道路提取方法、系统以及存储介质
CN114648060A (zh) 基于机器学习的故障信号规范化处理及分类方法
CN117828280A (zh) 基于物联网的消防信息智能采集及管理方法
CN109344171A (zh) 一种基于数据流处理的非线性系统特征变量显著性挖掘法
CN116049253B (zh) 一种基于深度学习的车联网数据建模方法与系统
DE102023210093A1 (de) System und Verfahren zum effizienten Analysieren und Vergleichen von Maschinenlernmodellen auf Slice-Basis
DE102023210092A1 (de) System und Verfahren für einen Rahmen der visuellen Analytik für Maschinenlernmodelle auf Slice-Basis
CN111339163B (zh) 获取用户流失状态的方法、装置、计算机设备和存储介质
CN110825707B (zh) 数据压缩方法
CN115758266A (zh) 一种用于无人矿卡流式异常数据检测方法
CN114969325A (zh) 一种多要素城市地质大数据存储管理和挖掘分析系统
Yan et al. Cost-sensitive selection of variables by ensemble of model sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant