CN116166978A - 一种用于供应链管理的物流数据压缩存储方法 - Google Patents
一种用于供应链管理的物流数据压缩存储方法 Download PDFInfo
- Publication number
- CN116166978A CN116166978A CN202310436262.1A CN202310436262A CN116166978A CN 116166978 A CN116166978 A CN 116166978A CN 202310436262 A CN202310436262 A CN 202310436262A CN 116166978 A CN116166978 A CN 116166978A
- Authority
- CN
- China
- Prior art keywords
- data
- sub
- path
- time sequence
- paths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013068 supply chain management Methods 0.000 title claims abstract description 22
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000013144 data compression Methods 0.000 title abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 42
- 238000007906 compression Methods 0.000 claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 19
- 238000003064 k means clustering Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 39
- 238000009826 distribution Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 230000000877 morphologic effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及用于电子数字数据处理技术领域,具体涉及一种用于供应链管理的物流数据压缩存储方法,包括:获取物流运输工具的速度时序数据中每个数据点的SBN路径,通过每个数据点的SBN路径获取偏离程度,并以此确定数据点的变点程度,通过相邻的相似数据段之间的形态差异获取速度时序数据中的变点,通过变点对速度时序数据进行分割,将分割后的子序列进行聚类,获取到每个子序列的符号映射。本发明通过数据点的局部分布信息,对数据点的离群性获取进行优化,消除数据中的离群点,根据保留的速度时序数据中的状态变化点,更精确地进行速度时序数据分割,达到在压缩之后可以提取到更准确的物流信息。
Description
技术领域
本发明涉及电子数字数据处理技术领域,具体涉及一种用于供应链管理的物流数据压缩存储方法。
背景技术
在通过物流数据进行供应链管理的过程中,需要实时获取运输工具位置和状态数据,其中包括,运输工具位置和状态数据包括运输工具的当前位置、速度、油耗、温度、湿度等信息。这些数据可以用于优化物流运输计划,提高物流运输效率和减少成本。对于设定好的采样间隔,这些数据可以形成时序数据用于分析。对于实时采集的运输工具位置和状态数据因为其数据量大,所以需要对其进行压缩存储。
在对运输工具状态数据进行压缩的过程中,运输工具的实时速度,油耗,温度,湿度数据都是时序数据,可以通过SAX算法(符号聚合压缩)对时序数据进行压缩,从而降低存储成本;在通过SAX符号聚合压缩方法对用于供应链管理的物流数据中运输工具的实时信息时序数据进行压缩的过程中需要对长时序数据进行分段。为保证时间序列的分段可以保证子序列具有在长时序中相同的数据模态,子序列的划分能够保留原时序的更可能多的特征,即当出现连续的具有相同特征的数据点将其划分为同一个子序列,当出现时序数据状态变化时,及时进行子序列分割,可以通过基于滑动窗口的自适应分段方法进行子序列划分。在对子序列划分的过程中因为需要通过分段将运输工具的不同状态进行划分,如运输货车在城市内的行驶速度与在高速公路上的行驶速度,或是在省道的行驶速度都是不同的,需要将时序数据分段为不同的状态。
在通过基于滑动窗口的自适应分段方法进行子序列划分时,需要对时序数据中的变点进行检测,从而确定物流数据中运输工具的状态变化。对于采集到的物流数据中的离群点,因为数据中存在着一些因为运输工具碰到特殊情况的变化点(如急刹车等),所以对于数据规律发生变化的数据点的检测还需要通过离群点的前后变化情况进行确定。
发明内容
本发明提供一种用于供应链管理的物流数据压缩存储方法,以解决现有的问题。
本发明的一种用于供应链管理的物流数据压缩存储方法采用如下技术方案:
本发明提供了一种用于供应链管理的物流数据压缩存储方法,该方法包括以下步骤:
获取物流运输工具的行驶速度数据,记为速度时序数据;
获取速度时序数据中所有数据点的SBN路径,将SBN路径中相邻数据点之间形成的路径记为子路径,将所有数据点的SBN路径中的任意一个子路径记为目标子路径,获得若干个目标子路径;将形成目标子路径的两个数据点在速度行驶数据中的欧式距离记为链接距离,根据子路径的链接距离的大小获得偏离程度;
将目标子路径之间偏离程度的差异记为第一变点因子,根据目标子路径的第一变点因子的正负获取速度时序数据中目标子路径对应数据点的数量获得第一数量,将第一数量与目标子路径在所有数据点的SBN路径中出现的总次数之间的比例关系记为第一变点程度;
将目标子路径在各个数据点的SBN路径中出现的次数,与所有SBN路径所有子路径的数量之间的比例关系记为第一概率,将目标子路径的第一概率的熵值记为状态稳定程度;
根据目标子路径的状态稳定程度对偏离程度的乘积校正结果获得目标子路径的第二变点程度,获得若干个目标子路径的第二变点程度;
将形成目标子路径的两个数据点中时间值最大的数据点作为目标子路径对应的数据点,根据若干个数据点对应目标子路径的第二变点程度的大小,获得多个变点;
利用多个变点将速度时序数据划分为多个速度时序数据的若干个速度时序子序列,将这些速度时序子序列进行聚类获得速度时序子序列的聚类簇,将各个速度时序子序列的聚类簇进行符号映射,将速度时序数据表示为一个符号序列并获得符号映射表,实现对基于速度时序数据的物流数据的压缩存储。
进一步的,所述偏离程度,获取方法如下:
其中,表示在第i个数据点中的第j个子路径的链接距离在全部子路径中的偏离
程度,表示速度时序数据中所有数据点对应SBN路径的第j个子路径的链接距离,表示
第i个数据点的SBN路径的平均链接距离;表示速度时序数据中第i个数据点对应的K距
离邻域范围中包含的所有子路径的集合。
进一步的,所述第一变点程度,获取方法如下:
其中,表示第j个子路径的第一变点程度,表示含有第j个子路径的路径
对应数据点的数量,表示第一变点因子,第一数量表示所有数据点对应的
子路径中满足条件的数据点的数量,表示在第i个数据点中的第j个子路径的链
接距离在全部子路径中的偏离程度,表示在第i+1个数据点中的第j个子路径的链接
距离在全部子路径中的偏离程度。
进一步的,所述状态稳定程度,获取方法如下:
进一步的,所述第二变点程度,获取方法如下:
进一步的,所述实现对基于速度时序数据的物流数据的压缩存储,获取方法如下:
预设变点阈值,将子路径对应的数据点中第二变点程度大于预设变点阈值的数据点作为变点,获得若干个变点,通过变点将速度时序数据划分为若干个速度时序子序列;
预设K-means聚类算法中K参数,通过K-means聚类将相似的速度时序子序列划分为同一类,获得若干个速度时序子序列的聚类簇,获取各聚类簇中速度时序子序列的方差和均值的特征值;
预设与K-means聚类算法中K值相同数量的字符作为映射符号,将同一类的速度时序子序列用相同的符号进行映射,将K个映射符号分别分配给速度时序子序列,同一个聚类簇中的速度时序子序列的映射符号相同,获得每个子序列的符号映射结果和符号映射表,由速度时序子序列的符号映射结果构成速度时序数据的符号序列,完成符号映射,最后实现利用SAX时序压缩算法对对基于速度时序数据的物流数据的压缩存储;
在进行解压缩数据时,根据符号映射表将映射符号和还原为若干个速度时序子序列的聚类簇,根据各聚类簇中速度时序子序列的方差和均值的特征值还原速度时序子序列。
本发明的技术方案的有益效果是:
(1)基于本发明所述的通过数据点的局部分布信息,即运输工具的运输速度状态变化信息对数据点的离群性进行优化,消除数据中的离群点,保留时序数据中的状态变化点。并通过状态变化点进行时间序列的分割,完成符号聚合压缩。
(2)基于本发明所述的通过运输工具的运输状态数据变化点进行时序数据的分割相较于传统的时间分段法对时序的分割。可以根据运输工具的运输状态更精确地进行分割,从而保证每一个子序列中的数据处于相同的运输状态。达到在压缩之后对于物流数据的后续分析可以提取到更准确的物流信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种用于供应链管理的物流数据压缩存储方法的步骤流程图;
图2为SBN路径示意图;
图3为SBN路径中的子路径示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于供应链管理的物流数据压缩存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于供应链管理的物流数据压缩存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于供应链管理的物流数据压缩存储方法的步骤流程图,该方法包括以下步骤:
步骤S001,通过物流运输工具的速度传感器获取待压缩存储的运输工具实时的速度时序数据。
对于供应链管理中的物流运输工具(如货车、卡车等运输车),通过无线通信技术将按照固定采样频率利用霍尔式车速传感器实时采集获取物流运输工具的运输速度时序数据,将采集到的速度时序数据上传到云端服务器,云端服务器在获取到运输工具的运输速度时序数据之后,首先对其进行缺失值检测和处理,具体预处理方法为:
由于运输速度时序数据是以固定频率采集,通过检测运输速度时序数据中相邻数据点的时间间隔,当时间间隔不符合采样频率时,该时间点对应的数据判定为数据缺失;
对于数据缺失部分通过其左右时间点下不存在数据缺失得相邻数据点的均值作为数据缺失部分的数据点的数值,实现对数据缺失部分的补充,获得完整的运输速度时序数据,记为速度时序数据。
至此,通过运输工具(如货车、卡车等运输车)的霍尔式车速传感器的监测数据获取到待压缩存储的速度时序数据。
步骤S002,根据速度时序数据中数据点的SBN路径获得第一变点程度。
SBN路径为集合链接最近距离路径。在供应链管理的过程中,通常对历史的运输工具速度时序数据进行分析,根据分析结果进行供应链风险管理与路线优化等操作;另外,因为运输工具的运输状态数据中存在着大量的冗余数据,如运输货车在高速公路上匀速行驶,这些冗余数据不加以压缩会造成企业的存储成本增高。为了降低存储成本并且能够保留运输工具的状态数据特征以便后续的分析与使用,需要对运输工具的状态数据进行压缩存储,本实施例中仅针对运输工具的速度时序数据进行压缩以作为示例。
通常利用SAX算法对速度时序数据进行压缩时,需要将采集到的速度时序数据进行时序分段,为保证压缩后的数据中保留更多的可用于后续分析的数据,就需要在时序分段的过程中对于不同的速度状态进行准确的划分,只有对速度时序数据划分准确才能够保证在压缩的过程中减少损失。
在对速度时序数据进行分段时,需要获取速度时序数据中的速度状态发生变化的数据点,简称为变点,作为对速度时序数据进行分段的分段点。对于变点的获取可以通过时序数据中的离群点检测。需要说明的是,因为运输工具的运输速度因为一些突然情况如急刹车等会在速度时序数据中呈现为离群点,但是运输工具的速度很快又会恢复为之前的速度,则在速度突变又恢复时出现的数据就是离群点;而所述的变点为,当运输工具从之前的速度发生变化,并以变化后的速度行驶,在这个速度发生变化的过程中即出现了速度状态的变化,因此变点就是过程中速度状态发生变化的数据点;所以对于运输工具的运输速度时序数据中,变点是离群点,但是离群点并不全是变点。
本实施例对于分割点的确定,首先通过每个数据点的K距离邻域中的连接路径获取每个数据点的SBN路径进行离群因子检测,之后通过SBN路径中的链接距离确定K距离邻域中其他数据点的路径偏离程度。对于一个数据点通过其所在其他数据点的K距离邻域中进行整体偏离程度的获取之后,通过数据点的K距离邻域中的反向K距离邻域中数据点的SBN路径的差异进行数据点模态变化的对比,以此获取数据点的变点程度。最后通过设定变点程度的阈值来获取时序数据中所有的变点,获取变点后,通过变点对时序进行分割,因为该方法所获取的变点是更加细节的,为保证压缩率,需要进一步将所有子序列进行聚类,以此将时序数据中的全部子序列划分为不同的簇类,并将每个簇类映射为不同的符号,完成符号聚合压缩。
步骤(1),预设COF算法中用于离群点检测的K值参数,并获取速度时序数据中每个数据点的SBN路径。其中,COF算法为异常值检测算法。
对于待压缩的物流运输工具的速度时序数据,根据对分割精度的需求设定COF算
法(即基于连通性的离群因子检测算法)中K距离邻域的K值,K值越大,则对于时序数据的分
割精度就越高,对应的对于时序数据的压缩精度更高,但是就会存在计算量更高,本实施例
设定,对于实际使用场景可以根据计算量与压缩精度的衡量可以进行K值的调整。
确定K值之后,对于时序数据中的每一个数据点获取其基于K距离邻域中各数据点的SBN路径,对于任意一个数据点,确定其在时序数据中的K距离邻域范围内的数据点。需要说明的是,利用COF算法获取的速度时序数据中每一个数据点都有一个SBN路径,而对于每一个数据点的SBN路径,都对应着以该数据点为起始点与其他数据点,根据COF算法获取的顺序进行排列,共同组成的数据点序列,数据点序列中相邻数据点之间的欧式距离又组成了对应的链接距离序列,即链接距离序列中各序列元素表示SBN路径中每两个相邻数据点之间的欧氏距离,记为链接距离,则SBN路径中两个相邻数据点形成一个子路径,每一个子路径对应一个链接距离;另外,将速度时序数据中任意两个数据点在SBN路径中所形成的子路径作为在速度时序数据中时间靠后的数据点的子路径,则每一个数据点都对应有一个子路径;
在该SBN路径中,每一个箭头指向都存在着一个链接距离,那么该SBN路径中存在
多个子路径;以数据点P的SBN路径其中的子路径为例,则该子路径由数据点和
组成,而数据点相对于的时间更靠后,则子路径为数据点所对应的子路径,同
样的,可以获得所有数据点所对应的子路径。
另外,在速度时序数据中,所有数据点的SBN路径的所有子路径,将这些子路径中的第j个子路径记为目标子路径j,则目标子路径j对应的链接距离的计算方法为:
至此,获取物流运输工具的速度时序数据中每个数据点的SBN路径,与SBN路径中子路径对应的链接距离。
步骤(2),根据每个数据点的SBN路径获取其中数据点的路径偏离程度以及每个数据点在路径中的变点程度。
在传统的离群因子中,是通过每一个数据点的局部平均链接距离,即一个数据点的SBN路径中的所有子路径的平均链接距离,与该数据点的K距离邻域中的其他数据点的SBN路径对应的局部平均链接距离的平均距离进行比较获取到离群因子。但是在这个过程中传统的离群因子计算只是通过一个数据点与周围数据点的偏离情况进行数据点的离群判断。在对运输工具的运输速度时序数据进行变点判断时,一个数据点的离群情况并不是最重要的,更重要的是一个数据点的周围数据点的链接距离差异情况,当一个数据点与周围数据点的链接距离差异越大,这个数据点成为对速度时序数据进行分割的变点的可能性就越高,反之可能性就越低,将数据点成为对速度时序数据进行分割的变点的可能性记为变点程度。
对于速度时序数据中每两个连续数据点之间的距离,通过包含目标子路径j的全
部SBN路径,以及每个SBN路径中该子路径对应链接距离,在其中的子路径对应链接距离的
偏离程度变化情况,获取该子路径的第一变点程度,则第一变点程度的获取方法为:
其中,表示第j个子路径的第一变点程度,表示速度时序数据中所有数据点对
应SBN路径的第j个子路径的链接距离,表示第i个数据点的SBN路径的平均链接距离;
表示在第i个数据点中的第j个子路径的链接距离在全部子路径中的偏离程度,表示
在第i+1个数据点中的第j个子路径的链接距离在全部子路径中的偏离程度,表示速度
时序数据中第i个数据点对应的K距离邻域范围中包含的所有子路径的集合;表示含有第
j个子路径的路径对应数据点的数量,表示第一变点因子,第一数量表
示所有数据点对应的子路径中满足条件的数据点的数量。
对于物流运输工具的速度时序数据中的第j个子路径,根据SBN路径中第j个子路径的偏离程度作为衡量标准,对于j来说对于在这个路径两侧的数据点如果从左到右(时间方向)路径j在这些数据点的SBN路径中的偏离程度越来越低,则说明该子路径两侧的子路径出现了时序数据状态上的变化。
在图3中,运输工具的运输速度数据点从左半部分链接距离是偏小的,而右侧的数
据点之间的链接距离是偏大的,那么对于子路径j,图3中从左到右都是SBN路径中包括子路
径j的数据点,那么就可以通过子路径j在这些数据点中所代表的不同情况的变化对子路径
的数据点的变点程度进行确定,当子路径j对于从左到右数据点的偏离程度越来越小的话
则说明,在左侧数据点的SBN路径中,子路径j是偏离的,但是越往右侧,子路径j的偏离程度
越低。那么就可以通过包括子路径的数据点i的SBN路径中j的偏离程度随着时间方向越来
越小的数量表征,也就是根据满足条件的数据点的数量的占比,来衡量子路径对
应的数据点的变点程度的衡量。
通过在不同数据点的SBN路径中,根据同一个子路径的偏离程度的变化情况,确定子路径对应数据点的第一变点程度,相较于传统的通过离群因子检测方法对离群点的检测,再进一步判断速度时序数据中的变点。本实施例通过可以反映运输工具速度时序数据中的速度状态变化情况的变点,以此准确地对子路径两侧出现的速度状态变化进行判断,以更准确地确定速度时序数据的分割点。
在获取速度时序数据中所有数据点的变点程度之后,需要说明的是,在物流运输工具处于速度变化不稳定的状态时,通过子路径的偏离程度对数据点的变点程度的衡量是不准确的,如,物流运输工具在城市中进行运输时,因为城市中的交通情况是多变的,并且运输工具在整个物流运输过程中会多次经过城市区域,那么这一部分的物流运输工具速度状态如果通过子路径的偏离程度进行状态变化的判断会因为城市中的交通不确定性将这一种运输状态分割为不同状态的数据点。所以在上述计算子路径偏离程度的过程中,需要进一步考虑到当物流运输工具在一个速度变化混乱的状态时,对于偏离程度的准确判断。
步骤S003,利用SBN路径中子路径的位置变化情况获得的状态稳定程度,优化调节第一变点程度获得第二变点程度。
根据上述分析已知在物流运输工具的速度时序数据中,一个子路径对应速度时序
数据中两个数据点,则将不同数据点的SBN路径中由相同两个数据点对应的子路径视为同
一个子路径,则在不同数据点的SBN路径中的同一个子路径存在两种分布情况,即一种情况
为相同子路径在多个数据点的SBN路径中所处位置多样(即相同子路径对应的数据点在多
个数据点的SBN路径中,在相同位置处,较低频次地出现),另一种情况为相同子路径在多个
数据点的SBN路径中所处位置同一性较高(即相同子路径对应的数据点在多个数据点的SBN
路径中,在相同位置处,较高频次地出现)。当相同子路径在所有数据点的SBN路径中,所处
位置的同一性较高,则说明这个子路径对应的数据点在速度时序数据中所在的一定范围内
是一个速度存在稳定变化的范围;而如果相同子路径对应的数据点在所有数据点的SBN路
径中所处的位置多样,则说明在子路径对应的数据点在速度时序数据中的一定范围内数据
点的变化状态是更偏向于随机的。综上,通过第个子路径所处的SBN路径中位置变化情况
获取这个子路径的状态稳定程度,并通过该子路径的状态稳定程度对子路径的偏离程度
进行优化,获取到可以准确识别子路径状态的第二变点程度。
另外,获取速度时序数据中所有数据点对应SBN路径中每一个子路径在各个数据点对应SBN路径中的位置,将相同子路径在同一位置中出现的频次与所有数据点对应SBN路径中子路径的总数之间的比值作为对应的相同子路径位于该位置的概率。
状态稳定程度的获取方法为:
在获取到子路径的状态稳定程度之后,通过其对子路径的偏离程度进行优化,当状态稳定程度越高时,则说明偏离程度的衡量越有效,状态稳定程度越低时,说明偏离程度的衡量需要越小,以保证不会获取到错误的变点。
第二变点程度的获取方法为:
至此,通过每个数据点的SBN路径获取其中数据点的路径偏离程度,获取到每个数据点的第二变点程度。
步骤S004,根据第二变点程度的大小对速度时序数据划分获得若干子序列数据,利用SAX算法获得所有子序列数据的映射符号,通过符号映射结果对速度时序数据进行压缩存储。
在获取到整个物流运输工具运输速度时序数据中每个数据点的变点程度之后,通
过设定变点阈值,将数据点作为变点,则获取到数据中的全部变点。通过
变点将速度时序数据划分为若干个速度时序子序列。在这些速度时序子序列中,如果直接
通过符号映射进行符号序列压缩,会因为子序列过多,并且其中存在着相似的子序列,会导
致压缩率低。
为保证更好地对速度时序数据进行压缩,本实施例通过结合聚类的方法进一步提高压缩效率,具体步骤包括:
首先,设定K-means聚类算法中K=26,通过K-means聚类将速度时序子序列进行划分聚类,同一聚类簇的速度时序子序列相似程度较高,获得26个速度时序子序列的聚类簇,同时获取各聚类簇中速度时序子序列的方差、均值,将各聚类簇中速度时序子序列的方差和均值作为速度时序子序列的降维结果,完成速度时序子序列的降维;
然后,将26个英文字母A-Z作为映射符号,将同一类的速度时序子序列用相同的符号进行映射,将26个英文字母分别分配给26类速度时序子序列,同一个聚类簇中的速度时序子序列的映射符号相同,每个映射符号都对应一个方差和均值,将获取到每个子序列的方差、均值与子序列的映射符号之间的映射关系,作为符号映射表,最终得到速度时序数据的符号序列,完成符号映射;
最后,通过上述聚类以及符号映射获得的结果,获取到每个子序列对应的映射符号之后,整个速度时序数据就可以表示为一个符号序列,并获得符号映射表,在数据存储的过程中,数值型数据为双精度浮点数据,将其转换为符号序列之后可以节省大量的存储空间。对于每个符号对应的速度时序子序列特征,通过单独的对应关系表进行存储;
另外,在进行压缩数据还原时,根据符号映射表将每个符号对应的方差和均值还原出来,并根据方差和均值绘制曲线,将曲线绘制结果作为速度时序数据的数据解压缩结果,实现根据符号序列以及符号映射表将速度时序数据的还原。
至此,完成对用于供应链管理的基于速度时序数据的物流数据的压缩存储。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种用于供应链管理的物流数据压缩存储方法,其特征在于,该方法包括以下步骤:
获取物流运输工具的行驶速度数据,记为速度时序数据;
获取速度时序数据中所有数据点的SBN路径,将SBN路径中相邻数据点之间形成的路径记为子路径,将形成子路径的两个数据点在速度行驶数据中的欧式距离记为链接距离,根据子路径的链接距离的大小获得偏离程度;将所有数据点的SBN路径中的任意一个子路径记为目标子路径;
将子路径之间偏离程度的差异记为第一变点因子,将目标子路径的第一变点因子的正负获取速度时序数据中子路径对应数据点的数量记为第一数量,将第一数量与子路径在所有数据点的SBN路径中出现的总次数之间的比例关系记为第一变点程度;
将子路径在各个数据点的SBN路径中出现的次数,与所有SBN路径所有子路径的数量之间的比例关系记为第一概率,将子路径的第一概率的熵值记为状态稳定程度;
根据子路径的状态稳定程度对第一变点程度的乘积校正结果获得目标子路径的第二变点程度,获得所有子路径的第二变点程度;
将形成子路径的两个数据点中时间值最大的数据点作为子路径对应的数据点,根据若干个数据点对应子路径的第二变点程度的大小,获得多个变点;
利用多个变点将速度时序数据划分为多个速度时序数据的若干个速度时序子序列,将速度时序子序列进行聚类获得速度时序子序列的聚类簇,将各个速度时序子序列的聚类簇进行符号映射,将速度时序数据表示为一个符号序列并获得符号映射表,实现对基于速度时序数据的物流数据的压缩存储。
6.根据权利要求1所述一种用于供应链管理的物流数据压缩存储方法,其特征在于,所述实现对基于速度时序数据的物流数据的压缩存储,获取方法如下:
预设变点阈值,将子路径对应的数据点中第二变点程度大于预设变点阈值的数据点作为变点,获得若干个变点,通过变点将速度时序数据划分为若干个速度时序子序列;
预设K-means聚类算法中K参数,通过K-means聚类将相似的速度时序子序列划分为同一类,获得若干个速度时序子序列的聚类簇,获取各聚类簇中速度时序子序列的方差和均值的特征值;
预设与K-means聚类算法中K值相同数量的字符作为映射符号,将同一类的速度时序子序列用相同的符号进行映射,将K个映射符号分别分配给速度时序子序列,同一个聚类簇中的速度时序子序列的映射符号相同,每一个映射符号都对应一个方差和均值,获得每个子序列的符号映射结果和符号映射表,由速度时序子序列的符号映射结果构成速度时序数据的符号序列,完成符号映射,最后实现利用SAX时序压缩算法对对基于速度时序数据的物流数据的压缩存储;
在进行解压缩数据时,根据符号映射表将映射符号和还原为若干个速度时序子序列的聚类簇,根据各聚类簇中速度时序子序列的方差和均值的特征值还原速度时序子序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436262.1A CN116166978B (zh) | 2023-04-23 | 2023-04-23 | 一种用于供应链管理的物流数据压缩存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436262.1A CN116166978B (zh) | 2023-04-23 | 2023-04-23 | 一种用于供应链管理的物流数据压缩存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116166978A true CN116166978A (zh) | 2023-05-26 |
CN116166978B CN116166978B (zh) | 2023-07-25 |
Family
ID=86422170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310436262.1A Active CN116166978B (zh) | 2023-04-23 | 2023-04-23 | 一种用于供应链管理的物流数据压缩存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116166978B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304898A (zh) * | 2023-05-15 | 2023-06-23 | 北京信息科技大学 | 基于机器学习的传感器数据智能存储系统 |
CN116612641A (zh) * | 2023-07-19 | 2023-08-18 | 天津中德应用技术大学 | 基于智能网联的车辆队列控制数据处理方法 |
CN117235557A (zh) * | 2023-11-14 | 2023-12-15 | 山东贺铭电气有限公司 | 基于大数据分析的电气设备故障快速诊断方法 |
CN117743870A (zh) * | 2024-02-20 | 2024-03-22 | 山东齐鸿工程建设有限公司 | 一种基于大数据的水利数据管理系统 |
CN118509561A (zh) * | 2024-07-17 | 2024-08-16 | 国网江西省电力有限公司信息通信分公司 | 基于视频的全链路监测方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330030A (zh) * | 2017-06-23 | 2017-11-07 | 南京师范大学 | 一种面向海量路网数据压缩存储的层次网络构建方法 |
KR20190083268A (ko) * | 2018-01-03 | 2019-07-11 | 한국교통연구원 | 위치 정보를 이용한 분석용 경로 데이터 생성 방법과, 생성 시스템과, 위치 정보를 이용한 분석용 경로 데이터 생성 서비스를 운영하는 방법 및 운영 시스템 |
CN110477956A (zh) * | 2019-09-27 | 2019-11-22 | 哈尔滨工业大学 | 一种基于超声图像引导的机器人诊断系统的智能扫查方法 |
CN112762941A (zh) * | 2021-01-04 | 2021-05-07 | 金陵科技学院 | 一种基于移动行为特征的轨迹压缩方法 |
CN112766300A (zh) * | 2020-12-07 | 2021-05-07 | 北京航空航天大学 | 一种航空大数据预处理技术 |
CN113849471A (zh) * | 2021-09-26 | 2021-12-28 | 中国联合网络通信集团有限公司 | 数据压缩方法、装置、设备及存储介质 |
CN114077926A (zh) * | 2021-11-18 | 2022-02-22 | 阿里云计算有限公司 | 航行轨迹预测方法、计算机存储介质及程序产品 |
CN114330583A (zh) * | 2021-12-31 | 2022-04-12 | 四川大学 | 一种异常用电识别方法和异常用电识别系统 |
CN114580934A (zh) * | 2022-03-10 | 2022-06-03 | 新疆大学 | 基于无监督异常检测的食品检测数据风险的早预警方法 |
CN115329910A (zh) * | 2022-10-17 | 2022-11-11 | 南通坤鹏科技有限公司 | 一种企业生产排放数据智能处理方法 |
CN115459782A (zh) * | 2022-08-29 | 2022-12-09 | 北京思维实创科技有限公司 | 基于时序分割和聚类的工业物联网高频数据压缩方法 |
CN115514376A (zh) * | 2022-08-29 | 2022-12-23 | 北京思维实创科技有限公司 | 基于改进符号聚合近似的高频时序数据压缩方法及装置 |
-
2023
- 2023-04-23 CN CN202310436262.1A patent/CN116166978B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330030A (zh) * | 2017-06-23 | 2017-11-07 | 南京师范大学 | 一种面向海量路网数据压缩存储的层次网络构建方法 |
KR20190083268A (ko) * | 2018-01-03 | 2019-07-11 | 한국교통연구원 | 위치 정보를 이용한 분석용 경로 데이터 생성 방법과, 생성 시스템과, 위치 정보를 이용한 분석용 경로 데이터 생성 서비스를 운영하는 방법 및 운영 시스템 |
CN110477956A (zh) * | 2019-09-27 | 2019-11-22 | 哈尔滨工业大学 | 一种基于超声图像引导的机器人诊断系统的智能扫查方法 |
CN112766300A (zh) * | 2020-12-07 | 2021-05-07 | 北京航空航天大学 | 一种航空大数据预处理技术 |
CN112762941A (zh) * | 2021-01-04 | 2021-05-07 | 金陵科技学院 | 一种基于移动行为特征的轨迹压缩方法 |
CN113849471A (zh) * | 2021-09-26 | 2021-12-28 | 中国联合网络通信集团有限公司 | 数据压缩方法、装置、设备及存储介质 |
CN114077926A (zh) * | 2021-11-18 | 2022-02-22 | 阿里云计算有限公司 | 航行轨迹预测方法、计算机存储介质及程序产品 |
CN114330583A (zh) * | 2021-12-31 | 2022-04-12 | 四川大学 | 一种异常用电识别方法和异常用电识别系统 |
CN114580934A (zh) * | 2022-03-10 | 2022-06-03 | 新疆大学 | 基于无监督异常检测的食品检测数据风险的早预警方法 |
CN115459782A (zh) * | 2022-08-29 | 2022-12-09 | 北京思维实创科技有限公司 | 基于时序分割和聚类的工业物联网高频数据压缩方法 |
CN115514376A (zh) * | 2022-08-29 | 2022-12-23 | 北京思维实创科技有限公司 | 基于改进符号聚合近似的高频时序数据压缩方法及装置 |
CN115329910A (zh) * | 2022-10-17 | 2022-11-11 | 南通坤鹏科技有限公司 | 一种企业生产排放数据智能处理方法 |
Non-Patent Citations (6)
Title |
---|
J. CHEN ET AL: "Toward Opportunistic Compression and Transmission for Private Car Trajectory Data Collection", 《IEEE SENSORS JOURNAL》, pages 1925 - 1935 * |
S. WANDELT ET AL: "Efficient Compression of 4D-Trajectory Data in Air Traffic Management", 《 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》, pages 844 - 853 * |
潘章明等: "基于共享反K近邻的局部离群点检测算法", 《计算机仿真》, vol. 30, no. 2, pages 269 - 273 * |
苏俊杰等: "基于 Multi-DOTS 算法的船舶轨迹数据压缩研究", 《中国航海》, vol. 46, no. 1, pages 107 - 113 * |
荣刚: "基于大数据的数据压缩方案", 《航空保障》, vol. 144, pages 81 - 83 * |
薛安荣等: "基于时序离群检测的新的分段方法", 《计算机工程与设计》, vol. 212, no. 20, pages 4875 - 4977 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304898A (zh) * | 2023-05-15 | 2023-06-23 | 北京信息科技大学 | 基于机器学习的传感器数据智能存储系统 |
CN116612641A (zh) * | 2023-07-19 | 2023-08-18 | 天津中德应用技术大学 | 基于智能网联的车辆队列控制数据处理方法 |
CN116612641B (zh) * | 2023-07-19 | 2023-09-22 | 天津中德应用技术大学 | 基于智能网联的车辆队列控制数据处理方法 |
CN117235557A (zh) * | 2023-11-14 | 2023-12-15 | 山东贺铭电气有限公司 | 基于大数据分析的电气设备故障快速诊断方法 |
CN117235557B (zh) * | 2023-11-14 | 2024-02-02 | 山东贺铭电气有限公司 | 基于大数据分析的电气设备故障快速诊断方法 |
CN117743870A (zh) * | 2024-02-20 | 2024-03-22 | 山东齐鸿工程建设有限公司 | 一种基于大数据的水利数据管理系统 |
CN117743870B (zh) * | 2024-02-20 | 2024-05-10 | 山东齐鸿工程建设有限公司 | 一种基于大数据的水利数据管理系统 |
CN118509561A (zh) * | 2024-07-17 | 2024-08-16 | 国网江西省电力有限公司信息通信分公司 | 基于视频的全链路监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116166978B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116166978B (zh) | 一种用于供应链管理的物流数据压缩存储方法 | |
Hausler et al. | Multi-process fusion: Visual place recognition using multiple image processing methods | |
CN109800692B (zh) | 一种基于预训练卷积神经网络的视觉slam回环检测方法 | |
CN117459418B (zh) | 一种实时数据采集存储方法及系统 | |
CN115994137B (zh) | 一种基于物联网应用服务系统的数据管理方法 | |
CN116166960B (zh) | 用于神经网络训练的大数据特征清洗方法及系统 | |
CN107392311B (zh) | 序列切分的方法和装置 | |
CN114067118B (zh) | 一种航空摄影测量数据的处理方法 | |
US20180192245A1 (en) | Extraction and Representation method of State Vector of Sensing Data of Internet of Things | |
CN111723666A (zh) | 一种基于半监督学习的信号识别方法和装置 | |
CN114722098B (zh) | 一种基于正态云模型和密度聚类算法的典型负荷曲线辨识方法 | |
CN117290364A (zh) | 一种市场调查数据智能存储方法 | |
CN117235587A (zh) | 一种基于lightGBM的气象目标分类方法 | |
CN117705815B (zh) | 一种基于机器视觉的印刷缺陷检测方法 | |
CN113052265A (zh) | 基于特征选择的移动对象轨迹简化算法 | |
CN116521764A (zh) | 基于人工智能的环境设计数据处理方法 | |
CN116258864B (zh) | 一种村庄规划建设大数据管理系统 | |
CN104392247A (zh) | 一种用于数据聚类的相似性网络融合快速方法 | |
CN114048792A (zh) | 一种基于低精度随机采样数据的轨迹相似度匹配方法 | |
CN116505953B (zh) | 基于bim和gis的海量地图数据优化压缩处理方法 | |
CN116206208B (zh) | 一种基于人工智能的林业病虫害快速分析系统 | |
CN116403071B (zh) | 基于特征重构的少样本混凝土缺陷检测方法及装置 | |
CN110138684B (zh) | 一种基于dns日志的流量监控方法及系统 | |
Lohrer et al. | Gadformer: A transparent transformer model for group anomaly detection on trajectories | |
CN114936588A (zh) | 一种船舶轨迹聚类方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |