CN116257735A - 用于智慧城市治理的数据处理方法及系统 - Google Patents

用于智慧城市治理的数据处理方法及系统 Download PDF

Info

Publication number
CN116257735A
CN116257735A CN202310544348.6A CN202310544348A CN116257735A CN 116257735 A CN116257735 A CN 116257735A CN 202310544348 A CN202310544348 A CN 202310544348A CN 116257735 A CN116257735 A CN 116257735A
Authority
CN
China
Prior art keywords
data
curve
determining
environmental data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310544348.6A
Other languages
English (en)
Other versions
CN116257735B (zh
Inventor
刘斯奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Borui En Intelligent Technology Co ltd
Baoding Siqi Zhike Information Technology Co ltd
Original Assignee
Beijing Borui En Intelligent Technology Co ltd
Baoding Siqi Zhike Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Borui En Intelligent Technology Co ltd, Baoding Siqi Zhike Information Technology Co ltd filed Critical Beijing Borui En Intelligent Technology Co ltd
Priority to CN202310544348.6A priority Critical patent/CN116257735B/zh
Publication of CN116257735A publication Critical patent/CN116257735A/zh
Application granted granted Critical
Publication of CN116257735B publication Critical patent/CN116257735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及适用于行政管理的数据处理技术领域,具体涉及一种用于智慧城市治理的数据处理方法及系统,通过获取每种环境数据的变化曲线,并获取变化曲线在各个设定窗口大小下对应的平滑曲线,基于平滑曲线,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重;获取每种环境数据的各个曲线子段,并确定每种环境数据的各个需替换曲线子段以及每个需替换曲线子段的匹配段,利用匹配段对需替换曲线子段进行替换,对替换后得到的变化曲线进行压缩处理,从而得到压缩数据。本发明可以有效提高环境数据的压缩效果,解决了现有智慧城市治理过程中环境数据的压缩效果较差的问题。

Description

用于智慧城市治理的数据处理方法及系统
技术领域
本发明涉及适用于行政管理的数据处理技术领域,具体涉及一种用于智慧城市治理的数据处理方法及系统。
背景技术
基于分布式自组网设备的智慧城市治理运管系统是一种新型的智慧城市治理运管系统,该系统利用物联网和自组网技术,将城市中的各种设备通过互联网连接并实现信息交换与数据共享,从而实现城市内部资源共享和协同治理。在该系统运行过程中,环境数据传输作为至关重要的一环,由于环境数据的多样化和实时性,温度数据、湿度数据、降雨量数据等多种类型的环境数据均会通过自组网设备进行实时采集,并将实时采集的数据传输到同一个区域进行分析,需要进行较大数据量的环境数据传输,因此在传输之前需要对环境数据进行压缩。现有在对环境数据进行压缩时,压缩效果通常相邻数据之间的相关程度有关,相关程度越大,相应的压缩效果就越好。但是由于环境数据的变化较为复杂多样,部分相邻数据之间的相关程度较低,这就导致环境数据的压缩效果不够理想,数据传输速率慢,从而影响智慧城市治理过程。
发明内容
本发明的目的在于提供一种用于智慧城市治理的数据处理方法及系统,用于解决现有智慧城市治理过程中环境数据的压缩效果较差的问题。
为解决上述技术问题,本发明提供了一种用于智慧城市治理的数据处理方法,包括以下步骤:
获取每种环境数据的变化曲线,并获取所述变化曲线在各个设定窗口大小下对应的平滑曲线;
确定任意两种环境数据对应的任意两个平滑曲线之间的距离指标值,根据所述距离指标值,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重;
根据各种环境数据的变化曲线,确定分段周期,利用所述分段周期对每种环境数据的变化曲线进行分段,得到每种环境数据的各个曲线子段;
确定每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度,根据所述相近程度,确定每种环境数据的各个需替换曲线子段;
确定每种环境数据的每个需替换曲线子段的各个候选匹配段,所述候选匹配段为其他种类的环境数据的曲线子段,确定每个需替换曲线子段与其各个候选匹配段之间的匹配数据点数目;
将每种环境数据的每个候选匹配段对应的环境数据作为替换环境数据,根据每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,以及每种环境数据与其每个候选匹配段对应的替换环境数据所构成的数据类别组中替换环境数据对应的替换权重,确定每个候选匹配段的匹配度,并根据所述匹配度,确定每种环境数据的每个需替换曲线子段的匹配段;
根据每种环境数据的每个需替换曲线子段的匹配段,对每种环境数据的需替换曲线子段进行替换,得到每种环境数据的替换后的变化曲线,并对所述替换后的变化曲线进行压缩处理从而得到压缩数据。
进一步的,确定任意两种环境数据对应的任意两个平滑曲线之间的距离指标值,包括:
确定每种环境数据对应的每个平滑曲线的各个极值点,计算所有极值点对应的环境数据值的平均值,计算每个极值点对应的环境数据值与所述平均值的差值,并将所有差值的平均值确定为每种环境数据对应的每个平滑曲线的幅值表征值;
确定任意两个环境数据对应的任意两个平滑曲线的幅值表征值中的较大值和较小值,计算较小值与较大值的比值,将较大值对应的平滑曲线上的所有环境数据值乘以所述比值,从而得到较大值对应的修正后的平滑曲线,将较小值对应的平滑曲线与较大值对应的修正后的平滑曲线之间的DTW距离,确定为任意两种环境数据对应的任意两个平滑曲线之间的距离指标值。
进一步的,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重,包括:
将任意一种环境数据作为目标环境数据,按照对应的设定窗口大小从小到大的顺序,依次遍历判断目标环境数据的每个平滑曲线与其他每种环境数据的每个平滑曲线之间的距离指标值是否小于设定距离阈值,直至存在距离指标值小于设定距离阈值或者遍历完毕;
若存在距离指标值小于设定距离阈值,则将目标环境数据和对应的其他种类的环境数据确定为一个数据类别组,并将距离指标值小于设定距离阈值对应的两个平滑曲线确定为一个平滑曲线对;
按照从小到大的顺序对各个设定窗口大小进行排列,从而得到设定窗口大小序列;
若同一种数据类别组存在至少两种不同的平滑曲线对,则确定每种平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号的相加和,并将最小的相加和对应的平滑曲线对确定为该数据类别组对应的目标平滑曲线对;
若同一种数据类别组只存在一种平滑曲线对,则将该平滑曲线对确定为该数据类别组的目标平滑曲线对;
根据每个数据类别组对应的目标平滑曲线对中两个平滑曲线对应的设定窗口大小以及两个平滑曲线之间的距离指标值,计算每个数据类别组中每种环境数据对应的替换权重。
进一步的,计算每个数据类别组中每种环境数据对应的替换权重对应的计算公式为:
Figure SMS_1
其中,
Figure SMS_2
为每个数据类别组中每种环境数据对应的替换权重,/>
Figure SMS_3
为每个数据类别组对应的目标平滑曲线对中每种环境数据的平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号,/>
Figure SMS_4
为所有数据类别组对应的平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号中的最大值,d为每个数据类别组对应的目标平滑曲线对中两个平滑曲线之间的距离指标值,e为自然常数。
进一步的,确定分段周期,包括:
利用傅里叶变换将每种环境数据的变化曲线转换到频域空间,确定最大幅值对应的频率值,并将所述频率值的倒数确定为每种环境数据的周期值;
利用每种环境数据的周期值对其他每种环境数据的变化曲线进行分段,获取其他每种环境数据的各个曲线分段,进而确定其他每种环境数据的曲线分段相似度值;
计算每种环境数据对应的其他所有种环境数据的曲线分段相似度值的平均值,并将最大的所述平均值所对应的环境数据的周期值确定为分段周期。
进一步的,确定每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度,根据所述相近程度,确定每种环境数据的各个需替换曲线子段,包括:
计算每种环境数据的每个曲线子段与其每个相邻曲线子段之间的相似度;
将每种环境数据的每个曲线子段对应的所有相似度的平均值确定为每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度;
判断每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度是否小于相近程度阈值,若小于相近程度阈值,则将对应的曲线子段确定为需替换曲线子段。
进一步的,确定每种环境数据的每个需替换曲线子段的各个候选匹配段,包括:
在确定每种环境数据的每个需替换曲线子段的每个相邻曲线子段与其他种类的环境数据的每个曲线子段之间的DTW距离时,将一对一匹配的数据点的总数与对应所有数据点的总数目的比值确定为匹配数据点占比;
判断所述匹配数据点占比是否大于设定占比阈值,若大于设定占比阈值,则将对应的其他种类的环境数据的曲线子段确定为对应环境数据的需替换曲线子段的候选匹配段。
进一步的,确定每个需替换曲线子段与其各个候选匹配段之间的匹配数据点数目,包括:
在确定每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的DTW距离时,将一对一匹配的数据点的总数确定为每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目。
进一步的,确定每个候选匹配段的匹配度对应的计算公式为:
Figure SMS_5
其中,
Figure SMS_6
为每种环境数据的每个需替换曲线子段对应的每个候选匹配段的匹配度,/>
Figure SMS_7
为每种环境数据与其每个候选匹配段对应的替换环境数据所构成的数据类别组中替换环境数据对应的替换权重,/>
Figure SMS_8
为每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,h为所述分段周期。
为了解决上述技术问题,本发明还提供了一种用于智慧城市治理的数据处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现上述的任意一项所述的一种用于智慧城市治理的数据处理方法的步骤。
本发明具有如下有益效果:获取每种环境数据的变化曲线,为了消除变化曲线中的局部小的变化影响,从而便于后续获取准确的替换权重,获取变化曲线在各个设定窗口大小下对应的平滑曲线。确定任意两种环境数据对应的任意两个平滑曲线之间的距离指标值,利用该距离指标值对两个平滑曲线之间相似度情况进行衡量,从而确定互相之间可以进行数据替换的数据类别组以及数据类别组中一种环境数据对另外一种环境数据进行数据替换的替换权重。确定合适的分段周期对每种环境数据的变化曲线进行分段,根据同一种环境数据的相邻曲线子段之间的接近程度,确定每种环境数据的各个需替换曲线子段,根据不同种环境数据的曲线子段之间的相似情况,确定每个需替换曲线子段的各个候选匹配段,并对每个需替换曲线子段与其每个候选匹配段的相似程度进行衡量,从而确定每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目。通过综合考虑每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,以及每个需替换曲线子段与其每个候选匹配段对应的数据类别组中候选匹配段对应的环境数据的替换权重,准确确定每种环境数据的每个需替换曲线子段的最优的匹配段。最后基于每种环境数据的每个需替换曲线子段的匹配段,对需替换曲线子段进行替换,并对替换后所得到的变化曲线进行压缩处理,从而得到压缩数据以用于智慧城市治理。本发明通过利用不同种类的环境数据之间的关联性,对不同种类的环境数据的数据段进行替换,对替换后的环境数据进行压缩,可以大大提高环境数据压缩效果,有效解决了现有智慧城市治理过程中环境数据的压缩效果较差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例的用于智慧城市治理的数据处理方法的流程图;
图2为本发明实施例的两个曲线子段之间计算DTW距离的示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。另外,本文所涉及公式中的所有参数或者指标均为归一化之后的消除了量纲影响的数值。
本实施例提供了一种用于智慧城市治理的数据处理方法,该方法通过利用不同种类的环境数据之间的关联性,并结合不同种类的环境数据的相近变化的时间先后性,对不同种类的环境数据的数据段进行替换,对替换后的环境数据进行压缩,可以大大提高压缩效果。该方法对应的流程图如图1所示,包括以下步骤:
步骤S1:获取每种环境数据的变化曲线,并获取所述变化曲线在各个设定窗口大小下对应的平滑曲线。
获取智慧城市治理时所需要的各种环境数据,这些环境数据包括同一个区域的温度数据、湿度数据、降雨量数据等多种类型的环境数据。由于这些环境数据均是按照时间顺序进行实时或者定时采集的,因此可以获取每种环境数据的随时间变化的变化曲线。
由于同一个区域的不同种类的环境数据之间的关联性往往较大,一种数据的变化往往会引起另一种数据的相近似的变化,只是时间上的先后不同,因此考虑将不同种类的环境数据之间的变化趋势相近的数据通过数据替换移动到一块,从而提高相邻数据之间的相关性,进而提高数据压缩效果。
对于不同种类的环境数据来说,虽然其相关性较大,但毕竟是不同类型的环境数据,存在局部数据可能相似度较小的情况。因此,为了避免不同种类的环境数据的局部差异的影响,便于后续对不同种类的环境数据之间的相关性进行衡量,从而最终提高数据压缩效果,本实施例首先采用移动平均法,对每种环境数据的变化曲线中的局部小的变化进行平滑,从而获取每种环境数据的平滑曲线。在获取每种环境数据的平滑曲线的过程中,通过不同设定窗口大小对每种环境数据的变化曲线分别进行平滑处理,从多得到每种环境数据的变化曲线在各个设定窗口大小下对应的平滑曲线。不同设定窗口大小的具体取值可以根据数据的具体情况进行设置,本实施例将各个设定窗口大小分别设置为:5、7、9、11、…、33。由于采用移动平均法对每种环境数据的变化曲线分别进行平滑处理,从而得到变化曲线在各个设定窗口大小下对应的平滑曲线的具体实现过程属于现有技术,此处不再赘述。
步骤S2:确定任意两种环境数据对应的任意两个平滑曲线之间的距离指标值,根据所述距离指标值,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重。
为了便于后续提高数据压缩的效果,需要对不同种类的环境数据之间的相关性进行衡量。这里的相关性是指不同种类的环境数据的曲线形状的相似性,因此可以通过DTW(Dynamic time warping,动态时间规整)算法来进行确定。但是考虑到不同种类的环境数据即使变化趋势相近,但幅值等信息不一定相同,因此传统的DTW算法可能会导致本来变化趋势相近的环境数据计算得到的DTW距离却较大,因此需要对传统的DTW算法进行改进,即结合幅值的缩放系数计算两种不同环境数据对应的两个平滑曲线之间的距离指标值,实现步骤包括:
确定每种环境数据对应的每个平滑曲线的各个极值点,计算所有极值点对应的环境数据值的平均值,计算每个极值点对应的环境数据值与所述平均值的差值,并将所有差值的平均值确定为每种环境数据对应的每个平滑曲线的幅值表征值;
确定任意两个环境数据对应的任意两个平滑曲线的幅值表征值中的较大值和较小值,计算较小值与较大值的比值,将较大值对应的平滑曲线上的所有环境数据值乘以所述比值,从而得到较大值对应的修正后的平滑曲线,将较小值对应的平滑曲线与较大值对应的修正后的平滑曲线之间的DTW距离,确定为任意两种环境数据对应的任意两个平滑曲线之间的距离指标值。
具体的,对于每种环境数据对应的每个平滑曲线,通过极值点法计算得到该平滑曲线上所有的峰值点和谷值点,即极值点。然后计算得到该平滑曲线的所有极值点的纵坐标的平均值,这里的纵坐标是指对应种类环境数据的环境数据值。然后计算每个极值点的纵坐标与该平均值的差值,将所有差值的均值作为对应种类环境数据的平滑曲线的幅值表征值。
在计算任意两个环境数据对应的任意两个平滑曲线之间的DTW距离时,也就是计算任意一种环境数据对应的任意一个平滑曲线与另外一种环境数据对应的任意一个平滑曲线之间的DTW距离时,首先计算得到这两个平滑曲线对应的较小幅值表征值与较大幅值表征值的比值,然后将较大幅值表征值对应的平滑曲线上所有点的纵坐标乘以该比值,同样的,这里的纵坐标是指对应种类环境数据的环境数据值,从而得到较大幅值表征值对应的修正后的平滑曲线。计算该较大幅值表征值对应的修正后的平滑曲线与较小幅值表征值对应的平滑曲线之间的DTW距离,也就是计算较大幅值表征值对应的修正后的平滑曲线上数据点的纵坐标表征的环境数据值所构成的序列与较小幅值表征值对应的平滑曲线上数据点的纵坐标表征的环境数据值所构成的序列之间的DTW距离,并将计算出来的该DTW距离确定为对应任意两个环境数据对应的任意两个平滑曲线之间的距离指标值,该距离指标值用于表征对应的任意两个平滑曲线之间的相似程度,当距离指标值越小时,说明对应的任意两个平滑曲线之间的相似程度越大。
在确定任意两个环境数据对应的任意两个平滑曲线之间的距离指标值之后,基于该距离指标值,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重,实现步骤包括:
将任意一种环境数据作为目标环境数据,按照对应的设定窗口大小从小到大的顺序,依次遍历判断目标环境数据的每个平滑曲线与其他每种环境数据的每个平滑曲线之间的距离指标值是否小于设定距离阈值,直至存在距离指标值小于设定距离阈值或者遍历完毕;
若存在距离指标值小于设定距离阈值,则将目标环境数据和对应的其他种类的环境数据确定为一个数据类别组,并将距离指标值小于设定距离阈值对应的两个平滑曲线确定为一个平滑曲线对;
按照从小到大的顺序对各个设定窗口大小进行排列,从而得到设定窗口大小序列;
若同一种数据类别组存在至少两种不同的平滑曲线对,则确定每种平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号的相加和,并将最小的相加和对应的平滑曲线对确定为该数据类别组对应的目标平滑曲线对;
若同一种数据类别组只存在一种平滑曲线对,则将该平滑曲线对确定为该数据类别组的目标平滑曲线对;
根据每个数据类别组对应的目标平滑曲线对中两个平滑曲线对应的设定窗口大小以及两个平滑曲线之间的距离指标值,计算每个数据类别组中每种环境数据对应的替换权重。
具体的,将任意一种环境数据作为目标环境数据,例如,将环境数据a作为目标环境数据,其他各种环境数据分别为环境数据b和环境数据c。按照各个设定窗口大小从小到大的顺序,环境数据a对应的平滑曲线的标号分别为MA1、MA2、MA3、MA4、MA5,环境数据b对应的平滑曲线的标号分别为MB1、MB2、MB3、MB4、MB5,环境数据c对应的平滑曲线的标号分别为MC1、MC2、MC3、MC4、MC5。按照对应的设定窗口大小从小到大的顺序,依次遍历判断环境数据a的每个平滑曲线与环境数据b和环境数据c的每个平滑曲线之间的距离指标值是否小于设定距离阈值,即依次判断环境数据a的MA1对应的平滑曲线与其他所有种环境数据的最小的设定窗口大小对应的平滑曲线之间的距离指标值是否小于设定距离阈值,若均不存在距离指标值小于设定距离阈值,则判断MA1对应的平滑曲线与其他所有种环境数据的次最小的设定窗口大小对应的平滑曲线之间的距离指标值是否小于设定距离阈值,依次类推,若MA1对应的平滑曲线与其他所有种环境数据的所有设定窗口大小对应的平滑曲线均遍历判断完成后,按照相同的方式,再依次判断环境数据a的MA2对应的平滑曲线与其他所有种环境数据的所有设定窗口大小对应的平滑曲线之间的距离指标值是否小于设定距离阈值,依次类推,直至存在距离指标值小于设定距离阈值或者遍历完毕。上述依次遍历判断的具体过程包括:
判断MA1 和MB1对应的平滑曲线之间的距离指标值是否小于设定距离阈值,若小于设定距离阈值,则将环境数据a和环境数据b确定为一个数据类别组,同时将MA1 和MB1对应的平滑曲线确定为环境数据a和环境数据b构成的数据类别组的一个平滑曲线对,此时不再对环境数据a进行遍历判断;若不小于设定距离阈值,则再判断MA1 和MC1对应的平滑曲线之间的距离指标值是否小于设定距离阈值,若小于设定距离阈值,则将环境数据a和环境数据c确定为一个数据类别组,同时将MA1 和MC1对应的平滑曲线确定为环境数据a和环境数据c构成的数据类别组的一个平滑曲线对,此时不再对此时不再对环境数据a进行遍历判断。若不小于设定距离阈值,则再判断MA1和MB2对应的平滑曲线之间的距离指标值是否小于设定距离阈值,若小于设定距离阈值,则将环境数据a和环境数据b确定为一个数据类别组,同时将MA1 和MB2对应的平滑曲线确定为环境数据a和环境数据b构成的数据类别组的一个平滑曲线对,此时不再对环境数据a进行遍历判断;若不小于设定距离阈值,则再判断MA1 和MC2对应的平滑曲线之间的距离指标值是否小于设定距离阈值,若小于设定距离阈值,则将环境数据a和环境数据c确定为一个数据类别组,同时将MA1和MC2对应的平滑曲线确定为环境数据a和环境数据c构成的数据类别组的一个平滑曲线对,此时不再对此时不再对环境数据a进行遍历判断。若不小于设定距离阈值,则判断MA2 和MB1对应的平滑曲线之间的距离指标值是否小于设定距离阈值,以此类推,直至存在距离指标值小于设定距离阈值或者遍历完毕。设定距离阈值可以根据经验或者实验测试进行合理设置,将设定距离阈值记为k1本实施例设置该设定距离阈值k1的取值为20。
通过上述方式,在减小计算量的情况下,可以确定多个不同的数据类别组以及每个数据类别组对应的平滑曲线对,每个数据类别组对应的平滑曲线对的数目可能是一个也可能是多个。作为其他的实施方式,还可以采用如下方式确定多个不同的数据类别组以及每个数据类别组对应的平滑曲线对,即:判断任意两种环境数据对应的任意两个平滑曲线之间的距离指标值是否小于设定距离阈值,若存在距离指标值小于设定距离阈值,则将对应的两种环境数据确定为一个数据类别组,并将距离指标值小于设定距离阈值对应的两个平滑曲线确定为一个平滑曲线对。
在确定多个不同的数据类别组以及每个数据类别组对应的平滑曲线对之后,为了便于后续准确确定在每个数据类别组中一种环境数据对另外一种环境数据进行替换的替换权重,对每个数据类别组对应的平滑曲线对进行筛选,确定其中的目标平滑曲线对。
为了确定每个数据类别组对应的目标平滑曲线对,将各个设定窗口大小按照从小到大的顺序进行排列,从而可以得到设定窗口大小序列,同时可以确定每个设定窗口大小所对应的序号。当同一种数据类别组对应多个平滑曲线对时,确定每个平滑曲线对中两个平滑曲线对应的设定窗口大小所对应的序号,计算这两个序号的相加值,并将最小的相加和对应的平滑曲线对确定为目标平滑曲线对。也就是说,对于同一种数据类别组对应的多个平滑曲线对,将最先出现的设定窗口大小对应的平滑曲线对作为该数据类别组对应的目标平滑曲线对。例如,按照各个设定窗口大小从小到大的顺序,环境数据a对应的平滑曲线的标号分别为MA1、MA2、MA3、MA4、MA5,环境数据b对应的平滑曲线的标号分别为MB1、MB2、MB3、MB4、MB5。环境数据a和环境数据b构成了一个数据类别组,该数据类别组对应的平滑曲线对为MA2和MB3、MA3和MB4,那么此时则将MA2和MB3确定为环境数据a和环境数据b构成的数据类别组(a,b)对应的目标平滑曲线对。当然,当同一种数据类别组对应的一个平滑曲线对时,则直接将该平滑曲线对作为目标平滑曲线对。
在进行数据段替换时,当出现同一种环境数据中的某个段数据与其他多种环境数据的某个段数据均相似度较大时,需要选择其中最合适的其他一种环境数据的某个段数据,为了选择出该最合适的其他一种环境数据的某个段数据,需要确定每个数据类别组中每种环境数据对应的替换权重,对应的计算公式为:
Figure SMS_9
其中,
Figure SMS_10
为每个数据类别组中每种环境数据对应的替换权重,/>
Figure SMS_11
为每个数据类别组对应的目标平滑曲线对中每种环境数据的平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号,/>
Figure SMS_12
为所有数据类别组对应的平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号中的最大值,d为每个数据类别组对应的目标平滑曲线对中两个平滑曲线之间的距离指标值,e为自然常数。
为了便于理解上述的每个数据类别组中每种环境数据对应的替换权重
Figure SMS_13
的计算公式,以环境数据a和环境数据b构成的数据类别组(a,b)为例,该数据类别组(a,b)的目标平滑曲线对为MA2和MB3,当计算该数据类别组(a,b)中环境数据a对应的替换权重时,该替换权重是指采用环境数据a的平滑曲线MA2替换环境数据b的平滑曲线MB3时,环境数据a对应的替换权重,/>
Figure SMS_14
为环境数据a的平滑曲线MA2对应的设定窗口大小在设定窗口大小序列中的序号,由于平滑曲线MA2对应的序号为2,因此此时m的取值为2。当m越小时,代表平滑曲线MA2的信息损失率越小,此时越应该使用环境数据a对环境数据b进行替换,环境数据a应该赋予较大的替换权重。/>
Figure SMS_15
为所有数据类别组对应的平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号中的最大值,也就是距离指标值小于设定距离阈值k1的所有平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号中的最大值,该最大值/>
Figure SMS_16
用于对序号/>
Figure SMS_17
进行归一化处理。d为环境数据a的平滑曲线MA2与环境数据b的平滑曲线MB3之间的距离指标值,当距离指标值/>
Figure SMS_18
越小时,表示环境数据a的平滑曲线MA2与环境数据b的平滑曲线MB3的变化趋势越相似,此时使用环境数据a对环境数据b进行替换可以得到更好的压缩效果,对应的环境数据a应该赋予较大的替换权重。
通过上述方式,可以确定每个数据类别组中每种环境数据对应的替换权重,该替换权重表征了每个数据类别组中每种环境数据对另外一种环境数据进行替换时,前面的每种环境数据对应的替换权重,也可称为匹配权重。
步骤S3:根据各种环境数据的变化曲线,确定分段周期,利用所述分段周期对每种环境数据的变化曲线进行分段,得到每种环境数据的各个曲线子段。
为了便于后续确定各种环境数据的变化曲线中的需替换段对应的替换段,同时为了便于将替换后的数据恢复为原来的数据,通过对各种环境数据计算一个最合适的分段周期,进而对需要替换的段数据进行替换,在解压时,只需记录哪段数据被哪里的数据替换,即可恢复为原来的数据。其中,确定分段周期的实现步骤包括:
利用傅里叶变换将每种环境数据的变化曲线转换到频域空间,确定最大幅值对应的频率值,并将所述频率值的倒数确定为每种环境数据的周期值;
利用每种环境数据的周期值对其他每种环境数据的变化曲线进行分段,获取其他每种环境数据的各个曲线分段,进而确定其他每种环境数据的曲线分段相似度值;
计算每种环境数据对应的其他所有种环境数据的曲线分段相似度值的平均值,并将最大的所述平均值所对应的环境数据的周期值确定为分段周期。
具体的,将每种环境数据的变化曲线通过傅里叶变换转换到频域空间,并将最大幅值对应频率的倒数作为该种环境数据的周期值,从而得到了每种环境数据的周期值。用每种环境数据的周期值作对其他每种环境数据的变化曲线进行分段,从而得到其他每种环境数据的各个曲线分段。计算得到其他每种环境数据的任意两个曲线分段的余弦相似度,也就是计算任意两个曲线分段上的各个数据点的纵坐标所构成序列之间的余弦相似度,并将其他每种环境数据的所有余弦相似度的均值确定为其他每种环境数据的曲线分段相似度值。曲线分段相似度值越大,代表对应周期值对所有种类的环境数据进行分割可以起到越好的分割效果。需要说明的是,由于其他每种环境数据的最后一个曲线分段的长度可能不是对应的周期值,此时需要对最后一个曲线分段进行补点操作,以使最后一个曲线分段的长度等于对应的周期值,所补充点的纵坐标为0,并基于补点操作后的最后一个曲线分段进行余弦相似度计算。通过计算可以得到每个周期值对应的其他所有种类的环境数据的曲线分段相似度值,这些曲线分段相似度值构成一个曲线分段相似度值序列,即每个周期值对应一个曲线分段相似度值序列,将序列中所有元素均值最大的序列对应的周期值作为分段周期。
在通过上述方式确定分段周期后,利用该分段周期对对每种环境数据的变化曲线进行分段,从而得到每种环境数据的各个曲线子段。
步骤S4:确定每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度,根据所述相近程度,确定每种环境数据的各个需替换曲线子段。
对于每种环境数据的变化曲线的某段数据来说,当某段数据与其相邻数据的相似度较小时,对该处数据进行压缩难以起到较大压缩效果,因此需要对该段数据进行替换,替换为该段数据的相邻数据在其它种类的环境数据的变化曲线中的相似数据段,从而提高数据相关性,达到增大压缩率的效果。
基于上述分析,为了确定每种环境数据的变化曲线中的需替换曲线子段,首先需要确定每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度,并根据该相近程度,确定每种环境数据的各个需替换曲线子段,实现步骤包括:
计算每种环境数据的每个曲线子段与其每个相邻曲线子段之间的相似度;
将每种环境数据的每个曲线子段对应的所有相似度的平均值确定为每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度;
判断每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度是否小于相近程度阈值,若小于相近程度阈值,则将对应的曲线子段确定为需替换曲线子段。
具体的,对于每种环境数据,将该环境数据的每个曲线子段的左右相邻的曲线子段确定为每个曲线子段的相邻曲线子段。当曲线子段处于对应环境数据的变化曲线的一端时,该曲线子段只有左相邻的曲线子段或者右相邻的曲线子段,此时该曲线子段只有一个相邻曲线子段;而当曲线子段处于对应环境数据的变化曲线的中间部分时,该曲线子段同时具有左相邻的曲线子段和右相邻的曲线子段,此时该曲线子段有两个相邻曲线子段。计算该环境数据的每个曲线子段与其每个相邻曲线子段之间的相似度,这里的相似度是指每个曲线子段与其每个相邻曲线子段之间的余弦相似度,也就是每个曲线子段上各个数据点的纵坐标所构成的序列与其每个相邻曲线子段上各个数据点的纵坐标所构成的序列之间的余弦相似度,将每个曲线子段与其所有相邻曲线子段之间的相似度的均值确定为该种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度。同样的,当某一个曲线子段或者其相邻曲线子段的长度不是其对应的周期值时,此时需要对该子段进行补点操作,以使子段的长度等于对应的周期值,所补充点的纵坐标为0,并基于补点操作后得到的曲线子段或者其相邻曲线子段进行相近程度计算。将相近程度与预先设置的相近程度阈值进行比较,相近程度阈值可以根据经验或者试验进行合理设置,本实施例设置该相近程度阈值的取值为0.5,当相近程度小于该相近程度阈值0.5时,说明该相近程度对应的曲线子段与其左右相邻的曲线子段之间的相似程度较低,则将该相近程度对应的曲线子段确定为需替换曲线子段。
步骤S5:确定每种环境数据的每个需替换曲线子段的各个候选匹配段,所述候选匹配段为其他种类的环境数据的曲线子段,确定每个需替换曲线子段与其各个候选匹配段之间的匹配数据点数目。
对于每种环境数据的每个需替换曲线子段,确定该需替换曲线子段的各个候选匹配段,实现步骤包括:
在确定每种环境数据的每个需替换曲线子段的每个相邻曲线子段与其他种类的环境数据的每个曲线子段之间的DTW距离时,将一对一匹配的数据点的总数与对应所有数据点的总数目的比值确定为匹配数据点占比;
判断所述匹配数据点占比是否大于设定占比阈值,若大于设定占比阈值,则将对应的其他种类的环境数据的曲线子段确定为对应环境数据的需替换曲线子段的候选匹配段。
具体的,对于每种环境数据的每个需替换曲线子段,将该需替换曲线子段的左右相邻的曲线子段确定为该曲线子段的相邻曲线子段,将每个相邻曲线子段与其他种类的环境数据的相似的曲线子段作为候选匹配段。这里的候选匹配段是指,在利用传统的DTW算法计算每个相邻曲线子段与其他种类的环境数据的每个曲线子段之间的DTW距离,就是计算每个相邻曲线子段上数据点的纵坐标表征的环境数据值所构成的序列与其他种类的环境数据的每个曲线子段上数据点的纵坐标表征的环境数据值所构成的序列之间的DTW距离时,匹配数据点占比大于设定占比阈值,也就是一对一匹配的数据点的总数与对应所有数据点的总数目的比值大于设定占比阈值所对应的其他种类的环境数据的曲线子段。设定占比阈值可以根据经验或者实验进行合理设置,本实施例设置该设定占比阈值的取值为0.7。为了便于理解,如图2所示,上面一条粗实线代表某个相邻曲线子段,下面一条粗实线代表其他种类的环境数据的某个曲线子段,在利用传统的DTW算法计算该某个相邻曲线子段与某个曲线子段之间的DTW距离时,一对一匹配的数据点的总数为两条粗实线中一对一匹配的匹配对的总数目,所有数据点的总数目为两条粗实线中所有匹配对的总数目,图2中的两条粗实线之间每一条细实线代表一个匹配对。
在确定每种环境数据的每个需替换曲线子段的各个候选匹配段之后,为了便于后续确定每个候选匹配段的匹配度,进而确定每种环境数据的每个需替换曲线子段的匹配段,还需要确定每个需替换曲线子段与其各个候选匹配段之间的匹配数据点数目,实现包括:
在确定每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的DTW距离时,将一对一匹配的数据点的总数确定为每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目。
具体的,在利用传统的DTW算法计算每个需替换曲线子段与其每个候选匹配段之间的DTW距离时,确定一对一匹配的数据点的总数,该一对一匹配的数据点的总数的确定方式,可以参考上述计算匹配数据点占比时确定一对一匹配的数据点的总数的方式,此处不再赘述。
步骤S6:将每种环境数据的每个候选匹配段对应的环境数据作为替换环境数据,根据每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,以及每种环境数据与其每个候选匹配段对应的替换环境数据所构成的数据类别组中替换环境数据对应的替换权重,确定每个候选匹配段的匹配度,并根据所述匹配度,确定每种环境数据的每个需替换曲线子段的匹配段。
在确定每种环境数据的每个需替换曲线子段的各个候选匹配段之后,将每种环境数据的每个候选匹配段对应的环境数据作为替换环境数据,并确定每个候选匹配段的匹配度,对应的计算公式为:
Figure SMS_19
其中,
Figure SMS_20
为每种环境数据的每个需替换曲线子段对应的每个候选匹配段的匹配度,/>
Figure SMS_21
为每种环境数据与其每个候选匹配段对应的替换环境数据所构成的数据类别组中替换环境数据对应的替换权重,/>
Figure SMS_22
为每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,h为所述分段周期。
在上述的每种环境数据的每个需替换曲线子段对应的每个候选匹配段的匹配度
Figure SMS_23
的计算公式中,当每个需替换曲线子段所属的环境数据与该替换曲线子段的某个候选匹配段所属的环境数据(替换环境数据)所构成的数据类别组中替换环境数据对应的替换权重越大时,也即是候选匹配段所属的环境数据对需替换曲线子段所属的环境数据进行替换时对应的替换权重越大时,越应该使用该候选匹配段对对应的需替换曲线子段进行替换,此时该候选匹配段的匹配度应该越大。分段周期用于对每个需替换曲线子段与其某个候选匹配段之间的匹配数据点数目进行归一化,以使最终得到的匹配度的取值在一定的范围内。当匹配数据点数目与分段周期的比值越大时,说明采用该候选匹配段对对应的需替换曲线子段进行替换后,替换后的数据与左右两侧数据的相似度越大,可以得到更好的压缩效果,此时该候选匹配段的匹配度应该越大。应当理解的是,为了使最终得到的匹配度的取值在一定的范围内,也可以直接对替换权重与匹配数据点数目的乘积值进行正相关均匀归一化,本方案并不做限制。
在确定每种环境数据的每个需替换曲线子段对应的每个候选匹配段的匹配度之后,对于每种环境数据的每个需替换曲线子段,将该需替换曲线子段对应的最大的匹配度对应的候选匹配段确定为匹配段,从而确定每种环境数据的每个需替换曲线子段的匹配段。
步骤S7:根据每种环境数据的每个需替换曲线子段的匹配段,对每种环境数据的需替换曲线子段进行替换,得到每种环境数据的替换后的变化曲线,并对所述替换后的变化曲线进行压缩处理从而得到压缩数据。
在确定每种环境数据的每个需替换曲线子段的匹配段之后,根据每种环境数据的每个需替换曲线子段的匹配段,对每种环境数据的需替换曲线子段进行替换。在进行替换过程中,对于每种环境数据的不连续的每个需替换曲线子段,将每个需替换曲线子段替换为其对应的匹配段,而对于连续的需替换曲线子段,选择对这些连续的需替换曲线子段中的部分需替换曲线子段进行保留,即不对该部分需替换曲线子段进行替换,只对这些连续的需替换曲线子段中的另外一部分需替换曲线子段进行替换,从而使得每种环境数据的所有被替换的需替换曲线子段不连续。在本实施例中,对于连续的需替换曲线子段,优先选择对的匹配度较小的匹配段所对应的需替换曲线子段进行保留。应当理解的是,采用匹配段对需替换曲线子段进行替换,是指进行数据形式趋势的替换,即直接将匹配段平移到需替换曲线子段的位置,而不改变匹配段的曲线形状本身。由于匹配段和需替换曲线子段的数据基数可能不同,如匹配段的数据基数是100,而需替换曲线子段的数据基数是10,此时为了保证数据压缩效果,通过对匹配段进行上下平移,使匹配段与需替换曲线子段的左相邻或者右相邻的数据点进行邻接数据的对齐,也就是使匹配段的左端点处的数据点的纵坐标等于需替换曲线子段的右相邻的数据点的纵坐标,或者使匹配段的右端点处的数据点的纵坐标等于需替换曲线子段的左相邻的数据点的纵坐标,从而得到每种环境数据的替换后的变化曲线,替换后的变化曲线的不同段数据的相似度变大,从而可以大大提高压缩效果。
在得到每种环境数据的替换后的变化曲线后,利用现有的数据压缩方式对替换后的变化曲线进行压缩处理,从而得到每种环境数据的压缩数据,同时记录每种环境数据的替换后的变化曲线的数据段序列以及上述的分段周期,以便于后续进行数据还原。为了便于理解,以环境数据a、环境数据b和环境数据c为例,其对应的数据段序列分别为:a1、a2、b3、a4、a5;b1、b2、b3、c4、b5;c1、a3、c3、c4、c5。数据段序列中的每个元素表示对应环境数据一条曲线子段,其元素中的字母表示环境数据的类型,元素中的数字表示曲线子段的位置编号。在进行数据还原时,对于环境数据a,在不进行替换的情况下,由于其对应的数据段序列应该为a1、a2、a3、a4、a5,因此对于上述数据段序列a1、a2、b3、a4、a5中的非a开头的元素b3,在环境数据c对应的数据段序列中找到元素a3,并确定元素a3在环境数据c的替换后的变化曲线中所对应的曲线子段,利用该曲线子段对元素b3在环境数据a的替换后的变化曲线中所对应的曲线子段进行替换还原,替换还原时同样需要邻接数据的对齐,从而实现对环境数据a的变化曲线还原。按照相同的方式,可以实现每种环境数据的变化曲线还原。另外,在对每种环境数据的需替换曲线子段进行替换时,如果存在需替换曲线子段被替换掉,且该需替换曲线子段没有去替换其他的需替换曲线子段,则将该需替换曲线子段单独保存,同时记录其对应的在数据段序列中的元素,在进行数据还原时,直接将该需替换曲线子段替换还原到对应的位置。
在得到不同种类的环境数据的压缩数据之后,将这些不同种类的环境数据的压缩数据进行传输,以用于智慧城市治理。智慧城市治理包括对数据还原后的压缩数据进行数据分析、决策等过程,由于本方案的重点在于在进行智慧城市治理过程中,获得压缩效果较好的环境数据,从而提高数据传输效率,而对不同种类的环境数据的压缩数据进行数据还原的过程为数据压缩的反向操作过程,以及后续如果利用数据还原后的压缩数据来进行智慧城市治理,属于现有技术且不是本方案关注的重点,此处不再赘述。
本实施例还提供了一种用于智慧城市治理的数据处理系统,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现上述的一种用于智慧城市治理的数据处理方法的步骤。由于该系统的核心在于实现该方法的步骤,而该方法的步骤已经在上述内容中进行了详细介绍,此处不再赘述。
需要说明的是:以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种用于智慧城市治理的数据处理方法,其特征在于,包括以下步骤:
获取每种环境数据的变化曲线,并获取所述变化曲线在各个设定窗口大小下对应的平滑曲线;
确定任意两种环境数据对应的任意两个平滑曲线之间的距离指标值,根据所述距离指标值,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重;
根据各种环境数据的变化曲线,确定分段周期,利用所述分段周期对每种环境数据的变化曲线进行分段,得到每种环境数据的各个曲线子段;
确定每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度,根据所述相近程度,确定每种环境数据的各个需替换曲线子段;
确定每种环境数据的每个需替换曲线子段的各个候选匹配段,所述候选匹配段为其他种类的环境数据的曲线子段,确定每个需替换曲线子段与其各个候选匹配段之间的匹配数据点数目;
将每种环境数据的每个候选匹配段对应的环境数据作为替换环境数据,根据每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,以及每种环境数据与其每个候选匹配段对应的替换环境数据所构成的数据类别组中替换环境数据对应的替换权重,确定每个候选匹配段的匹配度,并根据所述匹配度,确定每种环境数据的每个需替换曲线子段的匹配段;
根据每种环境数据的每个需替换曲线子段的匹配段,对每种环境数据的需替换曲线子段进行替换,得到每种环境数据的替换后的变化曲线,并对所述替换后的变化曲线进行压缩处理从而得到压缩数据。
2.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定任意两种环境数据对应的任意两个平滑曲线之间的距离指标值,包括:
确定每种环境数据对应的每个平滑曲线的各个极值点,计算所有极值点对应的环境数据值的平均值,计算每个极值点对应的环境数据值与所述平均值的差值,并将所有差值的平均值确定为每种环境数据对应的每个平滑曲线的幅值表征值;
确定任意两个环境数据对应的任意两个平滑曲线的幅值表征值中的较大值和较小值,计算较小值与较大值的比值,将较大值对应的平滑曲线上的所有环境数据值乘以所述比值,从而得到较大值对应的修正后的平滑曲线,将较小值对应的平滑曲线与较大值对应的修正后的平滑曲线之间的DTW距离,确定为任意两种环境数据对应的任意两个平滑曲线之间的距离指标值。
3.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定各个数据类别组以及各个数据类别组中每种环境数据对应的替换权重,包括:
将任意一种环境数据作为目标环境数据,按照对应的设定窗口大小从小到大的顺序,依次遍历判断目标环境数据的每个平滑曲线与其他各种环境数据的每个平滑曲线之间的距离指标值是否小于设定距离阈值,直至存在距离指标值小于设定距离阈值或者遍历完毕;
若存在距离指标值小于设定距离阈值,则将目标环境数据和对应的其他种类的环境数据确定为一个数据类别组,并将距离指标值小于设定距离阈值对应的两个平滑曲线确定为一个平滑曲线对;
按照从小到大的顺序对各个设定窗口大小进行排列,从而得到设定窗口大小序列;
若同一种数据类别组存在至少两种不同的平滑曲线对,则确定每种平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号的相加和,并将最小的相加和对应的平滑曲线对确定为该数据类别组对应的目标平滑曲线对;
若同一种数据类别组只存在一种平滑曲线对,则将该平滑曲线对确定为该数据类别组的目标平滑曲线对;
根据每个数据类别组对应的目标平滑曲线对中两个平滑曲线对应的设定窗口大小以及两个平滑曲线之间的距离指标值,计算每个数据类别组中每种环境数据对应的替换权重。
4.根据权利要求3所述的一种用于智慧城市治理的数据处理方法,其特征在于,计算每个数据类别组中每种环境数据对应的替换权重对应的计算公式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
为每个数据类别组中每种环境数据对应的替换权重,/>
Figure QLYQS_3
为每个数据类别组对应的目标平滑曲线对中每种环境数据的平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号,/>
Figure QLYQS_4
为所有数据类别组对应的平滑曲线对中两个平滑曲线对应的设定窗口大小在设定窗口大小序列中的序号中的最大值,d为每个数据类别组对应的目标平滑曲线对中两个平滑曲线之间的距离指标值,e为自然常数。
5.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定分段周期,包括:
利用傅里叶变换将每种环境数据的变化曲线转换到频域空间,确定最大幅值对应的频率值,并将所述频率值的倒数确定为每种环境数据的周期值;
利用每种环境数据的周期值对其他每种环境数据的变化曲线进行分段,获取其他每种环境数据的各个曲线分段,进而确定其他每种环境数据的曲线分段相似度值;
计算每种环境数据对应的其他所有种环境数据的曲线分段相似度值的平均值,并将最大的所述平均值所对应的环境数据的周期值确定为分段周期。
6.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度,根据所述相近程度,确定每种环境数据的各个需替换曲线子段,包括:
计算每种环境数据的每个曲线子段与其每个相邻曲线子段之间的相似度;
将每种环境数据的每个曲线子段对应的所有相似度的平均值确定为每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度;
判断每种环境数据的每个曲线子段与其相邻曲线子段之间的相近程度是否小于相近程度阈值,若小于相近程度阈值,则将对应的曲线子段确定为需替换曲线子段。
7.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定每种环境数据的每个需替换曲线子段的各个候选匹配段,包括:
在确定每种环境数据的每个需替换曲线子段的每个相邻曲线子段与其他种类的环境数据的每个曲线子段之间的DTW距离时,将一对一匹配的数据点的总数与对应所有数据点的总数目的比值确定为匹配数据点占比;
判断所述匹配数据点占比是否大于设定占比阈值,若大于设定占比阈值,则将对应的其他种类的环境数据的曲线子段确定为对应环境数据的需替换曲线子段的候选匹配段。
8.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定每个需替换曲线子段与其各个候选匹配段之间的匹配数据点数目,包括:
在确定每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的DTW距离时,将一对一匹配的数据点的总数确定为每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目。
9.根据权利要求1所述的一种用于智慧城市治理的数据处理方法,其特征在于,确定每个候选匹配段的匹配度对应的计算公式为:
Figure QLYQS_5
其中,
Figure QLYQS_6
为每种环境数据的每个需替换曲线子段对应的每个候选匹配段的匹配度,/>
Figure QLYQS_7
为每种环境数据与其每个候选匹配段对应的替换环境数据所构成的数据类别组中替换环境数据对应的替换权重,/>
Figure QLYQS_8
为每种环境数据的每个需替换曲线子段与其每个候选匹配段之间的匹配数据点数目,h为所述分段周期。
10.一种用于智慧城市治理的数据处理系统,其特征在于,包括处理器和存储器,所述处理器用于处理存储在所述存储器中的计算机指令,以实现如权利要求1-9中任一项所述的一种用于智慧城市治理的数据处理方法的步骤。
CN202310544348.6A 2023-05-16 2023-05-16 用于智慧城市治理的数据处理方法及系统 Active CN116257735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310544348.6A CN116257735B (zh) 2023-05-16 2023-05-16 用于智慧城市治理的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310544348.6A CN116257735B (zh) 2023-05-16 2023-05-16 用于智慧城市治理的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN116257735A true CN116257735A (zh) 2023-06-13
CN116257735B CN116257735B (zh) 2023-07-25

Family

ID=86688402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310544348.6A Active CN116257735B (zh) 2023-05-16 2023-05-16 用于智慧城市治理的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN116257735B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033141A (zh) * 2018-06-08 2018-12-18 苏州大学 一种基于轨迹字典的时空轨迹压缩方法
US20190173795A1 (en) * 2016-08-09 2019-06-06 Siemens Aktiengesellschaft Method, System and Program Product for Data Transmission with a Reduced Data Volume
CN113051442A (zh) * 2019-12-26 2021-06-29 中国电信股份有限公司 时间序列数据处理方法、装置和计算机可读存储介质
CN114330583A (zh) * 2021-12-31 2022-04-12 四川大学 一种异常用电识别方法和异常用电识别系统
CN114693855A (zh) * 2022-05-31 2022-07-01 中汽创智科技有限公司 一种点云数据的处理方法和装置
CN115659070A (zh) * 2022-12-28 2023-01-31 鸿基骏业环保科技有限公司 一种基于nb-iot智能水表的水流量数据传输方法
CN115696690A (zh) * 2022-12-12 2023-02-03 保定思齐智科信息科技有限公司 一种分布式智慧建筑照明自适应节能控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190173795A1 (en) * 2016-08-09 2019-06-06 Siemens Aktiengesellschaft Method, System and Program Product for Data Transmission with a Reduced Data Volume
CN109033141A (zh) * 2018-06-08 2018-12-18 苏州大学 一种基于轨迹字典的时空轨迹压缩方法
CN113051442A (zh) * 2019-12-26 2021-06-29 中国电信股份有限公司 时间序列数据处理方法、装置和计算机可读存储介质
CN114330583A (zh) * 2021-12-31 2022-04-12 四川大学 一种异常用电识别方法和异常用电识别系统
CN114693855A (zh) * 2022-05-31 2022-07-01 中汽创智科技有限公司 一种点云数据的处理方法和装置
CN115696690A (zh) * 2022-12-12 2023-02-03 保定思齐智科信息科技有限公司 一种分布式智慧建筑照明自适应节能控制方法
CN115659070A (zh) * 2022-12-28 2023-01-31 鸿基骏业环保科技有限公司 一种基于nb-iot智能水表的水流量数据传输方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINKUN XIAO ET AL.: "Motion retrieval based on Dynamic Bayesian Network and Canonical Time Warping", SOFT COMPUTING, pages 1 - 14 *
梅寒蕾 等: "一种基于动态时间弯曲的数据流子序列匹配系统", 计算机研究与发展, no. 1, pages 112 - 117 *

Also Published As

Publication number Publication date
CN116257735B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110147760B (zh) 一种高效电能质量扰动图像特征提取与识别新方法
CN106372747B (zh) 基于随机森林的台区合理线损率估计方法
CN110515931B (zh) 一种基于随机森林算法的电容型设备缺陷预测方法
CN112529053A (zh) 一种服务器中时序数据短期预测方法及系统
CN116257735B (zh) 用于智慧城市治理的数据处理方法及系统
CN114626487A (zh) 基于随机森林分类算法的线变关系校核方法
CN110032585B (zh) 一种时间序列双层符号化方法及装置
CN111401412B (zh) 一种基于平均共识算法的物联网环境下分布式软聚类方法
CN111327706B (zh) 远程抄表数据处理方法、装置、燃气表系统及燃气云平台
CN106778692B (zh) 一种基于s变换的电缆局部放电信号识别方法及装置
CN116338322A (zh) 一种电网线路阻抗预测方法及系统
CN115051363B (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN116561569A (zh) 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法
CN114839586B (zh) 基于em算法的低压台区计量装置失准计算方法
CN111539275B (zh) 一种基于负载特性可视化的电气负载分类方法和系统
CN113535527A (zh) 一种面向实时流数据预测性分析的降载方法及系统
CN114064754B (zh) 一种工业时序数据特征学习方法
CN116595102B (zh) 一种改进聚类算法的大数据管理方法及系统
CN117951695B (zh) 一种工业未知威胁检测方法及系统
CN116975401A (zh) 数据库字段识别方法、装置、计算机设备及存储介质
CN115542062B (zh) 户变关系异常的识别方法、装置、设备和存储介质
CN117034063A (zh) 一种基于lttb-pfcm算法的配电台区相位识别方法
Wang et al. EVIboost for the Estimation of Extreme Value Index under Heterogeneous Extremes
CN118097332A (zh) 基于图像样本的数据增强方法
CN117171667A (zh) 一种非侵入式负荷识别增强方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant