CN115858895A - 一种用于智慧城市的多源异构数据处理方法及系统 - Google Patents

一种用于智慧城市的多源异构数据处理方法及系统 Download PDF

Info

Publication number
CN115858895A
CN115858895A CN202310139174.5A CN202310139174A CN115858895A CN 115858895 A CN115858895 A CN 115858895A CN 202310139174 A CN202310139174 A CN 202310139174A CN 115858895 A CN115858895 A CN 115858895A
Authority
CN
China
Prior art keywords
data
processed
segment
template
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310139174.5A
Other languages
English (en)
Other versions
CN115858895B (zh
Inventor
梁聪
王梓旭
王一涵
杨厚鑫
林俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yojia Environment Technology Co ltd
Original Assignee
Shandong Yojia Environment Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yojia Environment Technology Co ltd filed Critical Shandong Yojia Environment Technology Co ltd
Priority to CN202310139174.5A priority Critical patent/CN115858895B/zh
Publication of CN115858895A publication Critical patent/CN115858895A/zh
Application granted granted Critical
Publication of CN115858895B publication Critical patent/CN115858895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种用于智慧城市的多源异构数据处理方法及系统。该方法包括:采集多源异构数据,将同一类型的多源异构数据作为同类型数据,确定待处理数据与模板数据,计算待处理数据段与模板数据段间的差异作为数据波动程度;搭建数据坐标系,确定待处理坐标点和模板坐标点,对待处理坐标点和模板坐标点进行动态时间规整处理,获取待处理数据段的偏移方向,得到拓展数据段,确定拓展数据段与待处理数据段的匹配程度;计算待处理数据的噪声可能性指标,根据噪声可能性指标从同类型数据中确定正常数据与噪声数据,标记噪声数据得到标记结果,将标记结果作为处理结果。本发明能够增强多源异构数据处理的可靠性。

Description

一种用于智慧城市的多源异构数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于智慧城市的多源异构数据处理方法及系统。
背景技术
多源异构数据一般指多个数据持有方、数据的类型、特征等不一致的数据,通过多源异构数据进行统一的数据处理和访问及维护,更有利于建立一体化服务。智慧城市,是把新一代信息技术充分运用在城市中各行各业的城市信息化高级形态,实现了信息化、工业化与城镇化深度融合,有助于提高城镇化质量,实现精细化和动态管理,由于智慧城市涉及的领域广阔,因此,智慧城市中的多源异构数据具有噪声数据存量多,噪声数据检索计算量过大的特点。
相关技术中,通过动态时间规整算法(Dynamic Time Warping,DTW)确定多源异构数据与历史数据的匹配程度,进而确定噪声数据,这种方式下,由于无法选取合适长度的历史数据,容易产生过匹配的现象,增大了计算量的同时,对噪声数据获取的准确性较低,进而导致对多源异构数据处理的可靠性不足。
发明内容
为了解决对多源异构数据处理的可靠性不足的技术问题,本发明提供一种用于智慧城市的多源异构数据处理方法及系统,所采用的技术方案具体如下:
本发明提出了一种用于智慧城市的多源异构数据处理方法,方法包括:
采集多源异构数据,根据数据类型对所述多源异构数据进行分类,将同一类型的所述多源异构数据作为同类型数据,从所述同类型数据中任选某一数据作为待处理数据,确定所述待处理数据与相邻的所述同类型数据间的数据差异;
将包含所述待处理数据的第一预设数量个相邻的所述同类型数据作为待处理数据段,获取历史数据,确定与所述待处理数据段中的数据同时刻的所述历史数据为模板数据,将所述模板数据组合作为模板数据段,计算所述待处理数据段与所述模板数据段间的差异作为数据波动程度;
搭建数据坐标系,从所述数据坐标系中确定待处理坐标点和模板坐标点,对所述待处理坐标点和所述模板坐标点进行动态时间规整处理,获取所述待处理数据段的偏移方向,根据所述偏移方向和所述数据波动程度,对所述模板数据段进行拓展,得到拓展数据段,确定所述拓展数据段与所述待处理数据段的匹配程度;
根据所述数据差异和所述匹配程度,计算所述待处理数据的噪声可能性指标,遍历所有类型的所述同类型数据,根据所述噪声可能性指标从所述同类型数据中确定正常数据与噪声数据,标记所述噪声数据得到标记结果,将所述标记结果作为所述多源异构数据的处理结果。
进一步地,所述确定所述待处理数据与相邻的所述同类型数据间的数据差异,包括:
确定与所述待处理数据相邻的第二预设数量个所述同类型数据作为相邻数据;
分别计算所述待处理数据与每个所述相邻数据间的差值绝对值作为相邻差异;
计算所有所述相邻差异的和值归一化值作为所述数据差异。
进一步地,所述计算所述待处理数据段与所述模板数据段间的差异作为数据波动程度,包括:
计算所述待处理数据段中的数据与同时刻的所述模板数据段中的数据的差值绝对值作为同时刻数据差异;
计算所有所述同时刻数据差异的和值归一化值作为所述数据波动程度。
进一步地,所述搭建数据坐标系,从所述数据坐标系中确定待处理坐标点和模板坐标点,包括:
以所述时间为横轴,所述数据值为纵轴搭建所述数据坐标系;
按照时序顺序将所述待处理数据段中的数据映射至所述数据坐标系中,得到待处理坐标点,按照时序顺序将所述模板数据段中的数据映射至所述数据坐标系中,得到模板坐标点。
进一步地,所述对所述待处理坐标点和所述模板坐标点进行动态时间规整处理,获取所述待处理数据段的偏移方向,包括:
基于动态时间规整算法对所述待处理坐标点和所述模板坐标点进行动态时间规整处理,确定相匹配的所述待处理坐标点和所述模板坐标点作为匹配数据对;
计算所述匹配数据对中所述待处理坐标点的横坐标值和所述模板坐标点的横坐标值的差值为横轴差值,将所有所述匹配数据对的所述横轴差值的和值作为偏移系数;
在所述偏移系数为非负值时,确定所述待处理数据段向右偏移;在所述偏移系数为负值时,确定所述待处理数据段向左偏移。
进一步地,所述根据所述偏移方向和所述数据波动程度,对所述模板数据段进行拓展,得到拓展数据段,包括:
计算所述数据波动程度和所述第一预设数量的乘积作为待拓展数据量;
沿着所述偏移方向从所述历史数据中获取所述待拓展数据量个数据作为待拓展数据,将所述模板数据段与所述待拓展数据组合作为拓展数据段。
进一步地,所述确定所述拓展数据段与所述待处理数据段的匹配程度,包括:
基于动态时间规整算法确定所述拓展数据段与所述待处理数据段的最短距离,将所述最短距离的归一化值作为所述匹配程度。
进一步地,所述根据所述数据差异和所述匹配程度,计算所述待处理数据的噪声可能性指标,包括:
在所述匹配程度大于预设匹配程度阈值时,确定所述噪声可能性指标为0;
在所述匹配程度小于等于所述预设匹配程度阈值时,计算所述数据差异与所述匹配程度的比值的归一化值作为所述噪声可能性指标。
进一步地,所述根据所述噪声可能性指标从所述同类型数据中确定正常数据与噪声数据,包括:
将所述噪声可能性指标小于等于预设可能性阈值的所述待处理数据作为所述正常数据;
确定所述噪声可能性指标大于预设可能性阈值的所述待处理数据作为所述噪声数据。
本发明还提出了一种用于智慧城市的多源异构数据处理系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现前述所述的一种用于智慧城市的多源异构数据处理方法。
本发明具有如下有益效果:
本发明通过将多源异构数据划分为多个同类型数据,能够根据不同类型的数据进行分析,从而避免对多种类型的多源异构数据统一分析导致数据分析错误率较高,通过确定待处理数据,并确定待处理数据与相邻的同类型数据间的数据差异,能够有效确定待处理数据在相邻的同类型数据间的合理性,从而便于后续根据数据差异,有效分析待处理数据为噪声数据的可能性;通过确定待处理数据段,并将待处理数据段与同时刻的历史数据组成的模板数据段进行比较,能够确定待处理数据段与模板数据段间的数据波动程度,从而有效避免连续的噪声数据影响噪声判断,提升数据处理的可靠性;通过数据坐标系,并在数据坐标系中对待处理坐标点和模板坐标点进行动态时间规整处理,能够进一步通过动态时间规整处理确定待处理坐标点和模板坐标点间的偏移方向,而后,根据偏移方向结合数据波动程度,有效确定待进行数据拓展的拓展数据段,能够准确确定拓展数据段,避免由于拓展数据段过长导致的匹配计算量过大,同时避免拓展数据段过短导致无法有效匹配,从而保证拓展数据段的合理性,进而保证拓展数据段与待处理数据段间匹配程度的准确性;由于是根据数据差异和匹配程度,计算待处理数据的噪声可能性指标,数据差异为待处理数据与相邻的同类型数据间的差异,可以表征待处理数据自身的异常情况,匹配程度表示待处理数据段与拓展数据段的匹配程度,可以用于表征待处理数据段的异常情况,由此计算得到噪声可能性指标,能够准确确定待处理数据为噪声的可能性,根据噪声可能性指标确定正常数据与噪声数据,标记噪声数据得到标记结果,将标记结果作为多源异构数据的处理结果,从而有效对同类型数据进行数据筛选,确定其中的噪声数据。综上,本发明能够有效提升噪声数据获取的准确性,增强多源异构数据处理的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种用于智慧城市的多源异构数据处理方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于智慧城市的多源异构数据处理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于智慧城市的多源异构数据处理方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于智慧城市的多源异构数据处理方法流程图,该方法包括:
S101:采集多源异构数据,根据数据类型对多源异构数据进行分类,将同一类型的多源异构数据作为同类型数据,从同类型数据中任选某一数据作为待处理数据,确定待处理数据与相邻的同类型数据间的数据差异。
本发明实施例中,可以基于现有的智慧城市系统获取多源异构数据,或者,也可以在设备采集数据时,将数据进行收集整理作为多源异构数据,举例而言,可以获取智慧城市系统在一段时间内收集的数据作为多源异构数据。
可以理解的是,在获取多源异构数据时,是按照时序顺序获取的,例如周期性采集智慧城市中的数据作为多源异构数据,因此,对于所采集的多源异构数据均具有对应的时序信息,该时序信息可以具体例如为采集的时间等,以便于后续结合时序信息对多源异构数据进行分析。
本发明实施例中,可以根据数据类型对多源异构数据进行数据处理,将同类型的多源异构数据作为同类型数据。
其中,同类型数据,具体可以例如为用电量数据、用水量数据等,也即是说,将智慧城市某一区域中表示用电总量的数据作为用电量数据,并将用电量数据作为同类型数据;将智慧城市某一区域中表示用水总量的数据组合作为用水量数据,并将用水量数据作为同类型数据,由此,将多源异构数据划分为多个同类型数据。
本发明实施例中,可以将同类型数据按照时序顺序进行排序,而后,根据时序排序结果,选择任一时刻的同类型数据作为待处理数据,举例而言,可以选择上午8时的用电量数据作为待处理数据,对此不做限制。
进一步地,本发明实施例中,确定待处理数据与相邻的同类型数据间的数据差异,包括:确定与待处理数据相邻的第二预设数量个同类型数据作为相邻数据;分别计算待处理数据与每个相邻数据间的差值绝对值作为相邻差异;计算所有相邻差异的和值归一化值作为数据差异。
在本发明的另一些实施例中,也可以确定包含待处理数据和第二预设数量个相邻数据的均值,而后计算待处理数据与该均值的差值绝对值作为相邻差异,相邻差异旨在确定待处理数据在相邻的同类型数据间的异常情况。
其中,第二预设数量,为预设的相邻数据的数据数量,可以理解的是,第二预设数量可以具体例如为10,也即是说,将与待处理数据相邻的10个同类型数据作为相邻数据,本发明实施例中,可以直接选择与待处理数据相邻最近的第二预设数量个同类型数据作为相邻数据,或者,也可以通过设置左相邻或右相邻的规则选择相邻数据,对此不做限制。
由于待处理数据与相邻数据均具有对应的数据数值,如用电量、空气质量等数值,因此,可以计算待处理数据与每个相邻数据间的差值绝对值作为待处理数据与相邻数据间的相邻差异,而后,计算获得的相邻差异的和值,并对和值进行归一化处理得到数据差异。对应的数据差异计算公式如下式所示:
Figure SMS_1
式中,
Figure SMS_4
表示数据差异,
Figure SMS_5
表示第二预设数量,
Figure SMS_8
表示相邻数据的索引,
Figure SMS_3
表示第
Figure SMS_7
个相 邻数据与待处理数据间的相邻差异,其中,
Figure SMS_10
,式中,
Figure SMS_12
表示取绝对值,
Figure SMS_2
表示待 处理数据,
Figure SMS_6
表示第
Figure SMS_9
个相邻数据,
Figure SMS_11
表示归一化函数。
在本发明的一个实施例中,归一化方法可以具体采用最大最小值归一化方法,在后续所有步骤中归一化处理均可以采用最大最小值归一化方法,当然,在本发明的另一些实施例中,可以根据待归一化的数据的数值特点,选择其他合适的归一化方法,对此不做限制。
可以理解的是,由于噪声数据会与周围数据相差较大,因此,可以计算待处理数据与相邻数据间的数据差异,而数据差异越大,则越可以表示待处理数据与相邻数据间的差异越大,待处理数据为噪声数据的可能性就越大。
S102:将包含待处理数据的第一预设数量个相邻的同类型数据作为待处理数据段,获取历史数据,确定与待处理数据段中的数据同时刻的历史数据为模板数据,将模板数据组合作为模板数据段,计算待处理数据段与模板数据段间的差异作为数据波动程度。
其中,第一预设数量,为预设的与待处理数据相邻的同类型数据的数据数量,可以理解的是,第一预设数量可以与第二预设数量相同或不同,举例而言,第一预设数量可以具体例如为50,对此不做限制。由此,将包含待处理数据的第一预设数量个相邻的同类型数据组合作为待处理数据段。
其中,历史数据,为同类型数据所对应的历史数据,本发明实施例中,可以从智慧城市系统中统计的与同类型数据所对应的历史数据,或者,也可以从互联网,或者历史备份的数据中获取历史数据,举例而言,同类型数据为某一区域在今年的用电量数据时,则对应的历史数据可以选择该区域在去年的用电量数据,对此不做限制。
本发明实施例中,确定与待处理数据段中的数据同时刻的历史数据为模板数据,其中,可以根据历史数据对同时刻进行设定,举例而言,如果历史数据为昨天的同类型数据,则对应为不同日期中的同时刻,也即是说,如果待处理数据段为所对应的时刻为今日的8时至12时,则同时刻的模板数据为昨日的8时至12时所获取的同类型数据,对此不做限制。本发明实施例中,可以将模板数据按照时序顺序组合作为模板数据段,以便于后续根据模板数据段与待处理数据段对待处理数据进行数据分析。
进一步地,本发明实施例中,计算待处理数据段与模板数据段间的差异作为数据波动程度,包括:计算待处理数据段中的数据与同时刻的模板数据段中的数据的差值绝对值作为同时刻数据差异;计算所有同时刻数据差异的和值归一化值作为数据波动程度。
也即是说,确定与待处理数据段中的数据同时刻的模板数据段中的数据,由于待处理数据段与模板数据段所对应的时刻相同,且数据量相同,因此,待处理数据段中的数据可以与模板数据段中的数据一一匹配,则可以计算相同时刻所匹配数据的差值绝对值作为同时刻数据差异,并将所有同时刻数据差异的和值归一化值作为数据波动程度,其中,数据波动程度的计算公式可以如下式所示:
Figure SMS_13
式中,
Figure SMS_14
表示数据波动程度,
Figure SMS_20
表示第一预设数量,
Figure SMS_23
表示待处理数据段中数据的索 引,
Figure SMS_15
表示第
Figure SMS_18
个待处理数据段中数据与同时刻模板数据段中的数据间的数据差异,
Figure SMS_21
,式中,
Figure SMS_24
表示取绝对值,
Figure SMS_17
表示第
Figure SMS_19
个待处理数据段中的数据,
Figure SMS_22
表示与第
Figure SMS_25
个 待处理数据段中数据同时刻的模板数据段中的数据,
Figure SMS_16
表示归一化函数。
可以理解的是,在同时刻数据差异越大时,可以表示该时刻中待处理数据段的数据与模板数据段的数据差异较大,差异较大可能由于发生时序上的数据偏移导致,或者,也可能因为待处理数据段中连续产生多次噪声导致,由此,待处理数据段的数据与模板数据段的数据差异较大时,所对应的数据波动程度越大。
在本发明的另一些实施例中,也可以计算待处理数据段中所有数据的和值为待处理数据和值,计算模板数据段中所有数据的和值为模板数据和值,将待处理数据和值和模板数据和值的差值归一化值作为数据波动程度。
S103:搭建数据坐标系,从数据坐标系中确定待处理坐标点和模板坐标点,对待处理坐标点和模板坐标点进行动态时间规整处理,获取待处理数据段的偏移方向,根据偏移方向和数据波动程度,对模板数据段进行拓展,得到拓展数据段,确定拓展数据段与待处理数据段的匹配程度。
进一步地,本发明实施例中,搭建数据坐标系,从数据坐标系中确定待处理坐标点和模板坐标点,包括:以时间为横轴,数据值为纵轴搭建数据坐标系;按照时序顺序将待处理数据段中的数据映射至数据坐标系中,得到待处理坐标点,按照时序顺序将模板数据段中的数据映射至数据坐标系中,得到模板坐标点。
本发明实施例中,通过搭建数据坐标系,而后将待处理数据段中的数据和模板数据段中的数据映射至数据坐标系中,能够更为直观地展示待处理数据段和模板数据段中数据的差异,便于后续对待处理坐标点和模板坐标点进行处理。
进一步地,本发明实施例中,对待处理坐标点和模板坐标点进行动态时间规整处理,获取待处理数据段的偏移方向,包括:基于动态时间规整算法对待处理坐标点和模板坐标点进行动态时间规整处理,确定相匹配的待处理坐标点和模板坐标点作为匹配数据对;计算匹配数据对中待处理坐标点的横坐标值和模板坐标点的横坐标值的差值为横轴差值,将所有匹配数据对的横轴差值的和值作为偏移系数;在偏移系数为非负值时,确定待处理数据段向右偏移;在偏移系数为负值时,确定待处理数据段向左偏移。
其中,动态时间规整算法,为在时序顺序上对数据进行整理的算法,动态时间规整算法能够确定一定时序范围内两组数据间的相似程度,应用于本发明中,则基于动态时间规整算法对待处理坐标点和模板坐标点进行动态时间规整处理,确定基于动态时间规整处理后的匹配数据对,可以理解的是,与待处理坐标点所匹配的模板坐标点,两点在时序上可能具有差异,则可以分别确定相匹配的待处理坐标点的横坐标值和模板坐标点的横坐标值,并将两点间的横坐标值的差值作为横轴差值,横轴差值具有正负之分,在横轴差值为正值时,所对应的待处理坐标点的横坐标值大于模板坐标点的横坐标值,在横轴差值为负值时,所对应的待处理坐标点的横坐标值小于模板坐标点的横坐标值,在横轴差值为0时,所对应的待处理坐标点的横坐标值与模板坐标点的横坐标值相同。由此,计算所有匹配数据对的横轴差值的和值作为偏移系数,并根据偏移系数的正负确定偏移方向,在偏移系数为非负值时,确定待处理数据段向右偏移;在偏移系数为负值时,确定待处理数据段向左偏移。
进一步地,本发明实施例中,根据偏移方向和数据波动程度,从历史数据中对模板数据段进行拓展,得到拓展数据段,包括:计算数据波动程度和第一预设数量的乘积作为待拓展数据量;沿着偏移方向从历史数据中获取待拓展数据量个数据作为待拓展数据,将模板数据段与待拓展数据组合作为拓展数据段。
其中,待拓展数据量对应的计算公式如下式所示:
Figure SMS_26
式中,
Figure SMS_27
表示待拓展数据量,
Figure SMS_28
表示第一预设数量,
Figure SMS_29
表示数据波动程度。
本发明实施例中,由于数据波动性越大,可以表示数据偏移程度越大,则可以计算数据波动程度和第一预设数量的乘积作为待拓展数据量,由于第一预设数量为预设的值,则待拓展数据量的大小与数据波动程度呈正比例关系。
在确定待拓展数据量之后,可以沿着偏移方向从历史数据中获取待拓展数据量个数据作为待拓展数据,可以理解的是,由于在对模板数据段进行数据拓展时,所对应的待拓展数据为与模板数据段相邻的数据,则沿着偏移方向从历史数据中获取待拓展数据量个数据作为待拓展数据,也即是说,在待处理数据段向右偏移时,可将模板数据段右侧待拓展数据量个数据作为待拓展数据,在待处理数据段向左偏移时,可将模板数据段左侧待拓展数据量个数据作为待拓展数据,由此,能够有效确定待拓展数据。
本发明实施例在得到待拓展数据之后,可以根据时序顺序进行组合将模板数据段与待拓展数据组合作为拓展数据段,便于后续根据拓展数据段确定拓展数据段与待处理数据段的匹配程度。
当然,在本发明的另一些实施例中,根据偏移方向和数据波动程度,从历史数据中对模板数据段进行拓展,还可以是根据数据波动程度的数值大小与第一预设数量的数值大小得到初始待拓展数据量,将历史数据中对应初始待拓展数据量的数据添加至模板数据段中,生成初始拓展数据段,而后计算初始拓展数据段与待处理数据段的数据波动程度,在数据波动程度满足一定阈值要求时,将初始拓展数据段作为拓展数据段,在数据波动程度不满足一定阈值要求时,则继续按照所得到的初始拓展数据段与待处理数据段的数据波动程度进行待拓展数据量的计算,直至数据波动程度满足阈值要求,输出最终的初始拓展数据段作为拓展数据段。
进一步地,本发明实施例中,确定拓展数据段与待处理数据段的匹配程度,包括:基于动态时间规整算法确定拓展数据段与待处理数据段的最短距离,将最短距离的归一化值作为匹配程度。
其中,匹配程度,为拓展数据段与待处理数据段间匹配性的指标,可以理解的是,使用动态时间规整算法确定拓展数据段与待处理数据段的最短距离,该最短距离可以表示拓展数据段与待处理数据段间的相似性,将最短距离的归一化值作为匹配程度,则匹配程度越大,可以表明拓展数据段与待处理数据段间越相似。
S104:根据数据差异和匹配程度,计算待处理数据的噪声可能性指标,遍历所有类型的同类型数据,根据噪声可能性指标从同类型数据中确定正常数据与噪声数据,标记噪声数据得到标记结果,将标记结果作为多源异构数据的处理结果。
进一步地,本发明实施例中,根据数据差异和匹配程度,计算待处理数据的噪声可能性指标,包括:在匹配程度大于预设匹配程度阈值时,确定噪声可能性指标为0;在匹配程度小于等于预设匹配程度阈值时,计算数据差异与匹配程度的比值的归一化值作为噪声可能性指标。
其中,噪声可能性指标,是待处理数据为噪声数据的可能性的指标值,噪声可能性指标越大,则可以表示所对应待处理数据为噪声数据的可能性越大。
其中,预设匹配程度阈值,为预设的匹配程度的门限值,可选地,预设匹配程度阈值可以具体例如为0.7,也即是说,在匹配程度大于0.7时,则确定待处理数据的噪声可能性指标为0,则此时可以直接确定所对应待处理数据不可能为噪声数据,在匹配程度小于等于0.7时,计算数据差异和匹配程度的乘积作为噪声可能性指标。对应的噪声可能性指标计算公式如下式所示:
Figure SMS_30
式中,
Figure SMS_31
表示噪声可能性指标,
Figure SMS_32
表示数据差异,
Figure SMS_33
表示匹配程度,
Figure SMS_34
表示归一化函 数。
由于数据差异越大,则可以表示待处理数据与相邻数据间的差异越大,待处理数据为噪声数据的可能性就越大,也即是说,数据差异与噪声可能性指标呈正比例关系,由于匹配程度可以表示拓展数据段与待处理数据段间的相似性,则匹配程度越大,对应的拓展数据段与待处理数据段间的相似性越大,待处理数据段中的待处理数据为噪声的可能性越小,匹配程度与噪声可能性指标呈反比例关系。
进一步地,本发明实施例中,根据噪声可能性指标从同类型数据中确定正常数据与噪声数据,包括:将噪声可能性指标小于等于预设可能性阈值的待处理数据作为正常数据;确定噪声可能性指标大于预设可能性阈值的待处理数据作为噪声数据。
其中,预设可能性阈值,为噪声可能性指标的门限值,在噪声可能性指标小于等于预设可能性阈值时,可以将对应的待处理数据作为正常数据,在噪声可能性指标大于预设可能性阈值时,可以将对应的待处理数据作为噪声数据,可选地,预设可能性阈值可以具体例如为0.9,当然,也可以根据实际需求进行调整,对此不做限制。
由此,通过对噪声可能性指标进行分析确定待处理数据为噪声数据的可能性,从而保证对噪声数据的有效筛选。
本发明实施例中,标记噪声数据得到标记结果,将标记结果作为多源异构数据的处理结果,可以在检测到噪声数据之后,使用预设的标识符对噪声数据进行标记,便于后续对所标记的噪声数据进行进一步筛查与删除,由此,将经过标记结果作为多源异构数据的处理结果,从而有效确定多源异构数据中的噪声数据,保证对噪声数据的准确识别。
本发明通过将多源异构数据划分为多个同类型数据,能够根据不同类型的数据进行分析,从而避免对多种类型的多源异构数据统一分析导致数据分析错误率较高,通过确定待处理数据,并确定待处理数据与相邻的同类型数据间的数据差异,能够有效确定待处理数据在相邻的同类型数据间的合理性,从而便于后续根据数据差异,有效分析待处理数据为噪声数据的可能性;通过确定待处理数据段,并将待处理数据段与同时刻的历史数据组成的模板数据段进行比较,能够确定待处理数据段与模板数据段间的数据波动程度,从而有效避免连续的噪声数据影响噪声判断,提升数据处理的可靠性;通过数据坐标系,并在数据坐标系中对待处理坐标点和模板坐标点进行动态时间规整处理,能够进一步通过动态时间规整处理确定待处理坐标点和模板坐标点间的偏移方向,而后,根据偏移方向结合数据波动程度,有效确定待进行数据拓展的拓展数据段,能够准确确定拓展数据段,避免由于拓展数据段过长导致的匹配计算量过大,同时避免拓展数据段过短导致无法有效匹配,从而保证拓展数据段的合理性,进而保证拓展数据段与待处理数据段间匹配程度的准确性;由于是根据数据差异和匹配程度,计算待处理数据的噪声可能性指标,数据差异为待处理数据与相邻的同类型数据间的差异,可以表征待处理数据自身的异常情况,匹配程度表示待处理数据段与拓展数据段的匹配程度,可以用于表征待处理数据段的异常情况,由此计算得到噪声可能性指标,能够准确确定待处理数据为噪声的可能性,根据噪声可能性指标确定正常数据与噪声数据,标记噪声数据得到标记结果,将标记结果作为多源异构数据的处理结果,从而有效对同类型数据进行数据筛选,确定其中的噪声数据。综上,本发明能够有效提升噪声数据获取的准确性,增强多源异构数据处理的可靠性。
本发明还提出了一种用于智慧城市的多源异构数据处理系统,包括存储器和处理器,处理器执行存储器存储的计算机程序,以实现如上述的一种用于智慧城市的多源异构数据处理方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (10)

1.一种用于智慧城市的多源异构数据处理方法,其特征在于,所述方法包括:
采集多源异构数据,根据数据类型对所述多源异构数据进行分类,将同一类型的所述多源异构数据作为同类型数据,从所述同类型数据中任选某一数据作为待处理数据,确定所述待处理数据与相邻的所述同类型数据间的数据差异;
将包含所述待处理数据的第一预设数量个相邻的所述同类型数据作为待处理数据段,获取历史数据,确定与所述待处理数据段中的数据同时刻的所述历史数据为模板数据,将所述模板数据组合作为模板数据段,计算所述待处理数据段与所述模板数据段间的差异作为数据波动程度;
搭建数据坐标系,从所述数据坐标系中确定待处理坐标点和模板坐标点,对所述待处理坐标点和所述模板坐标点进行动态时间规整处理,获取所述待处理数据段的偏移方向,根据所述偏移方向和所述数据波动程度,对所述模板数据段进行拓展,得到拓展数据段,确定所述拓展数据段与所述待处理数据段的匹配程度;
根据所述数据差异和所述匹配程度,计算所述待处理数据的噪声可能性指标,遍历所有类型的所述同类型数据,根据所述噪声可能性指标从所述同类型数据中确定正常数据与噪声数据,标记所述噪声数据得到标记结果,将所述标记结果作为所述多源异构数据的处理结果。
2.如权利要求1所述的方法,其特征在于,所述确定所述待处理数据与相邻的所述同类型数据间的数据差异,包括:
确定与所述待处理数据相邻的第二预设数量个所述同类型数据作为相邻数据;
分别计算所述待处理数据与每个所述相邻数据间的差值绝对值作为相邻差异;
计算所有所述相邻差异的和值归一化值作为所述数据差异。
3.如权利要求1所述的方法,其特征在于,所述计算所述待处理数据段与所述模板数据段间的差异作为数据波动程度,包括:
计算所述待处理数据段中的数据与同时刻的所述模板数据段中的数据的差值绝对值作为同时刻数据差异;
计算所有所述同时刻数据差异的和值归一化值作为所述数据波动程度。
4.如权利要求1所述的方法,其特征在于,所述搭建数据坐标系,从所述数据坐标系中确定待处理坐标点和模板坐标点,包括:
以所述时间为横轴,所述数据值为纵轴搭建所述数据坐标系;
按照时序顺序将所述待处理数据段中的数据映射至所述数据坐标系中,得到待处理坐标点,按照时序顺序将所述模板数据段中的数据映射至所述数据坐标系中,得到模板坐标点。
5.如权利要求1所述的方法,其特征在于,所述对所述待处理坐标点和所述模板坐标点进行动态时间规整处理,获取所述待处理数据段的偏移方向,包括:
基于动态时间规整算法对所述待处理坐标点和所述模板坐标点进行动态时间规整处理,确定相匹配的所述待处理坐标点和所述模板坐标点作为匹配数据对;
计算所述匹配数据对中所述待处理坐标点的横坐标值和所述模板坐标点的横坐标值的差值为横轴差值,将所有所述匹配数据对的所述横轴差值的和值作为偏移系数;
在所述偏移系数为非负值时,确定所述待处理数据段向右偏移;在所述偏移系数为负值时,确定所述待处理数据段向左偏移。
6.如权利要求1所述的方法,其特征在于,所述根据所述偏移方向和所述数据波动程度,对所述模板数据段进行拓展,得到拓展数据段,包括:
计算所述数据波动程度和所述第一预设数量的乘积作为待拓展数据量;
沿着所述偏移方向从所述历史数据中获取所述待拓展数据量个数据作为待拓展数据,将所述模板数据段与所述待拓展数据组合作为拓展数据段。
7.如权利要求1所述的方法,其特征在于,所述确定所述拓展数据段与所述待处理数据段的匹配程度,包括:
基于动态时间规整算法确定所述拓展数据段与所述待处理数据段的最短距离,将所述最短距离的归一化值作为所述匹配程度。
8.如权利要求1所述的方法,其特征在于,所述根据所述数据差异和所述匹配程度,计算所述待处理数据的噪声可能性指标,包括:
在所述匹配程度大于预设匹配程度阈值时,确定所述噪声可能性指标为0;
在所述匹配程度小于等于所述预设匹配程度阈值时,计算所述数据差异与所述匹配程度的比值的归一化值作为所述噪声可能性指标。
9.如权利要求1所述的方法,其特征在于,所述根据所述噪声可能性指标从所述同类型数据中确定正常数据与噪声数据,包括:
将所述噪声可能性指标小于等于预设可能性阈值的所述待处理数据作为所述正常数据;
确定所述噪声可能性指标大于预设可能性阈值的所述待处理数据作为所述噪声数据。
10.一种用于智慧城市的多源异构数据处理系统,包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如权利要求1-9任一项所述的一种用于智慧城市的多源异构数据处理方法。
CN202310139174.5A 2023-02-21 2023-02-21 一种用于智慧城市的多源异构数据处理方法及系统 Active CN115858895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310139174.5A CN115858895B (zh) 2023-02-21 2023-02-21 一种用于智慧城市的多源异构数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310139174.5A CN115858895B (zh) 2023-02-21 2023-02-21 一种用于智慧城市的多源异构数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN115858895A true CN115858895A (zh) 2023-03-28
CN115858895B CN115858895B (zh) 2023-05-05

Family

ID=85658494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310139174.5A Active CN115858895B (zh) 2023-02-21 2023-02-21 一种用于智慧城市的多源异构数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN115858895B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095473A (zh) * 2015-08-11 2015-11-25 北京思特奇信息技术股份有限公司 一种对差异数据进行分析的方法及系统
CN106777084A (zh) * 2016-12-13 2017-05-31 清华大学 针对光变曲线在线分析及异常报警的方法及系统
JP2017143399A (ja) * 2016-02-10 2017-08-17 日本電信電話株式会社 時系列データ異常監視装置及び時系列データ異常監視方法
CN108829535A (zh) * 2018-06-08 2018-11-16 上海擎创信息技术有限公司 数据处理方法、终端及计算机可读存储介质
CN109656793A (zh) * 2018-11-22 2019-04-19 安徽继远软件有限公司 一种基于多源异构数据融合的信息系统性能立体监测方法
US20210293990A1 (en) * 2019-08-26 2021-09-23 Landmark Graphics Corporation Performing Dynamic Time Warping With Null or Missing Data
CN115145473A (zh) * 2021-03-31 2022-10-04 阿里巴巴新加坡控股有限公司 异构存储介质之间的数据处理方法、装置及设备
CN115600932A (zh) * 2022-12-12 2023-01-13 杭州原数科技有限公司(Cn) 一种基于大数据的文物储藏环境异常评估方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095473A (zh) * 2015-08-11 2015-11-25 北京思特奇信息技术股份有限公司 一种对差异数据进行分析的方法及系统
JP2017143399A (ja) * 2016-02-10 2017-08-17 日本電信電話株式会社 時系列データ異常監視装置及び時系列データ異常監視方法
CN106777084A (zh) * 2016-12-13 2017-05-31 清华大学 针对光变曲线在线分析及异常报警的方法及系统
CN108829535A (zh) * 2018-06-08 2018-11-16 上海擎创信息技术有限公司 数据处理方法、终端及计算机可读存储介质
CN109656793A (zh) * 2018-11-22 2019-04-19 安徽继远软件有限公司 一种基于多源异构数据融合的信息系统性能立体监测方法
US20210293990A1 (en) * 2019-08-26 2021-09-23 Landmark Graphics Corporation Performing Dynamic Time Warping With Null or Missing Data
CN115145473A (zh) * 2021-03-31 2022-10-04 阿里巴巴新加坡控股有限公司 异构存储介质之间的数据处理方法、装置及设备
CN115600932A (zh) * 2022-12-12 2023-01-13 杭州原数科技有限公司(Cn) 一种基于大数据的文物储藏环境异常评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JASON LINES ETC.: "Time series classification with ensembles of elastic diatance measures" *
粘冬晓: "相关性数据异常发现模型的研究与实现" *
陈静: "卫星遥测数据的时间序列相似性度量方法研究" *

Also Published As

Publication number Publication date
CN115858895B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US11043808B2 (en) Method for identifying pattern of load cycle
CN109858522A (zh) 一种基于数据挖掘的管理线损异常识别方法
CN111784093B (zh) 一种基于电力大数据分析的企业复工辅助判断方法
CN111680764B (zh) 一种行业复工复产程度监控方法
CN111724278A (zh) 一种面向电力多元负荷用户的精细分类方法及系统
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN111160401A (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
CN111539845B (zh) 一种基于用电模式隶属评分的企业环保管控响应研判方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN112819299A (zh) 一种基于中心优化的差分K-means负荷聚类方法
CN117034043A (zh) 基于多能源物联网的智慧建筑综合能耗监测方法及系统
CN108334988A (zh) 一种基于svm的短期电网负荷预测方法
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN115496893A (zh) 一种指针式水表读数识别方法
CN111984629B (zh) 多维场景下基于数据挖掘的台区线损率标准库构建方法
CN115858895A (zh) 一种用于智慧城市的多源异构数据处理方法及系统
CN111310121A (zh) 一种新能源出力概率预测方法和系统
CN116561692A (zh) 一种动态更新的实时量测数据检测方法
CN113554079B (zh) 一种基于二次检测法的电力负荷异常数据检测方法及系统
CN111222688B (zh) 一种商业楼宇的日负荷预测方法
CN114897097A (zh) 一种电力用户画像方法、装置、设备及介质
CN108848138B (zh) 一种监测效果良好的环境监测系统
CN114565031A (zh) 基于经纬度的车队识别方法、装置及计算机设备
CN114781482A (zh) 一种基于som-m的业扩项目聚类方法、装置、设备和存储介质
CN113568898A (zh) 电力数据漏点补全方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant