CN115964542A - 一种基于多视角算法的时空大数据挖掘方法 - Google Patents

一种基于多视角算法的时空大数据挖掘方法 Download PDF

Info

Publication number
CN115964542A
CN115964542A CN202211537557.XA CN202211537557A CN115964542A CN 115964542 A CN115964542 A CN 115964542A CN 202211537557 A CN202211537557 A CN 202211537557A CN 115964542 A CN115964542 A CN 115964542A
Authority
CN
China
Prior art keywords
data
space
time
big data
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211537557.XA
Other languages
English (en)
Inventor
孟毅
信家男
谭东宇
周淑媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aerospace Smart City System Technology Co ltd
Shenzhen Academy of Aerospace Technology
Original Assignee
Shenzhen Aerospace Smart City System Technology Co ltd
Shenzhen Academy of Aerospace Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aerospace Smart City System Technology Co ltd, Shenzhen Academy of Aerospace Technology filed Critical Shenzhen Aerospace Smart City System Technology Co ltd
Priority to CN202211537557.XA priority Critical patent/CN115964542A/zh
Publication of CN115964542A publication Critical patent/CN115964542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据挖掘领域,特别涉及一种基于多视角算法的时空大数据挖掘方法。包括步骤:S1.数据归集:根据业务特征实时获取对应业务流量的时空大数据作为源数据,建立数据管理库,将源数据导入数据管理库中储存;S2.数据清洗过滤:对源数据进行分类,并设定数据过滤规则对数据执行清洗和过滤操作;S3.信息融合:采用基于多视角自适应时空图网络,对源数据进行卷积并提取源数据中与业务特征关联的时空特征,并将提取的时空特征与业务特征进行融合;S4.绘制谱系:根据业务特征和时空特征的关联关系,构建关系图谱,将源数据导入关系图谱中,并根据关系图谱进行数据管理。减少了对数据处理的工作量,建立业务和时空特征的关联,提高了数据管理的效率。

Description

一种基于多视角算法的时空大数据挖掘方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于多视角算法的时空大数据挖掘方法。
背景技术
随着智能感知、互联网和物联网、云计算等新兴信息技术的迅速发展,人民的位置、行为、甚至身体生理特征、大气、水质、环境的每一点变化,都成为了可被感知、记录、存储、分离和利用的数据。随着卫星导航定位技术、天地空一体化遥感技术、地理信息系统技术及计算机和通信网络技术的发展,地球表面的集合特征和物理特征等,成为了可悲感知记录、存储、分离和利用的地理时空数据。时空大数据作为数据分析和挖掘的对象,分析和挖掘来获得时间变化的趋势和空间分布规律。
由于时空大数据的数据量大,数据多样性,用户可能会经历不可接受的运行时间或花费大量的精力进行预处理。除了数量和种类,相对于吸收容量的高数据速度是另一个计算挑战,用户经常体验到数据丢失。而且没有良好的数据的优化与处理,在数据读取使用的过程中容易造成搜索共享混乱的情况。
发明内容
本发明提供一种基于多视角算法的时空大数据挖掘方法,旨在解决现有技术中存在的问题。
本发明提供一种基于多视角算法的时空大数据挖掘方法,包括以下步骤:
S1.数据归集:根据业务特征实时获取对应业务流量的时空大数据作为源数据,建立数据管理库,将源数据导入数据管理库中储存;
S2.数据清洗过滤:对源数据进行分类,并设定数据过滤规则对数据执行清洗和过滤操作;
S3.信息融合:采用基于多视角自适应时空图网络,对源数据进行卷积并提取源数据中与业务特征关联的时空特征,并将提取的时空特征与业务特征进行融合;
S4.绘制谱系:根据业务特征和时空特征的关联关系,构建关系图谱,将源数据导入关系图谱中,并根据关系图谱进行数据管理。
作为本发明的进一步改进,所述步骤S1中,源数据的获取方式包括从数据终端、网络平台、应用程序中获取文本、图像、视频的时空大数据。
作为本发明的进一步改进,所述时空大数据包括但不限于:时空基准数据、GNSS和位置轨迹数据、大地测量与重磁测量数据、遥感影像数据、地图数据、空间媒体数据、库存管理数据、金融数据。
作为本发明的进一步改进,所述步骤S2中,数据清洗操作包括:
将源数据中重复性相似性较多的数据删除,在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,并将补偿后的源数据进行规格统一。
作为本发明的进一步改进,所述步骤S2中,数据过滤操作包括:
采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;对过滤处理后的数据进行时空网格化处理为时空网格编码进行存储;对时空网格编码内不满足时空约束条件的数据进行过滤。
作为本发明的进一步改进,所述步骤S3中基于多视角自适应时空图网络进行时空特征与业务特征融合的过程包括:
S31:并将源数据的业务特征通过全连接层映射到多通道上;
S32:将映射到多通道上的特征输入到采用双向异性图学习模块中,得到时间图和空间图;
S33:对时间图进行卷积,提取时间图的全局时间关联特征;
S34:根据全局时间关联特征对空间图进行处理,得到空间图的多尺度空间特征和长短期时间特征;
S35:将输入的业务特征、长短期时间特征以及多尺度空间特征进行融合,得到多尺度全局时空特征。
作为本发明的进一步改进,所述步骤S32中,采用双向异性图学习模块构建时间图和空间图的公式为:
M 1 =tanh( αE 1 θ 1 )
M 2 =tanh( αE 2 θ 2 )
M corr =  M 1  M 2 T
A= ReLU( tanh( βf L ( M corr )))
其中, M 1M 2分别表示初始的相关性矩阵, tanh表示双曲正切函数, αβ均表示设置的超参数, E 1E 2分别表示可学习的图编码矩阵, θ 1θ 2均表示权重矩阵, M corr 表示相关性矩阵, T表示转置, A表示双向异性图邻接矩阵, ReLU表示激活函数, f L 表示 L层双向异性函数。
作为本发明的进一步改进,所述步骤S4包括:
根据业务特征和时空特征的关联关系从数据管理库中获取目标时空大数据图层元数据;基于目标时空大数据图层元数据生成时空大数据图层节点,并根据关系图谱生成指令确定对应的时空大数据图层节点关系;根据时空大数据图层节点关系与时空大数据图层节点通过预设图谱构建规则构建时空大数据图层节点关系图谱,并根据时空大数据图层关系图谱进行数据管理。
本发明的有益效果是:通过建立数据管理库存储大量的原始数据,并通过对数据进行分类、清洗、过滤的预处理,数据进行初步的筛选,降低了后续数据融合过程中数据处理的压力,减少了对数据量和种类处理的工作量;利用多视角自适应时空图网络建立业务特征与时空特征的关联,通过其之间的关联状态即可方便用户的查询、使用,同时通过构建图谱的形式,方便了后期对数据的查阅调取,提高了数据管理的效率。
附图说明
图1是本发明基于多视角算法的时空大数据挖掘方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
如图1所示,本发明的一种基于多视角算法的时空大数据挖掘方法,包括以下步骤:
S1.数据归集:根据业务特征实时获取对应业务流量的时空大数据作为源数据,建立数据管理库,将源数据导入数据管理库中储存。将获取到的数据导入所建立的数据管理库中,利于对源数据进行预处理过程时,对源数据的实时调用,可以避免数据获取的延迟,提高数据处理的效率。
步骤S1中,源数据的获取方式包括从数据终端、网络平台、应用程序中获取文本、图像、视频的时空大数据。由于大数据存储方式的多样化,通过多种渠道的信息途径、多种格式的信息文件可以更充分地获取更多的数据量和数据种类,从而更全面地提取与业务特征相关的数据信息。
时空大数据包括但不限于:时空基准数据、GNSS和位置轨迹数据、大地测量与重磁测量数据、遥感影像数据、地图数据、空间媒体数据、库存管理数据、金融数据。
具体的,时空基准数据可以包括时间基准数据和空间基准数据;GNSS和位置轨迹数据可以包括GNSS基准站数据和位置轨迹数据,位置轨迹数据可以包括个人轨迹数据、群体轨迹数据、交通轨迹数据、信息流轨迹数据、物流轨迹数据和资金轨迹数据;大地测量与重磁测量数据包括大地控制数据、重力场数据和磁力数据;遥感影像数据可以包括卫星遥感影像数据、航空遥感影像数据、地面遥感影像数据和地下感知数据,卫星遥感影像数据可以包括可见光影像数据、微波遥感影像数据、红外影像数据和激光雷达扫描影像数据;地图数据为各类地图和地图集数据;空间媒体数据为具有空间位置特征的随时间变化的数字化文字、图形、图像、声音、视频、影像和动画媒体数据。
S2.数据清洗过滤:对源数据进行分类,并设定数据过滤规则对数据执行清洗和过滤操作。
数据清洗操作包括:
将源数据中重复性相似性较多的数据删除,在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,并将补偿后的源数据进行规格统一。
数据的预处理包括数据的清洗、数据补偿与数据格式处理统一,使得源数据能够精炼标准,获取的源数据进行处理,其中处理过程为数据清洗将源数据中重复性相似性较多的数据删除,并在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,接着将补偿后的源数据进行规格统一,保证数据流通格式的一致性。
数据过滤操作包括:
采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;异常数据包括:字段不完整的数据、存在于黑名单上的数据和不满足业务规则的数据,对应的规则过滤器的设定可以采用现有的常用方式。对过滤处理后的数据进行时空网格化处理为时空网格编码进行存储;对时空网格编码内不满足时空约束条件的数据进行过滤。
通过过滤常见的异常数据,并对数据进行时空网格化,对数据进行提炼,减少大量冗余基础采集日志存储,降低了存储成本,且保留了具有代表性价值的数据,为后续的时空关联挖掘工作打下良好基础。
S3.信息融合:采用基于多视角自适应时空图网络,对源数据进行卷积并提取源数据中与业务特征关联的时空特征,并将提取的时空特征与业务特征进行融合。
基于多视角自适应时空图网络进行时空特征与业务特征融合的过程包括:
S31:并将源数据的业务特征通过全连接层映射到多通道上。
S32:将映射到多通道上的特征输入到采用双向异性图学习模块中,得到时间图和空间图。
步骤S32中,采用双向异性图学习模块构建时间图和空间图的公式为:
M 1 =tanh( αE 1 θ 1 )
M 2 =tanh( αE 2 θ 2 )
M corr =  M 1  M 2 T
A= ReLU( tanh( βf L ( M corr )))
其中, M 1M 2分别表示初始的相关性矩阵, tanh表示双曲正切函数, αβ均表示设置的超参数, E 1E 2分别表示可学习的图编码矩阵, θ 1θ 2均表示权重矩阵, M corr 表示相关性矩阵, T表示转置, A表示双向异性图邻接矩阵, ReLU表示激活函数, f L 表示 L层双向异性函数。
S33:对时间图进行卷积,提取时间图的全局时间关联特征。
S34:根据全局时间关联特征对空间图进行处理,得到空间图的多尺度空间特征和长短期时间特征。
S35:将输入的业务特征、长短期时间特征以及多尺度空间特征进行融合,得到多尺度全局时空特征。
通过多视角自适应时空图网络,针对单向关联进行深层信息学习,使学习到的有向图结构具有双向异性,从而发掘路网或时间图中隐含的上下游关系。通过时间图卷积模块来提取时间维上的全局关联,并通过一组不同尺寸的卷积核来提取时间维上的长期和短期局部关联,使用双向异性图学习模型得到的图结构提取空间维上的全局和局部关联。进而建立起业务特征、时间特征、空间特征之间的关系并进行融合。
S4.绘制谱系:根据业务特征和时空特征的关联关系,构建关系图谱,将源数据导入关系图谱中,并根据关系图谱进行数据管理。
具体的,根据业务特征和时空特征的关联关系从数据管理库中获取目标时空大数据图层元数据;基于目标时空大数据图层元数据生成时空大数据图层节点,并根据关系图谱生成指令确定对应的时空大数据图层节点关系;根据时空大数据图层节点关系与时空大数据图层节点通过预设图谱构建规则构建时空大数据图层节点关系图谱,并根据时空大数据图层关系图谱进行数据管理。
并根据时空大数据图层节点关系与时空大数据图层节点之间的联系,构建数据节点关系图谱,以实现对于各类大数据的管理,且时空大数据图层节点关系包括属性关系、空间关系以及时间关系,可以实现时空大数据节点空间关系图谱、数据节点时间关系图谱以及数据节点属性关系图谱,以多种图谱的形式对大数据进行数据管理,并在图谱建立完成后,可以向用户提供查询的服务,根据用户的查询指令进行展示对应的数据节点关系图谱,避免了难以对各类时空大数据之间的关系进行高效管理,以及时空大数据的分析和挖掘困难,导致用户体验不高的技术问题,提高了对于多种大数据的管理效率,提高了用户的使用体验。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于多视角算法的时空大数据挖掘方法,其特征在于,包括以下步骤:
S1.数据归集:根据业务特征实时获取对应业务流量的时空大数据作为源数据,建立数据管理库,将源数据导入数据管理库中储存;
S2.数据清洗过滤:对源数据进行分类,并设定数据过滤规则对数据执行清洗和过滤操作;
S3.信息融合:采用基于多视角自适应时空图网络,对源数据进行卷积并提取源数据中与业务特征关联的时空特征,并将提取的时空特征与业务特征进行融合;
S4.绘制谱系:根据业务特征和时空特征的关联关系,构建关系图谱,将源数据导入关系图谱中,并根据关系图谱进行数据管理。
2.根据权利要求1所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述步骤S1中,源数据的获取方式包括从数据终端、网络平台、应用程序中获取文本、图像、视频的时空大数据。
3.根据权利要求2所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述时空大数据包括但不限于:时空基准数据、GNSS和位置轨迹数据、大地测量与重磁测量数据、遥感影像数据、地图数据、空间媒体数据、库存管理数据、金融数据。
4.根据权利要求1所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述步骤S2中,数据清洗操作包括:
将源数据中重复性相似性较多的数据删除,在数据清洗的过程中对源数据进行补偿查缺,将源数据中不完整数据进行联想补充,并将补偿后的源数据进行规格统一。
5.根据权利要求1所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述步骤S2中,数据过滤操作包括:
采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;对过滤处理后的数据进行时空网格化处理为时空网格编码进行存储;对时空网格编码内不满足时空约束条件的数据进行过滤。
6.根据权利要求1所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述步骤S3中基于多视角自适应时空图网络进行时空特征与业务特征融合的过程包括:
S31:并将源数据的业务特征通过全连接层映射到多通道上;
S32:将映射到多通道上的特征输入到采用双向异性图学习模块中,得到时间图和空间图;
S33:对时间图进行卷积,提取时间图的全局时间关联特征;
S34:根据全局时间关联特征对空间图进行处理,得到空间图的多尺度空间特征和长短期时间特征;
S35:将输入的业务特征、长短期时间特征以及多尺度空间特征进行融合,得到多尺度全局时空特征。
7.根据权利要求6所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述步骤S32中,采用双向异性图学习模块构建时间图和空间图的公式为:
M 1 =tanh(αE 1 θ 1 )
M 2 =tanh(αE 2 θ 2 )
M corr = M 1  M 2 T
A=ReLU(tanh(βf L (M corr )))
其中,M 1M 2分别表示初始的相关性矩阵,tanh表示双曲正切函数,αβ均表示设置的超参数,E 1E 2分别表示可学习的图编码矩阵,θ 1θ 2均表示权重矩阵,M corr 表示相关性矩阵,T表示转置,A表示双向异性图邻接矩阵,ReLU表示激活函数, L 表示L层双向异性函数。
8.根据权利要求1所述基于多视角算法的时空大数据挖掘方法,其特征在于,所述步骤S4包括:
根据业务特征和时空特征的关联关系从数据管理库中获取目标时空大数据图层元数据;基于目标时空大数据图层元数据生成时空大数据图层节点,并根据关系图谱生成指令确定对应的时空大数据图层节点关系;根据时空大数据图层节点关系与时空大数据图层节点通过预设图谱构建规则构建时空大数据图层节点关系图谱,并根据时空大数据图层关系图谱进行数据管理。
CN202211537557.XA 2022-12-02 2022-12-02 一种基于多视角算法的时空大数据挖掘方法 Pending CN115964542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211537557.XA CN115964542A (zh) 2022-12-02 2022-12-02 一种基于多视角算法的时空大数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211537557.XA CN115964542A (zh) 2022-12-02 2022-12-02 一种基于多视角算法的时空大数据挖掘方法

Publications (1)

Publication Number Publication Date
CN115964542A true CN115964542A (zh) 2023-04-14

Family

ID=87362505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211537557.XA Pending CN115964542A (zh) 2022-12-02 2022-12-02 一种基于多视角算法的时空大数据挖掘方法

Country Status (1)

Country Link
CN (1) CN115964542A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611793A (zh) * 2023-06-14 2023-08-18 中国长江三峡集团有限公司 一种基于特征分析的业务数据归纳方法及系统
CN116881386A (zh) * 2023-09-08 2023-10-13 北京国星创图科技有限公司 一种空间环境时空基准模型的构建方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611793A (zh) * 2023-06-14 2023-08-18 中国长江三峡集团有限公司 一种基于特征分析的业务数据归纳方法及系统
CN116611793B (zh) * 2023-06-14 2024-04-16 中国长江三峡集团有限公司 一种基于特征分析的业务数据归纳方法及系统
CN116881386A (zh) * 2023-09-08 2023-10-13 北京国星创图科技有限公司 一种空间环境时空基准模型的构建方法及系统
CN116881386B (zh) * 2023-09-08 2023-12-05 北京国星创图科技有限公司 一种空间环境时空基准模型的构建方法及系统

Similar Documents

Publication Publication Date Title
US20200272625A1 (en) Platform and method for evaluating, exploring, monitoring and predicting the status of regions of the planet through time
CN106909644B (zh) 一种面向海量遥感影像的多级组织和索引方法
Foody Harshness in image classification accuracy assessment
Miller et al. Geographic data mining and knowledge discovery
CN115964542A (zh) 一种基于多视角算法的时空大数据挖掘方法
CN113434623B (zh) 一种基于多源异构空间规划数据的融合方法
CN115774861B (zh) 一种自然资源多源异构数据汇聚融合服务系统
CN111316332A (zh) 空间数据处理系统及方法
US8392354B2 (en) Probabilistic voxel-based database
US20110202326A1 (en) Modeling social and cultural conditions in a voxel database
Guo et al. An event-driven dynamic updating method for 3D geo-databases
KR20210082105A (ko) 부동산 실거래가 예측을 위한 학습 모델 생성장치
CN112613356B (zh) 一种基于深度注意力融合网络的动作检测方法及装置
Zeng et al. Graph neural networks with constraints of environmental consistency for landslide susceptibility evaluation
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN109583371A (zh) 基于深度学习的陆标信息提取与匹配方法
CN110704650B (zh) Ota图片标签的识别方法、电子设备和介质
CN112559877A (zh) 基于跨平台异构数据及行为上下文的ctr预估方法及系统
Guo et al. Object discovery in high-resolution remote sensing images: a semantic perspective
CN117076770A (zh) 基于图计算的数据推荐方法、装置、存储价值及电子设备
Wu et al. Geospatial big data: Survey and challenges
EP3624065A1 (en) Classification of knowledge management assets
Shan [Retracted] Multisensor Cross‐Media Data Mining Method Assisted by Expert System
Sharma et al. Spatial Algorithms and Systems
Noardo Spatial ontologies for architectural heritage.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination