CN114398456A - 一种基于全量数据的地理服务发布系统及方法 - Google Patents

一种基于全量数据的地理服务发布系统及方法 Download PDF

Info

Publication number
CN114398456A
CN114398456A CN202111653972.7A CN202111653972A CN114398456A CN 114398456 A CN114398456 A CN 114398456A CN 202111653972 A CN202111653972 A CN 202111653972A CN 114398456 A CN114398456 A CN 114398456A
Authority
CN
China
Prior art keywords
data
conversion
subset
full
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111653972.7A
Other languages
English (en)
Other versions
CN114398456B (zh
Inventor
张志勋
姚小军
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rugao Survey Institute Co ltd
Original Assignee
Rugao Survey Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rugao Survey Institute Co ltd filed Critical Rugao Survey Institute Co ltd
Priority to CN202111653972.7A priority Critical patent/CN114398456B/zh
Publication of CN114398456A publication Critical patent/CN114398456A/zh
Application granted granted Critical
Publication of CN114398456B publication Critical patent/CN114398456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于全量数据的地理服务发布系统及方法,所述数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;所述全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。本发明采用异构平台组合技术,针对不同来源的地理信息实现统一发布,解决了地理信息资源难以统筹利用的难题,并在发布前,根据待发布内容与历史数据之间的差异情况,判定相应的发布方式,在确保发布内容精度的情况下提高发布效率。

Description

一种基于全量数据的地理服务发布系统及方法
技术领域
本发明涉及地理信息系统技术领域,具体为一种基于全量数据的地理服务发布系统及方法。
背景技术
随着测绘技术的快速发展,人们获取地理信息的途径及种类逐渐变得丰富,如地理空间数据、业务属性数据、文本数据及物联感知数据,这些地理信息的来源不同、类型不同,因此这些系统在为人们的生产生活带来便利的同时,对地理服务发布系统的挑战也逐渐变强。
现有技术中的地理服务发布系统针对不同来源的地理信息只能够实现单一来源的地理信息发布,无法同时显示多来源多数据类型的地理信息的发布。
针对上述情况,我们需要一种基于全量数据的地理服务发布系统及方法。
发明内容
本发明的目的在于提供一种基于全量数据的地理服务发布系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于全量数据的地理服务发布系统,包括:
数据获取模块,所述数据获取模块获取不同来源的信息数据;
数据抽取转换模块,所述数据抽取转换模块根据信息数据中的时空标签分别对不同来源的信息数据进行数据抽取,并将抽取的数据进行组合转换,得到相应的组合转换数据,所述时空标签标为包含数据被采集的时间属性及空间属性的标签;
数据校验模块,所述数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验;
数据异常处理模块,所述数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;
全量数据发布模块,所述全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。
本发明通过各个模块的协同合作,共同实现了对地理服务中信息数据的采集、抽取、转换、校验、异常处理及发布,且数据获取模块获取的信息数据的来源不同,数据抽取转换模块将不同的来源的信息数据进行数据抽取转换,根据时空标签将不同来源的抽取的数据进行转换组合,实现数据的组合统一,然后通过数据校验模块对转换后的数据进行校验,确保数据正常,并针对校验结果中的异常数据进行处理,得到最终数据集合,并通过全量数据发布模式对最终数据集合内的数据进行发布。
进一步的,所述数据抽取转换模块包括数据抽取模块及数据转换模块,
所述数据抽取模块用于将不同来源的数据信息进行数据抽取,将相同时空标签对应的抽取的数据统一进行保存;
所述数据转换模块对抽取的数据进行数据转换,并对相同时空标签的转换的数据进行数据组合;
所述数据抽取模块在对不同来源的数据信息进行数据抽取的方法包括以下步骤:
S1.1、对不同来源的数据信息中的各项数据进行爬取;
S1.2、将同一时空标签对应的爬取数据保存到一个空白集合中,得到第一集合,
当数据信息的来源为n个时,则第一集合包括n+1个元素,第一集合中的第一元素为爬取数据对应的时空标签,第一集合中的第2至n+1个元素均分别为一个子集合,每个子集合对应一个来源的数据信息爬取的各项数据。
本发明数据抽取模块中对不同来源的数据信息中的各项数据进行爬取时,采用的是爬虫技术;将第一集合中的第一元素设置为爬取数据对应的时空标签,是为了对便于后续过程中对爬取的信息进行查找;将第一集合中的第2至n+1个元素均分别为一个子集合,每个子集合对应一个来源的数据信息爬取的各项数据,是为了便于对从不同来源的信息数据中爬取的数据进行区分,同时便于后续数据校验时快速确认每个子集合中的元素个数,进而能够精准快速的对各元素对应的数据进行校验。
进一步的,所述数据转换模块对抽取的数据进行转换的方法包括以下步骤:
S2.1、分别获取各个时空标签对应的第一集合;
S2.2、分别对每个第一集合中每个子集合内的各个元素进行关键词提取,并将提取的关键词与相应元素编号在数据库中对应的标准关键词阈进行匹配,得到各元素对应的提取的关键词在相应的标准关键词阈中对应的转换阈值,得到每个第一集合对应的第二集合,所述第二集合中包含多个子集合,所述第二集合中子集合个数与相应第一集合中子集合个数相同,且第二集合中每个子集合内元素对应的转换数据对应的数据来源相同;
S2.3、当第n1子集合中第n2个元素对应的提取的关键词在相应的标准关键词阈中匹配不到对应的转换阈值时,则将第n1子集合中第n2个元素对应的转换阈值记为空,并将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,
若第n1子集合中第n2个元素对应的提取的关键词在第n1子集合中第n2+1个元素编号对应的标准关键词阈中匹配到对应的转换阈值时,则将匹配的转换阈值记到第n1子集合中第n2+1个元素对应的转换阈值位置,且第n1子集合中第n2个元素之后的每个元素对应的提取的关键词相应的标准关键词阈为各个元素编号加一后在数据库中对应的标准关键词阈,
若第n1子集合中第n2个元素对应的提取的关键词在第n1子集合中第n2+1个元素编号对应的标准关键词阈中未匹配到对应的转换阈值时,则停止对第n1子集合中第n2个元素对应的提取的关键词的匹配,且第n1子集合中第n2个元素之后的每个元素对应的提取的关键词相应的标准关键词阈为各个元素编号在数据库中对应的标准关键词阈;
S2.4、当第n1子集合中第n2个元素对应的提取的关键词在数据库中匹配不到相应的标准关键词阈时,则不对第n1子集合中第n2个元素对应的转换阈值进行记录;
所述数据转换模块对相同时空标签的转换的数据进行数据组合的方法包括以下步骤:
S3.1、将第二集合与标准集合进行比较;
S3.2、比较第二集合中子集合的个数与标准集合中子集合的个数;
S3.3、当第二集合中子集合的个数与标准集合中子集合的个数不相同时,根据转换数据对应的数据来源在标准集合中所处的子集合位置,在第二集合中相应位置分别添加一个空集,使得添加空集后的第二集合与标准集合对应的子集合的个数相同;
S3.4、当第二集合中子集合的个数与标准集合中子集合的个数相同时,分别比较第二集合与标准集合中相应子集合中元素的个数,
当第二集合与标准集合中相应子集合中元素的个数相同时,则判定第二集合中该子集合正常,
当第二集合与标准集合中相应子集合中元素的个数不相同时,则计算第二集合中该子集合比标准集合中相应子集合少的元素个数n4,并在第二集合中该子集合内的最后添加n4个空元素;
S3.5、在与标准集合比较后的第二集合内的最前方插入该第二集合对应的时空标签,得到第三集合。
本发明数据转换模块对抽取的数据进行转换的过程中,S2.2中将提取的关键词与相应元素编号在数据库中对应的标准关键词阈进行匹配,此时需要获取相应元素的编号是因为不同的元素编号在数据库中对应的标准关键词阈不同,在比较时,提取的关键词不同,匹配的结果中对应的转换阈值不同,进而通过转换阈值实现对相应元素对应的抽取的数据进行简化,便于对数据的进行存储或处理;标准关键词阈指的是不同关键词组合的集合,标准关键词阈中不同关键词组合对应不同的转换阈值,此处的转换阈值可为数字或者字符串,这个可以根据认为需要进行设置,转换阈值的主要目的是为了对相应的关键词组合进行简化,起到一种代表作用,其目的是为了简化数据,如现有一个关键词组合“事故、车、碰撞、受伤”可以用转化阈值AS23表示,后续对数据进行处理及发布时,当获取到转化阈值AS23时,就可以得到其表示的关键词组合“事故、车、碰撞、受伤”;S2.3中将第n1子集合中第n2个元素对应的转换阈值记为空,并将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,是考虑到数据的缺失情况,因此将将第n1子集合中第n2个元素对应的转换阈值记为空,而将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,是为了检测缺失的数据是否为一个,当匹配到相应的转换阈值时,则说明只缺失了一个数据,而匹配不到相应的阈值时,则说明缺失的数据不止一个或者不是数据缺失问题而且数据错误问题;S3.2中比较第二集合中子集合的个数与标准集合中子集合的个数,是为了确认第二集合中各个子集合对应的相应来源的信息数据是否出现缺失;S3.4中比较第二集合与标准集合中相应子集合中元素的个数,是为了确认第二集合中各个子集合内元素对应的相应来源的信息数据中的相应部分是否出现缺失;S3.5中在与标准集合比较后的第二集合内的最前方插入该第二集合对应的时空标签,是为了便于后续根据时空标签对第三集合进行数据校验及异常数据处理。
进一步的,所述数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验的方法包括以下步骤:
S4.1、获取数据抽取转换模块得到的各个第三集合;
S4.2、判断每个第三集合中是否含有空集,
当第三集合中含有空集时,则判定该第三集合中空集对应的数据异常,即校验结果异常,
S4.3、当第三集合中不含有空集时,则判断第三集合中各个子集合中是否存在元素为空的情况,
当存在元素为空的情况,则判定该元素对应的数据异常,即校验结果异常,
S4.4、当不存在元素为空的情况,则逐个提取第三集合中元素对应的数据,并将提取的数据与对比数据库中的相应的阈值区间进行比较,第三集合中不同元素在对比数据库中相应的阈值区间不同,
当提取的数据均在对比数据库中相应的阈值区间内,则判定该第三集合对应的校验结果正常,反之,则判定该第三集合对应的校验结果异常。
本发明数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验的过程中,先根据第三集合中是否含有空集或元素值为空的情况对第三集合(组合转换数据)的格式进行校验;S4.4中逐个提取第三集合中元素对应的数据,并将提取的数据与对比数据库中的相应的阈值区间进行比较,是为了对第三集合(组合转换数据)中元素的值进行校验,进而判断出第三集合对应的校验结果是否异常。
进一步的,所述数据异常处理模块获取校验结果异常的第三集合及相应的异常位置,并根据校验结果异常的第三集合中的异常位置对获取的异常数据进行处理,
所述数据异常处理模块对异常数据进行处理的方法包括数据修补方式及数据替换方式,
所述数据修补方式是针对第三集合中元素对应的结果为空的情况,根据历史数据对该元素对应的数据进行预估,进而进行数据修补,
所述数据替换方式是针对第三集合中元素对应的数据不在对比数据库中相应阈值区间内的情况,根据历史数据对该元素对应的数据进行预估,进而进行数据替换。
本发明数据修补方式针对的是第三集合中缺失的数据,而数据替换方式针对是第三集合中元素对应的数据不在对比数据库中相应阈值区间内的情况;无论是数据修补方式还是数据替换方式中根据历史数据对该元素对应的数据进行预估的方法是一样的;本发明设置数据异常处理模块是考虑到不同来源的信息数据在传输过程中,若由于获取或者传输的数据过大,出现数据丢失情况,如一个来源的数据中包含五项内容,但是在获取到该来源数据时,只得到4项内容,针对丢失的数据,为了确保地理服务对应的数据能够正常发布,我们就需要对缺失的数据进行处理(修补),修补过程中需要参考历史数据及空间属性相邻的数据对该缺失数据进行预估,但是在预估的过程中,为了确保预估数据的准确性,需要对预估的最小单元进行判定,一般情况下,只有一个数据出现缺失时,则将该缺失数据作为预估的最小单元,但是在该数据对应空间属性相邻的数据也出现多个异常数据时,则该数据对应空间属性相邻的数据没有办法作为参考数据对该数据进行预估,及预估的结果会出现较大的偏差,因此需要调整预估的最小单元(最小单元对应的数据范围变大,即变为该数据所属的组),然后根据预估的最小单元的值,进一步对该缺失数据的值进行预估。
进一步的,数据修补方式和数据替换方式中根据历史数据对该元素对应的数据进行预估的方法包括以下步骤:
S5.1、获取时空标签中与该元素对应的时间属性相同且与该元素对应空间属性之间的距离在第一单位范围之内的所有第三集合;
S5.2、判断获取的所有第三集合中存在异常数据的第三集合个数c,
当c大于等于第一预设值时,则判定需要对该元素对应的数据进行间接预估,
当c小于第一预设值时,则判定需要对该元素对应的数据进行直接预估;
S5.3、对该元素对应的数据进行间接预估的过程中,需要根据时空标签中的空间属性对各个第三集合进行分组,将每个组作为一个最小单元对该元素所属组的数据进行直接预估,然后在根据历史数据中组内该元素占整组数据的比值,进一步预估出该元素对应的数据;
S5.4、对该元素对应的数据进行直接预估的过程中,直接将每个第三集合作为一个最小单元对该元素的数据进行预估。
本发明数据修补方式和数据替换方式中根据历史数据对该元素对应的数据进行预估的过程中,S5.2中判断获取的所有第三集合中存在异常数据的第三集合个数c,是为了根据异常数据的个数判断预估的方式,当c小于第一预设值时,则说明异常数据较少,可以将该元素作为一个最小单元,将获取的其他的第三集合中该元素位置对应的数据作为预估该元素对应数据的参考数据,因此可以直接对该元素对应数据进行直接预估;而当c大于等于第一预设值时,则说明异常数据较多,获取的其余的第三集合中该元素位置对应的数据不具有参考价值,若将该元素作为一个最小单元,则会使得预估的结果不准确,因此需要将第三集合进行分组,以组为单位进行数据预估(分组的依据是将S5.1获取的所有第三集合对应的空间属性均分成g个区间,每个区间对应的第三集合为一组),进而再根据历史数据中组内数据间的比值关系(最近一次的历史数据)间接预估出该元素对应的数据。
进一步的,对最小单元对应的数据进行预估的方法包括以下步骤:
S6.1、获取包含该元素的最小单元A;
S6.2、获取以包含该元素的最小单元为中心,半径为第二单位距离的区域范围内,除A以外的所含数据均为正常数据的所有最小单元,将其个数记为B,并分别对其进行编号,将第i个最小单元中与该元素位置相同时间属性相同的元素对应的数据记为Ci;
S6.3、计算历史数据中,同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和Dt,计算不同时间属性t对应的Dt之间的增长率的平均值,并将获取的增长率的平均值乘上历史数据中与该元素对应的时间属性最近的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和w1,并将得到的乘积减去
Figure BDA0003445397690000071
得到第一预估数据;
S6.4、计算历史数据中不同时间属性的A中该元素对应位置相应的数据之间的增长率的平均值,并将所得平均值乘上历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据,得到第二预估数据;
S6.5、获取第一预估数据相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为e1,获取第一预估数据对应的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和相对w1的增长率,记为e2,计算e1/e2;
S6.6、获取第二预估数据相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为e3,获取第二预估数据对应的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和相对w1的增长率,记为e4,计算e3/e4;
S6.7、计算{e1/e2-f,e3/e4-f}min,所述f为历史数据中该元素对应的数据的增长率与同一时间属性中A与获取的B个最小单元中该元素对应位置相应数据的和的增长率的比值的平均值,
当{e1/e2-f,e3/e4-f}min=e1/e2-f,则对最小单元对应的数据进行预估的结果为第一预估数据,
当{e1/e2-f,e3/e4-f}min=e3/e4-f,则对最小单元对应的数据进行预估的结果为第二预估数据。
本发明对最小单元对应的数据进行预估的过程可以简单概括为三个部分:①通过历史数据预估出该元素所属组对应数据的增长率,进而根据历史数据预估出该组对应的数据,并将该组对应的预估数据减去
Figure BDA0003445397690000081
得到第一预估数据;②通过历史数据预估出该元素对应数据的增长率,进而根据历史数据预估出该元素对应的数据,得到第二预估数据;③选择第一预估数据与第二预估数据中更合适的数据作为对最小单元对应的数据进行预估的结果;③中的选择方法其实相对而言也是对该元素对应数据的一种预估方式,将预估的比值的平均值记为f,计算{e1/e2-f,e3/e4-f}min,所得结果表示对应的第一预估数据(或第二预估数据)与选择方法对应的预估方式中的预估状态更加接近。
进一步的,所述全量数据发布方式包括整体全量数据发布方式及局部全量数据发布方式,
所述全量数据发布模块中对全量数据发布方式进行判断的方法包括以下步骤:
S7.1、获取最终数据集合与历史数据中前一次最终数据集合;
S7.2、将最终数据集合与历史数据中前一次最终数据集合进行比较,
当两者相同元素位置对应的数据相同时,则不对最终数据集合中该元素位置对应的数据进行处理,
当两者相同元素位置对应的数据不相同时,则对最终数据集合中该元素位置对应的数据进行标记;
S7.3、统计最终数据集合中被标记的数据个数,
当统计的数据个数大于等于第二预设值时,则判定全量数据发布方式为整体全量数据发布方式,
当统计的数据个数小于第二预设值时,则判定全量数据发布方式为局部全量数据发布方式。
本发明局部全量数据发布方式表示分别对被标记的数据所属的组中的全量数据进行发布,其余数据保持不变,该方式能够有效提高数据的发布效率。
进一步的,所述信息数据包括地理空间数据、业务属性数据、文本数据及物联感知数据,
所述地理空间数据包括矢量数据及栅格数据,
所述时间属性包括年、月、日、时、分及秒,
所述空间属性包括经度及纬度。
一种基于全量数据的地理服务发布方法,所述方法包括以下步骤:
S1、通过数据获取模块获取不同来源的信息数据;
S2、在数据抽取转换模块中,根据信息数据中的时空标签分别对不同来源的信息数据进行数据抽取,并将抽取的数据进行组合转换,得到相应的组合转换数据,所述时空标签标为包含数据被采集的时间属性及空间属性的标签;
S3、通过数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验;
S4、通过数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;
S5、通过全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。
与现有技术相比,本发明所达到的有益效果是:本发明采用异构平台组合技术,针对不同来源的地理信息实现统一发布,解决了地理信息资源难以统筹利用的难题,并在发布前,根据待发布内容与历史数据之间的差异情况,判定相应的发布方式,在确保发布内容精度的情况下提高发布效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于全量数据的地理服务发布系统的结构示意图;
图2是本发明一种基于全量数据的地理服务发布系统中数据转换模块对相同时空标签的转换的数据进行数据组合的方法的流程示意图;
图3是本发明一种基于全量数据的地理服务发布系统中数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验的方法的流程示意图;
图4是本发明一种基于全量数据的地理服务发布方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供技术方案:一种基于全量数据的地理服务发布系统,包括:
数据获取模块,所述数据获取模块获取不同来源的信息数据;
数据抽取转换模块,所述数据抽取转换模块根据信息数据中的时空标签分别对不同来源的信息数据进行数据抽取,并将抽取的数据进行组合转换,得到相应的组合转换数据,所述时空标签标为包含数据被采集的时间属性及空间属性的标签;
数据校验模块,所述数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验;
数据异常处理模块,所述数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;
全量数据发布模块,所述全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。
本发明通过各个模块的协同合作,共同实现了对地理服务中信息数据的采集、抽取、转换、校验、异常处理及发布,且数据获取模块获取的信息数据的来源不同,数据抽取转换模块将不同的来源的信息数据进行数据抽取转换,根据时空标签将不同来源的抽取的数据进行转换组合,实现数据的组合统一,然后通过数据校验模块对转换后的数据进行校验,确保数据正常,并针对校验结果中的异常数据进行处理,得到最终数据集合,并通过全量数据发布模式对最终数据集合内的数据进行发布。
所述数据抽取转换模块包括数据抽取模块及数据转换模块,
所述数据抽取模块用于将不同来源的数据信息进行数据抽取,将相同时空标签对应的抽取的数据统一进行保存;
所述数据转换模块对抽取的数据进行数据转换,并对相同时空标签的转换的数据进行数据组合;
所述数据抽取模块在对不同来源的数据信息进行数据抽取的方法包括以下步骤:
S1.1、对不同来源的数据信息中的各项数据进行爬取;
S1.2、将同一时空标签对应的爬取数据保存到一个空白集合中,得到第一集合,
当数据信息的来源为n个时,则第一集合包括n+1个元素,第一集合中的第一元素为爬取数据对应的时空标签,第一集合中的第2至n+1个元素均分别为一个子集合,每个子集合对应一个来源的数据信息爬取的各项数据。
本实施例中若时空标签为(2021.12.27.12:20:32,116°19′E,39°57′N),信息来源1中爬取的数据为{g11},信息来源2中爬取的数据为{g12},
则得到的第一集合为{(2021.12.27.12:20:32,116°19′E,39°57′N),{g11},{g12}}。
本发明数据抽取模块中对不同来源的数据信息中的各项数据进行爬取时,采用的是爬虫技术;将第一集合中的第一元素设置为爬取数据对应的时空标签,是为了对便于后续过程中对爬取的信息进行查找;将第一集合中的第2至n+1个元素均分别为一个子集合,每个子集合对应一个来源的数据信息爬取的各项数据,是为了便于对从不同来源的信息数据中爬取的数据进行区分,同时便于后续数据校验时快速确认每个子集合中的元素个数,进而能够精准快速的对各元素对应的数据进行校验。
所述数据转换模块对抽取的数据进行转换的方法包括以下步骤:
S2.1、分别获取各个时空标签对应的第一集合;
S2.2、分别对每个第一集合中每个子集合内的各个元素进行关键词提取,并将提取的关键词与相应元素编号在数据库中对应的标准关键词阈进行匹配,得到各元素对应的提取的关键词在相应的标准关键词阈中对应的转换阈值,得到每个第一集合对应的第二集合,所述第二集合中包含多个子集合,所述第二集合中子集合个数与相应第一集合中子集合个数相同,且第二集合中每个子集合内元素对应的转换数据对应的数据来源相同;
S2.3、当第n1子集合中第n2个元素对应的提取的关键词在相应的标准关键词阈中匹配不到对应的转换阈值时,则将第n1子集合中第n2个元素对应的转换阈值记为空,并将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,
若第n1子集合中第n2个元素对应的提取的关键词在第n1子集合中第n2+1个元素编号对应的标准关键词阈中匹配到对应的转换阈值时,则将匹配的转换阈值记到第n1子集合中第n2+1个元素对应的转换阈值位置,且第n1子集合中第n2个元素之后的每个元素对应的提取的关键词相应的标准关键词阈为各个元素编号加一后在数据库中对应的标准关键词阈,
若第n1子集合中第n2个元素对应的提取的关键词在第n1子集合中第n2+1个元素编号对应的标准关键词阈中未匹配到对应的转换阈值时,则停止对第n1子集合中第n2个元素对应的提取的关键词的匹配,且第n1子集合中第n2个元素之后的每个元素对应的提取的关键词相应的标准关键词阈为各个元素编号在数据库中对应的标准关键词阈;
S2.4、当第n1子集合中第n2个元素对应的提取的关键词在数据库中匹配不到相应的标准关键词阈时,则不对第n1子集合中第n2个元素对应的转换阈值进行记录;
本实施例中第一子集合中含有两个元素,
当第一子集合中第一个元素对应的提取的关键词在第一子集合中第一元素编号对应的标准关键词阈中匹配不到对应的转换阈值时,则将第一子集合中第一个元素对应的转换阈值记为空,并将第一子集合中第一个元素对应的提取的关键词与第一子集合中第二个元素编号在数据库中对应的标准关键词阈进行匹配,
若第一子集合中第一个元素对应的提取的关键词在第一子集合中第二元素编号对应的标准关键词阈中匹配到对应的转换阈值x1时,则将匹配的转换阈值记到第一子集合中第二个元素对应的转换阈值位置,且第一子集合中第二个元素对应的提取的关键词相应的标准关键词阈为第一子集合中第三元素编号在数据库中对应的标准关键词阈,
如果第一子集合中第二个元素对应的提取的关键词与相应的标准关键词阈的匹配结果为x2,则第一子集合对应的转换结果为{,x1,x2},
如果第一子集合中第三元素编号在数据库中匹配不到对应的标准关键词阈时,则第一子集合对应的转换结果为{,x1},
若第一子集合中第一个元素对应的提取的关键词在第一子集合中第二元素编号对应的标准关键词阈中未匹配到对应的转换阈值时,则停止对第一子集合中第一个元素对应的提取的关键词的匹配,且第一子集合中第二元素对应的提取的关键词相应的标准关键词阈为第一子集合中第二元素编号在数据库中对应的标准关键词阈,
如果第一子集合中第二元素对应的提取的关键词与相应的标准关键词阈的匹配结果为x3时,则第一子集合对应的转换结果为{,x3}。
所述数据转换模块对相同时空标签的转换的数据进行数据组合的方法包括以下步骤:
S3.1、将第二集合与标准集合进行比较;
S3.2、比较第二集合中子集合的个数与标准集合中子集合的个数;
S3.3、当第二集合中子集合的个数与标准集合中子集合的个数不相同时,根据转换数据对应的数据来源在标准集合中所处的子集合位置,在第二集合中相应位置分别添加一个空集,使得添加空集后的第二集合与标准集合对应的子集合的个数相同;
S3.4、当第二集合中子集合的个数与标准集合中子集合的个数相同时,分别比较第二集合与标准集合中相应子集合中元素的个数,
当第二集合与标准集合中相应子集合中元素的个数相同时,则判定第二集合中该子集合正常,
当第二集合与标准集合中相应子集合中元素的个数不相同时,则计算第二集合中该子集合比标准集合中相应子集合少的元素个数n4,并在第二集合中该子集合内的最后添加n4个空元素;
S3.5、在与标准集合比较后的第二集合内的最前方插入该第二集合对应的时空标签,得到第三集合。
本发明数据转换模块对抽取的数据进行转换的过程中,S2.2中将提取的关键词与相应元素编号在数据库中对应的标准关键词阈进行匹配,此时需要获取相应元素的编号是因为不同的元素编号在数据库中对应的标准关键词阈不同,在比较时,提取的关键词不同,匹配的结果中对应的转换阈值不同,进而通过转换阈值实现对相应元素对应的抽取的数据进行简化,便于对数据的进行存储或处理;S2.3中将第n1子集合中第n2个元素对应的转换阈值记为空,并将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,是考虑到数据的缺失情况,因此将将第n1子集合中第n2个元素对应的转换阈值记为空,而将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,是为了检测缺失的数据是否为一个,当匹配到相应的转换阈值时,则说明只缺失了一个数据,而匹配不到相应的阈值时,则说明缺失的数据不止一个或者不是数据缺失问题而且数据错误问题;S3.2中比较第二集合中子集合的个数与标准集合中子集合的个数,是为了确认第二集合中各个子集合对应的相应来源的信息数据是否出现缺失;S3.4中比较第二集合与标准集合中相应子集合中元素的个数,是为了确认第二集合中各个子集合内元素对应的相应来源的信息数据中的相应部分是否出现缺失;S3.5中在与标准集合比较后的第二集合内的最前方插入该第二集合对应的时空标签,是为了便于后续根据时空标签对第三集合进行数据校验及异常数据处理。
所述数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验的方法包括以下步骤:
S4.1、获取数据抽取转换模块得到的各个第三集合;
S4.2、判断每个第三集合中是否含有空集,
当第三集合中含有空集时,则判定该第三集合中空集对应的数据异常,即校验结果异常,
S4.3、当第三集合中不含有空集时,则判断第三集合中各个子集合中是否存在元素为空的情况,
当存在元素为空的情况,则判定该元素对应的数据异常,即校验结果异常,
S4.4、当不存在元素为空的情况,则逐个提取第三集合中元素对应的数据,并将提取的数据与对比数据库中的相应的阈值区间进行比较,第三集合中不同元素在对比数据库中相应的阈值区间不同,
当提取的数据均在对比数据库中相应的阈值区间内,则判定该第三集合对应的校验结果正常,反之,则判定该第三集合对应的校验结果异常。
本发明数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验的过程中,先根据第三集合中是否含有空集或元素值为空的情况对第三集合(组合转换数据)的格式进行校验;S4.4中逐个提取第三集合中元素对应的数据,并将提取的数据与对比数据库中的相应的阈值区间进行比较,是为了对第三集合(组合转换数据)中元素的值进行校验,进而判断出第三集合对应的校验结果是否异常。
所述数据异常处理模块获取校验结果异常的第三集合及相应的异常位置,并根据校验结果异常的第三集合中的异常位置对获取的异常数据进行处理,
所述数据异常处理模块对异常数据进行处理的方法包括数据修补方式及数据替换方式,
所述数据修补方式是针对第三集合中元素对应的结果为空的情况,根据历史数据对该元素对应的数据进行预估,进而进行数据修补,
所述数据替换方式是针对第三集合中元素对应的数据不在对比数据库中相应阈值区间内的情况,根据历史数据对该元素对应的数据进行预估,进而进行数据替换。
本发明数据修补方式针对的是第三集合中缺失的数据,而数据替换方式针对是第三集合中元素对应的数据不在对比数据库中相应阈值区间内的情况;无论是数据修补方式还是数据替换方式中根据历史数据对该元素对应的数据进行预估的方法是一样的。
数据修补方式和数据替换方式中根据历史数据对该元素对应的数据进行预估的方法包括以下步骤:
S5.1、获取时空标签中与该元素对应的时间属性相同且与该元素对应空间属性之间的距离在第一单位范围之内的所有第三集合;
S5.2、判断获取的所有第三集合中存在异常数据的第三集合个数c,
当c大于等于第一预设值时,则判定需要对该元素对应的数据进行间接预估,
当c小于第一预设值时,则判定需要对该元素对应的数据进行直接预估;
S5.3、对该元素对应的数据进行间接预估的过程中,需要根据时空标签中的空间属性对各个第三集合进行分组,将每个组作为一个最小单元对该元素所属组的数据进行直接预估,然后在根据历史数据中组内该元素占整组数据的比值,进一步预估出该元素对应的数据;
S5.4、对该元素对应的数据进行直接预估的过程中,直接将每个第三集合作为一个最小单元对该元素的数据进行预估。
本发明数据修补方式和数据替换方式中根据历史数据对该元素对应的数据进行预估的过程中,S5.2中判断获取的所有第三集合中存在异常数据的第三集合个数c,是为了根据异常数据的个数判断预估的方式,当c小于第一预设值时,则说明异常数据较少,可以将该元素作为一个最小单元,将获取的其他的第三集合中该元素位置对应的数据作为预估该元素对应数据的参考数据,因此可以直接对该元素对应数据进行直接预估;而当c大于等于第一预设值时,则说明异常数据较多,获取的其余的第三集合中该元素位置对应的数据不具有参考价值,若将该元素作为一个最小单元,则会使得预估的结果不准确,因此需要将第三集合进行分组,以组为单位进行数据预估(分组的依据是将S5.1获取的所有第三集合对应的空间属性均分成g个区间,每个区间对应的第三集合为一组),进而再根据历史数据中组内数据间的比值关系(最近一次的历史数据)间接预估出该元素对应的数据。
对最小单元对应的数据进行预估的方法包括以下步骤:
S6.1、获取包含该元素的最小单元A;
S6.2、获取以包含该元素的最小单元为中心,半径为第二单位距离的区域范围内,除A以外的所含数据均为正常数据的所有最小单元,将其个数记为B,并分别对其进行编号,将第i个最小单元中与该元素位置相同时间属性相同的元素对应的数据记为Ci;
S6.3、计算历史数据中,同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和Dt,计算不同时间属性t对应的Dt之间的增长率的平均值,并将获取的增长率的平均值乘上历史数据中与该元素对应的时间属性最近的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和w1,并将得到的乘积减去
Figure BDA0003445397690000161
得到第一预估数据;
S6.4、计算历史数据中不同时间属性的A中该元素对应位置相应的数据之间的增长率的平均值,并将所得平均值乘上历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据,得到第二预估数据;
S6.5、获取第一预估数据相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为e1,获取第一预估数据对应的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和相对w1的增长率,记为e2,计算e1/e2;
S6.6、获取第二预估数据相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为e3,获取第二预估数据对应的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和相对w1的增长率,记为e4,计算e3/e4;
S6.7、计算{e1/e2-f,e3/e4-f}min,所述f为历史数据中该元素对应的数据的增长率与同一时间属性中A与获取的B个最小单元中该元素对应位置相应数据的和的增长率的比值的平均值,
当{e1/e2-f,e3/e4-f}min=e1/e2-f,则对最小单元对应的数据进行预估的结果为第一预估数据,
当{e1/e2-f,e3/e4-f}min=e3/e4-f,则对最小单元对应的数据进行预估的结果为第二预估数据。
本实施例中以包含该元素的最小单元为中心,半径为第二单位距离的区域范围内,除A以外的所含数据均为正常数据的所有最小单元有两个,编号分别为r1、r2,r1对应的最小单元中与该元素位置相同时间属性相同的元素对应的数据为C1,r2对应的最小单元中与该元素位置相同时间属性相同的元素对应的数据为C2,
历史数据中时间属性相同的A与获取的最小单元r1、r2中该元素对应位置相应数据的和的增长率的平均值为y1,历史数据中与该元素对应的时间属性最近的同一时间属性的A与获取的最小单元r1、r2中该元素对应位置相应数据的和为z1,
则第一预估数据为z1*y1-(C1+C2),
若历史数据中不同时间属性的A中该元素对应位置相应的数据之间的增长率的平均值为y2,历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据为z2,
则第二预估数据为z2*y2,
若z1*y1-(C1+C2)相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率为p1,z1*y1-(C1+C2)对应的同一时间属性的A与获取的最小单元r1、r2中该元素对应位置相应数据的和相对z1的增长率,记为p2;
获取z2*y2相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为p3,获取z2*y2对应的同一时间属性的A与获取的最小单元r1、r2中该元素对应位置相应数据的和相对z1的增长率,记为p4,
历史数据中该元素对应的数据的增长率与同一时间属性中A与获取的最小单元r1、r2中该元素对应位置相应数据的和的增长率的比值的平均值记为p5,
当{p1/p2-p5,p3/p4-p5}min=p1/p2-p5时,则对最小单元对应的数据进行预估的结果为z1*y1-(C1+C2),
当{p1/p2-p5,p3/p4-p5}min=p3/p4-p5时,则对最小单元对应的数据进行预估的结果为z2*y2。
本发明对最小单元对应的数据进行预估的过程可以简单概括为三个部分:①通过历史数据预估出该元素所属组对应数据的增长率,进而根据历史数据预估出该组对应的数据,并将该组对应的预估数据减去
Figure BDA0003445397690000171
得到第一预估数据;②通过历史数据预估出该元素对应数据的增长率,进而根据历史数据预估出该元素对应的数据,得到第二预估数据;③选择第一预估数据与第二预估数据中更合适的数据作为对最小单元对应的数据进行预估的结果;③中的选择方法其实相对而言也是对该元素对应数据的一种预估方式,将预估的比值的平均值记为f,计算{e1/e2-f,e3/e4-f}min,所得结果表示对应的第一预估数据(或第二预估数据)与选择方法对应的预估方式中的预估状态更加接近。
所述全量数据发布方式包括整体全量数据发布方式及局部全量数据发布方式,
所述全量数据发布模块中对全量数据发布方式进行判断的方法包括以下步骤:
S7.1、获取最终数据集合与历史数据中前一次最终数据集合;
S7.2、将最终数据集合与历史数据中前一次最终数据集合进行比较,
当两者相同元素位置对应的数据相同时,则不对最终数据集合中该元素位置对应的数据进行处理,
当两者相同元素位置对应的数据不相同时,则对最终数据集合中该元素位置对应的数据进行标记;
S7.3、统计最终数据集合中被标记的数据个数,
当统计的数据个数大于等于第二预设值时,则判定全量数据发布方式为整体全量数据发布方式,
当统计的数据个数小于第二预设值时,则判定全量数据发布方式为局部全量数据发布方式。
本发明局部全量数据发布方式表示分别对被标记的数据所属的组中的全量数据进行发布,其余数据保持不变,该方式能够有效提高数据的发布效率。
所述信息数据包括地理空间数据、业务属性数据、文本数据及物联感知数据,
所述地理空间数据包括矢量数据及栅格数据,
所述时间属性包括年、月、日、时、分及秒,
所述空间属性包括经度及纬度。
一种基于全量数据的地理服务发布方法,所述方法包括以下步骤:
S1、通过数据获取模块获取不同来源的信息数据;
S2、在数据抽取转换模块中,根据信息数据中的时空标签分别对不同来源的信息数据进行数据抽取,并将抽取的数据进行组合转换,得到相应的组合转换数据,所述时空标签标为包含数据被采集的时间属性及空间属性的标签;
S3、通过数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验;
S4、通过数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;
S5、通过全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于全量数据的地理服务发布系统,其特征在于,包括:
数据获取模块,所述数据获取模块获取不同来源的信息数据;
数据抽取转换模块,所述数据抽取转换模块根据信息数据中的时空标签分别对不同来源的信息数据进行数据抽取,并将抽取的数据进行组合转换,得到相应的组合转换数据,所述时空标签标为包含数据被采集的时间属性及空间属性的标签;
数据校验模块,所述数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验;
数据异常处理模块,所述数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;
全量数据发布模块,所述全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。
2.根据权利要求1所述的一种基于全量数据的地理服务发布系统,其特征在于:所述数据抽取转换模块包括数据抽取模块及数据转换模块,
所述数据抽取模块用于将不同来源的数据信息进行数据抽取,将相同时空标签对应的抽取的数据统一进行保存;
所述数据转换模块对抽取的数据进行数据转换,并对相同时空标签的转换的数据进行数据组合;
所述数据抽取模块在对不同来源的数据信息进行数据抽取的方法包括以下步骤:
S1.1、对不同来源的数据信息中的各项数据进行爬取;
S1.2、将同一时空标签对应的爬取数据保存到一个空白集合中,得到第一集合,
当数据信息的来源为n个时,则第一集合包括n+1个元素,第一集合中的第一元素为爬取数据对应的时空标签,第一集合中的第2至n+1个元素均分别为一个子集合,每个子集合对应一个来源的数据信息爬取的各项数据。
3.根据权利要求2所述的一种基于全量数据的地理服务发布系统,其特征在于:所述数据转换模块对抽取的数据进行转换的方法包括以下步骤:
S2.1、分别获取各个时空标签对应的第一集合;
S2.2、分别对每个第一集合中每个子集合内的各个元素进行关键词提取,并将提取的关键词与相应元素编号在数据库中对应的标准关键词阈进行匹配,得到各元素对应的提取的关键词在相应的标准关键词阈中对应的转换阈值,得到每个第一集合对应的第二集合,所述第二集合中包含多个子集合,所述第二集合中子集合个数与相应第一集合中子集合个数相同,且第二集合中每个子集合内元素对应的转换数据对应的数据来源相同;
S2.3、当第n1子集合中第n2个元素对应的提取的关键词在相应的标准关键词阈中匹配不到对应的转换阈值时,则将第n1子集合中第n2个元素对应的转换阈值记为空,并将第n1子集合中第n2个元素对应的提取的关键词与第n1子集合中第n2+1个元素编号在数据库中对应的标准关键词阈进行匹配,
若第n1子集合中第n2个元素对应的提取的关键词在第n1子集合中第n2+1个元素编号对应的标准关键词阈中匹配到对应的转换阈值时,则将匹配的转换阈值记到第n1子集合中第n2+1个元素对应的转换阈值位置,且第n1子集合中第n2个元素之后的每个元素对应的提取的关键词相应的标准关键词阈为各个元素编号加一后在数据库中对应的标准关键词阈,
若第n1子集合中第n2个元素对应的提取的关键词在第n1子集合中第n2+1个元素编号对应的标准关键词阈中未匹配到对应的转换阈值时,则停止对第n1子集合中第n2个元素对应的提取的关键词的匹配,且第n1子集合中第n2个元素之后的每个元素对应的提取的关键词相应的标准关键词阈为各个元素编号在数据库中对应的标准关键词阈;
S2.4、当第n1子集合中第n2个元素对应的提取的关键词在数据库中匹配不到相应的标准关键词阈时,则不对第n1子集合中第n2个元素对应的转换阈值进行记录;
所述数据转换模块对相同时空标签的转换的数据进行数据组合的方法包括以下步骤:
S3.1、将第二集合与标准集合进行比较;
S3.2、比较第二集合中子集合的个数与标准集合中子集合的个数;
S3.3、当第二集合中子集合的个数与标准集合中子集合的个数不相同时,根据转换数据对应的数据来源在标准集合中所处的子集合位置,在第二集合中相应位置分别添加一个空集,使得添加空集后的第二集合与标准集合对应的子集合的个数相同;
S3.4、当第二集合中子集合的个数与标准集合中子集合的个数相同时,分别比较第二集合与标准集合中相应子集合中元素的个数,
当第二集合与标准集合中相应子集合中元素的个数相同时,则判定第二集合中该子集合正常,
当第二集合与标准集合中相应子集合中元素的个数不相同时,则计算第二集合中该子集合比标准集合中相应子集合少的元素个数n4,并在第二集合中该子集合内的最后添加n4个空元素;
S3.5、在与标准集合比较后的第二集合内的最前方插入该第二集合对应的时空标签,得到第三集合。
4.根据权利要求3所述的一种基于全量数据的地理服务发布系统,其特征在于:所述数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验的方法包括以下步骤:
S4.1、获取数据抽取转换模块得到的各个第三集合;
S4.2、判断每个第三集合中是否含有空集,
当第三集合中含有空集时,则判定该第三集合中空集对应的数据异常,即校验结果异常,
S4.3、当第三集合中不含有空集时,则判断第三集合中各个子集合中是否存在元素为空的情况,
当存在元素为空的情况,则判定该元素对应的数据异常,即校验结果异常,
S4.4、当不存在元素为空的情况,则逐个提取第三集合中元素对应的数据,并将提取的数据与对比数据库中的相应的阈值区间进行比较,第三集合中不同元素在对比数据库中相应的阈值区间不同,
当提取的数据均在对比数据库中相应的阈值区间内,则判定该第三集合对应的校验结果正常,反之,则判定该第三集合对应的校验结果异常。
5.根据权利要求4所述的一种基于全量数据的地理服务发布系统,其特征在于:所述数据异常处理模块获取校验结果异常的第三集合及相应的异常位置,并根据校验结果异常的第三集合中的异常位置对获取的异常数据进行处理,
所述数据异常处理模块对异常数据进行处理的方法包括数据修补方式及数据替换方式,
所述数据修补方式是针对第三集合中元素对应的结果为空的情况,根据历史数据对该元素对应的数据进行预估,进而进行数据修补,
所述数据替换方式是针对第三集合中元素对应的数据不在对比数据库中相应阈值区间内的情况,根据历史数据对该元素对应的数据进行预估,进而进行数据替换。
6.根据权利要求5所述的一种基于全量数据的地理服务发布系统,其特征在于:数据修补方式和数据替换方式中根据历史数据对该元素对应的数据进行预估的方法包括以下步骤:
S5.1、获取时空标签中与该元素对应的时间属性相同且与该元素对应空间属性之间的距离在第一单位范围之内的所有第三集合;
S5.2、判断获取的所有第三集合中存在异常数据的第三集合个数c,
当c大于等于第一预设值时,则判定需要对该元素对应的数据进行间接预估,
当c小于第一预设值时,则判定需要对该元素对应的数据进行直接预估;
S5.3、对该元素对应的数据进行间接预估的过程中,需要根据时空标签中的空间属性对各个第三集合进行分组,将每个组作为一个最小单元对该元素所属组的数据进行直接预估,然后在根据历史数据中组内该元素占整组数据的比值,进一步预估出该元素对应的数据;
S5.4、对该元素对应的数据进行直接预估的过程中,直接将每个第三集合作为一个最小单元对该元素的数据进行预估。
7.根据权利要求6所述的一种基于全量数据的地理服务发布系统,其特征在于:对最小单元对应的数据进行预估的方法包括以下步骤:
S6.1、获取包含该元素的最小单元A;
S6.2、获取以包含该元素的最小单元为中心,半径为第二单位距离的区域范围内,除A以外的所含数据均为正常数据的所有最小单元,将其个数记为B,并分别对其进行编号,将第i个最小单元中与该元素位置相同时间属性相同的元素对应的数据记为Ci;
S6.3、计算历史数据中,同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和Dt,计算不同时间属性t对应的Dt之间的增长率的平均值,并将获取的增长率的平均值乘上历史数据中与该元素对应的时间属性最近的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和w1,并将得到的乘积减去∑i B =1Ci,得到第一预估数据;
S6.4、计算历史数据中不同时间属性的A中该元素对应位置相应的数据之间的增长率的平均值,并将所得平均值乘上历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据,得到第二预估数据;
S6.5、获取第一预估数据相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为e1,获取第一预估数据对应的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和相对w1的增长率,记为e2,计算e1/e2;
S6.6、获取第二预估数据相对历史数据中与该元素对应的时间属性最近的A中该元素位置对应的数据的增长率,记为e3,获取第二预估数据对应的同一时间属性的A与获取的B个最小单元中该元素对应位置相应数据的和相对w1的增长率,记为e4,计算e3/e4;
S6.7、计算{e1/e2-f,e3/e4-f}min,所述f为历史数据中该元素对应的数据的增长率与同一时间属性中A与获取的B个最小单元中该元素对应位置相应数据的和的增长率的比值的平均值,
当{e1/e2-f,e3/e4-f}min=e1/e2-f,则对最小单元对应的数据进行预估的结果为第一预估数据,
当{e1/e2-f,e3/e4-f}min=e3/e4-f,则对最小单元对应的数据进行预估的结果为第二预估数据。
8.根据权利要求5所述的一种基于全量数据的地理服务发布系统,其特征在于:所述全量数据发布方式包括整体全量数据发布方式及局部全量数据发布方式,
所述全量数据发布模块中对全量数据发布方式进行判断的方法包括以下步骤:
S7.1、获取最终数据集合与历史数据中前一次最终数据集合;
S7.2、将最终数据集合与历史数据中前一次最终数据集合进行比较,
当两者相同元素位置对应的数据相同时,则不对最终数据集合中该元素位置对应的数据进行处理,
当两者相同元素位置对应的数据不相同时,则对最终数据集合中该元素位置对应的数据进行标记;
S7.3、统计最终数据集合中被标记的数据个数,
当统计的数据个数大于等于第二预设值时,则判定全量数据发布方式为整体全量数据发布方式,
当统计的数据个数小于第二预设值时,则判定全量数据发布方式为局部全量数据发布方式。
9.根据权利要求1所述的一种基于全量数据的地理服务发布系统,其特征在于:所述信息数据包括地理空间数据、业务属性数据、文本数据及物联感知数据,
所述地理空间数据包括矢量数据及栅格数据,
所述时间属性包括年、月、日、时、分及秒,
所述空间属性包括经度及纬度。
10.应用权利要求1-9任意一项所述的一种基于全量数据的地理服务发布系统的基于全量数据的地理服务发布方法,其特征在于:所述方法包括以下步骤:
S1、通过数据获取模块获取不同来源的信息数据;
S2、在数据抽取转换模块中,根据信息数据中的时空标签分别对不同来源的信息数据进行数据抽取,并将抽取的数据进行组合转换,得到相应的组合转换数据,所述时空标签标为包含数据被采集的时间属性及空间属性的标签;
S3、通过数据校验模块逐个对数据抽取转换模块得到的组合转换数据的格式及值进行校验;
S4、通过数据异常处理模块获取数据校验模块的校验结果中的异常数据,并对获取的异常数据进行处理,得到最终数据集合;
S5、通过全量数据发布模块获取最终数据集合,并将最终数据集合与历史数据中前一次最终数据集合进行比较,进而对全量数据发布方式进行判断,并根据判断结果进行全量数据发布。
CN202111653972.7A 2021-12-30 2021-12-30 一种基于全量数据的地理服务发布系统及方法 Active CN114398456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111653972.7A CN114398456B (zh) 2021-12-30 2021-12-30 一种基于全量数据的地理服务发布系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111653972.7A CN114398456B (zh) 2021-12-30 2021-12-30 一种基于全量数据的地理服务发布系统及方法

Publications (2)

Publication Number Publication Date
CN114398456A true CN114398456A (zh) 2022-04-26
CN114398456B CN114398456B (zh) 2023-03-31

Family

ID=81229825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111653972.7A Active CN114398456B (zh) 2021-12-30 2021-12-30 一种基于全量数据的地理服务发布系统及方法

Country Status (1)

Country Link
CN (1) CN114398456B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140361899A1 (en) * 2012-01-06 2014-12-11 3M Innovative Properties Company Released offender geospatial location information trend analysis
CN106610957A (zh) * 2015-10-21 2017-05-03 星际空间(天津)科技发展有限公司 一种基于地理信息的多源数据整合方法
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN106844585A (zh) * 2017-01-10 2017-06-13 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN108121705A (zh) * 2016-11-28 2018-06-05 星际空间(天津)科技发展有限公司 一种开放的多源二、三维地理信息数据聚合和发布系统
CN108959352A (zh) * 2018-04-27 2018-12-07 北京天机数测数据科技有限公司 基于时间和空间数据模型的时空数据处理平台及处理方法
WO2020130787A1 (en) * 2018-12-21 2020-06-25 Mimos Berhad A global positioning system data format conversion method and system thereof
CN113254747A (zh) * 2021-06-09 2021-08-13 南京北斗创新应用科技研究院有限公司 基于分布式网络爬虫的地理空间数据获取系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140361899A1 (en) * 2012-01-06 2014-12-11 3M Innovative Properties Company Released offender geospatial location information trend analysis
CN106610957A (zh) * 2015-10-21 2017-05-03 星际空间(天津)科技发展有限公司 一种基于地理信息的多源数据整合方法
CN108121705A (zh) * 2016-11-28 2018-06-05 星际空间(天津)科技发展有限公司 一种开放的多源二、三维地理信息数据聚合和发布系统
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN106844585A (zh) * 2017-01-10 2017-06-13 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN108959352A (zh) * 2018-04-27 2018-12-07 北京天机数测数据科技有限公司 基于时间和空间数据模型的时空数据处理平台及处理方法
WO2020130787A1 (en) * 2018-12-21 2020-06-25 Mimos Berhad A global positioning system data format conversion method and system thereof
CN113254747A (zh) * 2021-06-09 2021-08-13 南京北斗创新应用科技研究院有限公司 基于分布式网络爬虫的地理空间数据获取系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄强等: "智慧徐州时空信息服务模型研究", 《地理空间信息》 *

Also Published As

Publication number Publication date
CN114398456B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN111475804B (zh) 一种告警预测方法及系统
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
CN108632097A (zh) 异常行为对象的识别方法、终端设备及介质
CN111460312A (zh) 空壳企业识别方法、装置及计算机设备
CN111209400B (zh) 一种数据分析的方法及装置
CN102948117A (zh) 信息追踪系统和方法
CN112966100B (zh) 一种数据分类分级模型的训练方法、装置及电子设备
US7949653B2 (en) Stream data processing method and stream data processing system
CN113821674B (zh) 一种基于孪生神经网络的智能货物监管方法及系统
CN103823869A (zh) 一种环境监测的数据抽取和预测模型建立方法
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
CN114885334A (zh) 一种高并发的短信处理方法
CN114398456B (zh) 一种基于全量数据的地理服务发布系统及方法
CN116975990A (zh) 一种油气化工码头三维模型的管理方法及系统
CN110688457A (zh) 一种基于标识解析的汽摩行业文本信息录入方法
CN110362828A (zh) 网络资讯风险识别方法及系统
CN115619320A (zh) 产品外包装信息化防差错系统
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN115099707A (zh) 订单评价数据评估系统、方法、电子设备及存储介质
CN111553826B (zh) 智慧城市数据处理方法
CN112529509A (zh) 一种运输平台中恶意运单识别的方法
CN112015916A (zh) 知识图谱的补全方法、装置、服务器和计算机存储介质
CN113269380A (zh) 一种面向疫情防控的返校方案预估方法
CN113743695A (zh) 基于大数据的国际工程项目投标报价风险管理方法
CN116703430B (zh) 一种基于标识解析的商品窜货预警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant