CN113569122A - 一种地图瓦片数据爬虫的识别方法及系统 - Google Patents

一种地图瓦片数据爬虫的识别方法及系统 Download PDF

Info

Publication number
CN113569122A
CN113569122A CN202111132457.4A CN202111132457A CN113569122A CN 113569122 A CN113569122 A CN 113569122A CN 202111132457 A CN202111132457 A CN 202111132457A CN 113569122 A CN113569122 A CN 113569122A
Authority
CN
China
Prior art keywords
data
map
time window
crawler
logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111132457.4A
Other languages
English (en)
Other versions
CN113569122B (zh
Inventor
陈奇
尹心亮
吴杰
陈西亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geospace Information Technology Co Ltd
Original Assignee
Wuda Geoinformatics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuda Geoinformatics Co ltd filed Critical Wuda Geoinformatics Co ltd
Priority to CN202111132457.4A priority Critical patent/CN113569122B/zh
Publication of CN113569122A publication Critical patent/CN113569122A/zh
Application granted granted Critical
Publication of CN113569122B publication Critical patent/CN113569122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于地图瓦片领域,提供一种地图瓦片数据爬虫的识别方法及系统,所述方法包括:首先连接数据源,获取日志数据流;对数据流进行数据预处理,保留有用的字段,确定保留的字段数据类型正确,防止因为数据类型问题对计算造成影响;然后为数据流指定水印和时间戳,指定日志数据的ip字段作为键,为了在时间窗口内根据键名称进行数据聚合操作,指定时间窗口长度(或同时指定滑动步长),最后执行地图瓦片数据爬虫的识别逻辑,识别结果保存。本方案稳定、快速、高效、易扩展,考虑了多线程数据下载和相同数据重复下载的情况,适用于一般的数据爬虫场景。

Description

一种地图瓦片数据爬虫的识别方法及系统
技术领域
本发明属于地图瓦片技术领域,尤其涉及一种地图瓦片数据爬虫的识别方法及系统。
背景技术
大数据、人工智能、机器人、量子计算等,这些前沿技术让人类社会迎来第四次工业革命。大数据是第四次工业革命中非常重要的一环。目前,各种大数据应用层出不穷,深刻地改变了人类生活,比如:大数据的营销、大数据的个性化推荐、大数据预测和大数据在金融行业、零售行业的应用等。
现实世界每时每刻都在生产数据:来自人类活动,人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息;来自计算机,各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息;来自物理世界,各类数字设备、科学实验与观察所采集的数据, 如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据等。
对于这些数据可以利用统计和机器学习方法进行数据分析,从错综复杂的数据关系中梳理出事物的联系,比如发展趋势、影响因素、因果关系等。但是传统的数据分析处理方法,不能适应大数据体量大和速度快的特性。
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。恶意爬虫通过程序代码快速大量下载网站数据,这将带来难以估量的威胁和损失。现实场景是网站地图数据被恶意下载,这给公司造成了不小困扰。因此有必要通过地图瓦片数据爬虫的识别,来限制这种恶意下载行为。
发明内容
鉴于上述问题,本发明的目的在于提供一种地图瓦片数据爬虫的识别方法,旨在解决现有网站地图数据被网络爬虫恶意下载的技术问题。
一方面,所述地图瓦片数据爬虫的识别方法包括下述步骤:
步骤S1、连接数据源;
步骤S2、接收从数据源输出的数据流,并对数据流预处理;
步骤S3、为预处理后的数据流指定时间戳和水印延迟;
步骤S4、将数据流进行数据格式转换处理,转变成键值对形式的数据流,其中指定键为访问ip,指定值为每条数据的内容;
步骤S5、设置时间窗口;
步骤S6、根据地图瓦片数据爬虫识别逻辑,筛选出每个时间窗口内的爬虫ip。
进一步的,所述方法还包括下述步骤:
步骤S7、把识别出的每个时间窗口中的爬虫ip存入数据库表格中。
进一步的,所述识别逻辑具体为:统计每个时间窗口内, x、y、z三个数据,其中:
统计每个时间窗口内含有同一ip的数据条数,记此数据条数为x;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级)”为键的数据条数,记此数据条数为y;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级,地图切片行号,地图切片列号)”为键的数据条数,记此数据条数为z;
下述两条逻辑中,只要当前ip的一次行为满足任一条逻辑,即可认定当前ip为爬虫ip;
逻辑一:
在时间窗口内,满足
Figure 866806DEST_PATH_IMAGE001
其中参数
Figure 841716DEST_PATH_IMAGE002
要满足条件
Figure 651409DEST_PATH_IMAGE003
逻辑二:
在时间窗口内,
Figure 268335DEST_PATH_IMAGE004
,并且参数
Figure 463562DEST_PATH_IMAGE005
要满足条件
Figure 140531DEST_PATH_IMAGE006
其中
Figure 312886DEST_PATH_IMAGE007
是多线程权重参数,
Figure 326978DEST_PATH_IMAGE008
是针对多线程数据下载的阈值参数;
Figure 533969DEST_PATH_IMAGE009
是重复权重参数,
Figure 116260DEST_PATH_IMAGE010
是针对数据重复下载的阈值参数。
进一步的,所述步骤S2中,预处理过程具体为:检查数据流中要保留的字段是否有空值或者空字符串,如果有则用0替换,且如果属性是整数则转化成int类型,如果属性包含小数则转化成float类型。
进一步的,输入的数据流包含以下字段:访问ip,访问时间,请求响应状态,请求资源类型,响应流量,请求流量,服务处理时长,请求处理时长,浏览器User-Agent,地图切片矩阵集合名,地图切片矩阵名,地图层级,地图切片行号,地图切片列号;其中要保留的字段有访问ip,访问时间,地图切片矩阵集合名,地图切片矩阵名,地图层级,地图切片行号和地图切片列号。
另一方面,所述地图瓦片数据爬虫的识别系统,包括:
连接单元,用于连接数据源;
预处理单元,用于接收从数据源输出的数据流,并对数据流预处理;
延迟处理单元,用于为预处理后的数据流指定时间戳和水印延迟;
数据格式转换单元,用于将数据流进行数据格式转换处理,转变成键值对形式的数据流,其中指定键为访问ip,指定值为每条数据的内容;
时间窗口设置单元,用于设置时间窗口;
识别单元,用于根据地图瓦片数据爬虫识别逻辑,筛选出每个时间窗口内的爬虫ip。
进一步的,所述系统还包括:
结果输出单元,用于把识别出的每个时间窗口中的爬虫ip存入数据库表格中。
进一步的,所述识别单元的识别逻辑具体为:统计每个时间窗口内, x、y、z三个数据,其中:
统计每个时间窗口内含有同一ip的数据条数,记此数据条数为x;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级)”为键的数据条数,记此数据条数为y;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级,地图切片行号,地图切片列号)”为键的数据条数,记此数据条数为z;
下述两条逻辑中,只要当前ip的一次行为满足任一条逻辑,即可认定当前ip为爬虫ip;
逻辑一:
在时间窗口内,满足
Figure 775911DEST_PATH_IMAGE011
其中参数
Figure 610006DEST_PATH_IMAGE012
要满足条件
Figure 671503DEST_PATH_IMAGE013
逻辑二:
在时间窗口内,
Figure 690275DEST_PATH_IMAGE014
,并且参数
Figure 837222DEST_PATH_IMAGE005
要满足条件
Figure 193117DEST_PATH_IMAGE015
其中
Figure 109121DEST_PATH_IMAGE007
是多线程权重参数,
Figure 298794DEST_PATH_IMAGE008
是针对多线程数据下载的阈值参数;
Figure 306939DEST_PATH_IMAGE009
是重复权重参数,
Figure 607470DEST_PATH_IMAGE010
是针对数据重复下载的阈值参数。
本发明的有益效果是:本发明技术方案利用流式数据处理方式,同时利用网站的访问请求信息和地图瓦片数据下载的信息,根据生产环境的具体情况,合理设置阈值参数,实现实时识别爬虫ip。本方案稳定、快速、高效、易扩展,考虑了多线程数据下载和相同数据重复下载的情况,适用于一般的数据爬虫场景。对未来大数据爬虫的识别方法都有一定的参考意义。
附图说明
图1是本发明实施例提供的地图瓦片数据爬虫的识别方法的流程图;
图2是本发明实施例提供的地图瓦片数据爬虫的识别系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明实施例提供的地图瓦片数据爬虫的识别方法的流程,为了便于说明仅示出了与本发明实施例相关的部分。
如图1所示,本实施例提供的地图瓦片数据爬虫的识别方法包括下述步骤:
步骤S1、连接数据源。
本步骤不限定数据源的类型。数据源不限于分布式消息队列。也可以是文件系统或数据库。
连接数据源可以获取日志数据流,日志数据采集、运输使用的是大数据架构。日志收集系统负责采集网站实时生成的日志数据,然后接收采集的数据,最后消费数据。
步骤S2、接收从数据源输出的数据流,并对数据流预处理。
预处理的目的是防止计算时出现数据类型不符问题。预处理过程具体为:检查数据流中要保留的字段是否有空值或者空字符串,如果有则用0替换,且如果属性是整数则转化成int类型,如果属性包含小数则转化成float类型。
本步骤输入的数据流包含以下字段:访问ip,访问时间,请求响应状态,请求资源类型,响应流量,请求流量,服务处理时长,请求处理时长,浏览器User-Agent,地图切片矩阵集合名,地图切片矩阵名,地图层级,地图切片行号,地图切片列号。其中要保留的字段有访问ip,访问时间,地图切片矩阵集合名,地图切片矩阵名,地图层级,地图切片行号和地图切片列号。这些保留的字段需要根据通过本步骤进行预处理。
步骤S3、为预处理后的数据流指定时间戳和水印延迟。
数据流的时间戳是数据流的时间标记。通过指定数据流的时间戳,就可以知道每条数据属于哪个时间窗口。
指定水印是为了处理有些数据接收时间的延迟。正常情况下,每条数据的接收时间应该落在自己所属时间窗口内,则这些数据可被处理。但实际情况是一条数据的接收时间会超过了时间窗口终止时间点。
因此本步骤设置了水印延迟,水印延迟是相对时间窗口终止时间点的允许延迟时长,在该水印延迟内的数据可被处理。亦即,一条数据可被处理的时间范围是时间窗口起始时间点,到时间窗口终止时间点加上水印的最终时间点。
步骤S4、将数据流进行数据格式转换处理,转变成键值对形式的数据流,其中指定键为访问ip,指定值为每条数据的内容。
本步骤是对数据流进行格式转换。对一个时间窗口内所有接收到的数据,根据指定的键名称,聚合含有此ip的所有数据,方便后续的分析。
步骤S5、设置时间窗口。
时间窗口长度的单位为秒,所述时间窗口可根据实际情况设定,不同的情况选不同的窗口,不固定。具体可以为数据流指定滑动事件时间窗口或滚动事件时间窗口,这两种时间窗口都需要指定时间窗口长度,时间窗口长度是定值,可以根据实际需求设置。而其中滑动事件时间窗口还需要为数据流指定窗口滑动步长,窗口滑动步长是指两个相邻的时间窗口起始时间点的时间间隔,步长的单位为秒。
步骤S6、根据地图瓦片数据爬虫识别逻辑,筛选出每个时间窗口内的爬虫ip。
本步骤首先要记录三条数据,具体为统计每个时间窗口内的 x、y、z三个数据,其中:
统计每个时间窗口内含有同一ip的数据条数,记此数据条数为x;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级)”为键的数据条数,记此数据条数为y;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级,地图切片行号,地图切片列号)”为键的数据条数,记此数据条数为z。
本过程有两条识别逻辑。
逻辑一:
在时间窗口内,满足
Figure 377980DEST_PATH_IMAGE016
,其中参数
Figure 597609DEST_PATH_IMAGE017
要满足条件
Figure 719148DEST_PATH_IMAGE018
逻辑二:
在时间窗口内,
Figure 557791DEST_PATH_IMAGE019
,并且参数
Figure 448387DEST_PATH_IMAGE020
要满足条件
Figure 855229DEST_PATH_IMAGE021
其中
Figure 198485DEST_PATH_IMAGE007
是多线程权重参数,
Figure 106399DEST_PATH_IMAGE008
是针对多线程数据下载的阈值参数;
Figure 851501DEST_PATH_IMAGE009
是重复权重参数,
Figure 412932DEST_PATH_IMAGE010
是针对数据重复下载的阈值参数。作为一种实例列举,逻辑一的参数取值为
Figure 243485DEST_PATH_IMAGE022
;逻辑二的参数取值为
Figure 423930DEST_PATH_IMAGE023
。参数的具体取值视具体生产环境而定。
在每个时间窗口中,单位时间内(每秒),针对每个ip的行为数据进行逻辑识别:上述两条逻辑中,只要当前ip的一次行为满足任一条逻辑,即可认定当前ip为爬虫ip。
步骤S7、把识别出的每个时间窗口中的爬虫ip存入数据库表格中。本步骤最后将结果输出。
本发明实施例方法,首先连接数据源,获取日志数据流;对数据流进行数据预处理,保留有用的字段,确定保留的字段数据类型正确,防止因为数据类型问题对计算造成影响;然后为数据流指定水印和时间戳,指定日志数据的ip字段作为键,为了在时间窗口内根据键名称进行数据聚合操作。指定时间窗口长度(或者同时指定滑动步长),最后执行地图瓦片数据爬虫的识别逻辑,识别结果保存。
实施例二:
图2示出了本发明实施例提供的地图瓦片数据爬虫的识别系统的结构,为了便于说明仅示出了与本发明实施例相关的部分。
如图2所示,本实施例提供的地图瓦片数据爬虫的识别系统,包括:
连接单元1,用于连接数据源;
预处理单元2,用于接收从数据源输出的数据流,并对数据流预处理;
延迟处理单元3,用于为预处理后的数据流指定时间戳和水印延迟;
数据格式转换单元4,用于将数据流进行数据格式转换处理,转变成键值对形式的数据流,其中指定键为访问ip,指定值为每条数据的内容;
时间窗口设置单元5,用于设置时间窗口;
识别单元6,用于根据地图瓦片数据爬虫识别逻辑,筛选出每个时间窗口内的爬虫ip。
另外所述系统还包括:
结果输出单元7,用于把识别出的每个时间窗口中的爬虫ip存入数据库表格中。
上述各个功能单元对应实现了实施例一中的步骤S1-S7。各功能单元的所执行的流程这里不再赘述。其中所述识别单元的识别逻辑具体为:统计每个时间窗口内, x、y、z三个数据,其中:
统计每个时间窗口内含有同一ip的数据条数,记此数据条数为x;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级)”为键的数据条数,记此数据条数为y;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级,地图切片行号,地图切片列号)”为键的数据条数,记此数据条数为z;
下述两条逻辑中,只要当前ip的一次行为满足任一条逻辑,即可认定当前ip为爬虫ip;
逻辑一:
在时间窗口内,满足
Figure 663020DEST_PATH_IMAGE024
,其中参数
Figure 536298DEST_PATH_IMAGE025
要满足条件
Figure 854147DEST_PATH_IMAGE003
逻辑二:
在时间窗口内,
Figure 838283DEST_PATH_IMAGE026
,并且参数
Figure 682611DEST_PATH_IMAGE005
要满足条件
Figure 461211DEST_PATH_IMAGE027
其中
Figure 266356DEST_PATH_IMAGE007
是多线程权重参数,
Figure 929550DEST_PATH_IMAGE008
是针对多线程数据下载的阈值参数;
Figure 238172DEST_PATH_IMAGE009
是重复权重参数,
Figure 453252DEST_PATH_IMAGE010
是针对数据重复下载的阈值参数。
综上,本方案稳定、快速、高效、易扩展,考虑了多线程数据下载和相同数据重复下载的情况,适用于一般的数据爬虫场景。对未来大数据爬虫的识别方法都有一定的参考意义。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种地图瓦片数据爬虫的识别方法,其特征在于,所述方法包括下述步骤:
步骤S1、连接数据源;
步骤S2、接收从数据源输出的数据流,并对数据流预处理;
步骤S3、为预处理后的数据流指定时间戳和水印延迟;
步骤S4、将数据流进行数据格式转换处理,转变成键值对形式的数据流,其中指定键为访问ip,指定值为每条数据的内容;
步骤S5、设置时间窗口;
步骤S6、根据地图瓦片数据爬虫识别逻辑,筛选出每个时间窗口内的爬虫ip。
2.如权利要求1所述地图瓦片数据爬虫的识别方法,其特征在于,所述方法还包括下述步骤:
步骤S7、把识别出的每个时间窗口中的爬虫ip存入数据库表格中。
3.如权利要求2所述地图瓦片数据爬虫的识别方法,其特征在于,所述识别逻辑具体为:统计每个时间窗口内, x、y、z三个数据,其中:
统计每个时间窗口内含有同一ip的数据条数,记此数据条数为x;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级)”为键的数据条数,记此数据条数为y;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级,地图切片行号,地图切片列号)”为键的数据条数,记此数据条数为z;
下述两条逻辑中,只要当前ip的一次行为满足任一条逻辑,即可认定当前ip为爬虫ip;
逻辑一:
在时间窗口内,满足
Figure 966196DEST_PATH_IMAGE001
,其中参数
Figure 849838DEST_PATH_IMAGE002
要满足条件
Figure 949643DEST_PATH_IMAGE003
逻辑二:
在时间窗口内,
Figure 918736DEST_PATH_IMAGE004
,并且参数
Figure 745878DEST_PATH_IMAGE005
要满足条件
Figure 749606DEST_PATH_IMAGE006
其中
Figure 518848DEST_PATH_IMAGE007
是多线程权重参数,
Figure 975237DEST_PATH_IMAGE008
是针对多线程数据下载的阈值参数;
Figure 606070DEST_PATH_IMAGE009
是重复权重参数,
Figure 464304DEST_PATH_IMAGE010
是针对数据重复下载的阈值参数。
4.如权利要求3所述地图瓦片数据爬虫的识别方法,其特征在于,所述步骤S2中,预处理过程具体为:检查数据流中要保留的字段是否有空值或者空字符串,如果有则用0替换,且如果属性是整数则转化成int类型,如果属性包含小数则转化成float类型。
5.如权利要求4所述地图瓦片数据爬虫的识别方法,其特征在于,输入的数据流包含以下字段:访问ip,访问时间,请求响应状态,请求资源类型,响应流量,请求流量,服务处理时长,请求处理时长,浏览器User-Agent,地图切片矩阵集合名,地图切片矩阵名,地图层级,地图切片行号,地图切片列号;其中要保留的字段有访问ip,访问时间,地图切片矩阵集合名,地图切片矩阵名,地图层级,地图切片行号和地图切片列号。
6.一种地图瓦片数据爬虫的识别系统,其特征在于,所述系统包括:
连接单元,用于连接数据源;
预处理单元,用于接收从数据源输出的数据流,并对数据流预处理;
延迟处理单元,用于为预处理后的数据流指定时间戳和水印延迟;
数据格式转换单元,用于将数据流进行数据格式转换处理,转变成键值对形式的数据流,其中指定键为访问ip,指定值为每条数据的内容;
时间窗口设置单元,用于设置时间窗口;
识别单元,用于根据地图瓦片数据爬虫识别逻辑,筛选出每个时间窗口内的爬虫ip。
7.如权利要求6所述地图瓦片数据爬虫的识别系统,其特征在于,所述系统还包括:
结果输出单元,用于把识别出的每个时间窗口中的爬虫ip存入数据库表格中。
8.如权利要求7所述地图瓦片数据爬虫的识别系统,其特征在于,所述识别单元的识别逻辑具体为:统计每个时间窗口内, x、y、z三个数据,其中:
统计每个时间窗口内含有同一ip的数据条数,记此数据条数为x;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级)”为键的数据条数,记此数据条数为y;
统计每个时间窗口内,以“(ip,地图切片矩阵名,地图层级,地图切片行号,地图切片列号)”为键的数据条数,记此数据条数为z;
下述两条逻辑中,只要当前ip的一次行为满足任一条逻辑,即可认定当前ip为爬虫ip;
逻辑一:
在时间窗口内,满足
Figure 483076DEST_PATH_IMAGE011
,其中参数
Figure 55789DEST_PATH_IMAGE012
要满足条件
Figure 349367DEST_PATH_IMAGE013
逻辑二:
在时间窗口内,
Figure 937475DEST_PATH_IMAGE014
,并且参数
Figure 923885DEST_PATH_IMAGE015
要满足条件
Figure 479500DEST_PATH_IMAGE016
其中
Figure 842349DEST_PATH_IMAGE007
是多线程权重参数,
Figure 19383DEST_PATH_IMAGE008
是针对多线程数据下载的阈值参数;
Figure 176695DEST_PATH_IMAGE009
是重复权重参数,
Figure 721071DEST_PATH_IMAGE010
是针对数据重复下载的阈值参数。
CN202111132457.4A 2021-09-27 2021-09-27 一种地图瓦片数据爬虫的识别方法及系统 Active CN113569122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111132457.4A CN113569122B (zh) 2021-09-27 2021-09-27 一种地图瓦片数据爬虫的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111132457.4A CN113569122B (zh) 2021-09-27 2021-09-27 一种地图瓦片数据爬虫的识别方法及系统

Publications (2)

Publication Number Publication Date
CN113569122A true CN113569122A (zh) 2021-10-29
CN113569122B CN113569122B (zh) 2021-12-10

Family

ID=78174725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111132457.4A Active CN113569122B (zh) 2021-09-27 2021-09-27 一种地图瓦片数据爬虫的识别方法及系统

Country Status (1)

Country Link
CN (1) CN113569122B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016138067A1 (en) * 2015-02-24 2016-09-01 Cloudlock, Inc. System and method for securing an enterprise computing environment
CN109145185A (zh) * 2018-02-02 2019-01-04 北京数安鑫云信息技术有限公司 识别网络爬虫以及提取网络爬虫特征的方法及装置
CN109309644A (zh) * 2017-07-26 2019-02-05 中国科学院信息工程研究所 一种基于双正交载体的网络水印标记方法及系统
CN111522845A (zh) * 2020-04-08 2020-08-11 北京航空航天大学 一种基于时间序列预测的流计算框架水印发放策略
CN111711617A (zh) * 2020-05-29 2020-09-25 北京金山云网络技术有限公司 网络爬虫的检测方法、装置、电子设备及存储介质
CN112395315A (zh) * 2020-10-23 2021-02-23 中国科学院计算机网络信息中心 一种日志文件的统计与异常探测方法及电子装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016138067A1 (en) * 2015-02-24 2016-09-01 Cloudlock, Inc. System and method for securing an enterprise computing environment
CN109309644A (zh) * 2017-07-26 2019-02-05 中国科学院信息工程研究所 一种基于双正交载体的网络水印标记方法及系统
CN109145185A (zh) * 2018-02-02 2019-01-04 北京数安鑫云信息技术有限公司 识别网络爬虫以及提取网络爬虫特征的方法及装置
CN111522845A (zh) * 2020-04-08 2020-08-11 北京航空航天大学 一种基于时间序列预测的流计算框架水印发放策略
CN111711617A (zh) * 2020-05-29 2020-09-25 北京金山云网络技术有限公司 网络爬虫的检测方法、装置、电子设备及存储介质
CN112395315A (zh) * 2020-10-23 2021-02-23 中国科学院计算机网络信息中心 一种日志文件的统计与异常探测方法及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲁念平: "针对信息披露网站的实时爬虫检测与拦截", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN113569122B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
JP7197675B2 (ja) データストリームのリアルタイム処理のためのシステムおよび方法
CN108563739B (zh) 天气数据获取方法及装置、计算机装置及可读存储介质
CN107871166B (zh) 针对机器学习的特征处理方法及特征处理系统
CN100504879C (zh) 动态网页的分块方法
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN109684052B (zh) 事务分析方法、装置、设备及存储介质
US20240095170A1 (en) Multi-cache based digital output generation
CN111708932A (zh) 一种云计算平台及其调度、数据分析方法及系统
CN112486676B (zh) 一种基于边缘计算的数据共享分发装置
CN106484913A (zh) 一种目标图片确定的方法以及服务器
CN113569122B (zh) 一种地图瓦片数据爬虫的识别方法及系统
CN117093619A (zh) 一种规则引擎处理方法、装置、电子设备及存储介质
CN115660538A (zh) 一种货物运输方法及系统
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114513355A (zh) 恶意域名检测方法、装置、设备及存储介质
CN113821418A (zh) 故障跟因分析方法及装置、存储介质和电子设备
Li [Retracted] Application of Artificial Intelligence Technology in Computer Network Security Communication
CN116610531B (zh) 基于代码探针采集数据埋点及请求图片上传数据的方法
CN112862536B (zh) 一种数据处理方法、装置、设备及存储介质
Klipa et al. Big data and artificial intelligence
US20240098106A1 (en) Generating models for detection of anomalous patterns
CN116436687A (zh) 基于轨道交通的多端数据交互方法及系统
CN116796133A (zh) 数据分析方法、装置、计算机设备及存储介质
CN117714130A (zh) 网络报文检测方法、装置及电子设备
CN117834184A (zh) 一种互联网恶意实体的检测方法与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 430223 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan community, Donghu Development Zone, Wuhan City, Hubei Province

Patentee after: Geospace Information Technology Co., Ltd.

Address before: 430223 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan community, Donghu Development Zone, Wuhan City, Hubei Province

Patentee before: WUDA GEOINFORMATICS Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Recognition Method and System for Map Tile Data Crawler

Effective date of registration: 20230406

Granted publication date: 20211210

Pledgee: Bank of Hankou Limited by Share Ltd. Financial Services Center

Pledgor: Geospace Information Technology Co.,Ltd.

Registration number: Y2023420000149