CN111949849A - 鱼类信息的获取方法、装置、电子设备及可读存储介质 - Google Patents
鱼类信息的获取方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111949849A CN111949849A CN202010814315.5A CN202010814315A CN111949849A CN 111949849 A CN111949849 A CN 111949849A CN 202010814315 A CN202010814315 A CN 202010814315A CN 111949849 A CN111949849 A CN 111949849A
- Authority
- CN
- China
- Prior art keywords
- species
- information
- fish
- database
- directory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 241000894007 species Species 0.000 claims abstract description 346
- 241000251468 Actinopterygii Species 0.000 claims abstract description 144
- 230000009193 crawling Effects 0.000 claims abstract description 72
- 238000004590 computer program Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 13
- 230000000877 morphologic effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 102100039148 Ankyrin repeat domain-containing protein 49 Human genes 0.000 claims 2
- 101000889457 Homo sapiens Ankyrin repeat domain-containing protein 49 Proteins 0.000 claims 2
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种鱼类信息的获取方法、装置、电子设备及可读存储介质,本发明实施例中,获取多个国家的鱼类物种名录文件,得到鱼类物种名录数据库;根据鱼类物种名录数据库中的物种名信息编写目标网站的URL;根据URL在目标网站中爬取对应的网页信息,得到物种信息数据库;解析物种信息数据库中网页信息,得到物种信息数据库内容;基于物种信息数据库内容,根据物种信息数据库内容中的流域信息,确定特定流域物种名录;基于特定流域物种名录中的物种名,批量提取与物种名的相对应的鱼类信息。该方法可以根据鱼类信息的获取装置批量提取鱼类信息,将有关人员从大量机械重复的操作中解放出来,大大提高了工作效率。
Description
技术领域
本发明涉及生物信息技术领域,具体涉及一种鱼类信息的获取方法、装置、电子设备及可读存储介质。
背景技术
世界鱼类数据库(FishBase)是一个提供鱼类所有种类和亚种的相关信息的全球数据库。该数据库中不仅有全球鱼类物种,还囊括了鱼类形态信息,生态数据以及分布数据等等。FishBase在信息获得和提取上仍有一些不足,譬如,FishBase只支持按国家划分以此获得国家鱼类物种名录,并不支持针对于特定流域的鱼类物种名录的获取。
鱼类目录数据库(Catalog of fishes,Cas)也是一个提供全球鱼类相关信息的全球数据库。相对于FishBase,其分类信息较为完善,但是囊括的数据量远远不如FishBase,仅仅包含了物种名的历史变更信息、现存物种名以及分布数据。
全球生物多样性信息网络(Global Biodiversity Information Facility,GBIF)数据库中包含了文献中所上传的所有物种详细样点的坐标信息,并且GBIF数据库与美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)数据库关联,因此能够获得更为完善的信息。由于这三个数据库各有优劣,因此,人们在使用的过程中,通常会结合这三个数据库依次获取相对完整的信息。
流域鱼类物种信息的获取,是进行鱼类研究的前提条件,但现有方法对于特定流域物种名录的获取,需要得到流域所经国家全部的物种名录,然后人工依次从公开数据库进行一一核对,这种方法费时费力,工作效率很低。
发明内容
本发明实施例提供一种鱼类信息的获取方法、装置、电子设备及可读存储介质,可以提高工作效率。
第一方面,本发明实施例提供了一种鱼类信息的获取方法,包括:
获取目标流域;
确定所述目标流域流经的多个国家;
获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
在一些实施方式中,所述根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,包括:
根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;
根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。
在一些实施方式中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
检测所述爬取是否中断;
若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;
若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
检测所述爬行对应的用户ip是否被封禁;
若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,包括:
根据Css解析库或正则表达式解析所述物种信息数据库所述中网页信息。
在一些实施方式中,所述基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,包括:
从所述特定流域物种名录中提取物种名;
向GBIF数据库批量发送所述物种名;
从所述GBIF数据库获得与所述物种名对应的鱼类信息。
第二方面,本发明实施例还提供了一种鱼类信息的获取装置,包括:
第一获取单元,用于获取目标流域;
第一确定单元,用于确定所述目标流域流经的多个国家;
第二获取单元,用于获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
编写单元,用于根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
爬取单元,用于根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析单元,用于解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
第二确定单元,用于基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
提取单元,用于基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
在一些实施方式中,所述编写单元具体用于:
根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;
根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。
在一些实施方式中,所述爬取单元具体用于:
检测所述爬取是否中断;
若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;
若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述爬取单元还具体用于:
检测所述爬行对应的用户ip是否被封禁;
若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述爬取单元还具体用于:
间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述解析单元具体用于:
根据Css解析库或正则表达式解析所述物种信息数据库所述中网页信息。
在一些实施方式中,所述提取单元具体用于:
从所述特定流域物种名录中提取物种名;
向GBIF数据库批量发送所述物种名;
从所述GBIF数据库获得与所述物种名对应的鱼类信息。
第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本发明实施例提供的任一种鱼类信息的获取方法中的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例提供的任一种鱼类信息的获取方法中的步骤。
本发明实施例中,鱼类信息的获取装置获取目标流域;确定所述目标流域流经的多个国家;获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;基于所述特定流域物种名录中的物种名,批量提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。该方法可以根据鱼类信息的获取装置批量提取鱼类信息,将有关人员从大量机械重复的操作中解放出来,大大提高了工作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的鱼类信息的获取方法的流程示意图;
图2是本发明实施例提供的鱼类信息的获取系统的结构示意图;
图3是本发明实施例提供的鱼类信息的获取装置的结构示意图;
图4为本发明实施例提供的一种鱼类信息的获取装置的硬件结构示意图;
图5为本发明实施例提供的一种电子设备的实施例示意图;
图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境,其中包括了任何的上述系统或装置。
本发明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
在一些实施例中,在实现本发明实施例提供的鱼类信息的获取方法之前,首先进行环境搭建,搭建python环境,安装好程序所需要的python模块。具体的,所述环境搭建包括:根据所用计算机系统下载相应的python安装包;配置环境变量;安装request编程模块。
在功能实现时,利用python GUI开发编制系统功能的程序脚本和界面;然后将编制的程序封装成可执行文件格式(exe格式)的基于鱼类信息的获取的方法。
请参阅图1,图1是本发明一实施例提供的鱼类信息的获取方法的流程示意图。该鱼类信息的获取方法的执行主体可以是本发明实施例提供的鱼类信息的获取装置,或者集成了该鱼类信息的获取装置的电子设备,其中,该鱼类信息的获取装置可以采用硬件或者软件的方式实现,该电子设备可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。该鱼类信息的获取方法可以包括:
101、获取目标流域。
102、确定所述目标流域流经的多个国家。
用户从搜索引擎中获得流域所经过的国家,并记录该目标流域所流经的国家。
103、获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库。
即读入用户下载好的流域所经过多个国家的鱼类物种名录文件;对多个国家鱼类物种名录文件进行处理,将其整合为流域经过国家的鱼类物种名录数据库,并且剔除重复数据。
具体地,用户根据FishBase官网地址或根据搜索引擎进入FishBase官网;在国家选项选中流域所经过的各个国家;下载对应国家的物种名录信息文件。
系统自动将多国的物种名录信息文件合并;
判断合并后的文件有无重复的物种名;如果有则删除重复项,如果没有,则形成流域经过所有国家的所有鱼类的鱼类物种名录数据库。
可选的,在本步骤还可以以文本文件格式查看信息数据库并对其中的信息进行修改。
104、根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站。
结合鱼类物种名录数据库,对其中的物种名信息进行处理,解析并且自动编写Cas网站和FishBase网站的物种URL。
具体的,Cas网站和FishBase网站的URL编写方式不相同,Cas网站是post请求,而FishBase是get请求,因此需要根据数据库网站不同URL编写方式,自动设置下载方式。
105、根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
运用网络爬虫的方法,进入编写好的url的相应页面爬取网站信息。
在一些实施例中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:检测所述爬取是否中断;若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
即,由于鱼类物种名录数据库内数据量庞大,为了避免用户使用过程中出现网络问题导致的爬取失败,本实施例会在界面上显示爬取进度以及正在爬取的物种名,一旦爬取中断,程序将之前爬取的内容自动储存并且显示最后一次爬取的物种名,以便用户之后的继续操作。
在一些实施例中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:检测所述爬行对应的用户ip是否被封禁;若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。或,包括:间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
即,FishBase和Cas网站内部都含有对于爬虫程序的限制机制,其会禁止爬虫的请求,例如同一ip多次且频繁的访问会导致该网络ip被目标网站封禁,这种封禁的时间不等,为了保证正常采集数据且本地ip不被封禁,物种信息爬取模块内有两个机制帮助用户解决这一问题。
(1)模块自带多个免费的ip,每次被网站封禁之后,程序会随机抽取ip库的ip更换并且继续执行爬虫。
(2)选择模块默认程序,设置了访问间隔时间,该访问间隔时间经过了反复的调试,能够最大程度的保证用户快速抓取的同时不被封禁。
106、解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据。
爬虫程序爬取的内容均为html格式,用户所需要的不同内容的标签不同,因此需要对数据格式类型进行判断。可选的,系统支持Css解析库以及正则表达式解析物种信息数据库的内容。
数据信息细化处理得到全部信息关键词(如物种名)对应内容,本实施例还可以根据用户需求显示用户所需信息关键词的对应内容
107、基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录。
具体地,本实施例还能够根据抓取内容来判断物种存在的流域,并且将物种信息数据库中的物种归类于他们所分布的不同流域,由此可以得到特定流域物种名录,并且导出为文本文件。
108、基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息。
具体地,从所述特定流域物种名录中提取物种名;然后向GBIF数据库批量发送所述物种名;再从所述GBIF数据库获得与所述物种名对应的鱼类信息,其中,所述鱼类信息包括物种的基本信息和地理位置信息。
即,以特定流域物种名录文件的形式,向GBIF数据库批量发送物种名;然后从GBIF数据库获得物种的完整信息,包括该数据库所有该物种的样品采集地点坐标(地理位置信息)以及其种属信息等。
在一些实施例中,本发明还包括:
(1)信息显示时,依次将地理位置相近的物种排列在一起。
(2)信息显示有关内容可以保存至文件。
本发明实施例中,鱼类信息的获取装置获取目标流域;确定所述目标流域流经的多个国家;获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;基于所述特定流域物种名录中的物种名,批量提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。该方法可以根据鱼类信息的获取装置批量提取鱼类信息,将有关人员从大量机械重复的操作中解放出来,大大提高了工作效率。
请参阅图2,本实施例还提供了一种鱼类信息的获取系统,该系统包括流域鱼类物种收集模块、物种信息爬取模块、物种信息整理模块以及样点地理位置获取模块,其中,步骤101-步骤103由流域鱼类物种收集模块实现,步骤104-步骤105由物种信息爬取模块实现,步骤106由物种信息整理模块实现,步骤107-步骤108由样点地理位置获取模块实现。
为便于更好的实施本发明实施例提供的鱼类信息的获取方法,本发明实施例还提供一种基于上述鱼类信息的获取方法的装置。其中名词的含义与上述鱼类信息的获取方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本发明实施例提供的鱼类信息的获取装置的结构示意图,其中该鱼类信息的获取装置300可以包括第一获取单元301、第一确定单元302、第二获取单元303、编写单元304、爬取单元305、解析单元306、第二确定单元307以及提取单元308。其中:
第一获取单元301,用于获取目标流域;
第一确定单元302,用于确定所述目标流域流经的多个国家;
第二获取单元303,用于获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
编写单元304,用于根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
爬取单元305,用于根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析单元306,用于解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
第二确定单元307,用于基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
提取单元308,用于基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
在一些实施方式中,所述编写单元304具体用于:
根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;
根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。
在一些实施方式中,所述爬取单元305具体用于:
检测所述爬取是否中断;
若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;
若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述爬取单元305还具体用于:
检测所述爬行对应的用户ip是否被封禁;
若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述爬取单元305还具体用于:
间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
在一些实施方式中,所述解析单元306具体用于:
根据Css解析库或正则表达式解析所述物种信息数据库所述中网页信息。
在一些实施方式中,所述提取单元具体用于:
从所述特定流域物种名录中提取物种名;
向GBIF数据库批量发送所述物种名;
从所述GBIF数据库获得与所述物种名对应的鱼类信息。
本发明实施例中,第一获取单元301获取目标流域;第一确定单元302确定所述目标流域流经的多个国家;第二获取单元303获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;编写单元304根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;爬取单元305根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;解析单元306解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;第二确定单元307基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;提取单元308基于所述特定流域物种名录中的物种名,批量提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。该方法可以根据鱼类信息的获取装置批量提取鱼类信息,将有关人员从大量机械重复的操作中解放出来,大大提高了工作效率。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
上面图3从模块化功能实体的角度对本发明实施例中的鱼类信息的获取装置进行了描述,下面从硬件处理的角度对本发明实施例中的鱼类信息的获取装置进行详细描述,请参阅图4,本发明实施例中的鱼类信息的获取装置400一个实施例,包括:
输入装置401、输出装置402、处理器403和存储器404(其中处理器403的数量可以一个或多个,图4中以一个处理器403为例)。在本发明的一些实施例中,输入装置401、输出装置402、处理器403和存储器404可通过总线或其它方式连接,其中,图4中以通过总线连接为例。
其中,通过调用存储器404存储的操作指令,处理器403,用于执行如下步骤:
获取目标流域;
确定所述目标流域流经的多个国家;
获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
请参阅图5,图5为本发明实施例提供的电子设备的实施例示意图。
如图5所示,本发明实施例提供了一种电子设备,包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511,处理器520执行计算机程序511时实现以下步骤:
获取目标流域;
确定所述目标流域流经的多个国家;
获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
请参阅图6,图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图6所示,本实施例提供了一种计算机可读存储介质600,其上存储有计算机程序611,该计算机程序611被处理器执行时实现如下步骤:
获取目标流域;
确定所述目标流域流经的多个国家;
获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的风电场数字化平台设计的方法中的流程。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修该,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种鱼类信息的获取方法,其特征在于,包括:
获取目标流域;
确定所述目标流域流经的多个国家;
获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,包括:
根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;
根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。
3.根据权利要求1所述的方法,其特征在于,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
检测所述爬取是否中断;
若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;
若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
4.根据权利要求1所述的方法,其特征在于,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
检测所述爬行对应的用户ip是否被封禁;
若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
5.根据权利要求1所述的方法,其特征在于,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。
6.根据权利要求1至5中任一项所述的方法,其特征在于,解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,包括:
根据Css解析库或正则表达式解析所述物种信息数据库所述中网页信息。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,包括:
从所述特定流域物种名录中提取物种名;
向GBIF数据库批量发送所述物种名;
从所述GBIF数据库获得与所述物种名对应的鱼类信息。
8.一种鱼类信息的获取装置,其特征在于,包括:
第一获取单元,用于获取目标流域;
第一确定单元,用于确定所述目标流域流经的多个国家;
第二获取单元,用于获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
编写单元,用于根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
爬取单元,用于根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析单元,用于解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
第二确定单元,用于基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
提取单元,用于基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的鱼类信息的获取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的鱼类信息的获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010814315.5A CN111949849B (zh) | 2020-08-13 | 2020-08-13 | 鱼类信息的获取方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010814315.5A CN111949849B (zh) | 2020-08-13 | 2020-08-13 | 鱼类信息的获取方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111949849A true CN111949849A (zh) | 2020-11-17 |
CN111949849B CN111949849B (zh) | 2023-11-21 |
Family
ID=73343302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010814315.5A Active CN111949849B (zh) | 2020-08-13 | 2020-08-13 | 鱼类信息的获取方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949849B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225349A (zh) * | 2021-05-21 | 2021-08-06 | 中国工商银行股份有限公司 | 恶意ip地址威胁情报库建立、防止恶意攻击方法及装置 |
CN113881781A (zh) * | 2021-10-14 | 2022-01-04 | 中国科学院水生生物研究所 | 用于雅鲁藏布江中上游鱼类环境dna监测的引物及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149457A1 (en) * | 2012-03-29 | 2014-05-29 | Tencent Technology (Shenzhen) Company Limted | Method and apparatus for data storage and downloading |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN109086574A (zh) * | 2018-08-16 | 2018-12-25 | 国家卫生计生委科学技术研究所 | 疾病相关蛋白数据库 |
CN109885744A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 网页数据爬取方法、装置、系统、计算机设备及存储介质 |
-
2020
- 2020-08-13 CN CN202010814315.5A patent/CN111949849B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149457A1 (en) * | 2012-03-29 | 2014-05-29 | Tencent Technology (Shenzhen) Company Limted | Method and apparatus for data storage and downloading |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN109086574A (zh) * | 2018-08-16 | 2018-12-25 | 国家卫生计生委科学技术研究所 | 疾病相关蛋白数据库 |
CN109885744A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 网页数据爬取方法、装置、系统、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225349A (zh) * | 2021-05-21 | 2021-08-06 | 中国工商银行股份有限公司 | 恶意ip地址威胁情报库建立、防止恶意攻击方法及装置 |
CN113881781A (zh) * | 2021-10-14 | 2022-01-04 | 中国科学院水生生物研究所 | 用于雅鲁藏布江中上游鱼类环境dna监测的引物及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN111949849B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
KR100968126B1 (ko) | 웹쉘 탐지 시스템 및 웹쉘 탐지 방법 | |
CN104899220A (zh) | 应用程序推荐方法和系统 | |
CN105577528B (zh) | 一种基于虚拟机的微信公众号数据采集方法及装置 | |
CN103678487A (zh) | 一种网页快照的生成方法和装置 | |
CN103455758A (zh) | 恶意网站的识别方法及装置 | |
CN111367595B (zh) | 数据处理方法、程序运行方法、装置及处理设备 | |
CN111949849B (zh) | 鱼类信息的获取方法、装置、电子设备及可读存储介质 | |
CN103714119A (zh) | 一种浏览器数据的处理方法和装置 | |
CN106326242A (zh) | 应用程序的推送方法及装置 | |
CN110909229A (zh) | 一种基于模拟浏览器访问的网页数据获取和存储的系统 | |
CN111625748A (zh) | 网站的导航栏信息提取方法、装置、电子设备及存储介质 | |
US20090281994A1 (en) | Interactive Search Result System, and Method Therefor | |
CN111538645A (zh) | 数据可视化方法及相关设备 | |
KR101556743B1 (ko) | 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법 | |
CN104281629A (zh) | 从网页中提取图片的方法、装置及客户端设备 | |
CN103838865B (zh) | 用于挖掘时效性种子页的方法及装置 | |
CN111597557A (zh) | 恶意应用程序的检测方法、系统、装置、设备及存储介质 | |
CN110069691B (zh) | 用于处理点击行为数据的方法和装置 | |
CN110675205B (zh) | 基于应用的竞品分析方法、装置及存储介质 | |
CN110543457A (zh) | 轨迹类文档处理方法和装置、存储介质及电子装置 | |
Fouquet et al. | Breaking bad: Quantifying the addiction of web elements to JavaScript | |
KR20170071389A (ko) | 불특정 웹사이트의 새로운 게시글 분석 및 본문 추출을 통한 새 글 알림 시스템 및 방법 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
CN111428117A (zh) | 应用程序的数据获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |