CN110309246A

CN110309246A - 一种互联网地质数据检索与获取的方法及其装置

Info

Publication number: CN110309246A
Application number: CN201910437403.5A
Authority: CN
Inventors: 朱月琴; 吴永亮; 谭永杰
Original assignee: DEVELOPMENT AND Research CENTER GEOLOGIC SURVEY BUREAU OF CHINA
Current assignee: DEVELOPMENT AND Research CENTER GEOLOGIC SURVEY BUREAU OF CHINA
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-10-08

Abstract

本发明公开了一种互联网地质数据检索与获取的方法，包括：将地质叙词表转换成EXCEL格式的电子版叙词表；依据检索“关键词”，通过与电子版叙词表比对获取等级关系、等价关系、相关关系的关联词；利用相关性层级数的设置对关联词数量进行收敛控制；检索关键词和关联词，爬虫程序依据检索结果的页面数据和爬取规则，爬取该页面数据(主网页)以及该页面数据中每条网址链接的数据；对网页数据进行地质主题相关性计算，确定相关的数据。通过发明方法对地质数据抽取，可实现地质信息和新闻的定期、定向的精确提取，解决了采用传统数据爬取方法与地质大数据特性之间的矛盾，有效提升数据发现的全面性，可以高效的获取互联网地质相关数据。

Description

一种互联网地质数据检索与获取的方法及其装置

技术领域

本发明涉及信息检索数据的技术领域，尤其涉及在互联网中进行地质数据的标引、提取、检索的技术。

背景技术

在互联网数据不断更新的前提下，从海量的互联网数据中以人工查找、阅览、分析并下载的方式去发现数据是一项十分辛苦且极其繁琐的工作。地质领域相关人员难以对每一个地质问题都长时间的按照地质知识的规则去发现每一份有用的数据。此外，每个人对“有用”程度的判断尺度也不一样，检索同一目标数据时，不同地质知识背景的人员可能会产生地质数据遗漏或者重复检索。为了高效发现地质文本数据，除了采用传统的互联网数据下载/爬取方法外，还要针对地质数据的特点与需求解决三个方面的问题：(1)如何尽可能全面的获取地质检索关键词，以往在开展地质数据检索时往往只是给出目标关键词，但难以给出与检索目标相关的关键词，这直接影响地质数据检索目标的覆盖性；(2)如何尽可能获得相关网址链接，这直接影响检索内容的全面性；(3)如何判断下载的网页数据是否和地质主题相关，这直接影响获取数据的有效性。

针对这些问题，如何在传统互联网数据中采集到有效的地质数据是非常迫切需要解决的问题。

发明内容

本发明公开了一种互联网地质数据检索与获取的方法，包括：将地质叙词表转换成EXCEL格式的电子版叙词表；依据检索“关键词”，通过与电子版叙词表比对获取等级关系、等价关系、相关关系的关联词；利用相关性层级数的设置对关联词数量进行收敛控制；检索关键词和关联词，爬虫程序依据检索结果的页面数据和爬取规则，爬取该页面数据(主网页)以及主页面数据中每条网址链接的数据。；对网页数据进行地质主题相关性计算，确定相关的数据。

进一步地，所述的检索关键词和关联词，其通过爬虫程序调用Google搜索引擎的API，对关键词和关联词进行检索。

进一步地，所述的爬取规则，具体包括：设置主网页采集规则，建立网页翻页规则，按照爬取规则爬取数据。

进一步地，所述的对网页数据进行地质主题相关性计算包括：(1)从电子版叙词表中读取关联词，获取带有权重的关联词集合k_i(i＝1,2,…m)；(2)计算关联词k_i在网页D_j数据标题中出现的次数可以得到向量A_title(A_j1,A_j2…A_jm)和计算关联词k_i在摘要C_j中出现的次数可以用向量B_content(B_j1,B_j2…B_jm)表示；(3)由关联词组成权重向量可以表示为W(W₁,W₂,…W_m)，则网页数据C_j的地质相关度计算公式：REL_D＝A_title*W^t+B_content*W^t；其中，关联词组成权重向量W根据关键词与检索主题词在地质叙词表中的关系确定，优选术语、异形术语取值为1；上位类术语取值为0.5；下位类术语取值为0.8；相关术语取值为0.5；(4)计算网页数据的相关度可以形成网页数据-关键词权值矩阵，其通过计算每个网页数据的关键词权值总和，并根据实际应用需求确定权值阈值，实现对网页主题的相关性判断：

其中，Q取值为0.6。

本发明还提供了一种互联网地质数据检索与获取的装置，包括：互联网数据爬取与抽取功能单元，其用于获取网页数据和特定数据；重复性检查单元，其用于针对名称、大小等信息进行检测，去除相同的文件；数据归类与存储单元，其用于按照数据梳理基本流程，对地质数据索引信息进行梳理归类与存储。

通过本发明可以扩大地质数据检索关键词范围与数量，自动爬取搜索引擎返回的链接数据，通过地质数据相关性判断实现爬取数据的筛选。通过发明方法对地质数据抽取，可实现地质信息和新闻的定期、定向的精确提取，解决了采用传统数据爬取方法与地质大数据特性之间的矛盾，有效提升数据发现的全面性，可以高效的获取互联网地质相关数据。

附图说明

图1互联网地质数据的检索与获取逻辑图。

图2语义关系模型图。

图3“辉长岩”关联词图。

图4网页采集规则设置图。

图5网页翻页规则设置图。

图6网页爬取的数据示例图。

图7已知地质网站数据采集流程图。

图8地质调查相关网站数据抽取图。

图9重复数据检查示例图。

图10数据归类操作示例图。

具体实施方式

实施例1

1、将地质叙词表转换成EXCEL格式的电子版叙词表。

电子版叙词表中，每个词条(称为优选术语)都有对应关系词汇，包括上位类术语、异性术语、下位类术语和相关术语等。

2、通过电子版叙词表建立3种类型的语义关系模型(见图2)：(1)等级关系：把术语分类成类别和子类别(包括上位类术语和下位类术语)；(2)等价关系：同义词(异形术语)；(3)相关关系：相关术语。

3、依据检索“关键词”，通过与电子版叙词表比对获取等级关系、等价关系、相关关系的关联词。

4、利用相关性层级数的设置对关联词数量进行收敛控制。

在电子版叙词表中，每个关键词通过语义模型可以关联多级词汇，最终整个叙词表中的词汇会组成一个相互关联的词汇网，因此需要通过设置关联层级使关联词数收敛。本专利中设置为1级收敛，此时，仅从叙词表中获取与检索关键词直接有语义关系的关联词。

例如，以“辉长岩”进行搜索，可以从电子版叙词表中获取其上位类术语(上位关联词)、下位类术语(下位关联词)、相关术语(相关关联词)和异性术语(英文词)，获取检索词的7个关联词(见图3)。

5、检索关键词和关联词，爬虫程序依据检索结果的页面数据和爬取规则，爬取该页面数据(主网页)以及该页面数据中每条网址链接的数据。

比如，调用百度，将检索词输入后，百度会返回检索结果页面，该页面的网址就是爬取的网址之一。同时该页面中每条数据都是一个链接网址，爬虫会爬取每个链接的数据。

通过爬虫程序调用Google搜索引擎的API，对关键词和关联词进行检索，返回检索结果网页链接网址，爬虫程序依据爬取规则对检索结果网页链接网址以及该页面中的每条数据的网页链接进行爬取，获得数据。调用搜索引擎的API，将检索词输入，搜索引擎会返回带有检索结果的网页，该网页的网址以及网页中每个链接的网址组成全部需要爬取数据的网址。

所述的爬取规则，具体设置如下：

(1)设置主网页采集规则

建立主网页信息(搜索引擎返回的网页数据即为主网页)与网页标签的映射，见图5。将爬虫的标题、摘要、网址在网页栏中对应的节点分别映射到主网页中第一组网页数据后，爬虫程序可以依次识别出主网页中每条网页数据的节点。即建立映射规则后，爬虫程序可依次循环识别每条网页信息的采集父节点，见图4。

(2)建立网页翻页规则

通过搜索引擎反馈的网页数据如果是多页显示，依据设置好翻页链接规则映射，实现爬虫程序的自动翻页，见图5。通过链接代码建立爬虫程序与网页信息换页区信息的映射，爬虫程序可自动读取换页链接，实现按顺序逐页采集。

(4)按照爬取规则爬取数据

按照爬取规则和路线自动采集当前主页面和全部链接路径的网页信息(包括搜索引擎返回网页页面中，每条数据的标题、摘要、网址等)。将采集网页信息中每条数据按照标题、摘要、网址链接等数据存储成Excel文件。

6、对网页数据进行地质主题相关性计算，确定相关的数据

(1)从电子版叙词表中读取关联词，获取带有权重的关联词集合k_i(i＝1,2,…m)；

(2)计算关联词k_i在网页D_j数据标题中出现的次数可以得到向量A_title(A_j1,A_j2…A_jm)和计算关联词k_i在摘要C_j中出现的次数可以用向量B_content(B_j1,B_j2…B_jm)表示。

(3)由关联词组成权重向量可以表示为W(W₁,W₂,…W_m)，则网页数据C_j的地质相关度计算公式：

REL_D＝A_title*W^t+B_content*W^t；

其中，关联词组成权重向量W根据关键词与检索主题词在地质叙词表中的关系确定，优选术语、异形术语取值为1；上位类术语取值为0.5；下位类术语取值为0.8；相关术语取值为0.5。

(4)计算网页数据的相关度可以形成网页数据-关键词权值矩阵。通过计算每个网页数据的关键词权值总和，并根据实际应用需求确定权值阈值，实现对网页主题的相关性判断。

其中，Q是位置调节参数，关键词在标题中出现比在摘要中出现更具有相关性，因此，这里Q取值为0.6。

利用地质主题相关性判断方法可以从爬取海量数据中确定相关的数据，从采集与目标地质主题相关的数据。

以“成矿预测”为关键词为例，选择“百度学术”引擎为检索目标平台，获取相关数据1059条(包括标题、摘要、网址链接等信息)，其中包含通过叙词表自动匹配的英文“metallogenic prediction”数据432条，耗时37分钟，见图6。

经过人工查验，爬取的一级网页标题、网址、时间等数据完整，二级网页的摘要信息完整，满足数据采集要求。通过地质相关数据的采集与相关性计算，可以实现地质数据的自动筛选。

实施例2

对于已知的地质门户网站，因为其网站源代码程序是固定的，可通过正则表达式按照采集需求提取地质门户网页信息，流程见图7，具体如下：

(1)制定信息提取规则。网页信息一般包含有用数据(如标题、内容链接、时间、作者等)以及无关数据(如导航链接、版权信息、广告信息、图片等等)。在网页信息中，每类数据都有确定的起始标签和结束标签。

通过对目标地质网站的网页源代码进行解析，读取目标网站页面中每条所需数据的起始标签和结束标签，并存储在爬虫程序中。爬虫通过识别正则表达式读取并下载当前页面中需要的信息，包括标题、内容链接、类型、来源、大小、状态以及发布时间等。

(2)依次下载一级页面数据，访问并下载二级页面数据。在新闻网页中，新闻内容都是在二级页面中显示，通过打开内容链接(即二级页面)，识别内容标签并下载内容数据。

(3)设置数据重复检查，将爬取的每条新数据的链接网址与已经爬取数据的链接网址做查重对比。如果偶重复，则不爬取此网页数据。如果不重复，则爬取此网页数据。

(4)通过给程序设置采集间隔时间、地质门口网址及其网页页面对应内容的正则表达式，实现定时、定向的采集地质门户网站数据。

2通过地质大数据发现系统获取地质调查新闻文本数据。以西安地调中心网站为例，其网页部分识别标签如下：

(1)URL链接起始标签“<a href＝”，结束标签为"target＝"；

(2)网页标题起始标签“title＝"”，结束标签为“"target”；

(3)内容起始标签为“<div class＝"c_body">”，结束标签为“</p>”。

将我国地质调查系统29个门户网站作为目标网站，对地质调查新闻进行采集与信息提取，最终爬取链接总数为1685个，可解析链接1243个。经过分析，发现未解析链接主要为PDF文件格式，系统无法读取相关信息。此外，还有部分失效链接，导致爬取出现解析异常。最终匹配抽取目标信息数据的链接为1145个，实现了新闻名称、内容、类型、来源、大小、状态以及发布时间信息的采集与抽取，形成了相应的数据表格以及文本数据文件，见图8。

实施例3

广域网地质数据的检索与获取装置，主要功能如下：

(1)互联网数据爬取与抽取功能单元，其用于获取两类网页数据和特定数据：

第一类，根据地质主题关键词爬取的网页数据。利用地质叙词表生成检索词和关联词列表，通过软件系统调用火车采集器爬虫软件和搜索引擎API来实现网页数据的爬取、抽取，利用地质主题相关性算法对爬取的广域网数据进行相关性排序，从而实现地质数据筛选。实现参见实施例1。

第二类，利用正则表达式按照需求定制化的从特定的地质门户网站等自动的、定期的爬取数据，选择性的下载一定时间范围内的信息(即按照网页中的时间信息来设置采集信息)，将爬取数据存储在本地计算机，便于查阅和后续数据分析。实现参见实施例2。

(2)重复性检查单元，其用于针对名称、大小等信息进行检测，去除相同的文件(例如同名不同存储位置的相同文件，或者是不同名、不同阶段状态的同一文件等)，见图9。

(3)数据归类与存储单元，其用于按照数据梳理基本流程，对地质数据索引信息进行梳理归类与存储，主要包括：自动提取文件属性(如名称、大小、存储实际路径等)，编辑数据所属省份、所在地区、数据类型等增量索引，还可以根据需要增加数据描述性内容。归类完毕后，将索引数据存储到服务器数据库中，见图10。

Claims

1.一种互联网地质数据检索与获取的方法，其特征在于，包括：

将地质叙词表转换成EXCEL格式的电子版叙词表；

依据检索“关键词”，通过与电子版叙词表比对获取等级关系、等价关系、相关关系的关联词；

利用相关性层级数的设置对关联词数量进行收敛控制；

检索关键词和关联词，爬虫程序依据检索结果的页面数据和爬取规则，爬取该页面数据(主网页)以及主页面数据中每条网址链接的数据；

对网页数据进行地质主题相关性计算，确定相关的数据。

2.依据权利要求1所述的方法，其特征在于，所述的检索关键词和关联词，其通过爬虫程序调用Google搜索引擎的API，对关键词和关联词进行检索。

3.依据权利要求1所述的方法，其特征在于，所述的爬取规则，具体包括：

设置主网页采集规则，建立网页翻页规则，按照爬取规则爬取数据。

4.依据权利要求1所述的方法，其特征在于，所述的对网页数据进行地质主题相关性计算包括：

(2)计算关联词k_i在网页D_j数据标题中出现的次数可以得到向量A_title(A_j1,A_j2…A_jm)和计算关联词k_i在摘要C_j中出现的次数可以用向量B_content(B_j1,B_j2…B_jm)表示；

(3)由关联词组成权重向量可以表示为W(W₁,W₂,…W_m)，则网页数据C_j的地质相关度计算公式：REL_D＝A_title*W^t+B_content*W^t；

其中，关联词组成权重向量W根据关键词与检索主题词在地质叙词表中的关系确定，优选术语、异形术语取值为1；上位类术语取值为0.5；下位类术语取值为0.8；相关术语取值为0.5；

(4)计算网页数据的相关度可以形成网页数据-关键词权值矩阵，其通过计算每个网页数据的关键词权值总和，并根据实际应用需求确定权值阈值，实现对网页主题的相关性判断：

其中，Q取值为0.6。

5.一种互联网地质数据检索与获取的装置，其特征在于，包括：

互联网数据爬取与抽取功能单元，其用于获取网页数据和特定数据；

重复性检查单元，其用于针对名称、大小等信息进行检测，去除相同的文件；

数据归类与存储单元，其用于按照数据梳理基本流程，对地质数据索引信息进行梳理归类与存储。