CN109299105A

CN109299105A - 一种局域网地质数据的检索与获取方法、装置

Info

Publication number: CN109299105A
Application number: CN201811266935.9A
Authority: CN
Inventors: 吴永亮; 陈建平; 奚镜伦
Original assignee: China University of Geosciences Beijing
Current assignee: China University of Geosciences Beijing
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-01

Abstract

本发明公开的一种局域网地质数据的检索与获取方法，包括：第一步，扫描局域网本地数据，生成原始数据集，再生成对应的数据索引；第二步，依据地质数据检索需求，对原始数据集在数据索引中进行标注，生成地质数据索引表；第三步，将地质数据索引表上传服务器生成地质数据库；第四步，对获得的关键词进行分词、语义识别、匹配字符串、解析后得到相应的关联词；第五步，依据获得的关键词和关联词，访问地质数据库进行检索后返回匹配结果。通过本发明的方法，实现了局域网内计算机形成集中式索引信息存储与搜索，极大的提升了检索速度，又可以解决单个计算机无法满足存储庞大的地质数据的问题。

Description

一种局域网地质数据的检索与获取方法、装置

技术领域

本发明涉及信息检索数据的技术领域，尤其涉及在局域网中进行地质数据的扫描、标引、检索、提取及传输的技术领域。

背景技术

对于地质相关的科研院所或机关单位，广泛存在于其局域网中的地质数据不仅具有大数据的通用特点(规模性、多样性、价值性、高速性)，也具有地质领域数据自身的特点。一方面，局域网地质数据主要存储在地质研究、生产、使用相关单位的局域网计算机中，具有数据专业价值高(例如高价值的遥感数据或地质三维模型数据)、数据类型多样(例如图片、文本、视频等)、文件格式复杂(例如各类地质专业软件形成的特定格式数据)、数据信息量大以及主要在局域网内流动(一般是由于数据的保密性以及专业性导致)等特点。另一方面，局域网地质数据在本地计算机中操作频繁，但其数据文件相关属性信息不能有效记录，导致大量地质数据只有产生数据的本人能找到，数据发现难度较大。例如，如果不记得数据在本地计算机中存储位置，一般只能采用全盘检索文件名的方法查找。这种方法不仅查找效率低、速度慢，也因为文件名信息的缺失或变更常常难以找到。此外，不同计算机之间的互相访问也存在限制，往往只能通过人工的索取和拷贝。甚至经常面临着“我不知道别人有没有我需要的数据，别人也不知道我有什么数据”的问题，严重阻碍了地质数据的发现与共享。局域网中本地计算机存储的数据繁杂，随着使用的积累，会不断的产生新数据。这些数据基本都是按照文件夹以及文件名称按照个人的分类与使用习惯进行存储。

由于上述原因，导致局域网地质数据存储分散，数据量巨大且不断增长。因成本及权限、保密管理等问题，难以通过一台服务器建立关系数据库，通过存储全部数据来解决局域网地质数据存储、检索等问题。若每一次检索任务都通过局域网访问各计算机进行全盘扫描，则数据的检索效率低下，难以便捷、高效且全面的获取到需求数据。

如何快速的在局域网中检索到所需地质数据，是局域网地质大数据检索与获取的主要任务。

发明内容

本发明公开了一种分布式检索、集中查询的局域网地质数据的方法，实现了数据检索、筛选、传输与获取，实现非结构、半结构化文本数据的检索和共享。

本发明公开的一种局域网地质数据的检索与获取方法，包括：

第一步，扫描局域网本地数据，生成原始数据集，再生成对应的数据索引；

第二步，依据地质数据检索需求，对原始数据集在数据索引中进行标注，生成地质数据索引表；

第三步，将地质数据索引表上传服务器生成地质数据库；

第四步，对获得的关键词进行分词、语义识别、匹配字符串、解析后得到相应的关联词；

第五步，依据获得的关键词和关联词，访问地质数据库进行检索后返回匹配结果。

通过本发明的方法，可以解决局域网内的计算机地质数据的海量性、复杂性以及存储混乱性等问题。每台计算机建立并共享了数据索引表，实现了局域网内计算机形成集中式索引信息存储与搜索，可避免每次数据查找都全面搜索存储硬盘，极大的提升了检索速度。局域网内计算机分布式的数据存储，又可以解决单个计算机无法满足存储庞大的地质数据的问题。

附图说明

图1是局域网地质数据的检索与获取流程图。

图2是生成原始数据集流程图。

图3是局域网地质数据的检索与获取装置图。

图4是分词和语义识别图。

图5是存储在MySQL数据库中数据索引表示图。

图6是OWL格式的本体模型内容示例图。

具体实施方式

确定地质数据本体中主要关联的关系如下：

(1)等同关系(Equivalent to)，用来描述同级地质概念或实例之间的等价关系。等价关系主要情况如下：同一概念的不同命名；俗称与学名；同一概念的不同译名；简称与全称；全译名与外文缩写词等，如“鄂”与“湖北省”；

(2)上下位关系(Sub class of/Super class of)，用来描述地理概念之间的层级关系，包括从属关系(即部分与整体之间的关系)、继承关系(也称父子关系，即类与子类之间的关系)，如“基础地质”与“第四纪地质”；

(3)交叉关系(Crossing relations)，有且只有部分内涵相同的两个概念间的关系称为交叉关系，如“破碎带蚀变岩型金银矿”与“蚀变破碎岩型铅锌银矿”。

(4)概念实例关系(Members)，用来描述地质概念与相应实例之间的关系，如“湖泊”与实例“青海湖”；

(5)空间关系(Spatial relations)，空间关系是指事物之间的位置关系。空间关系主要包括：相交、相接、相离、包含、被包含、覆盖、被覆盖、重合等拓扑关系。此外空间关系中还有方位关系、距离关系等，但是与矿产资源预测相关的关系中，不需要如此详细的表达。

实施例1

结合附图1所示。

1、扫描局域网本地数据，生成原始数据集，再生成对应的数据索引

扫描局域网本地数据，通过正向提取和反向过滤生成原始数据集，再生成对应的数据索引。

(1)利用Everything.dll类库对局域网本地硬盘数据进行扫描，获得本地硬盘全部已有文件数据信息。

(2)正向提取，是依据扫描获得的文件名称、格式、内容，对文件进行判断，判断文件是否属于地质数据，如果是，存入原始数据集；如果否，放弃文件。

(3)反向过滤，是依据扫描获得的文件进行排除隐藏文件和目录、排除系统文件和目录、排除自定义文件和目录，将过滤后的数据存入原始数据集。

(4)依据原始地质数据集，再生成对应的数据索引。

2、依据地质数据检索需求，对原始数据集在数据索引中进行标注，生成地质数据索引表。

标注原始地质数据集中每一个文件的信息：名称、后缀名(文件格式)、内容、大小、创建时间、以及属性信息、地质区域、地址数据类型、地质年代，生成地质数据索引表。

例如，当检索数据需要统计数据的区域时(如省、市、区域等)，则可以对数据标注对应的行政区域或地质区域。当后续按照区域检索数据时，可以直接通过本标注项检索到对应数据。例如一个数据名称“铜陵铜矿点分布图”的图片格式数据，从名称中无法直接得出该数据属于安徽省数据。对该数据的区域数据项标注“安徽”，则在检索安徽数据时，可以直接得出该数据是与安徽有关的数据。

3、将地质数据索引表上传服务器生成地质数据库。

因为局域网文件索引表数据量规模较小，且经过标注后都是结构化数据，因此本方法采用MySQL数据库作为服务器的地质数据库。该类型数据库支持SQL查询语言，可以从客户端便捷、快速的对索引数据表进行检索、插入、编辑等操作，如图5所示。先根据标注需求，将原始地质数据集中每一个文件的信息设置映射到数据库中(即数据索引表模板与数据存储模板一致)。当标注时，将标注信息先存入数据索引表中，最后将数据索引表上传、存储至服务器的数据库中。

4、对获得的关键词进行分词、语义识别、匹配字符串与解析后得到相应的关联词

(1)分词

对获得的关键词利用结巴分词或搜狗分词的分词功能进行分词，分词过程主要包括去标点符号、词性标注并按照词典进行分词。为了提高分词正确率，针对地质词汇，在结巴分词或搜狗分词的词库中补充地质术语库(由地质叙词表和主要地质领域标准术语组成)。

例如对于“铜陵铜矿”关键词，用结巴分词库、搜狗分词库的分词功能访问词典中的地质术语，实现对其进行专业分词，得到“铜陵”和“铜矿”。

(2)语义识别、解析关联词

对分词得到“铜陵”和“铜矿”进行语义识别。通过读取地质本体模型(指已编制好的地质知识模型)，获得每个词汇的相关词、以及词与词之间的关系，例如得到与“铜陵”有空间关联关系的“华北”、“安徽”，与“铜陵”有语义关联的“定陵”。

语义识别获取关联词的数量由读取的地质本体模型复杂程度决定。既可以针对检索需求自定义一个复杂的地质本体模型，也可以利用地质叙词表生成一个简单的地质本体模型。通过读取地质本体模型可以获取与目标词相关联的词汇。本方法通过Protégé软件编辑生成地质本体模型，并生成XML格式的本体模型。通过读取本体模型(XML格式文本)、检索、匹配目标词汇，可以查询到与目标词具有关联的词汇和对应的关系。如图6所示，可以读取到“铜陵属于安徽”、“铜陵也称为定陵”的信息，其中“属于”、“也称为”是关系，“安徽”、“定陵”是关联词。

5、依据获得的关键词和关联词，访问地质数据库进行检索后返回匹配结果。

将上一步语义识别得到的关联词和起始输入的关键词都作为检索词，逐个匹配其与地质数据索引表的的每一项数据信息，最终返回关联数据信息(即匹配结果)。例如对获得的“华北”、“安徽”、“定陵”进行匹配字符串，查询在服务器数据库中的对应数据内容。具体过程如下：

①将检索词分别匹配存储在服务器中的全部地质数据索引表(局域网中每台计算机都有对应的索引表)，匹配各索引表中的名称、后缀名(文件格式)、内容、大小、创建时间、以及属性信息等是否出现检索词。例如，关键词“铜陵”获得的位置关联词有“华北”、“安徽”“定陵”，从数据索引表的中的“名称”项、“属性信息”项、“地质区域”项等数据扫描、匹配上述词汇，当对应数据信息中匹配到检索词字符串时，则认为该条数据与检索目标有关。

②读取该数据的所属计算机、存储文件夹路径等信息，返回检索结果。

6、依据匹配结果下载对应的文件。

通过FTP离线或P2P在线的传输方式得到指定信息对应的实际数据。

A、P2P在线传输

P2P(Peer-to-Peer，P2P)是在线传输，实现在线发送、接受文件。其传输功能主要通过调用C#程序语言的三个类实现，具体过程如下：①使用Listener类用来监听新的连接；②使用Sender类来发送信息和文件；③使用Inputhandler类实现客户端的控制，包括启动、传输、停止、退出等。

B、FTP离线传输

FTP(File Transfer Protocol，FTP)是离线的文件传输，实现数据上传和离线下载。FTP传输功能通过调用C#程序语言的FTP WebRequest和FTP WebResponse类实现，主要过程如下：①创建一个FTP WebRequest对象，指向FTP服务器的统一资源标识符(UniformResource Identifier，URI)；②设置FTP的执行方法，如上传，下载等；③给FTP WebRequest对象设置属性，包括登录FTP服务器的用户名和密码、文件传输类型(二进制码或者ASCII码)、主动还是被动模式等；④执行请求；⑤接收相应数据；⑥完成传输后(即没有传输的数据时)，关闭FTP请求。其中，FTP WebRequest类是对FTP指令进行设置，而FTP WebResponse类是对传输的数据资源进行接收与读取。

实施例2

局域网地质数据的检索与获取装置，包括如下模块：

(1)数据发现与标注模块：

对获取的数据进行分类梳理、清洗，按照地质数据本体的关联项将地质数据进行规范化的语义标注，形成统一的元数据存入数据库。

未经标注的数据信息也存入数据库，但其仅能根据文件名称被检索。

(2)数据库模块：

在服务器中建立地质数据目录索引，通过Nherbinate框架工具把地质数据对象映射到MySQL数据库中。检索程序访问索引目录并检索到需要的地质数据信息后，采用自动的P2P在线或FTP离线传输的方式下载需要的地质数据。

(3)数据检索模块：

该模块用于获取与检索数据，按照有无可用的地质本体模型，可分为关联检索和匹配检索。

当有可用的地质本体模型时，通过程序实现关联检索过程如下：

检索词汇进入检索系统时，先通过分词功能进行语义识别、分词；②通过系统读取地质本体模型，确定目标词汇在本体模型中的位置，获取与其相关的词汇作为关联词；③对每一个检索词(由起始输入的关键词和其关联词组成)，匹配其与地质数据索引表的数据，最终获取全部关联数据。

当没有可用的地质本体模型时，直接匹配原始输入的关键词。

通过这种索引表的检索方式，可高效的对局域网内全部计算机数据进行检索并获取目标数据。由于检索词匹配的是索引表数据，而不需全盘扫描硬盘文件，可以极大的提高地质数据检索的响应速度。

实施例3

以检索“城门山矿床”为例(人工确认相关数据共有28条)，结果如下：

(1)通过操作系统自带的文件名检索功能，共搜索到5条数据，该方法查全率仅为17.9％，且需要在计算机本地操作。

(2)通过检索系统以传统关键词匹配的搜索方法(可检索元数据信息)，共检索到14条数据(含2条无关数据)。在检索结果中有“江西九江城门山铜矿三维地质地球化学特征与成矿预测”等名称相关数据5条，“地球化学异常(元数据标注城门山)”等元数据相关数据7条，其查全率有所提升(为42.9％)。

(3)通过地质数据本体的检索方法得到的数据共有34条，除直接搜索得出上述11条描述“城门山矿床”的数据外，还通过推理搜索得出关联的“九江”、“矽卡岩矿床”、铜等相关数据。此外，关联检索还能智能指导用户搜索相关联的矿床数据。经过计算，其查全率和查准率分别为100％和71.8％。

分别选取矿物、矿产地质中所构建的实例，进行基于关键词和地质数据本体的检索对比实验，得到的统计结果如表所示。

经过反复实验，对系统关联规则进行如下优化：(1)地质数据的属性内容繁多、关系复杂，在专题检索应用中，过多关联会造成检索范围过大，对查准率有一定的影响。因此仅保留属性中的地区等关键内容项的关联，降低关系的复杂程度，可以提升查准率。(2)系统引入的本体模型主要针对矿产预测，对于矿产预测相关的数据进行关联推理，推理深度越高，与检索数据的关联内容集的内容就越多。经过实验发现，随着推理深度的增加，系统检索计算量成指数级增长，导致检索时长剧增。通过设置推理深度阈值可提升系统的运行效率，避免循环检索，实现数据收敛。(3)同一数据可能与检索目标词汇有多重关联关系，即同一数据在不同的检索深度或者被不同的关联项检索时会被多次检索到。因此，检索系统增加了关联权重计算以及重复数据优化功能。对与检索目标词关联关系数越多的数据，认为其与检索目标越相关。

表基于关键词和地质数据本体的检索结果统计表

通过以上2种检索方法的对比，可以得出以下结论：(1)基于地质数据本体的搜索方法，在数据查准率和查全率上相较于以字符串匹配为核心的搜索方法有较大优势；(2)经过语义标注的数据，可以提供更多关联信息，提升了数据被挖掘的效率与可能性；(3)基于地质数据本体的检索方法还能智能推荐用户搜索与目的信息相关联的数据，提供启发式服务，促进了地质数据的共享与重用率，发掘出已有数据的潜在价值。

Claims

1.一种局域网地质数据的检索与获取方法，其特征在于，包括：

第三步，将地质数据索引表上传服务器生成地质数据库；

2.根据权利要求1所述的方法，其特征在于，所述的扫描局域网本地数据是利用Everything.dll类库对局域网本地数据扫描。

3.根据权利要求1所述的方法，其特征在于，所述生成原始数据集是通过正向提取和反向过滤生成原始数据集；

所述的正向提取是依据扫描获得的文件名称、格式、内容，对文件进行判断，判断文件是否属于地质数据，如果是，存入原始数据集；如果否，放弃文件；

所述的反向过滤是依据扫描获得的文件进行排除隐藏文件和目录、排除系统文件和目录、排除自定义文件和目录，将过滤后的数据存入原始数据集。

4.根据权利要求1所述的方法，其特征在于，所述对原始数据集在数据索引中进行标注包括对每一个文件的名称、后缀名(文件格式)、内容、大小、创建时间、以及属性信息、地质区域、地址数据类型、地质年代的信息进行标注。

5.根据权利要求1所述的方法，其特征在于，所述分词是依据结巴分词库、搜狗分词库、地质术语库，对获得的关键词通过分词功能进行分词。

6.根据权利要求1所述的方法，其特征在于，还包括依据匹配结果下载对应的文件；

所述的下载是通过FTP离线或P2P在线的传输方式得到指定信息对应的实际数据。

7.一种局域网地质数据的检索与获取装置，其特征在于，包括：

数据发现与标注模块单元，用于对本地计算机数据的搜索、全路径获取；对获取的数据进行分类梳理、清洗，按照地质数据本体的关联项将地质数据进行规范化的语义标注，形成统一的元数据存入数据库；

数据库模块单元，用于在服务器中建立地质数据目录索引，通过Nherbinate框架工具把地质数据对象映射到MySQL数据库中；客户应用程序访问索引目录并检索到需要的地质数据信息后，采用的P2P在线或FTP离线传输的方式下载需要的地质数据；

数据检索模块单元，用于获取与检索目标相关联的数据。