CN101609460B

CN101609460B - 一种支持异构地学数据资源的检索方法及检索系统

Info

Publication number: CN101609460B
Application number: CN2009100897374A
Authority: CN
Inventors: 宋佳; 诸云强; 冯敏; 杜佳; 廖顺宝
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2009-07-22
Filing date: 2009-07-22
Publication date: 2011-12-14
Anticipated expiration: 2029-07-22
Also published as: CN101609460A

Abstract

本发明公开了一种支持异构地学数据资源的检索方法及系统，该方法包括建立索引的步骤和检索索引的步骤，该建立索引的步骤进一步包括：一索引配置子步骤，用于以地学数据资源元数据作为数据源进行索引参数配置；一索引建立子步骤，用于根据该索引配置子步骤中配置的更新索引文件的参数，启动索引任务的建立，以根据配置好的索引参数建立索引。该检索索引的步骤进一步包括：一检索请求子步骤，用于根据检索需求生成检索请求；一检索子步骤，用于根据该检索请求进行检索，并输出检索结果到检索响应对象。本发明面向检索的代价和复杂度都比较高的异构地学数据资源，提供了一种灵活支持多种异构地学数据资源，并人性化展示的数据检索方法及数据检索系统。

Description

一种支持异构地学数据资源的检索方法及检索系统

技术领域

本发明涉及数据资源的查询检索领域，特别涉及一种灵活支持异构地学数据资源的检索方法及检索系统。

背景技术

数据是开展科学研究和进行政府决策的基础和前提。地学数据是科学数据中非常重要的一部分，是进行地球科学分支学科研究和地球系统科学综合研究的驱动力。由于地球科学研究范围涉及大气圈、水圈、岩石圈、生物圈等各个圈层，支持地学研究的科学数据具有时空性、综合性、海量、多源等特点。地学数据同时也是行业部门进行领导决策的基础资料，但是这些资料一般分散保存在不同的部门和个人手中。因此针对地学数据资源具有来源多样、类型复杂、格式丰富、存储分散等特征，需要一种灵活支持异构地学数据资源的检索方法和检索系统。

具体来说，地学数据资源通常有属性、矢量、栅格三大类型数据。属性数据涉及仪器监测数据、调查统计数据，要素属性数据等，具有纯文本，MS Excel、MS Access等不同的存储格式。矢量数据类型主要涉及空间数据，是用点，线，面及其X，Y坐标来构建点，线，面等具体空间要素的数据模型，通常以关系型数据库为载体存储矢量数据。栅格数据是按网格单元的行与列排列、具有不同灰度或颜色的阵列数据，是为方便表达地物空间分布的数据模型，一般是一种点阵图像格式的存储方式。栅格数据涉及到地学领域中大量的遥感影像数据。不同类型和存储格式的地学数据，给数据检索带来一定的困难。像栅格、矢量这类空间数据和部分属性数据很难通过数据本身的概括描述其内容信息。数据格式多样同样决定了检索源的多样性。不可能针对每一种数据格式甚至将来新的数据格式都重新写一套检索程序。

而且，面向地学数据资源巨大的特点，检索到的数据结果按相关度排序的需求更加重要。目前在专业领域的数据检索活动中也缺乏商业专业搜索引擎所具备的按相关度排序的技术方案。

可以看出，在这种背景下，面向异构地学数据资源的检索的代价和复杂度都比较高，而且对检索结果更缺乏像按相关度排序这类专业搜索引擎的处理方法。因此，特别需要一种灵活支持多种异构地学数据资源，并人性化展示的数据检索方法及数据检索系统。

发明内容

本发明所要解决的技术问题在于，提供一种灵活支持异构地学数据资源的检索方法及检索系统。

为达到上述目的，本发明提供的支持异构地学数据资源的检索方法，包括建立索引的步骤和检索索引的步骤，其特征在于，

该建立索引的步骤进一步包括：

一索引配置子步骤，用于以地学数据资源元数据作为数据源进行索引参数配置；

一索引建立子步骤，用于根据该索引配置子步骤中配置的更新索引文件的参数，启动索引任务的建立，以根据配置好的索引参数建立索引。

该检索索引的步骤进一步包括：

一检索请求子步骤，用于根据检索需求生成检索请求；

一检索子步骤，用于根据该检索请求进行检索，并输出检索结果到检索响应对象。

上述支持异构地学数据资源的检索方法，其特征在于，所述索引配置子步骤进一步包括：

步骤S101，确定地学数据资源元数据；

步骤S102，以该地学数据资源元数据作为数据源进行索引参数配置；其中所述索引参数配置包括：索引文件路径参数；自动更新索引文件的参数；索引数据源的访问链接参数；索引字段参数；索引和检索过程中日志记录的路径参数。

上述支持异构地学数据资源的检索方法，其特征在于，所述索引建立子步骤进一步包括对索引数据源进行访问，对数据源文档进行解析和语言分析处理、生成索引文件三个环节。

上述支持异构地学数据资源的检索方法，其特征在于，所述步骤S102中，在索引参数配置时，配置自动更新索引文件的参数，启动建立索引任务的定时器任务。

上述支持异构地学数据资源的检索方法，其特征在于，所述检索子步骤中进一步包括：一检索结果处理步骤，用于对检索结果进行相关度排序处理及对该检索结果进行修饰处理。

上述支持异构地学数据资源的检索方法，其特征在于，对检索结果进行相关度排序处理是通过如下公式获取相关度排序涉及的参数值：

与第i个索引字段相匹配的相关度M_i：

M_{i} = P_{i} \times \frac{n}{N} \times f_{i},

第i个索引字段的权值p_i：

P_{i} = \frac{W_{i}}{N \times Σ_{k = 1}^{t} W_{k}} \times Min {W_{j} | 1 \leq j \leq t},

最终的相关度值M为各索引字段相关度的和，即：

M = Σ_{i = 1}^{N} M_{i},

其中，已知参数：t为索引字段的个数；N为检索词经分词后的个数；W_i为第i个索引字段权重；N为第i个索引字段相匹配的检索词经分词后的个数；f_i为检索词在第i个索引字段出现的词频。

进一步的，本发明还提供了一种实现上述方法的系统，其特征在于，包括：

一引擎初始化子系统，用于构造引擎基础对象和启动定时建立索引任务；

一索引子系统，用于根据地学数据资源元数据作为数据源进行索引参数配置，并根据配置好的索引参数建立索引；

一检索子系统，用于根据检索请求进行检索，并对检索结果进行处理后生成检索响应并返回检索结果。

上述系统，其特征在于，还包括：所述引擎基础对象是进行索引任务和索引检索的参数。

上述系统，其特征在于，

所述索引子系统进一步包括：

一索引配置文件解析单元，用于解析索引配置文件，获得与建立索引任务相关的参数；

一数据源统一访问单元，用于对不同数据源提供一致的访问方法；

一索引任务单元，根据索引配置参数，以参数指定的方式和位置建立索引文件；

所述检索子系统进一步包括：

一检索请求生成单元，用于根据检索需求生成检索请求；

一检索单元，根据检索请求执行检索，输出检索结果到检索响应对象；

一检索响应单元，用于根据检索请求中的检索返回类型对检索结果进行处理。

上述系统，其特征在于，所述检索子系统还包括：

一结果处理单元，用于进行检索结果相关度的计算以及对检索结果进行修饰处理。

附图说明

图1为本发明的一种地学数据资源检索方法建立索引过程的实施例流程图；

图2为本发明的一种地学数据资源检索方法检索索引过程的实施例流程图；

图3为本发明的一种地学数据资源检索系统的结构框图；

图4为本发明的一种地学数据资源检索系统的引擎初始化流程图。

具体实施方式

下面结合附图和实施例对本发明作详细的说明，以进一步了解本发明之目的、方案及功效。

本发明提供的灵活支持异构地学数据资源的检索方法包括建立索引和检索索引两个相对独立的过程。

建立索引过程的基本思想是：以元数据概括描述地学数据资源内容的关键要素，并作为检索的依据和来源。通过索引配置文件的机制，快速灵活的支持索引的构建过程。针对地学数据资源多源异构的特点，以统一数据源访问机制模糊不同数据类型、格式间的差异，达到对索引数据源的无缝读取访问。以索引文件和统一数据源访问机制为基础进行索引的建立操作。索引的建立任务可被定制为定时自动运行。

图1示出了本发明检索方法中建立索引过程的具体实施流程。参考图1，本发明支持异构地学数据资源的检索方法中，建立索引的过程进一步包括以下步骤：

步骤S101，确定地学数据资源元数据。

元数据作为多种异构地学数据的对数据内容进行说明，元数据表达采用XML格式，但不限于XML格式，存储方式采用支持海量数据存储的数据库。

步骤S102，以元数据作为数据源进行索引参数配置。

所述索引参数配置包括四部分：(一)索引文件路径参数；(二)自动更新索引文件的参数，涉及启动时间、更新周期；(三)索引数据源的访问链接参数，针对不同的索引数据源的存储形式，参数也不同。例如，对于数据库类型的索引数据源，这里的参数主要涉及数据库连接的服务器IP，端口，服务名(数据库名)，用户名，密码，表(视图)名；(四)索引字段参数，涉及索引的字段名，索引字段的权重，索引字段的索引模式。索引字段名区分了在检索索引过程中检索的范围；索引字段的权重服务于检索结果记录相关度的计算，反映对应索引字段对相关度的贡献，即在不同的索引字段都匹配到了结果，可以根据元数据组织的特点判断哪个索引字段匹配到的结果更能反映用户的检索意图，从而给其较大的权值，使得最终计算的相关度值提高。索引模式参数涉及是否对该索引字段进行语言切分以及是否将该字段作为检索字段，设置为不是检索字段表示该字段中内容仅是按原样的存储在索引文件中，不会被分词，也不能作为可被检索的字段；(五)索引和检索过程中日志记录的路径参数。

索引配置参数位于配置文件中，优选XML格式的配置文件。

步骤S103，步骤S102的索引配置中配置了自动更新索引文件的参数，启动定时器任务。

定时器任务根据索引配置中的定时器任务启动时间和执行周期参数自动启动。定时器执行的任务是建立索引任务。执行任务是异步进行的，不影响当前的任何其他操作。索引的定时更新方式对经常更新变化的地学数据资源很有意义。

步骤S104，根据配置好的索引参数建立索引。

索引的建立过程涉及对索引数据源的访问，对数据源文档进行解析和语言分析处理，生成索引文件三个环节。对索引数据源的访问通过解析步骤S102中的索引配置文件，得到索引数据源的访问链接参数，通过对应的数据源访问方法读取数据信息，然后进行数据信息的解析和语言分析处理。根据步骤102中的索引配置文件索引模式参数的设置确定是否进行语言上的分词处理。对英语的分词处理通过空格自然分开，对中文，则应该借助于中文分词词库或一些分词算法进行语言处理。生成索引文件涉及到索引文件的结构，索引文件记录除了存储索引数据源本身外，更重要的是记录了索引词在数据源中出现的频率和位置，索引词出现的频率可作为计算相关度的要素，索引词出现的位置是用来在检索过程中定位存储在索引文件中的索引数据源。

图2示出了本发明检索方法中检索索引过程的具体实施例流程。参考图2，本发明检索方法中检索索引过程具体包括以下步骤：

步骤S201，根据用户检索需求生成检索请求。

用户检索需求包括指定检索字段，各检索字段对应的检索词，检索词在检索结果中的包含情况，检索字段间的关系，检索结果的显示、返回格式。用户检索有两种形式的检索途径可供选择，它们是一般检索和高级检索。在一般检索中，由检索服务提供者根据数据资源的特点指定默认的检索字段，无需用户指定检索字段；在高级检索中，由用户选择一个或多个检索字段限定检索范围。检索词在检索结果的包含情况涉及检索结果中包含全部检索词、检索结果中包含任意检索词、检索结果中不包含检索词三种情况。检索字段间的关系包括“与”、“或”。“与”表示两者同时成立，“或”表示两者中至少一个成立。检索结果的显示涉及每页记录条数和请求的页码，检索结果的返回格式包括：面向特定编程语言的集合对象形式、JSON格式、XML格式。用户的检索需求表现为一串检索参数，这些参数在进行检索前生成检索请求，检索请求的核心是符合一定语法规则的检索表达式。检索请求中还包括指定的索引参数配置文件。针对不同的数据源，可能出现不同的索引参数配置文件。

步骤S202，根据检索请求进行检索。

根据步骤S201检索请求中的检索字段、检索词、检索词在检索结果的包含情况以及索引参数配置文件的路径参数，执行检索。执行检索前，通过语言分析处理对检索词进行分词，遍历检索请求中的全部检索字段执行对应的检索，根据检索字段间的关系合并检索结果。

步骤S203，对检索结果进行相关度排序处理。

进行相关度排序的核心是检索结果相关度的计算。相关度计算涉及两个参数：步骤S102中索引配置文件参数中的索引字段权重值，步骤S104索引过程中计算出的词频值。相关度的计算方法如下：

已知：检索词经分词后的个数：N；

第i个索引字段权重：W_i；

与第i个索引字段相匹配的检索词经分词后的个数：n；

检索词在第i个索引字段出现的词频f_i；

第i个索引字段的权值：P_i，它由下式计算得出：

P_{i} = \frac{W_{i}}{N \times Σ_{k = 1}^{t} W_{k}} \times Min {W_{j} | 1 \leq j \leq t};

t为索引字段的个数

那么：与第i个索引字段相匹配的相关度：

M_{i} = P_{i} \times \frac{n}{N} \times f_{i}

所以：最终的相关度值为各索引字段相关度的和，即：

M = Σ_{i = 1}^{N} M_{i}

步骤S204，对检索结果进行修饰处理。

通过在检索结果的文本中，将所有与检索词匹配的文本前后分别加上前缀和后缀，使匹配到的检索词突显。例如在Web网页中显示检索结果，可在其前后分别加“<b>”和“</b>”使字体加粗来突显匹配到的检索词。

步骤S205，生成检索响应并返回检索结果。

检索响应对检索结果进行封装，根据步骤S201中检索请求中的每页记录条数和请求返回的页码进行处理。根据检索请求中的检索返回类型参数对检索结果进行相应的处理，例如，输出JSON格式或XML格式返回给用户。

参考图3，本发明示出了一种灵活支持异构地学数据资源的检索系统(图3)，系统分为引擎初始化子系统、索引子系统和检索子系统。

引擎初始化子系统301包括：引擎基础对象3011和引擎初始化单元3012。

引擎基础对象3011是进行索引任务和索引检索的参数，封装的是Lucene的索引存储抽象类Directory和语言分析器Analyzer。它们在索引子系统和检索子系统中都会被用到。索引子系统302中，它们是构造Lucene索引器(IndexWriter)的参数；检索子系统303中，索引目录和语言分析器分别用来构造Lucene检索器(IndexSearcher)和查询对象(Query)。Directory与读写磁盘索引文件有关。当索引文件较大的时候，建立Directory对象的时间会远大于执行查询的时间；同样引擎基础对象3011封装的Analyzer为中文语言分析器时，一般会有一个中文词库文件作基础，从磁盘载入中文词库同样也是耗时的。引擎基础对象3011以静态方式存在于引擎初始化单元3012中，并在索引子系统302和检索子系统303中共享同一个引擎基础对象3011，避免了频繁的构造引擎基础对象。

引擎初始化单元3012涉及构造引擎基础对象和定时启动索引任务。其前提是传入索引配置文件路径名和指定的语言分析器。初始化流程如图4，引擎初始化系统的初始化实施流程具体包括：

步骤S401，配置文件路径名和语言分析器；

步骤S402，解析配置文件获得索引路径IndexPath、日志记录路径LogPath；

步骤S403，构造引擎基础对象FoundationObjects；

步骤S404，解析配置文件获得索引自动更新参数；索引自动更新参数存在，则构造索引建立任务对象IndexingTask，转步骤S405否则结束。

步骤S405，根据索引自动更新参数调度运行索引建立任务；

首先是用语言分析器和解析配置文件得到的索引文件的路径构造引擎基础对象；然后，如果要求定时自动更新索引，则构造索引任务。索引任务继承于J2SE的TimerTask，在重载的run()方法中实现了后台创建索引的功能。索引任务可通过J2SE Timer.schedule()方法定时运行。

索引子系统302包括：索引配置文件解析单元3021、数据源统一访问单元3022、索引任务单元3023。

索引配置文件解析单元3021涉及索引配置文件和索引配置文件解析器两部分。索引配置文件为XML格式，由<Index>、<Source>、<LogPath>三大元素构成，如下例所示：

<？xml version＝″1.0″encoding＝″UTF-8″？>

<Index>

<Path>d:\Index</Path>

</Index>

<LogPath>d:\SearchLog</LogPath>

</IndexFields>

<Connection databaseType＝″Oracle″

url＝″jdbc:oracle:thin:192.168.1.1：1521:data″username＝″usr″password＝″pwd″/>

<SQLSentence>select*from table</SQLSentence>

</Database>

</Source>

</Configuration>

<Index>中的<Path>为索引文件路径，<AutoUpdate>中的两个属性分别指定了首次建立索引的时间和之后重建索引的间隔时间。如果数据源相对稳定，无需定时重建索引，只需去掉该元素，表示不启动定时重建索引任务即可。

<LogPath>为日志文件的路径设置。

<Source>元素内可以指定多种数据源(Database，Excel，XML，HTML等)中的任意一种。每种数据源类型有对应的访问机制。实例中<Database>元素指定了数据库类型的数据源，其中<Connection>、<SQLSentence>分别指定了连接数据库的参数和SQL语句。<Source>中的<IndexField>元素及其属性用来设定如何建立索引字段。<IndexField>的中的fieldname是字段名称；boost(可选)属性用来增加索引字段的权重；index表示索引模式，存在TOKENIZED、NO_NORMS，NO三种参数值，分别表示词切分并索引，不切分并索引，不索引仅存储。

数据源统一访问单元3022为读取不同数据源提供了抽象方法，如open()，close()，next()等。支持不同类型的数据源，只需提供对应的抽象方法实现即可。建立索引中应该使用哪种数据源类型的访问实现，通过解析索引配置文件的数据源类型来确定。

索引任务单元3023是索引子系统的核心。索引任务单元3023基于Lucene实现。通过引擎基础对象封装的索引目录(Directory)对象和语言分析器(Analyzer)构建Lucene的索引器(IndexWriter)。Lucene的索引器通过数据统一访问单元的open()方法建立与索引数据源的连接，然后调用next()方法遍历索引数据源，读取索引数据源内容，进行索引，索引完成后，通过数据源统一访问单元的close()关闭与数据源的连接。

检索子系统303包括：检索请求单元3031，检索单元3032，检索响应单元3033。

检索请求由下表所示的元素组成。其核心是子句的列表，并有多个Add()方法可以用来添加子句。进行检索时，根据这些子句，检索请求单元3031基于Lucene生成Lucene的查询对象(Query)。

检索单元3032：根据检索请求单元3031的信息执行检索，输出检索结果到检索响应对象。

检索响应单元3033封装Lucene的Hits对象，提供友好的分页读取方法，包括跳至某页(gotoPage)，计算总页数(TotalPages)。另外检索响应单元增加了检索结果高亮显示的功能，对检索结果中与检索词匹配的字符串的前后添加前缀标记和后缀标记，例如：“<b>土地</b>利用现状”突出显示了“土地”这个词。检索响应单元提供了设置高亮显示前后缀标记的方法：voidsetHighlightFormat(String preTag，String postTag)。该检索响应单元中还包括一检索结果处理单元，用于进行检索结果相关度排序的计算以及对检索结果进行修饰处理，该检索结果处理单元中，封装了相关度排序计算模型。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种支持异构地学数据资源的检索方法，包括建立索引的步骤和检索索引的步骤，其特征在于，

该建立索引的步骤进一步包括：

一索引建立子步骤，用于根据该索引配置子步骤中配置的更新索引文件的参数，启动索引任务的建立，以根据配置好的索引参数建立索引；该检索索引的步骤进一步包括：

一检索请求子步骤，用于根据检索需求生成检索请求；

一检索子步骤，用于根据该检索请求进行检索，并输出检索结果到检索响应对象；

所述检索子步骤中进一步包括：一检索结果处理步骤，用于对检索结果进行相关度排序处理及对该检索结果进行修饰处理；对检索结果进行相关度排序处理是通过如下公式获取相关度排序涉及的参数值：

与第i个索引字段相匹配的相关度M_i：

M_{i} = P_{i} \times \frac{n}{N} \times f_{i},

第i个索引字段的权值P_i：

P_{i} = \frac{W_{i}}{N \times Σ_{k = 1}^{t} W_{k}} \times Min {W_{j} | 1 \leq j \leq t},

最终的相关度值M为各索引字段相关度的和，即：

M = Σ_{i = 1}^{N} M_{i},

2.根据权利要求1所述的支持异构地学数据资源的检索方法，其特征在于，所述索引配置子步骤进一步包括：

步骤S101，确定地学数据资源元数据；

3.根据权利要求1所述的支持异构地学数据资源的检索方法，其特征在于，所述索引建立子步骤进一步包括对索引数据源进行访问，对数据源文档进行解析和语言分析处理、生成索引文件三个环节。

4.根据权利要求2所述的支持异构地学数据资源的检索方法，其特征在于，所述步骤S102中，在索引参数配置时，配置自动更新索引文件的参数，启动建立索引任务的定时器任务。

5.一种实现上述权利要求1～4中任一项所述方法的系统，其特征在于，包括：

一检索子系统，用于根据检索请求进行检索，并对检索结果进行处理后生成检索响应并返回检索结果；

所述检索子系统还包括：

一结果处理单元，其中封装了检索结果相关度排序的计算模型，用于进行检索结果相关度排序的计算以及对检索结果进行修饰处理；其中对检索结果进行相关度排序处理是通过如下公式获取相关度排序涉及的参数值：

与第i个索引字段相匹配的相关度M_i：

M_{i} = P_{i} \times \frac{n}{N} \times f_{i},

第i个索引字段的权值P_i：

P_{i} = \frac{W_{i}}{N \times Σ_{k = 1}^{t} W_{k}} \times Min {W_{j} | 1 \leq j \leq t},

最终的相关度值M为各索引字段相关度的和，即：

M = Σ_{i = 1}^{N} M_{i},

6.根据权利要求5所述的系统，其特征在于，还包括：所述引擎基础对象是进行索引任务和索引检索的参数。

7.根据权利要求5所述的系统，其特征在于，

所述索引子系统进一步包括：

所述检索子系统进一步包括：

一检索请求生成单元，用于根据检索需求生成检索请求；