CN106528612A

CN106528612A - 一种面向行业元数据注册和分布式检索系统及方法

Info

Publication number: CN106528612A
Application number: CN201610865130.0A
Authority: CN
Inventors: 冯钧; 孔盛球; 贡诚; 陆佳民; 佟瑶; 李顶圣; 钱燕芳; 王旭; 朱跃龙; 万定生
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-03-22

Abstract

本发明公开了一种面向行业元数据注册和分布式检索系统及方法。系统包含如下三个模块：注册模块，用于实现跨数据中心行业元数据注册共享，针对不同的行业中央及地方数据中心，由该数据中心的数据管理单位实现元数据自行审核注册，并且由该单位对管理的数据分类处理，将部分用于检索的元数据注入中央节点，地方节点存放所有元数据；存储模块，数据管理单位对管理的元数据注册生成倒排索引，倒排索引分布于中央与地方节点，同时实现元数据存储与管理的分离；分布式检索模块，用于实现跨数据中心行业元数据共享，对不同数据中心的大量行业元数据进行分布式检索。本发明解决了跨数据中心行业元数据共享的难题，能够分布式处理大量的行业元数据，满足用户的检索需求。

Description

一种面向行业元数据注册和分布式检索系统及方法

技术领域

本发明涉及一种面向行业元数据注册和分布式检索系统及方法，属于信息技术处理领域。

背景技术

传统的行业元数据搜索引擎对元数据资源建立索引，以集中式搜索为主。但是随着信息化的发展，各级部门都积累了大量的元数据，由于各部门采集手段、采集时间、处理方式的不同导致行业元数据呈现跨数据中心分布的特征。为了构建针对某一行业信息搜索引擎，首先需要对异构行业元数据进行统一建模，然后对分布在各地区的元数据进行抽取汇总并存储到数据库中，最后对汇总过的元数据资源进行审核建立索引，供搜索引擎搜索。随着息化的发展，行业元数据信息量正在高速增长，各地区都积累了大量的信息资源，倘若再使用传统的元数据收集方式，对各地区的元数据资源都进行抽取汇总，由于信息量过大会使处理效率变得低下，处理程序变得繁琐，抽取时间也将会大大增加。另一方面，将大量的元数据集中起来建成一个单一的索引，会使索引存储空间过大，造成检索效率过低，因此需要一种能够跨数据中心的元数据注册共享机制并且能够高效检索信息资源的方法。

分布式检索技术是一种能够实现并行处理，从而大大提高检索效率的检索技术，同时，它还能够使用一种“物理上分布存储，逻辑上集中检索”的方式构建搜索引擎。针对行业信息量快速增长的问题，可以灵活地为每个元数据数据中心部署分布式节点，由各单位自行实施对行业资源的审核工作，不需要再对大量的行业信息资源进行抽取汇总的工作；另一方面，分布式检索技术将一个索引以分片的概念划分，存储在不同的节点上，针对大量的行业信息资源引起索引过大，检索效率降低的问题，有很好的解决方案。因此，在行业信息检索领域亟需一种能够分布式检索信息资源的方法。

发明内容

本发明目的在于，针对行业元数据数量不断增长呈现出跨数据中心分布所带来的问题，提出一种面向行业元数据注册和分布式检索系统及方法，以提高检索效率，将各数据中心重要信息存放在中央节点，并且在细粒度上对每条元数据的重要信息存放在索引上，采用回调的机制查询其详细信息。

本发明的思路是：利用分布式检索的技术，在每个行业元数据负责单位部署一个物理节点，由该单位自己负责对元数据的审核、注册工作，并将重要信息注入中央节点。各地方的节点与中央节点组成一个分布式集群，用户可以将检索请求提交到分布式集群中的任意一个节点，该节点会将请求分布到其他的物理节点上，最后将各个节点的检索结果汇总给用户显示，以此来提高行业元数据的注册效率与检索效率。

技术方案：一种面向行业元数据注册和分布式检索系统及方法，包括如下模块：注册模块，用于将全国各地的行业元数据注册进分布式检索系统，生成索引，供搜索引擎搜索；存储模块，用于存储倒排索引，该索引中存放着行业元数据相关信息；检索模块，用于根据用户的检索请求，将请求分布到各个物理节点上，最后将所有节点返回的检索结果汇总给用户显示。

所述注册模块，用于为各个行业元数据数据中心将元数据注册进分布式系统，由各管理单位挑选重要信息通过部署在该数据中心的节点注册进中央节点，而地方节点存储该数据中心的所有元数据；行业元数据包含的属性非常丰富，而在实际检索中我们只用到了元数据的部分属性，为了避免因索引中存放的信息量过大造成检索效率降低的现象，我们仅将部分元数据信息存入索引，我们通过配置文件设置所需存储的元数据的属性，系统通过解析配置文件判断哪些属性需要存储哪些属性不需要存储；虽然在索引中仅存放了行业元数据的部分属性，但是当用户搜索到一条元数据时，点击它的详情显示需要展示该元数据的所有内容，这时候就需要系统回调到注册该行业元数据单位获取其详细信息，因此需要为每条元数据增设两个属性，分别为：state(表示元数据注册单位)、statecontact(存放该元数据数据库的ip地址及端口号)。例：某条元数据state属性为“淮委”，statecontact中存放了存放该元数据的数据库的ip地址和端口号，当用户点击这条元数据的详情显示时，通过statecontact中的信息，系统回调到淮委取出这条元数据的详情信息。

所述存储模块，把行业元数据解析后，将其相关属性存入倒排索引，倒排索引是一种根据对象的属性能够查找对象的索引，所有的倒排索引以文本的形式分片存储在各个物理节点上，其中地方节点存储该数据中心的所有资源信息，中央节点汇集了各数据中心的重要元数据。

所述检索模块，包含关键字检索子模块，分面检索子模块，目录树检索子模块和检索结果显示子模块，详情显示子模块；其中关键字检索子模块，用于根据用户请求到系统索引库中全文检索，并将检索请求分布到各个物理节点上；分面检索子模块，用于根据用户的选择对检索结果精炼；目录树检索子模块，用于根据用户的选择对检索结果过滤；检索结果显示子模块，用于对检索结果集按相关性排序显示给用户；详情显示子模块，用于当用户在检索结果集中选中某条元数据时，查看这条元数据的详细信息。

进一步的，所述关键字检索子模块，用户将检索请求提交到分布式集群中的任意节点，该节点把检索请求分布到各个节点并行处理，最后将各个节点的检索结果汇总给用户显示；

所述分面检索子模块，根据用户的初步检索结果集聚类，产生分面与分面值；每个分面和分面值按覆盖率大小来排序，系统根据用户选择的分面对检索结果精炼。

所述目录树检索子模块，根据用户所选目录树节点，对检索结果筛选过滤。

所述检索结果显示子模块，在检索结果显示子模块中，不需要对元数据的所有属性都显示，使用配置文件的方式来确定元数据的哪些属性需要显示，哪些属性不需要显示；并且根据与用户检索关键字的相关性高低对检索结果排序。

所述详情显示子模块，当用户在结果显示模块中选中一条元数据，想查看该条元数据的详细信息，但是分布式集群中的索引仅存放了元数据的关键属性，部分详细信息需要回调到注册单位获取，根据注册模块中存放在元数据中的两个属性state和statecontact回调到注册单位，获取详细信息给用户显示。

一种面向行业元数据注册和分布式检索系统及方法，包含如下步骤：

S-1：部署分布式管理集群，部署中央节点，将中央节点连接到分布式管理集群；

S-2：在全国每个元数据数据中心部署一个物理节点，并将该物理节点连接到中央分布式管理集群；

S-3：地方元数据数据中心通过部署在该数据中心内的节点，将该数据中心管理的行业息资源注册进分布式集群，并指定重要用于检索的元数据注册进中央节点具体包括如下步骤：

步骤S-3-1：在元数据数据中心部署元数据注册系统；

步骤S-3-2：用户通过元数据注册系统将待注册的元数据审核，审核成功后，行业信息资源以倒排索引的方式存放在该数据中心的节点上，同时用户选择该数据中心的用于检索的重要元数据进行审核，通过元数据注册系统把这些信息注册进中央节点；

步骤S-3-3：对该数据中心的倒排索引备份，并存放到分布式集群中另一节点上；

S-4：检索用户可向集群中任意节点提交检索请求，该节点将检索请求分布到各地方节点，也可以指定仅检索中央节点。并将被分布到检索请求的节点的搜索结果汇总返回给用户，具体包括如下步骤：

步骤S-4-1：为检索用户部署检索系统；

步骤S-4-2：用户通过检索系统提交关键字，检索系统把检索请求提交到中央节点或地方节点，该节点将检索结果返回给检索系统，检索系统通过图形化处理形式把检索结果显示给用户；

步骤S-4-3：用户通过检索系统选择分面，检索系统对检索结果精炼；

步骤S-4-4：用户通过检索系统选择目录树节点，检索系统对检索结果筛选过滤；

S-5：检索用户选中检索结果中一条元数据，提交查看这条元数据的详细信息请求，系统将该元数据的详细信息显示给用户，具体包括如下步骤：

步骤S-5-1：用户选中一条元数据查看详细信息；

步骤S-5-2：系统通过存放在索引中的信息获取这条元数据所属单位以及存储这条元数据的数据库地址和端口号；

步骤S-5-3：回调回存储该元数据单位的数据库，将这条元数据的详情信息取出，通过检索系统给用户显示。

所述步骤S-1中的分布式管理集群由zookeeper节点搭建而成，主要完成将搜索节点连接起来，统一管理配置文件和对失效主节点进行主节点选举功能。

所述步骤S-2中的物理节点为Solr节点，通过与zookeeper集群相连，可以组成SolrCloud。

所述步骤S-3-1中的注册系统与分布式检索系统是隔离的，注册系统可以通过服务的形式向分布式检索系统注入元数据。

所述步骤S-4-1中的检索系统与分布式检索系统也是隔离的，检索系统可以通过服务的形式向分布式检索系统提交检索请求，并且可以通过服务的形式获取检索返回的结果。

所述步骤S-5-2中元数据的所属单位以及存储这条元数据详情信息数据库地址分别为元数据的属性state和statecontact，之所以要通过回调的机制是因为索引中仅存放了元数据部分关键属性，而详情信息并没有全部注入索引，这样做是为了避免索引过大，而且检索的时候也只用到了元数据的关键属性。

下面结合附图对本发明的具体实施方式作进一步的描述。本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明系统模块图；

图2为本发明元数数据中心节点部署图；

图3为本发明元数据注册的流程图；

图4为本发明元数据检索的流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的概念、对象、要素等或具有相同或类似功能的概念、对象、要素等。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域及相关领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

面向行业元数据注册及分布式检索的方法由元数据注册模块、存储模块和检索模块组成。

元数据注册模块，用于将行业元数据注册进分布式系统，以倒排索引的方式存储在分布式节点上。元数据包含大量的属性信息，但实际检索和结果显示仅用到其中的部分属性，但是当用户选择某条具体的元数据想查看这条元数据的详情信息时，需要这条元数据的大量属性信息。为了不使构建的倒排索引过于庞大，只把检索和结果显示需要的属性存入索引，而详情显示需要的信息通过回调回存储这条元数据的数据库获取给用户显示。通过上述的措施，解决了倒排索引过大的问题，同时将元数据中的很多冗余信息和无关信息放在索引之外，减少了对检索的干扰。为每个元数据数据中心开发元数据注册系统，并在该数据中心部署一个物理节点，同时部署一个备份节点，通过元数据注册系统会把行业信息资源注册到这两个节点上，其中一个作为主节点leader，另一个为备份节点replica。

元数据存储模块，每个元数据数据中心部署物理节点供元数据注册，该数据中心注册的元数据以倒排索引的方式存储在这个数据中心部署的物理节点上，并且由地区管理单位选择部分重要的用于检索的元数据提交到中央节点存储，索引的存储单位为分片，一个分片代表一份索引。为了元数据存储的安全，我们在每个数据中心另外部署一个备份节点，所以在元数据数据中心一共有两个节点，一个为备份节点(replica)，另一个为主节点(leader)。

检索模块包含关键字检索子模块，分面检索子模块，目录树检索子模块，结果显示模块；其中关键字检索子模块用于根据用户的检索请求在每个节点索引库中进行关键字匹配，并将每个节点的检索结果合并后生成检索结果集给用户显示；分面检索子模块，用于对检索结果集精炼；目录树检索子模块，用于对检索结果集筛选过滤；结果显示模块包含结果排序模块和详情显示子模块，结果排序模块用于对检索结果按照与检索请求的相关性从高到低排序，详情显示子模块用于显示元数据的详情信息。

面向行业元数据注册及分布式检索方法按如下步骤进行实施：

步骤S-1：部署中央分布式管理集群，部署中央搜索节点，并将中央搜索节点与分布式管理集群相连接。

中央分布式管理集群是由zookeeper节点搭建起来的，中央搜索节点是Solr节点，整个分布式检索系统由zookeeper集群和Solr集群组合成SolrCloud；中央分布式管理集群主要负责对Solr节点配置信息的统一分发管理，同时针对失效的主节点，使用fast paxos选举算法重新选举主节点；Solr节点主要负责检索、建索引、存储索引的功能。

步骤S-2：在元数据数据中心部署物理节点，把物理节点与中央分布式管理集群相连接；

在元数据数据中心部署的物理节点为Solr节点，该元数据数据中心通过这个节点将元数据注册进分布式系统，同时也可以通过这个物理节点发送检索请求，为该单位提供检索服务；如图2所示，在分中心1、分中心2、分中心3、分中心4都部署物理节点，使用主节点为该数据中心提供注册索引和检索的服务，同时在该数据中心的主节点上的索引会自动备份到备份节点上，提高元数据存储和分布式系统检索的安全性。

步骤S-3：地方元数据管理数据中心通过部署在该数据中心内的节点，将该数据中心管理的行业信息资源注册进分布式集群，具体包括如下步骤：

步骤S-3-1：部署元数据注册系统；

步骤S-3-2：通过元数据注册系统，用户对待注册的元数据进行审核，审核通过后将会对这些元数据建立倒排索引，并且选择部分重要的用于检索的元数据提交给中央节点；

步骤S-3-3：地方数据中心注册的元数据生成的索引将存储在这个数据中心的物理节点上，部分重要元数据存储在中央节点。同时为了保障元数据存储的安全，系统还会分派另外的节点存储备份；

行业元数据包含丰富的属性信息，但是在全文检索中，仅需要部分的属性，而且在结果显示页面也只需要显示部分重要的属性。因此，我们在审核元数据时仅把重要的属性存入索引，这样既节省了索引的存储空间，同时又减少了不相关属性对检索精确度的干扰，也加快了检索的效率。但是当用户选择查看一条元数据的详细信息时，这时候需要这条元数据的全部信息，需要回调到存储该元数据的数据库来获取所有属性信息，所以在用户审核过程中，为每条元数据增加两个属性：state和statecontact，分别表示元数据所属单位和存储这条元数据的数据库ip地址和端口号。

为了提高检索的效率，当我们存取行业元数据的某条属性信息时，首先要对它进行分词，然后再加入索引。

步骤S-4：检索用户向任意的Solr节点提交检索请求，被提交请求的节点将检索请求分派到其他的Solr节点，为了加快检索效率，也可以指定仅检索存储重要信息的中央节点，并将从被分派检索任务的节点中获取检索结果，最后把检索结果合并给用户显示，具体包括如下步骤：

步骤S-4-1：为用户部署检索系统，该检索系统包含关键字检索子模块、分面检索子模块、目录树检索子模块和结果显示模块；

步骤S-4-2：用户通过检索系统提交关键词给任意Solr节点；

步骤S-4-3：被提交请求的Solr节点对用户输入的关键字分词处理，并把请求分派到其他的节点，被分配到检索请求的Solr节点执行关键字匹配检索，并把检索结果提交给分配给他们任务的节点；

步骤S-4-4：最初分配任务的那个节点(用户提交请求的节点)把来自各个节点的搜索结果合并，并且把与关键字最相关的前k个结果给用户显示；

步骤S-4-5：对检索结果进行聚类分析，产生分面与分面值，按分面覆盖率公式计算每个分面的覆盖率，将覆盖率最高的前m(m≤4)个分面推荐给用户，用分面值覆盖率公式计算每个分面值的覆盖率，将每个分面下前n(n≤10)个分面值推荐给用户；

步骤S-4-6：若用户选择分面值，对检索结果精炼，否则转向步骤S-4-9；

步骤S-4-7：若用户选择去除已选分面值，则按剩余搜索条件再次发送检索请求，对搜索结果扩大，否则转向步骤S-4-8；

步骤S-4-8：若用户选择目录树节点，对不在该节点下的搜索结果过滤，缩小搜索结果范围，否则转向步骤S-4-9；

步骤S-4-9：结束。

分面覆盖率计算公式为：

式中的n代表搜索结果的总数，n(B)代表包含分面B的文档总数，f(B)就代表分面B的覆盖率。

对于分面值覆盖率计算公式为：

式中的n_B代表分面B下搜索结果的总数，n_B(p)代表包含分面B的下分面值p的文档总数，f_B(p)就代表分面B下分面值p的覆盖率。

步骤S-5：用户选择某条元数据，查看这条元数据的详细信息，具体包括如下步骤：

步骤S-5-1：用户选择一条元数据，发送查看这条元数据详细信息请求；

步骤S-5-2：系统通过这条元数据存储的所属单位及存储这条元数据的数据库的ip地址及端口号回调到注册这条元数据的管理单位，取出这条元数据的详细信息；

步骤S-5-3：给用户显示这条元数据的详细信息；

本发明能够将全国各地行业元数据通过分布式的方法进行注册，实现对元数据跨数据中心统一共享机制。针对行业元数据信息量过大、检索速度慢的问题，通过对索引分片、分布并行检索的方式，提高了检索效率，满足了用户对检索实时性的需求，这样既实现了对各地行业信息资源共享，又提高了行业信息资源的检索效率，是信息检索领域的一大突破。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向行业元数据注册和分布式检索系统，其特征在于，包括：

元数据注册模块，用于将分布在全国各地的行业元数据注册进分布式集群，为每一个行业元数据负责中心建立元数据注册系统，各数据中心负责对元数据自行注册，选取部分重要的用于检索的元数据注册进中央节点，地方节点存放该数据中心的所有数据；

存储模块，用于将元数据注册模块注册进来的数据以倒排索引的方式分布式存储在不同的节点上；

检索模块，用于将存储模块存储的索引作为检索资源，对所有节点进行分布式检索，将检索结果汇总显示给用户。

2.如权利要求1所述的面向行业元数据注册和分布式检索系统，其特征在于，所述注册模块，构建一个大范围的分布式系统，针对全国所有数据中心，在相应的数据中心构建一个注册节点，该数据中心通过该节点将该数据中心内的行业元数据进行注册，生成索引，并且由地方数据中心管理单位自行选择部分重要的用于检索的元数据注入中央节点。

3.如权利要求1所述的面向行业元数据注册和分布式检索系统，其特征在于，所述存储模块包括：行业元数据资源的描述信息；行业元数据是描述行业信息资源的数据，该方法中用XML文件作为行业元数据的载体；各数据中心通过部署在该数据中心的注册节点，对该数据中心内的元数据进行注册生成索引，由该数据中心挑选重要的用于检索的元数据注入中央节点，将元数据的符合预定义规则的重要属性存入索引，每条元数据地方数据中心存储所有行业信息，同时在该数据中心部署一个备份节点，用于对这个数据中心的行业资源信息进行备份。

4.如权利要求1所述的面向行业元数据注册和分布式检索系统，其特征在于，所述检索模块，包括：

关键字检索子模块，用于根据用户提交的关键字，系统对分布在全国各地的所有节点进行检索，并将检索结果进行汇总，作为检索结果集；

分面检索子模块，用于根据用户提交的分面检索，对结果集进行精炼；

目录树检索子模块，用于根据用户提交的目录树节点请求，对检索结果集进行筛选；

检索结果显示子模块，包括检索结果排序模块和详情显示子模块，检索结果排序模块，根据用户输入的关键字，将查询结果集按照与关键字的相关性从高到低进行排序；

详情显示子模块，用户在浏览检索结果时，选中某条元数据查看详情信息，系统通过回调到元数据注册单位，获取这条元数据详细信息给用户显示。

5.如权利要求4所述的面向行业元数据注册和分布式检索系统，其特征在于，所述检索模块，采用大数据技术处理海量的行业元数据，并且对所有行政区域的数据中心进行检索，并通过使用分布式检索策略满足用户对大量元数据信息检索的实时性需求；当查询用户为各数据中心管理单位时，将查询请求提交到该数据中心的节点上，以获得全国所有行业元数据的信息，同时指定仅查询该节点上的内容，以使得获得的信息仅为该数据中心的元数据信息；当查询用户将查询请求提交到中央节点时，获得整个分布式节点上的所有行业资源信息，同时指定检索范围为中央的多个节点，以使得仅查询存储在中央的重要元数据。

6.一种面向行业元数据注册和分布式检索方法，其特征在于，包括如下步骤：

步骤S-1：在各行业元数据中心部署元数据注册系统和分布式节点；

步骤S-2：数据负责中心将部分用于检索的重要元数据通过元数据注册系统注册进中央节点，地方节点存储所有的数据；

步骤S-3：各数据负责中心注册进来的数据以倒排索引的方式存储于中央节点和地方节点；

步骤S-4：部署用户检索系统；

步骤S-5：用户通过检索系统将检索请求提交给分布式集群，分布式集群返回搜索结果给用户。

7.如权利要求书6所述的面向行业元数据注册和分布式检索方法，其特征在于：所述步骤S-1中的元数据注册系统采用WebService的方式向集群发送注册数据请求，将元数据注册进分布式集群，该系统中包含审核元数据功能模块，对需要注册的元数据进行审核，审核过后的元数据会通过元数据注册系统被提交到该数据中心的节点上，通过该节点注册进分布式集群；所述分布式节点为Solr服务器，Solr服务器提供了数据注册和检索的功能，多个Solr服务器通过与ZooKeeper集群相连组成SolrCloud。

8.如权利要求书7所述的面向行业元数据注册和分布式检索方法，其特征在于：所述SolrCloud由多个Solr服务器和Zookeeper集群组成，SolrCloud具有分布式索引和分布式检索的功能，Solr服务器提供了对分布式集群索引和检索的功能，ZooKeeper集群由多个Zookeeper服务器组成，以便管理Solr服务器。

9.如权利要求书6所述的面向行业元数据注册和分布式检索方法，其特征在于：所述步骤S-5具体包含如下实施步骤：

步骤S-4-1：用户通过检索系统输入关键字，检索系统将检索请求提交到中央节点或地方节点；

步骤S-4-2：中央节点或地方节点将用户提交的关键字分词处理，并将检索请求分布到整个分布式系统中；

步骤S-4-3：每个节点将检索的结果都提交给与检索系统相连的那个节点，最后由这个节点对检索结果汇总，对关键字高亮处理并按与关键字的相似度从高到低显示给用户；

步骤S-4-4：若用户选择分面值进行搜索，系统将根据用户的检索请求对检索结果精炼，否则结束；

步骤S-4-5：若用户点击目录树节点，对搜索结果进行分类，系统将根据用户的检索请求对检索结果分类，否则结束；

步骤S-4-6：若用户在检索结果集上选中某条元数据，查看这条元数据的详细信息，系统为用户显示这条元数据的详细信息，否则结束。