CN111026710A

CN111026710A - 一种数据集的检索方法及系统

Info

Publication number: CN111026710A
Application number: CN201911264609.9A
Authority: CN
Inventors: 范冰冰; 张脱
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-17

Abstract

本发明公开了一种数据集的检索方法及系统，包括以下步骤：S1:对数据集进行存储；S2:对数据集建立索引，分别构建元数据索引文件和内容索引文件，并将两个索引与数据集建立映射关系；S3:接受用户输入，分析得到一个或多个检索条件；S4：通过检索条件对索引文件中元数据字段进行过滤和查询，得到初步结果，包含元数据相关度匹配得分；S5：在初步结果中通过检索条件对内容索引文件进行过滤和查询，得到内容相关度匹配得分；S6：综合元数据相关度匹配得分和内容相关度匹配得分得到数据集的最终得分，将结果按得分进行降序排序返回给用户。通过本发明的多级检索的方式以及将部分检索条件转化为过滤条件的方法，能进一步提高检索精确度。

Description

一种数据集的检索方法及系统

技术领域

本发明涉及一种信息检索领域，具体涉及一种数据集的检索方法和系统。

背景技术

大数据时代，政府机构、公共组织和企业累积了海量社会管理、公共生活和生产流通等数据，这些数据成为亟待开发利用的资源。为了满足广泛的社会需求，世界上众多国家实施了政府开放数据战略，将这些数据向大众开放，以释放数据的潜能，推动社会各领域的业务创新。为了更好地推动开放数据的获取利用，许多国家、组织和地区都建立了自己的开放数据平台，随之而来的数据集的检索就成为了一项重大的挑战。

与传统的信息检索类似，数据集的检索是根据用户的查询，在开放数据平台中来确定最相关的数据集，以满足用户的需要。具体来讲，是通过对数据集建立索引文件，然后提取查询中的关键词，将关键词与数据集的索引进行相关性的度量，按相关性的大小对数据集进行排序，最后将排序靠前的数据集返回给用户。

在现有的技术当中，数据集的检索技术可以大致分为两类：一类是基于单词或者词组的匹配；另一类是语义化匹配，通过将关键词拓展为概念或者实体，利用概念本体和图匹配的技术。但这些技术基本上都是基于数据集的元数据来进行的，或者仅仅考虑了数据内容的全文检索而忽略了元数据。另一方面，现有的查询技术在检索多个检索条件时，是将每个检索条件作为一个分支分别检索得到一组检索结果，最后对各个分支的结果进行合并，这个过程系统耗费的资源随着检索条件的增加而不断增大，从而加剧了存在的性能问题，检索速度变慢。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，本发明提供一种数据集的检索方法，该方法能够针对数据集建立一种混合检索模型，能更全面地检索到相关的数据集，满足用户对数据查询地需要。

本发明的另一目的在于，提供一种数据集的检索系统。

为了达到上述第一目的，本发明采用以下技术方案：

一种数据集的检索方法，包括下述步骤：

S1、对数据集进行存储，包括数据集的元数据和内容；

S2、对数据集建立索引，分别构建元数据索引文件和内容索引文件，并将两个索引与数据集建立一一映射关系，并针对元数据字段对于搜索的不同重要等级，对检索无关字段不建立索引，对于一般字段与重要字段设置不同的检索权重，对数据集内容字段建立全文索引；

S3、接受用户输入，分析得到一个或多个检索条件，若存在数值类型或者时间类型数据，则从检索条件中分离出过滤条件和查询条件；即根据检索条件对应的数据项的属性信息来区分，数据项的字段类型为日期或者数字类型时，将检索条件定为过滤条件，其余的条件为查询条件。

S4、通过检索条件对元数据索引文件进行过滤和查询，得到初步结果，包含元数据相关度匹配得分Score(meta)；

S5、在初步结果中通过检索条件对内容索引文件进行过滤和查询，得到内容相关度匹配得分Score(content)；

S6、综合元数据相关度匹配得分Score(meta)和内容相关度匹配得分Score(content)得到数据集的最终得分，将结果按得分进行降序排序返回给用户，所述算数据集的最终得分如下：

其中Score(meta)是检索元数据字段相关度得分，Score(content)是检索内容字段相关度得分。

作为优选的技术方案，步骤S1中，所述对数据集进行存储，是将数据集以JSON格式存储在非关系型数据库中。

作为优选的技术方案，步骤S2中，元数据索引构建过程为：

数据集的元数据首先经过分析器处理，包括：分词过程；将检索需要的信息加入Document的各个Field中，对与检索无关的字段不建立索引，对于重要字段提升字段对于检索的权重；

所述内容索引构建过程：

数据集的内容经过分析器处理，包括：分词过程；所建立的Document只有一个Field，将分词结果加入其中。

作为优选的技术方案，步骤S2中，构建元数据索引文件时，在索引的元数据字段中字段类型为日期、时间或者数字类型时，索引规则设定为不进行分词。

作为优选的技术方案，所述过滤条件用来确定索引文档是否满足所述条件，要求精确匹配或者索引文档的值在检索条件指定的范围内，结果是“是”或者“否”，不计算相关度得分；所述查询条件是用来确定索引文档中是否包含检索子句，匹配程度用相关度来表示，其相关度为[0,1]之间的浮点数。

作为优选的技术方案，所述过滤条件不存在时，所有条件都是查询条件，进行查询处理；当过滤条件存在且不唯一时，依次通过每一个过滤条件对元数据索引库或者内容索引库进行过滤；

所述查询条件不唯一时，分别使用每个查询条件对过滤后的元数据索引库或者内容索引库进行查询，并将各查询所得结果进行合并，得到查询的结果。

作为优选的技术方案，所述步骤S4中，用户输入的检索关键词可能有多个，因此转化的检索条件也可能有多个，区分出来的过滤条件和查询条件也可能有多个，对于过滤过程，当存在多个过滤条件时，依次通过每一个过滤条件进行过滤；对于查询过程，使用每一个查询条件分别进行查询后，将得到的结果合并，得到初步的检索结果。

作为优选的技术方案，所述步骤S5具体为：

经过元数据索引查询后得到初步的结果，由元数据索引文件与数据集标识的一一对应关系以及内容索引文件与数据集标识的一一对应关系可以得到初步结果对应的内容索引文件，在对应的内容索引文件上再通过检索条件对其进行过滤和查询，得到内容索引文件的相关度得分。

作为优选的技术方案，所述步骤S6具体为：

综合数据集元数据和内容的相关度得分，得到数据集相对于检索条件的整体相关度分数，即数据集满足检索条件的程度，相关度得分越大，就越满足用户的检索需要，反之，相关度得分越小，与检索条件就越不相关。

为了达到上述第二目的，本发明采用以下技术方案：

一种数据集的检索系统，包括存储模块、索引模块、分离模块、过滤模块和检索模块；

所述存储模块用来存储数据集，包括数据集元数据和内容；

所述索引模块用于创建数据集的索引文件，包括元数据索引文件和内容索引文件；

所述分离模块用于获取用户检索条件，并根据检索条件对应的属性信息，确定用于过滤的过滤条件和用于查询的查询条件；

所述过滤模块用于根据过滤条件对数据集元数据和内容进行过滤；

所述检索模块用于对数据集元数据和内容进行检索，并分别得到相关度匹配得分，最终得到数据集按相关度排序列表。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明构建了基于数据集元数据和内容的混合检索模型，通过元数据和内容的混合检索，扩展了检索的范围，进一步提高了检索的精度。

(2)本发明构建元数据索引时，将元数据字段分为检索无关字段、一般字段和重要字段，对于检索无关字段不进行索引，对于一般字段与重要字段，对重要字段设置更高的检索权重，以提升字段对检索的重要程度。

(3)本发明将用户输入的检索条件分离为用于过滤的检索条件和用于查询的检索条件，减少了多个查询条件结果合并的过程，加快查询速度。

(4)本发明提出了基于数据集元数据和内容的相关度评分函数，综合了两者的相关度得分得到数据集整体的相关度分数，使得结果更加准确。

附图说明

图1是本发明的方法流程图。

图2是本发明数据集索引的流程图。

图3是本发明的系统结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，在本实施例中提供了一种数据集的检索方法，基于元数据的数据集的检索进行了扩展，将数据集的内容也融入索引项。对元数据构建索引时，将元数据字段分为查询无关字段、一般字段和重要字段，对于查询无关字段不建立索引，对于一般字段与重要字段分配不同的查询权重。在查询的过程中，通过查询词属性是否为时间或者数字类型将用户输入的检索条件分离为用于过滤的过滤条件和用于查询的查询条件，然后先通过这两种条件对元数据进行处理得到初步结果，再在此基础上检索内容数据，综合两者的相关度得分得到最终的排序结果。这种多级检索的方式以及将部分检索条件转化为过滤条件的方法，能进一步提高精确度。

本实施例的一种数据集的检索方法，包括以下步骤：

S1：存储目标数据集，以key-value的形式存储在非关系型数据库中，其中key是文档的唯一标识，value包括数据集元数据字段和内容字段，元数据字段中有多个不同的属性，如标识符、名称、摘要和关键字等。

S2：对数据集建立索引文件库，包括元数据索引库和内容数据索引库，可以通过开源全文检索框架Elasticsearch来构建，Elasticsearch中的对象模型为索引(Index)/文档类型(Type)/文档(Document)，分别对应于关系型数据库中的数据库/关系表/数据行。索引的单位是Document对象，每个Document对象包含多个字段Field对象。索引的结构如图2所示，数据集索引包含元数据索引文件和内容数据索引文件，元数据索引文件包含多个字段，并且两个索引文件都与数据集的标识建立一对一的映射关系。构建元数据索引文件时，读取元数据的各个字段，根据对检索的重要程度分成三类：检索无关字段、一般字段和重要字段。如标识符、语种等与检索无关的字段不进行索引，对于名称、关键字、主题分类等重要字段通过Elasticsearch建立索引时提升权重系数，提高其对检索的重要性。对于数据集内容，当作一个字段，建立全文索引文件。

元数据索引构建过程为：数据集的元数据首先经过分析器处理，包括：分词过程；将检索需要的信息加入Document的各个Field中，对与检索无关的字段如开放方式、更新频率等不建立索引，对于重要字段如名称、摘要、关键字、主题分类等提升字段对于检索的权重，可以通过Elsaticsearch的boost参数来实现。如：

需要说明的是，当权重值高的字段包含查询查询词时，对应的数据集比权重值低的字段包含查询词时对应的数据集更相关，也就是更满足用户的查询需求。

内容索引构建过程：数据集的内容经过分析器处理，包括：分词过程；所建立的Document只有一个Field，将分词结果加入其中。

具体的，所述索引过程的原理流程包括：1)有一系列目标数据集文件；2)目标文件经过分词器和分析器处理，生成一系列词组，构成倒排索引表和词典；3)将索引写入索引文件。

S3：将用户输入的检索条件分离成用于过滤的过滤条件和用于查询的查询条件，过滤条件和查询条件是根据检索条件对应的数据项的属性信息来区分，若存在数据项的字段类型为日期、时间或者数字类型，将检索条件定为过滤条件，若检索条件为范围数据，如2019-2020年，则按范围进行过滤，若为某一具体数据，如2019年，则按2019过滤，过滤条件之外的检索条件为查询条件。

进一步的，所述过滤条件不存在时，所有条件都是查询条件，进行查询处理；当过滤条件存在且不唯一时，依次通过每一个过滤条件对元数据索引库或者内容索引库进行过滤。

进一步的，所述查询条件不唯一时，分别使用每个查询条件对过滤后的元数据索引库或者内容索引库进行查询，并将各查询所得结果进行合并，得到查询的结果。

具体的，过滤条件用来确定索引文档是否满足所述条件，要求精确匹配或者索引文档的值在检索条件指定的范围内，结果是“是”或者“否”，不计算相关度得分；查询条件是用来确定索引文档中是否包含检索子句，匹配程度用相关度来表示，其相关度为[0,1]之间的浮点数。

S4：根据检索条件对元数据索引文件进行过滤和查询，先通过过滤条件对元数据索引进行过滤，然后通过查询条件对过滤结果进行查询，选择默认的TF-IDF来计算相关度得分。

具体的，用户输入的检索关键词可能有多个，因此转化的检索条件也可能有多个，区分出来的过滤条件和查询条件也可能有多个。对于过滤过程，当存在多个过滤条件时，依次通过每一个过滤条件进行过滤；对于查询过程，使用每一个查询条件分别进行查询后，将得到的结果合并，得到初步的检索结果。

具体的，所述检索过程的原理流程包括：a)用户输入查询语句，经过分词器得到一系列词；b)建立倒排索引和词典，可以通过词典快速找到词，然后依据倒排表找到相关文档ID；c)通过相关度模型计算文档的相关度分数；d)将搜索到的结果文档对查询的相关性进行排序并返回结果给用户。

S5：经过元数据索引查询后得到初步的结果，由元数据索引文件与数据集标识的一一对应关系以及内容索引文件与数据集标识的一一对应关系可以得到初步结果对应的内容索引文件，在对应的内容索引文件上再通过检索条件对其进行过滤和查询，得到内容索引文件的相关度得分。考虑到内容字段的长度较长，选择了BM25的相似度算法进行相关度评分。

S6：综合数据集元数据和内容的相关度得分，可以得到数据集相对于检索条件的整体相关度分数，即数据集满足检索条件的程度，相关度得分越大，就越满足用户的检索需要，反之，相关度得分越小，与检索条件就越不相关。在查询中，一般认为字段越短，字段的权重越高。同样的，元数据是对数据集的描述，即是对数据集内容的抽象，而且元数据的字段往往要比内容字段短的多，因此可以认为元数据索引文件的相关度得分要比内容索引文件的相关度得分重要。

最终的得分是

如图3所示，本实施例还提供一种数据集的检索系统，包括：

存储模块、索引模块、分离模块、过滤模块、检索模块；

存储模块用来存储数据集，包括数据集元数据和内容，存放在非关系型数据库中；

索引模块用于创建数据集的索引文件，包括元数据索引文件和内容索引文件；

分离模块用于获取用户检索条件，并根据检索条件对应的属性信息，确定用于过滤的过滤条件和用于查询的查询条件；

过滤模块用于根据过滤条件对数据集元数据和内容进行过滤；

检索模块用于对数据集元数据和内容进行检索，并分别得到相关度匹配得分，最终得到数据集按相关度排序列表。

本发明实施例提供的检索方法和系统，为了能够既能检索到元数据又能检索到数据集内容，对元数据和内容数据分别建立了索引文件；又考虑到元数据不同字段对于检索的重要程度不同，因此建立元数据索引文件时将字段分为检索无关字段、一般字段与重要字段，为重要字段设置更高的检索权重；同时将用户输入的检索条件根据是否为时间、日期或者数字类型划分为过滤条件和查询条件，减少了相关度计算的过程，加快了检索速度；最后是综合元数据和内容的相关度得分，得到数据集的总体相关度分数，按降序排列返回给用户。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种数据集的检索方法，其特征在于，包括下述步骤：

S1、对数据集进行存储，包括数据集的元数据和内容；

S6、综合元数据相关度匹配得分Score(meta)和内容相关度匹配得分Score(content)得到数据集的最终得分，将结果按得分进行降序排序返回给用户，

所述算数据集的最终得分如下：

2.根据权利要求1所述数据集的检索方法，其特征在于，步骤S1中，所述对数据集进行存储，是将数据集以JSON格式存储在非关系型数据库中。

3.根据权利要求1所述数据集的检索方法，其特征在于，步骤S2中，元数据索引构建过程为：

所述内容索引构建过程：

4.根据权利要求1或3所述数据集的检索方法，其特征在于，步骤S2中，构建元数据索引文件时，在索引的元数据字段中字段类型为日期、时间或者数字类型时，索引规则设定为不进行分词。

5.根据权利要求1所述数据集的检索方法，其特征在于，所述过滤条件用来确定索引文档是否满足所述条件，要求精确匹配或者索引文档的值在检索条件指定的范围内，结果是“是”或者“否”，不计算相关度得分；所述查询条件是用来确定索引文档中是否包含检索子句，匹配程度用相关度来表示，其相关度为[0,1]之间的浮点数。

6.根据权利要求1所述数据集的检索方法，其特征在于，所述过滤条件不存在时，所有条件都是查询条件，进行查询处理；当过滤条件存在且不唯一时，依次通过每一个过滤条件对元数据索引库或者内容索引库进行过滤；

7.根据权利要求1所述数据集的检索方法，其特征在于，所述步骤S4中，用户输入的检索关键词可能有多个，因此转化的检索条件也可能有多个，区分出来的过滤条件和查询条件也可能有多个，对于过滤过程，当存在多个过滤条件时，依次通过每一个过滤条件进行过滤；对于查询过程，使用每一个查询条件分别进行查询后，将得到的结果合并，得到初步的检索结果。

8.根据权利要求1所述数据集的检索方法，其特征在于，所述步骤S5具体为：

9.根据权利要求1所述数据集的检索方法，其特征在于，所述步骤S6具体为：

10.一种数据集的检索系统，其特征在于，包括存储模块、索引模块、分离模块、过滤模块和检索模块；

所述存储模块用来存储数据集，包括数据集元数据和内容；