CN114911826A

CN114911826A - 一种关联数据检索方法和系统

Info

Publication number: CN114911826A
Application number: CN202111625940.6A
Authority: CN
Inventors: 鹿迅; 杨立扬; 成国强; 宫敏
Original assignee: Tianyi Digital Life Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-08-16

Abstract

本发明公开了一种高效的关联数据检索方法。该方法首先会从数据库中定时读取数据，并使用分类算法来对关联的数据进行分类。随后，为不同分类组中数据的特征项构建二级索引。为了进一步提高检索效率，再为二级索引构建一级索引。由此，当检索一些关键字的时候，首先根据一级索引找到候选的二级索引，然后再从二级索引中找到匹配度较高的关联数据。

Description

一种关联数据检索方法和系统

技术领域

本发明属于计算机技术领域，具体涉及关联数据的检索优化方法。

背景技术

互联网的发展和使用，产生了海量的数据。为了高效地存储海量数据，分布式数据库和NoSql应运而生。传统的数据库为了提高检索效率，会对数的部分属性构建索引。由于分布式数据库中存有海量数据，并且大多数是NoSql类型的数据，因此当数据增长到一定规模时，使用传统的索引查询数据也十分缓慢，难以达到预期效果。对于一些特定应用，在数据库中查询关联元组信息，这种情况将将更加耗时和低效。

因此，需要能够改进现有技术中的缺陷的方法和系统。

发明内容

提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

针对现有技术中的针对海量非关系型数据的检索效率问题，本发明公开了一种高效的关联数据检索方法。该方法首先会从一个或多个数据库中定时读取数据，并使用分类算法来对关联的数据进行分类。随后，为不同分类组中数据的特征项构建二级索引。为了进一步提高检索效率，再为二级索引构建一级索引。由此，当检索一些关键字的时候，首先根据一级索引找到候选的二级索引，然后再从二级索引中找到匹配度较高的关联数据。

具体而言，在本发明的一个实施例中，提供了一种构建用于关联数据检索的索引的方法，所述方法包括：

遍历一个或多个数据库中的数据并确定所述数据的特征属性；

基于所述特征属性来对所述数据进行分组以形成关联数据分组；

为每一个关联数据分组中的关联数据的特征属性构建一组二级索引；以及

为各组二级索引中的每一组二级索引构建相应的一级索引。

在本发明的一个实施例中，所述数据库是分布式非关系型数据库，并且遍历所述分布式数据库中的数据包括经由数据库接口来获取所述数据库中的数据。

在本发明的一个实施例中，对所述数据进行分组包括采用关联规则算法来对所述数据进行分类以将相关联的数据归类到一个关联数据分组中。

在本发明的一个实施例中，所述一级索引和所述二级索引被存放在对应的数组中。

在本发明的一个实施例中，与每一个关联数据分组相对应的二级索引组存储该关联数据分组中的索引信息并包括针对来自所述一个或多个数据库的不同来源数据的二级索引，并且所述一级索引存储所述二级索引组的索引信息。

在本发明的另一个实施例中，提供了一种用于关联数据检索的方法，所述方法包括：

接收要检索的关键词；

为每一个关联数据分组中的关联数据的特征属性构建一组二级索引；

为各组二级索引中的每一组二级索引构建相应的一级索引；以及基于所述一级索引和各组二级索引来返回与所述关键词相关的关联数据。

在本发明的一个实施例中，该数据检索方法进一步包括对所述关键词进行分词以确定关键分词，并且基于所述一级索引和各组二级索引来返回与所述关键词相关的关联数据进一步包括：

在所述一级索引的集合中确定所述关键分词所在的一级索引；

基于所确定的一级索引来查找对应的二级索引组；

基于所找到的二级索引组来确定对应的关联数据分组；以及

返回所确定的关联数据分组中的关联数据。

在本发明的又一个实施例中，提供了一种用于关联数据检索的系统，所述系统包括：

数据和特征获取模块，其被配置成遍历一个或多个数据库中的数据并确定所述数据的特征属性；

数据分类模块，其被配置成基于所述特征属性来对所述数据进行分组以形成关联数据分组；

索引构建模块，其被配置成为每一个关联数据分组中的关联数据的特征属性构建一组二级索引，并且为各组二级索引中的每一组二级索引构建相应的一级索引；以及

数据检索模块，其被配置成接收要检索的关键词并基于所述一级索引和各组二级索引来返回与所述关键词相关的关联数据。

在本发明的一个实施例中，所述数据分类模块被进一步配置成采用关联规则算法来对所述数据进行分类以将相关联的数据归类到一个关联数据分组中。

在本发明的一个实施例中，所述数据检索模块被进一步配置成：

对所述关键词进行分词以确定关键分词；

基于所确定的一级索引来查找对应的二级索引组；

基于所找到的二级索引组来确定对应的关联数据分组；以及

返回所确定的关联数据分组中的关联数据。

在本发明的又一个实施例中，提供了一种存储计算机可执行指令的计算机可读介质，这些指令包括：

用于遍历一个或多个数据库中的数据并确定所述数据的特征属性的指令；

用于基于所述特征属性来对所述数据进行分组以形成关联数据分组的指令；

用于为每一个关联数据分组中的关联数据的特征属性构建一组二级索引的指令；

用于为各组二级索引中的每一组二级索引构建相应的一级索引的指令；

用于接收要检索的关键词的指令；以及

用于基于所述一级索引和各组二级索引来返回与所述关键词相关的关联数据的指令。

在结合附图研读了下文对本发明的具体示例性实施例的描述之后，本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的，但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之，尽管可能讨论了一个或多个实施例具有某些有利特征，但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式，尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的，但是应当领会，此类示例性实施例可以在各种设备、系统、和方法中实现。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中阐示。然而应该注意，附图仅阐示了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。

图1是根据本公开的一个实施例的用于关联数据检索的系统的示意性框图。

图2示出了根据本公开的一个实施例的用于关联数据检索的系统中的数据检索模块的示意性框图。

图3示出了根据本公开的一个实施例的构建用于关联数据检索的索引的方法的流程图。

图4示出了根据本公开的一个实施例的构建用于关联数据检索的索引的方法中的数据分类的效果图。

图5示出了根据本公开的一个实施例的用于关联数据检索的方法的流程图。

图6示出了根据本公开的一个实施例的用于关联数据检索的方法的检索时效图。

具体实施方式

以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而，各实施例可以以许多不同的形式来实现，并且不应将其解释为限制此处所阐述的各实施例；相反地，提供这些实施例以使得本公开变得透彻和完整，并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此，这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此，以下具体实施方式并非是局限性的。

各流程图中的步骤可通过硬件(例如，处理器、引擎、存储器、电路)、软件(例如，操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的，各实施例中所涉及的方法可以包括比示出的更多或更少的步骤。

对于传统的关系型数据，为数据的某些字段构建索引，然后根据索引查找实际的数据。但是当数据库(诸如分布式数据库等)中存放海量的非关系型数据，即NoSql，通过传统的索引方式，查找到关联数据，就显得捉襟见肘，效率很低。如何快速准确地从海量非关系型数据库中查找到关联就数据十分有意义。本发明中的技术方案的目的是要解决在海量非关系型数据中查找关联数据的效率问题。

下文中将通过框图、数据流图以及方法流程图对本公开的各方面进行详细描述。

图1是根据本公开的一个实施例的用于关联数据检索的系统100的示意性框图。

如图1所示，用于关联数据检索的系统100包括数据和特征获取模块102、数据分类模块104、索引构建模块106、以及数据检索模块108。以下将对各个模块进行详细描述。

数据和特征获取模块102被配置成遍历一个或多个数据库中的数据并确定所获取的数据的特征属性。在本发明的一个实施例中，该一个或多个数据库可以是分布式非关系型数据库，诸如HBase数据库等，与关系型数据库相比，HBase这种非关系型数据库没有确定的列。在本发明的一个实施例中，遍历该一个或多个数据库包括经由数据库接口(诸如HBase接口)来获取数据库中的数据。

数据库中的数据包括描述性信息和标签信息。在一个示例中，数据包括论坛上或者网站上的信息，主要包括用户的个人描述以及自己的标签。在本发明的另一实施例中，数据和特征获取模块102被进一步配置成对这些描述性信息和标签信息进行分词以便于提取特征属性信息和数据分类。

数据分类模块104被配置成基于所述特征属性来对所述数据进行分组以形成关联数据分组。在本发明的一个实施例中，数据分类模块104被进一步配置成采用关联规则算法来对所述数据进行分类以将相关联的数据归类到一个关联数据分组中。在上述示例中，可通过分类将特征关联的用户划分到相同的分组中。如本领域技术人员可以理解的，本发明中的关联规则算法不限于任何特定分类算法，而是可需要根据实际的业务场景，选择合适的分类算法以及较为合适的阈值。在本发明的实施例中，分组数量是大于或等于1的。

该数据分类模块104的数据分类效果的示意图在图4中示出。如图4中示意性地示出的，来自各个数据库的数据被分类成五个关联数据分组(作为示例而非限制)。

索引构建模块106被配置成为每一个关联数据分组中的关联数据的特征属性构建一组二级索引，并且为各组二级索引中的每一组二级索引构建相应的一级索引。

在本发明中，为一个或多个非关系型数据库中的经分组或经分类的各组数据构建的索引被称为二级索引，这些二级索引被存储在数组中(构成二级索引组)。与每一个关联数据分组相对应的二级索引组存储该关联数据分组中的索引信息并包括针对来自一个或多个数据库的不同来源数据的二级索引。

具体而言，二级索引存放一个分类组中(也就是上文提到的关联数据)的索引信息，表示为A₁(a₁₁,a₁₂,...,a_1k),A₂(a₂₁,a₂₂,...,a_2m),...,A_n(a_n1,a_n2,...,a_nl)，其中，A_i是一个二级索引组，存放二级索引a_ix，a_ix表示第i组二级索引中的针对第x个来源数据的二级索引。上述表示意味着整个数据系统中有n个分类组(关联数据分组)，每个分类组中有若干个不同来源数据的索引(因为数据来自非关系型数据，因此，每个分类组内部的元素个数x是不相同的)。为这n个分类组中的每一组分别构建一组二级索引，共n组二级索引，即n个二级索引组A_n。

在本发明中，为每一组二级索引构建的索引被称为一级索引，即二级索引的索引。一级索引存储二级索引组的索引信息，表示为I(f(A₁),f(A₂),...,f(A_n))，其中，I是一级索引组，f(A_i)是二级索引组A_i的索引，即一级索引。

在本发明的一个实施例中，索引构建模块106执行的索引构建是一个调度任务，会在程序模块中一直运行，并且可以根据多个数据库(诸如分布式数据库等)中的数据实时更新索引的内容，确保查询的内容具有较高的时效性。

数据检索模块108被配置成接收要检索的关键词并基于所构建的一级索引和各组二级索引来返回与该关键词相关的关联数据。以下将结合图2更详细地描述数据检索模块108。

图2示出了根据本公开的一个实施例的用于关联数据检索的系统中的数据检索模块200的示意性框图。

如图2所示，数据检索模块200包括分词组件202、一级索引确定组件204、二级索引组查找组件206、以及关联数据返回组件208。以下将对各个组件进行详细描述。

分词组件202被配置成对接收到的关键词进行分词以确定关键分词。如本领域技术人员可以理解的，可以采用任何合适的分词方法来对接收到的关键词进行分词，而不背离本发明的精神和范围。

一级索引确定组件204被配置成在所构建的一级索引的集合中确定关键分词所在的一级索引，即在一级索引的集合I(f(A₁),f(A₂),...,f(A_n))中确定哪一个一级索引对应于关键分词。如本领域技术人员可以理解的，可采用诸如elasticsearch等搜索方法来确定关键分词所在的一级索引，或者可采用任何其他合适的搜索方法来执行该搜索，且本发明不限于任何特定搜索方法。

二级索引组查找组件206被配置成基于所确定的一级索引来查找对应的二级索引组，即基于所确定的一级索引f(A_i)来确定所对应的一组二级索引A_i。

关联数据返回组件208被配置成基于所找到的二级索引组来确定对应的关联数据分组并返回所确定的关联数据分组中的关联数据。

图3示出了根据本公开的一个实施例的构建用于关联数据检索的索引的方法300的流程图。

方法300开始于步骤302。在步骤302，遍历一个或多个数据库中的数据并确定数据的特征属性。在本发明的一个实施例中，数据库可以是分布式非关系型数据库，并且遍历数据库中的数据可包括经由数据库接口来获取所述数据库中的数据。在本发明的另一个实施例中，数据库可以是HBase数据库，数据库接口可以是HBase接口。

在步骤304，基于特征属性来对数据进行分组以形成关联数据分组。在本发明的一个实施例中，对数据进行分组包括采用关联规则算法来对数据进行分类以将相关联的数据归类到一个关联数据分组中。在本发明的实施例中，分组数量是大于或等于1的。

在步骤306，为每一个关联数据分组中的关联数据的特征属性构建一组二级索引。在本发明的一个实施例中，与每一个关联数据分组相对应的二级索引组存储该关联数据分组中的索引信息并包括针对来自所述一个或多个数据库的不同来源数据的二级索引。

在步骤308，为各组二级索引中的每一组二级索引构建相应的一级索引。在本发明的一个实施例中，一级索引存储二级索引组的索引信息。

在完成步骤308后，方法300结束。

图5示出了根据本公开的一个实施例的用于关联数据检索的方法500的流程图。

方法500开始于步骤502。在步骤502，接收要检索的关键词。在本发明的一个实施例中，步骤502进一步还包括在接收到关键词后对该关键词进行分词以确定关键分词。

在步骤504，遍历一个或多个数据库中的数据并确定数据的特征属性。在本发明的一个实施例中，数据库可以是分布式非关系型数据库，并且遍历数据库中的数据可包括经由数据库接口来获取所述数据库中的数据。在本发明的另一个实施例中，数据库可以是HBase数据库，数据库接口可以是HBase接口。

在步骤506，基于特征属性来对数据进行分组以形成关联数据分组。在本发明的一个实施例中，对数据进行分组包括采用关联规则算法来对数据进行分类以将相关联的数据归类到一个关联数据分组中。在本发明的实施例中，分组数量是大于或等于1的。

在步骤508，为每一个关联数据分组中的关联数据的特征属性构建一组二级索引。在本发明的一个实施例中，与每一个关联数据分组相对应的二级索引组存储该关联数据分组中的索引信息并包括针对来自所述一个或多个数据库的不同来源数据的二级索引。

在步骤510，为各组二级索引中的每一组二级索引构建相应的一级索引。在本发明的一个实施例中，一级索引存储二级索引组的索引信息。

在步骤512，基于所构建的一级索引和各组二级索引来返回与该关键词相关的关联数据。在本发明的一个实施例中，步骤512进一步包括在所构建的一级索引的集合中确定通过对该关键词进行分词得到的关键分词所在的一级索引；基于所确定的一级索引来查找对应的二级索引组；基于所找到的二级索引组来确定对应的关联数据分组；以及返回所确定的关联数据分组中的关联数据。

作为示例而非限制，在本发明的一个示例实现环境中，从不同的网站或者论坛获取了210529条用户注册信息数据，这些注册信息数据包含了用户的个人描述和标签。现在在客户端输入一个字符串，比如【开心】，得到所有有【开心】倾向的用户数据。一共做了15组实验，输入不同的词汇，这些词汇带有明显的感情倾向，对比使用本发明前后程序检索的时效。结果如图6所示，与未使用本发明的检索耗时相比，使用本发明的检索耗时显著减少。

综上，使用本发明中的技术方案，能够快速且准确地从海量非关系型数据库中查找到关联数据。

以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以按相反的次序来执行。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种构建用于关联数据检索的索引的方法，包括：

为各组二级索引中的每一组二级索引构建相应的一级索引。

2.如权利要求1所述的方法，其中所述数据库是分布式非关系型数据库，并且遍历所述数据库中的数据包括经由数据库接口来获取所述数据库中的数据。

3.如权利要求1所述的方法，其中对所述数据进行分组包括采用关联规则算法来对所述数据进行分类以将相关联的数据归类到一个关联数据分组中。

4.如权利要求1所述的方法，其中与每一个关联数据分组相对应的二级索引组存储该关联数据分组中的索引信息并包括针对来自所述一个或多个数据库的不同来源数据的二级索引，并且所述一级索引存储所述二级索引组的索引信息。

5.一种用于关联数据检索的方法，包括：

接收要检索的关键词；

为各组二级索引中的每一组二级索引构建相应的一级索引；以及

基于所述一级索引和各组二级索引来返回与所述关键词相关的关联数据。

6.如权利要求5所述的方法，进一步包括对所述关键词进行分词以确定关键分词，并且基于所述一级索引和各组二级索引来返回与所述关键词相关的关联数据进一步包括：

基于所确定的一级索引来查找对应的二级索引组；

基于所找到的二级索引组来确定对应的关联数据分组；以及

返回所确定的关联数据分组中的关联数据。

7.一种用于关联数据检索的系统，包括：

8.如权利要求7所述的系统，其中所述数据分类模块被进一步配置成采用关联规则算法来对所述数据进行分类以将相关联的数据归类到一个关联数据分组中。

9.如权利要求7所述的系统，其中所述数据检索模块被进一步配置成：

对所述关键词进行分词以确定关键分词；

基于所确定的一级索引来查找对应的二级索引组；

基于所找到的二级索引组来确定对应的关联数据分组；以及

返回所确定的关联数据分组中的关联数据。

10.一种存储计算机可执行指令的计算机可读介质，这些指令在被执行时用于执行如权利要求1-6中的任一项所述的方法。