CN117668003B

CN117668003B - 实现数据库中集合数据类型的数据处理方法及系统

Info

Publication number: CN117668003B
Application number: CN202410142432.XA
Authority: CN
Inventors: 林瑛; 陈航
Original assignee: Fujian Huada Digital Technology Co ltd
Current assignee: Fujian Huada Digital Technology Co ltd
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-05-03
Anticipated expiration: 2044-02-01
Also published as: CN117668003A

Abstract

本发明公开了一种数据库技术领域的实现数据库中集合数据类型的数据处理方法及系统，其中数据处理方法包括获取数据获取请求；语义识别所述数据获取请求，获得缓存区域；基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据。本发明通过使用预设索引，可以在缓存区域中快速定位到请求数据，避免了全表扫描等低效的数据处理方式，大大提高了数据处理效率。

Description

实现数据库中集合数据类型的数据处理方法及系统

技术领域

本发明涉及数据库技术领域，尤其涉及实现数据库中集合数据类型的数据处理方法及系统。

背景技术

数据库是计算机科学中的一个重要概念，它是一个系统化、有序的数据集合，通常以电子方式存储在计算机系统中。数据库的核心作用是允许用户和应用程序以高效、可靠的方式存储、检索和管理数据。它由数据库管理系统（DBMS）控制，提供了创建、维护和操作数据的工具。数据库可以分为关系型数据库和非关系型数据库两大类。关系型数据库如MySQL 基于表格和行的概念组织数据，适合处理结构化数据。而非关系型数据库如MongoDB 则提供了更灵活的数据模型，适合处理半结构化或非结构化数据。

随着数据库技术的不断发展，数据处理在各个领域的应用越来越广泛。集合数据类型作为数据库中的一种常见数据结构，广泛应用于各种业务场景。为了提高集合数据类型的数据处理效率，各种数据处理方法不断涌现。

然而，现有技术中仍存在一些问题，如数据获取请求的语义识别不准确、数据处理效率低下等。因此，有必要研发一种新的实现数据库中集合数据类型的数据处理方法，以解决这些问题。

发明内容

本发明的目的在于提供实现数据库中集合数据类型的数据处理方法及系统，用于提高集合数据类型的数据处理的效率和准确梯度。

本发明的目的采用以下技术方案实现：

一方面，本发明提供一种实现数据库中集合数据类型的数据处理方法，包括以下步骤：

获取数据获取请求；

语义识别所述数据获取请求，所述数据获取请求包括要查询的数据字段、数据来源和筛选条件；

根据所述数据字段、所述数据来源和所述筛选条件确定所述请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域，并根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域；

基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据。

进一步的，所述根据所述数据字段、所述数据来源和所述筛选条件确定所述请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域包括：

语义识别所述数据获取请求中要查询的数据字段、数据来源和筛选条件；

根据数据来源确定所述请求数据的来源标签，并基于标签索引，根据来源标签确定所述请求数据的第一物理存储区域；

根据数据字段确定所述请求数据的数据类型标签，并基于标签索引，根据数据类型标签确定所述请求数据的第二物理存储区域；

根据筛选条件确定所述请求数据的条件标签，并基于标签索引，根据条件标签确定所述请求数据的逻辑区域。

进一步的，所述根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域包括：

响应于所述第一物理存储区域和所述第二物理存储区域不同，重新获取数据获取请求或结束所述数据处理方法；

响应于所述第一物理存储区域和所述第二物理存储区域相同，且所述逻辑区域包含于第一物理存储区域或所述第二物理存储区域，调取所述逻辑区域并缓存于缓存区域；

响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集不为空集，调取所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集并缓存于缓存区域；

响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集为空集，调取所述第一物理存储区域或所述第二物理存储区域，并缓存于缓存区域。

进一步的，所述基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据包括：

基于预设索引，根据数据字段、数据来源和筛选条件，在所述缓存区域中分页查询，确定每页的预测请求数据；

分析各预测请求数据与所述数据获取请求的匹配值，确定最高匹配值对应的预测请求数据为所述请求数据。

进一步的，所述匹配值包括下式：

；

式中，为第i页的匹配值，/>为第i页预测请求数据的更新时间与当前时间的时间差，/>为预设时间差，/>为补偿参数，source为预测请求数据的数据来源的可信度，n为有效的筛选条件数量，N为总的筛选条件数量。

进一步的，所述基于预设索引，根据所述请求语句确定请求数据包括：

根据缓存区域的数据评估所述请求数据与所述数据获取请求的准确梯度；

用户根据准确梯度以及准确梯度的算法，调整数据获取请求的语句，直到准确梯度为3，退出数据处理方法的过程。

进一步的，所述准确梯度包括下式：

；

式中，f为准确梯度，A为缓存区域的数据， B为第一物理存储区域或第二物理存储区域的数据，C为逻辑区域的数据。

另一方面，本发明提供一种实现数据库中集合数据类型的数据处理系统，包括：

获取模块，用于获取数据获取请求；

语义识别模块，语义识别所述数据获取请求，所述数据获取请求包括要查询的数据字段、数据来源和筛选条件；

缓存模块，用于根据所述数据字段、所述数据来源和所述筛选条件确定所述请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域，并根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域；

数据处理模块，用于基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据。

进一步的，所述语义识别模块包括：第一物理存储区域单元、第二物理存储区域单元、逻辑区域单元；

第一物理存储区域单元，用于根据数据来源确定所述请求数据的来源标签，并基于标签索引，根据来源标签确定所述请求数据的第一物理存储区域；

第二物理存储区域单元，用于根据数据字段确定所述请求数据的数据类型标签，并基于标签索引，根据数据类型标签确定所述请求数据的第二物理存储区域；

逻辑区域单元，用于根据筛选条件确定所述请求数据的条件标签，并基于标签索引，根据条件标签确定所述请求数据的逻辑区域。

进一步的，所述缓存模块包括：

第一响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域不同，重新获取数据获取请求或结束所述数据处理方法；

第二响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域相同，且所述逻辑区域包含于第一物理存储区域或所述第二物理存储区域，调取所述逻辑区域并缓存于缓存区域；

第三响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集不为空集，调取所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集并缓存于缓存区域；

第四响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集为空集，调取所述第一物理存储区域或所述第二物理存储区域，并缓存于缓存区域。

与现有技术相比，本发明的有益效果至少包括：

本发明通过使用预设索引，可以在缓存区域中快速定位到请求数据，避免了全表扫描等低效的数据处理方式，大大提高了数据处理效率。

本发明通过语义识别数据获取请求，可以准确地确定请求数据的数据来源和数据类型，从而根据数据来源和数据类型进行有针对性的处理，提高了数据处理的准确性和效率。

本发明根据第一物理存储区域、第二物理存储区域以及逻辑区域确定请求数据的缓存区域，避免了数据的冗余存储和处理，提高了缓存区域的利用效率和数据处理速度。

附图说明

图1所示为本发明实现数据库中集合数据类型的数据处理方法的一种实施例示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明更全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

本发明中所描述的表达位置与方向的词，均是以附图为例进行的说明，但根据需要也可以做出改变，所做改变均包含在本发明保护范围内。

实施例一

本实施例提供一种实现数据库中集合数据类型的数据处理方法。

本实施例的数据处理方法包括以下步骤，参考图1：

S1获取数据获取请求。

S2语义识别所述数据获取请求，所述数据获取请求包括要查询的数据字段、数据来源和筛选条件。

应用时，本领域技术人员能够根据数据字段确定数据类型。

S3根据所述数据字段、所述数据来源和所述筛选条件确定所述请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域，并根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域。

S4基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据。

本实施例通过使用预设索引，可以在缓存区域中快速定位到请求数据，避免了全表扫描等低效的数据处理方式，大大提高了数据处理效率。

本实施例通过语义识别数据获取请求，可以准确地确定请求数据的数据来源和数据类型，从而根据数据来源和数据类型进行有针对性的处理，提高了数据处理的准确性和效率。

本实施例根据第一物理存储区域、第二物理存储区域以及逻辑区域确定请求数据的缓存区域，避免了数据的冗余存储和处理，提高了缓存区域的利用效率和数据处理速度。

实施例二

在实施例1的基础上，本实施例详细介绍了一种实现数据库中集合数据类型的数据处理方法。

本实施例的数据处理方法包括以下步骤：

S1获取数据获取请求。

具体的，步骤S3包括以下步骤：

S31根据数据来源确定所述请求数据的来源标签，并基于标签索引，根据来源标签确定所述请求数据的第一物理存储区域。

S32根据数据字段确定所述请求数据的数据类型标签，并基于标签索引，根据数据类型标签确定所述请求数据的第二物理存储区域。

S33根据筛选条件确定所述请求数据的条件标签，并基于标签索引，根据条件标签确定所述请求数据的逻辑区域。

本实施例通过语义识别数据获取请求中的数据字段、数据类型，避免了手动配置数据类型的繁琐过程，同时提高了数据处理的准确性和效率。

本实施例通过根据数据来源确定请求数据的来源标签，支持多个物理存储区域的数据处理，提高了数据处理的灵活性和可扩展性。

本实施例通过根据筛选条件确定请求数据的逻辑区域，能够结合物理分区和逻辑分区，进行数据处理，进一步提高了数据处理的准确性和效率。

本实施例结合语义识别、标签索引和预设索引等技术手段，优化了数据处理流程，提高了数据处理的速度和效率。

实际应用时，步骤S3还包括以下步骤：

响应于所述第一物理存储区域和所述第二物理存储区域不同，重新获取数据获取请求或结束所述数据处理方法。

响应于所述第一物理存储区域和所述第二物理存储区域相同，且所述逻辑区域包含于第一物理存储区域或所述第二物理存储区域，调取所述逻辑区域并缓存于缓存区域。

响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集不为空集，调取所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集并缓存于缓存区域。

本实施例根据第一物理存储区域和第二物理存储区域的不同情况，采取不同的处理策略，避免了无效的数据获取和重复处理，提高了数据获取的效率和准确性。

本实施例根据逻辑区域与第一物理存储区域或第二物理存储区域的交集情况，对缓存区域进行优化，避免了数据的冗余存储和处理，提高了缓存区域的利用效率和数据处理速度。

本实施例通过多种响应方式，灵活应对不同的情况，提高了数据处理方法的适应性和灵活性，可广泛应用于各种复杂的数据库系统中的集合数据处理场景。

实施例三

在实施例1或实施例2的基础上，本实施例详细介绍了一种实现数据库中集合数据类型的数据处理方法。

本实施例的数据处理方法包括以下步骤：

S1获取数据获取请求。

具体的，步骤S4包括以下步骤：

S41 基于预设索引，根据数据字段、数据来源和筛选条件，在所述缓存区域中分页查询，确定每页的预测请求数据。

应用时，缓存区域包括多页缓存数据。

S42分析各预测请求数据与所述数据获取请求的匹配值，确定最高匹配值对应的预测请求数据为所述请求数据。

所述匹配值包括下式：；

式中，为第i页的匹配值，/>为第i页预测请求数据的更新时间与当前时间的时间差，/>为预设时间差，/>为补偿参数，一般取值为1，source为预测请求数据的数据来源的可信度，一般取值为0~100%，n为有效的筛选条件数量，N为总的筛选条件数量。

应用时，数据来源的可信度能够根据专家评估获得，专家根据数据来源国家或地区的科研能力或大众认可度打分。

此外，预测请求数据的更新时间与当前时间的时间差的单位为日，预设时间差的单位也为日。

本实施例通过数据字段、数据来源和筛选条件，结合使用预设索引在缓存区域中快速进行分页查询，提高了查询的效率和准确性，避免了全表扫描等低效查询方式。

本实施例通过分析预测请求数据与数据获取请求的匹配值，可以准确确定最高匹配值的预测请求数据，提高了数据处理的准确性和效率。

本实施例计算匹配值时，通过引入时间差参数和/>，可以优化匹配值，提高数据处理对时间变化的适应性和准确性。

本实施例计算匹配值时，通过考虑数据来源的可信度source，可以更加全面地评估预测请求数据的可靠性和准确性，提高数据处理的质量。

本实施例计算匹配值时，通过有效筛选条件数量n与总筛选条件数量N的比值，可以识别出有效的筛选条件，进一步提高数据处理的准确性和效率。

实际应用时，步骤S4还包括以下步骤：

S43根据缓存区域的数据评估所述请求数据与所述数据获取请求的准确梯度。所述准确梯度包括下式：；

式中，f为准确梯度，A为缓存区域的数据，B为第一物理存储区域或第二物理存储区域的数据，C为逻辑区域的数据。

本实施例通过准确梯度评估，可以进一步优化数据处理结果，提高数据处理的准确性，为后续的数据分析和挖掘提供了更加可靠的数据基础。

本实施例通过结合匹配值计算、准确梯度评估等技术手段，可以灵活地处理各种数据获取请求，适应不同的数据处理场景和需求。

S44用户根据准确梯度以及准确梯度的算法，调整数据获取请求的语句，直到准确梯度为3，退出数据处理方法的过程。

本实施例允许用户根据准确梯度调整数据获取请求的语句，可以充分发挥用户的主动性，提高数据处理的灵活性和适应性。

本实施例通过准确梯度的算法，可以自动调整数据获取请求的语句，直到达到预设的准确梯度值，提高了数据处理的自动化程度和效率。综上所述，本实施例提供的数据处理方法具有匹配值精确计算、时间差优化、数据来源可信度考虑、筛选条件有效性识别、数据准确梯度评估和数据处理灵活性等特点，可广泛应用于各种数据库系统中的集合数据处理场景。

实施例四

本实施例介绍一种实现数据库中集合数据类型的数据处理系统。

本实施例实现数据库中集合数据类型的数据处理系统包括：

获取模块，用于获取数据获取请求；

本实施例的各模块功能的具体实现参考实施例1-3记载的实现数据库中集合数据类型的数据处理方法。

实施例五

在实施例4的基础上，本实施例介绍一种实现数据库中集合数据类型的数据处理系统。

本实施例的语义识别模块包括：第一物理存储区域单元、第二物理存储区域单元以及逻辑区域单元。

第一物理存储区域单元，用于根据数据来源确定所述请求数据的来源标签，并基于标签索引，根据来源标签确定所述请求数据的第一物理存储区域。

第二物理存储区域单元，用于根据数据字段确定所述请求数据的数据类型标签，并基于标签索引，根据数据类型标签确定所述请求数据的第二物理存储区域。

应用时，本实施例的缓存模块包括：第一响应单元、第二响应单元、第三响应单元以及第四响应单元。

第一响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域不同，重新获取数据获取请求或结束所述数据处理方法。

第二响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域相同，且所述逻辑区域包含于第一物理存储区域或所述第二物理存储区域，调取所述逻辑区域并缓存于缓存区域。

第三响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集不为空集，调取所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集并缓存于缓存区域。

实施例六

在实施例4或实施例5的基础上，本实施例详细介绍了一种实现数据库中集合数据类型的数据处理系统。

本实施例的数据处理模块包括：预测请求数据单元、请求数据单元、准确梯度单元、用户优化单元。

预测请求数据单元，用于基于预设索引，根据数据字段、数据来源和筛选条件，在所述缓存区域中分页查询，确定每页的预测请求数据。

应用时，缓存区域包括多页缓存数据。

请求数据单元，用于分析各预测请求数据与所述数据获取请求的匹配值，确定最高匹配值对应的预测请求数据为所述请求数据。

所述匹配值包括下式：

；

式中，为第i页的匹配值，/>为第i页预测请求数据的更新时间与当前时间的时间差,/>为预设时间差，/>为补偿参数，一般取值为1，source为预测请求数据的数据来源的可信度，一般取值为0~100%，n为有效的筛选条件数量，N为总的筛选条件数量。

准确梯度单元，用于根据缓存区域的数据评估所述请求数据与所述数据获取请求的准确梯度。

所述准确梯度包括下式：

；

用户优化单元，用于用户根据准确梯度以及准确梯度的算法，调整数据获取请求的语句，直到准确梯度为3，退出数据处理方法的过程。

本实施例通过准确梯度的算法，可以自动调整数据获取请求的语句，直到达到预设的准确梯度值，提高了数据处理的自动化程度和效率。

综上所述，本实施例提供的数据处理方法具有匹配值精确计算、时间差优化、数据来源可信度考虑、筛选条件有效性识别、数据准确梯度评估和数据处理灵活性等特点，可广泛应用于各种数据库系统中的集合数据处理场景。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种实现数据库中集合数据类型的数据处理方法，其特征在于，包括以下步骤：

获取数据获取请求；

根据所述数据字段、所述数据来源和所述筛选条件确定请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域，并根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域；

基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据；

所述根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域包括：

响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集为空集，调取所述第一物理存储区域或所述第二物理存储区域，并缓存于缓存区域；

所述基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据包括：

分析各预测请求数据与所述数据获取请求的匹配值，确定最高匹配值对应的预测请求数据为所述请求数据；

所述匹配值包括下式：；

2.根据权利要求1所述的实现数据库中集合数据类型的数据处理方法，其特征在于，所述根据所述数据字段、所述数据来源和所述筛选条件确定所述请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域包括：

3.根据权利要求1所述的实现数据库中集合数据类型的数据处理方法，其特征在于，所述基于预设索引，根据所述请求确定请求数据包括：

4.根据权利要求3所述的实现数据库中集合数据类型的数据处理方法，其特征在于，所述准确梯度包括下式：；

5.一种实现数据库中集合数据类型的数据处理系统，其特征在于，包括：

获取模块，用于获取数据获取请求；

缓存模块，根据所述数据字段、所述数据来源和所述筛选条件确定请求数据的第一物理存储区域、第二物理存储区域以及逻辑区域，并根据第一物理存储区域、第二物理存储区域以及逻辑区域确定所述请求数据的缓存区域；

数据处理模块，用于基于预设索引，根据所述缓存区域和所述数据获取请求确定请求数据；

所述缓存模块包括：

第四响应单元，用于响应于所述第一物理存储区域和所述第二物理存储区域相同，但所述逻辑区域不包含于第一物理存储区域或所述第二物理存储区域，且所述逻辑区域与所述第一物理存储区域或所述第二物理存储区域的交集为空集，调取所述第一物理存储区域或所述第二物理存储区域，并缓存于缓存区域；

所述匹配值包括下式：；

6.根据权利要求5所述的实现数据库中集合数据类型的数据处理系统，其特征在于，所述语义识别模块包括：第一物理存储区域单元、第二物理存储区域单元、逻辑区域单元；