CN114461708A

CN114461708A - 一种通用数据治理与展示的方法及系统

Info

Publication number: CN114461708A
Application number: CN202111594384.0A
Authority: CN
Inventors: 朱遵剑
Original assignee: Suzhou Chuanglibo Technology Co ltd
Current assignee: Suzhou Chuanglibo Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-10

Abstract

本申请公开了一种通用数据治理与展示的方法及系统，该方法包括：接收待处理数据，并获取所述待处理数据的来源方；获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；根据所述属性信息查找对所述待处理数据进行处理的处理规则；根据所述处理规则对所述待处理数据进行处理；将所述处理后的数据保存在数据库对应的字段中。通过本申请解决了现有技术中的对于来源不同的数据如何进行整合没有合适技术方案进行解决的问题，从而提高了数据整合的规范性，为整合后的数据进行进一步处理提供了有效的保障。

Description

一种通用数据治理与展示的方法及系统

技术领域

本申请涉及到数据处理领域，具体而言，涉及一种通用数据治理与展示的方法及系统。

背景技术

在现实很多场景中，需要对来源于不同渠道的数据进行处理，从而能够将数据整合之后进行利用。

对于来源不同的数据，其数据格式以及数据内容存在差异，对于如何将来源不同的数据进行有效的整合，在现有技术中并没有给出合适的技术方案。

发明内容

本申请实施例提供了一种通用数据治理与展示的方法及系统，以至少解决现有技术中的对于来源不同的数据如何进行整合没有合适技术方案进行解决的问题。

根据本申请的一个方面，提供了一种通用数据治理与展示的方法，包括：接收待处理数据，并获取所述待处理数据的来源方；获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则；根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容；将所述处理后的数据保存在数据库对应的字段中。

进一步地，将所述处理后的数据保存在数据库对应的字段中包括：根据所述处理规则中的第一规则将所述待处理数据分为多个部分，其中，所述第一规则用于指示每个部分的数据应该至少包括的内容；根据所述处理规则中的第二规则将所述多个部分中的每个部分拆分为多个字段，其中，所述第二规则为将数据拆分匹配到各个字段的规则；将所述多个部分中的每个部分均作为一条数据存储到数据库中，其中，保存在数据库中的每条数据均包括多个字段的内容。

进一步地，将所述处理后的数据保存在数据库对应的字段中包括：所述数据库中的多个字段包括用于指示数据来源的字段，对于保存在所述数据库中的每一条数据，均将所述来源方的多个标签保存在该条数据对应的用于指示数据来源的字段中。

进一步地，所述属性信息包括以下至少之一：用于指示所述来源方的数据特征的属性、用于指示所述来源方的类型的属性；其中，所述数据特征包括结构化数据和非结构化数据，所述类型包括：来自于数据库的数据和来自于网络抓取数据。

进一步地，还包括：接收到查询请求，其中，所述查询请求中携带有关键词；根据所述关键词在所述数据库中进行检索，将检索得到的结果进行显示。

根据本申请的另一个方面，还提供了一种通用数据治理与展示的系统，包括：接收模块，用于接收待处理数据，并获取所述待处理数据的来源方；获取模块，用于获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；查找模块，用于根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则；处理模块，用于根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容；保存模块，用于将所述处理后的数据保存在数据库对应的字段中。

进一步地，所述处理模块用于：根据所述处理规则中的第一规则将所述待处理数据分为多个部分，其中，所述第一规则用于指示每个部分的数据应该至少包括的内容；根据所述处理规则中的第二规则将所述多个部分中的每个部分拆分为多个字段，其中，所述第二规则为将数据拆分匹配到各个字段的规则；将所述多个部分中的每个部分均作为一条数据存储到数据库中，其中，保存在数据库中的每条数据均包括多个字段的内容。

进一步地，所述保存模块用于：所述数据库中的多个字段包括用于指示数据来源的字段，对于保存在所述数据库中的每一条数据，均将所述来源方的多个标签保存在该条数据对应的用于指示数据来源的字段中。

进一步地，还包括：显示模块，用于接收到查询请求，其中，所述查询请求中携带有关键词；根据所述关键词在所述数据库中进行检索，将检索得到的结果进行显示。

在本申请实施例中，采用了接收待处理数据，并获取所述待处理数据的来源方；获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则；根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容；将所述处理后的数据保存在数据库对应的字段中。通过本申请解决了现有技术中的对于来源不同的数据如何进行整合没有合适技术方案进行解决的问题，从而提高了数据整合的规范性，为整合后的数据进行进一步处理提供了有效的保障。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的通用数据治理与展示的方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种通用数据治理与展示的方法，图1是根据本申请实施例的通用数据治理与展示的方法的流程图，下面对图1中涉及到的步骤进行说明。

步骤S102，接收待处理数据，并获取所述待处理数据的来源方。

步骤S104，获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性。

例如，所述属性信息包括以下至少之一：用于指示所述来源方的数据特征的属性、用于指示所述来源方的类型的属性；其中，所述数据特征包括结构化数据和非结构化数据，所述类型包括：来自于数据库的数据和来自于网络抓取数据。

步骤S106，根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则。

例如，可以根据所述处理规则中的第一规则将所述待处理数据分为多个部分，其中，所述第一规则用于指示每个部分的数据应该至少包括的内容；根据所述处理规则中的第二规则将所述多个部分中的每个部分拆分为多个字段，其中，所述第二规则为将数据拆分匹配到各个字段的规则；将所述多个部分中的每个部分均作为一条数据存储到数据库中，其中，保存在数据库中的每条数据均包括多个字段的内容。

在进行数据处理的时候，可选地，可以将所述第一规则和所述第二规则配置成数据转换模板，此时，接收数据信息，所述数据信息中包含有所述数据来源方的标识信息和数据；根据所述标识信息从数据库中查找与所述标识信息相关联的数据转换模板，其中所述数据库中存储有所述标识信息与相应的数据转换模板的关联关系；根据所述数据转换模板，将所述输入数据转换为预设格式的统一数据。可选地，所述数据库还存储有所述标识信息与相应的数据校验模板的关联关系；根据所述标识信息从所述数据库中查找与所述标识信息相关联的数据校验模板；根据所述数据校验模板对所述输入数据进行校验，以及在校验到所述输入数据为无效数据时，显示提示信息，在校验到所述输入数据为有效数据时，根据所述数据转换模板，将所述输入数据转换为所述统一数据。所述预设格式为XML格式。

可选地，如果来源方是数据库中的结构化数据，则可以进行可以进行如下处理：获取数据来源方存储在所述存储器中的第一数据表和第二数据表，每个数据表包括多个数据行；使用所述第一数据表使用所述第一数据表的一部分建立集群模型，其中所述第一数据表的所述部分通过所述第一数据表的主动采样来选择，其中主动采样包括将所述第一数据表中的数据分类为未进一步分区的第一类别和进一步分区的第二类别；以及使用所述第二数据表来应用所述群集模型以产生应用输出数据且将其存储于所述存储器；其中所述构建包含通过分别检查数字和分类属性的群组且选择分割平面来确定活动分区的分割点，所述数字属性的所述检查包含识别低密度二进位，所述低密度二进位具有在第一侧上的高密度的第一二进位及在第二侧上的高密度的第二二进位，且所述分类属性的所述检查包含识别所述两个最大二进位。

可选地，构建集群模型包括：用于构建概述所述第一数据表中的数据的密度的树的装置。建立概述所述第一数据表中的数据的密度的树包括：从所述顶部向下层级地集群所述第一数据表中的数据以识别高密度的区域；以及将所识别的高密度区域映射到树的叶。其中，建立树以总结所述第一数据表中的数据的密度包括：通过构建子树来进一步细分每个生成的叶以便创建具有等密度叶的子树、最小化所述子树的总体方差或熵、或平衡具有等密度叶的所述子树的创建和所述子树的总体方差或熵的最小化。

步骤S108，根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容。

例如，可以整合多个数据库的数据内容，对于每个不同数据库的数据均配置相应的数据转换规则，这些数据转换规则可以是预先配置的。

步骤S110，将所述处理后的数据保存在数据库对应的字段中。

在该步骤中还可以进行如下内容的保存：所述数据库中的多个字段包括用于指示数据来源的字段，对于保存在所述数据库中的每一条数据，均将所述来源方的多个标签保存在该条数据对应的用于指示数据来源的字段中。

通过上述步骤解决了现有技术中的对于来源不同的数据如何进行整合没有合适技术方案进行解决的问题，从而提高了数据整合的规范性，为整合后的数据进行进一步处理提供了有效的保障。

上述数据可以用于多个方面，例如可以用于检索：接收到查询请求，其中，所述查询请求中携带有关键词；根据所述关键词在所述数据库中进行检索，将检索得到的结果进行显示。

作为一个可选的实施方式，从所述关键词中区分第一关键词和第二关键词，所述第一关键词为至少一个，所述第二关键词为至少一个，根据所述第一关键词在数据来源字段进行检索，得到数据来源字段符合所述第一关键词多条数据，根据所述第二关键词在所述多条数据张中除所述数据来源字段之外的其他字段进行检索得到符合所述第二关键词的检索结果，并将所述检索结果进行显示。

作为一个可选实施方式，上述步骤S102到步骤S110可以通过多个线程来进行，判断待处理的数据量是否超过阈值，如果所述待处理的数据量超过所述阈值的N倍，则启动N个线程来进行数据的处理。这里每个线程也可以称为是一个实例，该实例可以被称作数据汇总实例。

可选地，如果实例在处理数据的过程出现异常，则还可以进行如下处理：处理所述多个数据汇总实例中的一个或多个现有数据汇总实例(现有数据汇总实例为正在运行的实例)，所述现有数据汇总实例被识别为新数据汇总实例需要等待的实例；在被标识为所述新数据汇总实例需要等待的实例的所述一个或多个现有数据汇总实例中的每一个的完成或超时，获取存储所述多个数据汇总实例的范围信息的表上的排它锁；处理所述多个数据汇总实例中的与所述新数据汇总实例匹配或与所述新数据汇总实例具有重叠范围的一个或多个现有数据汇总实例；定义要由所述新数据汇总实例执行的剩余任务；释放所述排它锁；以及执行将由所述新数据汇总实例执行的其余任务。

其中，可选地，处理被标识为所述新数据汇总实例需要等待的数据汇总实例的现有数据汇总实例包括：为被标识为所述新数据汇总实例需要等待的数据汇总实例的每个数据汇总实例设置超时限制；周期性地轮询被标识为所述新数据汇总实例需要等待的数据汇总实例的每个数据汇总实例的状态；使被标识为所述新数据汇总实例需要等待且超过所述超时限制的数据汇总实例的任何数据汇总实例期满；以及重复轮询被标识为所述新数据汇总实例需要等待的数据汇总实例的每个数据汇总实例的状态，以及使被标识为所述新数据汇总实例需要等待的数据汇总实例的、已经超过所述超时限制的任何数据汇总实例到期，直到被标识为所述新数据汇总实例需要等待的数据汇总实例的所有数据汇总实例已经完成或到期为止。处理与所述新数据汇总实例匹配的现有数据汇总实例包括：确定与所述新数据汇总实例匹配的现有数据汇总实例是否正在运行；响应于确定所述匹配的现有数据汇总实例未在运行，回滚所述新数据汇总实例，释放所述排它锁，以及使用所述匹配的现有数据汇总实例的状态来拾取所述匹配的现有数据汇总实例；响应于确定所述匹配的现有数据汇总实例正在运行，确定所述匹配的现有数据汇总实例是否是批量数据汇总实例；以及响应于确定所述运行的匹配现有数据汇总实例不是批量数据汇总实例，回滚所述新数据汇总实例，释放所述排它锁，等待所述运行的匹配现有数据汇总实例完成或超时，所述超时致使发出错误消息并结束对所述新数据汇总实例的进一步处理，以及重新启动所述新数据汇总实例。响应于确定所述运行的匹配现有数据汇总实例是批量数据汇总实例，发出错误消息并结束对所述新数据汇总实例的进一步处理。

可选地，处理与所述新数据汇总实例具有重叠范围的现有数据汇总实例包括：确定与现有数据汇总实例具有重叠范围的所述新数据汇总实例是否为批量汇总实例；响应于确定与现有数据汇总实例具有重叠范围的所述新数据汇总实例是批量汇总实例，发出错误消息并结束对所述新数据汇总实例的进一步处理；响应于确定与现有汇总实例具有重叠范围的新数据汇总实例不是批量汇总实例，创建用于重新提交的现有数据汇总实例的列表，创建等待的现有数据汇总实例的列表，处理重新提交的任何现有数据汇总实例或等待新添加到列表中的任何现有数据汇总实例，处理任何增量或重新提取现有数据汇总实例，以及处理任何在线现有数据汇总实例。

在上述数据处理中，作为一个可选的实施方式，还可以将来源方获取的原始数据、所述来源方对应的标签作为输入数据，将处理后的保存在数据库中的结构化数据作为输出数据，将所述输入数据和对应的输出数据作为一组数据来进行保存，其中，所述输入数据保存在一个第一文件中，所述输出数据保存在另一个第二文件中，所述来源方对应的标签作为所述第一文件的属性信息进行保存。在保存的数据的组数超过预先配置的数值的情况下，将保存的多组数据发送机器学习服务器中，所述机器学习服务器用于根据接收到的多组数据训练一个机器学习模型。该机器学习模型在收敛后则用于数据的处理。

在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。

上述程序可以运行在处理器中，或者也可以存储在存储器中(或称为计算机可读介质)，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

该本实施例中就提供了这样的一种装置或系统。该系统被称为通用数据治理与展示的系统，包括：接收模块，用于接收待处理数据，并获取所述待处理数据的来源方；获取模块，用于获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；查找模块，用于根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则；处理模块，用于根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容；保存模块，用于将所述处理后的数据保存在数据库对应的字段中。

该系统或者装置用于实现上述的实施例中的方法的功能，该系统或者装置中的每个模块与方法中的每个步骤相对应，已经在方法中进行过说明的，在此不再赘述。

例如，所述处理模块用于：根据所述处理规则中的第一规则将所述待处理数据分为多个部分，其中，所述第一规则用于指示每个部分的数据应该至少包括的内容；根据所述处理规则中的第二规则将所述多个部分中的每个部分拆分为多个字段，其中，所述第二规则为将数据拆分匹配到各个字段的规则；将所述多个部分中的每个部分均作为一条数据存储到数据库中，其中，保存在数据库中的每条数据均包括多个字段的内容。可选地，所述保存模块用于：所述数据库中的多个字段包括用于指示数据来源的字段，对于保存在所述数据库中的每一条数据，均将所述来源方的多个标签保存在该条数据对应的用于指示数据来源的字段中。

又例如，还包括：显示模块，用于接收到查询请求，其中，所述查询请求中携带有关键词；根据所述关键词在所述数据库中进行检索，将检索得到的结果进行显示。

通过上述实施例解决了现有技术中的对于来源不同的数据如何进行整合没有合适技术方案进行解决的问题，从而提高了数据整合的规范性，为整合后的数据进行进一步处理提供了有效的保障。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种通用数据治理与展示的方法，其特征在于，包括：

接收待处理数据，并获取所述待处理数据的来源方；

获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；

根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则；

根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容；

将所述处理后的数据保存在数据库对应的字段中。

2.根据权利要求1所述的方法，其特征在于，将所述处理后的数据保存在数据库对应的字段中包括：

根据所述处理规则中的第一规则将所述待处理数据分为多个部分，其中，所述第一规则用于指示每个部分的数据应该至少包括的内容；

根据所述处理规则中的第二规则将所述多个部分中的每个部分拆分为多个字段，其中，所述第二规则为将数据拆分匹配到各个字段的规则；

将所述多个部分中的每个部分均作为一条数据存储到数据库中，其中，保存在数据库中的每条数据均包括多个字段的内容。

3.根据权利要求2所述的方法，其特征在于，将所述处理后的数据保存在数据库对应的字段中包括：

所述数据库中的多个字段包括用于指示数据来源的字段，对于保存在所述数据库中的每一条数据，均将所述来源方的多个标签保存在该条数据对应的用于指示数据来源的字段中。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述属性信息包括以下至少之一：用于指示所述来源方的数据特征的属性、用于指示所述来源方的类型的属性；其中，所述数据特征包括结构化数据和非结构化数据，所述类型包括：来自于数据库的数据和来自于网络抓取数据。

5.根据权利要求4所述的方法，其特征在于，还包括：

接收到查询请求，其中，所述查询请求中携带有关键词；

根据所述关键词在所述数据库中进行检索，将检索得到的结果进行显示。

6.一种通用数据治理与展示的系统，其特征在于，包括：

接收模块，用于接收待处理数据，并获取所述待处理数据的来源方；

获取模块，用于获取所述待处理数据的来源方的属性信息，其中，所述属性信息为多个标签，每个标签均用于指示所述来源方的属性；

查找模块，用于根据所述属性信息查找对所述待处理数据进行处理的处理规则，其中，所述处理规则为预先确定的，所述处理规则与来源方的属性相对应，所述处理规则为多个，每个标签均对应于至少一个处理规则；

处理模块，用于根据所述处理规则对所述待处理数据进行处理，其中，处理后的数据为结构化数据，所述结构化数据包括在多个数据库字段下保存的内容；

保存模块，用于将所述处理后的数据保存在数据库对应的字段中。

7.根据权利要求6所述的系统，其特征在于，所述处理模块用于：

8.根据权利要求7所述的系统，其特征在于，所述保存模块用于：

9.根据权利要求6至8中任一项所述的系统，其特征在于，所述属性信息包括以下至少之一：用于指示所述来源方的数据特征的属性、用于指示所述来源方的类型的属性；其中，所述数据特征包括结构化数据和非结构化数据，所述类型包括：来自于数据库的数据和来自于网络抓取数据。

10.根据权利要求9所述的系统，其特征在于，还包括：

显示模块，用于接收到查询请求，其中，所述查询请求中携带有关键词；根据所述关键词在所述数据库中进行检索，将检索得到的结果进行显示。