CN110851431B

CN110851431B - 用于数据中台的数据处理方法及装置

Info

Publication number: CN110851431B
Application number: CN201911042185.1A
Authority: CN
Inventors: 毛恒
Original assignee: Unihub China Information Technology Co Ltd
Current assignee: Unihub China Information Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-12-20
Anticipated expiration: 2039-10-30
Also published as: CN110851431A

Abstract

本发明公开了一种用于数据中台的数据处理方法及装置，该方法包括：获取资产数据的标识信息以及与标识信息对应的属性信息；将标识信息写入目录库中，将属性信息写入属性库中；根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息。本发明可以保证同一份数据在该数据中台的数据存储结构中只需储存一份，避免出现冗余存储，从而造成存储资源的浪费。

Description

用于数据中台的数据处理方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种用于数据中台的数据处理方法及装置。

背景技术

数据中台是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径。数据中台把数据统一之后会形成标准数据，再进行存储，形成大数据资产层，进而为客户提供高效服务。

现有的数据中台的数据存储结构主要分为三层：源信息库、统计库和资产库。其中，源信息库用于针对不同数据源分别构建，或者统一构建但隔离存储。统计库用于对数据进行关联重构，并进行分层统计。资产库用于针对不同应用专题或数据进行服务调用。在此种结构下，数据在不同的层次会有多份冗余存储，浪费存储资源。以用户出国留学为例，可能统计库和资产库中都会存储有该用户的姓名、性别、身份证号等身份信息，这就会造成冗余存储。

发明内容

本发明实施例提供一种用于数据中台的数据处理方法，用以保证同一份数据在该数据中台的数据存储结构中只需储存一份，避免出现冗余存储，从而造成存储资源的浪费，该方法包括：

获取资产数据的标识信息以及与标识信息对应的属性信息；

将标识信息写入目录库中，将属性信息写入属性库中；

根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息。

可选的，获取资产数据的标识信息以及与标识信息对应的属性信息，包括：

采集待处理数据，所述待处理数据包括：资产数据和非资产数据；

对待处理数据进行清洗处理，获取资产数据的标识信息以及与标识信息对应的属性信息。

可选的，所述方法还包括：

根据预设统计场景信息，获取与预设统计场景对应的标识信息，并根据与预设统计场景对应的标识信息自属性库中提取与预设统计场景对应的属性信息；

对与预设统计场景对应的标识信息和属性信息进行汇总处理；

对汇总结果进行清洗处理，获取统计标识信息和统计属性信息；

将统计标识信息写入目录库中，将统计属性信息写入属性库中。

可选的，目录库中设置有与资产数据对应的资产标签，属性库中设置有与属性信息对应的属性标签；

根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息，包括：

将待查询业务信息分别与目录库中的多个资产标签和属性库中的多个属性标签进行匹配，获取与待查询业务信息对应的资产标签和属性标签；

根据资产标签自目录库中提取标识信息，并根据所述标识信息，自属性库中提取与属性标签对应的属性信息。

本发明实施例还提供一种用于数据中台的数据处理装置，用以保证同一份数据在该数据中台的数据存储结构中只需储存一份，避免出现冗余存储，从而造成存储资源的浪费，该装置包括：

信息获取模块，用于获取资产数据的标识信息以及与标识信息对应的属性信息；

信息写入模块，用于将标识信息写入目录库中，将属性信息写入属性库中；

信息查询模块，用于根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息。

可选的，信息获取模块进一步用于：

可选的，所述装置还包括：

统计模块，用于根据预设统计场景信息，获取与预设统计场景对应的标识信息，并根据与预设统计场景对应的标识信息自属性库中提取与预设统计场景对应的属性信息；

汇总模块，用于对与预设统计场景对应的标识信息和属性信息进行汇总处理；

清洗模块，用于对汇总结果进行清洗处理，获取统计标识信息和统计属性信息；

写入模块，用于将统计标识信息写入目录库中，将统计属性信息写入属性库中。

信息查询模块进一步用于：

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明实施例中，通过获取资产数据的标识信息以及与标识信息对应的属性信息，并将标识信息写入目录库中，将属性信息写入属性库中，当需要进行业务查询时，只需根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息即可。综上，本发明通过使用目录库和属性库的二级数据存储结构，保证了同一份数据在该数据中台的数据存储结构中只需储存一份，避免出现冗余存储，从而造成存储资源的浪费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中用于数据中台的数据处理方法的流程图；

图2为本发明实施例中用于数据中台的数据处理方法的又一流程图；

图3为本发明实施例中用于数据中台的数据处理装置的结构示意图；

图4为本发明实施例中用于数据中台的数据处理装置的又一结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

下面对本发明提到的部分名词进行解释说明：

资产数据指的是：明确了价值、使用场景、生命周期、特征标签的数据。数据中台持久化存储的都是资产，非资产相关数据在清洗过程中直接丢弃。

资产标识信息指的是：唯一标记出一项资产的ID，可以是数字、字符串等。例如，针对政务数据有自然人身份证号、地区编号、行政机关编号等。

资产标签指的是：用于标记资产特征，且与数据服务和应用强相关的一系列标签。例如，针对政务数据有高收入人群、少数民族、事故多发路段等。

资产属性指的是：资产相关的一系列特征项的集合。例如，针对自然人，有性别、籍贯、户口、最高学历、最近3次交税记录等。

属性标签指的是：用于标记每份资产每个属性的特征、权限、相关业务、保密程度等与数据服务和应用强相关的一系列标签。例如，针对政务数据有南京市级政务相关、医疗管理相关、社保业务相关、可对公众开放等。

附图1为本发明实施例提供的一种用于数据中台的数据处理方法的流程图，如附图1所示，该方法包括：

步骤101、获取资产数据的标识信息以及与标识信息对应的属性信息。

在本实施例中，获取资产数据的标识信息以及与标识信息对应的属性信息，包括：

采集待处理数据，所述待处理数据包括：资产数据和非资产数据。

对待处理数据进行清洗处理，获取资产数据的标识信息以及与标识信息对应的属性信息。在此过程中，根据预设规则对待处理数据进行清洗处理，将待处理数据中的非资产数据清除，只保留资产数据，并且获取资产数据的标识信息和其对应的属性信息。

具体实施时，采集待处理数据，将待处理数据的格式清洗为{ID_1:{Key11:Value11，Key12:Value12}}的格式；将标识信息(即ID信息)写入目录库中，并进行索引；以ID为Key值，将各属性的键值对写入属性库中；根据计划要开放的数据服务场景，调用分析程序，对目录库中数据打标签，形成资产标签。在此数据采集过程中，如果涉及了新的属性列，则需根据计划要开放的数据服务场景，对新的属性列进行标签分配。

步骤102、将标识信息写入目录库中，将属性信息写入属性库中。

在本实施例中，目录库可以使用可快速筛选与查询的数据库，例如关系型数据库、ES(Elasticsearch，是一个高扩展、开源的全文检索和分析引擎，它可以准实时地快速存储、搜索、分析海量的数据)、TiDB数据库等。

属性库可以使用列式结构的数据库，例如，Hbase数据库等。

步骤103、根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息。

在本实施例中，目录库中设置有与资产数据对应的资产标签，属性库中设置有与属性信息对应的属性标签；

具体实施时，自属性库中提取与属性标签对应的属性信息后，将查询结果拼装成查询服务需要的格式，北向输出。

由附图1可知，本发明实施例提供的用于数据中台的数据处理方法，通过获取资产数据的标识信息以及与标识信息对应的属性信息，并将标识信息写入目录库中，将属性信息写入属性库中，当需要进行业务查询时，只需根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息即可。综上，本发明通过使用目录库和属性库的二级数据存储结构，保证了同一份数据在该数据中台的数据存储结构中只需储存一份，避免出现冗余存储，从而造成存储资源的浪费。

在本发明实施例中，如附图2所示，该方法还包括：

步骤201、根据预设统计场景信息，获取与预设统计场景对应的标识信息，并根据与预设统计场景对应的标识信息自属性库中提取与预设统计场景对应的属性信息。

在本实施例中，作为一种示例，以2018年7月份北京的气温作为统计场景，由于数据采集后获取的资产数据较多，可能包括北京2018年各个月份每一天的气温，此时，为了提高工作效率，本发明实施例获取与预设统计场景对应的标识信息指的就是北京2018年7月份，而自属性库中提取与预设统计场景对应的属性信息则指的是自属性库中提取北京2018年7月份的最高气温数据或平均气温数据，进而进行后续的汇总处理。

步骤202、对与预设统计场景对应的标识信息和属性信息进行汇总处理。

步骤203、对汇总结果进行清洗处理，获取统计标识信息和统计属性信息。

在本实施例中，对汇总结果进行清洗处理的目的与上述一致，可以将汇总结果清洗为上述{ID_1:{Key11:Value11，Key12:Value12}}。

步骤204、将统计标识信息写入目录库中，将统计属性信息写入属性库中。

对于上述资产信息、属性信息以及标签，以一个政务系统的数据中台为例：

资产信息可以包括自然人信息、企业信息、各级政府部门信息等。

属性信息针对自然人有户口所在地、出生日期、教育经历、缴税记录、社保缴纳记录、贷款记录、医疗记录等，针对企业有员工规模、注册资金、法人信息等，针对政府部门有行政级别、辖区范围、财政预算等。

标签针对各属性会有XX业务相关、XX级别可调阅、XX分析专题相关等。

在清洗流程中，因为这个中台的数据源可能分别来自行政系统、医疗系统、财政系统等不同的数据库，清洗时，根据资产库、属性库两层存储结构进行持久化存储，同时根据业务、权限、应用、血缘关系等不同的视角分别给资产信息和属性信息打标签。

在查询流程中，请求接口提供本次查询所涉及的数据资产范围、数据筛选条件，和诸如请求者本身的权限、场景等限制条件，数据中台通过将用户请求中隐含的标签范围与中台内的资产标签、属性标签进行匹配，只在匹配的资产库中进行数据查询。

基于同一发明构思，本发明实施例中还提供了一种用于数据中台的数据处理装置，如下面的实施例所述。由于用于数据中台的数据处理装置解决问题的原理与用于数据中台的数据处理方法相似，因此，用于数据中台的数据处理装置的实施可以参见用于数据中台的数据处理方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

附图3为本发明实施例提供的一种用于数据中台的数据处理装置的结构示意图，如附图3所示，该装置包括：

信息获取模块301，用于获取资产数据的标识信息以及与标识信息对应的属性信息。

信息写入模块302，用于将标识信息写入目录库中，将属性信息写入属性库中。

信息查询模块303，用于根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息。

在本发明实施例中，信息获取模块301进一步用于：

在本发明实施例中，如附图4所示，该装置还包括：

统计模块401，用于根据预设统计场景信息，获取与预设统计场景对应的标识信息，并根据与预设统计场景对应的标识信息自属性库中提取与预设统计场景对应的属性信息；

汇总模块402，用于对与预设统计场景对应的标识信息和属性信息进行汇总处理；

清洗模块403，用于对汇总结果进行清洗处理，获取统计标识信息和统计属性信息；

写入模块404，用于将统计标识信息写入目录库中，将统计属性信息写入属性库中。

在本发明实施例中，目录库中设置有与资产数据对应的资产标签，属性库中设置有与属性信息对应的属性标签；

信息查询模块303进一步用于：

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

综上，本发明通过获取资产数据的标识信息以及与标识信息对应的属性信息，并将标识信息写入目录库中，将属性信息写入属性库中，当需要进行业务查询时，只需根据待查询业务信息，自目录库中提取与待查询业务信息对应的标识信息，并根据与待查询业务信息对应的标识信息自属性库中提取与待查询业务信息对应的属性信息即可。综上，本发明通过使用目录库和属性库的二级数据存储结构，保证了同一份数据在该数据中台的数据存储结构中只需储存一份，避免出现冗余存储，从而造成存储资源的浪费。

此外，本发明可以在进行业务查询时，根据标签实时分析涉及哪些属性，并组装数据，工作效率较高。并且通过对采集到的数据进行清洗处理，可以只保留数据中的资产数据，而将非资产数据清楚，为后续工作的顺利进行奠定了基础。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于数据中台的数据处理方法，其特征在于，包括：

根据预设规则对待处理数据进行清洗处理，将待处理数据中的非资产数据清除，只保留资产数据；

获取资产数据的标识信息以及与标识信息对应的属性信息，将资产数据的格式清洗为{ID_1:{Key11:Value11，Key12:Value12}}的格式；

将标识信息写入目录库中，并进行索引；以ID为Key值，将属性信息的键值对写入属性库中，属性库使用列式结构的数据库；根据数据服务场景，调用分析程序，对目录库中数据打标签，形成资产标签；目录库中设置有与资产数据对应的资产标签，属性库中设置有与属性信息对应的属性标签；在数据采集过程中，如果涉及新的属性列，根据计划要开放的数据服务场景，对新的属性列进行标签分配；

根据资产标签自目录库中提取标识信息，并根据所述标识信息，自属性库中提取与属性标签对应的属性信息；

将查询结果拼装成查询服务需要的格式，北向输出。

2.如权利要求1所述的方法，其特征在于，还包括：

3.一种用于数据中台的数据处理装置，其特征在于，包括：

信息获取模块，用于采集待处理数据，所述待处理数据包括：资产数据和非资产数据；

信息写入模块，用于将标识信息写入目录库中，并进行索引；以ID为Key值，将属性信息写入属性库中，属性库使用列式结构的数据库；根据数据服务场景，调用分析程序，对目录库中数据打标签，形成资产标签；目录库中设置有与资产数据对应的资产标签，属性库中设置有与属性信息对应的属性标签；在数据采集过程中，如果涉及新的属性列，根据计划要开放的数据服务场景，对新的属性列进行标签分配；

信息查询模块，用于将待查询业务信息分别与目录库中的多个资产标签和属性库中的多个属性标签进行匹配，获取与待查询业务信息对应的资产标签和属性标签；

将查询结果拼装成查询服务需要的格式，北向输出。

4.如权利要求3所述的装置，其特征在于，还包括：

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1或2所述方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1或2所述方法的计算机程序。