CN109284284A

CN109284284A - 数据处理方法及装置

Info

Publication number: CN109284284A
Application number: CN201811042738.9A
Authority: CN
Inventors: 吴亚兵
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd; New H3C Big Data Technologies Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2019-01-29

Abstract

本公开涉及一种数据处理方法及装置。所述方法包括：将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，其中，所述第二字段为所述第一字段的标准字段，在所述第二数据表中包括所述第一字段和所述第二字段之间的关联关系；根据所述第二数据表对第一数据表中第一字段的数据进行更新，生成第三数据表。本公开可以达到治理业务数据的目的，可以提升数据质量、业务系统数据的规范性，并且可以提升数据对业务系统分析的支持度。

Description

数据处理方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法及装置。

背景技术

随着计算机技术、网络技术的高速发展发展，信息化建设的需求逐步转化为业务系统全局范围内开展综合应用的需求，对数据的共享和数据的质量提出了更高要求，业务方希望有效解决各应用系统之间的主数据共享与交换，积累高质量的数据。

因此，如何保证业务方各应用系统之间的数据共享与交换，如何为数据分析提供高质量的数据成了当下急需解决的问题。

发明内容

有鉴于此，本公开提出了一种数据处理方法及装置，用于提升业务系统中的数据质量，达到数据治理的目的。

根据本公开的一方面，提出了一种数据处理方法，所述方法包括：

将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，其中，所述第二字段为所述第一字段的标准字段，在所述第二数据表中包括所述第一字段和所述第二字段之间的关联关系；

根据所述第二数据表对第一数据表中第一字段的数据进行更新，生成第三数据表。

在一种可能的实施方式中，所述将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，包括：

对所述第一字段中的数据进行去重，获取去重后的第一字段；

将所述去重后的第一字段的数据与所述第二字段的数据进行匹配，获取匹配数据及非匹配数据，其中，所述匹配数据为所述去重后的第一字段中与所述第二字段中的数据一致的数据，所述非匹配数据为所述去重后的第一字段中与所述第二字段中的数据不一致的数据；

将所述非匹配数据与所述标准数据表的第二字段的数据进行映射，生成映射结果，所述映射结果包括所述非匹配数据的第一字段与所述第二字段的关联关系；

根据所述匹配数据和所述映射结果生成第二数据表。

在一种可能的实施方式中，所述将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，还包括：

在“对所述第一字段中的数据进行去重”之前，根据所述第一字段中的数据的关键词对所述第一字段中的数据进行分组，以将所述第一字段中具有相同关键词的数据划分到一个分组。

在一种可能的实施方式中，对所述第一字段中的数据进行去重，获取去重后的第一字段，包括：

对每个分组中第一字段的数据进行去重，获取去重后的第一字段。

在一种可能的实施方式中，根据所述第二数据表对第一数据表中第一字段的数据进行更新，包括：

在所述第一数据表中的第一字段的数据与所述第二数据表中的第一字段的数据相同时，将所述第一数据表中该第一字段的数据更新为所述第二数据表中该第一字段对应的第二字段的数据。

根据本公开的另一方面，提供了一种数据处理装置，所述装置包括：

映射模块，用于将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，其中，所述第二字段为所述第一字段的标准字段，在所述第二数据表中包括所述第一字段和所述第二字段之间的关联关系；

更新模块，连接于所述映射模块，用于根据所述第二数据表对第一数据表中第一字段的数据进行更新，生成第三数据表。

在一种可能的实施方式中，所述映射模块包括：

去重子模块，用于对所述第一字段中的数据进行去重，获取去重后的第一字段；

匹配子模块，连接于所述去重子模块，用于将所述去重后的第一字段的数据与所述第二字段的数据进行匹配，获取匹配数据及非匹配数据，其中，所述匹配数据为所述去重后的第一字段中与所述第二字段中的数据一致的数据，所述非匹配数据为所述去重后的第一字段中与所述第二字段中的数据不一致的数据；

映射子模块，连接于所述匹配子模块，用于将所述非匹配数据与所述标准数据表的第二字段的数据进行映射，生成映射结果，所述映射结果包括所述非匹配数据的第一字段与所述第二字段的关联关系；

生成子模块，连接于所述匹配子模块及所述映射子模块，用于根据所述匹配数据和所述映射结果生成第二数据表。

在一种可能的实施方式中，所述映射模块还包括：

分组子模块，连接于所述去重子模块，用于在所述去重子模块“对所述第一字段中的数据进行去重”之前，根据所述第一字段中的数据的关键词对所述第一字段中的数据进行分组，以将所述第一字段中具有相同关键词的数据划分到一个分组。

在一种可能的实施方式中，所述去重子模块包括：

去重子单元，用于对每个分组中第一字段的数据进行去重，获取去重后的第一字段。

在一种可能的实施方式中，所述更新模块，包括：

更新子模块，用于在所述第一数据表中的第一字段的数据与所述第二数据表中的第一字段的数据相同时，将所述第一数据表中该第一字段的数据更新为所述第二数据表中该第一字段对应的第二字段的数据。

根据本公开的另一方面，提供了一种数据处理系统，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述数据处理方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述数据处理方法。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出了根据本公开一实施方式中数据处理方法的流程图。

图2示出了根据本公开一实施方式的数据处理方法的示意图。

图3示出了根据本公开一实施方式的数据处理装置的框图。

图4示出了根据本公开一实施方式的数据处理装置的框图。

图5示出了根据本公开一实施方式的数据处理系统的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的装置、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

国内高校校园信息化基础建设已经历了数十年，部分高校已经建成了以“人、财、物”为管理核心的各业务系统，各业务系统在使用的过程中，因数据输入不规范、数据填写不全且产生太多重复数据等，导致很多未经审核“不权威”的数据进入主数据库共享给其他系统，导致数据的“交叉感染”，从而产生大量质量低的数据，无法为后续数据分析提供有效数据支撑。

本公开可以运用于高校数据治理中，以解决上提到的数据不规范、数据质量低的问题，实现高校数据的标准化工作，提升数据质量，达到治理高校数据的目的。

请参阅图1，图1示出了根据本公开一实施方式中数据处理方法的流程图。

本公开所述的数据处理方法，可以运用于服务器、终端中，以对待处理的数据进行处理，使得待处理的数据标准化、规范化，从而提高数据质量。

如图1所示，所述方法包括：

步骤S110，将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，其中，所述第二字段为所述第一字段的标准字段，在所述第二数据表中包括所述第一字段和所述第二字段之间的关联关系。

在一种可能的实施方式中，所述第一数据表可为教育机构数据库中的数据表，教育机构例如可以是高等院校(高校)、高中、初中等，在这种情况下，第一数据表可以从特定的服务器中获取，例如可以在高校的数据存储服务器中获取。

第一数据表通常为不规范、不标准的数据表，例如，当高校招生或者学生报到时，通常会填写学生基本信息表。一些学生在填写信息时，通常填写的信息不规范、不标准，比如，张三籍贯为内蒙古自治区，在填写自己的来源省份时，张三可能会填写内蒙古，然而，内蒙古属于口语化、非标准的说法，在教育行业标准中，内蒙古的标准写法应该为“内蒙古自治区”。当高校收集到学生填写的信息后，会将这些信息保存于高校服务器的数据库中，以供后续使用。

在一种可能的实施方式中，所述标准数据表可为教育行业标准数据库中的数据表，标准数据表中包括一些用语的标准说法，例如省份、市、区等标准的说法。标准数据表可以是与第一数据表对应的数据表，例如，当第一数据表为高校学生基本信息表时，标准数据表可为与高校学生基本信息表对应的标准数据表；当第一数据表为高中学生基本信息表时，标准数据表可为与高中学生基本信息表对应的标准数据表。标准信息表可以通过教育局或者其他教育行业官方机构获取。标准数据表中可以包括多个字段，例如可以包括省份字段、市字段等。

在一种可能的实施方式中，第一字段例如可为学生的来源省份，第二字段可为标准数据表中的省份。

在一种可能的实施方式中，第二数据表可作为标准执行表，通过对第一数据表的第一字段与标准数据表的第二字段进行映射，可以建立第一字段与第二字段的关联关系，在第二数据表中，以第一字段为来源省份字段、第二字段为省份为例，第一字段例如包括“四川、四川、河南省、北京、北京、北京市”六个数据，则第二数据表中，四川与标准数据表中的四川省具有关联关系，河南省与标准数据表中的河南省具有关联关系，北京及北京市与标准数据表中的北京市具有关联关系。

在一种可能的实施方式中，可以先对所述第一字段中的数据进行去重，获取去重后的第一字段。例如上述例子中，对“四川、四川、河南省、北京、北京、北京市”六个数据进行去重，可以得到“四川、河南省、北京、北京市”四个数据。通过去重，可以将数据量大的数据转化为数据量小的数据，从而节省计算资源、存储资源，提高数据处理的速度。

在本实施方式中，可以将所述去重后的第一字段的数据与所述第二字段的数据进行匹配，获取匹配数据及非匹配数据，其中，所述匹配数据为所述去重后的第一字段的数据中与所述第二字段中的数据一致的数据，所述非匹配数据为所述去重后的第一字段中与所述第二字段中的数据不一致的数据。在上述例子中，可将去重后的数据“四川、河南省、北京、北京市”与标准数据表中的第二字段进行匹配，从而得到河南省与标准数据表中的河南省具有一致性关系，北京市与标准数据表中的北京市具有一致性关系，而“四川”、“北京”与标准数据表的第二字段“四川省”、“北京市”不具有一致性关系，所以第一字段中的河南省、北京市作为匹配数据，而第一字段中四川、北京为非匹配数据。

在本实施方式中，可以将所述非匹配数据与所述标准数据表的第二字段进行映射，生成映射结果，所述映射结果包括所述非匹配数据的第一字段与所述第二字段的关联关系。在上述例子中，“四川”、“北京”与标准数据表的第二字段“四川省”、“北京市”不一致，因此将“四川”、“北京”作为非匹配数据，对非匹配数据与所述标准数据表的第二字段进行映射，从而得到四川与标准数据表中的四川省具有关联关系、北京与标准数据表中的北京市具有关联关系的映射结果。

在本实施方式中，可以根据所述匹配数据和所述映射结果生成第二数据表。通过将匹配数据和映射结果合并可以生成第二数据表，在第二数据表中，四川与标准数据表中的四川省具有关联关系，河南省与标准数据表中的河南省具有关联关系，北京及北京市与标准数据表中的北京市具有关联关系。

在一种可能的实施方式中，可以在“对所述第一字段中的数据进行去重”之前，根据所述第一字段中的数据的关键词对所述第一字段中的数据进行分组，以将所述第一字段中具有相同关键词的数据划分到一个分组。在上述例子中，可以对“四川、四川、河南省、北京、北京、北京市”六个数据进行分组，从而得到“四川，四川”、“河南省”、“北京，北京”及“北京市”四个分组。

在本实施方式中，可以对每个分组中的第一字段的数据进行去重，获取去重后的第一字段。例如，可以对“四川，四川”、“河南省”、“北京，北京”及“北京市”四个分组中的数据进行去重，从而得到“四川”、“河南省”、“北京”及“北京市”四个数据，将“四川”、“河南省”、“北京”及“北京市”作为去重后的第一字段。

通过对第一字段中的数据进行分组，可以实现数据的分类处理，优化处理过程，提高了数据处理的速度，在对数据进行分组后，通过分组的数据进行去重，可以提高数据去重的速度，从而节约运算资源、提高数据处理的效率。

步骤S120，根据所述第二数据表对第一数据表中第一字段的数据进行更新，生成第三数据表。

在一种可能的实施方式中，根据所述第二数据表对第一数据表中第一字段的数据进行更新，可以包括：

在本实施方式中，可以根据第二数据表中第一字段与第二字段之间的关联关系对第一数据表中的第一字段的数据进行更新，利用第二数据表中的第二字段更新第一数据表中的第一字段，以生成第三数据表，此时，在第三数据表中包括第一数据表中的第一字段对应的标准字段，也即第二字段。

应该说明的是，第一数据表除第一字段外还可以包括多个字段，例如，当第一字段为来源省份时，第一数据表还可以包括姓名字段、性别字段、出生年月字段等等，对于同一个学生来说，各个字段有对应的关系。

如前所述，第一数据表中包括很多的非标准数据，例如“四川”、“北京”等，通过将所述第一数据表与所述第二数据表进行关联可以实现第一数据表的标准化。

举例而言，在第一数据表中除了包括来源省份(第一字段)外，还包括姓名(第三字段)，对第一数据表举例如下：

张三，北京；

李四，北京市；

王五，内蒙古。

根据标准数据表对第一字段进行标准化，得到第二数据表：

北京，北京市；

北京市，北京市；

内蒙古，内蒙古自治区。

根据所述第一数据表与所述第二数据表，利用第二数据表中的第二字段更新第一数据表中的第一字段生成第三数据表，第三数据表举例如下：

张三，北京市；

李四，北京市；

王五，内蒙古自治区。

从上面的举例中可以看出，第一数据表中的非标准数据通过本公开的数据处理方法，实现了数据的标准化、规范化。

在一种可能的实施方式中，可以通过自定义SQL语句，利用第一数据表及第二数据表的关联关系，获得第三数据表，从而生成高质量的业务系统数据。

请一并参阅图2，图2示出了根据本公开一实施方式的数据处理方法的示意图。

如图2所示，数据处理方法可以分为分组、去重、映射、关联步骤。

在分组、去重步骤中，可以从第一数据表获取第一字段lysf，第一字段lysf可以包括“河南、河南省、内蒙古、北京、北京市、河南、河北、河北省、河南省、北京市、北京、河南…”等多个数据，服务器或终端在获取第一字段lysf后，可以对第一字段lysf进行分组去重，以得到分组、去重后的第一字段lysf“北京市、河北省、内蒙古、河南、北京、河北、河南省”等多个数据。

在映射步骤中，服务器或终端可以对分组、去重后的第一字段lysf与标准数据表的第二字段lysf进行映射关联，生成第二数据表，所述第二数据表包括第一字段lysf与第二字段standard的关联关系，例如第一字段lysf中的数据“河南省、河北省、北京市、河南、内蒙古、北京、河北”分别与第二字段standard“河南省、河北省、北京市、河南省、内蒙古自治区、北京市、河北省”一一对应。

在关联步骤中，服务器、终端可以将第一数据表与第二数据表进行关联，利用第二数据表中的第二字段更新第一数据表中的第一字段生成第三数据表。在本实施方式中，第一数据表还可以包括第三字段name(姓名字段)，第三字段name与第一字段lysf一一对应。在第三数据表中，可以包括第三字段name与标准化后的第一字段lysf(也即第二字段)，例如，第三数据表的数据可以包括“李明，李贺，李华、王杰…”的第三字段name，及与第三字段name一一对应的标准化的第一字段lysf“河南省，河南省，内蒙古自治区，北京市…”，可见，第一数据表中的“李明，河南”、“李贺，河南省”，“李华，内蒙古”，“王杰，北京”等数据通过数据处理后转化为第三数据表中的“李明，河南省”、“李贺，河南省”，“李华，内蒙古自治区”，“王杰，北京市”等数据，从而实现了数据的标准化。

应该说明的是，上述的例子中，以待处理的数据为高校的待处理数据为例进行了说明，应该明白的是，本公开不限于此，本公开的数据处理方法也可以实现其他类型数据的标准化，提高其他类型数据的数据质量。

本公开的数据处理方法，通过将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，根据第二数据表更新第一数据表中的第一字段的数据，从而生成第三数据表，快捷地实现了业务系统数据(待处理的数据，也即第一数据表)和行业标准的代码表(标准数据表)数据建立映射关系生成标准执行表(第二数据表)，将业务系统数据和标准执行表进行关联，生成高质量的业务系统数据(第三数据表)，从而达到治理业务数据的目的，提升了数据质量、业务系统数据的规范性，并且提升了数据对业务系统分析的支持度。

请参阅图3，图3示出了根据本公开一实施方式的数据处理装置的框图。

如图3所示，所述数据处理装置，包括映射模块20及更新模块30。

映射模块20，用于将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，其中，所述第二字段为所述第一字段的标准字段，在所述第二数据表中包括所述第一字段和所述第二字段之间的关联关系。

更新模块30，连接于所述映射模块20，用于根据所述第二数据表对第一数据表中第一字段的数据进行更新，生成第三数据表。

本公开的数据处理装置，通过将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，根据第二数据表更新第一数据表中的第一字段的数据，从而生成第三数据表，快捷地实现了业务系统数据(待处理的数据，也即第一数据表)和行业标准的代码表(标准数据表)数据建立映射关系生成标准执行表(第二数据表)，将业务系统数据和标准执行表进行关联，生成高质量的业务系统数据(第三数据表)，从而达到治理业务数据的目的，提升了数据质量、业务系统数据的规范性，并且提升了数据对业务系统分析的支持度。

请参阅图4，图4示出了根据本公开一实施方式的数据处理装置的框图。

如图4所示，所述数据处理装置，包括映射模块20及更新模块30。

在一种可能的实施方式中，所述映射模块20包括去重子模块200、匹配子模块210、映射子模块220、生成子模块230、分组子模块240。

在本实施方式中，去重子模块200用于对所述第一字段中的数据进行去重，获取去重后的第一字段。

在本实施方式中，匹配子模块210连接于所述去重子模块200，用于将所述去重后的第一字段的数据与所述第二字段的数据进行匹配，获取匹配数据及非匹配数据，其中，所述匹配数据为所述去重后的第一字段中与所述第二字段中的数据一致的数据，所述非匹配数据为所述去重后的第一字段中与所述第二字段中的数据不一致的数据。

在本实施方式中，映射子模块220连接于所述匹配子模块210，用于将所述非匹配数据与所述标准数据表的第二字段的数据进行映射，生成映射结果，所述映射结果包括所述非匹配数据的第一字段与所述第二字段的关联关系。

在本实施方式中，生成子模块230连接于所述匹配子模块210及所述映射子模块220，用于根据所述匹配数据和所述映射结果生成第二数据表。

在本实施方式中，分组子模块240连接于所述去重子模块200，用于在所述去重子模块200“对所述第一字段中的数据进行去重”之前，根据所述第一字段中的数据的关键词对所述第一字段中的数据进行分组，以将所述第一字段中具有相同关键词的数据划分到一个分组。

在一种可能的实施方式中，所述去重子模块200包括去重子单元201。

在本实施方式中，去重子单元201用于对每个分组中第一字段的数据进行去重，获取去重后的第一字段。

在一种可能的实施方式中，更新模块30可以包括更新子模块310。

在本实施方式中，更新子模块310用于在所述第一数据表中的第一字段的数据与所述第二数据表中的第一字段的数据相同时，将所述第一数据表中该第一字段的数据更新为所述第二数据表中该第一字段对应的第二字段的数据。

请参阅图5，图5示出了根据本公开一实施方式的数据处理系统900的框图。

参照图5，该系统900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与数据处理逻辑对应的机器可执行指令以执行上文所述的数据处理方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储系统，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，包括：

根据所述匹配数据和所述映射结果生成第二数据表。

3.根据权利要求2所述的方法，其特征在于，所述将第一数据表的第一字段与标准数据表的第二字段进行映射生成第二数据表，还包括：

4.根据权利要求3所述的方法，其特征在于，

对所述第一字段中的数据进行去重，获取去重后的第一字段，包括：

5.根据权利要求1任一项所述的方法，其特征在于，所述根据所述第二数据表对第一数据表中第一字段的数据进行更新，包括：

6.一种数据处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述映射模块包括：

8.根据权利要求7所述的装置，其特征在于，所述映射模块还包括：

9.根据权利要求8所述的装置，其特征在于，所述去重子模块包括：

10.根据权利要求6任一项所述的装置，其特征在于，所述更新模块，包括：

11.一种数据处理系统，其特征在于，所述系统包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行如权利要求1-5任一项所述的数据处理方法。

12.一种非易失性计算机可读存储介质，其特征在于，在所述存储介质上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现如权利要求1-5任一项所述的数据处理方法。