CN112287005B

CN112287005B - 一种数据处理方法、装置、服务器及介质

Info

Publication number: CN112287005B
Application number: CN202011140429.2A
Authority: CN
Inventors: 由磊; 张俊杰; 李新鹏; 李贺; 毛勇岗
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2024-03-22
Anticipated expiration: 2040-10-22
Also published as: CN112287005A

Abstract

本发明实施例公开了一种数据处理方法、装置、服务器及介质。该方法包括：获取来源数据集模式的各字段名和目标数据集模式的各字段名；将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；将所述字段名组合中的所有字段名进行向量化处理，将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略。本发明实施例的技术方案，解决了建立来源数据集模式与目标数据集模式之间的映射策略需要耗费大量人工的问题，实现自动提供来源数据集模式与目标数据集模式之间的映射策略，有效降低人工工作量和人为出错概率效果。

Description

一种数据处理方法、装置、服务器及介质

技术领域

本发明实施例涉及数据治理和人工智能技术领域，尤其涉及一种数据处理方法、装置、服务器及介质。

背景技术

在数据治理平台中，从各种不同业务系统中抽取的原始数据具有不同的数据模式。在构建数据仓库、知识图谱和其他数据应用的过程中，需要对这些不同来源的数据集进行合并、拆分、提取、融合或转换等操作，从而将来源数据映射到所设计的目的数据模式。但是，映射到相同目的数据模式的多个来源系统的数据可能具有不同的数据模式，因此其映射策略也不同。每个来源数据集都需要数据工程师根据业务含义和数据模式的字段语义进行人工分析后才能确定正确的映射策略。

在领域大数据治理中，来源数据集可多达几千甚至几万，在不同的项目实施中，数据治理工具可以复用，但映射策略无法复用，全人工分析的方式费时费力，且容易出现人为错误。虽然目前很多数据治理产品可以提供可视化工具来提高人工映射策略制定过程的效率，但都无法提供自动的映射策略生成或映射策略的推荐，以降低人工数据分析的工作量。

发明内容

本发明实施例提供一种数据处理方法、装置、服务器及介质，以实现自动提供来源数据集模式与目标数据集模式之间的映射策略，有效降低人工工作量和人为出错概率。

第一方面，本发明实施例提供了一种数据处理方法，该方法包括：

获取来源数据集模式的各字段名和目标数据集模式的各字段名；

将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；

将所述字段名组合中的所有字段名进行向量化处理，将字段名组合的向量输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略。

第二方面，本发明实施例还提供了一种数据处理装置，该装置包括：

字段名获取模块，用于获取来源数据集模式的各字段名和目标数据集模式的各字段名；

字段名组合模块，用于将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；

映射策略获取模块，用于将所述字段名组合中的所有字段名进行向量化，将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略。

第三方面，本发明实施例还提供了一种服务器，其中，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的数据处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如本发明任意实施例所提供的数据处理方法。

本发明实施例通过获取来源数据集模式的各字段名和目标数据集模式的各字段名；将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；将所述字段名组合中的所有字段名进行向量化处理，将字段名进行向量化更有利于来源数据集模式的各字段名和目标数据集模式的各字段名之间建立映射关系。将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略，解决了建立来源数据集模式与目标数据集模式之间的映射策略需要耗费大量人工的问题，实现自动提供来源数据集模式与目标数据集模式之间的映射策略，有效降低人工工作量和人为出错概率效果。

附图说明

图1是本发明实施例一中的一种数据处理方法的流程图；

图2是本发明实施例一中的映射策略生成模型训练的输入样本和输出结果示意图；

图3是本发明实施例一中的目标数据集模式编码示意图；

图4是本发明实施例二中的一种数据处理方法的流程图；

图5是本发明实施例三中的一种数据处理装置的结构图；

图6是本发明实施例四中的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据处理的流程图，本实施例可适用于生成源数据集模式和目标数据集模式之间的映射策略的情况，该方法可以由数据处理装置来执行，具体包括如下步骤：

S110、获取来源数据集模式的各字段名和目标数据集模式的各字段名。

一般的，数据集模式包括：关系型数据库模式、非关系型数据库模式或基于知识图谱的图数据库模式。而数据集的模式由字段名组成。分别获取来源数据集模式的各字段名和目标数据集模式的各字段名，用于获取来源数据集模式转换到目标数据集模式的映射策略。

S120、将来源数据集模式的每个字段名与目标数据集模式的所有字段名进行组合得到字段名组合。

因在得到映射策略前，来源数据集模式中的每个字段名与目标数据集模式中的字段名的映射关系是未知的，故需将来源数据集模式中的每个字段名与目标数据集模式的所有字段名进行组合，以便确定来源数据集模式中的字段名与目标模式中的字段名的映射关系，示例性的，组合方式为：[(来源数据集模式字段名1，目标数据集模式所有字段名)，(来源数据集模式字段名2，目标数据集模式所有字段名)，……]。

S130、将字段名组合中的所有字段名进行向量化处理，将字段名的向量组合输入至训练好的映射策略生成模型得到来源数据集模式映射到目标数据集模式的映射策略。

为了方便获取来源数据集模式中的各字段名与目标数据集模式中的各字段名之间的映射关系，将各字段名组合中的所有字段名进行向量化。

可选的，将所述字段名组合中的所有字段名进行向量化，包括：将每个字段名进行分词得到分词结果；根据每个字段名的分词结果计算分词的词向量；将每个字段名的所有分词的词向量相加使字段名向量化。

将每个字段名进行分词，示例性的，将字段名“姓名”进行分词，分词为“姓”和“名”。每个分词采用128维的基于word2vec的中文词向量表示。把每个字段中所有分词的词向量相加，使每个字段转化为一个128维度的向量形式。向量化的语义模型输入样本格式为：[(来源数据集模式字段1词向量，目标数据集模式集所有字段词向量)，(来源数据集模式字段2词向量，目标数据集模式所有字段词向量)，……]。如图2所示，将字段名的向量组合输入至训练好的映射策略生成模型得到来源数据集模式映射到目标数据集模式的映射策略。

可选的，映射策略生成模型为长短记忆(long short-term memory，LSTM)神经网络模型，该模型很好地解决了自然语言句子向量化的难题，对利用计算机来处理自然语言来说具有非常重要的意义，使得计算机对语言的处理不再停留在简单的字面匹配层面，而是进一步深入到语义理解的层面。

可选的，映射策略生成模型的训练方法，包括：获取样本来源数据集模式的各字段名和样本目标数据集模式的各字段名；将所述样本来源数据集模式的每个字段名与所述样本目标数据集模式的所有字段名进行组合得到样本字段名组合；将所述样本字段名组合中的所有字段名进行向量化，得到样本字段名的向量组合；根据所述样本字段名的向量组合的映射关系得到预设映射策略；将所述样本字段名组合的向量、输入至待训练的映射策略生成模型得到输出结果；计算输出结果与所述预设映射策略之间的误差，将误差反向输入至所述待训练的映射策略生成模型中，调节所述待训练的映射策略生成模型中的网络参数，迭代执行上述训练方法，直到完成预设次数的训练或者待训练的映射策略生成模型的输出结果达到预设精度时，确定所述映射策略生成模型训练完成。

经过样本积累获取样本来源数据集模式的各字段名和样本目标数据集模式的各字段名。将样本来源数据集模式的每个字段名与所述样本目标数据集模式的所有字段名根据上述方法进行组合得到样本字段名组合。将样本字段名中的所有字段名进行向量化，得到样本字段名的向量组合。在训练映射策略生成模型之前，需预先设定样本来源数据集模式的各字段名的向量与目标数据集模式的各字段名向量之间的映射关系得到预设映射策略。

可选的，根据所述样本字段名的向量组合的映射关系得到预设映射策略，包括：将目标数据集模式的各字段名进行编码，得到映射标记；根据样本来源数据集模式的各字段名和样本目标数据集模式的各字段名的语义确定样本来源数据集模式的各字段名与样本目标数据集模式的各字段名之间的映射关系；根据所述映射关系和所述映射标记确定样本来源数据集模式转换到样本目标数据集模式的预设映射策略。示例性的，如图3所示，将目标数据集模式的各字段名用三位数字进行编码，编码从100开始，依次加1，第N个字段编码为100+N。将样本来源数据集模式的各字段名和样本目标数据集模式的各字段名通过预设的语义分析模型确定各字段名的语义，根据各字段名的语义确定样本来源数据集模式的各字段名与样本目标数据集模式的各字段名之间的映射关系，根据映射关系和样本目标数据集模式各字段名的编码，得到样本来源数据集模式转换到样本目标数据集模式的编码，即预设映射策略。没有任何映射关系的样本来源数据集字段所对应编码为000。

将样本字段名的向量组合输入至待训练的映射策略生成模型得到输出结果，计算输出结果与预设映射策略之间的误差，将误差反向输入至待训练的映射策略生成模型中，基于梯度下降方法调节待训练的映射策略生成模型中的网络参数，迭代执行上述训练方法，直到完成预设次数的训练或者待训练的映射策略生成模型的输出结果达到预设精度时，确定映射策略生成模型训练完成。

可选的，映射策略生成模型的训练方法，还包括：当获取到新的训练样本时，将所述新的训练样本随机插入到已有的训练样本中，所述待训练的映射策略生成模型增加训练预设次数。每个目标数据集模式训练一个独立的映射策略生成模型，当该目标数据集模式有新的样本被采集时，新生成的训练样本向量机插入到已有训练样本集合中，同时映射策略生成模型自动增加训练次数，使训练后的映射策略生成模型输出的结果达到预设精度。

本实施例的技术方案，通过获取来源数据集模式的各字段名和目标数据集模式的各字段名；将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；将所述字段名组合中的所有字段名进行向量化处理，将字段名进行向量化更有利于来源数据集模式的各字段名和目标数据集模式的各字段名之间建立映射关系。将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略，解决了建立来源数据集模式与目标数据集模式之间的映射策略需要耗费大量人工的问题，实现自动提供来源数据集模式与目标数据集模式之间的映射策略，有效降低人工工作量和人为出错概率效果。

实施例二

图4为本发明实施例二提供的一种数据处理的流程图，本实施例是在上一实施例的基础上的进一步优化，数据处理方法还包括：将所述映射策略进行显示，并接受所述映射策略的正确性判断结果；将确定正确的映射策略用于继续训练映射策略生成模型，使映射策略生成模型能够不断优化，使得到的映射策略更加准确。

如图4所示，具体包括如下步骤：

S210、获取来源数据集模式的各字段名和目标数据集模式的各字段名。

S220、将来源数据集模式的每个字段名与目标数据集模式的所有字段名进行组合得到字段名组合。

S230、将字段名组合中的所有字段名进行向量化处理，将字段名的向量组合输入至训练好的映射策略生成模型得到来源数据集模式映射到目标数据集模式的映射策略。

S240、将映射策略进行显示，并接受映射策略的正确性判断结果；将确定正确的映射策略用于继续训练映射策略生成模型。

将通过训练好的映射策略生成模型得到的来源数据集模式映射到目标数据集模式的映射策略进行显示，以确定映射策略的准确性，将确定准确的映射策略用于继续训练映射策略生成模型，使映射策略生成模型能够不断优化。将优化后的映射策略生成模型通过映射策略推荐生成器，替换正在使用的映射策略生成模型，使得到的映射策略能够更加准确。

本实施例的技术方案，通过获取来源数据集模式的各字段名和目标数据集模式的各字段名；将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；将所述字段名组合中的所有字段名进行向量化处理，将字段名进行向量化更有利于来源数据集模式的各字段名和目标数据集模式的各字段名之间建立映射关系。将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略，将映射策略进行显示，并接受映射策略的正确性判断结果；将确定正确的映射策略用于继续训练映射策略生成模型。解决了建立来源数据集模式与目标数据集模式之间的映射策略需要耗费大量人工的问题，实现自动提供来源数据集模式与目标数据集模式之间的映射策略，有效降低人工工作量和人为出错概率效果。

实施例三

图5为本发明实施例三提供的一种数据处理装置的结构图，该数据处理装置包括：字段名获取模块310、字段名组合模块320和映射策略获取模块330。

其中，字段名获取模块310，用于获取来源数据集模式的各字段名和目标数据集模式的各字段名；字段名组合模块320，用于将所述来源数据集模式的每个字段名与所述目标数据集模式的所有字段名进行组合得到字段名组合；映射策略获取模块330，用于将所述字段名组合中的所有字段名进行向量化，将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略。

在上述实施例的技术方案中，映射策略获取模块330，包括：

字段名分词单元，用于将每个字段名进行分词得到分词结果；

词向量计算单元，用于根据每个字段名的分词结果计算分词的词向量；

词向量相加单元，用于将每个字段名的所有分词的词向量相加使字段名向量化。

在上述实施例的技术方案中，数据处理装置，还包括：映射策略生成模型训练模块。

在上述实施例的技术方案中，映射策略生成模型训练模块，包括：

样本数据字段名获取单元，用于获取样本来源数据集模式的各字段名和样本目标数据集模式的各字段名；

样本数据字段名组合单元，用于将所述样本来源数据集模式的每个字段名与所述样本目标数据集模式的所有字段名进行组合得到样本字段名组合；

字段名组合向量化单元，用于将所述样本字段名组合中的所有字段名进行向量化，得到样本字段名的向量组合；

预设映射策略获取单元，用于根据所述样本字段名的向量组合的映射关系得到预设映射策略；

输出结果获取单元，用于将所述样本字段名组合的向量、输入至待训练的映射策略生成模型得到输出结果；

误差计算单元，用于计算输出结果与所述预设映射策略之间的误差，将误差反向输入至所述待训练的映射策略生成模型中，调节所述待训练的映射策略生成模型中的网络参数，迭代执行上述训练方法，直到完成预设次数的训练或者待训练的映射策略生成模型的输出结果达到预设精度时，确定所述映射策略生成模型训练完成。

在上述实施例的技术方案中，预设映射策略获取单元，包括：

字段名编码子单元，用于将目标数据集模式的各字段名进行编码，得到映射标记；

映射关系确定子单元，用于根据样本来源数据集模式的各字段名和样本目标数据集模式的各字段名的语义确定样本来源数据集模式的各字段名与样本目标数据集模式的各字段名之间的映射关系；

预设映射策略确定子单元，用于根据所述映射关系和所述映射标记确定样本来源数据集模式转换到样本目标数据集模式的预设映射策略。

在上述实施例的技术方案中，映射策略生成模型训练模块，还包括：

新的训练样本插入单元，用于当获取到新的训练样本时，将所述新的训练样本随机插入到已有的训练样本中，所述待训练的映射策略生成模型增加训练预设次数。

可选的，映射策略生成模型为长短记忆神经网络模型。

在上述实施例的技术方案中，数据处理装置，还包括：

映射策略显示模块，用于将所述映射策略进行显示，并接受所述映射策略的正确性判断结果；

映射策略生成模型继续训练模块，用于将确定正确的映射策略用于继续训练映射策略生成模型。

本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种服务器的结构示意图，如图6所示，该服务器包括处理器410、存储器420、输入装置430和输出装置440；服务器中处理器410的数量可以是一个或多个，图6中以一个处理器410为例；服务器中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/模块(例如，数据处理装置中的字段名获取模块310、字段名组合模块320和映射策略获取模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述的数据处理方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种数据处理方法，该方法包括：

将所述字段名组合中的所有字段名进行向量化处理，将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述数据处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，包括：

将所述字段名组合中的所有字段名进行向量化处理，将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略；

其中，映射策略生成模型的训练方法，包括：

获取样本来源数据集模式的各字段名和样本目标数据集模式的各字段名；

将所述样本来源数据集模式的每个字段名与所述样本目标数据集模式的所有字段名进行组合得到样本字段名组合；

将所述样本字段名组合中的所有字段名进行向量化，得到样本字段名的向量组合；

根据所述样本字段名的向量组合的映射关系得到预设映射策略；

将所述样本字段名组合的向量输入至待训练的映射策略生成模型得到输出结果；

计算输出结果与所述预设映射策略之间的误差，将误差反向输入至所述待训练的映射策略生成模型中，调节所述待训练的映射策略生成模型中的网络参数，迭代执行上述训练方法，直到完成预设次数的训练或者待训练的映射策略生成模型的输出结果达到预设精度时，确定所述映射策略生成模型训练完成。

2.根据权利要求1所述的方法，其特征在于，所述将所述字段名组合中的所有字段名进行向量化，包括：

将每个字段名进行分词得到分词结果；

根据每个字段名的分词结果计算分词的词向量；

将每个字段名的所有分词的词向量相加使字段名向量化。

3.根据权利要求1所述的方法，其特征在于，所述根据所述样本字段名的向量组合的映射关系得到预设映射策略，包括：

将目标数据集模式的各字段名进行编码，得到映射标记；

根据样本来源数据集模式的各字段名和样本目标数据集模式的各字段名的语义确定样本来源数据集模式的各字段名与样本目标数据集模式的各字段名之间的映射关系；

根据所述映射关系和所述映射标记确定样本来源数据集模式转换到样本目标数据集模式的预设映射策略。

4.根据权利要求1所述的方法，其特征在于，所述映射策略生成模型的训练方法，还包括：

当获取到新的训练样本时，将所述新的训练样本随机插入到已有的训练样本中，所述待训练的映射策略生成模型增加训练预设次数。

5.根据权利要求1所述的方法，其特征在于，所述映射策略生成模型为长短记忆神经网络模型。

6.根据权利要求1所述的方法，其特征在于，还包括：

将所述映射策略进行显示，并接受所述映射策略的正确性判断结果；

将确定正确的映射策略用于继续训练映射策略生成模型。

7.一种数据处理装置，其特征在于，包括：

映射策略获取模块，用于将所述字段名组合中的所有字段名进行向量化，将字段名的向量组合输入至训练好的映射策略生成模型得到所述来源数据集模式映射到所述目标数据集模式的映射策略；

所述数据处理装置，还包括：映射策略生成模型训练模块；

所述映射策略生成模型训练模块，包括：

输出结果获取单元，用于将所述样本字段名组合的向量输入至待训练的映射策略生成模型得到输出结果；

8.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的数据处理方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的数据处理方法。