CN117785861A

CN117785861A - 一种多源异构数据的处理方法及系统

Info

Publication number: CN117785861A
Application number: CN202311833843.5A
Authority: CN
Inventors: 唐思佳; 李贞昊; 雷思情; 桑楠; 雷航
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-29

Abstract

本发明属于数据处理技术领域，涉及一种多源异构数据的处理方法及系统；方法具体为：获取初始数据并进行预处理；选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；再通过BART模型与改进CNN模型的结合实现基于语义相似的重复数据筛选，该方法不仅能够筛选出字符相同的重复数据，还能够筛选出字符不同但语义相同的重复数据，使得在诸如大型企业的多源异构数据场景下，能够最大程度的消除重复数据，使数据便于统一管理。

Description

一种多源异构数据的处理方法及系统

技术领域

本发明属于数据处理技术领域，具体而言，涉及一种多源异构数据的处理方法及系统。

背景技术

随着信息化时代的发展，企业所产生的数据越来越多。但是，在获取数据时，由于不同来源的数据在格式、内容、质量上存在着巨大的差异，增加了其他用户获取数据的困难程度，也影响了数据的流动与共享。尤其是针对拥有多部门、多数据源的大企业，企业部门之间需要协作，需要进行数据共享，但各部门独立、异构的数据库严重阻碍了部门的协作，也不利于企业对于数据的有效管理。因此对多源异构数据的处理显得尤为重要。

现有的多源异构数据处理对重复记录检测主要是基于字符的相似度，但是在实际的语言表达中，往往相同的语义具有多种不同的表达方式，该情况下，传统的基于字符相似度的多源异构数据处理方式在数据重复记录检测中显得有些捉襟见肘。

发明内容

本发明的目的在于提供多源异构数据的处理方法及系统，以解决基于字符相似度的多源异构数据处理方式在数据重复记录检测中准确度不高的技术问题。

本发明的实施例通过以下技术方案实现：

第一方面，提供一种多源异构数据的处理方法，包括如下步骤：

获取初始数据并进行预处理；

选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；

将所述文本表示向量输入到基于BART的预训练模型中，并将所述预训练模型中解码器的最后一个token对应的最终隐藏状态作为第一输出数据；

再将所述第一输出数据输入到基于LeNet-5的改进CNN模型中得到第二输出数据；并将所述第二输出数据通过Sigmoid函数映射为0-1之间的概率值；所述概率值大于预设值时，则将其中一字段加入待清洗数据，否则保留检测的字段；

清理待清洗数据，并对清理后的数据按数据主题进行存储。

进一步的，所述获取初始数据包括公开数据获取以及私密数据获取；所述私密数据为需要通过基于HTTP协议进行身份验证与数据请求后获取的数据。

进一步的，所述预处理为，判断加载的数据中是否有空值，若没有，则进行后续处理步骤；否则，判断该空值是否为待分析处理字段，若是，则删除空值；否则对空值进行预设字符填充。

进一步的，所述选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量具体为：

对待检测字段进行文本清洗，去除包括特殊字符、标点符号及HTML标签的非文本内容信息；

并对清洗后的文本去除停用词，得到待处理文本数据；

通过Word2Vec算法获取所述文本数据的初始词嵌入向量，并加上位置嵌入向量得到文本表示向量。

进一步的，所述改进CNN模型具体为，将输入层的维度设置为与所述预训练模型中解码器的最后一个token对应的最终隐藏状态的维度相同，且输入通道数设置为2，并在C5卷积层后再加一全连接层。

进一步的，所述清理待清洗数据之前包括：

基于K-means算法的全局异常值检测，具体为：

设置簇数k并输入待检测数据；

通过K-means算法聚类后获取簇内中心坐标；

计算每个簇内数据到簇内中心坐标的欧式距离，并将与簇内中心坐标的欧式距离大于所有簇内数据到簇内中心坐标的欧式距离的平均值的数据点作为疑似异常点；

获取所有疑似异常点到簇内中心坐标的距离的平均值与待检测疑似异常点到簇内中心坐标的距离的差值，当所述差值大于簇内所有数据点到簇内中心坐标的距离的标准差的预设倍数时，则将所述待检测疑似异常点标记为异常数据点，并将所述异常数据点加入待清洗数据。

进一步的，所述清理待清洗数据之前还包括：

基于灰色关联度和K-means算法的关联性数据异常检测，具体为：

选择一待检测事项，并获取每个个体与待检测事项相关的多个关联信息；并对所述关联信息进行标准化处理；

使用灰色关联度算法获取标准化处理后的每个个体的关联信息之间的关联度；

再通过K-means算法将关联度进行分类并筛选出异常数据，并将异常数据加入待清洗数据。

第二方面，提供一种多源异构数据的处理系统，包括：

数据抽取单元，其用于获取初始数据，包括公开数据获取模块以及私密数据获取模块；

数据清洗单元，其用于筛选并清理重复数据与异常值数据，以及处理空值数据；

数据整合单元，其用于将不同数据源的清洗后的数据进行整合处理；

数据存储单元，其用于将整合处理后的数据存储到数据仓库主题对应的事实表和维度表中。

进一步的，所述私密数据获取模块用于通过基于HTTP协议进行身份验证与数据请求后获取的数据。

进一步的，所述数据清洗单元包括：

重复数据筛选模块，其通过BART模型与改进CNN模型的结合实现基于语义相似的重复数据筛选；具体为：选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；将所述文本表示向量输入到基于BART的预训练模型中，并将所述预训练模型中解码器的最后一个token对应的最终隐藏状态作为第一输出数据；再将所述第一输出数据输入到基于LeNet-5的改进CNN模型中得到第二输出数据；并将所述第二输出数据通过Sigmoid函数映射为0-1之间的概率值；所述概率值大于预设值时，则将其中一字段加入待清洗数据，否则保留检测的字段；

空值数据处理模块，其用于识别字段中的缺失值，并填充预设填充值；

异常值数据筛选模块，其用于对全局异常值的检测筛选以及对关联性数据异常值的检测筛选；其中，所述全局异常值的检测筛选具体为：设置簇数k并输入待检测数据；通过K-means算法聚类后获取簇内中心坐标；计算每个簇内数据到簇内中心坐标的欧式距离，并将与簇内中心坐标的欧式距离大于所有簇内数据到簇内中心坐标的欧式距离的平均值的数据点作为疑似异常点；获取所有疑似异常点到簇内中心坐标的距离的平均值与待检测疑似异常点到簇内中心坐标的距离的差值，当所述差值大于簇内所有数据点到簇内中心坐标的距离的标准差的预设倍数时，则将所述待检测疑似异常点标记为异常数据点，并将所述异常数据点加入待清洗数据；所述关联性数据异常值的检测筛选具体为：选择一待检测事项，并获取每个个体与待检测事项相关的多个关联信息；并对所述关联信息进行标准化处理；使用灰色关联度算法获取标准化处理后的每个个体的关联信息之间的关联度；再通过K-means算法将关联度进行分类并筛选出异常数据，并将异常数据加入待清洗数据；

以及，数据清理模块，其用于清理所述待清洗数据。

本发明实施例的技术方案至少具有如下优点和有益效果：

通过BART模型与改进CNN模型的结合实现基于语义相似的重复数据筛选，其不仅能够筛选出字符相同的重复数据，还能够筛选出字符不同但语义相同的重复数据，使得在诸如大型企业的多源异构数据场景下，能够最大程度的消除重复数据，使数据便于统一管理。

附图说明

图1为本发明的方法流程图；

图2为本发明的改进CNN结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

在实际的语言表达中，往往相同的语义具有多种不同的表达方式；而现有的多源异构数据处理对重复记录检测主要是基于字符的相似度，因此在字符不同，但语义相同或相近的情况下，现有的重复检测难以达到所需求的重复检测准确度。针对该问题，本发明提出了以下方案。

首先，提供一种多源异构数据的处理方法，在本发明的实施方式中，其介绍说明的应用场景为大型集团企业的人事数据信息，如不同的人事专员在录入信息时以不同的标准进行数据录入，又或者不同的子单位录入数据时存在数据结构差异等情况。如图1所示，具体的本发明包括如下步骤：

获取初始数据并进行预处理。

其中，所述获取初始数据包括公开数据获取以及私密数据获取；所述私密数据为需要通过基于HTTP协议进行身份验证与数据请求后获取的数据。

在实际实施中，首先判断数据是否为公开数据选择数据接入方式。

如果数据是公开数据，根据数据源的类型和特点，选择相应的的数据加载工具或技术即可。例如，对于结构化数据可以使用SQL或类似的查询语言，对于非结构化数据可以使用相应的数据解析工具。然后建立与数据源的连接，并提供所需的认证或授权信息；再执行数据加载操作。

如果数据是私密数据，则使用HTTP协议进行通信。

确定数据源和访问权限：确定私密数据源的位置和访问方式，例如确定API端点、数据提供方的身份验证机制。

构建HTTP请求：根据数据源的要求，构建正确的请求URL，包括API端点、查询参数等。并根据需要设置请求头，以及认证凭证、内容类型等。

例如，url＝"https://api.example.com/users"，请求头的格式如下所示：

headers＝{

"Authorization":"Beareryour_token",

"Content-Type":"application/json"

}

处理响应：接收HTTP响应，并根据返回的状态码进行错误处理和异常情况处理；进而再通过后续操作获取的私密数据。

预处理为，判断加载的数据中是否有空值，若没有，则进行后续处理步骤；否则，判断该空值是否为待分析处理字段，若是，则删除空值；否则对空值进行预设字符填充。其中预设字符可以是一些特殊字符，如#、$等。

选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；具体包括：

对待检测字段进行文本清洗，去除包括特殊字符、标点符号及HTML标签的非文本内容信息；并对清洗后的文本去除停用词，得到待处理文本数据；通过Word2Vec算法获取所述文本数据的初始词嵌入向量，并加上位置嵌入向量得到文本表示向量。

将所述文本表示向量输入到基于BART的预训练模型中，并将所述预训练模型中解码器的最后一个token对应的最终隐藏状态作为第一输出数据。

在具体的实施中，选择BART模型作为预训练模型。BART模型是一个标准的Transfomer模型，选择GeLU作为激活函数。BART预训练主要分为两个阶段：一、使用多样的noise对文本进行加噪来破坏有关序列结构的信息；二、学习seq2seq模型来重建原始文本。将残缺文本经过编码器的输出结合了自回归解码器重构原文本。BART模型decoder最后一个token对应的final hidden state作为label作为改进CNN模型的输入，进而在改进CNN模型中进行特征提取和分类。

再将所述第一输出数据输入到基于LeNet-5的改进CNN模型中得到第二输出数据；并将所述第二输出数据通过Sigmoid函数映射为0-1之间的概率值；所述概率值大于预设值时，则将其中一字段加入待清洗数据，否则保留检测的字段。其中，该预设值通常取0.5。

其中，改进CNN模型具体为，将输入层的维度设置为与所述预训练模型中解码器的最后一个token对应的最终隐藏状态的维度相同，且输入通道数设置为2，并在C5卷积层后再加一全连接层，进而可以更好的提取特征，增加网络的非线性拟合能力。

改进CNN模型的结构如图2所示；其中，卷积层用于捕捉文本中的局部模式和重要特征；池化层用于对卷积层的输出进行降维，进而提取最重要的特征；全连接层用于连接池化层的输出，并通过激活函数进行分类预测。

可以理解的是，重复数据检测问题本质上是一个二分类问题，即判断两条记录是否相似重复。为了处理这个问题，我们将模型的输出从十个类别改为一个类别，然后使用Sigmoid函数将输出值转化为一个介于0到1之间的概率值。当概率值接近1时，表示输入的两条记录很可能是相似重复的；反之，概率值接近0时，表示它们不太可能是相似重复的。通常情况下，我们会将概率值与一个预设值(通常是0.5)进行比较，以判断两条数据记录是否为相似重复。进一步的，可以采用适合二分类问题的二元交叉熵作为损失函数。

为了使数据整理更为规范和具有更高的使用价值，进一步的还可以对数据中的空值以及异常值进行筛选与清理。

如，选择清洗的字段后开始识别缺失值，并用null值填充。

又如，在员工年龄字段中，员工年龄在26岁至55岁之间为正常年龄，如果年龄为70岁，则说明该记录异常；针对该情况，我们选择基于K-means算法的全局异常值检测，具体为：

设置簇数k并输入待检测数据；其中，k通常设置为2，即分为异常和正常两类。

通过K-means算法聚类后获取簇内中心坐标；

获取所有疑似异常点到簇内中心坐标的距离的平均值与待检测疑似异常点到簇内中心坐标的距离的差值，当所述差值大于簇内所有数据点到簇内中心坐标的距离的标准差的预设倍数时，则将所述待检测疑似异常点标记为异常数据点，并将所述异常数据点加入待清洗数据。其中预设倍数通常设置为1.67倍。

以及，在异常升职和异常离职的场景中，我们选择基于灰色关联度和K-means算法的关联性数据异常检测，具体为：

选择一待检测事项，并获取每个个体与待检测事项相关的多个关联信息；并对所述关联信息进行标准化处理；其中，待检测事项可以理解为升职历史，与升职历史相关的关联信息包括工作年限、绩效评级、薪资增长等。

另需要说明的是，标准化处理的意义在于，由于在线监测数据属性差异不同，导致度量标准也不同，会对最后的结论造成一定的影响。因此根据式(1)无量纲化，采用极值化的方法，即每一个变量值除以该变量取值的最大值，标准化后使变量的最大取值为1得到新的无量纲化矩阵(y′₀，x′₁，…x′_i)。

其中，x₁，x₂…x_i表示子序列，构成i+1个序列的矩阵(y₀，x₁…x_i)，y₀表示母序列；序列由关联数据组成。

使用灰色关联度算法获取标准化处理后的每个个体的关联信息之间的关联度；灰色关联度数据可以帮助评估不同特征之间的关联性，以及它们对升职情况的影响。

其中，灰色关联度算法的具体开展过程如下：

求取灰色关联系数，如下式：

计算关联度，即求各个时刻关联系数的平均值，将其集中为一个值即关联度，如下式：

清理待清洗数据，并对清理后的数据按数据主题进行存储。

待清洗数据清理之后，还可以对剩余数据进行整合，即按照统一的数据结构对数据进行整合并存储。

其次，还提供一种多源异构数据的处理系统，包括：

数据抽取单元，其用于获取初始数据，包括公开数据获取模块以及私密数据获取模块；所述私密数据获取模块用于通过基于HTTP协议进行身份验证与数据请求后获取的数据。

数据清洗单元，其用于筛选并清理重复数据与异常值数据，以及处理空值数据；其具体包括：重复数据筛选模块，其通过BART模型与改进CNN模型的结合实现基于语义相似的重复数据筛选；具体为：选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量；将所述文本表示向量输入到基于BART的预训练模型中，并将所述预训练模型中解码器的最后一个token对应的最终隐藏状态作为第一输出数据；再将所述第一输出数据输入到基于LeNet-5的改进CNN模型中得到第二输出数据；并将所述第二输出数据通过Sigmoid函数映射为0-1之间的概率值；所述概率值大于预设值时，则将其中一字段加入待清洗数据，否则保留检测的字段；

以及，数据清理模块，其用于清理所述待清洗数据。

可见，本发明通过BART模型与改进CNN模型的结合实现基于语义相似的重复数据筛选，其不仅能够筛选出字符相同的重复数据，还能够筛选出字符不同但语义相同的重复数据，使得在诸如大型企业的多源异构数据场景下，能够最大程度的消除重复数据，使数据便于统一管理。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源异构数据的处理方法，其特征在于，包括如下步骤：

获取初始数据并进行预处理；

清理待清洗数据，并对清理后的数据按数据主题进行存储。

2.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述获取初始数据包括公开数据获取以及私密数据获取；所述私密数据为需要通过基于HTTP协议进行身份验证与数据请求后获取的数据。

3.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述预处理为，判断加载的数据中是否有空值，若没有，则进行后续处理步骤；否则，判断该空值是否为待分析处理字段，若是，则删除空值；否则对空值进行预设字符填充。

4.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述选取所有字段中的其中两个字段作为待检测字段，获取待检测字段的文本表示向量具体为：

并对清洗后的文本去除停用词，得到待处理文本数据；

5.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述改进CNN模型具体为，将输入层的维度设置为与所述预训练模型中解码器的最后一个token对应的最终隐藏状态的维度相同，且输入通道数设置为2，并在C5卷积层后再加一全连接层。

6.根据权利要求1所述的多源异构数据的处理方法，其特征在于，所述清理待清洗数据之前包括：

基于K-means算法的全局异常值检测，具体为：

设置簇数k并输入待检测数据；

通过K-means算法聚类后获取簇内中心坐标；

7.根据权利要求1或6所述的多源异构数据的处理方法，其特征在于，所述清理待清洗数据之前还包括：

8.一种多源异构数据的处理系统，其特征在于，包括：

9.根据权利要求8所述的多源异构数据的处理系统，其特征在于，所述私密数据获取模块用于通过基于HTTP协议进行身份验证与数据请求后获取的数据。

10.根据权利要求8所述的多源异构数据的处理系统，其特征在于，所述数据清洗单元包括：

异常值数据筛选模块，其用于对全局异常值的检测筛选以及对关联性数据异常值的检测筛选；其中，所述全局异常值的检测筛选具体为：设置簇数k并输入待检测数据；通过K-means算法聚类后获取簇内中心坐标；计算每个簇内数据到簇内中心坐标的欧式距离，并将与簇内中心坐标的欧式距离大于所有簇内数据到簇内中心坐标的欧式距离的平均值的数据点作为疑似异常点；获取所有疑似异常点到簇内中心坐标的距离的平均值与待检测疑似异常点到簇内中心坐标的距离的差值，当所述差值大于簇内所有数据点到簇内中心坐标的距离的标准差的预设倍数时，则将所述待检测疑似异常点标记为异常数据点，并将所述异常数据点加入待清洗数据；所述关联性数据异常值的检测筛选具体为：选择一待检测事项，并获取每个个体与待检测事项相关的多个关联信息；并对所述关联信息进行标准化处理；

使用灰色关联度算法获取标准化处理后的每个个体的关联信息之间的关联度；再通过K-means算法将关联度进行分类并筛选出异常数据，并将异常数据加入待清洗数据；

以及，数据清理模块，其用于清理所述待清洗数据。