CN109408578A

CN109408578A - 一种针对异构环境监测数据融合方法

Info

Publication number: CN109408578A
Application number: CN201811273508.3A
Authority: CN
Inventors: 雷育涛; 赵坤荣; 贾燕; 黄凌辉; 吴双; 王松岭; 戴碧兰; 张凡; 张一凡; 陈永铿
Original assignee: South China Institute of Environmental Science of Ministry of Ecology and Environment
Current assignee: South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-03-01
Anticipated expiration: 2038-10-30
Also published as: CN109408578B

Abstract

本发明提供了一种针对异构环境监测数据融合方法，该方法包括：抽取环境监测感知层多个数据源的原始记录；将所有原始记录整合为联合记录，所述联合记录包括多个数据源中所有字段值之间的映射关系；计算所述联合记录之间的相似度，根据所述相似度确定出重复的联合记录。本发明提出了一种针对异构环境监测数据融合方法，通过分析各个数据源之间字段值的匹配关系，发现并去除冗余监测数据，提高了异构记录之间相似度计算的准确性，为环境监测的后续数据挖掘过程提供了更高质量的数据融合结果。

Description

一种针对异构环境监测数据融合方法

技术领域

本发明涉及大数据，特别涉及一种针对异构环境监测数据融合方法。

背景技术

随着大数据时代的到来，环境监测部门对感知层数据的采集越来越重要，并产生了大量的数据，分别存储于不同的数据源中。而相对独立、缺乏组织的数据难以发挥充分的价值，因此需要通过异构数据融合将多个数据源进行有效的集成。

现有的常规的融合方法对异构数据源进行融合之前，需要完成对结构化数据库结构的读取，为后期构建检索语句提供基础。而当用户提出新的需求时，则需要人工对平台进行维护和改进，而这些方法往往具有准确度低、缺乏组织等特点。此外感知层数据采集结果与关系数据库的结构不同，大多是以非结构化形态存储，如XML文档。由于环境监测数据源彼此独立，如何消除来自于不同异构数据源之间特别是非关系型数据库的重复数据仍是需要解决的问题。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种针对异构环境监测数据融合方法，包括：

抽取环境监测感知层多个数据源的原始记录；

将所有原始记录整合为联合记录，所述联合记录包括多个数据源中所有字段值之间的映射关系；

计算所述联合记录之间的相似度；

根据所述相似度确定出重复的联合记录。

优选地，所述多个数据源中至少有一个数据源为核心数据源，且所述多个数据源中至少有一个数据源为第三方数据源，对于其中所有字段均来自于核心数据源的联合记录，不参与联合记录之间的相似度计算的步骤。

所述核心数据源的可信度高于预定阈值，所述第三方数据源的可信度低于预定阈值；

优选地，所述计算联合记录之间的相似度，进一步包括：计算联合记录的每两个字段间的相似度值，进而将各个字段的相似度融合为整个联合记录的相似度。

优选地，采用转换代价计算联合记录的每两个字段间的相似度值，所述转换代价描述如下：

对于任意两个字符串x和y，如果对x进行一系列操作进而得到y，则操作次数最少的操作序列表示为字符串x和y的转换代价t(x,y)。如果将x和y分别表示为x₁,…x_n和y₁,…y_m，则递归执行以下过程得到转换代价t(x,y)：

初始化t(0,0)＝0；

令i∈[1,n]；j∈[1,m]

t(0,j)＝j；t(i,0)＝i；

其中x_i和y_j表示字符串x和y的第i个和第j个字符，u(i,j)为t(i-1,j-1),t(i,j-1),t(i-1,j)三者的最小值；

如果字符串x和y的转换代价t(x,y)小于预定义误差距离阈值δ，则确定两个字符串是匹配的。

优选地，所述原始记录为XML文档格式，并且所述抽取环境监测感知层多个数据源的原始记录，进一步包括：

通过XML Schema进行解析和查询形成数据表格式，然后统一表示为联合记录。

通过Schema信息获取XML数据的元数据模式信息。

优选地，在所述根据所述相似度确定出重复的联合记录之后，还包括：

删除冗余的联合记录。

优选地，所述异构环境监测数据包括服务器集群的动力环境监控数据。

本发明相比现有技术，具有以下优点：

本发明提出了一种针对异构环境监测数据融合方法，通过分析各个数据源之间字段值的匹配关系，发现并去除冗余监测数据，提高了异构记录之间相似度计算的准确性，为环境监测的后续数据挖掘过程提供了更高质量的数据融合结果。通过将不同类型数据源的环境监测数据整合为联合记录，使得进行冗余数据的删除处理的记录数大幅缩小，提高了数据融合效率。本发明采用转换代价计算每两个字段间的相似度值，进而获得联合记录之间的相似度值，使得联合记录之间的相似度值更为可靠和准确。本发明提出的方法进一步根据数据源的可信度进行分级数据融合，企业自身核心数据源具有更高的可信度，对于完全来自核心数据源的联合数据不再进行联合记录之间相似度的计算过程，进一步提高了数据融合的效率。

附图说明

图1是根据本发明实施例的针对异构环境监测数据融合方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种针对异构环境监测数据融合方法。图1是根据本发明实施例的针对异构环境监测数据融合方法流程图。

本发明首先抽取的来自不同环境监测数据源的原始记录，将所抽取的异构原始记录统一表示为联合记录，所述联合记录包括多个数据源中所有字段值之间的映射关系，计算各个联合记录之间的相似度，从而根据所述相似度确定重复的联合记录。

例如，将第i个联合记录表示为L_i，联合记录是从监测数据源的原始记录中抽取出的结果，由多个字段属性组成，例如L_i包括P个字段，第j个字段的属性值为p_j，因此可将L_i表示为L_i＝{p₁，p₂，…，p_j，…，p_P}。举例而言，对于服务器集群的动力环境监控，可将来自不同动力环境监控数据源的异构数据进行融合。第一数据源的原始数据集包括但不限于基于XML文档的标签：数据编号、设备ID、地区、温度、湿度、烟雾指数、电气功率；第二数据源的原始数据集包括但不限于XML文档的以下标签：数据编号、机器名、设备类型、地区、温度、气压，电气功率。抽取数据集的原始XML文档通过XMLSchema进行解析和查询形成数据表格式，然后统一表示为联合记录，例如为：数据编号_1、设备ID、温度、湿度、烟雾指数、电气功率，数据编号_2、机器名、设备类型、地区、气压。

在一个优选的实施例中，对于XML文档，通过Schema信息获取XML数据的元数据模式信息，所述元数据模式信息包括数据表的查询引擎、字段默认值、主键和外键、数据类型和索引信息。

多个数据源的至少包括两种类型的数据源，其中至少有一个数据源为企业核心数据源，且其中至少有一个数据源为第三方数据源，而第三方数据源的可信度低于预定阈值。在一个优选的实施例中，对于其中所有字段均来自于核心数据源的联合记录，不参与联合记录之间的相似度计算的步骤。由于企业核心数据源的可信度高于预定阈值，因此企业内部数据源所生成的联合记录冗余度较低，通过跳过相似度计算的步骤可以集中计算第三方数据源相关的联合记录，并去除数据冗余，进一步提高数据融合效率。

在一个优选的实施例中，所述将所抽取的异构监测数据统一表示为联合记录，进一步包括：

1.1、训练领域相关分词模型，通过上下文确定字段的语义含义，对文本进行分词；

1.2、针对训练好的领域相关分词模型建立语料库，建立模型训练领域文本向量；

1.3、删除噪声字段值，去除字段中无意义字符，并通过对文本向量的加权平均确定每个词所属的领域数据集和对应字段。

对于所述删除噪声字段，优选地，首先利用来自同一监测数据源的N个样本L_i，比较每两个样本的j个字段属性p₁至p_j，求解两个样本的相同文本片段x_a(a∈[1,j])，然后从每个样本对应的各个字段中删除该相同文本片段x_a，如果在删除后每个样本的字段值都为空，则删除该字段。举例而言，在服务器动力环境监控的数据表中抽取样本数据，如果样本中每个设备类型字段的值都为“路由器”，则表示所有监控数据的设备类型都相同，则将“设备类型”字段删除，以避免该字段在后续的相似度加权计算中对结果造成误差影响。

在将所抽取的异构监测信息统一表示为联合记录之后，本发明获取联合记录中字段值之间的映射关系，并确定各个字段属性的标识度。传统的数据去重方法并未考虑各个字段唯一性的影响，即每个字段在去重时所占的比重都是相同的，这会降低记录相似度判断的精确性。因为不同的字段在判断相似度时的重要性是不同的。根据优选的实施例，计算字段标识度的方法为：

其中∑n_searchlist为总的检索记录数量，∑n_searchlist ^field_j为关于字段field_j检索记录数量，w_{field_j}为字段_{field_j}在全局中的属性标识度。

通过计算字段标识度，将唯一性或标识性强的字段赋予高标识度，增加该字段属性在去重时的重要程度，降低易重复的字段值对应的字段的重要程度，使得联合记录相似度的计算精确度更高。

传统计算两个记录相似度的方式是将各个字段项逐一比较，但该方法效率过低并且查准率不高。为减少比较次数，本发明根据领域特性，采用转换代价来计算联合记录的每两个字段间的相似度值，进而将各个字段的相似度融合为整个联合记录的相似度，并给出与算子相对应的属性匹配方法。

对于任意两个字符串x和y，可以对x进行一系列操作进而得到y，该系列操作成为转换序列，其中操作最少的转换序列表示为字符串x和y的转换代价t(x,y)。如果将x和y分别表示为x₁,…x_n和y₁,…y_m，则递归执行以下算子得到转换代价t(x,y)：

初始化t(0,0)＝0；

令i∈[1,n]；j∈[1,m]

t(0,j)＝j；t(i,0)＝i；

其中x_i和y_j表示字符串x和y的第i个和第j个字符，u(i,j)为t(i-1,j-1),t(i,j-1),t(i-1,j)三者的最小值。

最终，如果字符串x和y的转换代价t(x,y)小于预定义误差距离阈值δ，则确定两个字符串是匹配的。

与现有技术的字符串分析方法只针对拼写错误等特定环境不同，本发明上述实施例的转换代价能更好地适用于逆序词，对于无结构的环境监测数据依然能够保证应用计算的字符串匹配的准确度和低复杂度。

通过本发明的转换代价，获得了字段值之间的匹配准确度之后，为确定两个记录之间的相似度数值提供了依据。通过集成各个字段值的相似度，采用以下公式确定两个联合记录的初始相似度。

SIM(L_i,L_j)＝∑w_{field_k}×t(p_k(L_i),p_k(L_j))

其中，SIM(L_i,L_j)是两个联合记录的相似度值，t(p_k(L_i),p_k(L_j))是通过上述转换代价得到的联合记录L_i,L_j中第k个字段值的相似度，w_{field_k}为第k个字段在联合记录中的属性标识度。

以上计算得到的SIM(L_i,L_j)可以作为两个联合记录的相似度度量。然而在环境监测数据中记录存在以下特点，即各字段属性之间对于同一个被监控对象存在着一定的关联的情况，例如两个特定字段的值往往多次共同出现或呈现固定规律。如果将这种联合记录输入基于卷积神经网络的预测模型，则通过智能学习过程将更有效地计算出联合记录之间的相似度。因此本发明在优选的实施例中，进一步将联合记录转化为低维空间中的向量，得到联合记录的向量空间表示，记X^p和X^q分别为任意两个联合记录L_p和L_q的数据空间表示，将其作为CNN模型的输入。

将X^p和X^q通过CNN模型进行卷积操作，得到卷积操作提取的抽象特征c^p和c^q；将c^p继续作为时间递归网络模块的输入，得到最后时刻隐藏层输出h_tp作为最终特征；

对抽象特征c^q和最终特征h_tp进行联合优化，并预设整个神经网络模型架构的最小误差值ε₀，且计算当前误差值：

若ε(c^q,h_tp)小于预设的最小误差值ε₀，则将SIM(L_p,L_q)作为候选对象，进一步计算最终相似度SIM^*(L_p,L_q)，具体方式如下文所述。如果ε(c^q,h_tp)大于或等于预设的最小误差值ε₀，则丢弃L_p,L_q的计算。

其中，所述联合记录转化为低维空间中的向量，进一步包括：假定向量维度为d，联合记录L_p和L_q的文本长度分别为len_p和len_q，则L_p和L_q的数据空间表示分别为：

且其中，R表示向量空间，和分别是X^p和X^q的第i个位置的文本向量。

所述卷积操作得到X^q的抽象特征c^q，具体包括：

假定数据空间表达式中第i到j个文本向量拼接为

对拼接的文本向量x_ij进行卷积操作，公式为：

得到对应数据分布表达式的抽象特征：

其中，h为卷积核的长度，W＝R^h*d为卷积核的权重矩阵，b∈R^d为偏置项。

经过以上基于神经网络的智能处理，将联合记录进行语义分解和特征抽取，基于文本特征来求解整个记录相似度，更好地适应了监控数据的特性。

对于来自不同监控数据源的原始记录，可能与联合记录中相匹配的字段数量不同，因此匹配数量较多的原始记录得到的相似度可靠性更高。因此在本发明进一步方面，可选地，对于ε(c^q,h_tp)小于预设的最小误差值ε₀的联合记录，还考虑了匹配字段数量对相似度的影响，即：

其中，SIM(L_i,L_j)表示两条联合记录L_i,L_j的初始相似度值，n_t(i,j)表示两条联合记录L_i,L_j的字段与联合记录所匹配的共同字段数量，n_t(L_i)和n_t(L_j)分别表示联合记录L_i,L_j在异构原始记录中字段的数量。

通过以上过程，得到来自不同监控数据源的联合记录之间的相似度。相对于传统的数据融合方法，本发明所计算的记录之间的相似度考虑了多种因素，包括每个字段在去重时所占的比重，特定字段值之间共同出现或呈现固定规律的特点，以及每个字段与联合记录所匹配的共同字段数量等，因此具有更高的准确度，并兼顾运算速度。

基于得到的所有联合记录的相似度数据集，本发明以下实施例中去除其中重复的联合记录。具体步骤为：

2.1、初始化去重列表为空，所述去重列表存储以下三元组：<L_i，L_j，SIM^*(L_i,L_j)>。从相似度数据集中获取SIM^*相似度值大于预设阈值ρ的联合记录，作为去重列表的三元组记录；

2.2、统计去重列表中每个联合记录的出现次数，并选择所述去重列表中出现次数最多的联合记录，若存在出现次数最多的多个联合记录，则选择相应标识度SIM^*最大的联合记录；计算所有联合记录与所选择的出现次数最多的联合记录之间的相似度，并获取相似度值大于所述预设阈值ρ的联合记录，追加到去重列表中；

2.3、根据去重列表生成多个局部相似集合，所述局部相似集合包括两个或以上的联合记录，以使每个局部相似集合中的每两个联合记录均出现在去重列表的三元组中；

2.4、对于每个局部相似集合，确定一个选定联合记录；然后在联合记录中仅保留选定联合记录，并删除当前局部相似集合中除选定联合记录之外的其他所有联合记录；

2.5、更新去重后的联合记录。

所述去重后的联合记录消除了异构环境监测数据中的冗余数据，将异构数据进行结构化融合和组织，而且在建立大规模的环境监测数据仓库之前删除了无效重复数据，为数据分析挖掘工具提供了有效的基础数据。

综上所述，本发明提出了一种针对异构环境监测数据融合方法，通过分析各个数据源之间字段值的匹配关系，发现并去除冗余监测数据，提高了异构记录之间相似度计算的准确性，为环境监测的后续数据挖掘过程提供了更高质量的数据融合结果。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种针对异构环境监测数据融合方法，用于实现来自不同类型数据源的环境监测数据的融合，其特征在于，包括：

抽取环境监测感知层多个数据源的原始记录，所述多个数据源至少包括两种类型的数据源；

计算所述联合记录之间的相似度，根据所述相似度确定出重复的联合记录。

2.根据权利要求1所述的方法，其特征在于，所述多个数据源中至少有一个数据源为核心数据源，且所述多个数据源中至少有一个数据源为第三方数据源，对于其中所有字段均来自于核心数据源的联合记录，不参与联合记录之间的相似度计算的步骤。

3.根据权利要求2所述的方法，其特征在于，所述核心数据源的可信度高于预定阈值，所述第三方数据源的可信度低于预定阈值。

4.根据权利要求1所述的方法，其特征在于，所述计算联合记录之间的相似度，进一步包括：计算联合记录的每两个字段间的相似度值，进而将各个字段的相似度融合为整个联合记录的相似度。

5.根据权利要求1所述的方法，其中，采用转换代价计算联合记录的每两个字段间的相似度值，所述转换代价描述如下：

初始化t(0,0)＝0；

令i∈[1,n]；j∈[1,m]

t(0,j)＝j；t(i,0)＝i；

6.根据权利要求1所述的方法，其特征在于，所述原始记录为XML文档格式，并且所述抽取环境监测感知层多个数据源的原始记录，进一步包括：

7.根据权利要求1所述的方法，其特征在于，所述原始记录为XML文档格式，并且所述抽取环境监测感知层多个数据源的原始记录，进一步包括：

通过Schema信息获取XML数据的元数据模式信息。

8.根据权利要求1所述的方法，其特征在于，在所述根据所述相似度确定出重复的联合记录之后，还包括：

删除冗余的联合记录。

9.根据权利要求1所述的方法，其特征在于，所述异构环境监测数据包括服务器集群的动力环境监控数据。