CN109408578A - 一种针对异构环境监测数据融合方法 - Google Patents

一种针对异构环境监测数据融合方法 Download PDF

Info

Publication number
CN109408578A
CN109408578A CN201811273508.3A CN201811273508A CN109408578A CN 109408578 A CN109408578 A CN 109408578A CN 201811273508 A CN201811273508 A CN 201811273508A CN 109408578 A CN109408578 A CN 109408578A
Authority
CN
China
Prior art keywords
similarity
data
data source
united recording
united
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811273508.3A
Other languages
English (en)
Other versions
CN109408578B (zh
Inventor
雷育涛
赵坤荣
贾燕
黄凌辉
吴双
王松岭
戴碧兰
张凡
张一凡
陈永铿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Institute of Environmental Science of Ministry of Ecology and Environment
Original Assignee
South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Institute of Environmental Science of Ministry of Ecology and Environment filed Critical South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority to CN201811273508.3A priority Critical patent/CN109408578B/zh
Publication of CN109408578A publication Critical patent/CN109408578A/zh
Application granted granted Critical
Publication of CN109408578B publication Critical patent/CN109408578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种针对异构环境监测数据融合方法,该方法包括:抽取环境监测感知层多个数据源的原始记录;将所有原始记录整合为联合记录,所述联合记录包括多个数据源中所有字段值之间的映射关系;计算所述联合记录之间的相似度,根据所述相似度确定出重复的联合记录。本发明提出了一种针对异构环境监测数据融合方法,通过分析各个数据源之间字段值的匹配关系,发现并去除冗余监测数据,提高了异构记录之间相似度计算的准确性,为环境监测的后续数据挖掘过程提供了更高质量的数据融合结果。

Description

一种针对异构环境监测数据融合方法
技术领域
本发明涉及大数据,特别涉及一种针对异构环境监测数据融合方法。
背景技术
随着大数据时代的到来,环境监测部门对感知层数据的采集越来越重要,并产生了大量的数据,分别存储于不同的数据源中。而相对独立、缺乏组织的数据难以发挥充分的价值,因此需要通过异构数据融合将多个数据源进行有效的集成。
现有的常规的融合方法对异构数据源进行融合之前,需要完成对结构化数据库结构的读取,为后期构建检索语句提供基础。而当用户提出新的需求时,则需要人工对平台进行维护和改进,而这些方法往往具有准确度低、缺乏组织等特点。此外感知层数据采集结果与关系数据库的结构不同,大多是以非结构化形态存储,如XML文档。由于环境监测数据源彼此独立,如何消除来自于不同异构数据源之间特别是非关系型数据库的重复数据仍是需要解决的问题。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种针对异构环境监测数据融合方法,包括:
抽取环境监测感知层多个数据源的原始记录;
将所有原始记录整合为联合记录,所述联合记录包括多个数据源中所有字段值之间的映射关系;
计算所述联合记录之间的相似度;
根据所述相似度确定出重复的联合记录。
优选地,所述多个数据源中至少有一个数据源为核心数据源,且所述多个数据源中至少有一个数据源为第三方数据源,对于其中所有字段均来自于核心数据源的联合记录,不参与联合记录之间的相似度计算的步骤。
所述核心数据源的可信度高于预定阈值,所述第三方数据源的可信度低于预定阈值;
优选地,所述计算联合记录之间的相似度,进一步包括:计算联合记录的每两个字段间的相似度值,进而将各个字段的相似度融合为整个联合记录的相似度。
优选地,采用转换代价计算联合记录的每两个字段间的相似度值,所述转换代价描述如下:
对于任意两个字符串x和y,如果对x进行一系列操作进而得到y,则操作次数最少的操作序列表示为字符串x和y的转换代价t(x,y)。如果将x和y分别表示为x1,…xn和y1,…ym,则递归执行以下过程得到转换代价t(x,y):
初始化t(0,0)=0;
令i∈[1,n];j∈[1,m]
t(0,j)=j;t(i,0)=i;
其中xi和yj表示字符串x和y的第i个和第j个字符,u(i,j)为t(i-1,j-1),t(i,j-1),t(i-1,j)三者的最小值;
如果字符串x和y的转换代价t(x,y)小于预定义误差距离阈值δ,则确定两个字符串是匹配的。
优选地,所述原始记录为XML文档格式,并且所述抽取环境监测感知层多个数据源的原始记录,进一步包括:
通过XML Schema进行解析和查询形成数据表格式,然后统一表示为联合记录。
优选地,所述原始记录为XML文档格式,并且所述抽取环境监测感知层多个数据源的原始记录,进一步包括:
通过Schema信息获取XML数据的元数据模式信息。
优选地,在所述根据所述相似度确定出重复的联合记录之后,还包括:
删除冗余的联合记录。
优选地,所述异构环境监测数据包括服务器集群的动力环境监控数据。
本发明相比现有技术,具有以下优点:
本发明提出了一种针对异构环境监测数据融合方法,通过分析各个数据源之间字段值的匹配关系,发现并去除冗余监测数据,提高了异构记录之间相似度计算的准确性,为环境监测的后续数据挖掘过程提供了更高质量的数据融合结果。通过将不同类型数据源的环境监测数据整合为联合记录,使得进行冗余数据的删除处理的记录数大幅缩小,提高了数据融合效率。本发明采用转换代价计算每两个字段间的相似度值,进而获得联合记录之间的相似度值,使得联合记录之间的相似度值更为可靠和准确。本发明提出的方法进一步根据数据源的可信度进行分级数据融合,企业自身核心数据源具有更高的可信度,对于完全来自核心数据源的联合数据不再进行联合记录之间相似度的计算过程,进一步提高了数据融合的效率。
附图说明
图1是根据本发明实施例的针对异构环境监测数据融合方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种针对异构环境监测数据融合方法。图1是根据本发明实施例的针对异构环境监测数据融合方法流程图。
本发明首先抽取的来自不同环境监测数据源的原始记录,将所抽取的异构原始记录统一表示为联合记录,所述联合记录包括多个数据源中所有字段值之间的映射关系,计算各个联合记录之间的相似度,从而根据所述相似度确定重复的联合记录。
例如,将第i个联合记录表示为Li,联合记录是从监测数据源的原始记录中抽取出的结果,由多个字段属性组成,例如Li包括P个字段,第j个字段的属性值为pj,因此可将Li表示为Li={p1,p2,…,pj,…,pP}。举例而言,对于服务器集群的动力环境监控,可将来自不同动力环境监控数据源的异构数据进行融合。第一数据源的原始数据集包括但不限于基于XML文档的标签:数据编号、设备ID、地区、温度、湿度、烟雾指数、电气功率;第二数据源的原始数据集包括但不限于XML文档的以下标签:数据编号、机器名、设备类型、地区、温度、气压,电气功率。抽取数据集的原始XML文档通过XMLSchema进行解析和查询形成数据表格式,然后统一表示为联合记录,例如为:数据编号_1、设备ID、温度、湿度、烟雾指数、电气功率,数据编号_2、机器名、设备类型、地区、气压。
在一个优选的实施例中,对于XML文档,通过Schema信息获取XML数据的元数据模式信息,所述元数据模式信息包括数据表的查询引擎、字段默认值、主键和外键、数据类型和索引信息。
多个数据源的至少包括两种类型的数据源,其中至少有一个数据源为企业核心数据源,且其中至少有一个数据源为第三方数据源,而第三方数据源的可信度低于预定阈值。在一个优选的实施例中,对于其中所有字段均来自于核心数据源的联合记录,不参与联合记录之间的相似度计算的步骤。由于企业核心数据源的可信度高于预定阈值,因此企业内部数据源所生成的联合记录冗余度较低,通过跳过相似度计算的步骤可以集中计算第三方数据源相关的联合记录,并去除数据冗余,进一步提高数据融合效率。
在一个优选的实施例中,所述将所抽取的异构监测数据统一表示为联合记录,进一步包括:
1.1、训练领域相关分词模型,通过上下文确定字段的语义含义,对文本进行分词;
1.2、针对训练好的领域相关分词模型建立语料库,建立模型训练领域文本向量;
1.3、删除噪声字段值,去除字段中无意义字符,并通过对文本向量的加权平均确定每个词所属的领域数据集和对应字段。
对于所述删除噪声字段,优选地,首先利用来自同一监测数据源的N个样本Li,比较每两个样本的j个字段属性p1至pj,求解两个样本的相同文本片段xa(a∈[1,j]),然后从每个样本对应的各个字段中删除该相同文本片段xa,如果在删除后每个样本的字段值都为空,则删除该字段。举例而言,在服务器动力环境监控的数据表中抽取样本数据,如果样本中每个设备类型字段的值都为“路由器”,则表示所有监控数据的设备类型都相同,则将“设备类型”字段删除,以避免该字段在后续的相似度加权计算中对结果造成误差影响。
在将所抽取的异构监测信息统一表示为联合记录之后,本发明获取联合记录中字段值之间的映射关系,并确定各个字段属性的标识度。传统的数据去重方法并未考虑各个字段唯一性的影响,即每个字段在去重时所占的比重都是相同的,这会降低记录相似度判断的精确性。因为不同的字段在判断相似度时的重要性是不同的。根据优选的实施例,计算字段标识度的方法为:
其中∑nsearchlist为总的检索记录数量,∑nsearchlist field_j为关于字段field_j检索记录数量,wfield_j为字段field_j在全局中的属性标识度。
通过计算字段标识度,将唯一性或标识性强的字段赋予高标识度,增加该字段属性在去重时的重要程度,降低易重复的字段值对应的字段的重要程度,使得联合记录相似度的计算精确度更高。
传统计算两个记录相似度的方式是将各个字段项逐一比较,但该方法效率过低并且查准率不高。为减少比较次数,本发明根据领域特性,采用转换代价来计算联合记录的每两个字段间的相似度值,进而将各个字段的相似度融合为整个联合记录的相似度,并给出与算子相对应的属性匹配方法。
对于任意两个字符串x和y,可以对x进行一系列操作进而得到y,该系列操作成为转换序列,其中操作最少的转换序列表示为字符串x和y的转换代价t(x,y)。如果将x和y分别表示为x1,…xn和y1,…ym,则递归执行以下算子得到转换代价t(x,y):
初始化t(0,0)=0;
令i∈[1,n];j∈[1,m]
t(0,j)=j;t(i,0)=i;
其中xi和yj表示字符串x和y的第i个和第j个字符,u(i,j)为t(i-1,j-1),t(i,j-1),t(i-1,j)三者的最小值。
最终,如果字符串x和y的转换代价t(x,y)小于预定义误差距离阈值δ,则确定两个字符串是匹配的。
与现有技术的字符串分析方法只针对拼写错误等特定环境不同,本发明上述实施例的转换代价能更好地适用于逆序词,对于无结构的环境监测数据依然能够保证应用计算的字符串匹配的准确度和低复杂度。
通过本发明的转换代价,获得了字段值之间的匹配准确度之后,为确定两个记录之间的相似度数值提供了依据。通过集成各个字段值的相似度,采用以下公式确定两个联合记录的初始相似度。
SIM(Li,Lj)=∑wfield_k×t(pk(Li),pk(Lj))
其中,SIM(Li,Lj)是两个联合记录的相似度值,t(pk(Li),pk(Lj))是通过上述转换代价得到的联合记录Li,Lj中第k个字段值的相似度,wfield_k为第k个字段在联合记录中的属性标识度。
以上计算得到的SIM(Li,Lj)可以作为两个联合记录的相似度度量。然而在环境监测数据中记录存在以下特点,即各字段属性之间对于同一个被监控对象存在着一定的关联的情况,例如两个特定字段的值往往多次共同出现或呈现固定规律。如果将这种联合记录输入基于卷积神经网络的预测模型,则通过智能学习过程将更有效地计算出联合记录之间的相似度。因此本发明在优选的实施例中,进一步将联合记录转化为低维空间中的向量,得到联合记录的向量空间表示,记Xp和Xq分别为任意两个联合记录Lp和Lq的数据空间表示,将其作为CNN模型的输入。
将Xp和Xq通过CNN模型进行卷积操作,得到卷积操作提取的抽象特征cp和cq;将cp继续作为时间递归网络模块的输入,得到最后时刻隐藏层输出htp作为最终特征;
对抽象特征cq和最终特征htp进行联合优化,并预设整个神经网络模型架构的最小误差值ε0,且计算当前误差值:
若ε(cq,htp)小于预设的最小误差值ε0,则将SIM(Lp,Lq)作为候选对象,进一步计算最终相似度SIM*(Lp,Lq),具体方式如下文所述。如果ε(cq,htp)大于或等于预设的最小误差值ε0,则丢弃Lp,Lq的计算。
其中,所述联合记录转化为低维空间中的向量,进一步包括:假定向量维度为d,联合记录Lp和Lq的文本长度分别为lenp和lenq,则Lp和Lq的数据空间表示分别为:
其中,R表示向量空间,分别是Xp和Xq的第i个位置的文本向量。
所述卷积操作得到Xq的抽象特征cq,具体包括:
假定数据空间表达式中第i到j个文本向量拼接为
对拼接的文本向量xij进行卷积操作,公式为:
得到对应数据分布表达式的抽象特征:
其中,h为卷积核的长度,W=Rh*d为卷积核的权重矩阵,b∈Rd为偏置项。
经过以上基于神经网络的智能处理,将联合记录进行语义分解和特征抽取,基于文本特征来求解整个记录相似度,更好地适应了监控数据的特性。
对于来自不同监控数据源的原始记录,可能与联合记录中相匹配的字段数量不同,因此匹配数量较多的原始记录得到的相似度可靠性更高。因此在本发明进一步方面,可选地,对于ε(cq,htp)小于预设的最小误差值ε0的联合记录,还考虑了匹配字段数量对相似度的影响,即:
其中,SIM(Li,Lj)表示两条联合记录Li,Lj的初始相似度值,nt(i,j)表示两条联合记录Li,Lj的字段与联合记录所匹配的共同字段数量,nt(Li)和nt(Lj)分别表示联合记录Li,Lj在异构原始记录中字段的数量。
通过以上过程,得到来自不同监控数据源的联合记录之间的相似度。相对于传统的数据融合方法,本发明所计算的记录之间的相似度考虑了多种因素,包括每个字段在去重时所占的比重,特定字段值之间共同出现或呈现固定规律的特点,以及每个字段与联合记录所匹配的共同字段数量等,因此具有更高的准确度,并兼顾运算速度。
基于得到的所有联合记录的相似度数据集,本发明以下实施例中去除其中重复的联合记录。具体步骤为:
2.1、初始化去重列表为空,所述去重列表存储以下三元组:<Li,Lj,SIM*(Li,Lj)>。从相似度数据集中获取SIM*相似度值大于预设阈值ρ的联合记录,作为去重列表的三元组记录;
2.2、统计去重列表中每个联合记录的出现次数,并选择所述去重列表中出现次数最多的联合记录,若存在出现次数最多的多个联合记录,则选择相应标识度SIM*最大的联合记录;计算所有联合记录与所选择的出现次数最多的联合记录之间的相似度,并获取相似度值大于所述预设阈值ρ的联合记录,追加到去重列表中;
2.3、根据去重列表生成多个局部相似集合,所述局部相似集合包括两个或以上的联合记录,以使每个局部相似集合中的每两个联合记录均出现在去重列表的三元组中;
2.4、对于每个局部相似集合,确定一个选定联合记录;然后在联合记录中仅保留选定联合记录,并删除当前局部相似集合中除选定联合记录之外的其他所有联合记录;
2.5、更新去重后的联合记录。
所述去重后的联合记录消除了异构环境监测数据中的冗余数据,将异构数据进行结构化融合和组织,而且在建立大规模的环境监测数据仓库之前删除了无效重复数据,为数据分析挖掘工具提供了有效的基础数据。
综上所述,本发明提出了一种针对异构环境监测数据融合方法,通过分析各个数据源之间字段值的匹配关系,发现并去除冗余监测数据,提高了异构记录之间相似度计算的准确性,为环境监测的后续数据挖掘过程提供了更高质量的数据融合结果。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种针对异构环境监测数据融合方法,用于实现来自不同类型数据源的环境监测数据的融合,其特征在于,包括:
抽取环境监测感知层多个数据源的原始记录,所述多个数据源至少包括两种类型的数据源;
将所有原始记录整合为联合记录,所述联合记录包括多个数据源中所有字段值之间的映射关系;
计算所述联合记录之间的相似度,根据所述相似度确定出重复的联合记录。
2.根据权利要求1所述的方法,其特征在于,所述多个数据源中至少有一个数据源为核心数据源,且所述多个数据源中至少有一个数据源为第三方数据源,对于其中所有字段均来自于核心数据源的联合记录,不参与联合记录之间的相似度计算的步骤。
3.根据权利要求2所述的方法,其特征在于,所述核心数据源的可信度高于预定阈值,所述第三方数据源的可信度低于预定阈值。
4.根据权利要求1所述的方法,其特征在于,所述计算联合记录之间的相似度,进一步包括:计算联合记录的每两个字段间的相似度值,进而将各个字段的相似度融合为整个联合记录的相似度。
5.根据权利要求1所述的方法,其中,采用转换代价计算联合记录的每两个字段间的相似度值,所述转换代价描述如下:
对于任意两个字符串x和y,如果对x进行一系列操作进而得到y,则操作次数最少的操作序列表示为字符串x和y的转换代价t(x,y)。如果将x和y分别表示为x1,…xn和y1,…ym,则递归执行以下过程得到转换代价t(x,y):
初始化t(0,0)=0;
令i∈[1,n];j∈[1,m]
t(0,j)=j;t(i,0)=i;
其中xi和yj表示字符串x和y的第i个和第j个字符,u(i,j)为t(i-1,j-1),t(i,j-1),t(i-1,j)三者的最小值;
如果字符串x和y的转换代价t(x,y)小于预定义误差距离阈值δ,则确定两个字符串是匹配的。
6.根据权利要求1所述的方法,其特征在于,所述原始记录为XML文档格式,并且所述抽取环境监测感知层多个数据源的原始记录,进一步包括:
通过XML Schema进行解析和查询形成数据表格式,然后统一表示为联合记录。
7.根据权利要求1所述的方法,其特征在于,所述原始记录为XML文档格式,并且所述抽取环境监测感知层多个数据源的原始记录,进一步包括:
通过Schema信息获取XML数据的元数据模式信息。
8.根据权利要求1所述的方法,其特征在于,在所述根据所述相似度确定出重复的联合记录之后,还包括:
删除冗余的联合记录。
9.根据权利要求1所述的方法,其特征在于,所述异构环境监测数据包括服务器集群的动力环境监控数据。
CN201811273508.3A 2018-10-30 2018-10-30 一种针对异构环境监测数据融合方法 Active CN109408578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273508.3A CN109408578B (zh) 2018-10-30 2018-10-30 一种针对异构环境监测数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273508.3A CN109408578B (zh) 2018-10-30 2018-10-30 一种针对异构环境监测数据融合方法

Publications (2)

Publication Number Publication Date
CN109408578A true CN109408578A (zh) 2019-03-01
CN109408578B CN109408578B (zh) 2020-07-31

Family

ID=65470649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273508.3A Active CN109408578B (zh) 2018-10-30 2018-10-30 一种针对异构环境监测数据融合方法

Country Status (1)

Country Link
CN (1) CN109408578B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543473A (zh) * 2019-08-20 2019-12-06 武汉中海庭数据技术有限公司 一种众包数据融合优化方法、装置及存储介质
CN110704405A (zh) * 2019-08-29 2020-01-17 南京医渡云医学技术有限公司 一种基于疾病指标的数据融合方法及装置
CN110765162A (zh) * 2019-09-06 2020-02-07 上海陆家嘴国际金融资产交易市场股份有限公司 数据比对方法、装置、计算机设备和存储介质
CN112115147A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 数据处理的方法、装置、设备和存储介质
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113315813A (zh) * 2021-05-08 2021-08-27 重庆第二师范学院 一种大数据网际信息链系统的信息交换方法及系统
CN116894229A (zh) * 2023-09-06 2023-10-17 北京华云安软件有限公司 一种同类多数据源融合方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050223122A1 (en) * 2004-03-31 2005-10-06 Brown Mark L Integrated circuit capable of remote data storage
CN101807211A (zh) * 2010-04-30 2010-08-18 南开大学 一种面向海量小规模xml文档融合路径约束的xml检索方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN104699796A (zh) * 2015-03-18 2015-06-10 浪潮集团有限公司 一种基于数据仓库的数据清洗方法
CN106156040A (zh) * 2015-03-26 2016-11-23 阿里巴巴集团控股有限公司 多维度数据管理方法及装置
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN108090154A (zh) * 2017-12-08 2018-05-29 广州市申迪计算机系统有限公司 一种异构多源数据融合查询方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050223122A1 (en) * 2004-03-31 2005-10-06 Brown Mark L Integrated circuit capable of remote data storage
CN101807211A (zh) * 2010-04-30 2010-08-18 南开大学 一种面向海量小规模xml文档融合路径约束的xml检索方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN104699796A (zh) * 2015-03-18 2015-06-10 浪潮集团有限公司 一种基于数据仓库的数据清洗方法
CN106156040A (zh) * 2015-03-26 2016-11-23 阿里巴巴集团控股有限公司 多维度数据管理方法及装置
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN108090154A (zh) * 2017-12-08 2018-05-29 广州市申迪计算机系统有限公司 一种异构多源数据融合查询方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543473A (zh) * 2019-08-20 2019-12-06 武汉中海庭数据技术有限公司 一种众包数据融合优化方法、装置及存储介质
CN110543473B (zh) * 2019-08-20 2022-03-25 武汉中海庭数据技术有限公司 一种众包数据融合优化方法、装置及存储介质
CN110704405A (zh) * 2019-08-29 2020-01-17 南京医渡云医学技术有限公司 一种基于疾病指标的数据融合方法及装置
CN110765162A (zh) * 2019-09-06 2020-02-07 上海陆家嘴国际金融资产交易市场股份有限公司 数据比对方法、装置、计算机设备和存储介质
CN112115147A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 数据处理的方法、装置、设备和存储介质
CN112115147B (zh) * 2020-09-25 2024-04-30 北京百度网讯科技有限公司 数据处理的方法、装置、设备和存储介质
CN113315813A (zh) * 2021-05-08 2021-08-27 重庆第二师范学院 一种大数据网际信息链系统的信息交换方法及系统
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN116894229A (zh) * 2023-09-06 2023-10-17 北京华云安软件有限公司 一种同类多数据源融合方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109408578B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN109408578A (zh) 一种针对异构环境监测数据融合方法
KR101354755B1 (ko) 검색에 의한 주석달기를 위한 컴퓨터 판독가능 저장 매체, 컴퓨터 구현 방법, 및 컴퓨팅 장치
KR20210038860A (ko) 의도 추천 방법, 장치, 기기 및 저장매체
CN105706078B (zh) 实体集合的自动定义
CN105045875B (zh) 个性化信息检索方法及装置
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN111353106B (zh) 推荐方法和装置、电子设备和存储介质
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
CN107918657B (zh) 一种数据源的匹配方法和装置
US20130006976A1 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
CN107291895B (zh) 一种快速的层次化文档查询方法
WO2018090468A1 (zh) 视频节目的搜索方法和装置
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN111627552B (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
CN103412903B (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN116991869A (zh) 一种基于nlp语言模型自动生成数据库查询语句的方法
CN110110218B (zh) 一种身份关联方法及终端
CN112785015A (zh) 基于案例推理的装备故障诊断方法
JPH11161670A (ja) 情報フィルタリング方法、装置及びシステム
CN111144831B (zh) 一种适用于人员招聘的人选精准甄别系统及其甄别方法
CN115617956A (zh) 一种基于多模态注意力图谱的专利检索方法及系统
CN113505190B (zh) 地址信息修正方法、装置、计算机设备和存储介质
CN112800083B (zh) 一种面向政府决策的政务大数据分析方法及设备
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant