CN110275919B

CN110275919B - 数据集成方法及装置

Info

Publication number: CN110275919B
Application number: CN201910528294.8A
Authority: CN
Inventors: 吴信东; 董丙冰; 朱毅
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2021-06-18
Anticipated expiration: 2039-06-18
Also published as: CN110275919A

Abstract

本申请公开了一种数据集成方法及装置。其中，该方法包括：获取多个原始数据源，原始数据源包括图像数据源和文本数据源；对多个原始数据源进行去冗余处理，得到处理后数据源；依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息；依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。本申请解决了现阶段利用基于本体的数据集成方法进行数据集成，在构建本体时需要大量的人力物力，而且在构建特定领域本体时需要相关领域专家参与，成本较高的技术问题。

Description

数据集成方法及装置

技术领域

本申请涉及数据集成领域，具体而言，涉及一种数据集成方法及装置。

背景技术

在信息化建设初期，由于缺乏有效合理的规划和协作，“信息孤岛”的现象普遍存在，大量的冗余数据和垃圾数据存在于信息系统中，数据质量得不到保证，信息的利用效率明显低下，为了解决这个问题，数据集成技术应运而生。数据集成技术是协调数据源之间不匹配问题将异构的、分布的、自治的数据集成在一起，为用户提供单一视图使得可以透明的访问数据源。

我们在实现数据集成时需要解决以下难题：首先是异构性，数据异构性包括两个方面：其一不同数据源数据的结构不同，此为结构性异构，其二不同数据源的数据项在含义上有差别，此为语义性异构；其次是数据源的异地分布性；最后是数据源的自治性，数据源可以改变自身的结构和数据，这就要求数据集成系统应具有鲁棒性。为了解决这些难题，现有的数据集成方法主要包括：模式集成方法、数据复制方法和基于本体的数据集成方法这几种典型的数据集成方法。

用户在使用模式集成方法时经常需要访问多个数据源，存在很大的网络延迟，数据源之间也没有很好的交互；采用数据复制方法在数据复制时需要一定的时间，数据的实时一致性不好保证；利用基于本体的数据集成方法在构建本体时需要大量的人力物力，而且在构建特定领域本体时需要相关领域专家参与，成本较高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据集成方法及装置，以至少解决现阶段利用基于本体的数据集成方法进行数据集成，在构建本体时需要大量的人力物力，而且在构建特定领域本体时需要相关领域专家参与，成本较高的技术问题。

根据本申请实施例的一个方面，提供了一种数据集成方法，包括：获取多个原始数据源，原始数据源包括图像数据源和文本数据源；对多个原始数据源进行去冗余处理，得到处理后数据源；依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息；依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。

可选地，在对多个原始数据源进行去冗余处理之前，上述方法还包括：将多个原始数据源输入至自动编码器模型的编码层，对多个原始数据源的特征数据进行降维处理，得到降维处理后的特征数据；在编码层的最高层计算多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；将降维处理后的特征数据输入至自动编码器模型的译码层，得到与多个原始数据源对应的目标数据。

可选地，在编码层的最高层计算多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度，包括以下至少之一：利用余弦相似度算法计算多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；利用皮尔森相关系数计算多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度。

可选地，对多个原始数据源进行去冗余处理，包括：如果第一相似度大于或者等于第一预设阈值，则将两个不同的原始数据源合并为一个数据源。

可选地，将两个原始数据源合并为一个数据源，包括：如果两个数据源为结构化数据，直接将两个原始数据源合并为一个数据源；如果两个数据源为非结构化数据或半结构化数据，对两个原始数据源进行以下处理之后再合并为一个数据源：获取非结构化数据或半结构化数据中数据对象的命名实体；获取数据对象的从属关系；获取数据对象的属性。

可选地，依据处理后数据源分别构建与每个原始数据源对应的局部本体，包括：计算原始数据源的任意两个实体之间的第二相似度，实体为原始数据源中的数据对象；将第二相似度大于或者等于第二预设阈值的两个实体划分为同一个实体类别；确定原始数据源中任意一个实体所属的实体类型；依据对任意一个实体的实体类别的划分和实体类型构建与每个原始数据源对应的局部本体。

可选地，在对多个原始数据源进行去冗余处理之前，上述方法还包括：对图像数据源进行零相分量分析ZCA白化处理。

可选地，对所述图像数据源进行零相分量分析ZCA白化处理，包括：计算图像数据源对应的数据集的协方差矩阵∑，

其中，m为数据集包含的样本数据的数量，x为样本数据；对协方差矩阵进行奇异值分解，得到协方差矩阵的左奇异值向量U；利用该U向量对数据集进行转置处理，得到转置处理后的数据集x_rot，x_rot＝U^Tx＝(U₁ ^TxU₂ ^Tx，...U_n ^Tx)^T，其中，n为样本数据的维度；对转置处理后的数据集进行主要向量分析PCA白化处理，得到PCA白化处理后的数据集x_{(PCAwhite，i)}，

λ_i是x_rot协方差矩阵对角元素的值；依据PCA白化处理后的数据集和所述U向量得到ZCA白化后的数据集x_(ZCAwhite)，x_(ZCAwhite)＝Ux_(ZCAwhite)。

可选地，在依据多个局部本体构建全局本体之后，上述方法还包括：获取查询指令；依据查询指令在全局本体中进行数据查询，得到查询结果；展示查询结果。

根据本申请实施例的另一方面，还提供了一种数据集成装置，包括：获取模块，用于获取多个原始数据源，原始数据源包括图像数据源和文本数据源；处理模块，用于对多个原始数据源进行去冗余处理，得到处理后数据源；第一构建模块，用于依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息；第二构建模块，用于依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。

根据本申请实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的数据集成方法。

根据本申请实施例的再一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以上的数据集成方法。

在本申请实施例中，采用获取多个原始数据源，原始数据源包括图像数据源和文本数据源；对多个原始数据源进行去冗余处理，得到处理后数据源；依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息；依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息的方式，通过在构建本体之前，对原始数据源进行去冗余处理，达到了减少原始数据源的数量，进而减少多本体方法中构建的局部本体的数量的目的，从而实现了在利用基于本体的数据方法进行数据集成时，大大节省人力物力的技术效果，进而解决了现阶段利用基于本体的数据集成方法进行数据集成，在构建本体时需要大量的人力物力，而且在构建特定领域本体时需要相关领域专家参与，成本较高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种数据集成方法的流程图；

图2根据本申请实施例的一种数据集成装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种数据集成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种数据集成方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取多个原始数据源，原始数据源包括图像数据源和文本数据源。

根据本申请的一个可选的实施例，步骤S102中的多个原始数据源为多源异构数据，数据中包括图像数据和文本数据，例如，某一个搜索网站上对于历史人物A的相关描述信息，包括对该历史人物生平事迹进行陈述的文字信息(文本数据源)和该历史人物A的画像或者照片信息(图像数据源)。

步骤S104，对多个原始数据源进行去冗余处理，得到处理后数据源。

步骤S106，依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息。

在计算机科学与信息科学领域，本体是指一种形式化的，对于共享概念体系的明确而又详细的说明。本体提供的是一种共享词表，也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系；或者说，本体是一种特殊类型的术语集，具有结构化的特点。步骤S106中的局部本体是指只包含与该局部本体相对应的原始数据源的数据描述信息。

步骤S108，依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。

通过上述步骤，通过在构建本体之前，对原始数据源进行去冗余处理，达到了减少原始数据源的数量，进而减少多本体方法中构建的局部本体的数量的目的，从而实现了在利用基于本体的数据方法进行数据集成时，大大节省人力物力的技术效果。

根据本申请的一个可选的实施例，在执行步骤S104之前，还需要将多个原始数据源输入至自动编码器模型的编码层，对多个原始数据源的特征数据进行降维处理，得到降维处理后的特征数据；在编码层的最高层计算多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；将降维处理后的特征数据输入至自动编码器模型的译码层，得到与多个原始数据源对应的目标数据。

在本申请的一个可选的实施例中，利用半监督的自动编码器对原始数据源进行机器学习，将原始数据源映射到自动编码器的编码层的最高层空间，对原始数据进行编码相当于对数据进行降维处理，然后将降维处理后的数据输入至自动编码器的译码层，其目的是最大限度地减小输入样本的重构误差，保留数据的主要特征，且能够平滑地捕获数据流形。

以数据源A的处理为例：使用自动编码器对数据源A进行处理，这里有两个编码层和译码层，首先对数据源A的数据X(A)进行编码得到隐藏层表示ξ^(A)，若数据源A存在有标签数据则第二个编码层是标签编码层，其中数据源A标签信息使用Softmax回归模型进行编码，否则不采用Softmax回归模型，直接进行编码得到第二层编码层表示为Z(A)。然后经过两层译码得到X^(A)，并使得min∑||x^^(A)-x^(A)||²，(这里我们仅以两层编码译码层为例)。

然后经过自动编码器的编码层后，在最高层采用余弦相似度算法或者皮尔森相关技术计算任意两个原始数据源的特征数据的相似度。余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。皮尔森相关系数，是一种线性相关系数，用来反映两个变量线性相关程度的统计量。

在本申请的一些实施例中，步骤S104通过以下方法实现：如果第一相似度大于或者等于第一预设阈值，则将两个不同的原始数据源合并为一个数据源。

根据本申请的一个可选的实施例，将两个原始数据源合并为一个数据源，包括：如果两个数据源为结构化数据，直接将两个原始数据源合并为一个数据源；如果两个数据源为非结构化数据或半结构化数据，对两个原始数据源进行以下处理之后再合并为一个数据源：获取非结构化数据或半结构化数据中数据对象的命名实体；获取数据对象的从属关系；获取数据对象的属性。

根据本申请的一个可选的实施例，在执行步骤S104时，对相似度设定一系列阈值θ′＝(θ′₁，θ′₂，...，θ′_R)，其中R表示阈值等级，值越大，相似度越高，表示数据源之间的相似度越高。选取一定的阈值等级θ′_R，当计算出来的相似度大于θ′_R时，将两个数据源进行合并。结构化数据库直接进行合并，非结构化数据库和半结构化数据库进行实体抽取、属性抽取和关系抽取之后进行合并。

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑来表现的数据。结构化数据一般不需要进行信息抽取，直接可以用于知识融合；半结构化数据(如百度百科等数据)，需要使用爬虫技术获取；非结构化数据(各网站公开的数据)，需要使用爬虫技术获取。

上文中的实体抽取、属性抽取和关系抽取是指信息抽取，信息抽取是从各类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达。

具体地，实体抽取，也称为命名实体识别，是指从文本数据集中自动识别出命名实体。关系抽取，文本语料经过实体抽取后，得到一系列离散的命名实体，为了得到语义信息，还需要从相关语料中提取出实体之间的关联关系，通过关系将实体联系起来，才能形成网状的知识结构。属性抽取，属性抽取的目标是从不同信息源中采集特定实体的属性信息，例如，针对某个公众人物，可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息，这些信息就属于属性信息。

在本申请的一些实施例中，步骤S106通过以下方法实现：计算原始数据源的任意两个实体之间的第二相似度，实体为原始数据源中的数据对象；将第二相似度大于或者等于第二预设阈值的两个实体划分为同一个实体类别；确定原始数据源中任意一个实体所属的实体类型；依据对任意一个实体的实体类别的划分和实体类型构建与每个原始数据源对应的局部本体。

现有的本体构建技术大都依靠人工编辑的方式手动构建，在本申请实施例中采用计算机辅助以数据驱动的方式自动构建。数据驱动的自动化本体构建过程包括三个阶段：实体并列关系相似度计算、实体上下位关系抽取和本体生成。

实体并列关系相似度是判断两个实体属于同一概念分类的指标测度，相似度越高，表明这两个实体越有可能属于同一语义类别。我们采用分布相似度方法计算实体并列关系相似度，该方法假设在相似的上下文环境中频繁出现的实体之间语义上相似，首先将每个实体表示成1个N维向量,向量的每个维度表示一个预定义的上下文环境，向量元素值表示该实体出现在各上下文环境中的概率，然后就可以通过求解向量间的相似度，得到实体间的并列关系相似度。实体上下位关系抽取是用于确定概念之间的隶属关系，这种关系也称为上下位关系。本体生成阶段的主要任务是对各层次得到的概念进行聚类，并对其进行语义类的标定。

举个例子，当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候，可能会认为它们三个之间并没有什么差别，但当计算三个实体之间的相似度后，就会发现“阿里巴巴”和“腾讯”之间可能更相似，和手机差别更大一些。

但知识图谱实际上还是没有一个上下层的概念，它还是不知道“阿里巴巴”和“手机”根本就不隶属于一个类型，无法比较。因此还去要进行实体上下位关系抽取，经过实体上下位关系抽取后，这个知识图谱可能就会明白，“阿里巴巴和腾讯，其实都是公司这样一个实体下地细分实体，它们和手机并不是一类”。

通过上述步骤，与原始数据源对应的局部本体就构建完成了，对于全局本体库的构建，从面向特定领域的现有局部本体库出发，将各个局部本体逐步集成为一个全局本体。

在本申请的一些实施例中，在执行步骤S102之前，还需要对图像数据源进行零相分量分析ZCA(Zero-phase Component Analysis)白化处理。

对原始数据源中的图像数据集进行ZCA白化主要用于对图像数据去相关性，降低图像数据输入的冗余性，对于含有m个样本的数据集{x⁽¹⁾，x⁽²⁾，...，x^(m)}，假设每个样本的维度为n，即xⁱ∈Rⁿ，对其进行ZCA白化的具体步骤如下：

1)计算数据集的协方差矩阵∑，计算公式如下：

2)求出数据集的协方差矩阵∑后，对其进行SVD(Singular ValueDecomposition，SVD)分解，得到U向量。利用U^Tx得到数据集经过旋转后的结果x_rot，即：

x_rot＝U^Tx＝(U₁ ^Tx U₂ ^Tx，...U_n ^Tx)^T

3)对数据集进行PCA白化，将x_rot中的每一维都除以

使输入特征具有单位方差，其中λ_i是x_rot协方差矩阵对角元素的值，计算公式如下：

4)将x_{(PCAwhite，i)}左乘一个特征向量矩阵U，得到我们需要的ZCA白化，其计算公式如下：

x_(ZCAwhite)＝Ux_(ZCAwhite)

根据本申请的一个可选的实施例，在执行步骤S108之后，还需要获取查询指令；依据查询指令在全局本体中进行数据查询，得到查询结果；展示查询结果。

用户通过统一查询接口提交查询后，生成全局查询，由中间件重新生成查询计划，局部数据源进行具体数据查询然后封装查询结果，将组装好的结果反馈给用户。

例如，对于百度百科，维基百科和360百科等网站上的某一个历史人物数据，针对该历史人物的数据，不同的网站上有许多重复的数据，但是对于该历史人物的描述信息的完整程度不同，首先我们要对这些数据源进行相似性判断，对重复的数据进行属性提取，数据融合，确保人物属性信息的完备性，将完整的人物信息保存在系统中，当用户查询具体人物时就不用查询多个数据来源，而只需要查询一个数据来源。

再例如，通过上述方法还可以补全知识库，例如，百度百科对某个历史人物的文字描述信息非常充分但是缺少性别信息的描述，这是由于通过百度百科提供的针对该历史人物的图集，人们可以看出性别，但是在数据集成库里查询该历史人物的完备的文字信息时，就需要完善知识库，根据百度百科提供的图集先进行白化处理，然后把处理过得图集和性别“男/女”进行高维特征表示，便可以判断出该人物的性别进行知识库的补全工作。

上文中提到，现有的数据集成方法主要包括：模式集成方法、数据复制方法和基于本体的数据集成方法。

模式集成方法为用户提供统一的查询接口，通过中介模式访问实时数据，该模式直接从原始数据库检索信息，该方法的实现共分为四个主要步骤：源数据库的发现、查询接口模式的抽取、领域源数据库的分类和全局查询接口集成。

模式集成方法依赖于中介模式与原始源模式之间的映射，并将查询转换为专用查询以匹配原始数据库的模式。这种映射可以用两种方式指定：作为从中介模式中的实体到原始数据源中的实体的映射—全局视图方法，或者作为从原始源中的实体到中介模式—本地视图方法的映射，后一种方法需要更复杂的推理来解析对中介模式的查询，但是可以更容易地将新数据源添加到稳定中介模式中。该方法缺点是该方法用户使用时经常需要访问多个数据源存在很大的网络延迟，数据源之间没有进行交互。

数据复制方法是将用户可能用到的其它数据源的数据预先复制到统一的数据源中，用户使用时仅需访问单一的数据源或少量的数据源。在使用该方法时数据复制需要一定的时间，所以数据的实时一致性不好保证。数据仓库方法是数据复制方法的一种常见方式，该方法的过程是先提取各个异构数据源中的数据然后转换、加载到数据仓库中，用户再访问数据仓库查找数据时类似访问普通数据库。对于经常更新的数据集，数据仓库方法不太可行，需要连续重新执行提取，转换，加载(ETL)过程以进行同步。

本体是对某一领域中的概念及其之间关系的显式描述，基于本体的数据集成系统允许用户通过对本体描述的全局模式的查询来有效的访问位于多个数据源中的数据，目前基于本体技术的数据集成方法有三种，分别为：单本体方法、多本体方法和混合本体方法。

由于单本体方法所有的数据源都要与一个共享词汇库全局本体关联，应用范围很小，且数据源的改变会影响全局本体的改变。为了解决单本体方法的缺陷，多本体方法应运而生，多本体方法的每个数据源都由各自的本体进行描述。它的优点是数据源的改变对本体的影响小，但是由于缺少共享的词汇库，不同的数据源之间难以比较，数据源之间的共享性和交互性相对较差。混合本体方法的提出解决了单本体和多本体方法的不足：混合本体的每个数据源的语义都由它们的各自的本体进行描述解决了单本体方法的缺点，混合本体还建立了一个全局共享词汇库以解决多本体方法的缺点。但目前的本体构建大都是依靠人工编辑的方式手动构建，在构建本体时需要大量人力物力，成本较高，并且在构建特定领域本体时需要相关领域专家参与，实施起来比较困难。

而通过上述数据集成方法，可以确保每个数据源提供的信息都更加完备，用户在查询时或在复制数据时不需要从多个数据源进行反馈，从而提高查询效率。数据源数量的减少，多本体方法中构建的局部本体就会大大减少，且之前的技术基本上是手动构建本体，不仅工作量巨大，而且很难找到符合要求的专家，本申请采用本体的自动构建技术，大大节省了人力物力。

图2根据本申请实施例的一种数据集成装置的结构图，如图2所示，该装置包括：

获取模块20，用于获取多个原始数据源，原始数据源包括图像数据源和文本数据源。

根据本申请的一个可选的实施例，多个原始数据源为多源异构数据，数据中包括图像数据和文本数据，例如，某一个搜索网站上对于历史人物A的相关描述信息，包括对该历史人物生平事迹进行陈述的文字信息(文本数据源)和该历史人物A的画像或者照片信息(图像数据源)。

处理模块22，用于对多个原始数据源进行去冗余处理，得到处理后数据源。

第一构建模块24，用于依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息。

第二构建模块26，用于依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。

根据本申请的一个可选的实施例，上述数据集成装置还包括：设置模块，用于在对多个原始数据源进行去冗余处理之前，将多个原始数据源输入至自动编码器模型的编码层，对多个原始数据源的特征数据进行降维处理，得到降维处理后的特征数据；在编码层的最高层计算多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；将降维处理后的特征数据输入至自动编码器模型的译码层，得到与多个原始数据源的目标数据。

上述处理模块22还用于在第一相似度大于或者等于第一预设阈值的情况下，则将两个不同的原始数据源合并为一个数据源。

在本申请的一些实施例中，第一构建模块24还用于计算原始数据源的任意两个实体之间的第二相似度，实体为原始数据源中的数据对象；将第二相似度大于或者等于第二预设阈值的两个实体划分为同一个实体类别；确定原始数据源中任意一个实体所属的实体类型；依据对任意一个实体的实体类别的划分和实体类型构建与每个原始数据源对应的局部本体。

根据本申请的一个可选的实施例，上述数据集成装置还包括：图像预处理模块，用于在对多个原始数据源进行去冗余处理之前，对原始数据源中的图像数据源进行零相分量分析ZCA白化处理。

可选地，上述数据集成装置还包括：查询模块，用于获取查询指令；依据查询指令在全局本体中进行数据查询，得到查询结果；展示查询结果。

需要说明的是，图2所示实施例的优选实施方式可以参见图1所示实施例的相关描述，此处不再赘述。

本申请实施例还提供了一种存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的数据集成方法。

存储介质用于存储执行以下功能的程序：获取多个原始数据源，原始数据源包括图像数据源和文本数据源；对多个原始数据源进行去冗余处理，得到处理后数据源；依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息；依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。

本申请实施例还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以上的数据集成方法。

处理器用于运行执行以下功能的程序：获取多个原始数据源，原始数据源包括图像数据源和文本数据源；对多个原始数据源进行去冗余处理，得到处理后数据源；依据处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，局部本体包含对应的原始数据源的数据描述信息；依据多个局部本体构建全局本体，全局本体包含多个原始数据源的数据描述信息。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据集成方法，其特征在于，包括：

获取多个原始数据源，所述原始数据源包括图像数据源和文本数据源；

对所述多个原始数据源进行去冗余处理，得到处理后数据源；

依据所述处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，所述局部本体包含对应的原始数据源的数据描述信息；

依据所述多个局部本体构建全局本体，所述全局本体包含所述多个原始数据源的数据描述信息；

在对所述多个原始数据源进行去冗余处理之前，所述方法还包括：将所述多个原始数据源输入至自动编码器模型的编码层，对所述多个原始数据源的特征数据进行降维处理，得到降维处理后的特征数据；在所述编码层的最高层计算所述多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；将降维处理后的所述特征数据输入至所述自动编码器模型的译码层，得到与所述多个原始数据源对应的目标数据；

对所述多个原始数据源进行去冗余处理，包括：如果所述第一相似度大于或者等于第一预设阈值，则将所述两个不同的原始数据源合并为一个数据源；

将所述两个原始数据源合并为一个数据源，包括：如果所述两个数据源为结构化数据，直接将所述两个原始数据源合并为一个数据源；如果所述两个数据源为非结构化数据或半结构化数据，对所述两个原始数据源进行以下处理之后再合并为一个数据源：获取所述非结构化数据或半结构化数据中数据对象的命名实体；获取所述数据对象的从属关系；获取所述数据对象的属性。

2.根据权利要求1所述的方法，其特征在于，在所述编码层的最高层计算所述多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度，包括以下至少之一：

利用余弦相似度算法计算所述多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；

利用皮尔森相关系数计算所述多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度。

3.根据权利要求1所述的方法，其特征在于，依据所述处理后数据源分别构建与每个原始数据源对应的局部本体，包括：

计算所述原始数据源的任意两个实体之间的第二相似度，所述实体为所述原始数据源中的数据对象；

将所述第二相似度大于或者等于第二预设阈值的两个实体划分为同一个实体类别；

确定所述原始数据源中任意一个实体所属的实体类型；

依据对所述任意一个实体的实体类别的划分和所述实体类型构建与每个原始数据源对应的局部本体。

4.根据权利要求1所述的方法，其特征在于，在对所述多个原始数据源进行去冗余处理之前，所述方法还包括：

对所述图像数据源进行零相分量分析ZCA白化处理。

5.根据权利要求4所述的方法，其特征在于，对所述图像数据源进行零相分量分析ZCA白化处理，包括：

计算所述图像数据源对应的数据集的协方差矩阵∑，

其中，m为所述数据集包含的样本数据的数量，x为所述样本数据；

对所述协方差矩阵进行奇异值分解，得到所述协方差矩阵的左奇异值向量U；

利用该U向量对所述数据集进行转置处理，得到转置处理后的数据集x_rot，x_rot＝U^Tx＝(U₁ ^Tx U₂ ^Tx，...U_nT_x)^T，其中，n为所述样本数据的维度；

对转置处理后的所述数据集进行主要向量分析PCA白化处理，得到PCA白化处理后的数据集x_{(PCAwhite，i)}，

λ_i是x_rot协方差矩阵对角元素的值；

依据PCA白化处理后的数据集和所述U向量得到ZCA白化后的数据集x_(ZCAwhite)，x_(ZCAwhite)＝Ux_(ZCAwhite)。

6.根据权利要求1所述的方法，其特征在于，在依据所述多个局部本体构建全局本体之后，所述方法还包括：

获取查询指令；

依据所述查询指令在所述全局本体中进行数据查询，得到查询结果；

展示所述查询结果。

7.一种数据集成装置，其特征在于，包括：

获取模块，用于获取多个原始数据源，所述原始数据源包括图像数据源和文本数据源；

处理模块，用于对所述多个原始数据源进行去冗余处理，得到处理后数据源；

第一构建模块，用于依据所述处理后数据源分别构建与每个原始数据源对应的局部本体，得到多个局部本体，所述局部本体包含对应的原始数据源的数据描述信息；

第二构建模块，用于依据所述多个局部本体构建全局本体，所述全局本体包含所述多个原始数据源的数据描述信息；

所述装置还用于在对所述多个原始数据源进行去冗余处理之前，将所述多个原始数据源输入至自动编码器模型的编码层，对所述多个原始数据源的特征数据进行降维处理，得到降维处理后的特征数据；在所述编码层的最高层计算所述多个原始数据源中任意两个不同的原始数据源的特征数据的第一相似度；将降维处理后的所述特征数据输入至所述自动编码器模型的译码层，得到与所述多个原始数据源对应的目标数据；

所述处理模块还用于在所述两个数据源为结构化数据的情况下，直接将所述两个原始数据源合并为一个数据源；在所述两个数据源为非结构化数据或半结构化数据的情况下，对所述两个原始数据源进行以下处理之后再合并为一个数据源：获取所述非结构化数据或半结构化数据中数据对象的命名实体；获取所述数据对象的从属关系；获取所述数据对象的属性。