CN108241709A

CN108241709A - 一种数据集成方法、装置和系统

Info

Publication number: CN108241709A
Application number: CN201611224002.4A
Authority: CN
Inventors: 李小涛; 游树娟; 牛亚文
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2018-07-03
Anticipated expiration: 2036-12-27
Also published as: CN108241709B

Abstract

本发明提供一种数据集成方法、装置和系统，涉及通信技术领域。该数据集成方法包括：根据不同节点中原始数据的主题类型，确定与所述原始数据对应的元数据标签；根据所述元数据标签，获取所述原始数据中对应所述元数据标签的数据信息；根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据。本发明的方案解决了现有的元数据格式中每个类别的分类元数据由于受固定的格式限定而造成的消息损失的问题。

Description

一种数据集成方法、装置和系统

技术领域

本发明涉及通信技术领域，特别涉及一种数据集成方法、装置和系统。

背景技术

互联网技术的飞速发展，使得数据呈现爆炸式增长的趋势，海量数据资源就会分散存储在不同网络节点。但是，这些存储节点使用了不同的操作系统、存储了不同类型的数据文件，存储结构化数据的数据库系统以及库表结构都没有统一的标准。

而如何在这些格式异构的数据资源，对所需数据进行有效获取，给数据的共享和发现带来了严峻的挑战。因此，人们提出了元数据的概念，元数据具有非常好的描述能力及简单的数据结构，常常作为数据资源的索引，完成多个来源的信息的集成管理和相互交流，解决异构数据源之间的数据共享。元数据可以按照设计者指定的格式提取描述信息，这些描述信息中包含了原始数据资源的核心内容信息以及用于定位数据资源的存储位置信息。通过元数据可以简单高效地管理大量网络化数据，以及实现信息资源的有效发现。

现有的方法，考虑多个类别数据格式的不一致性，将元数据分为两层。一方面对于每一类别的数据，分别创建一种与之对应的分类元数据进行描述。另一方面在多个分类元数据之上，设计一种全局元数据屏蔽每个类别分类元数据格式上的差异。但是，在每个类别的分类元数据中，由于固定的格式限定，对于某些多个关键字段较多的结构化数据，所得到元数据中往往会发生消息损失的情况，影响到对数据的检索。

发明内容

本发明的目的是提供一种数据集成方法、装置和系统，以解决现有的元数据格式中每个类别的分类元数据由于受固定的格式限定而造成的消息损失的问题。

为解决上述问题，本发明的实施例提供了一种数据集成方法，包括：

根据不同节点中原始数据的主题类型，确定与所述原始数据对应的元数据标签；

根据所述元数据标签，获取所述原始数据中对应所述元数据标签的数据信息；

根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据。

其中，根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据的步骤包括：

根据预设元数据格式，将所述元数据标签按照标签等级进行布局；

将获取到的数据信息添加到对应的元数据标签中，生成对应不同节点的元数据，并将所述元数据保存在对应的节点中。

其中，所述元数据标签包括固定标签；

所述固定标签表示元数据的属性，包括原始数据的发布用户、发布时间、主题、描述信息、数据库存储位置，以及元数据编号。

其中，所述元数据标签还包括特性标签，所述特性标签表示原始数据的主题特性。

其中，在根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据的步骤之后，还包括：

根据获取到的查询关键词，确定与所述查询关键词关联的词语，得到待查询词语；

在不同节点存储的所述元数据中，查询包括所述待查询词语的目标元数据；

获取对应所述目标元数据的原始数据。

其中，根据获取到的查询关键词，确定与所述查询关键词关联的词语，得到待查询词语的步骤包括：

对查询关键词进行分词，得到目标关键词；

基于文本深度表示模型，确定出与所述目标关键词关联的词语；

将所述目标关键词和与所述目标关键词关联的词语整合，得到待查询词语。

其中，在不同节点存储的所述元数据中，查询包括所述待查询词语的目标元数据的步骤包括：

在各个节点的元数据索引中，查询是否存在所述待查询词语；

若当前节点存在所述待查询词语，基于中文全文检索引擎和文本深度表示模型，查询出目标元数据。

其中，在各个节点的元数据索引中，查询是否存在所述待查询词语的步骤包括：

根据所述待查询词语，获取当前节点过滤器的位数组内的记录信息；其中所述过滤器包括存储在自身的位数组和存储在数据库中的计数表，所述计数表是二维数据表，记录自身所属节点的所有元数据索引经哈希函数处理后，映射到所述位数组中对应位的累加数值；

根据所述记录信息，确定当前节点是否存在所述待查询词语。

其中，所述位数组是包括m位的二进制向量，若所述计数表中对应位的累加数值大于0，则所述位数组的对应位记为1；若所述计数表中对应位的累加数值等于0，则所述位数组的对应位记为0；

根据所述记录信息，确定当前节点是否存在所述待查询词语的步骤包括：

若所述记录信息表示对应所述待查询词语的位中存在至少一个0，则确定当前节点不存在所述待查询词语；若所述过滤器中对应所述待查询词语的位中不存在0，则确定当前节点存在所述待查询词语。

其中，基于中文全文检索引擎和文本深度表示模型，查询出目标元数据的步骤包括：

根据相关性得分公式，得到当前元数据与所述待查询词语的相关度Score(Q,d,E)，所述相关性得分公式为：其中Q表示目标关键词的集合，q_i表示Q的一个分词，d表示被检索的元数据，E表示通过文本深度表示模型对Q中查询词进行语义扩展后得到的扩展词的集合，m_i表示的语义扩展词数量，表示q_i与之间的语义相似度，表示的权重，f_i ^j为在d中的出现频率，k和b为调节因子，dl为d的长度，avgdl为所有元数据的平均长度；N为索引中的全部记录个数，为包含了的记录个数；

若所述相关度满足一预设条件，则确定所述当前元数据为目标元数据。

为解决上述问题，本发明的实施例还提供了一种数据集成装置，包括：

确定模块，用于根据不同节点中原始数据的主题类型，确定与所述原始数据对应的元数据标签；

第一获取模块，用于根据所述元数据标签，获取所述原始数据中对应所述元数据标签的数据信息；

生成模块，用于根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据。

其中，所述生成模块包括：

第一处理子模块，用于根据预设元数据格式，将所述元数据标签按照标签等级进行布局；

第二处理子模块，用于将获取到的数据信息添加到对应的元数据标签中，生成对应不同节点的元数据，并将所述元数据保存在对应的节点中。

其中，所述元数据标签包括固定标签；

其中，所述数据集成装置还包括：

处理模块，用于根据获取到的查询关键词，确定与所述查询关键词关联的词语，得到待查询词语；

查询模块，用于在不同节点存储的所述元数据中，查询包括所述待查询词语的目标元数据；

第二获取模块，用于获取对应所述目标元数据的原始数据。

其中，所述处理模块包括：

分词子模块，用于对查询关键词进行分词，得到目标关键词；

确定子模块，用于基于文本深度表示模型，确定出与所述目标关键词关联的词语；

整合子模块，用于将所述目标关键词和与所述目标关键词关联的词语整合，得到待查询词语。

其中，查询模块包括：

第一查询子模块，用于在各个节点的元数据索引中，查询是否存在所述待查询词语；

第二查询子模块，用于若当前节点存在所述待查询词语，基于中文全文检索引擎和文本深度表示模型，查询出目标元数据。

其中，所述第一查询子模块包括：

获取单元，用于根据所述待查询词语，获取当前节点过滤器的位数组内的记录信息；其中所述过滤器包括存储在自身的位数组和存储在数据库中的计数表，所述计数表是二维数据表，记录自身所属节点的所有元数据索引经哈希函数处理后，映射到所述位数组中对应位的累加数值；

第一确定单元，用于根据所述记录信息，确定当前节点是否存在所述待查询词语。

所述第一确定单元进一步用于若所述记录信息表示对应所述待查询词语的位中存在至少一个0，则确定当前节点不存在所述待查询词语；若所述过滤器中对应所述待查询词语的位中不存在0，则确定当前节点存在所述待查询词语。

其中，所述第二查询子模块包括：

计算单元，用于根据相关性得分公式，得到当前元数据与所述待查询词语的相关度Score(Q,d,E)，所述相关性得分公式为：其中Q表示目标关键词的集合，q_i表示Q的一个分词，d表示被检索的元数据，E表示通过文本深度表示模型对Q中查询词进行语义扩展后得到的扩展词的集合，m_i表示的语义扩展词数量，表示q_i与之间的语义相似度，表示的权重，f_i ^j为在d中的出现频率，k和b为调节因子，dl为d的长度，avgdl为所有元数据的平均长度；N为索引中的全部记录个数，为包含了的记录个数；

第二确定单元，用于若所述相关度满足一预设条件，则确定所述当前元数据为目标元数据。

为解决上述问题，本发明的实施例还提供了一种数据集成系统，包括上所述的数据集成装置。

本发明的上述技术方案的有益效果如下：

本发明实施例的数据集成方法，首先，会根据不同节点中原始数据的主题类型，确定出与原始数据对应的元数据标签；然后，根据该元数据标签，在该原始数据中获取到对应该元数据标签的数据信息；最后，再根据预设元数据格式，将元数据标签和对应的数据信息结合，生成对应不同节点的元数据。这样，不仅能够实现多源、异构、复杂数据的统一描述，而且由于元数据的标签是由原始数据的主题类型确定的，不同主题类型的原始数据基于其内容设定了适用的元数据标签，避免了消息的损失，大大提高了数据的描述能力，也增大了后续检索查询的正确率。

附图说明

图1为本发明实施例的数据集成方法的流程示意图一；

图2为本发明实施例的数据集成方法的流程示意图二；

图3为本发明实施例的数据集成方法的流程示意图三；

图4为本发明实施例中过滤器的结构示意图；

图5为基于过滤器的相关节点发现过程示意图；

图6为本发明实施例的数据集成装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的元数据格式中每个类别的分类元数据由于受固定的格式限定而造成的消息损失的问题，提供了一种数据集成方法，基于原始数据的主题类型确定元数据格式中的标签来生成元数据，避免了消息的损失。

如图1所示，本发明实施例的一种数据集成方法，包括：

步骤101，根据不同节点中原始数据的主题类型，确定与所述原始数据对应的元数据标签；

步骤102，根据所述元数据标签，获取所述原始数据中对应所述元数据标签的数据信息；

步骤103，根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据。

通过上述步骤，本发明实施例的数据集成方法，可应用于服务器中，首先，会根据不同节点中原始数据的主题类型，确定出与原始数据对应的元数据标签；然后，根据该元数据标签，在该原始数据中获取到对应该元数据标签的数据信息；最后，再根据预设元数据格式，将元数据标签和对应的数据信息结合，生成对应不同节点的元数据。这样，不仅能够实现多源、异构、复杂数据的统一描述，而且由于元数据的标签是由原始数据的主题类型确定的，不同主题类型的原始数据基于其内容设定了适用的元数据标签，避免了消息的损失，大大提高了数据的描述能力，也增大了后续检索查询的正确率。

而为更充分、具体地通过元数据来描述原始数据，元数据标签往往会分为多个标签等级，如一级标签、归属于一级标签的二级标签、归属于二级标签的三级标签等等。在该实施例中，具体的，步骤103包括：

这里，首先根据预设元数据格式，将经步骤101确定出与原始数据对应的元数据标签，按照各个标签的标签等级进行布局；然后将经步骤102获取到的数据信息添加到对应的元数据标签中，生成对应不同节点的元数据。而将生成的元数据采用分布式存储方式保存在对应节点中的，能够避免统一存储中出现的单节点计算存储能力不足以及可靠性差的问题，还提升了资源利用率。其中，元数据的存储节点是其存储的数据库服务器的某节点，而非原始数据的节点。

在上述实施例中，与原始数据的主题类型的对应关系元数据标签，其内容可以由工作人员进行设定，而为体现原始数据的相关属性信息，具体的，所述元数据标签包括固定标签；

上述的固定标签：原始数据的发布用户Provider、发布时间Time、主题Subject、描述信息Description、数据库存储位置URL，以及元数据编号ID对于所有类别的原始数据都是通用的，构成元数据的必选项。

其中，ID用于唯一标识当前生成的元数据。而为了在检索后获取到对应的原始数据，一级标签URL中还包括多个关于原始数据存储位置的二级标签：数据库类型DBVersion、数据库地址IP、端口Port、数据库名称Database、所属表名Table Name、表中记录标识Identifier、用户名User和密码Password。

进一步的，所述元数据标签还包括特性标签，所述特性标签表示原始数据的主题特性。

特性标签为可选标签，并不是所有元数据中都具有的，是用于生成关键字段较多的结构化数据的元数据时，能够将某些主题的原始数据按设定的元数据标签，将其特性在元数据中进行详细的描述，以便于后续通过元数据来提取原始数据。其中，特性标签至少包括一级标签特性Properties和归属于一级标签Properties下的对特性内容具体描述的二级标签。这里，对特性内容具体描述的二级标签的具体实现是根据原始数据的主题类型预设定的。

另外，在上述实施例中，生成的元数据格式是预设的，可以采用可扩展标记语言XML格式。但是，XML格式的数据，会出现重复描述的开始标签和结束标签，而且对于对应同一标签的不同信息，也还会增加重复的标签，增加了数据量以及数据存储空间。因此，优选的采用轻量级的对象表达法JSON格式。JSON格式是一种高扩展性的Key/Value数据格式，通过对象和数组两种结构可以表达各种复杂的结构。JSON格式具有和XML格式不相上下的扩展能力，却相对XML格式更加简洁，并且通过键值(标签)JSON可以方便地获取到Value内容，拥有比XML更高的查询效率。通过标签的嵌套，JSON格式的元数据能够有效解决不同主题数据的元数据格式中特性标签的名称和数量不一致的问题。对于某些主题的数据，特性标签中可以采用对应预定的多重嵌套标签，大大提高了数据的同一描述能力。

以A节点中主题为智能家居的原始数据为例，生成JSON格式的元数据如下：

在该示例的元数据生成过程中，为清楚地描述以智能家居为主题的原始数据，其对应的元数据标签除固定标签外，还包括特性标签，其中特性标签包含了两层嵌套，具体为一级标签特性Properties，归属于Properties的二级标签地址Address、电话号码Phone、传感器Sensors、设备Devices、状态State，归属于Sensors的三级标签温度传感器Temperature Sensor、空气传感器Air Sensor、光线传感器Light Sensor、烟雾传感器Smoke sensor、气敏传感器Gas Sensor、声敏传感器Acoustic Sensor，归属于Devices的三级标签空调设备Air conditioner、空气过滤器Air Cleaner、冰箱Fridge、电视TV、清洁机器人Roomba、电饭煲Rice cooker。这样，按照上述的元数据标签生成的元数据，就能够通过元数据清晰的描述关于智能家居主题的原始数据，当然，若当前的原始数据中没有对应特性标签中某些具体标签的信息时，在生成的元数据中可以对应设置为无效null。

如此，其他主题原始数据的元数据生成，可以在上述元数据格式的基础上，采用与其主题对应的元数据标签固定标签或者固定标签+特性标签(原始数据的主题特性)，通过更适应的结构来完成。而且，可以根据任务需求修改元数据的格式，如增加、删除或者修改一类主题的特性标签，对于异构数据的集成更加方便灵活。

此外，上述实施例的数据集成方法，还可以与现有的非关系型NoSQL文档数据库相结合，将元数据一JSON文档的形式存储于JSON数据库中，实现更高的检索效率。而要将元数据存储在对应的节点中，优选存储元数据的数据库为MongoDB。MongoDB是一个基于分布式文件存储的数据库，支持属性的索引和集群自动切分数据。分布式的元数据存储方式有效提高了系统的稳定性和大规模数据的处理能力。这样，不同节点原始数据对应生成的元数据，将会记录分散存储在MongoDB数据库服务器的多个节点。

在生成不同节点原始数据对应的元数据后，既能够通过格式统一的元数据检索获取到所需的原始数据。因此，在上述实施例的基础上，本发明实施例的数据集成方法，如图2所示，在步骤103之后，还包括：

步骤104，根据获取到的查询关键词，确定与所述查询关键词关联的词语，得到待查询词语；

步骤105，在不同节点存储的所述元数据中，查询包括所述待查询词语的目标元数据；

步骤106，获取对应所述目标元数据的原始数据。

这里，可通过发起的检索请求，获取到查询关键词。但是若仅使用查询关键词进行检索，显示会遗漏包括与查询关键词同义或者具有子类关系的词语(如与查询关键词Car同义的Vehicle，与Car具有子类关系的Truck)的检索，影响到检索的质量。因此，首先会根据查询关键词确定出与其关联的词语，得到待查询词语；之后，以待查询词语为基础，在元数据存储的各个节点中进行检索，查询出包括该待查询词语的目标元数据；最终，通过目标元数据获取到其对应的原始数据，完成数据的检索。

考虑到用户检索输入的查询关键词不限定于独立的词语，还存在查询词条的形式，所以，如图3所示，在步骤104中包括：

步骤1041，对查询关键词进行分词，得到目标关键词；

步骤1042，基于文本深度表示模型，确定出与所述目标关键词关联的词语；

步骤1043，将所述目标关键词和与所述目标关键词关联的词语整合，得到待查询词语。

这里，首先经步骤1041对查询关键词进行分词，剔除没有实际意义的分词，得到了一个或多个目标关键词；然后利用文本深度表示模型word2vec来确定出与目标关键词关联的词语；最后将目标关键词和与其关联的词语整合，得到最终的待查询词语。其中，利用word2vec确定关联词语的过程，是通过对语料库进行训练，将每个词映射成k维实数向量，通过词与词之间的距离来判断它们之间的语义相似度，将与目标关键词相似度最高的几个词作为其关联的词语。

然而，所得到的待查询词语不仅包括了目标关键词还包括了扩展的与目标关键词关联的词语，数量相对较多，而元数据存储在不同的节点，若对每个节点的元数据进行全文检索，则会造成计算资源上的大量消耗。因此，在发明实施例中，步骤105包括：

这里，在进行具体元数据词条匹配查询前，会先确定与待查询词语相关的元数据服务器节点，然后再进一步在该节点中基于中文全文检索引擎和文本深度表示模型查询出目标元数据。

为实现确定与待查询词语相关的元数据服务器节点，本发明的实施例中，在存储元数据的服务器节点内分别创建了一个过滤器，将元数据索引的分词结果作为输入标签对过滤器进行初始化，使过滤器中包含了其所属节点内所有的元数据词条信息。故，在各个节点的元数据索引中，查询是否存在所述待查询词语的步骤包括：

进一步的，所述位数组是包括m位的二进制向量，若所述计数表中对应位的累加数值大于0，则所述位数组的对应位记为1；若所述计数表中对应位的累加数值等于0，则所述位数组的对应位记为0；

相应的，根据所述记录信息，确定当前节点是否存在所述待查询词语的步骤包括：

应该知道的是，本发明实施例中的过滤器是一种改进型计数布隆过滤器(ICBF，Improved Counting Bloom Filter)来实现的。布隆过滤器(BF，Bloom Filter)在数据结构上是一个包含m位的位数组，用B表示。当没有元素插入时，每一位都初始化0。对于包含n个元素的集合S＝{x₁,x₂,...,x_n}，BF利用k个相互独立的哈希函数H＝{h₁,h₂,...,h_k}，将S中的每个元素映射到位数组B的k个不同的位中。B(h_i(x))＝1(i＝1,2,...k)。如果BF中的一个位置多次映射，只在第一次映射时由0修改为1，其余情况下保持不变。在判断y∈S还是时，和初始化的过程类似，仍然用BF的k个哈希函数对y进行映射。如果B(h_i(y))＝1，就认为y是集合S中的元素，否则就认为

BF利用位数组很简洁地表示一个集合，并能以很高的概率判断一个元素是否属于这个集合，这种检测只会对在集合内的数据错判，而不会对不是集合内的数据进行错判BF的缺点是不能处理碰撞，因而处理元素的删除。当存在多个元素都映射到了BF的同一位时，如果执行删除操作将此位清零，会造成其它元素在BF中哈希映射的k个位的值发生变化，造成原本属于集合的元素出现误判。因此对于频繁添加和删除的数据集合，BF并不能够满足需求。计数布隆过滤器(CBF，Counting Bloom Filter)对BF进行了改进以解决BF删除的冲突问题。它将BF位数组的每一位扩展为一个t位的计数器Counter。当插入一个新元素时，元素映射的k个位置的Counter的值分别增加1；当删除一个元素时，该元素对应的k个Counter的值分别减去1；在查询元素时，如果查询词映射的k个位置的Counter值全都大于0，则认为该元素属于集合，否则认为不属于集合。CBF保持了BF简单的数据结构并且能够处理碰撞，但是增加了t倍的存储空间。而且当CBF中的一个元素出现的次数较大时，会带来计数器范围的溢出。

针对CBF的不足，本发明实施例中对标准CBF进行了改进，提出了ICBF。ICBF具有和BF相同主体架构，包括为m位的二进制向量的位数组，以及实现计数器功能为二维数据表的计数表(结构说明如表1)。

表1

当向ICBF插入一个元素x时，利用k个相互独立的哈希函数H＝{h₁,h₂,...,h_k}元素映射到位数组B的k个位中。如果B(h_i(x))(i＝1,2,...k)(元素x经哈希函数映射到位数组的k个位的初始值)等于0，则将该位置1，同时向计数表中插入ID为h_i(x)的记录，value值设为1。如果B(h_i(x))已经为1，则不改变B(h_i(x))的值，更新计数表中ID为h_i(x)的value值，增加1。当删除元素x时，将计数表中ID为h_i(x)的value字段减1，如果value减至0，同时还要将位数组中B(h_i(x))的值设置为0。查询过程则和BF完全相同，直接通过查询B(h_i(x))(i＝1,2,...k)是否都为1来判断元素是否在集合内。ICBF对于内存的需求和BF相同，而且在数据表中存储了各单元的计数信息，通过计数表可以恢复BF的内容，避免了因服务器重启或宕机造成的数据丢失。ICBF只在插入新的元数据和删除元数据时才对计数表进行操作，而频繁的节点查询造作则无需经过计数表，直接查询位数组即可，即保持了查询的高效性又节省了内存空间。具体的，以8位的二进制向量为例，给出了如图4所示的ICBF的结构示意图。

这样，如图5所示，在对查询关键词进行分词处理后，得到目标关键词，组成的集合为C＝{C₁,C₂,...C_d}。语义扩展后得到与目标关键词关联的词语，整合得到包括目标关键词以及与其关联的词语的待查询词语，组成集合E＝{E₁,E₂,...E_f}(f＞d)。然后将E作为每个节点ICBF的查询输入，来判断每个节点的ICBF是否包含这些扩展的查询词。如果且B(h_i(e))＝1，则认为该节点包含要查询的元数据。之后在发现的就该节点内进行元数据查询操作，每个节点查询返回的数据集合归并后作为一次查询的结果。

当然，在该ICBF中进行当前节点的初步检索时，ICBF也能够对输入词先分词(剔除虚词)再基于word2vec进行关联词语扩展，以避免遗漏的情况。

还应该知道的是，在初次查询确定出哪些节点包含要查询的元数据后，就可以对这些节点进行具体的元数据查询了。由于在ICBF初始化阶段，已经对节点内的元数据记录创建了索引，因此可以在此基础上使用全文检索引擎进行匹配查询，优选Sphinx引擎进行索引查询。Sphinx是一个基于SQL的全文检索引擎，可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx支持高速建立索引(最高可达10MB/秒，而常用的Lucene全文检索引擎建立索引的速度为1.8MB/秒)；检索速度比Lucene快5～10倍，2-4GB以内的文本检索速度不到0.1秒钟。

进一步具体的，基于中文全文检索引擎和文本深度表示模型，查询出目标元数据的步骤包括：

这里，通过将相应的数值代入相关性得分公式后，就能够得到查询节点中元数据与该查询词语的相关度，进而判断是否满足预设条件(该相关度是否到达预设阈值或者在预设范围之中等等)，确定出满足预设条件的目标元数据。

但是，还应该了解的是，对于特定的记录集合，包含了的记录数越多，的权重则越低。也就是说，当很多记录都包含了时，的区分度就不高，因此使用来判断相关性时的重要度就较低。由于节点内数据库内的数据是动态变化的，索引文件采用主索引+增量索引的方式保证记录的完整。当增加新记录或原有记录数据更新时，将主索引文件最大ID以后的JSON元数据文档创建增量索引，然后每隔一定周期，将增量索引合并到主索引中，保证索引文件与数据表的完整对应。

综上所述，本发明实施例的数据集成方法，基于不同节点中原始数据的主题类型确定出与该原始数据对应的元数据标签后，再获取原始数据中对应该元数据标签的数据信息，最后按照预设元数据格式结合生成元数据。通过设计通用的元数据结构，能够实现多源、异构、复杂数据的统一描述，能够同时描述结构化数据和非结构数据，避免了消息的损失，大大提高了数据的描述能力，也增大了后续检索查询的正确率；对查询关键词进行了语义扩展，提高了检索质量；基于改进型计数布隆过滤器进行二次检索，提升了检索效率，节省了计算资源。

如图6所示，本发明的实施例还提供了一种数据集成装置，包括：

确定模块601，用于根据不同节点中原始数据的主题类型，确定与所述原始数据对应的元数据标签；

第一获取模块602，用于根据所述元数据标签，获取所述原始数据中对应所述元数据标签的数据信息；

生成模块603，用于根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据。

其中，所述生成模块包括：

其中，所述元数据标签包括固定标签；

其中，所述数据集成装置还包括：

第二获取模块，用于获取对应所述目标元数据的原始数据。

其中，所述处理模块包括：

其中，查询模块包括：

其中，所述第一查询子模块包括：

其中，所述第二查询子模块包括：

本发明实施例的数据集成装置，基于不同节点中原始数据的主题类型确定出与该原始数据对应的元数据标签后，再获取原始数据中对应该元数据标签的数据信息，最后按照预设元数据格式结合生成元数据。通过设计通用的元数据结构，能够实现多源、异构、复杂数据的统一描述，能够同时描述结构化数据和非结构数据，避免了消息的损失，大大提高了数据的描述能力，也增大了后续检索查询的正确率；对查询关键词进行了语义扩展，提高了检索质量；基于改进型计数布隆过滤器进行二次检索，提升了检索效率，节省了计算资源。

需要说明的是，该装置是应用了上述数据集成方法的装置，上述数据集成方法的实施例的实现方式适用于该装置，也能达到相同的技术效果。

本发明的实施例还提供了一种数据集成系统，包括上所述的数据集成装置。

此外，该实施例的数据集成系统还包括设置于元数据存储的节点的过滤器，该过滤器包括存储在自身的位数组和存储在数据库中的计数表；其中，该计数表是二维数据表，记录自身所属节点的所有元数据索引经哈希函数处理后，映射到该位数组中对应位的累加数值；该位数组是包括m位的二进制向量，若该计数表中对应位的累加数值大于0，则该位数组的对应位记为1；若该计数表中对应位的累加数值等于0，则所述位数组的对应位记为0。

本发明实施例的数据集成系统，基于不同节点中原始数据的主题类型确定出与该原始数据对应的元数据标签后，再获取原始数据中对应该元数据标签的数据信息，最后按照预设元数据格式结合生成元数据。通过设计通用的元数据结构，能够实现多源、异构、复杂数据的统一描述，能够同时描述结构化数据和非结构数据，避免了消息的损失，大大提高了数据的描述能力，也增大了后续检索查询的正确率；对查询关键词进行了语义扩展，提高了检索质量；基于改进型计数布隆过滤器进行二次检索，提升了检索效率，节省了计算资源。

需要说明的是，该系统是包括应用了上述数据集成方法的装置的系统，上述数据集成方法的实施例的实现方式适用于该系统，也能达到相同的技术效果。

进一步需要说明的是，此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

上述范例性实施例是参考该些附图来描述的，许多不同的形式和实施例是可行而不偏离本发明精神及教示，因此，本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说，这些范例性实施例被提供以使得本发明会是完善又完整，且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中，组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的，并无意成为限制用。如在此所使用地，除非该内文清楚地另有所指，否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时，表示所述特征、整数、步骤、操作、构件及/或组件的存在，但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示，陈述时，一值范围包含该范围的上下限及其间的任何子范围。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据集成方法，其特征在于，包括：

2.根据权利要求1所述的数据集成方法，其特征在于，根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据的步骤包括：

3.根据权利要求1所述的数据集成方法，其特征在于，所述元数据标签包括固定标签；

4.根据权利要求3所述的数据集成方法，其特征在于，所述元数据标签还包括特性标签，所述特性标签表示原始数据的主题特性。

5.根据权利要求1所述的数据集成方法，其特征在于，在根据预设元数据格式，将所述元数据标签与对应的数据信息结合，生成对应不同节点的元数据的步骤之后，还包括：

获取对应所述目标元数据的原始数据。

6.根据权利要求5所述的数据集成方法，其特征在于，根据获取到的查询关键词，确定与所述查询关键词关联的词语，得到待查询词语的步骤包括：

对查询关键词进行分词，得到目标关键词；

7.根据权利要求6所述的数据集成方法，其特征在于，在不同节点存储的所述元数据中，查询包括所述待查询词语的目标元数据的步骤包括：

8.根据权利要求7所述的数据集成方法，其特征在于，在各个节点的元数据索引中，查询是否存在所述待查询词语的步骤包括：

9.根据权利要求8所述的数据集成方法，其特征在于，所述位数组是包括m位的二进制向量，若所述计数表中对应位的累加数值大于0，则所述位数组的对应位记为1；若所述计数表中对应位的累加数值等于0，则所述位数组的对应位记为0；

10.根据权利要求7所述的数据集成方法，其特征在于，基于中文全文检索引擎和文本深度表示模型，查询出目标元数据的步骤包括：

根据相关性得分公式，得到当前元数据与所述待查询词语的相关度Score(Q,d,E)，所述相关性得分公式为：其中Q表示目标关键词的集合，q_i表示Q的一个分词，d表示被检索的元数据，E表示通过文本深度表示模型对Q中查询词进行语义扩展后得到的扩展词的集合，m_i表示的语义扩展词数量，表示q_i与之间的语义相似度，表示的权重，为在d中的出现频率，k和b为调节因子，dl为d的长度，avgdl为所有元数据的平均长度；N为索引中的全部记录个数，为包含了的记录个数；

11.一种数据集成装置，其特征在于，包括：

12.根据权利要求11所述的数据集成装置，其特征在于，所述生成模块包括：

13.根据权利要求11所述的数据集成装置，其特征在于，所述元数据标签包括固定标签；

14.根据权利要求13所述的数据集成装置，其特征在于，所述元数据标签还包括特性标签，所述特性标签表示原始数据的主题特性。

15.一种数据集成系统，其特征在于，包括如权利要求11至14任一项所述的数据集成装置。