CN116842099B

CN116842099B - 一种多源异构数据处理方法和系统

Info

Publication number: CN116842099B
Application number: CN202310517767.0A
Authority: CN
Inventors: 李响; 黄海峰; 孙丽娟; 谢红韬; 丁洪鑫; 汪榕; 谢真强
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2024-03-19
Anticipated expiration: 2043-05-09
Also published as: CN116842099A

Abstract

本发明涉及信息处理领域，公开了一种多源异构数据处理方法和系统，通过配置服务器群包括元服务器，数据服务器，关系服务器及控制器；通过关系服务器根据历史知识图谱和词典数据的信息，将元数据归属于不同的主题下，通过构建主题之间的逻辑关联关系，对获取到的数据做清洗；借助于控制器和用户的反馈机制，通过触发验证机制，预先在数据服务器中对数据源做标引，执行数据信息的可信度评估并做约束控制，有效保障异构数据处理的效率和便捷。

Description

一种多源异构数据处理方法和系统

技术领域

本发明涉及信息处理领域，特别是一种多源异构数据处理方法和系统。

背景技术

在大规模分布式系统中，数据分布在多个数据源中，数据源采用的数据存储并不相同，每个数据源由不同的组件和服务实例对数据源中的数据进行读取、使用、更新、维护和分析，也就是说在大规模系统中现实世界的同一个实体相关的数据是分布、异构的。当进行元数据管理时，对于某一个实体来说，需要从多个数据源中收集该实体相关的元数据，克服异构数据源带来的复杂性；对于存在关系的多个实体来说，需要收集与这些实体所有相关的元数据并成功地捕获实体之间的关联关系。

以釆用面向服务架构的分布式系统为例，系统中包含多个服务，每个服务访问若干个数据源，这些数据源之间可能存在异构性；一个数据源会被多个服务所访问，这些服务之间可能存在调用关系。数据之间存在多源性，同时不同数据之间又存在相互关联关系，如何充分利用现有数据之间的关联关系以及配置数据存储服务器，以解决数据之间的冲突，保证被访问数据的安全性和便捷控制，成为关注的热点。

发明内容

为解决上述问题之一，本发明提出一种多源异构数据处理方法和系统。

一种多源异构数据处理方法，其包括：

所述方法包括：配置服务器群的功能；所述服务器群包括元服务器，数据服务器，关系服务器及控制器；所述数据服务器保存收集到的异构数据，并将收集到的异构数据做处理并转换为标准形式，将提取出的元数据存储在对应的元服务器中；

所述关系服务器中存储有历史知识图谱数据和词典数据，关系服务器根据历史知识图谱和词典数据的信息，将元数据归属于不同的主题下，通过构建主题之间的逻辑关联关系，对获取到的数据做清洗；所述逻辑关系为不同数据归属主题之间的关联依存概率；

所述控制器用于当持续反馈数据异常时，触发服务器集群的验证机制，所述验证机制对各个服务器数据源的数据做合法验证，数据源内的数据合法验证包括数据语法、数据属性和精度的验证；根据数据源的合法验证结果，对数据源存储的数据服务器做信息可信度评估，基于该可信度评估，控制器调度对对应数据服务器的访问；

其中，所述数据属性的验证包括对同一主题下的数据执行离群数据检测；所述离群数据检测具体包括，基于历史信息值及基于所在网络节点获得数据的相似度，所述相似度采用欧拉距离或余弦近似度来度量；将局部可疑离群数据通过广播的方式，发送到临近的节点进行验证；如果临近的节点确认为其离群数据，节点继续广播方式向所述其它近邻节点寻求确认，当其它节点确定离群值的数量满足预定阈值时判定为离群值。

优选的，关系服务器进一步包括：用于获取网站数据，提取数据属性的关联关系，根据逻辑树中的依赖关系，对不符合逻辑树关系的数据做过滤。

优选的，所述将元数据归属于不同的主题下包括：将采集到的元数据做存储，将存储后的元数据特征信息生成主题类型信息，将主题类型信息作为聚合区域，将属于该聚合区域的关键词作为该类数据聚合区域内的数据标引，并将与该关键词相匹配关联的数据，配置到关键词名录下。

优选的，对数据源的数据做处理，包括在数据源中发现元数据，并对数据做验证和数据清洗；所述原始多源异构数据来自网站页面数据。

优选的，数据源从原始多源异构数据中收集包括，获取网站或网页的信息，所述对网页或网站数据中的信息提取，不同主题类型之间的业务关联信息，在做元数据发现时，提取数据属性名和数据属性在时序上的先后关系。

优选的，对获取的到的网站信息中的数据在语义层做融合，将叠加汇聚的多源数据转化为统一的语义内容，具体为转换成形式化的、计算机可读的语义内容。

优选的，对获取的到的网站信息中的数据在语义层做融合包括对元数据做语义层的融合，对元数据的语义层做融合选用语义细粒度融合，语义细粒度融合采用细粒度融合策略消除数据结构和术语聚集在同一粒度下的不一致和冗余关系。

优选的，所述细粒度中的融合中的冗余关系包括重复、等价和包容关系。

优选的，所述离群数据检测具体包括，基于历史信息值及所在节点观测值的相似度定义，将局部可疑离群值通过广播的方式，发送到临近的节点进行验证；如果临近的节点确认为离群值，节点以继续广播方式向其它近邻节点寻求确认。

优选的，将收集到的数据做处理并转换为标准形式包括：对数据源处上报的数据模型，进行语法和语义分析，抽取出数据属性粒度的名称、类型、取值信息，根据抽取出的数据属性粒度的名称、类型、取值信息生成数据属性级别的元数据对象。

优选的，将元数据对象构建为图谱，所述元数据对象表示为图谱中的顶点，元数据对象之间的关系用有向边进行建模，采用箭头的方向表示关系的方向。

优选的还提供一种多源异构数据处理系统，所述系统包括处理器和存储器，所述存储器上存储有计算机程序，所述处理器用于执行存储器上的计算机程序用于实现上述方法。

本发明通过配置服务器群包括元服务器，数据服务器，关系服务器及控制器；通过关系服务器根据历史知识图谱和词典数据的信息，将元数据归属于不同的主题下，通过构建主题之间的逻辑关联关系，对获取到的数据做清洗；借助于控制器和用户的反馈机制，通过触发验证机制，预先在数据服务器的数据源做标引，对存储的数据信息做可信度评估，有效保障了后续异构数据处理的效率和便捷。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制。

图1是本发明方法的流程示意图。

具体实施方式

参看下面的说明以及附图，本发明的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本发明的保护范围。可以理解的是，附图并非按比例绘制。本发明中使用了多种结构图用来说明根据本发明的实施例的各种变形。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

需要说明的是，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。例如，第一信息和第二信息是用于区别不同的信息，而不是用于描述信息的特定顺序。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

实施例1

如图1所示，本发明提出一种多源异构数据处理方法。所述方法包括，配置多个服务器组成的服务器群，所述服务器群中保存从原始数据系统中收集到的数据，所述服务器群将数据源的数据做处理，并转换为标准形式，存储在对应的服务器中；所述服务器群，在服务器群中配置关系服务器，关系服务器中存储有知识图谱数据和词典数据。

所述原始数据系统根据多传感器采集系统或网页数据采集系统中采集的多源异构数据，通过配置关系服务器，在多种的数据源提取出基本的元数据构建数据主题关系对数据清洗。

示例性的，基于多源数据构造知识图谱，通常基本的元数据对象可以用图形来标识。可选的元数据对象表示为图中的顶点，元数据对象之间的关系(即元数据关系)用有向边进行建模，采用箭头的方向表示关系的方向。元数据对象之间的关系是多对多的，同一个元数据对象经过数据处理可以得到多个元数据对象，同一个元数据对象也可能由多个元数据对象公共经过处理得到，元数据关系是单向的。

依据历史多源数据构造的知识图谱配置数据主题之间的逻辑依赖关系，构建不同数据主题之间的逻辑树。所述逻辑树，体现为不同数据主题之间的关联关系依存概率。示例性的，根据数据的上下游关系，父子级关系，主从领域关系或数据资源与数据表之间的映射关系等，构建逻辑树或逻辑拓扑图；在逻辑拓扑图中选中目标主题，即可在逻辑拓扑图查看流程中目标主题上下游关系，目标主题之间数据源之间的关系。

示例性的，根据逻辑关系的关联关系，当出现画像及画家时，和画像与网络访问的具体依存关系明显不同。在网页访问网站和用户访问网络时的情形下，在数据过滤时可以将网络访问和用户特征与画像的含义匹配，而剔除掉与艺术类相关的关联信息，在相应关系数据提取时，能够提升数据处理效率。对诸如网页访问等记录的网站信息做数据清洗处理。根据网页访问数据的逻辑关系，提取数据属性和数据属性在逻辑上的先后关系，所述逻辑关系采用树形结构。树形结构中对应配置为：根据预设依赖逻辑树，可确定数据属性在树形逻辑上的关系。依赖逻辑树也根据依赖、层次关系确定，通过预设的逻辑树配置，对获取到的网站信息做处理，对不符合逻辑树关系的数据做清洗、过滤、验证。

示例性的，可以根据将采集到的数据做存储，将存储后的数据特征区信息生成主题类型信息，将主题类型信息作为聚合区域，将属于该区域的主题类型信息的关键词信息作为该聚合区域内的数据标引，将与该关键词相匹配的或关联的数据，配置到关键词名录下。

所述逻辑关系的获得可选为：对于获取到的数据，根据所述标准关键词，在所述主题数据库获取历史相关联的知识图谱，根据历史知识图谱信息获得的对应权重较高的主题领域，对逻辑树关系做路径查询，得到与该主题领域分别对应的子领域对象信息。对该子领域对象进行融合去重各子领域对象的细化逻辑树关联，将逻辑树关系与候选领域进行交集确定，得到其从属主题领域信息和逻辑关系。

优选的实施方式中，当基于同一主题下的网站数据进行采集时，执行数据的验证，所述数据的验证包括离群数据检测，对异构数据获取到的同一主题或同一区域的异构数据做离群数据检测。所述的异构数据来自于某一主题的语义描述或检测数据。

所述离群数据检测具体包括，基于历史信息值及基于所在网络节点或网页页面获得数据的相似度定义，所述相似度定义，可以采用欧拉距离或余弦近似度来度量。将局部可疑离群数据即离群值通过广播的方式，发送到临近的节点进行验证；如果临近的节点确认为其离群值，节点继续广播方式向所述其它近邻节点寻求确认，所述节点的构造相适应地也采用树型网结构，以减少通信开销，当其它节点确定离群值的数量满足预定阈值时判定为离群值。示例性的，所述节点在具体实施例中，可以是相同主题或相似信息的数据采集源。比如相同的网站主题信息，相同的监测数据信息等。

所述清洗验证处理进一步包括，对获取到的网站信息中的数据在语义层做融合，首先进行数据语义规范化，即将在数据层叠加汇聚的多源数据转化为，统一的语义内容，诸如转换成形式化的、计算机可读的语义内容。

所述语义规范化，具体可以包括，依据网页中的不同位置和格式的多源数据画像元数据框架，对数据的指标维度值做语义特征的提取。诸如不同的数据源对于不同的主题存在不同的描述，对于同一测量对象具有不同的参数数值赋值和描述。

对于元数据采用语义层的融合，选用细粒度融合。语义细粒度融合采用相应的细粒度融合策略消除数据结构和术语聚集同一粒度后的不一致和冗余关系。所述细粒度中的冗余关系包括，重复、等价和包容关系。可选的所述不同的关系具体表现对等关系，由对等关系分为重复关系、等价关系和包容关系。其中重复关系指多源数据采用完全相同的取值和描述具有同一性。等价关系指表达形式不同但语义等价，包容关系指该描述被另一来源数据涵盖。还可包括：互补关系，即交叉性，同一维度指标的多个侧面或不同详细程度；矛盾关系，即排斥性，数据表示结果相互矛盾。

可选的，对于服务器集群还包括元数据服务器，数据服务器及控制器，所述元数据服务器用于存储元数据，文件管理信息被配置在元数据服务器中，数据服务器中存储的数据，对于数据的来源做标引，系统中的元数据服务器可以包括多台功能相同的服务器。在服务器群中设置控制器，所述控制器将来自用户的请求转发给至少三台元数据服务器。可选的，上述元数据服务器，将处理结果分别返还给控制器。控制器对元数据服务器的处理结果进行拟判断，从中选择一个结果返回给客户端。控制器在发现异常的元数据服务器或异常行为时触发后台处理机制数据验证。所述异常行为表现为客户端反馈数据的不可信或不被采纳。所述异常的元数据服务器表现为数据偏离历史均值或历史相似度。

优选的，控制器中触发后台处理数据验证机制包括，对异构数据源所获取的数据做预先处理，在对异构的数据源的获取时做预处理，采用信息可信度评估法，对数据质量从数据规模和数据时效量化信源可信度、从数据价值密度和数据结构量化数据内容、需求目标相关性做评估。示例性的，通过加权方式量化异构数据源所在的服务器或网站来源。

示例性的，所述评估具体为：数据源所在服务器或网站来源的子状态信息，根据优先级赋予不同的权重，对于每个服务器可以对该服务器对应的数据质量等各子状态信息按照对应的权重进行加权求和，得到与该服务器对应的得分，获得对应数据源的可信度。根据优先级按照权重计算分数。

在数据清洗中包括验证数据源合法性，在数据源和服务器集群的元数据管理中心或控制器之间建立数据通信信道。验证给定数据是否合法，还包括数据源内的数据验证和数据源之间的数据验证。数据源内的数据验证主要关注数据的语法是否合法，数据属性是否准确无误、精度是否符合要求等与其他数据源无关的质量指标；数据源间的数据验证更关注数据的语义是否合理，需求借助数据源之间的相关关系进行辅助验证。

元数据对象生成通过分析从数据源处上报的数据模型，对数据模型关联的数据进行语法和语义分析，抽取出数据属性粒度的名称、类型、取值等关键信息，根据这些关键信息生成数据属性级别的元数据对象。所属抽取算法可以采用知识图谱抽取算法。

关系服务器中的逻辑关系，通过异构数据源的知识图谱信息提取获得，所述逻辑关联关系，可以根据神经网络训练自我更新。所述更新的神经网络数据是输入的异构数据源。示例性的，接收异构数据源，对异构数据源进行预处理得到抽取规则及内容文本信息，对各类结构数据进行对应的定位与元数据抽取；将精炼处理的元数据进行基于语义相度和字符相似度的聚类后进行深入关联，可选的，引入领域历史知识库对现有的元数据进行扩充丰富关联与属性并进行标准元模型的构建从而生成由元数据自上而下构建得到的初始元模型，对各类结构数据进行具体实例处理以及不同颗粒度的信息抽取。

对实例知识抽取模块中抽取到的知识进行封装，对封装后的知识进行词义消歧和实体匹配，保证知识的唯一性和准确性后进行知识融合处理，得到实例的知识图谱。对数据中的实例知识图谱进行概念抽取并对抽取得到的概念进行自动聚类后得到由实例数据自下而上生成的实例关联概念模型，元模型验证与演化模块根据实例关联概念模型对初始元模型进行验证。配置关系服务器根据上述实例获得的知识图谱更新其关系层次图。

示例性的，所述方法还包括，对于异构数据源的处理包括对数据源的验证，获取到外部的异构数据源时，在导入过程中首先检查数据源的命名、格式、数据类型是否满足合法性。如果导入数据服务器的数据源是新被处理的，则会先触发控制器对新的数据源进行元数据发现，收集该数据集的元数据，然后从元数据管理中心抽取该数据源的元数据；如果被验证的数据的数据源已经是被处理的，则直接从元数据管理中心抽取该数据源的元数据，提取对应的关系服务器中历史处理记录，对获取到的数据源进行清洗。

控制器进一步用于对异构数据源的数据建立规则模板，将数据约束按照作用的数据属性和数据记录分为了四类，每一类约束对应的规则可以定义相同的模式，由此建立规则模板，用在数据约束作用的数据记录和数据属性上，生成可执行的规则。对于数据的属性，示例性的，数据属性满足的约束主要可以分为类型、取值和关系约束三类，每类约束和规则模板之间的映射关系如下：采用类型约束：约束数据属性取值类型，根据数据属性类型声明规则类型，包括整型、浮点型、字符串型、字节型和日期类型。

设置取值约束：约束数据属性取值范围、是否为空等，包括以下几种：是否为空：是否允许数据属性取值为空。最大值：数据属性允许取值的最大值，仅对整型和浮点型类型数据有效。最小值：数据属性允许取值的最小值，仅对整型和浮点型类型数据有效。最大长度：数据属性允许取值的最大长度，仅对字符串型和字节型数据有效。最小长度：数据属性允许取值的最小长度，仅对字符串型和字节型数据有效。是否有符号：数据属性取值是否有符合，仅对整型和浮点型数据有效。可选的关系约束：数据属性之间的关系约束，包括以下几种：参考约束：数据属性的取值参考另一数据属性的取值。全局唯一约束：数据属性取值全局唯一。全局自增约束：数据属性随ID增加而增加，例如时间戳。

所述方法还包括，控制器的验证处理中包括对数据源中的数据执行规则匹配，通过引擎在被验证数据源上执行生成的规则，检查数据源的约束是否被满足。冲突检测，在规则引擎中应用诸如Rete算法进行规则冲突检测，根据冲突情况，得出数据属性约束是否被满足的结果，以生成验证结果，根据规则的执行情况和冲突解决情况，生成数据的验证结果，明确得出数据在合法性、准确性、相关性上是否验证通过的结论。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多源异构数据处理方法，其特征在于：

所述关系服务器中存储有历史知识图谱数据和词典数据，关系服务器根据历史知识图谱和词典数据的信息，将元数据归属于不同的主题下，通过构建主题之间的逻辑关系，对获取到的数据做清洗；所述逻辑关系为不同数据归属主题之间的关联依存概率；

所述控制器用于当持续反馈数据异常时，触发服务器集群的验证机制，所述验证机制对数据服务器中标引的数据源内的数据做合法验证，数据源内的数据合法验证包括数据语法、数据属性和精度的验证；根据数据源的合法验证结果，对数据源所存储的数据服务器做信息可信度评估，基于该可信度评估，控制器调度用户对相应数据服务器的访问；

其中，所述数据属性的验证包括对同一主题下的数据执行离群数据检测；所述离群数据检测具体包括，基于历史信息值及基于所在网络节点获得数据的相似度，所述相似度采用欧拉距离或余弦近似度来度量；将局部可疑离群数据通过广播的方式，发送到临近的节点进行验证；如果临近的节点确认其为离群数据，节点继续以广播方式向其它近邻节点寻求确认，当其它节点确定离群值的数量满足预定阈值时判定为离群值。

2.如权利要求1所述的方法，其特征在于：关系服务器进一步包括：获取网站数据，提取数据属性的关联关系，根据逻辑树中的依赖关系，对不符合逻辑树关系的数据做过滤。

3.如权利要求2所述的方法，其特征还在于：所述将元数据归属于不同的主题下包括：将采集到的元数据做存储，将存储后的元数据特征信息生成主题类型信息，将主题类型信息作为聚合区域，将属于该聚合区域的关键词作为该类型数据聚合区域内的数据标引，并将与该关键词相匹配关联的数据，配置到关键词名录下。

4.如权利要求3所述的方法，其特征在于：所述数据服务器保存收集到的数据，并将收集到的数据做处理并转换为标准形式，并将提取出的元数据存储在对应的元服务器中包括：对获取到的网站信息中的数据在语义层做融合，将叠加汇聚的多源数据转化为统一的语义内容。

5.如权利要求4所述的方法，其特征在于：对获取到的网站信息中的数据在语义层做融合包括对元数据做语义层的融合，对元数据做语义层的融合选用语义细粒度融合，语义细粒度融合采用细粒度融合策略消除数据结构和术语聚集在同一粒度下的不一致和冗余关系。

6.如权利要求5所述的方法，其特征还在于：所述细粒度融合中的冗余关系包括重复、等价和包容关系。

7.如权利要求6所述的方法，其特征还在于：所述逻辑关系包括数据的上下游关系，父子级关系和主从领域关系。

8.如权利要求7所述的方法，其特征在于：将收集到的数据做处理并转换为标准形式包括：对数据源处上报的数据模型，进行语法和语义分析，抽取出数据属性粒度的名称、类型、取值信息，根据抽取出的数据属性粒度的名称、类型、取值信息生成数据属性级别的元数据对象。

9.如权利要求8所述的方法，其特征在于：所述数据源包括网站或监测点。

10.一种多源异构数据处理系统，所述系统包括处理器和存储器，所述存储器上存储有计算机程序，所述处理器用于执行存储器上的计算机程序用于实现权利要求1-9中任一所述的方法。