CN109522312A - 一种数据处理方法、装置、服务器和存储介质 - Google Patents

一种数据处理方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN109522312A
CN109522312A CN201811423957.1A CN201811423957A CN109522312A CN 109522312 A CN109522312 A CN 109522312A CN 201811423957 A CN201811423957 A CN 201811423957A CN 109522312 A CN109522312 A CN 109522312A
Authority
CN
China
Prior art keywords
data
initial
initial data
related information
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811423957.1A
Other languages
English (en)
Other versions
CN109522312B (zh
Inventor
火莽
火一莽
何明
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811423957.1A priority Critical patent/CN109522312B/zh
Publication of CN109522312A publication Critical patent/CN109522312A/zh
Application granted granted Critical
Publication of CN109522312B publication Critical patent/CN109522312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、服务器和存储介质。其中,该方法包括:对原始数据进行探查定义,得到所述原始数据的关联信息;根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据;将所述待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。在面对海量的数据时,也能够快速准确的提取出有价值的数据信息,促进了数据信息的价值转换。

Description

一种数据处理方法、装置、服务器和存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、服务器和存储介质。
背景技术
随着科学技术的发展,数据信息进入大数据时代,各行业在数据信息如此发达的时代,对数据的依赖性不断增强。
现有的大数据处理方法通常是:将获取的所有数据信息直接存储在数据库中,在为需求方提供数据时从数据库中进行查找。但是,随着数据信息的数量越来越大,面对庞大的数据量,现有方案很难快速准确的在数据库中提取出有价值的信息,从而影响数据信息的价值转换。
发明内容
本发明实施例提供一种数据处理方法、装置、服务器和存储介质,在面对海量的数据时,也能够快速准确的提取出有价值的信息,进而提高数据信息的价值转换。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
对原始数据进行探查定义,得到所述原始数据的关联信息;
根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据;
将所述待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
探查定义模块,用于对原始数据进行探查定义,得到所述原始数据的关联信息;
数据处理模块,用于根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据;
数据存储模块,用于将所述待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意所述的数据处理方法。
本发明实施例的技术方案,通过对获取的所有原始数据进行探查定义,得到各原始数据的关联信息,根据各原始数据的关联信息对原始数据进行处理后分类存储在数据库集群中的多种类的数据库中,以便后续为数据需求方提供数据服务时使用。即使在面对海量的数据时,也能够快速准确的提取出有价值的数据信息,促进了数据信息的价值转换。
附图说明
图1是本发明实施例一提供的一种数据处理方法的流程图;
图2是本发明实施例二提供的一种数据处理方法的流程图;
图3是本发明实施例二提供的数据处理过程的整体架构示意图;
图4是本发明实施例三提供的一种数据处理装置的结构示意图;
图5是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据处理方法的流程图,本实施例可适用于对获取的多源异构的大数据进行处理,构成数据仓库,以为数据需求方提供数据服务的情况,该方法可以由本发明实施例提供的数据处理装置或服务器来执行,该装置可采用硬件和/或软件的方式实现。如图1所示,具体包括如下步骤:
S101,对原始数据进行探查定义,得到原始数据的关联信息。
其中,原始数据可以是获取的多源异构的未经处理的初始数据。多源可以是指原始数据的来源很多,如可以涉及物联网、互联网或数据库等,其中,数据库可以包括各行业数据库、政府部门数据库、省市级数据库、部本级数据库等。异构可以是指原始数据的数据格式和存储系统不同,如原始数据的数据格式包括结构化(如数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的)、半结构化(如同一类实体可以有不同的属性,该类实体没有顺序之分)和非结构化(如文本、音频、视频、图片数据等)。原始数据的存储系统可以包括网络文件系统、分布式文件系统、关系数据库、消息总线等。原始数据的关联信息可以是对原始数据经过探查后,针对原始数据定义的与该原始数据相关的信息。其中,关联信息可以包括原始数据的原有信息,如数据元等。也可以包括新增加的相关信息,如数据资源目录、数据分级分类、数据血缘关系以及所属数据库等。需要说明的是,本发明实施例不对关联信息中包含的具体内容进行限定,可以根据实际需求新增或减少关联信息中具体包含的内容。
可选的,在本发明实施例中,从数据源获取了原始数据后,并不是直接进行数据的提取、转换或加载操作,而是先对获取的数据进行探查,通过对原始数据进行分析,为获取的原始数据统一定义原始数据的关联信息,以便于后续快速准确的对获取的原始数据进行处理。具体的,对原始数据进行探查定义,得到原始数据的关联信息可以包括以下三个步骤:
A、从数据源中获取原始数据,并确定原始数据的元数据。
其中,元数据可以描述原始数据的数据,主要是描述原始数据属性的信息,用来支持如指示原始数据的存储位置、历史数据、资源查找、文件记录等功能。例如,元数据可以帮助用户更好的使用数据;还可以支持系统对数据的管理和维护等。
示例性的,从数据源中获取原始数据的方式可以是通过不同的数据源,获取各数据源中存储的不同结构、不同存储位置(如网络文件系统、分布式文件系统、关系数据库和消息总线等)的原始数据。具体的获取方式本发明实施例不进行限定。如可以是对政府机构或公司企业等公开的零散信息进行整理获取原始数据;也可以是通过购买某些付费的数据库来获取该数据库中的原始数据;还可以是通过网页扒取、调查、实验等方式获取原始数据等。获取了原始数据后,需要确定原始数据的元数据,具体的,确定原始数据对应的元数据的方式也有很多,对此本发明实施例也不进行限定。例如,可以是调用相关元数据提取函数来从存储原始数据的数据源中查询出原始数据对应的元数据;还可以是通过预设的规范系统来提取原始数据对应的元数据等。可选的,由于元数据可以包括很多具体的信息,可以通过不同的提取方法提取元数据中的不同信息。
B、根据原始数据的内容信息,对元数据进行探查分析。
其中,原始数据的内容信息可以是原始数据记录的具体内容。可选的,根据原始数据内容信息对元数据进行探查分析可以是采用统计学方法对元数据进行探查分析,具体的,可以是通过获取的原始数据的具体内容,对元数据中记录的描述该原始数据的属性信息的正确性进行分析,分析该数据的元数据是否有误。例如,若原始数据的具体内容记录的是经济学的学科介绍,分析其对应的元数据是否是与经济学科介绍对应的属性信息,若是,则说明元数据准确,后续可以依据该元数据信息定义对应的原始数据的关联信息;否则,说明元数据不准确,需要对元数据按照探查分析的结果进行更正。
还可以是采用预先训练好的基于神经网络的探查分析模型来对原始数据的元数据进行探查分析。具体的,可以是将原始数据的内容信息和其对应的元数据输入训练好的探查分析模型中,该模型会按照训练时的样本数据、训练算法以及原始数据的内容信息对元数据进行探查分析,输出该元数据的探查分析结果。其中,基于神经网络的探查分析模块可以是预先采集多组原始数据内容信息、原始数据的元数据以及其对应的探查分析结果作为样本数据,按照相应的神经网络算法,训练原始神经网络模型得到的。
C、根据探查分析结果,定义原始数据的关联信息。
示例性的,根据步骤B对原始数据的元数据探查分析结果,定义原始数据关联信息可以包括但不限于:原始数据的数据元、数据资源目录、数据分级分类、数据血缘关系以及所属数据库中的至少一个。其中,原始数据的数据元又称数据类型,通过定义、标识以及允许值等一系列属性描述的数据单元。原始数据的数据资源目录用于数据的管理和存储,主要记录原始数据的主题、关键词、存储路径以及具体用途等等。原始数据的分级分类中,分级是按照数据的安全性分为不同的等级;分类是按照对象、场景、任务的不同对数据进行分类。可选的,对原始数据进行分级分类后,各原始数据对不同分类的数据可以分为如下等级:可见可用、可用不可见、不可用不可见等。原始数据的血缘关系可以是对数据的全部处理过程进行追踪的过程,如,记录各原始数据的最初来源,经过的具体处理过程以及各处理过程对应的数据状态等。原始数据所属的数据库可以是定义该原始数据在本发明实施例的数据库集群中对应的具体数据库类型,其中,该数据库可以是逻辑上定义的数据库,也可以是定义该原始数据存储到逻辑定义的数据库的具体算法等。
S102,根据原始数据的关联信息,对原始数据进行处理,得到待存储数据。
其中,待存储数据可以是对原始数据进行处理后,等待存储到数据库集群中的数据。该待存储数据可以是对所有等待存储到数据库集群中的数据的总称;也可以是指数据库集群中的不同类型的数据库各自对应的待存储数据,对此本发明实施例不进行限定。
示例性的,S101获取的原始数据属于大数据,大数据普遍具有规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不统一等特点,因此,为了提升原始数据的价值密度,需要对获取的原始数据,根据原始数据的关联信息,对原始数据进行处理。可选的,本发明实施例中,根据原始数据的关联信息对原始数据进行处理的方式有很多,本发明实施例对此不进行限定。至少可以包括以下几种处理方式:数据提取、数据清洗、数据关联、数据对比、数据标识等环节,其中,数据提取可以是从原始数据中提取属于同一类型的数据库的原始数据;数据清洗,可以是对原始数据按照预设的算法进一步过滤筛选的过程,例如可以是清洗掉重复的原始数据、清洗掉价值较低的原始数据等;数据关联,可以是按照预先设定的关联规则,对原始数据进行数据关联性划分,将具有相同关联关系的原始数据提取出来;数据对比,可以是按照预先设定的对比规则,对不同的原始数据之间进行对比,剔除差异较大的数据,或提取差异较小的数据;数据标识,可以是为原始数据设置数据标识,如,获取的期刊论文数据,设置该数据对应的学科标识、期刊名称标识、作者标识等等。需要说明的是,上述对原始数据处理的方式可以是针对每一个数据库,将所有的原始数据递进式逐步执行上述处理操作,得到各数据库对应的待存储数据;也可以是对所有的原始数据分别内部单独执行各处理操作后,再进一步划分各数据库对应的待存储数据。
可选的,在本发明实施例中,根据原始数据的关联信息,对所述原始数据进行处理,得到待存储数据,还可以包括:根据原始数据的关联信息中的数据库类型以及预设筛选规则,确定数据库集群中各数据库对应的待存储数据。
其中,预设筛选规则可以是针对各种处理操作(如数据提取、数据清洗、数据关联、数据对比、数据标识等)设置对应的筛选规则。以数据提取为例,可以设置是采用关联提取,还是分析提取方法,也可以设置具体提取的数据格式,如结构化、半结构化还是非结构化数据;还可以设置针对不同结构的数据提取的具体信息,如提取语音数据的声纹信息、提取视频数据的图像信息中的人物外貌信息等。示例性的,在对原始数据进行处理时,根据关联信息中的数据库类型,对同一类型的原始数据按照各处理操作对应的预设筛选规则进行筛选处理,确定该数据库最终待存储的数据。
需要说明的是,在本发明实施例中,根据原始数据的关联信息,对所述原始数据进行处理时,不限于仅根据关联信息中的数据库类型对原始数据进行处理,还可以根据关联信息中的其他信息来对原始数据进行处理,对此本发明实施例不进行限定。
S103,将待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
其中,数据库集群不但包括常用的原始库,还可以包括:资源库、主题库、业务库、知识库以及业务要素索引库中的至少一个。具体的,原始库可以是保留原始数据项、并尽可能再现原始场景,以支持数据溯源和特定业务需要的数据库;此外,其还实现数据的标准化和价值增值,为数据融合、数据抽象和进一步增值完成准备。资源库可以是综合各类数据资源,通过关联分析和提取得到的关键要素以及要素间关系或关联的时空分布的数据库。主题库是为了便利工作、精准快速地反映工作对象全貌而建立的融合各类数据资源、长期积累、全国统一的人、地、案、事、物、组织主题对象库。业务库主要由各业务部门主导建立,包括业务生产库、业务资源库和业务知识库。业务生产库是业务处理产生的数据。业务资源库主要是由运行于大数据平台之上的各类专题应用积累的资源数据的数据库。业务知识库是为业务模型分析提供的面向专业领域的知识性数据和规则模型的数据库。知识库主要是指通用知识库,为领域中各种通用模型分析提供知识性数据和规则模型的支撑,需要长期积累,并能支持共享的数据库。业务库需支持建立业务要素索引库。各类资源库和业务要素索引库,构成了全国数据资源的总索引、总关联、总导航。配合使用总索引、总关联、总导航,可实现跨数据中心数据资源的快速访问。
示例性的,将S102中确定的各待存储数据按照其对应的数据库类别,分别存储在数据库集群中对应的该类别的数据库中。本发明实施例的数据库集群可以是数据供应方所拥有的数据仓库,数据供应方可以基于该数据仓库中存储的数据为数据需求方提供各种数据服务,如可以向数据需求方提供数据的查询检索、对比布控、模型分析、数据鉴权、数据更新等服务。
本实施例提供的数据处理方法,通过对获取的所有原始数据进行探查定义,得到各原始数据的关联信息,根据各原始数据的关联信息对原始数据进行处理后分类存储在数据库集群中的多种类的数据库中,以便后续为数据需求方提供数据服务时使用。即使在面对海量的数据时,也能够快速准确的提取出有价值的数据信息,促进了数据信息的价值转换。
实施例二
图2为本发明实施例二提供的一种数据处理方法的流程图,图3为本发明实施例二提供的数据处理过程的整体架构示意图。本实施例在上述实施例的基础上,提供了一个优选实例,具体给出了针对大数据的整个处理和管理过程。具体的,参见图2和图3,该方法具体包括:
S201,对原始数据进行探查定义,得到原始数据的关联信息。
示例性的,如图3所示,数据接入阶段包括数据探查、数据定义、数据抽取以及数据转换四个部分。具体的,对于接入的多源异构的原始数据,先确定原始数据的元数据,根据原始数据的具体内容信息,对该原始数据对应的元数据进行数据探查,探查元数据的准确性,并对不准确的元数据进行更正,接下来再根据上述探查结果定义各原始数据的关联信息,如关联信息包括:数据元、数据资源目录、数据分级分类、数据血缘关系以及所属数据库等中的至少一个。完成了原始数据的探查定义后,采用数据仓库技(Extract-Transform-Load,ETL)对定义后的原始数据进行标准化操作。即将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。其中,该目的端可以是指图3中的数据处理阶段对应的处理模块。
可选的,在采用ETL技术对原始数据标准化的过程中可以是使处理后的原始数据符合数据存储模块存储要求的数据,该数据存储模块,用于存储该数据准备模块处理后的相关数据,主要存储以下一种或多种的组合数据:实时流数据、结构化数据、非结构化数据等。还可以采用SPARK计算系统,对数据存储模块存储的相关数据进行计算等处理操作。需要说明的是,本发明实施例对探查定义后的原始数据采用ETL技术进行标准化处理的过程不限于上述所述的操作,还可以包括其他操作。对此,本发明实施例不进行限定。
S202,根据原始数据的关联信息,对原始数据进行处理,得到待存储数据。
示例性的,如图3所示,数据处理阶段包括:提取、清洗、关联、对比、标识、分发六种处理操作。数据处理是按照接入阶段的探查定义,对杂乱的原始数据进行处理,提升了原始数据的价值密度,为数据智能应用实现数据增值、数据准备、数据标准化。基于海量原始数据的特性(如规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不统一等),以数据的最终应用为导向,数据处理设计主要包含提取、清洗、关联、比对、标识等环节,逐步对数据进行萃取,提炼数据价值,并形成对上层提供数据服务的能力。
示例性的,根据原始数据关联信息,针对获取的原始数据按照如上的数据处理方法,对原始数据进行处理,得到待存储到各数据库中的待存储数据。
S203,将待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
示例性的,如图3所示,数据组织阶段中包含的数据库包含原始库、资源库、主题库、业务库、知识库以及业务要素索引库。其中,从原始库、资源库、主题库到业务库,数据的价值密度是逐层提升的。可选的,采用多种类不同的数据库构成本实施例的数据组织的数据库集群,根据大数据使用目的分类建库的要求,对数据资源形成标准统一、流程规范组织方案,并满足各业务局业务专题数据落地建库需求,形成全国大数据总索引、总关联、总导航;强化全国大数据内部关联,实施数据使用优先级策略。
示例性的,经过数据处理后的待存储数据中可以携带有其对应的待存储数据库的相关信息,按照该相关信息将待存储数据存储在其对应的数据库集群中。以便后续数据需求方需要数据服务时,基于数据库集群中存储的数据为数据需求方服务。
S204,基于关联信息中的数据分级分类、数据资源目录以及数据库集群中存储的数据,为数据需求方提供数据服务。
示例性的,如图3所示,数据服务阶段包括查询检索、比对布控、模型分析、数据推送、数据鉴权和数据更新。数据服务可以是为数据需求方提供数据的访问和管理能力的阶段,可选的,为数据需求方提供的数据服务时所涉及的数据包括原始库、资源库、主题库、业务库和知识库中的数据,及元数据、数据资源目录等数据。
示例性的,由于分级分类中针对各数据对不同数据需求方设置了不同的访问权限,因此,可以是根据关联信息中的数据分级分类消息来确定可提供给数据需求方的具体数据,进而从存储该数据的数据库中获取相关数据为数据需求方提供数据服务。由于数据资源目录中记录了各数据的主题、关键词、存储路径以及具体的用途等等,也可以是基于该资源目录快速为数据需求方确定所需的数据,进而从存储该数据的数据库中获取相关数据为数据需求方提供数据服务。还可以是基于数据的分级分类以及数据资源目录,快速准确的确定本次可提供给数据需求方的具体数据,进而从存储该数据的数据库中获取相关数据为数据需求方提供数据服务等。需要说明的是,本发明实施例还可以基于关联信息中的其他信息以及数据库集群中存储的数据,为数据需求方提供数据服务;也可以是采用其他方式基于数据库集群中存储的数据,为数据需求方提供数据服务等,对此本实施例不进行限定。
S205,基于关联信息中的数据资源目录,对有效期内的数据进行管理。
其中,有效期内的数据可以是指从获取数据到数据失效的整个数据生命周期。具体的,本实施例中的有效期内的数据可以包括原始数据、待存储数据以及存储在数据库集群中的数据。
可选的,数据治理可以是以数据资产管理为核心,在数据管理和使用层面上的规划、监督和控制,其范畴涵盖了数据资产、数据标准、数据质量、数据安全、元数据、数据生命周期等管理的相关的政策、组织、流程和工具。通过规范化的数据治理保证数据资源的透明、可管、可控,完善数据标准的落地、形成完整的数据资源目录、规范数据处理流程、提升数据质量、保障数据的安全使用、促进数据流通与价值提炼。示例性的。如图3所示,本实施例中数据治理阶段包括:数据运营管理、数据运输管理、数据质量管理,也包括对原始数据探查分析后定义的数据血缘、分级分类以及数据资源目录。具体的,对有效期内的数据进行管理的具体过程可以是:基于数据管理阶段中的数据资源目录的驱动,对数据管理阶段中的数据运营管理、数据运维管理以及数据质量管理进行相关的管理操作。其中,对数据运营管理可以是对数据服务阶段和数据需求方交互过程进行管理;对数据运维管理可以是对数据接入到数据组织阶段的全过程进行管理;对数据质量进行管理可以是对数据自身的准确性、价值密度等进行管理,以提高本发明数据仓库中的数据的准确性。
本实施例搭建了数据处理过程的整体架构,将上述实施例提供的数据处理方法运用到搭建的数据处理过程的整体架构中,验证了本发明实施例提供的处理方法,且实现了基于数据的分级分类、数据资源目录以及数据库集群为数据需求方提供数据服务以及基于数据资源目录对有效期内的数据进行管理等过程。即使在面对海量的数据时,也能够快速准确的提取出有价值的数据信息,在提升数据价值的同时保证了数据仓库中存储数据的准确性。
实施例三
图4为本发明实施例三提供的一种数据处理装置的结构框图,该装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置可以包括:
探查定义模块401,用于对原始数据进行探查定义,得到所述原始数据的关联信息;
数据处理模块402,用于根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据;
数据存储模块403,用于将所述待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
本实施例提供的数据处理装置,通过对获取的所有原始数据进行探查定义,得到各原始数据的关联信息,根据各原始数据的关联信息对原始数据进行处理后分类存储在数据库集群中的多种类的数据库中,以便后续为数据需求方提供数据服务时使用。即使在面对海量的数据时,也能够快速准确的提取出有价值的数据信息,促进了数据信息的价值转换。
进一步的,上述探查定义模块401包括:
元数据确定单元,用于从数据源中获取原始数据,并确定所述原始数据的元数据;
探查分析单元,用于根据所述原始数据的内容信息,对所述元数据进行探查分析;
信息定义单元,用于根据探查分析结果,定义所述原始数据的关联信息。
进一步的,上述数据处理模块402具体用于:根据原始数据的关联信息中的数据库类型以及预设筛选规则,确定所述数据库集群中各数据库对应的待存储数据。
进一步的,所述数据库集群包括:资源库、主题库、知识库以及业务要素索引库中的至少一个。
进一步的,上述装置还包括:
数据管理模块,用于基于关联信息中的数据资源目录,对有效期内的数据进行管理,所述有效期内的数据包括原始数据、待存储数据以及存储在数据库集群中的数据。
进一步的,上述装置还包括:
数据服务模块,用于基于关联信息中的数据分级分类、数据资源目录以及数据库集群中存储的数据,为数据需求方提供数据服务。
实施例四
图5为本发明实施例四提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器50的框图。图5显示的服务器50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,该服务器50以通用计算设备的形式表现。该服务器50的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
总线503表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器50访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器505。服务器50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块507的程序/实用工具508,可以存储在例如系统存储器502中,这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
服务器50也可以与一个或多个外部服务器509(例如键盘、指向设备、显示器510等)通信,还可与一个或者多个使得用户能与该设备交互的设备通信,和/或与使得该服务器50能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且,服务器50还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器512通过总线503与服务器50的其它模块通信。应当明白,尽管图中未示出,可以结合服务器50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据处理方法。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例所述的数据处理方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明实施例的各模块或各操作可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或操作制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
对原始数据进行探查定义,得到所述原始数据的关联信息;
根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据;
将所述待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
2.根据权利要求1所述的方法,其特征在于,对原始数据进行探查定义,得到所述原始数据的关联信息,包括:
从数据源中获取原始数据,并确定所述原始数据的元数据;
根据所述原始数据的内容信息,对所述元数据进行探查分析;
根据探查分析结果,定义所述原始数据的关联信息。
3.根据权利要求1所述的方法,其特征在于,根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据,包括:
根据原始数据的关联信息中的数据库类型以及预设筛选规则,确定所述数据库集群中各数据库对应的待存储数据。
4.根据权利要求1或3中任一所述的方法,其特征在于,所述数据库集群包括:资源库、主题库、知识库以及业务要素索引库中的至少一个。
5.根据权利要求1所述的方法,其特征在于,对原始数据进行探查定义,得到所述原始数据的关联信息之后,还包括:
基于关联信息中的数据资源目录,对有效期内的数据进行管理,所述有效期内的数据包括原始数据、待存储数据以及存储在数据库集群中的数据。
6.根据权利要求1所述的方法,其特征在于,对原始数据进行探查定义,得到所述原始数据的关联信息之后,还包括:
基于关联信息中的数据分级分类、数据资源目录以及数据库集群中存储的数据,为数据需求方提供数据服务。
7.一种数据处理装置,其特征在于,包括:
探查定义模块,用于对原始数据进行探查定义,得到所述原始数据的关联信息;
数据处理模块,用于根据所述原始数据的关联信息,对所述原始数据进行处理,得到待存储数据;
数据存储模块,用于将所述待存储数据分类存储在数据库集群中,以便为数据需求方提供数据服务。
8.根据权利要求7所述的装置,其特征在于,所述探查定义模块包括:
元数据确定单元,用于从数据源中获取原始数据,并确定所述原始数据的元数据;
探查分析单元,用于根据所述原始数据的内容信息,对所述元数据进行探查分析;
信息定义单元,用于根据探查分析结果,定义所述原始数据的关联信息。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的数据处理方法。
CN201811423957.1A 2018-11-27 2018-11-27 一种数据处理方法、装置、服务器和存储介质 Active CN109522312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811423957.1A CN109522312B (zh) 2018-11-27 2018-11-27 一种数据处理方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811423957.1A CN109522312B (zh) 2018-11-27 2018-11-27 一种数据处理方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN109522312A true CN109522312A (zh) 2019-03-26
CN109522312B CN109522312B (zh) 2020-07-17

Family

ID=65794611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811423957.1A Active CN109522312B (zh) 2018-11-27 2018-11-27 一种数据处理方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN109522312B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297818A (zh) * 2019-06-26 2019-10-01 杭州数梦工场科技有限公司 构建数据仓库的方法及装置
CN110427377A (zh) * 2019-08-02 2019-11-08 北京博睿宏远数据科技股份有限公司 数据处理方法、装置、设备和存储介质
CN110716938A (zh) * 2019-10-15 2020-01-21 北京明略软件系统有限公司 数据的汇聚方法及装置、存储介质和电子装置
CN110990447A (zh) * 2019-12-19 2020-04-10 北京锐安科技有限公司 一种数据探查方法、装置、设备及存储介质
CN111078761A (zh) * 2019-12-27 2020-04-28 天津幸福生命科技有限公司 数据探查方法、装置、设备及存储介质
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN111581431A (zh) * 2020-04-28 2020-08-25 厦门市美亚柏科信息股份有限公司 基于动态评估的数据探查方法和装置
CN111600944A (zh) * 2020-05-12 2020-08-28 北京锐安科技有限公司 一种数据处理方法、装置、设备和存储介质
CN112364003A (zh) * 2020-11-09 2021-02-12 南威软件股份有限公司 一种用于不同行业的大数据治理方法、装置、设备和介质
CN112433888A (zh) * 2020-12-02 2021-03-02 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN113127460A (zh) * 2019-12-31 2021-07-16 北京懿医云科技有限公司 数据清洗框架的评估方法及其装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469127A (zh) * 2010-11-12 2012-05-23 中国科学院计算机网络信息中心 一种密集型数据通用处理方法
CN106156350A (zh) * 2016-07-25 2016-11-23 恒安嘉新(北京)科技有限公司 一种可视化大数据分析方法及系统
CN107092671A (zh) * 2017-04-13 2017-08-25 星环信息科技(上海)有限公司 一种元信息管理的方法及设备
CN108040092A (zh) * 2017-11-28 2018-05-15 特斯联(北京)科技有限公司 一种面向园区的物联网大数据管理和应用平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469127A (zh) * 2010-11-12 2012-05-23 中国科学院计算机网络信息中心 一种密集型数据通用处理方法
CN106156350A (zh) * 2016-07-25 2016-11-23 恒安嘉新(北京)科技有限公司 一种可视化大数据分析方法及系统
CN107092671A (zh) * 2017-04-13 2017-08-25 星环信息科技(上海)有限公司 一种元信息管理的方法及设备
CN108040092A (zh) * 2017-11-28 2018-05-15 特斯联(北京)科技有限公司 一种面向园区的物联网大数据管理和应用平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张伟: "基于Hadoop 的大数据分析管理平台架构设计", 《网络与信息安全》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297818B (zh) * 2019-06-26 2022-03-01 杭州数梦工场科技有限公司 构建数据仓库的方法及装置
CN110297818A (zh) * 2019-06-26 2019-10-01 杭州数梦工场科技有限公司 构建数据仓库的方法及装置
CN110427377A (zh) * 2019-08-02 2019-11-08 北京博睿宏远数据科技股份有限公司 数据处理方法、装置、设备和存储介质
CN110427377B (zh) * 2019-08-02 2023-12-26 北京博睿宏远数据科技股份有限公司 数据处理方法、装置、设备和存储介质
CN110716938A (zh) * 2019-10-15 2020-01-21 北京明略软件系统有限公司 数据的汇聚方法及装置、存储介质和电子装置
CN110990447A (zh) * 2019-12-19 2020-04-10 北京锐安科技有限公司 一种数据探查方法、装置、设备及存储介质
CN110990447B (zh) * 2019-12-19 2023-09-15 北京锐安科技有限公司 一种数据探查方法、装置、设备及存储介质
CN111078761A (zh) * 2019-12-27 2020-04-28 天津幸福生命科技有限公司 数据探查方法、装置、设备及存储介质
CN113127460B (zh) * 2019-12-31 2023-11-17 北京懿医云科技有限公司 数据清洗框架的评估方法及其装置、设备及存储介质
CN113127460A (zh) * 2019-12-31 2021-07-16 北京懿医云科技有限公司 数据清洗框架的评估方法及其装置、设备及存储介质
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN111581431B (zh) * 2020-04-28 2022-05-20 厦门市美亚柏科信息股份有限公司 基于动态评估的数据探查方法和装置
CN111581431A (zh) * 2020-04-28 2020-08-25 厦门市美亚柏科信息股份有限公司 基于动态评估的数据探查方法和装置
CN111600944B (zh) * 2020-05-12 2023-02-28 北京锐安科技有限公司 一种数据处理方法、装置、设备和存储介质
CN111600944A (zh) * 2020-05-12 2020-08-28 北京锐安科技有限公司 一种数据处理方法、装置、设备和存储介质
CN112364003A (zh) * 2020-11-09 2021-02-12 南威软件股份有限公司 一种用于不同行业的大数据治理方法、装置、设备和介质
CN112433888A (zh) * 2020-12-02 2021-03-02 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112433888B (zh) * 2020-12-02 2023-06-30 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN109522312B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN109522312A (zh) 一种数据处理方法、装置、服务器和存储介质
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN113032579B (zh) 一种元数据血缘分析方法、装置、电子设备和介质
WO2021208696A1 (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
CN106663037A (zh) 特征处理权衡管理
CN104508662B (zh) 存储分类的系统和方法
CN112308077A (zh) 样本数据获取方法、图像分割方法、装置、设备和介质
KR20200145299A (ko) 온라인 면접 동영상 분석 및 소셜미디어 정보분석 기반 지능형 채용지원 플랫폼
CN111177332A (zh) 自动提取裁判文书涉案标的和裁判结果的方法及装置
CN112732949A (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
US11704345B2 (en) Inferring location attributes from data entries
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111859042A (zh) 一种检索方法、装置及电子设备
Dong et al. Scene-based big data quality management framework
CN110297820A (zh) 一种数据处理方法、装置、设备和存储介质
US11514321B1 (en) Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
CN105786929A (zh) 一种信息监测方法及装置
Sun et al. Design of a Media Resource Management System for Colleges Based on Cloud Service
CN113672703A (zh) 一种用户信息的更新方法、装置、设备及存储介质
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN111368073A (zh) 系统间数据交互方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The invention relates to a data processing method, a device, a server and a storage medium

Effective date of registration: 20210705

Granted publication date: 20200717

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: Run Technologies Co.,Ltd. Beijing

Registration number: Y2021990000579

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20200717

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2021990000579

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A data processing method, device, server, and storage medium

Granted publication date: 20200717

Pledgee: Bank of Communications Co.,Ltd. Beijing Asian Games Village Branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2024110000165