CN109298840A - 基于数据湖的数据集成方法、服务器及存储介质 - Google Patents

基于数据湖的数据集成方法、服务器及存储介质 Download PDF

Info

Publication number
CN109298840A
CN109298840A CN201811373556.XA CN201811373556A CN109298840A CN 109298840 A CN109298840 A CN 109298840A CN 201811373556 A CN201811373556 A CN 201811373556A CN 109298840 A CN109298840 A CN 109298840A
Authority
CN
China
Prior art keywords
data
pond
classification
initial
initial data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811373556.XA
Other languages
English (en)
Inventor
周文豪
符尊群
吴逸丰
孙屹峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811373556.XA priority Critical patent/CN109298840A/zh
Publication of CN109298840A publication Critical patent/CN109298840A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术,揭露了一种基于数据湖的数据集成方法、服务器及存储介质,该方法构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则。接着,该方法接收各个数据源的原始数据,存储至所述原始数据池,再提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池。最后,该方法根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。利用本发明,能够提高数据利用的灵活性,减少数据存储成本。

Description

基于数据湖的数据集成方法、服务器及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于数据湖的数据集成方法、服务器及计算机可读存储介质。
背景技术
在大数据的背景下,技术和软件的进步使我们能够处理和分析大量数据。但是在处理和分析数据的同时,除了需要考虑数据的规模,我们还需要考虑待分析数据类型的多样性,以及数据使用场景的复杂性,数据类型及使用场合的不同意味着数据集需要以不同的格式在不同的系统中存储、运用,如将数据以不同格式存储在不同主题的数据仓库。当数据在不同的场景下进行分析时,存储数据的构架难以快速调整,导致数据使用不灵活。同时,构建不同主题的数据仓库大大地增加存储成本。目前,亟待一种能够支持不同类型数据存储及复杂场景应用的系统,提高数据使用的灵活性,减少数据存储成本。
发明内容
鉴于以上内容,本发明提供一种基于数据湖的数据集成方法、服务器及计算机可读存储介质,其主要目的在于提高数据使用的灵活性,减少数据存储成本。
为实现上述目的,本发明提供一种基于数据湖的数据集成方法,该方法包括:
构建步骤:构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则;
接收步骤:接收各个数据源的原始数据,存储至所述原始数据池;
分类步骤:提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池;
存储步骤:根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。
优选地,所述预设方式包括:最小二乘支持向量机算法、增量优化的快速决策树算法及基于随机森林的协同训练算法中的一种或多种。
优选地,所述存储步骤包括:若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,自动将原始数据池中该目标数据对应的原始数据进行删除;
若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储至对应的分类数据池。
优选地,该方法还包括:
当需要新增分类数据池时,设置该新增分类数据池的相关结构信息,包括池元数据、元处理过程、数据转化标准、池描述、池目标,将新增分类数据池分别与原数据池、档案数据池的接口相连。
优选地,所述分类数据池包括模拟数据池、应用数据池、文本数据池及档案数据池,所述档案数据池用于存储模拟数据池、应用数据池及文本数据池中未来使用概率小于预设阈值的目标数据。
优选地,该方法还包括:根据目标数据的历史使用记录,实时预测预设周期内各个分类数据池中存储的目标数据的未来使用概率,若未来使用概率大于或等于预设值,则该目标数据继续存储在对应的分类数据池,若未来使用概率小于预设阈值,则将该目标数据重新进行标准化处理得到档案数据,存储至档案数据池。
此外,本发明还提供一种服务器,该服务器包括:存储器及处理器,所述存储器上存储数据集成程序,所述数据集成程序被所述处理器执行,可实现如下步骤:
构建步骤:构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则;
接收步骤:接收各个数据源的原始数据,存储至所述原始数据池;
分类步骤:提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池;
存储步骤:根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。
优选地,所述预设方式包括:最小二乘支持向量机算法、增量优化的快速决策树算法及基于随机森林的协同训练算法中的一种或多种。
优选地,所述存储步骤包括:若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,自动将原始数据池中该目标数据对应的原始数据进行删除;
若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储至对应的分类数据池。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括数据集成程序,所述数据集成程序被处理器执行时,可实现如上所述基于数据湖的数据集成方法中的任意步骤。
本发明提出的基于数据湖的数据集成方法、服务器及计算机可读存储介质,通过构建数据湖及述数据湖中的数据池,分别设置每个分类数据池的处理规则,接着,接收各个数据源的原始数据,利用预设方式将原始数据分类到相应的分类数据池,利用每个分类数据池中预设的处理规则,将分类到每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池,从而对有效的数据进行固化和使用,提高数据使用的灵活性。
附图说明
图1为本发明基于数据湖的系统构架示意图;
图2为本发明服务器较佳实施例的示意图;
图3为图2中数据集成程序较佳实施例的模块示意图;
图4为本发明基于数据湖的数据集成方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明基于数据湖的系统构架示意图。
本发明旨在提供一种基于数据湖的数据集成系统,该系统接收数据源的原始形态数据并保存到数据湖中,数据湖是可存储大量不同来源、格式各异的数据的存储系统,该系统包含多个数据池的存储空间,如原始数据池、模拟数据池、应用数据池、文本数据池及档案数据池。系统从数据源接收原始数据并未经处理直接存储在原始数据池,在原始数据池对其进行分类,接着,对分类到对应的分类数据池,如模拟数据池、应用数据池及文本数据池,的原始数据,按照对应的分类数据池中预设的处理规则将该原始数据进行标准化处理生成目标数据,存储到该分类数据池。
用户可以根据自身的需求直接提取分类数据池中的目标数据进行分析。若预测到分类数据池的某目标数据的未来使用概率过低,则将该目标数据从对应的分类数据池中提取,重新标准化后存储至档案数据池。其中,所述数据池包括但不限于以下结构:目标数据、池元数据、元处理过程、数据转化标准、池描述、池目标。所述目标数据是指数据池内存储的真正能对其加以分析使用的数据。所述池元数据是指描述池内数据物理特性的数据,如:数据的存储结构和数据池的组成。所述元处理过程是说明将数据池内的原始数据转化为可用的目标数据的步骤文件。所述数据转化标准是说明转化原始数据时应遵循的标准的文件。所述处理规则设置于元处理过程及数据转化标准中。所述池描述包括数据池的外部描述和内部描述。所述外部描述包括子系统的功能、存储大小等。内部描述包括子系统内数据的来源、体积、更新频率、提取、转化及其标准以及数据之间的联系等。所述池目标是指池内的数据未来可用于进行分析的场景,是将数据标准化的依据。
如图2所示,是本发明服务器1较佳实施例的示意图。
在本实施例中,服务器1是指产品服务平台,该服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该服务器1可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
该服务器1包括但不限于:存储器11、处理器12、及网络接口13。所述服务器1通过网络接口13连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述服务器1的内部存储单元,例如该服务器1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述服务器1的外部存储设备,例如该服务器1配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述服务器1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述服务器1的操作系统和各类应用软件,例如数据集成程序10的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行数据集成程序10的程序代码等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。
图1仅示出了具有组件11-13以及数据集成程序10的服务器1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该服务器1还可以包括显示器,所述显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在服务器1中处理的信息以及用于显示可视化的工作界面,例如显示推荐给客户的产品。
可选地,该服务器1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该服务器1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动数据集成程序10。
此外,该服务器1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该服务器基于触摸显示屏侦测用户触发的触控操作。
该服务器1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
如图3所示,是图2中数据集成程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,数据集成程序10包括:构建模块110、接收模块120、分类模块130及存储模块140,所述模块110-140所实现的功能或操作步骤如下:
构建模块110,用于构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则。其中,所述分类数据池包括模拟数据池、应用数据池、文本数据池及档案数据池。所述原始数据池以贴源形式保存多样化数据的原始形态。所述模拟数据池用于存储模拟数据,所述模拟数据是指由机械设备产生的数据,一般为测量数据,如温度、湿度、重量等。所述应用数据池用于存储应用数据,所述应用数据是指执行一个应用或事务时产生的数据,如销售数据、支付数据、制造过程的控制数据、货物装运数据、库存管理数据等。所述文本数据池用于存放文本数据,所述文本数据包括邮件、录音,甚至是一些物理设备,如光识别技术,产生的数据。所述档案数据池用于存储来自模拟数据池、应用数据池及文本数据池中未来使用概率小于预设阈值的目标数据,所有进入档案数据池的数据都需要重新对其进行标准化操作,使该数据直接与原始数据形成映射关系,保证日后用户使用该数据时,其数据物理特性及标准化步骤得以保存。
所述数据池包括但不限于以下结构:目标数据、池元数据、元处理过程、数据转化标准、池描述、池目标。所述目标数据是指数据池内存储的真正能对其加以分析使用的数据。所述池元数据是指描述池内数据物理特性的数据,如数据的存储结构和数据池的组成等。所述元处理过程是说明将数据池内的原始数据转化为可用的目标数据的步骤文件。所述数据转化标准是说明转化原始数据时应遵循的标准的文件。所述处理规则设置于元处理过程及数据转化标准中。所述池描述包括数据池的外部描述和内部描述。所述外部描述包括数据池的功能、存储大小。内部描述包括数据池内数据的来源、体积、更新频率、提取、转化及其标准以及数据之间的联系等。所述池目标是指池内的数据未来可用于进行分析的场景,是将数据标准化的依据。但应理解的是,同一个数据池的目标数据可用于多个不同的分析场景,同一个分析场景可能需要使用多个数据池的目标数据进行分析。
接收模块120,用于接收各个数据源的原始数据,存储至所述原始数据池。其中,所述原始数据池仅用于存储原始数据,不对原始数据进行任何处理,保持数据的原始形态。
分类模块130,用于提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池。所述预设方式包括:最小二乘支持向量机算法(Least Squares Support Vector Machine,LS-SVM)、增量优化的快速决策树算法(Incre-mentally Optimized Very Fast Decision Tree,Incre-mentally OVFDT)及基于随机森林的协同训练算法(Co-training Based on Random Forest,Co-forset)中的一种或多种。以最小二乘支持向量机算法为例,LS-SVM分类表达式为:其中ak代表分类系数,ykK(x,xk)代表核矩阵,b代表偏差。具体的,以最小二乘支持向量机算法构造分类模型的训练步骤如下:
随机获取预设数量的原始数据,将所述原始数据在特征空间上映射形成特征向量,标记原始数据的类型,将原始数据类型与对应的特征向量形成对应关系得到样本集;
按照第一比例和第二比例将样本集随机分为训练集和验证集;
利用训练集中的特征向量输入到LS-SVM中进行训练,结合相应的原始数据类型得到所述分类模型;
利用验证集中的特征向量及相应的原始数据类型对所述分类模型的准确率进行验证,若准确率大于或等于阈值,则训练结束,若准确率小于阈值,则增加原始数据的数量并重新训练直至准确率大于或等于阈值。
存储模块140,用于根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。具体的,还可以在数据池内对标准化处理后的目标数据进行分类,如将应用数据根据作用分为购买数据、生产制造数据及销售数据等。其中,不同分类数据池的处理规则不同。所述模拟数据的处理规则包括:将模拟数据进行删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类、设阈值,转化成统一并易于使用的格式。所述应用数据的处理规则包括:将应用数据进行分级分类、编码、转化成统一的格式。所述文本数据的处理规则包括:设置情感类别,利用机器学习和上下语境构建情感分类模型,接着,将文本数据进行标准化,即文本消歧,将标准化的文本数据输入情感分类模型识别该数据的情感类别,如喜悦、愤怒、悲哀、恐惧等,将识别出的情感类别与数据池中预设的情感类别进行对比,找到相同的类别进行存储。所述文本消歧方法可以包括隐马尔可夫模型和贝叶斯模型中的任意一种。
进一步地,当需要新增分类数据池时,设置该新增分类数据池的相关结构信息,包括池元数据、元处理过程、数据转化标准、池描述、池目标,将新增分类数据池分别与原始数据池、档案数据池的接口相连。
进一步地,根据目标数据的历史使用记录,实时预测预设周期内各个分类数据池中存储的目标数据的未来使用概率,若未来使用概率大于或等于预设值,则该目标数据继续存储在对应的分类数据池,若未来使用概率小于预设阈值,则将该目标数据重新进行标准化处理得到档案数据,存储至档案数据池。
在另一个实施例中,若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,将原始数据池中该目标数据对应的原始数据进行删除,若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储。
如图4所示,是本发明基于数据湖的数据集成方法较佳实施例的流程图。
在本实施例中,处理器12执行存储器11中存储的数据集成程序10的计算机程序时实现基于数据湖的数据集成方法包括:步骤S10-步骤S40,下面以工业企业数据湖系统为例阐述基于数据湖的数据集成的实现。
步骤S10,构建模块110构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则。其中,所述分类数据池包括模拟数据池、应用数据池、文本数据池及档案数据池。所述原始数据池以贴源形式保存多样化数据的原始形态。所述模拟数据池用于存储模拟数据,所述模拟数据是指由企业的机械设备产生的数据。例如,企业的机械设备在工作过程中测量的数据,包括温度、湿度、重量等。所述应用数据池用于存储应用数据,所述应用数据是指企业在执行一个应用或事务时产生的数据,例如,企业在生产、贸易过程中产生的数据,包括销售数据、支付数据、制造过程的控制数据、货物装运数据、库存管理数据等。所述文本数据池用于存放文本数据,所述文本数据包括邮件、录音,甚至是一些物理设备,如光识别技术,产生的数据。所述档案数据池用于存储来自模拟数据池、应用数据池及文本数据池中未来使用概率小于预设阈值的目标数据,所有进入档案数据池的数据都需要重新对其进行标准化操作,使该数据直接与原始数据形成映射关系,保证日后用户使用该数据时,其数据物理特性及标准化步骤得以保存。
所述数据池包括但不限于以下结构:目标数据、池元数据、元处理过程、数据转化标准、池描述、池目标。所述目标数据是指数据池内存储的真正能对其加以分析使用的数据,如后续可用于进行商业分析的标准化后的数据。所述池元数据是指描述池内数据物理特性的数据,如数据的存储结构和数据池的组成等。所述元处理过程是说明将数据池内的原始数据转化为可用的目标数据的步骤文件。所述数据转化标准是说明转化原始数据时应遵循的标准的文件。所述处理规则设置于元处理过程及数据转化标准中。所述池描述包括数据池的外部描述和内部描述。所述外部描述包括数据池的功能、存储大小。内部描述包括数据池内数据的来源、体积、更新频率、提取、转化及其标准以及数据之间的联系等。所述池目标是指池内的数据未来可用于进行分析的场景,是将数据标准化的依据。但应理解的是,同一个数据池的目标数据可用于多个不同的分析场景,同一个分析场景可能需要使用多个数据池的目标数据进行分析。
步骤S20,接收模块120接收各个数据源的原始数据,存储至所述原始数据池。例如,接收工业企业各个部门的原始数据,包括生产部的生产数据、财务部的支付数据、检测部的测试数据及销售部的销售数据等。其中,所述原始数据池仅用于存储原始数据,不对原始数据进行任何处理,保持数据的原始形态。
步骤S30,分类模块130提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池。所述预设方式包括:最小二乘支持向量机算法(Least Squares Support Vector Machine,LS-SVM)、增量优化的快速决策树算法(Incre-mentally Optimized Very Fast Decision Tree,Incre-mentally OVFDT)及基于随机森林的协同训练算法(Co-training Based on Random Forest,Co-forset)中的一种或多种。以最小二乘支持向量机算法为例,LS-LVM分类表达式为:其中ak代表分类系数,ykK(x,xk)代表核矩阵,b代表偏差。具体的,以LS-SVM构造分类模型的训练步骤如下:
随机获取预设数量的原始数据,将所述原始数据在特征空间上映射形成特征向量,标记原始数据的类型,将原始数据类型与对应的特征向量形成对应关系得到样本集。例如,随机获取10万个原始数据,将所述原始数据在特征空间上映射形成对应的特征向量,并标记原始数据的类型,如模拟数据、应用数据、文本数据等,将原始数据类型与对应的特征向量形成映射关系得到样本集。
按照第一比例和第二比例将样本集随机分为训练集和验证集。例如,将数量为10万的样本集按照80%和20%的比例进行分配,得到数量分别为8万的训练集和2万的验证集。
利用训练集中的特征向量输入到LS-SVM中进行训练,结合相应的原始数据类型得到所述分类模型。例如,将8万的训练集输入到LS-SVM中进行训练,结合相应的原始数据类型得到分类模型。
利用验证集中的特征向量及相应的原始数据类型对所述分类模型的准确率进行验证,若准确率大于或等于阈值,则训练结束,若准确率小于阈值,则增加原始数据的数量并重新训练直至准确率大于或等于阈值。假设,阈值为92%,将数量为2万的验证集的特征向量及原始数据类型输入到所述分类模型中进行验证,若准确率达到92%或以上,则训练结束,若准确率小于92%,则增加原始数据的数量并重新训练直至准确率大于或等于92%。
步骤S40,存储模块140根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。具体的,还可以在数据池内对标准化处理后的目标数据进行分类,如将应用数据根据作用分为购买数据、生产制造数据及销售数据等。其中,不同分类数据池的处理规则不同。所述模拟数据的处理规则包括:将模拟数据进行删除重复数据、数据压缩、内插、过滤、抽样、近似、编码、分类、设阈值,转化成统一并易于使用的格式。所述应用数据的处理规则包括:将应用数据进行分级分类、编码、转化成统一的格式。所述文本数据的处理规则包括:设置情感类别,利用机器学习和上下语境构建情感分类模型,接着,将文本数据进行标准化,即文本消歧,将标准化的文本数据输入情感分类模型识别该数据的情感类别,如喜悦、愤怒、悲哀、恐惧等,将识别出的情感类别与数据池中预设的情感类别进行对比,找到相同的类别进行存储。所述文本消歧方法可以包括隐马尔可夫模型和贝叶斯模型中的任意一种。
进一步地,当需要新增分类数据池时,设置该新增分类数据池的相关结构信息,包括池元数据、元处理过程、数据转化标准、池描述、池目标,将新增分类数据池分别与原始数据池、档案数据池的接口相连。例如,需要增加图片数据池用于存储图片类数据时,设置该图片数据池的相关结构信息,包括池元数据、元处理过程、数据转化标准、池描述、池目标,将该图片数据池分别与原始数据池、档案数据池的接口相连。
进一步地,根据目标数据的历史使用记录,实时预测预设周期内各个分类数据池中存储的目标数据的未来使用概率,若未来使用概率大于或等于预设值,则该目标数据继续存储在对应的分类数据池,若未来使用概率小于预设阈值,则将该目标数据重新进行标准化处理得到档案数据,存储至档案数据池。例如,根据半年或1年内某目标数据的历史使用概率,预测未来1个月内该目标数据的使用概率,假设预设值为60%,若未来使用概率大于或等于60%,则目标数据继续存储于在对应的分类数据池,若未来使用概率小于60%,则将该目标数据重新标准化处理后存储至档案数据池。
在另一个实施例中,若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,将原始数据池中该目标数据对应的原始数据进行删除,若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储。
上述实施例提出的基于数据湖的数据集成方法,通过构建数据湖,在数据湖中构建不同的分类数据池,并设置各个数据池的处理规则,接着,将接收到的原始数据并进行分类到对应的分类数据池,最后,根据各个分类数据池中设置的处理规则对分类到该数据池的原始数据进行标准化处理、存储,从而能够将各种不同格式的数据进行标准化,便于在不同场景下使用数据进行分析。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括数据集成程序10,所述数据集成程序10被处理器执行时实现如下操作:
构建步骤:构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则;
接收步骤:接收各个数据源的原始数据,存储至所述原始数据池;
分类步骤:提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池;
存储步骤:根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。
优选地,所述预设方式包括:最小二乘支持向量机算法、增量优化的快速决策树算法及基于随机森林的协同训练算法中的一种或多种。
优选地,所述存储步骤包括:若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,自动将原始数据池中该目标数据对应的原始数据进行删除;
若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储至对应的分类数据池。
优选地,该方法还包括:
当需要新增分类数据池时,设置该新增分类数据池的相关结构信息,包括池元数据、元处理过程、数据转化标准、池描述、池目标,将新增分类数据池分别与原数据池、档案数据池的接口相连。
优选地,所述分类数据池包括模拟数据池、应用数据池、文本数据池及档案数据池,所述档案数据池用于存储模拟数据池、应用数据池及文本数据池中未来使用概率小于预设阈值的目标数据。
优选地,该方法还包括:根据目标数据的历史使用记录,实时预测预设周期内各个分类数据池中存储的目标数据的未来使用概率,若未来使用概率大于或等于预设值,则该目标数据继续存储在对应的分类数据池,若未来使用概率小于预设阈值,则将该目标数据重新进行标准化处理得到档案数据,存储至档案数据池。
本发明之计算机可读存储介质的具体实施方式与上述基于数据湖的数据集成方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于数据湖的数据集成方法,应用于服务器,其特征在于,所述方法包括:
构建步骤:构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则;
接收步骤:接收各个数据源的原始数据,存储至所述原始数据池;
分类步骤:提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池;
存储步骤:根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。
2.根据权利要求1所述的基于数据湖的数据集成方法,其特征在于,所述预设方式包括:最小二乘支持向量机算法、增量优化的快速决策树算法及基于随机森林的协同训练算法中的一种或多种。
3.根据权利要求1所述的基于数据湖的数据集成方法,其特征在于,所述存储步骤包括:
若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,自动将原始数据池中该目标数据对应的原始数据进行删除;
若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储至对应的分类数据池。
4.根据权利要求1所述的基于数据湖的数据集成方法,其特征在于,该方法还包括:
当需要新增分类数据池时,设置该新增分类数据池的相关结构信息,包括池元数据、元处理过程、数据转化标准、池描述、池目标,将新增分类数据池分别与原数据池、档案数据池的接口相连。
5.根据权利要求1所述的基于数据湖的数据集成方法,其特征在于,所述分类数据池包括模拟数据池、应用数据池、文本数据池及档案数据池,所述档案数据池用于存储模拟数据池、应用数据池及文本数据池中未来使用概率小于预设阈值的目标数据。
6.根据权利要求5所述的基于数据湖的数据集成方法,其特征在于,该方法还包括:根据目标数据的历史使用记录,实时预测预设周期内各个分类数据池中存储的目标数据的未来使用概率,若未来使用概率大于或等于预设值,则该目标数据继续存储在对应的分类数据池,若未来使用概率小于预设阈值,则将该目标数据重新进行标准化处理得到档案数据,存储至档案数据池。
7.一种服务器,其特征在于,所述服务器包括:存储器及处理器,所述存储器上存储有数据集成程序,所述数据集成程序被所述处理器执行,可实现如下步骤:
构建步骤:构建数据湖,在所述数据湖中构建原始数据池及多个分类数据池,分别设置每个分类数据池的处理规则;
接收步骤:接收各个数据源的原始数据,存储至所述原始数据池;
分类步骤:提取原始数据池中的原始数据,根据每个分类数据池的类别,利用预设方式将原始数据分类到相应的分类数据池;
存储步骤:根据每个分类数据池中预设的处理规则,将每个分类数据中的原始数据进行标准化处理得到目标数据,存储至相应的分类数据池。
8.根据权利要求7所述的服务器,其特征在于,所述预设方式包括:最小二乘支持向量机算法、增量优化的快速决策树算法及基于随机森林的协同训练算法中的一种或多种。
9.根据权利要求7所述的服务器,其特征在于,所述存储步骤包括:若某目标数据成功存储至相应的分类数据池,则向原始数据池发送成功提示信息,原始数据池接收到该成功提示信息后,自动将原始数据池中该目标数据对应的原始数据进行删除;
若该目标数据存储失败,则向原始数据池发送失败提示信息,原始数据池接收到该失败提示信息后,重新将该目标数据对应的原始数据进行标准化处理、存储至对应的分类数据池。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括数据集成程序,所述数据集成程序被处理器执行时,可实现如权利要求1至6中任一项所述基于数据湖的数据集成方法的步骤。
CN201811373556.XA 2018-11-19 2018-11-19 基于数据湖的数据集成方法、服务器及存储介质 Pending CN109298840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811373556.XA CN109298840A (zh) 2018-11-19 2018-11-19 基于数据湖的数据集成方法、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811373556.XA CN109298840A (zh) 2018-11-19 2018-11-19 基于数据湖的数据集成方法、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN109298840A true CN109298840A (zh) 2019-02-01

Family

ID=65143094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811373556.XA Pending CN109298840A (zh) 2018-11-19 2018-11-19 基于数据湖的数据集成方法、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109298840A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109742810A (zh) * 2019-01-11 2019-05-10 北京京运通科技股份有限公司 风电集中监控管理系统及管理方法
CN110134646A (zh) * 2019-05-24 2019-08-16 安徽芃睿科技有限公司 知识平台服务数据存储与集成方法及系统
CN110263229A (zh) * 2019-06-27 2019-09-20 北京中油瑞飞信息技术有限责任公司 一种基于数据湖的数据治理方法及装置
CN110399353A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种目录数据池信息及数据池选择策略的设置方法及系统
CN110674231A (zh) * 2019-10-09 2020-01-10 上海智子信息科技股份有限公司 一种面向数据湖的用户id集成方法和系统
CN111666263A (zh) * 2020-05-12 2020-09-15 埃睿迪信息技术(北京)有限公司 一种数据湖环境下异构数据管理的实现方法
CN113157742A (zh) * 2021-04-27 2021-07-23 华录智达科技股份有限公司 一种智能公交的数据湖管理方法及系统
CN113158246A (zh) * 2021-04-27 2021-07-23 华录智达科技股份有限公司 一种基于数据湖的智能公交运营方法及系统
CN113515546A (zh) * 2021-07-12 2021-10-19 中国工商银行股份有限公司 数据处理方法、装置和服务器
CN113536327A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 数据处理方法、装置和系统
US11237847B1 (en) 2019-12-19 2022-02-01 Wells Fargo Bank, N.A. Automated standards-based computing system reconfiguration
US11502905B1 (en) 2019-12-19 2022-11-15 Wells Fargo Bank, N.A. Computing infrastructure standards assay

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385677A (zh) * 2010-09-01 2012-03-21 北京启明星辰信息技术股份有限公司 一种统一威胁管理系统及其数据处理方法
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN106230618A (zh) * 2016-07-21 2016-12-14 柳州龙辉科技有限公司 一种系统日志集中处理系统
CN107368606A (zh) * 2017-07-31 2017-11-21 北京中科金马科技股份有限公司 数据分类方法、装置及数据分类系统
US20180121533A1 (en) * 2016-10-31 2018-05-03 Wal-Mart Stores, Inc. Systems, method, and non-transitory computer-readable storage media for multi-modal product classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385677A (zh) * 2010-09-01 2012-03-21 北京启明星辰信息技术股份有限公司 一种统一威胁管理系统及其数据处理方法
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN106230618A (zh) * 2016-07-21 2016-12-14 柳州龙辉科技有限公司 一种系统日志集中处理系统
US20180121533A1 (en) * 2016-10-31 2018-05-03 Wal-Mart Stores, Inc. Systems, method, and non-transitory computer-readable storage media for multi-modal product classification
CN107368606A (zh) * 2017-07-31 2017-11-21 北京中科金马科技股份有限公司 数据分类方法、装置及数据分类系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109742810A (zh) * 2019-01-11 2019-05-10 北京京运通科技股份有限公司 风电集中监控管理系统及管理方法
CN110134646A (zh) * 2019-05-24 2019-08-16 安徽芃睿科技有限公司 知识平台服务数据存储与集成方法及系统
CN110134646B (zh) * 2019-05-24 2021-09-07 安徽芃睿科技有限公司 知识平台服务数据存储与集成方法及系统
CN110263229A (zh) * 2019-06-27 2019-09-20 北京中油瑞飞信息技术有限责任公司 一种基于数据湖的数据治理方法及装置
CN110263229B (zh) * 2019-06-27 2020-06-02 北京中油瑞飞信息技术有限责任公司 一种基于数据湖的数据治理方法及装置
CN110399353A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种目录数据池信息及数据池选择策略的设置方法及系统
CN110399353B (zh) * 2019-06-29 2021-10-22 苏州浪潮智能科技有限公司 一种目录数据池信息及数据池选择策略的设置方法及系统
CN110674231A (zh) * 2019-10-09 2020-01-10 上海智子信息科技股份有限公司 一种面向数据湖的用户id集成方法和系统
US11799723B1 (en) 2019-12-19 2023-10-24 Wells Fargo Bank, N.A. Computing infrastructure standards assay
US11586450B1 (en) 2019-12-19 2023-02-21 Wells Fargo Bank, N.A. Automated standards-based computing system reconfiguration
US11502905B1 (en) 2019-12-19 2022-11-15 Wells Fargo Bank, N.A. Computing infrastructure standards assay
US11237847B1 (en) 2019-12-19 2022-02-01 Wells Fargo Bank, N.A. Automated standards-based computing system reconfiguration
CN113536327A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 数据处理方法、装置和系统
CN111666263A (zh) * 2020-05-12 2020-09-15 埃睿迪信息技术(北京)有限公司 一种数据湖环境下异构数据管理的实现方法
CN113158246A (zh) * 2021-04-27 2021-07-23 华录智达科技股份有限公司 一种基于数据湖的智能公交运营方法及系统
CN113157742A (zh) * 2021-04-27 2021-07-23 华录智达科技股份有限公司 一种智能公交的数据湖管理方法及系统
CN113515546A (zh) * 2021-07-12 2021-10-19 中国工商银行股份有限公司 数据处理方法、装置和服务器

Similar Documents

Publication Publication Date Title
CN109298840A (zh) 基于数据湖的数据集成方法、服务器及存储介质
US20190392258A1 (en) Method and apparatus for generating information
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
US20220253496A1 (en) Machine-learning based personalization
CN113538070B (zh) 用户生命价值周期检测方法、装置和计算机设备
US20200175314A1 (en) Predictive data analytics with automatic feature extraction
CN115512005A (zh) 一种数据处理方法及其装置
CN110276382A (zh) 基于谱聚类的人群分类方法、装置及介质
CN114756669A (zh) 问题意图的智能分析方法、装置、电子设备及存储介质
CN110348669B (zh) 智能规则生成方法、装置、计算机设备及存储介质
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质
CN115185625A (zh) 基于可配置卡片的自推荐式界面更新方法及其相关设备
CN115690821A (zh) 一种电子卷宗智能编目方法和计算机设备
CN114693435A (zh) 催收名单的智能回访的方法、装置、电子设备及存储介质
CN114240560A (zh) 基于多维分析的产品排名方法、装置、设备及存储介质
CN112529699A (zh) 企业授信模型的构建方法、装置、设备及可读存储介质
JP6734323B2 (ja) 対象物の類似度判定のためのプログラム、システム、及び方法
CN112669142B (zh) 高维行为数据的建模方法、装置、设备及可读存储介质
CN111598159B (zh) 机器学习模型的训练方法、装置、设备及存储介质
CN116258579B (zh) 用户信用评分模型的训练方法及用户信用评分方法
KR102653483B1 (ko) 인공지능에 기반하여 미술품의 가격을 예측하는 방법
CN118012552A (zh) 界面信息处理方法、装置、设备、介质和计算机程序产品
CN117078406A (zh) 一种客户流失预警方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination