CN110134646B - 知识平台服务数据存储与集成方法及系统 - Google Patents

知识平台服务数据存储与集成方法及系统 Download PDF

Info

Publication number
CN110134646B
CN110134646B CN201910440741.4A CN201910440741A CN110134646B CN 110134646 B CN110134646 B CN 110134646B CN 201910440741 A CN201910440741 A CN 201910440741A CN 110134646 B CN110134646 B CN 110134646B
Authority
CN
China
Prior art keywords
service data
knowledge platform
platform service
file
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910440741.4A
Other languages
English (en)
Other versions
CN110134646A (zh
Inventor
陆夏根
赵燕清
朱世伟
李晨
张铭君
李宪毅
刘翠芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Pengrui Technology Co ltd
Original Assignee
Anhui Pengrui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Pengrui Technology Co ltd filed Critical Anhui Pengrui Technology Co ltd
Priority to CN201910440741.4A priority Critical patent/CN110134646B/zh
Publication of CN110134646A publication Critical patent/CN110134646A/zh
Application granted granted Critical
Publication of CN110134646B publication Critical patent/CN110134646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种知识平台服务数据存储与集成方法及系统。其中,知识平台服务数据存储与集成方法包括:获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型;根据决策条件创建决策分支,通过训练数据集构建分类存储决策树;利用分类存储决策树对知识平台服务数据文件进行分类存储;将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。

Description

知识平台服务数据存储与集成方法及系统
技术领域
本公开属于数据处理领域,尤其涉及一种知识平台服务数据存储与集成方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着近些年来,大数据技术的不断发展,带动了各行各业的发展。知识平台融合了多领域数据形成知识平台服务器数据文件。发明人发现,由于现有数据文件的重要性、大小和类型不同,分类决策条件多种多样,采用人工对数据文件进行分类的效率低,而且现有的对数据文件分类的模型构建过程复杂且可读性差。
发明内容
为了解决上述问题,本公开的第一方面提供一种知识平台服务数据存储与集成方法,其具有分类效率高、分类模型构建便捷且可读性高的效果。
本公开的第一方面的一种知识平台服务数据存储与集成方法的技术方案为:
一种知识平台服务数据存储与集成方法,包括:
获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型;
根据决策条件创建决策分支,通过训练数据集构建分类存储决策树;
利用分类存储决策树对知识平台服务数据文件进行分类存储;
将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。
为了解决上述问题,本公开的第二方面提供一种知识平台服务数据存储与集成系统,其具有分类效率高、分类模型构建便捷且可读性高的效果。
本公开的第二方面的一种知识平台服务数据存储与集成系统的技术方案为:
一种知识平台服务数据存储与集成系统,包括:
训练数据集获取模块,其用于获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型;
分类存储决策树构建模块,其用于根据决策条件创建决策分支,通过训练数据集构建分类存储决策树;
文件分类存储模块,其用于利用分类存储决策树对知识平台服务数据文件进行分类存储;
数据集成模块,其用于将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。
为了解决上述问题,本公开的第三方面提供一种计算机可读存储介质,其具有分类效率高、分类模型构建便捷且可读性高的效果。
本公开的第三方面的一种计算机可读存储介质的技术方案为:
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述所述的知识平台服务数据存储与集成方法中的步骤。
为了解决上述问题,本公开的第四方面提供一种计算机设备,其具有分类效率高、分类模型构建便捷且可读性高的效果。
本公开的第四方面的一种计算机设备的技术方案为:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述所述的知识平台服务数据存储与集成方法中的步骤。
本公开的有益效果是:
(1)本公开通过分类存储决策树对知识平台服务数据文件进行分类存储,一方面决策树可读性好,描述清晰,有助于人工分类分析;另一方面,提高了分类效率,分类存储决策树建立后可以重复使用,每次判断的最大次数不会超过树的深度。
(2)本公开保持企业数据的分布现状,将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,提高了知识平台服务数据文件在逻辑上整合的效率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开本实施例提供的知识平台服务数据存储与集成方法流程图。
图2是本公开本实施例提供的分类存储决策树结构示意图。
图3是本公开本实施例提供的知识平台服务数据存储与集成系统结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
如图1所示,本实施例的一种知识平台服务数据存储与集成方法,至少包括:
S101:获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型。
在具体实施中,知识平台服务数据文件以科技项目相关文件为例。
需要说明的是,知识平台服务数据文件还包括其他用户需求的知识数据,比如:政府部门在业务执行和社会监管过程中形成的业务数据以及采用互联网数据和各类企业数据在内的社会数据,这些数据包括政府数据、社会数据、国内数据、海外数据、统计数据和非统计数据。
知识平台服务数据文件的类型可包括政府数据文件、社会数据文件、国内数据文件、海外数据文件、统计数据文件和非统计数据文件。
S102:根据决策条件创建决策分支,通过训练数据集构建分类存储决策树。
在具体实施中,如图2所示,分类存储决策树包括决策点、状态节点和结果节点,所述决策点用于存储决策条件,状态节点用于存储中间结果,结果节点用于存储知识平台服务数据文件的分类结果;
其中,所述决策条件包括知识平台服务数据文件的权重、大小和类型。
根据文件权重,划分分布式存储和传统存储,这是因为级别高的数据要求更高的可靠性,高效的读写速率,需要采用分布式存储来保障安全性和可靠性。对于级别要求不是很高的数据采用传统存储即可,如果不需要频繁修改和计算,又要保证传统文件的可靠性,可选用raid存储阵列。
具体地,知识平台服务数据文件的权重即为人为预先规定,与知识平台服务数据文件的类型相关。
比如:
政府数据文件的权重>社会数据文件的权重;
海外数据文件的权重>国内数据文件的权重;
统计数据文件的权重>非统计数据文件的权重;
海外数据文件的权重>政府数据文件的权重>统计数据文件的权重;
国内数据文件的权重>社会数据文件的权重>非统计数据文件的权重。
需要说明的是,知识平台服务数据文件的权重也可根据实际情况设定为其他值或按照人为规定的其他规则来设定。
在具体实施中,所有知识平台服务数据文件类型的权重之和等于1。
分布式存储系统对文件大小要求较为苛刻,一般为了保证大数据的读写速率,一般大数据都分割成整齐划一的数据块分布式存储在集群节点上,所以这里大文件和小文件分开存储,小文件一般都是文件名作为key,文件内容作为value存储在数据库中,而数据库value一般有大小限制,以Hbase而言,以此作为文件大小划分判断条件。
在本实施例中,包含的数据不小于m字节的文件称之为大文件,否则称之为小文件。其中,m是自定义的正整数。
例如:m=1024*1024*1024。
文件除了权重,大小之外,还分为多种类型,为了支持同种类型的批量修改和查询,系统为不同类型选择不同的存储位置,同时所有的判断条件和决策结果需记录在元数据管理中间件中,完成异构存储平台的存储管理。
其中,元数据管理中间件存储在决策树的状态节点中。
本实施例的分类存储决策树基于传统的决策树,不同的是,分类存储基于既定分类决策,不需要预测。大数据的分类存储基于文件的权重,大小,类型划分,决策条件己定,权重,大小和类型判断条件己定,决策树根据权重,大小,类型生成,树的结果节点存储的就是数据的最终分类判断存储位置。存储位置分为无需备份的传统磁盘存储,分布式HDFS文件系统存储,和分布式数据库存储。
S103:利用分类存储决策树对知识平台服务数据文件进行分类存储。
在利用分类存储决策树对知识平台服务数据文件进行分类存储的过程中,将分类后的知识平台服务数据文件对应存储在无需备份的磁盘存储、分布式HDFS 文件系统和分布式数据库。
S104:将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。
在具体实施中,基于服务的逻辑数据整合不强求物理上的集中,而是保持企业数据的分布现状,将各个系统的数据通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现数据在逻辑上的整合。
实施例2
如图3所示,本实施例的一种知识平台服务数据存储与集成系统,包括:
(1)训练数据集获取模块,其用于获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型;
(2)分类存储决策树构建模块,其用于根据决策条件创建决策分支,通过训练数据集构建分类存储决策树;
所述分类存储决策树包括决策点、状态节点和结果节点,所述决策点用于存储决策条件,状态节点用于存储中间结果,结果节点用于存储知识平台服务数据文件的分类结果。
所述决策条件包括知识平台服务数据文件的权重、大小和类型,这些信息均是已知信息。
(3)文件分类存储模块,其用于利用分类存储决策树对知识平台服务数据文件进行分类存储;
在所述文件分类存储模块中,将分类后的知识平台服务数据文件对应存储在无需备份的磁盘存储、分布式HDFS文件系统和分布式数据库。
(4)数据集成模块,其用于将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。
实施例3
本实施例的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所示的知识平台服务数据存储与集成方法中的步骤。
实施例4
本实施例的一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的知识平台服务数据存储与集成方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM) 或随机存储记忆体(RandomAccessMemory,RAM)等。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (6)

1.一种知识平台服务数据存储与集成方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型;
根据决策条件创建决策分支,通过训练数据集构建分类存储决策树;
所述决策条件包括知识平台服务数据文件的权重、大小和类型;所述分类存储决策树包括决策点、状态节点和结果节点,所述决策点用于存储决策条件,状态节点用于存储中间结果,结果节点用于存储知识平台服务数据文件的分类结果;利用分类存储决策树对知识平台服务数据文件进行分类存储;
将大文件和小文件分开存储,将大数据分割成整齐划一的数据块分布式存储在集群节点上,小文件以文件名作为key,文件内容作为value存储在数据库中;
不同类型知识平台服务数据文件选择不同的存储位置,同时将所有的判断条件和决策结果记录在元数据管理中间件中,元数据管理中间件存储在决策树的状态节点中;将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。
2.如权利要求1所述的一种知识平台服务数据存储与集成方法,其特征在于,在利用分类存储决策树对知识平台服务数据文件进行分类存储的过程中,将分类后的知识平台服务数据文件对应存储在无需备份的磁盘存储、分布式HDFS文件系统和分布式数据库。
3.一种知识平台服务数据存储与集成系统,其特征在于,包括:
训练数据集获取模块,其用于获取训练数据集,所述训练数据集包括知识平台服务数据文件及其已标注的文件类型;
分类存储决策树构建模块,其用于根据决策条件创建决策分支,通过训练数据集构建分类存储决策树;
所述决策条件包括知识平台服务数据文件的权重、大小和类型;
所述分类存储决策树包括决策点、状态节点和结果节点,所述决策点用于存储决策条件,状态节点用于存储中间结果,结果节点用于存储知识平台服务数据文件的分类结果;文件分类存储模块,其用于利用分类存储决策树对知识平台服务数据文件进行分类存储;
将大文件和小文件分开存储,将大数据分割成整齐划一的数据块分布式存储在集群节点上,小文件以文件名作为key,文件内容作为value存储在数据库中;
不同类型知识平台服务数据文件选择不同的存储位置,同时将所有的判断条件和决策结果记录在元数据管理中间件中,元数据管理中间件存储在决策树的状态节点中;
数据集成模块,其用于将分类存储的知识平台服务数据文件通过接口包装成服务,注册到企业服务总线,通过企业服务总线提供统一的数据服务,从而实现知识平台服务数据文件在逻辑上的整合。
4.如权利要求3所述的一种知识平台服务数据存储与集成系统,其特征在于,在所述文件分类存储模块中,将分类后的知识平台服务数据文件对应存储在无需备份的磁盘存储、分布式HDFS文件系统和分布式数据库。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3所述的知识平台服务数据存储与集成方法中的步骤。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3所述的知识平台服务数据存储与集成方法中的步骤。
CN201910440741.4A 2019-05-24 2019-05-24 知识平台服务数据存储与集成方法及系统 Active CN110134646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910440741.4A CN110134646B (zh) 2019-05-24 2019-05-24 知识平台服务数据存储与集成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910440741.4A CN110134646B (zh) 2019-05-24 2019-05-24 知识平台服务数据存储与集成方法及系统

Publications (2)

Publication Number Publication Date
CN110134646A CN110134646A (zh) 2019-08-16
CN110134646B true CN110134646B (zh) 2021-09-07

Family

ID=67581597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910440741.4A Active CN110134646B (zh) 2019-05-24 2019-05-24 知识平台服务数据存储与集成方法及系统

Country Status (1)

Country Link
CN (1) CN110134646B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659157A (zh) * 2019-08-30 2020-01-07 安徽芃睿科技有限公司 一种无损恢复的分布式多语种检索平台及其方法
CN112307174A (zh) * 2020-11-20 2021-02-02 深圳壹账通创配科技有限公司 多平台数据整合方法、装置、计算机设备及可读存储介质
CN112559642A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 数据分类存储方法、装置及相关产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033750A (zh) * 2010-12-21 2011-04-27 东莞市高鑫机电科技服务有限公司 基于soa的企业设备智能维护系统架构方法及系统
CN106934410A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 数据的分类方法及系统
CN109298840A (zh) * 2018-11-19 2019-02-01 平安科技(深圳)有限公司 基于数据湖的数据集成方法、服务器及存储介质
CN109710767A (zh) * 2019-01-02 2019-05-03 山东省科学院情报研究所 多语种大数据服务平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316981A1 (en) * 2011-06-08 2012-12-13 Accenture Global Services Limited High-risk procurement analytics and scoring system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033750A (zh) * 2010-12-21 2011-04-27 东莞市高鑫机电科技服务有限公司 基于soa的企业设备智能维护系统架构方法及系统
CN106934410A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 数据的分类方法及系统
CN109298840A (zh) * 2018-11-19 2019-02-01 平安科技(深圳)有限公司 基于数据湖的数据集成方法、服务器及存储介质
CN109710767A (zh) * 2019-01-02 2019-05-03 山东省科学院情报研究所 多语种大数据服务平台

Also Published As

Publication number Publication date
CN110134646A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN103370691B (zh) 管理缓冲器溢出状况
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
US10990288B2 (en) Systems and/or methods for leveraging in-memory storage in connection with the shuffle phase of MapReduce
US8108446B1 (en) Methods and systems for managing deduplicated data using unilateral referencing
CN105022656B (zh) 虚拟机快照管理方法和装置
CN106897322A (zh) 一种数据库和文件系统的访问方法和装置
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及系统
US20070250517A1 (en) Method and Apparatus for Autonomically Maintaining Latent Auxiliary Database Structures for Use in Executing Database Queries
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
US10664460B2 (en) Index B-tree maintenance for linear sequential insertion
CN110019298A (zh) 数据处理方法和装置
CN112637263B (zh) 一种多数据中心资源优化提升方法、系统和存储介质
CN103235811A (zh) 一种数据存储方法及装置
CN110162344A (zh) 一种隔离限流的方法、装置、计算机设备及可读存储介质
CN104166701A (zh) 机器学习方法及系统
CN107315652B (zh) 一种数据备份方法及云hdfs系统
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN112181951B (zh) 一种异构数据库数据迁移方法、装置及设备
CN106250501A (zh) 报表处理方法及报表系统
CN113360576A (zh) 一种基于Flink Streaming的电网海量数据实时处理方法及装置
CN110928941B (zh) 一种数据分片抽取方法及装置
CN111241455B (zh) 数据处理装置、计算机设备及存储介质
CN103809947A (zh) 一种开发需求的自动发布方法和系统
KR20160145250A (ko) 가상 머지를 지원하는 셔플 내장형 분산 스토리지 시스템 및 그 방법
US20070239794A1 (en) Method and system for updating logical information in databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant