CN111221887A - 一种对数据湖服务器中的数据进行管理和访问的方法 - Google Patents

一种对数据湖服务器中的数据进行管理和访问的方法 Download PDF

Info

Publication number
CN111221887A
CN111221887A CN201811427787.4A CN201811427787A CN111221887A CN 111221887 A CN111221887 A CN 111221887A CN 201811427787 A CN201811427787 A CN 201811427787A CN 111221887 A CN111221887 A CN 111221887A
Authority
CN
China
Prior art keywords
data
lake server
owner
user
lake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811427787.4A
Other languages
English (en)
Inventor
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinocbd Inc
Original Assignee
Sinocbd Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinocbd Inc filed Critical Sinocbd Inc
Priority to CN201811427787.4A priority Critical patent/CN111221887A/zh
Publication of CN111221887A publication Critical patent/CN111221887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种对数据湖服务器中的数据进行管理和访问的方法,每台数据湖服务器看作一个数据湖服务器节点,所有的数据湖服务器节点之间相互连接,形成网状拓扑结构。数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作、访问以及数据维护操作。本发明提供多样化的数据存储方式和多样化数据属性识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。

Description

一种对数据湖服务器中的数据进行管理和访问的方法
技术领域
本发明涉及一种对数据湖服务器中的数据进行管理和访问的方法。
背景技术
现有的数据库或数据湖管理平台的管理操作与数据分享操作大多都是以技术人员为主进行的,而且是以命令行方式为主进行操作,缺少针对一般非技术用户的图形化操作方式。并且在用户管理上,缺少除常规密码以外的验证机制。对数据的检索与分享也缺乏灵活性。
发明内容
本发明提供一种对数据湖服务器中的数据进行管理和访问的方法,提供多样化的数据存储方式和多样化识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,方便未来数据共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。
为了达到上述目的,本发明提供一种对数据湖服务器中的数据进行管理和访问的方法,数据湖服务器包含多个数据湖服务器节点,所有的数据湖服务器节点之间形成网状拓扑结构,包含以下步骤:
数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作;
数据使用者登录任意一个数据湖服务器节点,进行数据访问和维护操作。
所述的数据湖服务器包含:关系型数据库、文档型数据库、分布式文件系统、图数据库;
所述的数据湖服务器中存储多元异构数据,所述的多元异构数据的来源具有多样性,数据结构具有复杂性;
数据湖服务器支持的数据类型包含:关系型数据、文档型数据、文件型数据、流数据以及其他互联网开放数据类型。
所述的数据拥有者和数据使用者都通过账户方式登录数据湖服务器节点的图形化的操作界面,所述的账户中的账户信息与数据拥有者或数据使用者对应,所述的账户信息包含用户名和密码、指纹识别信息、面部识别信息、静脉图像识别信息、虹膜识别信息、声纹识别信息中的一种或多种信息。
所述的数据拥有者进行数据接入操作包含:导入数据、清洗数据、抽取数据。
所述的导入数据的方法包含:
对于关系型数据库的数据或者文档型数据框的数据,数据拥有者在数据湖服务器中填写数据库配置参数,选择打算导入的字段或者直接导入全部字段至数据湖服务器;
对于外部的文件型数据,通过手动批量上传的方式导入数据湖服务器;
对于TCP/IP协议的流数据,直接导入数据湖服务器;对于采用其他协议的流数据,解析协议后再将数据导入数据湖服务器;
对于其他的互联网开放数据,通过爬虫获取互联网开放数据,导入数据湖服务器。
所述的清洗数据的方法包含:
数据导入数据湖服务器之后,数据拥有者查看数据库各个字段的数据,数据拥有者勾选字段,或者数据拥有者将数据保存到本地数据湖服务器节点的关系型数据库,或者数据拥有者将数据保存到本地数据湖服务器节点的文档型数据库中。
所述的抽取数据的方法包含:
支持对各种多元异构数据的抽取,提供实时抽取、定时抽取、批量抽取、增量抽取、按类别抽取中的一种或任意几种组合的灵活抽取策略,支持多表联合抽取,并能够设置抽取过滤条件;
数据经过采集、加工、转换、传输后,最终以装载入库或数据文件的形式,保存在本地数据湖服务器节点的关系型数据库、文档型数据库、分布式文件系统或者图数据库中。
针对数据湖服务器中各类数据库中的数据,数据湖服务器应用图像识别的方法、语音识别的方法、文本过滤查询的方法,将数据文件中的文本信息提取出来,并转为RDF格式,保存在文档型数据库中。
所述的数据拥有者进行数据维护操作包含:对数据进行增加、删除、修改和查询操作,设置数据的同步方式,建立数据目录,定义数据标签,维护共享数据。
所述的设置数据的同步方式的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者设定数据的同步方式,包含实时同步和定时同步,均采用数据增量同步方式实现。
所述的建立数据目录的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者对导入的数据设置数据所属目录,进行数据分类管理。
所述的定义数据标签的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据湖服务器结合本体知识,对数据特征进行分析,提取数据标签,或者数据拥有者对标签进行筛选,或者数据拥有者自定义新的标签。
所述的维护共享数据的方法包含:为数据分享指定用户,设置数据的共享方式。
所述的为数据分享指定用户的方法包含:数据拥有者将数据分享给本地数据湖服务器节点的用户或非本地数据湖服务器节点的用户;通过数据湖服务器提供的共享用户列表选择本地数据湖服务器节点的共享用户;非本地数据湖服务器节点的用户通过数据拥有者的令牌访问共享数据。
所述的设置数据的共享方式的方法包含:数据拥有者通过设置数据访问控制表中的信息来设置数据的共享方式;
数据的共享方式是指设置数据的访问权限,包含查询、预览、读取、下载、写入、修改、删除,每个数据拥有者对应一个数据访问控制表;
所述的数据访问控制表包含:共享的数据名、访问权限类别、共享用户列表、数据使用申请列表、数据使用确认信息;
所述的共享的数据名是指要共享的数据及其存储位置;
所述的访问权限类别是指针对该共享数据,开放给数据使用者的访问权限,包含:查询、预览、读取、下载、写入、修改、删除;
所述的共享用户列表中包含本地数据湖服务器节点的共享用户,数据拥有者将数据主动开放给这些共享用户;
所述的数据使用申请列表是指要求访问该数据的用户列表;
所述的数据使用确认信息是指数据拥有者对数据访问者的数据访问请求的确认情况,包含:已确认、未确认、拒绝。
所述的数据使用者进行数据访问的方法包含:数据使用者在权限范围内查询、预览、读取、下载、写入、修改、删除本地数据湖服务器节点中的共享数据,且数据使用者通过数据拥有者提供的令牌,在权限范围内查询、预览、读取、下载、写入、修改、删除数据湖服务器节点中的共享数据。
所述的查询数据的方法包含:数据使用者通过多种检索方式输入关键词,查询数据湖服务器中的共享数据。
数据使用者需要访问不具备权限的数据时,向数据拥有者发出数据访问请求,数据拥有者审核数据使用者发出的数据访问请求,然后确认并设置数据的访问权限。
本发明提供多样化的数据存储方式和多样化识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,方便未来数据共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。
附图说明
图1是本发明提供的一种对数据湖服务器中的数据进行管理和访问的方法的示意图。
具体实施方式
以下根据图1,具体说明本发明的较佳实施例。
如图1所示,本发明提供一种对数据湖服务器中的数据进行管理和访问的方法,这里的数据湖服务器是一种数据存储和管理服务平台,该平台包含:关系型数据库(MariaDB、MySQL等),文档型数据库(MongoDB、CouchDB等),分布式文件系统(HDFS、PVFS、PanFS等),以及图数据库(Neo4j、Cayley、GrapgDB等),该平台采用分布式运算和存储架构,集成了具有数据存储以及运算功能的各类计算机单机、服务器以及计算机集群或者服务器集群,并提供包含数据管理、算法开发的各类功能组件。
所述的数据湖服务器包含多个数据湖服务器节点,所有的数据湖服务器节点之间形成网状拓扑结构。
所述的数据湖服务器中存储多元异构数据,该多元异构数据是指数据的来源具有多样性,以及数据结构(存储数据的数据库)具有复杂性。比如:数据湖服务器可以接受来自传感器的实时监测数据流,来自仓库的结构化库存数据,来自公开网络的非结构化器件销售数据,将这三类来源的三种结构类型的数据整合起来,存储到数据湖服务器中统一使用。
数据湖服务器支持的数据格式包含:关系型数据库(Oracle、MS SQL Server、MySQL等主流数据库)和非关系型数据库,非关系型数据库包含流数据和互联网开放数据;流数据是指工作、生产现场记录生产或者事件过程的数据,如WebSocket等;互联网开放数据是指如文本文件、XML、Excel、消息等格式。
如图1所示,所述的对数据湖服务器中的数据进行管理和访问的方法包含以下步骤:
数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作;
数据使用者登录任意一个数据湖服务器节点,进行数据访问和维护操作。
所述的数据拥有者和数据使用者都通过账户方式登录数据湖服务器节点的图形化的操作界面,所述的账户中的账户信息与数据拥有者或数据使用者对应,所述的账户信息可以包含用户名和密码,还可以包含指纹识别信息、面部识别信息、静脉图像识别信息、虹膜识别信息、声纹识别信息中的一种或多种信息,即,数据拥有者和数据使用者可通过多种方式登录数据湖服务器,除了传统的输入用户名和密码授权方式,还可以采用指纹识别、人脸识别、虹膜识别、声音识别等安全认证方式。
所述的数据拥有者进行数据接入操作包含:导入数据、清洗数据、抽取数据。
所述的导入数据的方法包含:
对于关系型数据库的数据或者文档型数据框的数据,数据拥有者在数据湖服务器中填写数据库配置参数(包含连接数据库的账号、密码和IP地址),或者直接上传数据文件至数据湖服务器;
对于外部的文件型数据,通过手动批量上传的方式导入数据湖服务器;
对于流数据,数据湖服务器提供流数据导入模块,支持多种流数据协议;对于TCP/IP协议的数据,可以直接导入;对于采用其他协议的流数据,由通用的或专用的外围协议解析设备解析协议后再导入数据;
对于其他的互联网开放数据,通过爬虫获取互联网开放数据,导入数据湖服务器。
数据湖服务器通过标准的接口访问外部的多源异构数据源,流数据通过WebSocket接口进行访问,关系型数据库等其他数据源通过Restful API接口进行读取访问。
在连接外部关系型数据库服务器之后,可以在数据湖服务器管理界面看到外部数据库的字段信息,数据拥有者可以在这里选择打算导入的字段,或直接导入全部字段。
将多源异构数据导入数据湖服务器的整个操作过程以及数据来源的描述信息、文件类型描述信息、操作过程信息、日期信息等等相关的参数保存到数据湖服务器的文档型数据库中。
所述的清洗数据的方法包含:
数据导入数据湖服务器之后,数据拥有者可以进一步查看数据库各个字段的数据,执行数据清洗的操作。
进一步,数据拥有者可以勾选字段;进一步,数据拥有者根据实际需要,将数据保存到本地数据湖服务器节点的关系型数据库;进一步,数据拥有者根据实际需要,将数据保存到本地数据湖服务器节点的文档型数据库中。
所述的抽取数据的方法包含:
支持对各种异构数据的抽取,提供实时抽取、定时抽取、批量抽取、增量抽取、按类别抽取中的一种或任意几种组合的灵活抽取策略,支持多表联合抽取,并能够设置抽取过滤条件;
数据经过采集、加工、转换、传输等一系列处理过程后,最终以装载入库或数据文件的形式,保存在本地数据湖服务器节点的关系型数据库、文档型数据库、分布式文件系统或者图数据库中。
针对数据湖服务器中各类数据库中的数据,数据湖服务器也支持提取数据文件中的信息。
所述的提取数据文件中的信息的方法包含:数据湖服务器应用图像识别的方法、语音识别的方法、文本过滤查询的方法,将数据文件中的文本信息提取出来,并转为RDF格式,保存在文档型数据库中。
所述的数据拥有者进行数据维护操作包含:对数据进行增加、删除、修改和查询操作,设置数据的同步方式,建立数据目录,定义数据标签,维护共享数据。
所述的设置数据的同步方式的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者可以设定数据的同步方式,包含实时同步和定时同步,均采用数据增量同步方式实现。
建立数据目录可以方便用户对数据的管理和检索。所述的建立数据目录的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者可以对导入的数据设置数据所属目录,进行数据分类管理。
定义数据标签采用自动和人工混合的方式。所述的定义数据标签的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据湖服务器结合本体知识,对数据特征进行分析,使用NLP自然语言处理中的命名实体识别算法提取文本中的实体,将实体作为数据标签;进一步,数据拥有者可以对标签进行筛选,例如:根据用户输入的关键词和标签,使用正则表达式对关键词和数据标签进行字符包含匹配;进一步,数据拥有者可以自定义新的标签。
所述的维护共享数据的方法包含:为数据分享指定用户,设置数据的共享方式。
所述的为数据分享指定用户的方法包含:数据拥有者主动将数据分享给本地数据湖服务器节点的用户或非本地数据湖服务器节点的用户;通过数据湖服务器提供的共享用户列表选择本地数据湖服务器节点的共享用户;非本地数据湖服务器节点的用户通过数据拥有者的令牌访问共享数据。
所述的设置数据的共享方式的方法包含:数据拥有者通过设置数据访问控制表中的信息来设置数据的共享方式。
数据的共享方式是指设置数据的访问权限,包含查询、预览、读取、下载、写入、修改、删除。每个数据拥有者对应一个数据访问控制表。
所述的数据访问控制表包含:共享的数据名、访问权限类别、共享用户列表、数据使用申请列表、数据使用确认信息;
所述的共享的数据名是指要共享的数据及其存储位置;
所述的访问权限类别是指针对该共享数据,开放给数据使用者的访问权限,包含:查询、预览、读取、下载、写入、修改、删除;
所述的共享用户列表中包含本地数据湖服务器节点的共享用户,数据拥有者将数据主动开放给这些共享用户;
所述的数据使用申请列表是指要求访问该数据的用户列表;
所述的数据使用确认信息是指数据拥有者对数据访问者的数据访问请求的确认情况,包含:已确认、未确认、拒绝。
数据拥有者审核数据使用者发出的数据访问请求,然后确认并设置数据的访问权限。数据拥有者可取消数据使用者的访问权限。
所述的数据使用者进行数据访问的方法包含:数据使用者在权限范围内查询、预览、读取、下载、写入、修改、删除本地数据湖服务器节点中的共享数据,且数据使用者通过数据拥有者提供的令牌,在权限范围内查询、预览、读取、下载、写入、修改、删除数据湖服务器节点中的共享数据。
数据使用者需要访问不具备权限的数据时,向数据拥有者发出数据访问请求。
所述的查询数据的方法包含:数据使用者通过多种检索方式输入关键词,查询数据湖服务器中的共享数据。
数据使用者只有在数据拥有者对其开放某项数据的查询权限的情况下,才能检索到该数据,看到数据的名称、数据拥有者信息、数据目录和数据标签信息,进而才能提出数据访问请求。
数据使用者只有在数据拥有者对其开放某项数据的预览权限的情况下,才能检索到该数据,看到该数据的名称、数据拥有者信息、数据目录数据标签信息和预览信息,进而才能提出数据访问请求。
数据使用者只有在数据拥有者对其开放某项数据的读取权限的情况下,才能直接访问数据。
数据使用者只有在数据拥有者对其开放某项数据的下载权限的情况下,才能将该数据下载到本地,并可对下载数据进行写入、修改和删除操作。
数据使用者只有在数据拥有者对其开放某项数据的写入、修改和删除权限的情况下,才能对源数据进行写入、修改和删除。
所述的数据湖服务器平台提供多种角色和权限,管理共享用户和共享数据。
数据湖服务器平台包含管理员、使用者两类角色,管理员通常是指数据拥有者,其包含集群管理员、数据管理员和用户管理员,使用者通常是指数据使用者,其包含一般使用者、数据科学家和开发者。集群管理员管理系统运维工作,监控分布式平台硬件使用情况;数据库管理员查看和操作数据湖服务器内所有数据,可管理本地物理节点和微服务;用户管理员管理本平台所有用户和用户组;开发者能够使用系统二次开发,集成微服务;数据科学家可以使用全部数据工具分析权限范围内的数据;一般使用者可以导入和分享拥有的数据。
本发明提供多样化的数据存储方式和多样化识别方式,简化用户导入数据的操作,提高数据导入的便利性和准确性,便于管理访问权限,便于数据的查询与共享,方便未来数据共享,便于提取语义级信息,挖掘数据价值,提供数据使用方统一的管理界面,操作便利性与所见即所得,方便不同用户利用数据湖服务器实现不同的目标。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (18)

1.一种对数据湖服务器中的数据进行管理和访问的方法,每台数据湖服务器作为一个数据湖服务器节点,所有的数据湖服务器节点之间相互连接,形成网状拓扑结构,其特征在于,包含以下步骤:
数据拥有者登录任意一个数据湖服务器节点,进行数据接入操作;
数据使用者登录任意一个数据湖服务器节点,进行数据访问和维护操作。
2.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据湖服务器包含:关系型数据库、文档型数据库、分布式文件系统、图数据库;
所述的数据湖服务器中存储多元异构数据,所述的多元异构数据的来源具有多样性,数据结构具有复杂性;
数据湖服务器支持的数据类型包含:关系型数据、文档型数据、文件型数据、流数据以及其他互联网开放数据类型。
3.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据拥有者和数据使用者都通过账户方式登录数据湖服务器节点的图形化操作界面,所述账户中的账户信息与数据拥有者或数据使用者对应,所述账户信息包含用户名和密码、指纹识别信息、面部识别信息、静脉图像识别信息、虹膜识别信息、声纹识别信息中的一种或多种信息。
4.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据拥有者进行数据接入操作包含:导入数据、清洗数据、抽取数据。
5.如权利要求4所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的导入数据的方法包含:
对于关系型数据库的数据或者文档型数据框的数据,数据拥有者在数据湖服务器中填写数据库配置参数,选择打算导入的字段或者直接导入全部字段至数据湖服务器;
对于外部的文件型数据,通过手动批量上传的方式导入数据湖服务器;
对于TCP/IP协议的流数据,直接导入数据湖服务器;对于采用其他协议的流数据,解析协议后再将数据导入数据湖服务器;
对于其他的互联网开放数据,通过爬虫获取互联网开放数据,导入数据湖服务器。
6.如权利要求4所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的清洗数据的方法包含:
数据导入数据湖服务器之后,数据拥有者查看数据库各个字段的数据,数据拥有者勾选字段,或者数据拥有者将数据保存到本地数据湖服务器节点的关系型数据库,或者数据拥有者将数据保存到本地数据湖服务器节点的文档型数据库中。
7.如权利要求4所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的抽取数据的方法包含:
支持对各种多元异构数据的抽取,提供实时抽取、定时抽取、批量抽取、增量抽取、按类别抽取中的一种或任意几种组合的灵活抽取策略,支持多表联合抽取,并能够设置抽取过滤条件;
数据经过采集、加工、转换、传输后,最终以装载入库或数据文件的形式,保存在本地数据湖服务器节点的关系型数据库、文档型数据库、分布式文件系统或者图数据库中。
8.如权利要求7所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,针对数据湖服务器中各类数据库中的数据,数据湖服务器应用图像识别的方法、语音识别的方法、文本过滤查询的方法,将数据文件中的文本信息提取出来,并转为RDF格式,保存在文档型数据库中。
9.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据拥有者进行数据维护操作包含:对数据进行增加、删除、修改和查询操作,设置数据的同步方式,建立数据目录,定义数据标签,维护共享数据。
10.如权利要求9所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的设置数据的同步方式的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者设定数据的同步方式,包含实时同步和定时同步,均采用数据增量同步方式实现。
11.如权利要求9所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的建立数据目录的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据拥有者对导入的数据设置数据所属目录,进行数据分类管理。
12.如权利要求9所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的定义数据标签的方法包含:数据导入数据湖服务器时和数据导入数据湖服务器后,数据湖服务器结合本体知识,对数据特征进行分析,提取数据标签;或者数据拥有者对标签进行筛选;或者数据拥有者自定义新的标签。
13.如权利要求9所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的维护共享数据的方法包含:为数据分享指定用户,设置数据的共享方式。
14.如权利要求13所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的为数据分享指定用户的方法包含:数据拥有者将数据分享给本地数据湖服务器节点的用户或非本地数据湖服务器节点的用户;通过数据湖服务器提供的共享用户列表选择本地数据湖服务器节点的共享用户;非本地数据湖服务器节点的用户通过数据拥有者的令牌访问共享数据。
15.如权利要求13所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的设置数据共享方式的方法包含:数据拥有者通过设置数据访问控制表中的信息来设置数据的共享方式;
数据的共享方式是指设置数据的访问权限,包含查询、预览、读取、下载、写入、修改、删除,每个数据拥有者对应一个数据访问控制表;
所述的数据访问控制表包含:共享的数据名、访问权限类别、共享用户列表、数据使用申请列表、数据使用确认信息;
所述的共享的数据名是指要共享的数据及其存储位置;
所述的访问权限类别是指针对该共享数据,开放给数据使用者的访问权限,包含:查询、预览、读取、下载、写入、修改、删除;
所述的共享用户列表中包含本地或者非本地数据湖服务器节点的共享用户,数据拥有者将数据的某些操作权限开放给这些共享用户;
所述的数据使用申请列表是指要求访问该数据的用户列表;
所述的数据使用确认信息是指数据拥有者对数据访问者的数据访问请求的确认情况,包含:已确认、未确认、拒绝。
16.如权利要求1所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的数据使用者进行数据访问的方法包含:数据使用者在权限允许范围内查询、预览、读取、下载、写入、修改、删除本地数据湖服务器节点中的共享数据,且数据使用者通过数据拥有者提供的令牌,在权限范围内查询、预览、读取、下载、写入、修改、删除数据湖服务器节点中的共享数据。
17.如权利要求16所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,所述的查询数据的方法包含:数据使用者通过多种检索方式输入关键词,查询数据湖服务器中的共享数据。
18.如权利要求1-17中任意一项所述的对数据湖服务器中的数据进行管理和访问的方法,其特征在于,数据使用者需要访问不具备权限的数据时,向数据拥有者发出数据访问请求,数据拥有者审核数据使用者发出的数据访问请求,然后确认并设置数据的访问权限。
CN201811427787.4A 2018-11-27 2018-11-27 一种对数据湖服务器中的数据进行管理和访问的方法 Pending CN111221887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811427787.4A CN111221887A (zh) 2018-11-27 2018-11-27 一种对数据湖服务器中的数据进行管理和访问的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811427787.4A CN111221887A (zh) 2018-11-27 2018-11-27 一种对数据湖服务器中的数据进行管理和访问的方法

Publications (1)

Publication Number Publication Date
CN111221887A true CN111221887A (zh) 2020-06-02

Family

ID=70828839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811427787.4A Pending CN111221887A (zh) 2018-11-27 2018-11-27 一种对数据湖服务器中的数据进行管理和访问的方法

Country Status (1)

Country Link
CN (1) CN111221887A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814000A (zh) * 2020-07-10 2020-10-23 东软集团(上海)有限公司 一种基于模板过滤的异构数据分析方法及系统
CN112000725A (zh) * 2020-08-28 2020-11-27 哈尔滨工业大学 一种面向多源异构资源的本体融合前处理方法
CN112463771A (zh) * 2020-12-28 2021-03-09 珠海华发新科技投资控股有限公司 一种数据湖管理平台
CN112507354A (zh) * 2020-12-04 2021-03-16 北京神州泰岳软件股份有限公司 一种基于图数据库的权限管理的方法及系统
CN113157981A (zh) * 2021-03-26 2021-07-23 支付宝(杭州)信息技术有限公司 一种图网络关系扩散方法和装置
CN113254518A (zh) * 2021-05-21 2021-08-13 京软伟业信息技术(北京)有限公司 一种基于粒数据的信息资源管理与分析方法
CN113347249A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种作业加载方法、装置及设备
CN113407529A (zh) * 2020-11-20 2021-09-17 广东美云智数科技有限公司 一种权限数据湖的管理方法、管理装置以及存储介质
CN114265814A (zh) * 2022-03-01 2022-04-01 天津安锐捷技术有限公司 一种基于对象存储的数据湖文件系统
CN114679301A (zh) * 2022-03-01 2022-06-28 北京明朝万达科技股份有限公司 一种利用安全沙箱对数据湖数据进行存取的方法和系统
CN115168512A (zh) * 2022-09-01 2022-10-11 山东慧创信息科技有限公司 多维数据元融合实现数据收集和共享的时空数据湖方法
DE112022000538T5 (de) 2021-01-07 2023-11-09 Abiomed, Inc. Netzwerkbasierte Medizinische Gerätesteuerung und Datenverwaltungssysteme
CN117354069A (zh) * 2023-12-06 2024-01-05 自然资源陕西省卫星应用技术中心 一种基于数据湖的遥感数据管理系统及方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814000A (zh) * 2020-07-10 2020-10-23 东软集团(上海)有限公司 一种基于模板过滤的异构数据分析方法及系统
CN112000725A (zh) * 2020-08-28 2020-11-27 哈尔滨工业大学 一种面向多源异构资源的本体融合前处理方法
CN113407529A (zh) * 2020-11-20 2021-09-17 广东美云智数科技有限公司 一种权限数据湖的管理方法、管理装置以及存储介质
CN112507354A (zh) * 2020-12-04 2021-03-16 北京神州泰岳软件股份有限公司 一种基于图数据库的权限管理的方法及系统
CN112463771A (zh) * 2020-12-28 2021-03-09 珠海华发新科技投资控股有限公司 一种数据湖管理平台
DE112022000538T5 (de) 2021-01-07 2023-11-09 Abiomed, Inc. Netzwerkbasierte Medizinische Gerätesteuerung und Datenverwaltungssysteme
CN113157981A (zh) * 2021-03-26 2021-07-23 支付宝(杭州)信息技术有限公司 一种图网络关系扩散方法和装置
CN113254518A (zh) * 2021-05-21 2021-08-13 京软伟业信息技术(北京)有限公司 一种基于粒数据的信息资源管理与分析方法
CN113347249B (zh) * 2021-05-31 2022-11-29 中国工商银行股份有限公司 一种作业加载方法、装置及设备
CN113347249A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种作业加载方法、装置及设备
CN114265814B (zh) * 2022-03-01 2022-06-07 天津安锐捷技术有限公司 一种基于对象存储的数据湖文件系统
CN114679301A (zh) * 2022-03-01 2022-06-28 北京明朝万达科技股份有限公司 一种利用安全沙箱对数据湖数据进行存取的方法和系统
CN114265814A (zh) * 2022-03-01 2022-04-01 天津安锐捷技术有限公司 一种基于对象存储的数据湖文件系统
CN114679301B (zh) * 2022-03-01 2023-10-20 北京明朝万达科技股份有限公司 一种利用安全沙箱对数据湖数据进行存取的方法和系统
CN115168512A (zh) * 2022-09-01 2022-10-11 山东慧创信息科技有限公司 多维数据元融合实现数据收集和共享的时空数据湖方法
CN117354069A (zh) * 2023-12-06 2024-01-05 自然资源陕西省卫星应用技术中心 一种基于数据湖的遥感数据管理系统及方法
CN117354069B (zh) * 2023-12-06 2024-02-13 自然资源陕西省卫星应用技术中心 一种基于数据湖的遥感数据管理系统及方法

Similar Documents

Publication Publication Date Title
CN111221887A (zh) 一种对数据湖服务器中的数据进行管理和访问的方法
US20210182415A1 (en) Querying in big data storage formats
Hu et al. Toward scalable systems for big data analytics: A technology tutorial
JP2021108183A (ja) 意図推薦方法、装置、機器及び記憶媒体
US8782096B2 (en) Virtual repository management
US9098535B2 (en) Global information management system and method
US8190555B2 (en) Method and system for collecting and distributing user-created content within a data-warehouse-based computational system
CN109964219A (zh) 经由分布式计算机网络的协作数据集整合
US20240119048A1 (en) Real-time analytical queries of a document store
US8965879B2 (en) Unique join data caching method
US9870422B2 (en) Natural language search
JP2015197909A (ja) 大容量データを処理するための、sqlパーシングによる2レベルクエリー及び結果キャッシングを用いたオンライン分析プロセッシング方法
US20140310262A1 (en) Multiple schema repository and modular database procedures
CN114003634A (zh) 基于es技术的大数据分析检索系统及方法
CN114443599A (zh) 数据同步方法、装置、电子设备及存储介质
KR20190005578A (ko) 인메모리 기반의 분산 데이터베이스 관리 방법 및 시스템
CN116962516A (zh) 一种数据查询方法、装置、设备及存储介质
US20170060892A1 (en) Search-based shareable collections
CN111737216A (zh) 数据用户环境、数据治理方法和计算机可读存储介质
CN111008190A (zh) 一种知识收集处理和检索系统
Chudnovskyy et al. Data portability using Webcomposition/Data grid service
WO2012019046A1 (en) Online protocol community
US20230306030A1 (en) Row-level permissioning based on evaluated policies
CN109491800B (zh) 一种基于产品结构的档案推送系统及档案推送方法
Zhou Research on Intelligent Recommendation Technology of Digital Library Based on Access Information Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination