CN110888839A - 数据存储及数据搜索方法和装置 - Google Patents
数据存储及数据搜索方法和装置 Download PDFInfo
- Publication number
- CN110888839A CN110888839A CN201911203294.7A CN201911203294A CN110888839A CN 110888839 A CN110888839 A CN 110888839A CN 201911203294 A CN201911203294 A CN 201911203294A CN 110888839 A CN110888839 A CN 110888839A
- Authority
- CN
- China
- Prior art keywords
- data
- hbase
- file
- field
- hdfs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013500 data storage Methods 0.000 title claims abstract description 37
- 238000007726 management method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013523 data management Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据存储方法,包括以下步骤:获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储;将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;以及将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,并将存储在HDFS中的文件的字段名加上标记,并记录在数据表中。本申请的搜索方法可以提供实时性、可扩展性和可靠性等方面均有较好的性能,并可以满足大数据量的搜索性能要求。
Description
技术领域
本发明涉及大数据领域,具体涉及一种数据存储及数据搜索方法和装置。
背景技术
在摩尔定律的结论下,每隔18-24个月产品的性能会提升一倍。随着产品硬件性能的提升,新的软件技术也会伴着高性能硬件而生,从而产生新的大量数据。在现代新技术的高速发展下,随着互联网技术、尤其是大数据技术的快速发展,不仅是互联网公司的网络信息量呈爆炸式的增长,连传统行业(如金融行业、医疗行业)也享受到新技术的红利,数据量也呈几何级增长。
面对这些爆炸性增长的数据,可以通过存储扩容或扩充服务器来缓解存储压力,然而数据的查询压力问题不容小觑。传统的关系型数据如MySQL、Oracle等已经不能满足需求,单表数据量达到过亿时,查询性能骤降,常见的关系型数据库优化方法如创建索引、分库、分表在面对超大数据量的表时,一方面性能问题依旧,另一方面分库或分表的方式将会使查询变得繁琐。
得益于Google BigTable论文的发表,随之而生并快速发展的大数据技术目前已经能很好地满足大数据量(PB级甚至是EB级数据)的存储需求,然而对于超大数据的快速搜索仍是个较严峻的挑战。
在现有技术中,面对海量数据的搜索或存储一般采用HBase,例如Phoenix是一个开源的HBase查询引擎,其通过将SQL查询转换成为一个或多个HBase Scan来获取数据,直接使用HBase API,利用Coprocessor和Filter进行数据搜索,试图规避MapReduce,从而减小时延。然而由于Coprocessor和Filter的自身能力受限,完全抛弃MapReduce使其在面对复杂查询和大数据量的搜索时性能受限。
为了解决HBase的海量数据复杂查询问题,另一种解决思路就是对HBase中的每列数据建立索引。目前支持海量数据分布式索引的框架主要有两个,分别是Solr和Elasticsearch。Solr是Apache Lucene项目的开源企业搜索平台,支持全文检索、命中提示、分面搜索、动态聚类等。Elasticsearch是一个实时的分布式搜索和分析引擎,可以用于全文搜索、结构化搜索及分析,支持Lucene的近实时检索,目前被维基百科、GitHub、StackOverflow、英国卫报等组织和企业广泛使用。ElasticSearch在针对大数据量的查询时由于搜索字段针对全文没有针对性导致其查询性能受限。
有鉴于此,提出一种新的数据存储及数据搜索方法和装置是亟待解决的问题之一。
发明内容
针对上述提到的面对大数据查询等问题。本申请的实施例的目的在于提出了,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提出了一种数据存储方法,包括以下步骤:
S1:获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储;
S2:将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;以及
S3:将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,并将存储在HDFS中的文件的字段名加上标记,并记录在数据表中。
在一些实施例中,在步骤S1中根据数据表中的具体业务问题分析应用场景,获取关键字段。关键字段在该应用场景中具有极大的搜索意义,可以用来直接搜索,因此可以提高检索的有效性和效率。
在一些实施例中,校验值包括SHA-256值。校验值是唯一值,通过SHA-256计算出该唯一值,可以避免数据冲突。
在一些实施例中,步骤S2中HBase采用单列族的方式进行存储。HBase采用单列族的存储方案可以提高HBase搜索的性能。
在一些实施例中,步骤S3中文件为非结构化数据。结构化数据可以存储在数据表中,文件较小的非结构化数据可以存储在HBase中,文件较大的非结构化数据可以存储在HDFS中。
第二方面,本申请的实施例还提出了一种数据搜索方法,采用第一方面的数据存储方法,包括以下步骤:
S4:通过ElasticSearch进行检索,并根据数据表的名称和”_id”字段在HBase中获取rowkey所对应的明细数据;
S5:检索到明细数据后遍历数据表的字段名,根据字段名读取存储在HBase或HDFS的文件。
在一些实施例中,获得字段名所对应的文件的路径,根据文件的路径获得在HDFS中的文件。一方面可以直接根据文件的路径读取对应的文件并转换成二进制流,并合并索引和明细数据,返回给查询端,另外一方面可以直接返回HDFS存储路径的字段,再根据具体应用场景去读取文件。
在一些实施例中,通过数据中台系统对数据表、明细数据和文件的接入源、存储方式及存放时间分别进行数据接入管理、数据存储分配管理以及数据生命周期管理。数据中台系统对数据量庞大的数据进行管理,并且提供以后端服务接口的形式实现数据交互,提高数据应用的实时性、通用性和可靠性相关的性能。
在一些实施例中,数据中台系统进行数据管理以提供可视化数据查询和权限管理。数据中台系统提供可扩展性、数据安全性等性能。
在一些实施例中,通过MySQL进行数据交互,并对数据中台系统的管理功能和负载历史进行存储。MySQL用于数据中台系统的应用,存放应用系统的相关数据。
在一些实施例中,通过数据中台系统对ElasticSearch、HBase、HDFS和MySQL进行服务器节点管理。数据中台系统可以管理哪些服务器用于ElasticSearch、HBase、HDFS或MySQL,并提供服务器负载情况的图形化查看。
第三方面,本申请的实施例还提出了一种数据存储装置,包括:
关键字段存储模块,被配置为获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储;
明细数据存储模块,被配置为将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;以及
文件存储模块,被配置为将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,其中文件为非结构化数据。
第四方面,本申请的实施例还提出了一种数据搜索装置,采用第三方面的数据存储装置,包括:
明细数据获取模块,被配置为通过ElasticSearch进行检索,并根据数据表的名称和”_id”字段在HBase中获取rowkey所对应的明细数据;
关键字段存储模块,被配置为检索到明细数据后遍历数据表的字段名,根据所述字段名读取存储在所述HBase或所述HDFS的所述文件。
第五方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面和第二方面中任一实现方式描述的方法。
本申请的实施例公开了一种数据存储和数据检索方法及装置,通过在ElasticSearch中存储用于搜索的数据,例如关键字段,实现二级索引的功能。而在HDFS中存储非结构化数据,如图片、视频、音频等。在HBase中存储明细数据。MySQL则用于数据中台的应用,存放应用系统的相关数据,如用户、权限等。采用HDFS、HBase、ElasticSearch这几项大数据技术相结合进行存储,实现快速搜索的目的,满足大数据量的存储需求,并且能够有效地提高搜索的性能。另外建立数据中台系统,用于管理系统用户权限控制、数据管理、数据仪表盘等应用组件。建立数据搜索服务中心的接口系统,如数据接入、数据搜索功能等的接口,以支持后端程序及第三方应用的数据搜索需求。接口的调用有权限控制,具体配置可在数据中台系统中配置,或用管理员命令行模式操作。因此提供了一种在实时性、可扩展性和可靠性等方面都有较好的性能的大数据搜索方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的数据存储方法的流程示意图;
图3为本发明的实施例的数据搜索方法的流程示意图;
图4为本发明的实施例的数据存储装置的示意图;
图5为本发明的实施例的数据搜索装置的示意图;
图6是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的数据存储及数据搜索方法或数据存储及数据搜索装置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的数据存储及数据搜索方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,数据存储及数据搜索装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
图2示出了本申请实施例公开一种数据存储方法,包括以下步骤:
S1:获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储。
在具体的实施例中,根据数据表中的具体业务问题分析应用场景,获取关键字段。数据表中每一行数据的每个字段可能都会很有价值,但是并不是每个字段都有被搜索的价值。只有部分关键字段在该应用场景中具有极大的搜索意义,可以用来直接搜索。结构化数据是由二维表结构来逻辑表达和实现的数据,主要通过关系型数据库进行存储和管理。数据表也是结构化数据的表现形式。ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,其实现原理主要分为以下几个步骤:首先用户将数据提交到ElasticSearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。Elasticsearch可以用于搜索各种文档,可以提供可扩展的搜索,具有接近实时的搜索。
例如学生信息表中有编号——id字段、姓名——name字段、父亲——father字段、祖籍——hometown字段,其中id字段、name字段对于学生信息来说有搜索意义,可以用来直接搜索到学生,但父亲母亲的姓名相对于学生表来说,搜索价值就低很多,因此可以只将学生信息表的id字段、name字段作为搜索用的关键字段即主键,并存放于ElasticSearch中。在其他可选的实施例中,可以根据具体业务问题具体分析应用场景,如商品信息表可以只将商品编号、商品名称、厂家等字段进行搜索。
在具体的实施例中,将存储在ElasticSearch中每条记录的”_id”字段即ElasticSearch每条记录的固有字段作为校验值。在优选的实施例中,可以用每张数据表的关键字段通过SHA-256算出该校验值。该校验值是唯一值,这样可以避免数据冲突,并且通过该校验值可以用于与存放在HBase中的明细数据相关联。在其他可选的实施例中,也通过SHA-1、SHA-2或MD5算出该校验值。例如学生信息表有字段学生ID、课程ID、成绩这三个字段,而学生ID、课程ID是关键字段,则将这两个关键字段合并为一个字符串,然后算出这个字符串的SHA-256值,来作为每条记录存放在ElasticSearch中的”_id”字段。
S2:将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey。
在具体的实施例中,HBase采用单列族的方式进行存储。这样可以提高HBase搜索的性能。与ElasticSearch的”_id”字段类似,HBase中将数据表的关键字段合并为1个字符串,然后对该字符串算校验值作HBase每条记录的rowkey。一方面可以避免每行数据的唯一标识重复,另一方面是用校验值作HBase的rowkey可以将数据比较平均地打散,防止HBase造成数据倾斜导致性能问题。由于在ElasticSearch搜索到的每条记录中都有”_id”字段来存储,而”_id”字段的值与HBase的rowkey值的存储规则相同,因此可以轻松地在ElasticSearch检索到数据后,根据表名和”_id”字段的值从HBase直接插对应rowkey的数据,这样就能获取到每行数据完整的明细数据。
S3:将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,并将存储在HDFS中的文件的字段名加上标记,并记录在数据表中。
在具体的实施例中,步骤S3中文件为非结构化数据。要存储图片、音频、视频等非结构化数据,则根据具体业务具体分析。由于HBase支持二进制字段,因此文件较小的图片、音频、视频可以直接转成二进制流存储在HBase的字段中。而文件较大的非结构化数据可以存储在HDFS的特定目录下,然后在HBase对应的字段中存储这些文件的HDFS文件的路径,另外存储HDFS的字段名要加上标记。在优选的实施例中,在字段名加上前缀,比如活动视频字段”video”字段名以”HDFS__”(3个下划线)开头变成”HDFS__video”,这样在查到HBase的明细数据后遍历数据表的字段名,如果发现以”HDFS__”开头的字段,则读取该字段名的路径去HDFS中读取数据对应的文件并转换成二进制流。读取到数据后,删除原先在HBase查询数据中的”HDFS__video”,合并上查到数据的”video”字段,然后返回给查询端。这样可以合并索引与明细数据,将结果返回给查询端。或者不从HDFS中读取文件,而是直接返回HDFS存储文件的路径的字段,由具体应用根据具体场景自行去读取图片、音频、视频等数据。
另外,本申请的实施例还提出了一种数据搜索方法,采用上面的数据存储方法,如图3所示,包括以下步骤:
S4:通过ElasticSearch进行检索,并根据数据表的名称和”_id”字段在HBase中获取rowkey所对应的明细数据;
S5:检索到明细数据后遍历数据表的字段名,根据字段名读取存储在HBase或HDFS的文件。
在具体的实施例中,获得字段名所对应的文件的路径,根据文件的路径获得在HDFS中的文件。一方面可以直接根据文件的路径读取对应的文件并转换成二进制流,并合并索引和明细数据,返回给查询端,另外一方面可以直接返回HDFS存储路径的字段,再根据具体应用场景去读取文件。
在具体的实施例中,通过数据中台系统对数据表、明细数据和文件的接入源、存储方式及存放时间分别进行数据接入管理、数据存储分配管理以及数据生命周期管理。其中数据接入管理配置各个数据接入源,数据存储分配管理配置数据表的哪些字段只用于在ElasticSearch中做检索字段,哪些图片、音频或视频字段要存放于HDFS中,数据生命周期管理配置数据表中数据的存放时间、数据过期后是否保留。数据中台系统还可以进行数据管理以提供可视化数据查询和权限管理。权限管理包括数据中台的用户权限控制、数据访问的权限控制等功能,并提供图形化的数据查询功能。
数据中台系统管理功能、负载历史等功能需要通过MySQL进行存储,通过MySQL进行数据交互,并对数据中台系统的管理功能和负载历史进行存储。MySQL用于数据中台系统的应用,存放应用系统的相关数据。通过数据中台系统对ElasticSearch、HBase、HDFS和MySQL进行服务器节点管理。具体可以管理哪些服务器用于ElasticSearch、HBase、HDFS或MySQL,并提供服务器负载情况的图形化查看。在优选的实施例中,建立web数据中台系统,用于管理系统用户权限控制、数据管理、数据仪表盘等应用组件。其中,用户权限用于管理数据的访问权限;数据管理用于数据接入的管理、生命周期管理;数据仪表盘功能则是用来监控集群的健康状况、负载情况。数据中台系统对数据量庞大的数据进行管理,并且提供以后端服务接口的形式实现数据交互,提高数据应用的实时性、通用性和可靠性相关的性能。在优选的实施例中,建立数据搜索服务中心的接口系统,如数据接入、数据搜索功能的接口,以支持后端程序及第三方应用的数据搜索需求。接口的调用有权限控制,具体配置可在web数据中台系统中配置,或用管理员命令行模式操作。
进一步参考图4,作为对上述图2所示方法的实现,本申请提供了一种数据存储装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。本申请的实施例还提出了一种数据存储装置,包括:
关键字段存储模块1,被配置为获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算字符串的校验值存储在ElasticSearch中;
明细数据存储模块2,被配置为将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;
文件存储模块3,被配置为将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,其中文件为非结构化数据。
进一步参考图5,作为对上述图3所示方法的实现,本申请提供了一种数据搜索装置的一个实施例,该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。并采用上面的数据存储装置,包括:
明细数据获取模块4,被配置为通过ElasticSearch进行检索,并根据数据表的名称和”_id”字段在HBase中获取rowkey所对应的明细数据;
关键字段存储模块5,被配置为检索到明细数据后遍历数据表的字段名,根据所述字段名读取存储在所述HBase或所述HDFS的所述文件。
本申请的实施例公开了一种数据存储和数据检索方法及装置,通过在ElasticSearch中存储用于搜索的数据,例如关键字段,实现二级索引的功能。而在HDFS中存储非结构化数据,如图片、视频、音频等。在HBase中存储明细数据。MySQL则用于数据中台的应用,存放应用系统的相关数据,如用户、权限等。采用HDFS、HBase、ElasticSearch这几项大数据技术相结合进行存储,实现快速搜索的目的,满足大数据量的存储需求,并且能够有效地提高搜索的性能。另外建立数据中台系统,用于管理系统用户权限控制、数据管理、数据仪表盘等应用组件。建立数据搜索服务中心的接口系统,如数据接入、数据搜索功能等的接口,以支持后端程序及第三方应用的数据搜索需求。接口的调用有权限控制,具体配置可在数据中台系统中配置,或用管理员命令行模式操作。因此提供了一种在实时性、可扩展性和可靠性等方面都有较好的性能的大数据搜索方法。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602,其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)604中的程序而执行各种适当的动作和处理。在RAM 604中,还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。
以下部件连接至I/O接口606:包括键盘、鼠标等的输入部分607;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608;包括硬盘等的存储部分609;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器611上,以便于从其上读出的计算机程序根据需要被安装入存储部分609。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分610从网络上被下载和安装,和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括关键字段存储模块、明细数据存储模块和文件存储模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文件存储模块还可以被描述为“被配置为将文件存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,其中文件为非结构化数据”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取数据表中用于搜索的关键字段,将关键字段存储在ElasticSearch中,并将关键字段进行合并成字符串,计算出字符串的校验值,将校验值作为ElasticSearch的”_id”字段进行存储;将数据表对应的明细数据存放在HBase中,并将校验值作为HBase的rowkey;将文件以二进制流的方式存储在HBase中,或将文件存储在HDFS中并将文件的路径存储在HBase中,并将存储在HDFS中的文件的字段名加上标记,并记录在数据表中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种数据存储方法,其特征在于,包括以下步骤:
S1:获取数据表中用于搜索的关键字段,将所述关键字段存储在ElasticSearch中,并将所述关键字段进行合并成字符串,计算出所述字符串的校验值,将所述校验值作为所述ElasticSearch的”_id”字段进行存储;
S2:将所述数据表对应的明细数据存放在HBase中,并将所述校验值作为所述HBase的rowkey;以及
S3:将文件以二进制流的方式存储在所述HBase中,或将文件存储在HDFS中并将所述文件的路径存储在所述HBase中,并将存储在所述HDFS中的所述文件的字段名加上标记,并记录在所述数据表中。
2.根据权利要求1所述的数据存储方法,其特征在于,在所述步骤S1中根据所述数据表中的具体业务问题分析应用场景,获取所述关键字段。
3.根据权利要求1所述的数据存储方法,其特征在于,所述校验值包括SHA-256值。
4.根据权利要求1所述的数据存储方法,其特征在于,所述步骤S2中所述HBase采用单列族的方式进行存储。
5.根据权利要求1所述的数据存储方法,其特征在于,所述步骤S3中所述文件为非结构化数据。
6.一种数据搜索方法,其特征在于,采用权利要求1-5中任一项所述的数据存储方法,包括以下步骤:
S4:通过所述ElasticSearch进行检索,并根据所述数据表的名称和所述”_id”字段在所述HBase中获取所述rowkey所对应的明细数据;
S5:检索到所述明细数据后遍历所述数据表的字段名,根据所述字段名读取存储在所述HBase或所述HDFS的所述文件。
7.根据权利要求6所述的数据搜索方法,其特征在于,获得所述字段名所对应的所述文件的路径,根据所述文件的路径获得在所述HDFS中的所述文件。
8.根据权利要求6所述的数据搜索方法,其特征在于,通过数据中台系统对所述数据表、所述明细数据和所述文件的接入源、存储方式及存放时间分别进行数据接入管理、数据存储分配管理以及数据生命周期管理。
9.根据权利要求8所述的数据搜索方法,其特征在于,所述数据中台系统进行数据管理以提供可视化数据查询和权限管理。
10.根据权利要求8所述的数据搜索方法,其特征在于,通过MySQL进行数据交互,并对所述数据中台系统的管理功能和负载历史进行存储。
11.根据权利要求10所述的数据搜索方法,其特征在于,通过所述数据中台系统对所述ElasticSearch、所述HBase、所述HDFS和所述MySQL进行服务器节点管理。
12.一种数据存储装置,包括:
关键字段存储模块,被配置为获取数据表中用于搜索的关键字段,将所述关键字段存储在ElasticSearch中,并将所述关键字段进行合并成字符串,计算出所述字符串的校验值,将所述校验值作为所述ElasticSearch的”_id”字段进行存储;
明细数据存储模块,被配置为将所述数据表对应的明细数据存放在HBase中,并将所述校验值作为所述HBase的rowkey;以及
文件存储模块,被配置为将文件以二进制流的方式存储在所述HBase中,或将文件存储在HDFS中并将所述文件的路径存储在所述HBase中,其中所述文件为非结构化数据。
13.一种数据搜索装置,采用如权利要求12所述的数据存储装置,包括:
明细数据获取模块,被配置为通过所述ElasticSearch进行检索,并根据所述数据表的名称和所述”_id”字段在所述HBase中获取所述rowkey所对应的明细数据;
关键字段存储模块,被配置为检索到所述明细数据后遍历所述数据表的字段名,根据所述字段名读取存储在所述HBase或所述HDFS的所述文件。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911203294.7A CN110888839A (zh) | 2019-11-29 | 2019-11-29 | 数据存储及数据搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911203294.7A CN110888839A (zh) | 2019-11-29 | 2019-11-29 | 数据存储及数据搜索方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110888839A true CN110888839A (zh) | 2020-03-17 |
Family
ID=69749518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911203294.7A Pending CN110888839A (zh) | 2019-11-29 | 2019-11-29 | 数据存储及数据搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888839A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407609A (zh) * | 2021-06-29 | 2021-09-17 | 中国民生银行股份有限公司 | 外部数据使用方法、装置和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763436A (zh) * | 2018-05-25 | 2018-11-06 | 福州大学 | 一种基于ElasticSearch与HBase的分布式数据存储系统 |
CN109086451A (zh) * | 2018-08-24 | 2018-12-25 | 江苏神州信源系统工程有限公司 | 一种图片存储与检索方法与装置 |
US20190164176A1 (en) * | 2017-11-24 | 2019-05-30 | Capital One Services, Llc | Systems and methods for processing transaction data |
CN109857898A (zh) * | 2019-02-20 | 2019-06-07 | 成都嗨翻屋科技有限公司 | 一种海量数字音频指纹存储与检索的方法及系统 |
CN110362549A (zh) * | 2019-06-17 | 2019-10-22 | 平安普惠企业管理有限公司 | 日志存储检索方法、电子装置及计算机设备 |
-
2019
- 2019-11-29 CN CN201911203294.7A patent/CN110888839A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164176A1 (en) * | 2017-11-24 | 2019-05-30 | Capital One Services, Llc | Systems and methods for processing transaction data |
CN108763436A (zh) * | 2018-05-25 | 2018-11-06 | 福州大学 | 一种基于ElasticSearch与HBase的分布式数据存储系统 |
CN109086451A (zh) * | 2018-08-24 | 2018-12-25 | 江苏神州信源系统工程有限公司 | 一种图片存储与检索方法与装置 |
CN109857898A (zh) * | 2019-02-20 | 2019-06-07 | 成都嗨翻屋科技有限公司 | 一种海量数字音频指纹存储与检索的方法及系统 |
CN110362549A (zh) * | 2019-06-17 | 2019-10-22 | 平安普惠企业管理有限公司 | 日志存储检索方法、电子装置及计算机设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407609A (zh) * | 2021-06-29 | 2021-09-17 | 中国民生银行股份有限公司 | 外部数据使用方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685071B2 (en) | Methods, systems, and computer program products for storing graph-oriented data on a column-oriented database | |
US9330166B2 (en) | User-specific search over protected contextual data | |
CN109614402B (zh) | 多维数据查询方法和装置 | |
MX2013014800A (es) | Recomendacion de enriquecimientos de datos. | |
US9569486B2 (en) | System and a method for hierarchical data column storage and efficient query processing | |
KR20130049111A (ko) | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 | |
US10956438B2 (en) | Catalog with location of variables for data | |
US11048703B2 (en) | Minimizing processing using an index when non leading columns match an aggregation key | |
US10936640B2 (en) | Intelligent visualization of unstructured data in column-oriented data tables | |
US11745093B2 (en) | Developing implicit metadata for data stores | |
CN115168362A (zh) | 数据处理方法、装置、可读介质及电子设备 | |
CN110110184B (zh) | 信息查询方法、系统、计算机系统及存储介质 | |
CN110291515B (zh) | 计算系统中的分布式索引搜索 | |
US11734241B2 (en) | Efficient spatial indexing | |
US9465658B1 (en) | Task distribution over a heterogeneous environment through task and consumer categories | |
CN110888839A (zh) | 数据存储及数据搜索方法和装置 | |
US9286349B2 (en) | Dynamic search system | |
US11567906B2 (en) | Generation and traversal of a hierarchical index structure for efficient data retrieval | |
CN114510605A (zh) | 数据存储方法、装置、电子设备及存储介质 | |
US20160150038A1 (en) | Efficiently Discovering and Surfacing Content Attributes | |
CN112307061A (zh) | 用于查询数据的方法和装置 | |
US11361001B2 (en) | Search using data warehouse grants | |
US11514007B1 (en) | Dynamic data processing for a semantic data storage architecture | |
US11496444B1 (en) | Enforcing access control to resources of an indexing system using resource paths | |
US9594813B2 (en) | Strategies for result set processing and presentation in search applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200317 |