CN106202207B - 一种基于HBase-ORM的索引及检索系统 - Google Patents

一种基于HBase-ORM的索引及检索系统 Download PDF

Info

Publication number
CN106202207B
CN106202207B CN201610488133.7A CN201610488133A CN106202207B CN 106202207 B CN106202207 B CN 106202207B CN 201610488133 A CN201610488133 A CN 201610488133A CN 106202207 B CN106202207 B CN 106202207B
Authority
CN
China
Prior art keywords
data
layer
hbase
name
orm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610488133.7A
Other languages
English (en)
Other versions
CN106202207A (zh
Inventor
郭乔进
梁中岩
周鹏飞
刘旸
祁骏
刘耀强
刘玉龙
胡杰
陈文明
孟剑萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201610488133.7A priority Critical patent/CN106202207B/zh
Publication of CN106202207A publication Critical patent/CN106202207A/zh
Application granted granted Critical
Publication of CN106202207B publication Critical patent/CN106202207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于HBase‑ORM的索引及检索系统。通过自动建立底层数据库表与上层数据库对象之间的映射关系,完成数据的插入、读取和修改,将数据库层与数据访问层进行分离,从而使上层开发人员可以更多的关注上层的业务逻辑处理,提高开发效率,同时减小出错率;同时通过利用Elasticsearch对HBase中的每列数据根据不同的类型来建立索引,实现了文本的模糊查询、数值的区间查询、经纬度的范围查询以及图像的相似度查询,从而满足Web用户针对不同数据类型的实时查询需求。

Description

一种基于HBase-ORM的索引及检索系统
技术领域
本发明属于大数据存储与检索领域,尤其涉及一种基于HBase-ORM的索引及检索系统。
背景技术
数据库技术发展至今产生了SQL数据库和NoSQL(对所有非关系数据库的统称)数据库两大类型。当前NoSQL数据库很多,大部分都是开源的,其中比较知名的有:MemcacheDB、Redis、Tokyo Cabinet、Flare、MongoDB、CouchDB、Cassandra、Voldemort等。非关系型数据库不支持关系模型,不支持连接操作,易使用和部署,在实现海量数据分布式存储和快速读写技术上取得了一定的成果。
在对关系数据库进行访问和操作时,通常使用ORM框架来负责数据的持久化。例如Hibernate是目前最流行的ORM框架,是连接Java对象模型和关系数据模型的桥梁,它对JDBC进行了轻量级的封装,不仅提供ORM映射服务,还提供数据查询和数据缓冲功能,实现了业务逻辑对数据的透明访问。对于Web应用而言,数据访问对象隔离了不同数据源之间的差异,从而实现了业务逻辑层与数据源之间的解耦。
对于NoSQL数据库,由于数据库类型的多样性,目前尚无统一的ORM框架,例如针对Mongodb的Morphia、针对Infinispan的Hibernate OGM、针对HBase的SimpleHBase和Phoenix等。这里主要关注HBase的ORM框架。Phoenix是一个开源的HBase查询引擎,其通过将SQL查询转换为一个或多个HBase Scan来获取数据,直接使用HBase API,利用Coprocessor和Filter进行数据查询,试图规避MapReduce,从而减小时延。然而由于Coprocessor和Filter的自身能力受限,完全抛弃MapReduce使其在面对复杂查询和大数据量的查询时性能受限。SimpleHBase是一个轻量级的HBase中间件,支持数据类型映射、操作转换,通过封装HBase的Filter支持类SQL的查询,与Phoenix类似,其同样受限于Filter的处理能力。
为了解决HBase的海量数据复杂查询问题,另一种解决思路就是对HBase中的每列数据建立索引。目前支持海量数据分布式索引的框架主要有两个,分别是Solr和Elasticsearch。Solr是Apache Lucene项目的开源企业搜索平台,支持全文检索、命中提示、分面搜索、动态聚类等。Elasticsearch是一个实时的分布式搜索和分析引擎,可以用于全文搜索、结构化搜索及分析,支持Lucene的近实时检索,目前被维基百科、GitHub、StackOverflow、英国卫报等组织和企业广泛使用。两者相比,Solr拥有更多的开发和贡献者,较为成熟和稳定,但是并不支持实时索引和搜索;Elasticsearch的部署、维护更为简单,且支持近实时搜索,其缺点是开发和维护者相比Solr要少很多。相比而言,Solr架构目前不适用于实时搜索的应用。
发明内容
发明目的:本发明所要解决的技术问题是HBase中海量复杂数据的快速查询问题。本发明通过利用Java的注解和反射技术实现了一个HBase-ORM(Object RelationalMapping,对象关系映射)系统,同时利用Elasticsearch对HBase中的数据建立索引,并支持近实时的海量复杂数据查询。
技术方案:本发明提出了一种基于HBase-ORM的索引及检索系统。
所述系统包括Hadoop平台层、数据访问层、HBase-ORM层、业务逻辑层和web服务层,通过利用HBase-ORM层对上层和下层进行隔离,上层包括业务逻辑层和web服务层,下层包括Hadoop平台层和数据访问层,
其中,Hadoop平台层通过搭建Hadoop集群,利用HBase来作为数据库存储数据,所述数据包括文本、数值、经纬度和图像数据;
数据访问层提供HBase数据库的数据访问接口,根据HBase-ORM层的指定输入,利用HBase API完成数据的增加、删除、修改和查询操作,为HBase-ORM层提供HBase数据库的操作接口,
HBase-ORM层用于连接数据访问层和业务逻辑层,HBase-ORM层通过部署Elasticsearch集群来对HBase数据库中的文本、数值和经纬度数据建立索引,并提供查询接口,通过部署Elasticsearch图像检索插件,使Elasticsearch集群支持对图像数据进行索引和检索,HBase-ORM层将调用数据访问层完成Hbase数据库基本操作,并对业务逻辑层暴露统一的接口,所述基本操作包括增加、删除、修改和查询,
业务逻辑层用于特定业务的规则制定和业务流程实现,业务逻辑层根据Web服务层的访问请求,调用HBase-ORM层完成数据访问、数据处理操作,并将数据返回给Web服务层,
web服务层为用户提供数据的展示,以Web方式为用户呈现业务相关内容,提供交互界面,接受用户的访问请求,并传递给业务逻辑层,同时接收业务逻辑层返回相关内容并展示给用户。
所述HBase-ORM层包括两部分:对象映射模块和数据访问模块,其中对象映射模块通过利用注解来描述HTable对应的表结构,包括表名、列族名、索引名、列名和列类型,通过HTableConf注解来描述表名、列族和索引名,通过HColumn注解来描述HTable中对应的列名,利用HType注解来描述该列对应的类型;数据访问模块用于进行数据的增加、删除、修改、检索、建立和更新索引。
所述系统进行数据存储时执行如下步骤:
步骤1-1,数据访问层收到数据存储命令后向HBase-ORM层发出操作指示,HBase-ORM层根据注解获取数据对应的表名、列族名和列名,确定数据在HBase数据库中的存储位置,同时获取相应的索引名,以确定数据在ElasticSearch集群中的索引存储位置,以及每列数据对应的数据类型,Elasticsearch集群针对不同数据类型,建立不同的索引;
步骤1-2,Elasticsearch集群根据获取的表名、列族名和列名对HBase数据库进行操作,如果不存在相应表、列族或列,则在HBase数据库中新建,同时在ElasticSearch集群中新建对应索引,并根据每列的数据类型建立或更新索引结构;
步骤1-3,Elasticsearch集群将数据写入HBase数据库:对于非图像数据,在ElasticSearch集群中建立倒排索引;对于图像数据,则对图像提取特征,并保存特征向量。
所述系统进行数据检索时执行如下步骤:
步骤2-1,数据访问层收到数据检索命令后向HBase-ORM层发出操作指示,HBase-ORM层根据注解获取数据对应的表名、列族名、列名、索引名、数据类型以及数据值;
步骤2-2,Elasticsearch集群根据对应的索引名获取相应索引,对于非图像数据,Elasticsearch集群根据输入的数据及倒排索引获取根据相似度排序的数据的行键值列表;对于图像数据,Elasticsearch集群对输入图像提取特征,并与索引中存储的所有特征向量计算相似度,并进行排序,从而获取相似图像的行键值列表;
步骤2-3,Elasticsearch集群根据获取的键值结合表名、列族名以及列名从HBase数据库中读取相应数据并返回。
所述系统进行数据删除时执行如下步骤:HBase-ORM层通过用户给定的输入查询并返回相关数据,在HBase数据库中删除相关行,并在ElasticSearch集群中删除相关索引。
有益效果:本发明利用了Java的反射和注解机制来简化了HBase的数据插入、修改与删除,对上层用户屏蔽了HBase的API,减少代码冗余,提高数据访问的效率及可靠性;其次结合Elasticsearch在数据的插入与修改过程中根据不同的数据类型(包括文本、数值、经纬度等)建立索引,并支持对索引数据的近实时搜索,从而提高了HBase数据访问和检索的效率;最后,通过对Elasticsearch进行图像检索插件的扩展,从而使Elasticsearch支持对HBase中保存的彩色图像或人脸图像等进行相似度检索,在建立图像索引之后,可以实现海量图像的秒级搜索。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是数据访问流程图。
图2是基于HBase ORM的索引及检索系统架构示意图。
图3是数据存储模块交互示意图。
图4是数据检索模块交互示意图。
图5是时间范围检索效果图。
图6是字符串及时间范围复合查询效果图。
图7是图像检索结果示意图。
图8是人脸图像检索结果示意图。
具体实施方式
现阶段,对于NoSQL数据库,由于数据库类型的多样性,目前尚无统一的ORM框架。Phoenix是一个开源的HBase查询引擎,其通过将SQL查询转换为一个或多个HBase Scan来获取数据,直接使用HBase API,利用Coprocessor和Filter进行数据查询,试图规避MapReduce,从而减小时延。然而由于Coprocessor和Filter的自身能力受限,完全抛弃MapReduce使其在面对复杂查询和大数据量的查询时性能受限。SimpleHBase是一个轻量级的HBase中间件,支持数据类型映射、操作转换,通过封装HBase的Filter支持类SQL的查询,与Phoenix类似,其同样受限于Filter的处理能力。本发明通过利用Java的注解和反射技术实现了一个HBase ORM框架,同时利用Elasticsearch对HBase中的数据建立索引,并支持近实时的海量复杂数据查询。结合图1-图6,本发明包括以下处理步骤。
(1)通过搭建Hadoop集群来整合多台计算机的存储和计算能力,利用HBase来存储海量的文本、数值、经纬度及图像等数据。
(2)搭建Elasticsearch集群,利用Elasticsearch集群来对HBase中的数据进行索引,并提供检索接口。
(3)ElasticSearch图像搜索插件部署。Elasticsearch插件是Elasticsearch提供的一种标准功能扩展方法。通过插件开发者可以对Elasticsearch功能进行自定义扩展,比如添加新的分析器,开发现有功能的替代品等等。Elasticsearch插件还能够通过Elasticsearch的http服务器提供一些web服务,比如有一些开源的插件就实现Elasticsearch集群的管理,索引查询等非常有用的服务。总的说来利用Elasticsearch插件可以对原生的Elasticsearch进行功能扩展,也可以在Elasticsearch服务器上添加自定义的web服务。
Elasticsearch图像搜索插件就是利用Elasticsearch提供的自定义插件功能开发的一套基于颜色特征的图像快速检索工具。在原生的Elasticsearch中只提供了文本数据,数值数据,经纬度数据等常规数据的快速检索,没有提供图像数据的快速检索。为了实现大规模图像数据的快速检索,本发明对Elasticsearch进行了扩展。Elasticsearch图像插件要解决两个核心问题:1.图像数据如何描述。2.图像数据如何进行比较。
图像数据如何描述是图像检索的一个基本问题。图像是一种非结构化的数据,不同尺寸图像的数据维度也不一样。为了对不同尺寸的图像实现统一的描述,需要对图像提取出统一的描述特征。由于业务逻辑的需要,本发明提取了图像的颜色特征、序列特征和人脸特征作为图像描述算子。在底层,利用C++实现了一套图像颜色特征提取算法,并封装成JNI库。在上层插件中调用JNI库对图像提取统一维度的图像特征向量,在转化之后的统一向量空间中进行相似度计算。
(4)Java具有很强的动态性,其反射机制允许在运行时访问任意类的任意方法和属性,允许改变程序结构或变量类型。注解,也叫元数据,是一种代码级别的说明,可以声明在包、类、字段、方法、局部变量等前,用于对这些元素进行说明和注释。
HBase ORM框架主要包括两部分:对象映射和数据访问。其中对象映射通过利用注解来描述HTable对应的表结构,包括表名、列族名、索引名、列名、列类型等。如图1所示,通过HTableConf注解来描述表名、列族和索引名,通过HColumn注解来描述HTable中对应的列名,利用HType注解来描述该列对应的类型。
表1列类型及索引说明
列类型 列类型说明 列索引说明
STRING_ANALYSIS 字符串 分词索引
STRING_NOANALYSIS 字符串 不分词索引
INTEGER 整数 数值索引
DOUBLE 浮点数 数值索引
LOCATION 经纬度 经纬度索引
DATE 日期 日期索引
IMAGE_FACE 人脸图像 提取人脸特征
IMAGE_COLORLAYOUT 彩色图像 提取颜色分布特征
SEQFS_MIN 图像序列 提取图像序列特征(最小距离)
SEQFS_MEAN 图像序列 提取图像序列特征(均值距离)
数据访问模块则负责进行数据的增删改查、建立和更新索引等操作,具体操作流程如图1所示。如图2所示,整个系统自下而上分为Hadoop平台层,HBase-ORM层,数据访问层,业务逻辑层,web服务层。其中Hadoop平台层数据基础平台,而从数据访问层开始涉及业务数据。本发明中所描述的HBase ORM层则是两者之间的连接纽带。HBase ORM将底层的Hbase基本操作进行了封装,对上层暴露为统一的简便的接口,使得上层能够更方便地对Hbase进行操作。更重要的是,在Hbase ORM中,融合了ElasticSearch组件,对Hbase中的每一列数据建立了索引。使得上层能够更快速方便的对底层数据进行访问,弥补了Hbase无法快速按内容访问的不足。
图3展示了数据存储过程中各模块的交互示意图。数据访问层为用户提供简洁的数据存储接口(增加、修改)。首先根据注解获取数据对应的表名、列族名、列名,从而确定数据在HBase中的存储位置,同时还获取了相应的索引名,以确定数据在ElasticSearch中的索引存储位置,以及每列数据对应的数据类型(如表1所示),针对不同数据类型,建立不同的索引。如下所示,表名为T_CV_CACE,列族名为basic,索引名为cvtables:
Figure BDA0001032425990000071
Figure BDA0001032425990000081
然后根据获取的表名、列族名、列名对HBase进行操作,如果不存在相应表、列族或列,则在HBase中新建,同时在ElasticSearch中新建对应索引,并根据每列的数据类型建立或更新索引结构。最后将数据写入HBase,针对非图像数据,在ElasticSearch中建立倒排索引,针对图像数据,则对图像提取特征(不同图像类型提取不同视觉特征,具体如表1所示),并保存特征向量。
图4展示了数据检索(查询)过程中各模块的交互示意图。数据访问层为用户提供简洁的数据接口。首先根据注解获取数据对应的表名、列族名、列名、索引名、数据类型以及数据值。然后根据对应的索引名获取相应索引,对于非图像数据,可以根据输入的数据及倒排索引获取根据相似度排序的数据的行键值列表;对于图像数据,则首先对输入图像提取特征,并与索引中存储的所有特征向量计算相似度,并进行排序,从而获取相似图像的行键值列表。最后根据获取的键值结合表名、列族名以及列名从HBase中读取相应数据并返回。
数据删除的过程需结合上述数据检索与数据存储两个步骤,首先通过用户给定的输入查询并返回相关数据,然后再在HBase中删除相关行,并在ElasticSearch中删除相关索引。
图5-图8展示了基于HBase-ORM的检索效果示意图,其中图5是时间范围检索效果图,图6是字符串及时间范围复合查询效果图,图7是图像检索(黑色及出租车车辆检索)结果示意图,图8是人脸图像检索结果示意图。

Claims (1)

1.一种基于HBase-ORM的索引及检索系统,其特征在于,所述系统包括Hadoop平台层、数据访问层、HBase-ORM层、业务逻辑层和web服务层,通过利用HBase-ORM层对上层和下层进行隔离,上层包括业务逻辑层和web服务层,下层包括Hadoop平台层和数据访问层,
其中,Hadoop平台层通过搭建Hadoop集群,利用HBase来作为数据库存储数据,所述数据包括文本、数值、经纬度和图像数据;
数据访问层提供HBase数据库的数据访问接口,根据HBase-ORM层的指定输入,利用HBase API完成数据的增加、删除、修改和查询操作,为HBase-ORM层提供HBase数据库的操作接口,
HBase-ORM层用于连接数据访问层和业务逻辑层,HBase-ORM层通过部署Elasticsearch集群来对HBase数据库中的文本、数值和经纬度数据建立索引,并提供查询接口,通过部署Elasticsearch图像检索插件,使Elasticsearch集群支持对图像数据进行索引和检索,HBase-ORM层将调用数据访问层完成Hbase数据库基本操作,并对业务逻辑层暴露统一的接口,所述基本操作包括增加、删除、修改和查询,
业务逻辑层用于特定业务的规则制定和业务流程实现,业务逻辑层根据Web服务层的访问请求,调用HBase-ORM层完成数据访问、数据处理操作,并将数据返回给Web服务层,
web服务层为用户提供数据的展示,以Web方式为用户呈现业务相关内容,提供交互界面,接受用户的访问请求,并传递给业务逻辑层,同时接收业务逻辑层返回相关内容并展示给用户;
所述HBase-ORM层包括两部分:对象映射模块和数据访问模块,其中对象映射模块通过利用注解来描述HTable对应的表结构,包括表名、列族名、索引名、列名和列类型,通过HTableConf注解来描述表名、列族和索引名,通过HColumn注解来描述HTable中对应的列名,利用HType注解来描述该列对应的类型;数据访问模块用于进行数据的增加、删除、修改、检索、建立和更新索引;
所述系统进行数据存储时执行如下步骤:
步骤1-1,数据访问层收到数据存储命令后向HBase-ORM层发出操作指示,HBase-ORM层根据注解获取数据对应的表名、列族名和列名,确定数据在HBase数据库中的存储位置,同时获取相应的索引名,以确定数据在ElasticSearch集群中的索引存储位置,以及每列数据对应的数据类型,Elasticsearch集群针对不同数据类型,建立不同的索引;
步骤1-2,Elasticsearch集群根据获取的表名、列族名和列名对HBase数据库进行操作,如果不存在相应表、列族或列,则在HBase数据库中新建,同时在ElasticSearch集群中新建对应索引,并根据每列的数据类型建立或更新索引结构;
步骤1-3,Elasticsearch集群将数据写入HBase数据库:对于非图像数据,在ElasticSearch集群中建立倒排索引;对于图像数据,则对图像提取特征,并保存特征向量;
所述系统进行数据检索时执行如下步骤:
步骤2-1,数据访问层收到数据检索命令后向HBase-ORM层发出操作指示,HBase-ORM层根据注解获取数据对应的表名、列族名、列名、索引名、数据类型以及数据值;
步骤2-2,Elasticsearch集群根据对应的索引名获取相应索引,对于非图像数据,Elasticsearch集群根据输入的数据及倒排索引获取根据相似度排序的数据的行键值列表;对于图像数据,Elasticsearch集群对输入图像提取特征,并与索引中存储的所有特征向量计算相似度,并进行排序,从而获取相似图像的行键值列表;
步骤2-3,Elasticsearch集群根据获取的键值结合表名、列族名以及列名从HBase数据库中读取相应数据并返回;
所述系统进行数据删除时执行如下步骤:HBase-ORM层通过用户给定的输入查询并返回相关数据,在HBase数据库中删除相关行,并在ElasticSearch集群中删除相关索引。
CN201610488133.7A 2016-06-28 2016-06-28 一种基于HBase-ORM的索引及检索系统 Active CN106202207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610488133.7A CN106202207B (zh) 2016-06-28 2016-06-28 一种基于HBase-ORM的索引及检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610488133.7A CN106202207B (zh) 2016-06-28 2016-06-28 一种基于HBase-ORM的索引及检索系统

Publications (2)

Publication Number Publication Date
CN106202207A CN106202207A (zh) 2016-12-07
CN106202207B true CN106202207B (zh) 2020-04-21

Family

ID=57461952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610488133.7A Active CN106202207B (zh) 2016-06-28 2016-06-28 一种基于HBase-ORM的索引及检索系统

Country Status (1)

Country Link
CN (1) CN106202207B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241705B (zh) * 2016-12-27 2021-10-01 北京神州泰岳软件股份有限公司 一种数据插入方法及装置
CN108270752B (zh) * 2016-12-30 2021-05-14 北京国双科技有限公司 网络请求处理的方法及装置
CN108509437B (zh) * 2017-02-24 2021-09-17 南京烽火星空通信发展有限公司 一种ElasticSearch查询加速方法
CN106919675B (zh) * 2017-02-24 2019-12-20 浙江大华技术股份有限公司 一种数据存储方法及装置
CN107153535B (zh) * 2017-03-27 2020-08-04 武汉斗鱼网络科技有限公司 一种操作ElasticSearch的方法及装置
CN106934062B (zh) * 2017-03-28 2020-05-19 广东工业大学 一种查询elasticsearch的实现方法及系统
CN107133267B (zh) * 2017-04-01 2021-01-26 北京京东尚科信息技术有限公司 查询elasticsearch集群的方法、装置、电子设备和可读存储介质
CN108959294B (zh) * 2017-05-19 2021-07-13 北京京东尚科信息技术有限公司 一种访问搜索引擎的方法和装置
CN110020026A (zh) * 2017-07-19 2019-07-16 上海互宝能源科技有限责任公司 项目申报数据的查重系统及方法
CN107679235B (zh) * 2017-10-25 2021-09-21 成都尽知致远科技有限公司 基于云平台的检索系统
CN110019870B (zh) * 2017-12-29 2021-05-28 浙江宇视科技有限公司 基于内存图像集群的图像检索方法及系统
CN108509524A (zh) * 2018-03-12 2018-09-07 上海哔哩哔哩科技有限公司 数据处理的方法、服务器及数据处理的系统
CN110895530A (zh) * 2018-09-11 2020-03-20 北京奇虎科技有限公司 数据存储方法、分区服务器及电子设备
CN110895531A (zh) * 2018-09-11 2020-03-20 北京奇虎科技有限公司 数据存储表的数据写入方法、分区服务器及电子设备
CN110888870A (zh) * 2018-09-11 2020-03-17 北京奇虎科技有限公司 数据存储表的查询方法、分区服务器及电子设备
CN109151078B (zh) * 2018-10-31 2022-02-22 厦门市美亚柏科信息股份有限公司 一种分布式智能邮件分析过滤方法、系统及存储介质
CN109684402A (zh) * 2018-12-21 2019-04-26 福建南威软件有限公司 一种基于大数据平台元数据血缘关系实现方法
CN111061725B (zh) * 2019-11-12 2024-01-30 上海麦克风文化传媒有限公司 一种可进行大量数据处理的存储结构
CN114500660B (zh) * 2020-10-23 2023-11-03 中移(苏州)软件技术有限公司 请求处理方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984745A (zh) * 2014-05-23 2014-08-13 何震宇 分布式视频垂直搜索方法及系统
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810224B (zh) * 2012-11-15 2017-04-12 阿里巴巴集团控股有限公司 信息持久化和查询方法及装置
US9672552B2 (en) * 2014-03-27 2017-06-06 GroupBy Inc. Methods of augmenting search engines for ecommerce information retrieval
CN104598631B (zh) * 2015-02-05 2017-11-14 北京航空航天大学 分布式数据处理平台
CN104834688B (zh) * 2015-04-20 2019-10-08 北京奇艺世纪科技有限公司 一种二级索引建立方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015035477A1 (en) * 2013-09-11 2015-03-19 See-Out Pty Ltd Image searching method and apparatus
CN103984745A (zh) * 2014-05-23 2014-08-13 何震宇 分布式视频垂直搜索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Searching the Liber Usualis: Using COUCHDB and ELASTICSEARCH to query graphical music documents;Jessica Thompson 等;《Proceedings of the 12th International Society for Music Information Retrieval Conference》;20111231;1-2 *

Also Published As

Publication number Publication date
CN106202207A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202207B (zh) 一种基于HBase-ORM的索引及检索系统
US10585913B2 (en) Apparatus and method for distributed query processing utilizing dynamically generated in-memory term maps
US9965641B2 (en) Policy-based data-centric access control in a sorted, distributed key-value data store
KR20170019352A (ko) 데이터 질의 방법 및 장치
US11334549B2 (en) Semantic, single-column identifiers for data entries
CN113051268A (zh) 数据查询方法、数据查询装置、电子设备及存储介质
CN112930529A (zh) 从概念数据模型生成软件工件
CN111506621A (zh) 一种数据统计方法及装置
CN110134681B (zh) 数据存储与查询方法、装置、计算机设备及存储介质
CN114461603A (zh) 多源异构数据融合方法及装置
CN116034349A (zh) 列式分析存储格式的半结构化数据的概率文本索引
CN112800058A (zh) 一种HBase二级索引的实现方法
CN117171108B (zh) 一种虚拟模型映射方法和系统
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN111090668B (zh) 数据检索方法及装置、电子设备和计算机可读存储介质
CN113779349A (zh) 数据检索系统、装置、电子设备和可读存储介质
Hasan et al. Data transformation from sql to nosql mongodb based on r programming language
US10877998B2 (en) Highly atomized segmented and interrogatable data systems (HASIDS)
CN109753533A (zh) 一种多源关系型数据库客户端开发方法及装置
CN116795859A (zh) 数据分析方法、装置、计算机设备和存储介质
US11106674B2 (en) Extensible data skipping
Gašpar et al. Integrating Two Worlds: Relational and NoSQL
US20240193135A1 (en) Systems, methods, and media for accessing derivative properties from a post relational database utilizing a logical schema instruction that includes a base object identifier
Toups A study of three paradigms for storing geospatial data: distributed-cloud model, relational database, and indexed flat file
CN108256109B (zh) 列簇类型半结构化数据的结构化查询方法及计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant