CN111427911A - 数据查询方法、装置、计算机设备和存储介质 - Google Patents

数据查询方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111427911A
CN111427911A CN202010219109.XA CN202010219109A CN111427911A CN 111427911 A CN111427911 A CN 111427911A CN 202010219109 A CN202010219109 A CN 202010219109A CN 111427911 A CN111427911 A CN 111427911A
Authority
CN
China
Prior art keywords
data
information
query
database
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010219109.XA
Other languages
English (en)
Inventor
王永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202010219109.XA priority Critical patent/CN111427911A/zh
Publication of CN111427911A publication Critical patent/CN111427911A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了一种数据查询方法、装置、计算机设备和存储介质,其中方法包括接收分析需求信息;查找与分析信息携带的业务类型对应的第一数据分库;其中,第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;利用分布式设置的SQL查询引擎,分别到第一数据分库中查询对应分析需求信息的待分析数据,以完成分析需求。本申请将不同业务类型的数据存储到对应的数据分库中,在查询数据的时候不需要考虑数据源的因素,只需要考虑数据本身即可,无需Hive库、Greenplum和Spark三部分复杂的交互式计算以及依赖复杂算法,提高数据的查询效率。分布式的SQL查询引擎,可以将一个查询任务拆分成多个小任务,进一步地提高查询速度。

Description

数据查询方法、装置、计算机设备和存储介质
技术领域
本申请涉及到数据查询领域,特别是涉及到一种数据查询方法、装置、计算机设备和存储介质。
背景技术
基于大数据平台的数据中台,数仓往往扮演重要的角色,为了能够给数据集市提供实时有效的数据,对数据查询的时效性要求就会高于单数据源,作为数仓的重要组成部分,Hive库是基于Hadoop上的数据仓库基础构架,Greenplum专门用于管理大规模分析数据仓库和商业智能工作负载,Spark是专为大规模数据处理而设计的快速通用的计算引擎,数仓需要依赖这三部分进行交互式计算以及依赖复杂算法将结果通过spark sql反映到web端,单纯依赖ORM(对象关系映射,Object Relational Mapping)的Mybatis多数据源是不能实现的,由于hive库是主要的数据存储结构,当大量的业务数据存储后查询速度会下降,加上Hive库底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性,如何实现将三种组件进行混合式的查询,并且能够灵活的根据业务数据进行响应,现有业内或产品都没有好的方案。
发明内容
本申请的主要目的为提供一种数据查询方法、装置、计算机设备和存储介质,旨在解决现有技术中在大数据中进行数据查询时,查询速度慢的技术问题。
为了实现上述发明目的,本申请提出一种数据查询方法,包括:
接收分析需求信息;其中,所述分析需求信息携带有至少一种业务类型;
查找与所述分析信息携带的业务类型对应的第一数据分库;其中,所述第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;
利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求。
进一步地,所述查找与所述分析信息携带的业务类型对应的第一数据分库的步骤之前,包括:
接收数据分库的建立命令,其中所述建立命令携带新业务类型,所述新业务类型与各所述第一数据分库对应的业务类型不同;
根据所述建立命令在所述hive库中划分出指定的存储空间;
调用多个分布式设置的SQL查询引擎到hive库查询与所述新业务类型对应的数据,并将查询到的数据存储到所述存储空间形成第二数据分库。
进一步地,所述接收数据分库的建立命令的步骤之前,包括:
判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限;
若有,则接收所述建立命令。
进一步地,所述判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限的步骤,包括:
采集所述应用端前的用户的人脸视频;
每间隔M帧获取一次人脸视视频中人眼的眼球信息,以及人脸的角度信息;其中,所述M是正整数,且M大于等于12小于等于24;
判断各眼球信息是否发生变化;
若是,则判定所述用户为活体用户,并选择人脸角度信息达到预设要求的一帧图片中的人脸图像;
通过人脸识别技术判断所述人脸图像是否通过验证;
若验证通过,则判定所述用户具有建立数据分库的权限。
进一步地,所述判断各眼球信息是否发生变化的步骤,包括:
获取每一个所述眼球信息对应的二进制数据,其中所述眼球信息是眼球在眼眶中的位置信息;
比较各所述二进制数据是否相同;
若相同,则判定各眼球信息未发生变化;
若不相同,则判定各眼球信息发生变化。
进一步地,所述利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求的步骤S2,包括:
当所述分析需求信息包括多个,且分别是不同的应用端发送时,使用队列方式分配SQL查询引擎,以完成各所述应用端需要的待分析数据的查询。
进一步地,所述利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求的步骤之后,包括:
利用GreenplumMPP数据库做大数据计算和分析平台,完成分析需求。
本申请过还提供一种数据查询装置,包括:
接收单元,用于接收分析需求信息;其中,所述分析需求信息携带有至少一种业务类型;
查找单元,用于查找与所述分析信息携带的业务类型对应的第一数据分库;其中,所述第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;
分布查询单元,用于利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的数据查询方法、装置、计算机设备和存储介质,将不同业务类型的数据存储到对应的数据分库中,在查询数据的时候不需要考虑数据源的因素,只需要考虑数据本身即可,无需Hive库、Greenplum和Spark三部分复杂的交互式计算以及依赖复杂算法,提高数据的查询效率。又因为数据是根据业务类型分类的,在数据查询的过程中,无需复杂的交互性等,所以可以使用Hadoop的原生SQL查询引擎HAWQ,减低研发人员的开发成本;分布式的SQL查询引擎,可以将一个查询任务拆分成多个小任务,进一步地提高查询速度。
附图说明
图1为本发明一实施例的数据查询方法的流程示意图;
图2为本发明一实施例的数据查询装置的结构示意框图;
图3为本发明一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种数据查询方法包括步骤:
S1、接收分析需求信息;其中,所述分析需求信息携带有至少一种业务类型;
S2、查找与所述分析信息携带的业务类型对应的第一数据分库;其中,所述第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;
S3、利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求。
如上述步骤S1所述,上述分析需求信息是指大数据分析时需要什么样的数据的信息,一般包括时间段信息、业务类型信息、关键字信息等。比如,分析需求信息是2019年上半年居民汽车新增购买量以及其购买保险的保险公司分布,其对应的时间段信息为2019年1月1日至2019年6月30日;业务类型为居民姓名、购车数据、车险售卖数据等;关键字信息为2019年1月1日至2019年6月30日、姓名、保险等。上述业务类型也可以认为是数据的维度,不同的业务类型对应不同的维度。
如上述步骤S2所述,不同的业务类型对应不同的第一数据分库,这样在查找对应分析需求信息的待分析数据时,会提高查询的速度。具体地,当获取到待存储到hive库中存储数据的时候,通过Impala引擎或者MapReduce引擎按照预设的业务类型对上述存储数据进行分类处理,然后将分类后的存储数据分别存储到与其类型相同的第一数据分库中,比如a业务类型的数据存储到a业务类型的第一数据分库中,b业务类型的数据存储到b业务类型的第一数据分库中。上述Impala引擎或者MapReduce引擎是两种开源的引擎,在使用对应的引擎的时候,需要对系统进行不同的配置。在本申请中使用Impala引擎,不需要把中间结果写入磁盘,省掉了大量的I/O开销;省掉了MapReduce作业启动的开销。由于将相同业务类型的数据存储到对应的第一数据分库中,所以到第一数据府库中查询数据的时候,不需要进行复杂的依赖关系计算,降低数据查询的交互性,可以有效提高数据查询的速度。
如上述步骤S3所述,上述SQL查询引擎是Hadoop的原生SQL查询引擎HAWQ。因为上述的每一个第一数据分库中只存储一种业务类型的数据,所以同一个第一数据分库中的数据之间的依赖关系简单,可以使用Hadoop的原生SQL查询引擎HAWQ,无需开发新的SQL查询引擎,节约开发成本。上述SQL查询引擎是分布式设置的,这样可以使多个SQL查询引擎分别到不同的第一数据分库中查询对应所述分析需求信息的待分析数据,进一步地提高数据分析时待分析数据获取的速度。一般不是每一个第一分数据库都配置一个SQL查询引擎,而是分布式的设置多个SQL查询引擎,在查询待分析数据的时候,可以根据需求进行确定调用哪几个SQL查询引擎,以及哪一个SQL查询引擎到哪一个第一数据分库中进行数据查询等。具体的分配方法可以通过预设的配置算法进行分配,比如,根据分析需求信息中的业务类型的数量确定调用多少个SQL查询引擎,然后在随机调用对应数量的SQL查询引擎,以确保各被调用的SQL查询引擎对应一个与其他SQL查询引擎不同的第一数据分库;或者,调用的SQL查询引擎数量小于分析需求信息中的业务类型的数量,但是大于等于一的SQL查询引擎数量,然后各被调用的SQL查询引擎并行执行查询任务,当一个SQL查询引擎完成一个查询任务后,会继续对本次数据查询任务对应的未查询到的第一数据分库进行对应的数据查询。在另一个实施例中,上述SQL查询引擎具体为SQL查询引擎DataFrame,其可以根据多源进行构建,包括:结构化的数据文件,hive库中的表,外部的关系型数据库,以及RDD等。
在一个实施例中,上述查找与所述分析信息携带的业务类型对应的第一数据分库的步骤S2之前,包括:
S201、接收数据分库的建立命令,其中所述建立命令携带新业务类型,所述新业务类型与各所述第一数据分库对应的业务类型不同;
S202、根据所述建立命令在hive库中划分出指定的存储空间;
S203、调用多个分布式设置的SQL查询引擎到hive库查询与所述新业务类型对应的数据,并将查询到的数据存储到所述存储空间形成第二数据分库。
如上述步骤S201所述,上述建立命令是指用户根据业务需求而配置的命令,上述新业务类型是指与上述各第一数据分库对应的业务类型不同的新的业务类型,比如现有业务类型为A、B、C、D等4个业务类型,那么新业务类型可以为F,或者A和B的并集、交集等,在此不做具体的限定。
如上述步骤S202所述,当检测到上述建立命令后,即会在hive库中划分出指定的存储空间,该存储空间的存储容量一般会较大,以满足对应新业务类型的数据可以全部的存入到上述存储空间中形成第二数据分库。具体地,上述hive库中预留大量的待分割存储空间,当接到建立命令后,就会将待分割存储空间分割出一部分作为上述的存储空间。
如上述步骤S203所述,多个分布式设置的SQL查询引擎是Hadoop的原生SQL查询引擎HAWQ,多个分布式设置的SQL查询引擎到hive库并行查询对应新业务类型的数据,可以提高查询的速度。在本实施例中,多个分布式设置的SQL查询引擎会查询hive库中的全部数据分库,将个数据分库中的对应新业务类型的数据查找到,并复制到新的第二数据分库中。
本实施例中,用户可以根据业务需求自定义第二数据分库对应的业务类型,提高系统的可拓展性,使其可以适合不同的业务应用场景。
在一个实施例中,上述接收数据分库的建立命令的步骤S201之前,包括:
判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限;
若有,则接收所述建立命令。
在本实施例中,因为hive库是一个团体共用的大数据库,其对应的各数据分库同样是一个团体中各成员共同使用,因此hive库建立数据分库设立有权限管理,以防止任何人都可以完成数据分库的建立,影响其他人的使用。判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限的方法包括多种,比如,通过所述应用端的摄像头采集用户的脸部图像,然后与人脸数据中各标准人脸进行相似度计算,如果存在与脸部图像相似度大于预设值的标准人脸,则判定用户具有建立数据分库的权限;又比如,通过指纹验证、声纹验证等现有的成熟的身份认证方法,在此不再赘述。
在一个实施例中,上述判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限的步骤,包括:
采集所述应用端前的用户的人脸视频;
每间隔M帧获取一次人脸视视频中人眼的眼球信息,以及人脸的角度信息;其中,所述M是正整数,且M大于等于12小于等于24;
判断各眼球信息是否发生变化;
若是,则判定所述用户为活体用户,并选择人脸角度信息达到预设要求的一帧图片中的人脸图像;
通过人脸识别技术判断所述人脸图像是否通过验证;
若验证通过,则判定所述用户具有建立数据分库的权限。
在本实施例中,先判断用户是否为活体,以防止非法人员通过具有权限的用户的图片欺骗系统。本申请检测用户是否为活体的方法比较特殊,是每间隔M帧采集一次人眼的眼球信息(眼球在眼睛中位置信息,如居中、偏左X度、偏右Y度等),而不是采集每一帧视频上的人眼信息,节约系统的计算资源,而且不影响计算结果的准确性。视频采集或播放的时候,每一秒采集或播放的帧数是大于等于24帧,所以M大于等于12小于等于24时,使采集的时间间隔基本在半秒钟或者约等于半秒钟到1秒钟之间采集一次人眼的眼球信息,可以保证采集到的人眼的眼球信息具有连贯性,从而在可以保证准确判定用户是否为活体的情况下,节约计算资源。上述选择人脸角度信息达到预设要求的一帧图片中的人脸图像,一般是指人脸正对或者基本正对应用端的显示界面的人脸图像,因为在人脸识别的过程中主要是通过相似度计算,所说选择用户的正面的人脸图像,会得到更准确的人脸图像验证结果。本申请中的人脸的角度信息和人眼的眼球信息局可以通过现有图片分析技术完成,在此不在赘述。
在一个具体实施例中,上述判断各眼球信息是否发生变化的步骤,包括:
获取每一个所述眼球信息对应的二进制数据,其中所述眼球信息是眼球在眼眶中的位置信息;
比较各所述二进制数据是否相同;
若相同,则判定各眼球信息未发生变化;
若不相同,则判定各眼球信息发生变化。
在本实施例中,上述的眼球信息是间隔M帧才采集一次的眼球信息,所以如果是活体,则一定会发生信息的变化,即使是微小的变化,其对应的二进制数据也会发生变化,所以可以准确的判断出各眼球信息是否相同。需要说明的是,眼球信息的获取是通过预设的图片分析方法提取人眼的特征得到的眼球信息,如果非法人员通过具有权限的用户的图片欺骗系统,同一张具有权限的用户的图片中的眼球信息不会因为针对摄像头的角度发生变化而使采集到的人眼的特征发生变化(特征包括眼球在眼眶中的位置信息),因为无论拍摄图片的角度如何,只要能够准确的识别出眼眶和眼眶中的眼球,那么眼球所占眼眶的比例是不会发生变化的,另外,如果非法人员真的使用图片欺骗系统,其不会给出一个非常差的角度给到摄像头拍摄,所以无需考虑拍不到或者怕不清楚的情况等。进一步地,在比较过程中只是比较各眼球信息对应的二进制数据,无需对个眼球信息进行多余的处理,节约计算资源。采用本实施例的方法,可以有效地防止用户植入同一张用户照片欺骗计算机系统。
在一个实施例中,上述利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求的步骤S2,包括:
当所述分析需求信息包括多个,且分别是不同的应用端发送时,使用队列方式分配SQL查询引擎,以完成各所述应用端需要的待分析数据查询。
在本实施例中,上述应用端是通过集群部署的,所以可以进行统一分配SQL查询引擎,并进行相应的调整等。本实施例中,在大数据中,不同的业务类型的数据,其数据量的大小可能存在较大的差异,比如人寿保险购买数据,要远大于牲畜险的购买数据,所以在查询人寿保险购买数据的业务类型数据时,分配更多的数量的SQL查询引擎,在牲畜险的购买数据的业务类型数据时,分配想多较少数量的SQL查询引擎,即会根据各数据府库中的数量大小分配对应数据量的SQL查询引擎,然后将对应各业务类型的各SQL查询引擎并行的到对应的第一数据分库中查查询数据,既可以保持高效的数据查询,又可以提高用户的查询体验。在一个具体实施例中,两台应用端同时发送分析需求信息,且分析需求相同,系统给每一个应用端分配指定数量的SQL查询引擎,然后计算分析需求信息中各业务类型对应的第一数据分库中的数量之间的比值,将分配到的SQL查询引擎根据上述比值进行再次分配,然后进行数据查询。
在一个实施例中,上述利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求的步骤S3之后,包括:
利用GreenplumMPP(Massively Parallel Processing,大规模并行处理系统)数据库做大数据计算和分析平台,完成分析需求。
如上述步骤S4所述,即为将分布式设置的SQL查询引擎到不同的第一数据分库中查询到的待分析数据存储到一起后,交由GreenplumMPP数据库进行处理。由于所有的查询业务都属于OLAP(OnlineAnalyticalProcessing,联机分析处理)领域,所以利用GreenplumMPP数据库做大数据计算和分析平台,可以提高分析的速度。在MPP系统中,每个节点可以运行自己的操作系统、数据库等。换言之,每个节点内的CPU不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(DataRedistribution),其与传统的SMP(Symmetric Multi Processing,对称多处理系统)架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。
本申请实施例的一种自助数据多引擎查询的方法,将不同业务类型的数据存储到对应的数据分库中,在查询数据的时候不需要考虑数据源的因素,只需要考虑数据本身即可,无需Hive库、Greenplum和Spark三部分复杂的交互式计算以及依赖复杂算法,提高数据的查询效率。又因为数据是根据业务类型分类的,在数据查询的过程中,无需复杂的交互性等,所以可以使用Hadoop的原生SQL查询引擎HAWQ,减低研发人员的开发成本;分布式的SQL查询引擎,可以将一个查询任务拆分成多个小任务,进一步地提高查询速度。
参照图2,本申请还提供一种数据查询装置,包括:
接收单元10,用于接收分析需求信息;其中,所述分析需求信息携带有至少一种业务类型;
查找单元10,用于查找与所述分析信息携带的业务类型对应的第一数据分库;其中,所述第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;
分布查询单元30,用于利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求。
在一个实施例中,上述数据查询装置,还包括:
接收建立单元,用于接收数据分库的建立命令,其中所述建立命令携带新业务类型,所述新业务类型与各所述第一数据分库对应的业务类型不同;
划分单元,用于根据所述建立命令在所述hive库中划分出指定的存储空间;
查询存储单元,用于调用多个分布式设置的SQL查询引擎到hive库查询与所述新业务类型对应的数据,并将查询到的数据存储到所述存储空间形成第二数据分库。
在一个实施例中,上述数据查询装置,还包括:
判断单元,用于判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限;若有,则接收所述建立命令。
在一个实施例中,上述判断单元,包括:
采集模块,用户采集所述应用端前的用户的人脸视频;
获取模块,用于每间隔M帧获取一次人脸视视频中人眼的眼球信息,以及人脸的角度信息;其中,所述M是正整数,且M大于等于12小于等于24;
判断模块,用于判断各眼球信息是否发生变化;
选择模块,用于若各眼球信息发生变化,则判定所述用户为活体用户,并选择人脸角度信息达到预设要求的一帧图片中的人脸图像;
验证模块,用于通过人脸识别技术判断所述人脸图像是否通过验证;
判定模块,用于若验证通过,则判定所述用户具有建立数据分库的权限。
在一个实施例中,上述判断模块,包括:
获取子模块,用于获取每一个所述眼球信息对应的二进制数据,其中所述眼球信息是眼球在眼眶中的位置信息;
比较子模块,用于比较各所述二进制数据是否相同;
判定子模块,用于若各所述二进制数据相同,则判定各眼球信息未发生变化;若各所述二进制数据不相同,则判定各眼球信息发生变化。
在一个实施例中,上述查找单元20,包括:
队列分配查找模块,用于当所述分析需求信息包括多个,且分别是不同的应用端发送时,使用队列方式分配SQL查询引擎,以完成各所述应用端需要的待分析数据的查询。
在一个实施例中,上述数据查询装置,还包括:
分析单元,用于利用GreenplumMPP数据库做大数据计算和分析平台,完成分析需求。
参照图3,本申请实施例中还提供一种计算机设备,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种待分析数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的数据查询方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例的计算机设备,将不同业务类型的数据存储到对应的数据分库中,在查询数据的时候不需要考虑数据源的因素,只需要考虑数据本身即可,无需Hive库、Greenplum和Spark三部分复杂的交互式计算以及依赖复杂算法,提高数据的查询效率。又因为数据是根据业务类型分类的,在数据查询的过程中,无需复杂的交互性等,所以可以使用Hadoop的原生SQL查询引擎HAWQ,减低研发人员的开发成本;分布式的SQL查询引擎,可以将一个查询任务拆分成多个小任务,进一步地提高查询速度。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种上述任一实施例的数据查询方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种数据查询方法,其特征在于,包括:
接收分析需求信息;其中,所述分析需求信息携带有至少一种业务类型;
查找与所述分析信息携带的业务类型对应的第一数据分库;其中,所述第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;
利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求。
2.根据权利要求1所述的数据查询方法,其特征在于,所述查找与所述分析信息携带的业务类型对应的第一数据分库的步骤之前,包括:
接收数据分库的建立命令,其中所述建立命令携带新业务类型,所述新业务类型与各所述第一数据分库对应的业务类型不同;
根据所述建立命令在所述hive库中划分出指定的存储空间;
调用多个分布式设置的SQL查询引擎到hive库查询与所述新业务类型对应的数据,并将查询到的数据存储到所述存储空间形成第二数据分库。
3.根据权利要求2所述的数据查询方法,其特征在于,所述接收数据分库的建立命令的步骤之前,包括:
判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限;
若有,则接收所述建立命令。
4.根据权利要求3所述的数据查询方法,其特征在于,所述判断发送所述建立命令的应用端前的用户是否具有建立数据分库的权限的步骤,包括:
采集所述应用端前的用户的人脸视频;
每间隔M帧获取一次人脸视视频中人眼的眼球信息,以及人脸的角度信息;其中,所述M是正整数,且M大于等于12小于等于24;
判断各眼球信息是否发生变化;
若是,则判定所述用户为活体用户,并选择人脸角度信息达到预设要求的一帧图片中的人脸图像;
通过人脸识别技术判断所述人脸图像是否通过验证;
若验证通过,则判定所述用户具有建立数据分库的权限。
5.根据权利要求4所述的数据查询方法,其特征在于,所述判断各眼球信息是否发生变化的步骤,包括:
获取每一个所述眼球信息对应的二进制数据,其中所述眼球信息是眼球在眼眶中的位置信息;
比较各所述二进制数据是否相同;
若相同,则判定各眼球信息未发生变化;
若不相同,则判定各眼球信息发生变化。
6.根据权利要求1所述的数据查询方法,其特征在于,所述利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求的步骤S2,包括:
当所述分析需求信息包括多个,且分别是不同的应用端发送时,使用队列方式分配SQL查询引擎,以完成各所述应用端需要的待分析数据的查询。
7.根据权利要求1所述的数据查询方法,其特征在于,所述利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求的步骤之后,包括:
利用GreenplumMPP数据库做大数据计算和分析平台,完成分析需求。
8.一种数据查询装置,其特征在于,包括:
接收单元,用于接收分析需求信息;其中,所述分析需求信息携带有至少一种业务类型;
查找单元,用于查找与所述分析信息携带的业务类型对应的第一数据分库;其中,所述第一数据分库是hive库按照业务类型进行拆分后得到的对应不同业务类型的数据库;
分布查询单元,用于利用分布式设置的SQL查询引擎,分别到所述第一数据分库中查询对应所述分析需求信息的待分析数据,以完成分析需求。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010219109.XA 2020-03-25 2020-03-25 数据查询方法、装置、计算机设备和存储介质 Pending CN111427911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010219109.XA CN111427911A (zh) 2020-03-25 2020-03-25 数据查询方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010219109.XA CN111427911A (zh) 2020-03-25 2020-03-25 数据查询方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111427911A true CN111427911A (zh) 2020-07-17

Family

ID=71555431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010219109.XA Pending CN111427911A (zh) 2020-03-25 2020-03-25 数据查询方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111427911A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966727A (zh) * 2020-08-12 2020-11-20 北京海致网聚信息技术有限公司 基于Spark和Hive的分布式OLAP即席查询方法
CN112036894A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 利用虹膜特征及动作特征进行身份确认的方法及系统
CN113360481A (zh) * 2021-08-09 2021-09-07 杭州安恒信息技术股份有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN113434524A (zh) * 2021-06-24 2021-09-24 江苏创源电子有限公司 一种数据的集成方法、装置、电子设备及存储介质
CN116680061A (zh) * 2023-08-02 2023-09-01 腾讯科技(深圳)有限公司 任务执行方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929325A (zh) * 2014-02-26 2014-07-16 浪潮软件股份有限公司 一种信息系统集成中的组织机构及用户权限统一控制方法
CN106339475A (zh) * 2016-08-29 2017-01-18 联众智慧科技股份有限公司 一种海量数据的分布式存储系统
CN107770190A (zh) * 2017-11-02 2018-03-06 山东浪潮通软信息科技有限公司 一种权限管理方法及装置
CN107967347A (zh) * 2017-12-07 2018-04-27 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN108427684A (zh) * 2017-02-14 2018-08-21 华为技术有限公司 数据查询方法、装置及计算设备
CN108460266A (zh) * 2018-03-22 2018-08-28 百度在线网络技术(北京)有限公司 用于认证身份的方法和装置
CN108629674A (zh) * 2018-05-09 2018-10-09 平安普惠企业管理有限公司 拍卖收益的分配方法及终端设备
CN109408526A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 Sql语句生成方法、装置、计算机设备及存储介质
CN110008226A (zh) * 2019-04-03 2019-07-12 平安信托有限责任公司 数据模型的构建方法、装置、计算机设备和存储介质
US20190317949A1 (en) * 2015-04-06 2019-10-17 EMC IP Holding Company LLC Analytics platform for scalable distributed computations

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929325A (zh) * 2014-02-26 2014-07-16 浪潮软件股份有限公司 一种信息系统集成中的组织机构及用户权限统一控制方法
US20190317949A1 (en) * 2015-04-06 2019-10-17 EMC IP Holding Company LLC Analytics platform for scalable distributed computations
CN106339475A (zh) * 2016-08-29 2017-01-18 联众智慧科技股份有限公司 一种海量数据的分布式存储系统
CN108427684A (zh) * 2017-02-14 2018-08-21 华为技术有限公司 数据查询方法、装置及计算设备
CN107770190A (zh) * 2017-11-02 2018-03-06 山东浪潮通软信息科技有限公司 一种权限管理方法及装置
CN107967347A (zh) * 2017-12-07 2018-04-27 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN108460266A (zh) * 2018-03-22 2018-08-28 百度在线网络技术(北京)有限公司 用于认证身份的方法和装置
CN108629674A (zh) * 2018-05-09 2018-10-09 平安普惠企业管理有限公司 拍卖收益的分配方法及终端设备
CN109408526A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 Sql语句生成方法、装置、计算机设备及存储介质
CN110008226A (zh) * 2019-04-03 2019-07-12 平安信托有限责任公司 数据模型的构建方法、装置、计算机设备和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966727A (zh) * 2020-08-12 2020-11-20 北京海致网聚信息技术有限公司 基于Spark和Hive的分布式OLAP即席查询方法
CN112036894A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 利用虹膜特征及动作特征进行身份确认的方法及系统
CN112036894B (zh) * 2020-09-01 2023-08-18 中国银行股份有限公司 利用虹膜特征及动作特征进行身份确认的方法及系统
CN113434524A (zh) * 2021-06-24 2021-09-24 江苏创源电子有限公司 一种数据的集成方法、装置、电子设备及存储介质
CN113360481A (zh) * 2021-08-09 2021-09-07 杭州安恒信息技术股份有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN116680061A (zh) * 2023-08-02 2023-09-01 腾讯科技(深圳)有限公司 任务执行方法、装置、设备及存储介质
CN116680061B (zh) * 2023-08-02 2024-03-15 腾讯科技(深圳)有限公司 任务执行方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111427911A (zh) 数据查询方法、装置、计算机设备和存储介质
CN111831636B (zh) 一种数据处理方法、装置、计算机系统及可读存储介质
CN113678117A (zh) 提供协作智能和约束计算的数据隐私管道
CN111427971B (zh) 用于计算机系统的业务建模方法、装置、系统和介质
CN113711219A (zh) 用于协作智能和约束计算的约束管理器
CN111639077B (zh) 数据治理方法、装置、电子设备、存储介质
CN113836131A (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN111737364B (zh) 安全多方数据融合与联邦共享方法、装置、设备及介质
CN110659418A (zh) 内容搜索方法、装置、存储介质及计算设备
US20150120697A1 (en) System and method for analysis of a database proxy
CN114022188A (zh) 目标人群圈选方法、装置、设备以及存储介质
CN107276914B (zh) 基于cmdb的自助资源分配调度的方法
CN114860742A (zh) 基于人工智能的ai客服交互方法、装置、设备及介质
US20210034574A1 (en) Systems and methods for verifying performance of a modification request in a database system
US11023485B2 (en) Cube construction for an OLAP system
CN116150185A (zh) 基于人工智能的数据标准提取方法、装置、设备及介质
CN115061663A (zh) 基于客户需求的微服务划分方法、装置、电子设备及介质
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质
CN112199401B (zh) 数据请求处理方法、装置、服务器、系统及存储介质
CN110363515B (zh) 权益卡账户信息查询方法、系统、服务器及可读存储介质
CN116628042A (zh) 数据处理方法、装置、设备及介质
CN114020446A (zh) 一种跨多引擎的路由处理方法、装置、设备及存储介质
CN113849520A (zh) 异常sql的智能识别方法、装置、电子设备及存储介质
CN114547182A (zh) 人员信息同步方法、终端设备及存储介质
CN111143328A (zh) 一种敏捷商业智能数据构建方法、系统、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220523

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Block H, 666 Beijing East Road, Huangpu District, Shanghai 200000

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200717

RJ01 Rejection of invention patent application after publication