发明内容
本申请的目的在于提供一种数据处理的方法、装置、介质及电子设备,能够解决上述提到的至少一个技术问题。具体方案如下:
根据本申请的具体实施方式,第一方面,提供一种数据处理的方法,包括:
获取用户查询信息;
根据所述用户查询信息获取第一数据处理能力;
判断所述第一数据处理能力是否满足第一数据处理条件;
若是,则启动第一数据处理算法并根据所述用户查询信息和所述第一数据处理算法获取用户查询结果;
若否,则启动第二数据处理算法并根据所述用户查询信息和所述第二数据处理算法获取所述用户查询结果。
可选的,所述第一数据处理算法,是批处理算法;所述第一数据处理能力,包括批处理任务数。
可选的,所述判断所述批处理任务数是否满足第一数据处理条件,包括:
判断所述批处理任务数是否小于预设第一阈值。
可选的,在所述启动第二数据处理算法后,还包括:
根据所述第二数据处理算法获取第一数据处理效率;
判断所述第一数据处理效率是否满足第一效率条件;
若否,关闭所述第二数据处理算法。
可选的,所述第一数据处理效率,包括:所述第二数据处理算法的使用率和/或所述第二数据处理算法的超时率。
可选的,所述判断所述第一数据处理效率是否满足第一效率条件,至少包括以下算法之一:
判断所述第二数据处理算法的使用率是否大于或等于预设第二阈值;
判断所述第二数据处理算法的超时率是否小于预设第三阈值。
可选的,在所述获取用户查询信息后,还包括:
根据所述用户查询信息获取综合评估结果;
判断所述综合评估结果是否满足第二数据处理条件;
若是,则根据所述用户查询信息和第三数据处理算法获取用户查询结果。
可选的,在所述根据所述用户查询信息获取第一数据处理能力前,还包括:
判断所述第二数据处理算法是否启动;
若是,则根据所述用户查询信息和所述第二数据处理算法获取用户查询结果。
可选的,所述综合评估结果,包括:数据量评估结果和/或数据维度评估结果。
可选的,所述判断所述综合评估结果是否满足第二数据处理条件,包括:
判断所述综合评估结果是否小于预设第四阈值。
可选的,所述第二数据处理算法,是指流式数据处理算法。
可选的,所述第三数据处理算法,是指采用本地系统资源进行数据处理的算法。
根据本申请的具体实施方式,第二方面,本申请提供一种数据处理的装置,包括:
获取查询信息单元,用于获取用户查询信息;
获取处理能力单元,用于根据所述用户查询信息获取第一数据处理能力;
判断单元,用于判断所述第一数据处理能力是否满足第一数据处理条件;
第一数据处理单元,用于若所述判断单元的输出结果为“是”,则启动第一数据处理算法并根据所述用户查询信息和所述第一数据处理算法获取用户查询结果;
第二数据处理单元,用于若所述判断单元的输出结果为“否”,则启动第二数据处理算法并根据所述用户查询信息和所述第二数据处理算法获取所述用户查询结果。
根据本申请的具体实施方式,第三方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述数据处理的方法。
根据本申请的具体实施方式,第四方面,本申请提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述数据处理的方法。
本申请实施例的上述方案与现有技术相比,至少具有以下有益效果:
本申请提供了一种数据处理的方法、装置、介质及电子设备。所述方法,包括:获取用户查询信息;根据所述用户查询信息获取第一数据处理能力;判断所述第一数据处理能力是否满足第一数据处理条件;若是,则启动第一数据处理算法并根据所述用户查询信息和所述第一数据处理算法获取用户查询结果;若否,则启动第二数据处理算法并根据所述用户查询信息和所述第二数据处理算法获取所述用户查询结果。本申请提高了系统吞吐量,支持多用户并发操作,合理分配了系统资源,提高了不同需求用户对于数据分析的响应速度。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本公开实施例中可能采用术语第一、第二、第三等来描述技术名称,但这些技术名称不应限于这些术语。这些术语仅用来将技术名称区分开。例如,在不脱离本公开实施例范围的情况下,第一校验签名也可以被称为第二校验签名,类似地,第二校验签名也可以被称为第一校验签名。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本申请的可选实施例。
对本申请提供的第一实施例,即一种数据处理的方法的实施例。
下面结合图1对本申请实施例进行详细说明,其中,图1示出了根据本申请实施例的数据处理的方法的流程图。请参加图1所示。
本申请实施例所针对的是大数据分析领域。
大数据分析,是指对规模巨大的数据进行分析。大数据可以概括为:数据量大、速度快、类型多和价值。通过大数据分析解决用户查询需求。
步骤S101,获取用户查询信息。
用户查询信息,是指用户在大数据分析前对相关数据提出的约束条件。该约束条件可以帮助大数据分析获得更准确的分析结果。例如,在员工敬业度分析中,用户查询信息包括:员工工号、出勤率、工作完成率和工作质量等。
用户查询信息的维度越多,大数据分析的复杂度越高,占用的资源越多,处理的速度越慢。
步骤S102,根据用户查询信息获取第一数据处理能力。
例如,第一数据处理能力,包括批处理算法中的批处理任务数。
批处理算法,首先是收集数据,并将数据保存在数据集中,然后将数据集中的数据划分为数据块,批处理算法中的每个批处理任务处理一个数据块。批处理算法在所有批处理任务执行完后,才能获得用户查询结果。例如,常用的批处理算法包括:spark算法,map-reduce算法。
批处理任务可以是分布式分布,以提高并行处理的能力,也可以是集中在一台机器中处理,以保证整体系统的运行速度。因此,在数据量相同的情况下,批处理任务数越多,数据处理能力越强。
步骤S103,判断第一数据处理能力是否满足第一数据处理条件。
步骤S103的目的是利用不同算法的数据处理能力及算法资源占用情况,对用户查询进行划分,提高数据处理效率,避免资源浪费。
例如,继续上述例子,判断批处理任务数是否满足第一数据处理条件,包括:判断批处理任务数是否小于预设第一阈值。
步骤S104,若是,则启动第一数据处理算法并根据用户查询信息和第一数据处理算法获取用户查询结果。
第一数据处理算法,可以以程序的形式存在。启动第一数据处理算法,可以是启动包括第一数据处理算法的程序,并以进程的形式进行数据处理;也可以是以从线程的形式存在。启动第一数据处理算法,可以是启动包括第一数据处理算法的从线程。两种方式均是为了提高并行数据处理的能力。
例如,继续上述例子,第一数据处理算法,是批处理算法。
步骤S105,若否,则启动第二数据处理算法并根据用户查询信息和第二数据处理算法获取用户查询结果。
第二数据处理算法,可以以程序的形式存在。启动第二数据处理算法,可以是启动包括第二数据处理算法的程序,并以进程的形式进行数据处理;也可以是以从线程的形式存在,启动第二数据处理算法,可以是启动包括第二数据处理算法的从线程。两种方式均是为了提高并行数据处理的能力。
例如,继续上述例子,第二数据处理算法,是指流式数据处理算法。
流式数据处理算法,利用分布式的思想和方法,对海量流式数据进行实时处理,源自用户对海量数据在时效价值上的挖掘诉求。其可以对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。因而,流式数据处理算法可以实时获取最新的计算结果,但不保存数据。可以满足查询的需求。例如,flink流式算法,spark streaming流式算法等。
但是,由于流式数据处理算法是分布式实时处理算法,适合处理海量数据,因此,占用系统资源多,在处理少量数据时往往造成资源浪费。
为了避免上述情况的发生,本申请实施例提供了一种监察机制。可选的,在启动第二数据处理算法后,还包括:
步骤S105-1,根据第二数据处理算法获取第一数据处理效率。
第一数据处理效率,包括:第二数据处理算法的使用率和/或第二数据处理算法的超时率。
第二数据处理算法的使用率,包括:单位时间内用户查询次数。如果用户查询次数过低,则表明第二数据处理算法不适合处理当前数据。
第二数据处理算法的超时率,包括:单位时间内用户查询的超时次数。如果用户查询的超时次数过高,则表明第二数据处理算法不适合处理当前数据。
步骤S105-2,判断第一数据处理效率是否满足第一效率条件。
可选的,判断第一数据处理效率是否满足第一效率条件,至少包括以下算法之一:
算法一,判断第二数据处理算法的使用率是否大于或等于预设第二阈值。
预设第二阈值,就是判断使用率的最低限值。
算法二,判断第二数据处理算法的超时率是否小于预设第三阈值。
预设第三阈值,就是判断超时率的最高限值。
步骤S105-3,若否,关闭第二数据处理算法。
步骤S105-3表明第二数据处理算法不适合处理当前数据。关闭第二数据处理算法,也就是关闭包括第二数据处理算法的进程或关闭包括第二数据处理算法的从线程。
可选的,本申请实施例还提供了一种实施方式。可选的,在获取用户查询信息后,还包括:
步骤S101-11,根据用户查询信息获取综合评估结果。
本申请实施例优选方案是根据数据的结构对算法进行划分。以进一步提高数据处理效率,避免资源浪费。
综合评估结果,包括:数据量评估结果和/或数据维度评估结果。
步骤S101-12,判断综合评估结果是否满足第二数据处理条件。
例如,判断综合评估结果是否满足第二数据处理条件,包括:判断综合评估结果是否小于预设第四阈值;预设第四阈值,就是对综合评估结果的限值。
步骤S101-13,若是,则根据用户查询信息和第三数据处理算法获取用户查询结果。
例如,第三数据处理算法,是指采用本地系统资源进行数据处理的算法。
采用本地系统资源进行数据处理的算法,可以减少资源占用,从而保证了系统整体的响应能力。适合处理数据量小的用户查询。
第三数据处理算法可以包括在主线程中,也可以存在于从线程或进程中。
进一步的,在根据用户查询信息获取第一数据处理能力前,还包括:
步骤S101-21,判断第二数据处理算法是否启动。
步骤S101-22,若是,则根据用户查询信息和第二数据处理算法获取用户查询结果。
本申请实施例提高了系统吞吐量,支持多用户并发操作,合理分配了系统资源,提高了不同需求用户对于数据分析的响应速度。
与本申请提供的第一实施例相对应,本申请还提供了第二实施例,即一种数据处理的装置。由于第二实施例基本相似于第一实施例,所以描述得比较简单,相关的部分请参见第一实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
图2示出了本申请提供的一种数据处理的装置的实施例。图2示出了根据本申请实施例的数据处理的装置的单元框图。
请参见图2所示,本申请提供一种数据处理的装置,包括:获取查询信息单元201,获取处理能力单元202,判断单元203,第一数据处理单元204,第二数据处理单元205;
获取查询信息单元201,用于获取用户查询信息;
获取处理能力单元202,用于根据用户查询信息获取第一数据处理能力;
判断单元203,用于判断第一数据处理能力是否满足第一数据处理条件;
第一数据处理单元204,用于若判断单元的输出结果为“是”,则启动第一数据处理算法并根据用户查询信息和第一数据处理算法获取用户查询结果;
第二数据处理单元205,用于若判断单元的输出结果为“否”,则启动第二数据处理算法并根据用户查询信息和第二数据处理算法获取用户查询结果。
第一数据处理算法,是批处理算法;第一数据处理能力,包括批处理任务数。
在判断单元203中,包括:
第一判断子单元,用于判断批处理任务数是否小于预设第一阈值。
在第二数据处理单元205后,还包括:
获取第一数据处理效率子单元,用于根据第二数据处理算法获取第一数据处理效率;
第二判断子单元,用于判断第一数据处理效率是否满足第一效率条件;
关闭第二数据处理算法子单元,用于若第二判断子单元的输出结果为“否”,关闭第二数据处理算法。
第一数据处理效率,包括:第二数据处理算法的使用率和/或第二数据处理算法的超时率。
在第二判断子单元中,至少包括以下算法之一:
算法一子单元,用于判断第二数据处理算法的使用率是否大于或等于预设第二阈值;
算法二子单元,用于判断第二数据处理算法的超时率是否小于预设第三阈值。
在获取查询信息单元201中,还包括:
获取综合评估结果子单元,用于根据用户查询信息获取综合评估结果;
第三判断子单元,用于判断综合评估结果是否满足第二数据处理条件;
第三数据处理算法子单元,用于若第三判断子单元的输出结果为“是”,则根据用户查询信息和第三数据处理算法获取用户查询结果。
在获取查询信息单元201中,还包括:
第四判断子单元,用于判断第二数据处理算法是否启动;
第二数据处理算法子单元,用于若第四判断子单元的输出结果为“是”,则根据用户查询信息和第二数据处理算法获取用户查询结果。
所述综合评估结果,包括:数据量评估结果和/或数据维度评估结果。
在第三判断子单元中,包括:
第五判断子单元,用于判断综合评估结果是否小于预设第四阈值。
第二数据处理算法,是指流式数据处理算法。
第三数据处理算法,是指采用本地系统资源进行数据处理的算法。
本申请实施例提高了系统吞吐量,支持多用户并发操作,合理分配了系统资源,提高了不同需求用户对于数据分析的响应速度。
本申请实施例提供了第三实施例,即一种计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行第一实施例中数据处理的方法。
本申请实施例提供了第四实施例,即一种电子设备,该设备用于数据处理的方法,电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,
存储器存储有可被一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一实施例数据处理的方法。
图3示出了根据本申请的实施例的一种电子设备连接结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
请参见图3所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备操作所需的各种程序和数据。处理装置301、ROM302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括至少两个网际协议地址的节点评价请求,其中,节点评价设备从至少两个网际协议地址中,选取网际协议地址并返回;接收节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地址的节点评价请求;从至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。