CN107220283A - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN107220283A CN107220283A CN201710267544.8A CN201710267544A CN107220283A CN 107220283 A CN107220283 A CN 107220283A CN 201710267544 A CN201710267544 A CN 201710267544A CN 107220283 A CN107220283 A CN 107220283A
- Authority
- CN
- China
- Prior art keywords
- time point
- query pattern
- data
- pretreatment
- historical time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出了一种数据处理方法、装置、存储介质及电子设备,涉及信息技术领域,本方法包括:当利用第一查询模式进行查询时,获取第一查询模式在预设时间段内的解析频率。当解析频率大于或等于预设的解析频率阈值时,确定第一查询模式是否对原始数据已执行过预处理抽取。当已执行过预处理抽取时,提取第一查询模式已抽取过的目标数据。当未执行过预处理抽取时,根据第一查询模式对原始数据进行预处理抽取以提取目标数据。当解析频率小于解析频率阈值时,根据第一查询模式对原始数据进行动态解析以提取目标数据。本公开能够提高数据的查询效率。
Description
技术领域
本公开涉及信息技术领域,尤其涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
随着互联网、云计算和物联网等信息技术的迅猛发展,相应带来的数据量也是呈现爆发式的增长,要从这些海量的数据中找到有价值的信息,就需要利用大数据的相关技术手段。
在现有技术中,对数据的处理通常有两种方式:SOW(Schema on Write,写数据时定义模式)和SOR(Schema on Read,读数据时定义模式)。其中,SOW是将原始数据在存储前先进行用于将数据结构化的预处理,然后再进行存储,其过程主要是按照预设的查询模式(Schema,Schema中可以定义一项或多项需要从原始数据中提取的数据属性)进行预处理抽取,抽取出的数据的存储结构是按照该查询模式进行组织的,然后将该抽取出的数据存储,当需要对数据进行查询时,可以根据该查询模式对存储的数据直接查询。SOR是将原始数据不经过预处理直接存储,在需要对数据进行查询时对存储的原始数据进行动态解析,动态解析逻辑上可以包括两个步骤:首先,预定义查询模式,再基于预定义的查询模式完成数据的查询(即以预定义的查询模式从原始数据中抽取想要的数据)。两种处理方式的特点各有不同,SOW在查询时不用再进行处理,可以基于预处理后存储的数据直接得到查询结果,查询速度快,但是SOW在预处理过程中消耗的资源较多,存储速度慢,SOR的前期存储过程速度快,资源消耗少,但每一次查询都需要进行动态解析,查询速度慢。因此在现有的数据处理过程中,资源消耗和查询效率二者无法得到兼顾。
发明内容
本公开提供一种数据处理方法、装置、存储介质及电子设备,用以解决数据处理过程中的资源消耗和后期的查询效率不能兼顾的问题。
为了实现上述目的,根据本公开实施例的第一方面,提供一种数据处理方法,所述方法包括:
当利用第一查询模式进行查询时,获取所述第一查询模式在预设时间段内的解析频率;
当所述解析频率大于或等于预设的解析频率阈值时,确定所述第一查询模式是否对原始数据已执行过预处理抽取;
当已执行过预处理抽取时,提取所述第一查询模式已抽取过的目标数据;
当未执行过预处理抽取时,根据所述第一查询模式对所述原始数据进行预处理抽取以提取所述目标数据;
当所述解析频率小于所述解析频率阈值时,根据所述第一查询模式对所述原始数据进行动态解析以提取所述目标数据。
可选的,在利用所述第一查询模式进行查询之前,所述方法还包括:
记录所述第一查询模式在所述预设时间段内每次执行解析操作的历史时间点,得到包括至少一个所述历史时间点的历史时间点序列;其中,所述解析操作包括动态解析或预处理抽取;
获取当前时间点与所述历史时间点序列中的每个所述历史时间点的差值;
根据所述当前时间点与所述历史时间点序列中的每个所述历史时间点的差值确定每个所述历史时间点对应的权重;
根据每个所述历史时间点对应的权重,计算所述解析频率。
可选的,所述根据所述当前时间点与所述历史时间点序列中的每个所述历史时间点的差值确定每个所述历史时间点对应的权重,包括:
将所述当前时间点与每个所述历史时间点的差值的倒数确定为每个所述历史时间点对应的权重;
所述根据每个所述历史时间点对应的权重,计算所述解析频率,包括:
根据每个所述历史时间点对应的权重,利用解析频率计算公式计算所述解析频率;其中,所述解析频率计算公式包括:
其中,f(s,tk)表示所述解析频率,tk表示所述当前时间点,ti表示所述时间序列中的历史时间点,k-1表示所述历史时间点序列中的所述历史时间点的数量,i≤k-1,i和k均为正整数。
可选的,所述当已执行过预处理抽取时,提取所述第一查询模式已抽取过的目标数据,包括:
当已执行过预处理抽取时,获取所述第一查询模式对应的数据索引;
利用所述数据索引在已存储的数据中查找所述目标数据;
在查找到所述目标数据后,提取所述目标数据。
可选的,所述当未执行过预处理抽取时,根据所述第一查询模式对所述原始数据进行预处理抽取以提取所述目标数据,包括:
当未执行过预处理抽取时,根据所述第一查询模式所定义的属性对所述原始数据执行预处理抽取,得到所述目标数据;
将所述目标数据进行存储,并为所述目标数据创建数据索引。
可选的,所述方法还包括:
在所述根据所述第一查询模式对所述原始数据进行预处理抽取以获取所述目标数据,或者所述根据所述第一查询模式对所述原始数据进行动态解析以抽取所述目标数据之后,更新所述解析频率。
根据本公开实施例的第二方面,提供一种数据处理装置,所述装置包括:
频率获取模块,用于当利用第一查询模式进行查询时,获取所述第一查询模式在预设时间段内的解析频率;
确定模块,用于当所述解析频率大于或等于预设的解析频率阈值时,确定所述第一查询模式是否对原始数据已执行过预处理抽取;
提取模块,用于当已执行过预处理抽取时,提取所述第一查询模式已抽取过的目标数据;当未执行过预处理抽取时,根据所述第一查询模式对所述原始数据进行预处理抽取以提取所述目标数据;
动态解析模块,用于当所述解析频率小于所述解析频率阈值时,根据所述第一查询模式对所述原始数据进行动态解析以提取所述目标数据。
可选的,所述装置还包括:
记录模块,用于在利用所述第一查询模式进行查询之前,记录所述第一查询模式在所述预设时间段内每次执行解析操作的历史时间点,得到包括至少一个所述历史时间点的历史时间点序列;其中,所述解析操作包括动态解析或预处理抽取;
差值获取模块,用于获取当前时间点与所述历史时间点序列中的每个所述历史时间点的差值;
权重确定模块,用于根据所述当前时间点与所述历史时间点序列中的每个所述历史时间点的差值确定每个所述历史时间点对应的权重;
计算模块,用于根据每个所述历史时间点对应的权重,计算所述解析频率。
可选的,所述权重确定模块用于:
将所述当前时间点与每个所述历史时间点的差值的倒数确定为每个所述历史时间点对应的权重;
所述计算模块用于:
根据每个所述历史时间点对应的权重,利用解析频率计算公式计算所述解析频率;其中,所述解析频率计算公式包括:
其中,f(s,tk)表示所述解析频率,tk表示所述当前时间点,ti表示所述时间序列中的历史时间点,k-1表示所述历史时间点序列中的所述历史时间点的数量,i≤k-1,i和k均为正整数。
可选的,所述提取模块用于:
当已执行过预处理抽取时,获取所述第一查询模式对应的数据索引;
利用所述数据索引在已存储的数据中查找所述目标数据;
在查找到所述目标数据后,提取所述目标数据。
可选的,所述提取模块还用于:
当未执行过预处理抽取时,根据所述第一查询模式所定义的属性对所述原始数据执行预处理抽取,得到所述目标数据;
将所述目标数据进行存储,并为所述目标数据创建数据索引。
可选的,所述装置还包括:
更新模块,用于在所述根据所述第一查询模式对所述原始数据进行预处理抽取以获取所述目标数据,或者所述根据所述第一查询模式对所述原始数据进行动态解析以抽取所述目标数据之后,更新所述解析频率。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的数据处理方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:第三方面提供的计算机可读存储介质;以及一个或多个处理器,用于执行所述计算机可读存储介质中的计算机程序。
本公开提供的数据处理方法、装置、存储介质及电子设备,通过在利用第一查询模式进行查询时,获取第一查询模式在预设时间段内的解析频率;当解析频率大于或等于预设的解析频率阈值时,确定第一查询模式是否对原始数据已执行过预处理抽取;当已执行过预处理抽取时,提取第一查询模式已抽取过的目标数据;当未执行过预处理抽取时,根据第一查询模式对所述原始数据进行预处理抽取以提取目标数据;当解析频率小于解析频率阈值时,根据第一查询模式对原始数据进行动态解析以提取目标数据。由此可见,本公开提供了一种将SOW和SOR相结合的机制,通过分析某一查询模式的解析频率来决定该查询模式所对应的查询和存储方式,当该查询模式的解析频率较高时,采用SOW的预处理方式对数据进行抽取和存储,从而在查询时直接利用已抽取并存储好的数据来提取要查询的目标数据,能够提高常用当该查询模式的解析频率较高时的查询速度,当该查询模式的解析频率较低时,采用SOR的动态解析来进行查询,从而可以节省对非常用查询模式进行数据预处理所带来的不必要的资源浪费。因此,本公开能够解决数据处理过程中的资源消耗和后期的询效率不能兼顾的问题,能够在提高查询效率的基础上,降低资源消耗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种数据处理方法的流程图;
图2是根据一示例性实施例示出的另一种数据处理方法的流程图;
图3是根据一示例性实施例示出的另一种数据处理方法的流程图;
图4是根据一示例性实施例示出的又一种数据处理方法的流程图;
图5是根据一示例性实施例示出的再一种数据处理方法的流程图;
图6是根据一示例性实施例示出的一种数据处理装置的框图;
图7是根据一示例性实施例示出的另一种数据处理装置的框图;
图8是根据一示例性实施例示出的又一种数据处理装置的框图;
图9是根据一示例性实施例示出的一种电子设备的框图;
图10是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的数据处理方法、装置、存储介质及电子设备之前,首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景为数据库中或云服务器,该云服务器可以是一台好多台服务器,也可以是服务器集群,在该数据库或者云服务器上存储有海量数据,这些已存储的数据中包括已经按照某个(或某些)查询模式(Schema)执行过预处理抽取,并按照该Schema定义的结构存储好,还包括经过预处理直接进行存储的原始数据。需要说明的是,在本公开的各个实施例中,在数据存储的初始阶段,采集得到的数据先按照SOR的方式进行存储,即不进行预处理直接存储。因此在初始阶段,在前n次查询中(n的具体值可以根据实际需要来设置),均采用动态解析的方式来获取目标数据,并且对每次查询所涉及的Schema进行记录,以此来统计该Schema的解析频率,从而用于执行下文所述的方法。
图1是根据一示例性实施例示出的一种数据处理方法的流程图,如图1所示,该方法包括:
步骤101,当利用第一查询模式进行查询时,获取第一查询模式在预设时间段内的解析频率。
示例的,本实施例中的第一查询模式,可以标识为Schamei,表示其可以是历史定义过的Schame集合中的任意一个Schame,也可以是本次查询时新定义的Schame。解析频率是用来表示该第一查询模式在一段时间内进行解析操作的相对频繁程度。可以是在一个预设的时间段内,对每一个Schame每次执行解析操作的时间点做一个统计,并且示例的,可以将不同Schame的解析频率存储在一个列表中,列表中的每条记录分别包含不同Schame所定义的属性和解析频率。当用户通过该Schamei进行查询时,通过该列表就可以获取Schamei的解析频率。值得一提的是,上述将Schame对应的解析频率存储在一个列表只是一种实现方式,包括但不限于此,也可以采用其他的映射方式来存储各个Schame的解析频率。
步骤102,当解析频率大于或等于预设的解析频率阈值时,确定第一查询模式是否对原始数据已执行过预处理抽取。
其中,预设的解析频率阈值,用于判断查询所用的Schema是否被频繁地使用,其意义在于如果是被频繁的Schema,则可以采用SOW的方式将原始数据按照该Schema进行预处理抽取,并存储,从而避免反复利用该Schema进行查询时,每次解析数据所造成的资源浪费,同时也可以提高后续查询的查询速度,而如果是使用较少的Schema,则可以不必消耗资源进行预处理,当进行查询时在进行动态解析即可。
因此,以上述的Schamei为例,当Schamei的解析频率大于该解析频率阈值时,说明该Schamei被频繁的使用,因此应当采用SOW的方式,但是因为Schamei被频繁的使用,所以Schamei可能已经执行过预处理抽取的操作,因此可以先判断Schamei是否已执行过预处理抽取,并根据判断结果执行步骤103或104。
该解析频率阈值可以根据实际需要来设定,例如可以考虑解析频率阈值对系统资源消耗的影响,对查询速度的影响,以及数据量、数据结构、用户需求、用户体验等等。
步骤103,当已执行过预处理抽取时,提取第一查询模式已抽取过的目标数据。
步骤104,当未执行过预处理抽取时,根据第一查询模式对原始数据进行预处理抽取以提取目标数据。
示例的,在先前以某一Schema对原始数据进行预处理抽取时,可以将该Schema记录在一个列表中,也可以为该Schema设置一个用于表示处理状态的标签,这个标签可以表示“已处理”和“未处理”两种状态,例如,可以通过在Schema的语句中增加一字段,通过1表示“已执行过预处理抽取”,0表示“预处理抽取”。即判断某一Schema是否对原始数据已执行过预处理抽取,可以通过查询记录已处理过的Schema的列表来实现,也可以通过读取表示处理状态的标签来实现。或者,在另一种实现方式中,由于某一Schema在执行预处理抽取后,需要将抽取的目标数据进行存储,在存储时,会为该目标数据建立索引,而该索引与该Schema存在对应关系,用于再次利用该Schema进行查询时,可以通过该索引快速找到目标数据,因此可以通过该Schema是否存在对应的索引来判断该Schema是否已执行过预处理抽取的操作。
步骤105,当解析频率小于解析频率阈值时,根据第一查询模式对原始数据进行动态解析以提取目标数据。
以上述的Schamei为例,当Schamei的解析频率小于预设的解析频率阈值时,可以确定该Schamei的查询次数较少,因此没有必要对Schamei进行预处理抽取的操作,因此也可以认定Schamei也没有执行过预处理抽取的操作,因此在利用Schamei进行查询时,可以对原始数据进行动态解析来提取目标数据。动态解析是按照Schamei所定义的属性(属性可以立即为该Schamei想要查询的数据所属的属性,例如clientip、status等等)从原始数据中抽取该属性所对应的数据,在利用Schamei进行动态解析得到该目标数据后,根据该目标数据展示查询结果。需要说明的是,经过动态解析获取的目标数据并不进行存储,在下一次利用Schamei进行查询时,重新利用该Schamei进行动态解析。
图2是根据一示例性实施例示出的另一种数据处理方法的流程图,如图2所示,在步骤101之前,该方法还包括:
步骤106,记录第一查询模式在预设时间段内每次执行解析操作的历史时间点,得到包括至少一个历史时间点的历史时间点序列。其中,解析操作包括动态解析或预处理抽取。
以第一查询模式为Schemai为例,步骤106~步骤109可以理解为,在步骤101利用Schemai进行查询之前,可以预先将历史定义过的各个Schema的解析频率先计算出来,示例的,可以在初始阶段,在前n次查询中(n的具体值可以根据实际需要来设置),均采用动态解析的方式来获取目标数据,并且对每次查询所涉及的Schema进行记录,当查询次数达到该n次时,计算从初始阶段开始到第n次查询时,已经定义过的各个Schema的解析频率。关于,Schema的解析频率的计算,举例来说,在预设的时间段内,记录每一次该Schemai执行解析操作的历史时间点,得到相应的历史时间点序列,其中该序列至少包括一个历史时间点,如果该Schemai是一种新定义的Schema,之前没有查询过,那么相应的解析频率即为0。需要说明的是,解析操作可以包括动态解析或预处理抽取,对于一个Schema动态解析操作可以是多次的,而预处理抽取操作只执行一次。
步骤107,获取当前时间点与历史时间点序列中的每个历史时间点的差值。
步骤108,根据当前时间点与历史时间点序列中的每个历史时间点的差值确定每个历史时间点对应的权重。
需要说明的是,当前时间点与历史时间点序列中的每个历史时间点的差值,表示的是相对的时间间隔,既本次查询与预设时间段内在本次查询之前的每次历史查询之间的时间间隔。权重则表示预设时间段内其他次的查询各自的重要程度,与当前时间点的时间间隔越短,权重值越大。
相应的,步骤108可以包括:将当前时间点与每个历史时间点的差值的倒数确定为每个历史时间点对应的权重。
示例的,可以用tk表示当前时间点,ti表示时间序列中的任一历史时间点,tk与ti的差值(tk-ti)表示相对的时间间隔,相对间隔的倒数1/(tk-ti),即表示权重,该相对间隔越短,表示该历史时间点越接近当前时间点,相应的权重越大。
步骤109,根据每个历史时间点对应的权重,计算解析频率。
可选的,该步骤包括:根据每个历史时间点对应的权重,利用解析频率计算公式计算解析频率。其中,解析频率计算公式可以包括:
其中,f(s,tk)表示解析频率,tk表示当前时间点,ti表示时间序列中的历史时间点,k-1表示历史时间点序列中的历史时间点的数量,i≤k-1,i和k均为正整数。因此,f(s,tk)可以理解为Schemai在时间点序列ti到tk中执行解析操作的相对频率的累积和。
图3是根据一示例性实施例示出的另一种数据处理方法的流程图,如图3所示,步骤103包括:
步骤1031,当已执行过预处理抽取时,获取第一查询模式对应的数据索引。
步骤1032,利用数据索引在已存储的数据中查找目标数据。
步骤1033,在查找到目标数据后,提取目标数据。
以第一查询模式为Schemai为例,在执行完步骤102后,确定该Schemai对原始数据已执行过预处理抽取,那么获取Schemai在之前完成预处理抽取后,为抽取出的数据创建的的数据索引,从而通过该数据索引在已存储的数据中进行查找可以快速的查找到目标数据。在查找到目标数据后,将目标数据提取出来,按照用户预设的方式显示出来,就完成了一次查询过程。
图4是根据一示例性实施例示出的又一种数据处理方法的流程图,如图4所示,步骤104包括:
步骤1041,当未执行过预处理抽取时,根据第一查询模式所定义的属性对原始数据执行预处理抽取,得到目标数据。
步骤1042,将目标数据进行存储,并为目标数据创建数据索引。
以第一查询模式为Schemai为例,在执行完步骤102后,如果确定该Schemai对原始数据未执行过预处理抽取,例如,在上一次查询时Schemai的解析频率未超过该解析频率阈值,因此没有进行过预处理抽取,而本次再次使用Schemai查询时,其解析频率超过了该解析频率阈值。此时可以对原始数据根据Schemai所定义的属性执行预处理抽取,并对抽取到的目标数据进行存储,并且为该目标数据创建数据索引,以便于之后再次以Schemai查询时,可以直接按照步骤103进行处理。另外,抽取到目标数据后,将目标数据按照用户预设的方式显示出来,就完成了本次查询过程。
图5是根据一示例性实施例示出的再一种数据处理方法的流程图,如图5所示,在步骤104或者步骤105之后,该方法还包括:
步骤110,更新解析频率。
以第一查询模式为Schemai为例,在步骤104或者步骤105之后,即对Schemai执行了一次解析操作,在步骤104中执行了预处理抽取的操作,步骤105中执行了动态解析操作,因此当两种操作中任意一种执行后,对该Schemai执行解析操作的时间时间序列进行更新,并通过步骤109中所述的方法,重新计算该Schema i的解析频率以实现其解析频率的更新。
本公开提供的数据处理方法,通过在利用第一查询模式进行查询时,获取第一查询模式在预设时间段内的解析频率;当解析频率大于或等于预设的解析频率阈值时,确定第一查询模式是否对原始数据已执行过预处理抽取;当已执行过预处理抽取时,提取第一查询模式已抽取过的目标数据;当未执行过预处理抽取时,根据第一查询模式对所述原始数据进行预处理抽取以提取目标数据;当解析频率小于解析频率阈值时,根据第一查询模式对原始数据进行动态解析以提取目标数据。由此可见,本公开提供了一种将SOW和SOR相结合的机制,通过分析某一查询模式的解析频率来决定该查询模式所对应的查询和存储方式,当该查询模式的解析频率较高时,采用SOW的预处理方式对数据进行抽取和存储,从而在查询时直接利用已抽取并存储好的数据来提取要查询的目标数据,能够提高常用当该查询模式的解析频率较高时的查询速度,当该查询模式的解析频率较低时,采用SOR的动态解析来进行查询,从而可以节省对非常用查询模式进行数据预处理所带来的不必要的资源浪费。因此,本公开能够解决数据处理过程中的资源消耗和后期的询效率不能兼顾的问题,能够在提高查询效率的基础上,降低资源消耗。
图6是根据一示例性实施例示出的一种数据处理装置的框图,如图6所示,该装置包括:
频率获取模块201,用于当利用第一查询模式进行查询时,获取第一查询模式在预设时间段内的解析频率。
确定模块202,用于当解析频率大于或等于预设的解析频率阈值时,确定第一查询模式是否对原始数据已执行过预处理抽取。
提取模块203,用于当已执行过预处理抽取时,提取第一查询模式已抽取过的目标数据;当未执行过预处理抽取时,根据第一查询模式对原始数据进行预处理抽取以提取目标数据。
动态解析模块204,用于当解析频率小于解析频率阈值时,根据第一查询模式对原始数据进行动态解析以提取目标数据。
图7是根据一示例性实施例示出的另一种数据处理装置的框图,如图7所示,该装置还包括:
记录模块205,用于在利用第一查询模式进行查询之前,记录第一查询模式在预设时间段内每次执行解析操作的历史时间点,得到包括至少一个历史时间点的历史时间点序列。其中,解析操作包括动态解析或预处理抽取。
差值获取模块206,用于获取当前时间点与历史时间点序列中的每个历史时间点的差值。
权重确定模块207,用于根据当前时间点与历史时间点序列中的每个历史时间点的差值确定每个历史时间点对应的权重。
计算模块208,用于根据每个历史时间点对应的权重,计算解析频率。
可选的,权重确定模块207用于:
将当前时间点与每个历史时间点的差值的倒数确定为每个历史时间点对应的权重。
计算模块208用于:
根据每个历史时间点对应的权重,利用解析频率计算公式计算解析频率。其中,解析频率计算公式包括:
其中,f(s,tk)表示解析频率,tk表示当前时间点,ti表示时间序列中的历史时间点,k-1表示历史时间点序列中的历史时间点的数量,i≤k-1,i和k均为正整数。
可选的,提取模块203用于:
当已执行过预处理抽取时,获取第一查询模式对应的数据索引。
利用数据索引在已存储的数据中查找目标数据。
在查找到目标数据后,提取目标数据。
可选的,提取模块203还用于:
当未执行过预处理抽取时,根据第一查询模式所定义的属性对原始数据执行预处理抽取,得到目标数据。
将目标数据进行存储,并为目标数据创建数据索引。
图8是根据一示例性实施例示出的又一种数据处理装置的框图,如图8所示,该装置还包括:
更新模块209,用于在提取模块203执行根据第一查询模式对所述原始数据进行预处理抽取以获取所述目标数据,或者动态解析模块204执行根据第一查询模式对原始数据进行动态解析以抽取目标数据之后,更新解析频率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开提供的数据处理装置,通过在利用第一查询模式进行查询时,获取第一查询模式在预设时间段内的解析频率;当解析频率大于或等于预设的解析频率阈值时,确定第一查询模式是否对原始数据已执行过预处理抽取;当已执行过预处理抽取时,提取第一查询模式已抽取过的目标数据;当未执行过预处理抽取时,根据第一查询模式对所述原始数据进行预处理抽取以提取目标数据;当解析频率小于解析频率阈值时,根据第一查询模式对原始数据进行动态解析以提取目标数据。由此可见,本公开提供了一种将SOW和SOR相结合的机制,通过分析某一查询模式的解析频率来决定该查询模式所对应的查询和存储方式,当该查询模式的解析频率较高时,采用SOW的预处理方式对数据进行抽取和存储,从而在查询时直接利用已抽取并存储好的数据来提取要查询的目标数据,能够提高常用当该查询模式的解析频率较高时的查询速度,当该查询模式的解析频率较低时,采用SOR的动态解析来进行查询,从而可以节省对非常用查询模式进行数据预处理所带来的不必要的资源浪费。因此,本公开能够解决数据处理过程中的资源消耗和后期的询效率不能兼顾的问题,能够在提高查询效率的基础上,降低资源消耗。
图9是根据一示例性实施例示出的一种电子设备900的框图。如图9所示,该电子设备900可以包括:处理器901,存储器902,多媒体组件903,输入/输出(I/O)接口904,以及通信组件905。
其中,处理器901用于控制该电子设备900的整体操作,以完成上述的数据处理方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作,这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口904为处理器901和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件905可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器902,上述程序指令可由电子设备900的处理器901执行以完成上述的数据处理方法。
图10是根据一示例性实施例示出的另一种电子设备1000的框图。例如,电子设备1000可以被提供为一服务器。参照图10,电子设备1000包括处理器1022,其数量可以为一个或多个,以及存储器1032,用于存储可由处理器1022执行的计算机程序。存储器1032中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1022可以被配置为执行该计算机程序,以执行上述的数据处理方法。
另外,电子设备1000还可以包括电源组件1026和通信组件1050,该电源组件1026可以被配置为执行电子设备1000的电源管理,该通信组件1050可以被配置为实现电子设备1000的通信,例如,有线或无线通信。此外,该电子设备1000还可以包括输入/输出(I/O)接口1058。电子设备1000可以操作基于存储在存储器1032的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器1032,上述程序指令可由电子设备1000的处理器1022执行以完成上述的数据处理方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,本领域技术人员在考虑说明书及实践本公开后,容易想到本公开的其它实施方案,均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构,本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
当利用第一查询模式进行查询时,获取所述第一查询模式在预设时间段内的解析频率;
当所述解析频率大于或等于预设的解析频率阈值时,确定所述第一查询模式是否对原始数据已执行过预处理抽取;
当已执行过预处理抽取时,提取所述第一查询模式已抽取过的目标数据;
当未执行过预处理抽取时,根据所述第一查询模式对所述原始数据进行预处理抽取以提取所述目标数据;
当所述解析频率小于所述解析频率阈值时,根据所述第一查询模式对所述原始数据进行动态解析以提取所述目标数据。
2.根据权利要求1所述的方法,其特征在于,在利用所述第一查询模式进行查询之前,所述方法还包括:
记录所述第一查询模式在所述预设时间段内每次执行解析操作的历史时间点,得到包括至少一个所述历史时间点的历史时间点序列;其中,所述解析操作包括动态解析或预处理抽取;
获取当前时间点与所述历史时间点序列中的每个所述历史时间点的差值;
根据所述当前时间点与所述历史时间点序列中的每个所述历史时间点的差值确定每个所述历史时间点对应的权重;
根据每个所述历史时间点对应的权重,计算所述解析频率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前时间点与所述历史时间点序列中的每个所述历史时间点的差值确定每个所述历史时间点对应的权重,包括:
将所述当前时间点与每个所述历史时间点的差值的倒数确定为每个所述历史时间点对应的权重;
所述根据每个所述历史时间点对应的权重,计算所述解析频率,包括:
根据每个所述历史时间点对应的权重,利用解析频率计算公式计算所述解析频率;其中,所述解析频率计算公式包括:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>k</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mn>1</mn>
<mo>/</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>-</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,f(s,tk)表示所述解析频率,tk表示所述当前时间点,ti表示所述时间序列中的历史时间点,k-1表示所述历史时间点序列中的所述历史时间点的数量,i≤k-1,i和k均为正整数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述当已执行过预处理抽取时,提取所述第一查询模式已抽取过的目标数据,包括:
当已执行过预处理抽取时,获取所述第一查询模式对应的数据索引;
利用所述数据索引在已存储的数据中查找所述目标数据;
在查找到所述目标数据后,提取所述目标数据。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述当未执行过预处理抽取时,根据所述第一查询模式对所述原始数据进行预处理抽取以提取所述目标数据,包括:
当未执行过预处理抽取时,根据所述第一查询模式所定义的属性对所述原始数据执行预处理抽取,得到所述目标数据;
将所述目标数据进行存储,并为所述目标数据创建数据索引。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
在所述根据所述第一查询模式对所述原始数据进行预处理抽取以获取所述目标数据,或者所述根据所述第一查询模式对所述原始数据进行动态解析以抽取所述目标数据之后,更新所述解析频率。
7.一种数据处理装置,其特征在于,所述装置包括:
频率获取模块,用于当利用第一查询模式进行查询时,获取所述第一查询模式在预设时间段内的解析频率;
确定模块,用于当所述解析频率大于或等于预设的解析频率阈值时,确定所述第一查询模式是否对原始数据已执行过预处理抽取;
提取模块,用于当已执行过预处理抽取时,提取所述第一查询模式已抽取过的目标数据;当未执行过预处理抽取时,根据所述第一查询模式对所述原始数据进行预处理抽取以提取所述目标数据;
动态解析模块,用于当所述解析频率小于所述解析频率阈值时,根据所述第一查询模式对所述原始数据进行动态解析以提取所述目标数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
记录模块,用于在利用所述第一查询模式进行查询之前,记录所述第一查询模式在所述预设时间段内每次执行解析操作的历史时间点,得到包括至少一个所述历史时间点的历史时间点序列;其中,所述解析操作包括动态解析或预处理抽取;
差值获取模块,用于获取当前时间点与所述历史时间点序列中的每个所述历史时间点的差值;
权重确定模块,用于根据所述当前时间点与所述历史时间点序列中的每个所述历史时间点的差值确定每个所述历史时间点对应的权重;
计算模块,用于根据每个所述历史时间点对应的权重,计算所述解析频率。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
权利要求9中所述的计算机可读存储介质;以及
一个或多个处理器,用于执行所述计算机可读存储介质中的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710267544.8A CN107220283B (zh) | 2017-04-21 | 2017-04-21 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710267544.8A CN107220283B (zh) | 2017-04-21 | 2017-04-21 | 数据处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220283A true CN107220283A (zh) | 2017-09-29 |
CN107220283B CN107220283B (zh) | 2019-11-08 |
Family
ID=59944631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710267544.8A Active CN107220283B (zh) | 2017-04-21 | 2017-04-21 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220283B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704169A (zh) * | 2019-08-30 | 2020-01-17 | 北京浪潮数据技术有限公司 | 一种数据处理方法、系统、设备及计算机可读存储介质 |
CN111506790A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 抽取对象确定及数据刷新方法、系统、设备和存储介质 |
CN112231356A (zh) * | 2020-10-20 | 2021-01-15 | 中国建设银行股份有限公司 | 数据处理的方法及装置、电子设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571863A (zh) * | 2008-04-29 | 2009-11-04 | 国际商业机器公司 | 用于可变模式的xml文档的xml查询方法和系统 |
CN101777045A (zh) * | 2008-09-01 | 2010-07-14 | 西北工业大学 | 一种通过索引解析xml文档的方法 |
CN102360367A (zh) * | 2011-09-29 | 2012-02-22 | 广州中浩控制技术有限公司 | 一种xbrl数据搜索方法及搜索引擎 |
CN102982065A (zh) * | 2003-09-15 | 2013-03-20 | 起元科技有限公司 | 数据处理方法、数据处理装置及计算机可读存储介质 |
US20130265893A1 (en) * | 2012-04-04 | 2013-10-10 | Electronics And Telecommunications Research Institute | Apparatus for analyzing interference of wireless communication device, and system and method for analyzing interference using the same |
US20160364655A1 (en) * | 2016-04-07 | 2016-12-15 | Shahzad Muhammad | System to generate Logical Design for MPP Clusters using self-learning model |
CN106407395A (zh) * | 2016-09-19 | 2017-02-15 | 北京百度网讯科技有限公司 | 数据查询的处理方法及装置 |
JP2017037511A (ja) * | 2015-08-11 | 2017-02-16 | 日本電信電話株式会社 | 分析装置、分析方法、および分析プログラム |
-
2017
- 2017-04-21 CN CN201710267544.8A patent/CN107220283B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982065A (zh) * | 2003-09-15 | 2013-03-20 | 起元科技有限公司 | 数据处理方法、数据处理装置及计算机可读存储介质 |
CN102982065B (zh) * | 2003-09-15 | 2016-09-21 | 起元科技有限公司 | 数据处理方法、数据处理装置及计算机可读存储介质 |
CN101571863A (zh) * | 2008-04-29 | 2009-11-04 | 国际商业机器公司 | 用于可变模式的xml文档的xml查询方法和系统 |
CN101777045A (zh) * | 2008-09-01 | 2010-07-14 | 西北工业大学 | 一种通过索引解析xml文档的方法 |
CN102360367A (zh) * | 2011-09-29 | 2012-02-22 | 广州中浩控制技术有限公司 | 一种xbrl数据搜索方法及搜索引擎 |
US20130265893A1 (en) * | 2012-04-04 | 2013-10-10 | Electronics And Telecommunications Research Institute | Apparatus for analyzing interference of wireless communication device, and system and method for analyzing interference using the same |
JP2017037511A (ja) * | 2015-08-11 | 2017-02-16 | 日本電信電話株式会社 | 分析装置、分析方法、および分析プログラム |
US20160364655A1 (en) * | 2016-04-07 | 2016-12-15 | Shahzad Muhammad | System to generate Logical Design for MPP Clusters using self-learning model |
CN106407395A (zh) * | 2016-09-19 | 2017-02-15 | 北京百度网讯科技有限公司 | 数据查询的处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
杜方 等: "《RDF数据查询处理技术综述》", 《软件学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704169A (zh) * | 2019-08-30 | 2020-01-17 | 北京浪潮数据技术有限公司 | 一种数据处理方法、系统、设备及计算机可读存储介质 |
CN111506790A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 抽取对象确定及数据刷新方法、系统、设备和存储介质 |
CN111506790B (zh) * | 2020-04-09 | 2024-03-22 | 携程计算机技术(上海)有限公司 | 抽取对象确定及数据刷新方法、系统、设备和存储介质 |
CN112231356A (zh) * | 2020-10-20 | 2021-01-15 | 中国建设银行股份有限公司 | 数据处理的方法及装置、电子设备及计算机可读存储介质 |
CN112231356B (zh) * | 2020-10-20 | 2024-10-29 | 中国建设银行股份有限公司 | 数据处理的方法及装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107220283B (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI709866B (zh) | 設備型號識別方法、裝置及處理設備 | |
CN110674408B (zh) | 业务平台、训练样本的实时生成方法及装置 | |
CN107704070B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
US9286084B2 (en) | Adaptive hardware reconfiguration of configurable co-processor cores for hardware optimization of functionality blocks based on use case prediction, and related methods, circuits, and computer-readable media | |
CN106970958B (zh) | 一种流文件的查询与存储方法和装置 | |
US20130085987A1 (en) | Downloading method and device | |
WO2020119284A1 (zh) | 一种用户准入的风险确定方法及装置 | |
CN107220283A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN108009207A (zh) | 增量数据查询方法及装置、存储介质、电子设备 | |
JP7098327B2 (ja) | 情報処理システム、関数作成方法および関数作成プログラム | |
KR20150055600A (ko) | 전자책 문서 처리방법, 단말기, 전자기기, 프로그램 및 기록매체 | |
US20070233532A1 (en) | Business process analysis apparatus | |
KR20200121744A (ko) | 사용자 페르소나를 처리하는 방법, 장치, 서버 및 저장 매체 | |
CN108153716A (zh) | 表单处理方法、装置、存储介质及电子设备 | |
CN107315833A (zh) | 基于应用程序的检索与下载的方法和装置 | |
CN104765792B (zh) | 一种维度数据存储的方法、装置及系统 | |
CN112970011B (zh) | 记录查询优化中的谱系 | |
CN109783381B (zh) | 一种测试数据生成方法、装置及系统 | |
CN104484413A (zh) | 一种获得搜索结果的方法和装置 | |
CN108123804B (zh) | 一种数据解密的执行方法、装置及介质 | |
CN112084210B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109766526A (zh) | 表单保存方法、装置、存储介质及电子设备 | |
CN111984600B (zh) | 一种文件聚合方法、装置、设备及可读存储介质 | |
CN108255486A (zh) | 用于表单设计的视图转换方法、装置和电子设备 | |
CN110955760A (zh) | 判决结果的评价方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |