CN105868253A - 数据导入、查询方法及装置 - Google Patents

数据导入、查询方法及装置 Download PDF

Info

Publication number
CN105868253A
CN105868253A CN201510974827.7A CN201510974827A CN105868253A CN 105868253 A CN105868253 A CN 105868253A CN 201510974827 A CN201510974827 A CN 201510974827A CN 105868253 A CN105868253 A CN 105868253A
Authority
CN
China
Prior art keywords
data
written
storage
storage device
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510974827.7A
Other languages
English (en)
Inventor
李锋标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201510974827.7A priority Critical patent/CN105868253A/zh
Publication of CN105868253A publication Critical patent/CN105868253A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs

Abstract

本发明是关于一种数据导入方法、查询方法及装置,所述数据导入方法包括:建立数据处理平台与分布式存储集群之间的多个数据通道;所述分布式存储集群中包括:多个分布式设置的存储设备;利用数据处理平台读取待写入数据;将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中;在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。该方法可以实现将数据快速存储到存储设备中,相比于现有的单一数据库存储数据而言,该方法在存储数据时,数据加载性能高。

Description

数据导入、查询方法及装置
技术领域
本发明涉及数据存储技术领域,尤其涉及一种数据导入、查询方法及装置。
背景技术
在互联网或者通信行业,用户时时刻刻都在产生海量行为数据(比如上网记录、通话记录等),这些行为数据都需要存储到服务器中,以便于后续查询,例如:用户自主在系统中进行查询,或,通过电话联系客服后,由客服在系统中查询。
目前存储传统解决方案使用传统关系型数据库或者非关系型数据库,在面对海量数据处理时,数据加载性能不足,不支持并行加载,单机性能一般都小于每秒导入一般2万行记录,无法满足要求。
发明内容
为克服相关技术中存在的问题,本发明提供一种数据导入、查询方法及装置。
根据本发明实施例的第一方面,提供一种数据导入方法,包括:
建立数据处理平台与分布式存储集群之间的多个数据通道;所述分布式存储集群中包括:多个分布式设置的存储设备;
利用数据处理平台读取待写入数据;
将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中;
在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。
可选地,所述将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中,包括:
获取所述待写入数据的属性信息;
查找与所述待写入数据的属性信息相对应的存储设备;
通过与所述存储存储设备之间的数据通道,将所述待写入数据以预设格式文件写入到所述查找到的存储设备。
可选地,所述将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中,包括:
获取所述分布式存储集群内的多个存储设备的存储顺序;
确定所述待写入数据对应的前一数据写入的存储设备;
按照所述存储顺序将所述待写入数据写入到排序位于所述前一数据写入的存储设备之后的存储设备中。
可选地,所述生成所述待写入数据的索引文件,包括:
在将所述待写入数据写入到所述存储设备时,根据预设数据文件格式确定所述待写入数据中的索引字段;
记录所述索引字段对应的数据所在文件的存储路径,以及,所述索引字段对应的数据位于所在文件中的行记录;
将所述索引字段、所述存储路径和行记录之间的对应关系生成索引文件。
根据本发明实施例的第二方面,提供一种数据查询方法,包括:
获取待查询的目标索引字段;
在预设索引文件中查找与所述目标索引字段对应的文件存储路径和行记录;
根据所述文件存储路径查找与所述目标索引字段对应的存储文件;
从所述存储文件中读取与所述行记录相对应的数据,作为所述目标索引字段的目标数据。
可选地,所述获取待查询的目标索引字段,包括:
获取用户输入的查询语句;
对所述查询语句进行解析,提取所述查询语中的目标索引字段。
根据本发明实施例的第三方面,提供一种数据导入装置,包括:
通道建立模块,用于建立数据处理平台与分布式存储集群之间的多个数据通道;所述分布式存储集群中包括:多个分布式设置的存储设备;
数据读取装置,用于利用数据处理平台读取待写入数据;
数据写入模块,用于将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中;
索引文件生成模块,用于在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。
可选地,所述数据写入模块,包括:
属性信息获取子模块,用于获取所述待写入数据的属性信息;
存储设备查找子模块,用于查找与所述待写入数据的属性信息相对应的存储设备;
第一写入子模块,用于通过与所述存储存储设备之间的数据通道,将所述待写入数据以预设格式文件写入到所述查找到的存储设备。
可选地,所述数据写入模块,包括:
存储顺序获取模块,用于获取所述分布式存储集群内的多个存储设备的存储顺序;
存储设备确定子模块,用于确定所述待写入数据对应的前一数据写入的存储设备;
第二写入子模块,用于按照所述存储顺序将所述待写入数据写入到排序位于所述前一数据写入的存储设备之后的存储设备中。
可选地,所述索引文件生成模块,包括:
索引字段确定子模块,用于在将所述待写入数据写入到所述存储设备时,根据预设数据文件格式确定所述待写入数据中的索引字段;
记录子模块,用于记录所述索引字段对应的数据所在文件的存储路径,以及,所述索引字段对应的数据位于所在文件中的行记录;
生成子模块,用于将所述索引字段、所述存储路径和行记录之间的对应关系生成索引文件。
根据本发明实施例的第四方面,提供一种数据查询装置,包括:
目标索引字段获取模块,用于获取待查询的目标索引字段;
存储信息查找模块,用于在预设索引文件中查找与所述目标索引字段对应的文件存储路径和行记录;
存储文件查找模块,用于根据所述文件存储路径查找与所述目标索引字段对应的存储文件;
数据读取模块,用于从所述存储文件中读取与所述行记录相对应的数据,作为所述目标索引字段的目标数据。
可选地,所述目标索引字段获取模块,包括:
语句获取子模块,用于获取用户输入的查询语句;
语句解析子模块,用于对所述查询语句进行解析,提取所述查询语中的目标索引字段。
本发明的实施例提供的技术方案可以包括以下有益效果:
通过以上描述,可知,本发明实施例提供的该方法,在数据存储时,可以通过数据处理平台将数据通过多个并列的数据通道分别存储到分布式存储集群中的多个存储设备中。
相比于现有的单一数据库存储数据而言,该方法在存储数据时,数据加载性能高,其中,单机加载性能可以达到6万行记录/每秒,对于分布式存储集群中的每个存储设备而言,集群数据导入性能可以达到存储设备数量*6万行记录/每秒。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据导入方法的流程示意图;
图2为图1中步骤S103的一种流程示意图;
图3为图1中步骤S103的另一种流程示意图;
图4为图1中步骤S104的一种流程示意图;
图5为本发明实施例提供的一种数据查询方法的流程示意图;
图6为图5中步骤S501的一种流程示意图;
图7为本发明实施例提供的一种数据导入装置的结构示意图;
图8为图7中的数据写入模块的一种结构示意图;
图9为图7中的数据写入模块的另一种结构示意图;
图10为图7中的索引文件生成模块的一种结构示意图;
图11为本发明实施例提供的一种数据导入装置的结构示意图;
图12为图11中的目标索引字段获取模块的一种结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1为本发明实施例提供的一种数据导入方法的流程示意图,该数据导入方法可以应用于服务器中,如图1所示,该数据导入方法可以包括以下步骤。
步骤S101:建立数据处理平台与分布式存储集群之间的多个数据通道。
在本发明实施例中,分布式存储集群中可以包括:多个存储设备,这多个存储设备采用分布式设置方式,在一个具体实施例中,分布式存储集群可以为Apache Hadoop集群。
在本发明实施例中,数据处理平台可以为Apach Kafka系统,,Apach Kafka系统具有统一、高通量、低等待等特性,可以用来作为消息接收系统,对于Apach Kafka集群而言,可以同时接收来自多个数据源的数据,实现数据的并行处理。
在该步骤之前,可以预先通过查询的方式得到Apache Hadoop集群中每个存储设备的IP地址,并且可以预先获取到Apach Kafka系统的IP地址,这样,在该步骤中建立数据通道时,可以根据获取到的IP地址,建立Apach Kafka系统与每个存储设备之间的TCP(Transmission Control Protocol传输控制协议)连接,在后续写入数据时,可以利用建立的TCP连接进行数据传输。
步骤S102:利用数据处理平台读取待写入数据。
在本发明实施例中,数据处理平台可以从多个数据源中同时读取多路待写入数据。当然,在本发明其它实施例中个,数据处理平台还可以从同一数据源读取大量待写入数据。
步骤S103:将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中。
在前述步骤S101,已经描述到数据处理平台与分布式存储集群之间已经建立了多个数据通道,这多个数据通道是并行存在的,也就是说,在向分布式存储集群内写入数据时,可以通过这多个数据通道,将待写入数据并行写入到分布式存储集群内的至少两个存储设备中。
步骤S104:在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。
在将每个待写入数据写入到存储设备中时,可以记录该数据在存储设备中的位置,并建立位置和该数据之间的对应关系,作为索引文件,以便于后续查找该数据。
通过以上描述,可知,本发明实施例提供的该方法,在数据存储时,可以通过数据处理平台将数据通过多个并列的数据通道分别存储到分布式存储集群中的多个存储设备中。
因此,该方法可以实现将数据快速存储到存储设备中,相比于现有的单一数据库存储数据而言,该方法在存储数据时,数据加载性能高,其中,单机加载性能可以达到6万行记录/每秒,对于分布式存储集群中的每个存储设备而言,集群数据导入性能可以达到存储设备数量*6万行记录/每秒。
在本发明一实施例中,如图2所示,上述图1所述实施例中的步骤S103可以包括以下步骤。
步骤S201:获取所述待写入数据的属性信息。
在本发明实施例中,属性信息可以指待写入数据中的字段信息,以手机号为例:在1391234xxxx中,假设通过前七位1391234可以确定出该手机号的归属地,那么属性信息就可以为每个手机号前七位。
再以手机号为例,手机号的前三位,可以用来区分不同的运营商,例如:150,151,152,157,158,159,134,135,136,137,138,139,187,188,147为移动运营商的手机号。130、131、132、155、156、185、186为联通运营商的手机号。133、153、180、189为电信运营商的手机号。那么属性信息可以为每个手机号前三位。
步骤S202:查找与所述待写入数据的属性信息相对应的存储设备。
对于不同属性信息的数据,在存储时,可以根据属性信息的类别存储到不同的存储设备中,以某一运营商为例,对于不同的归属地的手机号的记录,可以分别存储到不同的存储设备中,例如:北京的手机号对应的通话记录,全部存储到第一存储设备中,将天津的手机号对应的通话记录,全部存储到第二存储设备中。
因此,在该步骤中,只要用户预先设置好属性信息和存储设备之间的对应关系,在该步骤中,均可以根据这预先设置好的对应关系,查找与待写入数据对应的存储设备。
步骤S203:通过与所述存储存储设备之间的数据通道,将所述待写入数据以预设格式文件写入到所述查找到的存储设备。
每个存储设备均有一个唯一的标识,例如:存储设备可以用阿拉伯数字进行区分,相应地,与每个存储设备相连接的数据通道也可以设置有为一个的标识,例如:数据通道可以用英文字母进行区分。另外,每个存储设备的标识和与该存储设备的数据通道的标识之间建立有绑定关系。
因此,当在步骤202中确定出存储设备后,可以根据该绑定关系查找出和该存储设备之间的连接的数据通道,一旦确定出数据通道后,可以通过数据通道,将待写入数据以预设格式文件写入到查找到的存储设备中。
另外,在本发明实施例中,在向存储设备中写入数据时,可以采用RCFile格式进行存储,由于RCFile格式,具有较好的压缩比,因此,可以存储数据时,可以使得数据的占用空间大大减少,提高存储空间的利用率。
由于采用RCFile格式,可以使得存储数据的压缩比到1:3至1:10之间,提高存储空间的利用率。
在本发明另一实施例中,如图3所示,上述图1所述实施例中的步骤S103可以包括以下步骤。
步骤S301:获取所述分布式存储集群内的多个存储设备的存储顺序。
在前述实施例中,每个待写入数据存储到哪个存储设备主要通过属性信息,在本发明实施例中,还可以采用多个存储设备均分的方式进行存储,即预先设置所有存储设备之间的顺序。
步骤S302:确定所述待写入数据对应的前一数据写入的存储设备。
由于需要按照顺序将待写入数据分别写入到存储设备中,因此,在该步骤中,需要首先确定出该待写入数据对应的前一数据写入的是哪个存储设备,一旦确定出该存储设备后,位于该存储设备之后的存储设备即为该待写入数据需要写入的存储设备。
步骤S303:按照所述存储顺序将所述待写入数据写入到排序位于所述前一数据写入的存储设备之后的存储设备中。
参见步骤S302的描述,通过该步骤就可以使得在大量待写入数据写入时,可以使得不同的数据按照次序依次写入到不同的存储设备中,进而实现待写入数据并行写入到多个存储设备中。
在本发明另一实施例中,如图4所示,上述图1所述实施例中的步骤S104可以包括以下步骤。
步骤S401:在将所述待写入数据写入到所述存储设备时,根据预设数据文件格式确定所述待写入数据中的索引字段。
在存储待写入数据时,可以预先设置待写入数据存储时的数据文件格式,在本发明实施例中,预设数据文件格式可以为元数据文件。
元数据文件中明确有待写入数据中能够被查询的字段,以通话记录为例:
136xxxxyyyy 2015-12-11 主动呼叫 呼叫方158aaaabbbb 通话时长18分33秒。
在通话记录中,在元数据文件中,可以定义能够被查询的字段为:“本机号码”、“呼叫日期”、“呼叫方号码”、“通话时长”等字段。
步骤S402:记录所述索引字段对应的数据所在文件的存储路径,以及,所述索引字段对应的数据位于所在文件中的行记录。
当确定出索引字段后,为例能够在数据写入后能够顺序查询到该数据,所以,在数据存储时,还需要记录该索引字段对应的文件的存储路径,以待写入数据的写入文件格式为RCFile为例,可以为RFCile文件的存储地址,在RCFile中数据按行写入,因此,在数据写入时,还需要记录数据写入的行记录,这样当查找到RCFile后,可以通过行记录查找到对应的数据。
步骤S403:将所述索引字段、所述存储路径和行记录之间的对应关系生成索引文件。
一旦用户需要查找某一个索引字段,通过该索引文件中的对应关系,就可以快速查找对应的数据。
在前述图1所示实施例的基础上,当将数据写入后,为了便于后续数据查找,如图5所示,本发明实施例还提供了一种数据查询方法,该数据查询方法也可以应用于服务器中,如图5所示,该方法可以包括以下步骤。
步骤S501:获取待查询的目标索引字段。
目标索引字段,可以为用户通过在前端设备中输入得到。在用户输入时,可以输入查询语句,然后对查询语句进行分析,最终得到目标索引字段。
步骤S502:在预设索引文件中查找与所述目标索引字段对应的文件存储路径和行记录。
通过前述实施例中国,可以知道,索引文件中存储有索引字段、所述存储路径和行记录之间的对应关系,因此,在该步骤中,可以从索引文件中查找出目标索引字段对应的文件存储路径和文件中数据的行记录。
步骤S503:根据所述文件存储路径查找与所述目标索引字段对应的存储文件。
当确定出文件的存储路径后,就可以直接根据该存储路径在对应的存储设备中查找对应的存储文件,例如:前述的RCFile文件。
步骤S504:从所述存储文件中读取与所述行记录相对应的数据,作为所述目标索引字段的目标数据。
由于RCFile文件中,数据按行写入,所以,一旦确定出行记录后,就可以从存储文件中读取出对应的文件。
在本发明另一实施例中,如图6所示,前述图5中的步骤S501可以包括以下步骤。
步骤S601:获取用户输入的查询语句。
客户端可以通过网络与服务器相连接,在服务器中可以设置有数据库,客户端中可以运行有该数据库的查询程序或窗口,用户可以在查询程序或查询窗口内输入需要查询的语句,此时输入的语句即为原始查询语句。
对服务器中的不同的结构的数据库,用户在输入查询语句时,所输入的原始查询语句的格式需要按照所查询数据库的格式相一致。
步骤S602:对所述查询语句进行解析,提取所述查询语中的目标索引字段。
输入的查询语句的格式需要与所查询的数据库的格式相同,在该步骤中,可以按照对应的格式对原始查询语句进行分析,无论哪种格式的数据库,查询语句的规则都是特定的,即查询语句中包含的内容是特定的。例如:
查询语句为:select deptNo,deptName,sales,score from dept;
其中“select”是查询动作,表示要选择,后面的“deptNo,deptName,sales,score”表示要查询的内容,“from dept”表示查询的位置。
可见,通过分析该查询语句,可以得知该查询语句的语句信息为:从“dept”选择“deptNo,deptName,sales,score”几项参数。所以,“deptNo,deptName,sales,score”分别为四个目标索引字段。
图7为本发明实施例提供的一种数据导入装置的结构示意图,该数据导入装置可以应用于服务器中,如图7所示,该数据导入装置可以包括。
通道建立模块11,用于建立数据处理平台与分布式存储集群之间的多个数据通道。所述分布式存储集群中包括:多个分布式设置的存储设备。
数据读取装置12,用于利用数据处理平台读取待写入数据。
数据写入模块13,用于将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中。
索引文件生成模块14,用于在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。
在本发明一实施例中,如图8所示,上述图7所述实施例中的数据写入模块13可以包括。
属性信息获取子模块21,用于获取所述待写入数据的属性信息。
存储设备查找子模块22,用于查找与所述待写入数据的属性信息相对应的存储设备。
第一写入子模块23,用于通过与所述存储存储设备之间的数据通道,将所述待写入数据以预设格式文件写入到所述查找到的存储设备。
在本发明一实施例中,如图9所示,上述图7所述实施例中的数据写入模块13可以包括。
存储顺序获取子模块31,用于获取所述分布式存储集群内的多个存储设备的存储顺序。
存储设备确定子模块32,用于确定所述待写入数据对应的前一数据写入的存储设备。
第二写入子模块33,用于按照所述存储顺序将所述待写入数据写入到排序位于所述前一数据写入的存储设备之后的存储设备中。
在本发明一实施例中,如图10所示,上述图7所述实施例中的索引文件生成模块14可以包括。
索引字段确定子模块41,用于在将所述待写入数据写入到所述存储设备时,根据预设数据文件格式确定所述待写入数据中的索引字段。
记录子模块42,用于记录所述索引字段对应的数据所在文件的存储路径,以及,所述索引字段对应的数据位于所在文件中的行记录。
生成子模块43,用于将所述索引字段、所述存储路径和行记录之间的对应关系生成索引文件。
在图7所述实施例的基础上,本发明实施例还提供的一种数据查询装置,该数据导入装置可以应用于服务器中,如图11所示,该数据查询装置可以包括。
目标索引字段获取模块51,用于获取待查询的目标索引字段。
存储信息查找模块52,用于在预设索引文件中查找与所述目标索引字段对应的文件存储路径和行记录。
存储文件查找模块53,用于根据所述文件存储路径查找与所述目标索引字段对应的存储文件。
数据读取模块54,用于从所述存储文件中读取与所述行记录相对应的数据,作为所述目标索引字段的目标数据。
在本发明一实施例中,如图12所示,上述图10所述实施例中的目标索引字段获取模块51可以包括。
语句获取子模块61,用于获取用户输入的查询语句。
语句解析子模块62,用于对所述查询语句进行解析,提取所述查询语中的目标索引字段。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (12)

1.一种数据导入方法,其特征在于,包括:
建立数据处理平台与分布式存储集群之间的多个数据通道;所述分布式存储集群中包括:多个分布式设置的存储设备;
利用数据处理平台读取待写入数据;
将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中;
在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。
2.根据权利要求1所述的方法,其特征在于,所述将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中,包括:
获取所述待写入数据的属性信息;
查找与所述待写入数据的属性信息相对应的存储设备;
通过与所述存储存储设备之间的数据通道,将所述待写入数据以预设格式文件写入到所述查找到的存储设备。
3.根据权利要求1所述的方法,其特征在于,所述将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中,包括:
获取所述分布式存储集群内的多个存储设备的存储顺序;
确定所述待写入数据对应的前一数据写入的存储设备;
按照所述存储顺序将所述待写入数据写入到排序位于所述前一数据写入的存储设备之后的存储设备中。
4.根据权利要求1所述的方法,其特征在于,所述生成所述待写入数据的索引文件,包括:
在将所述待写入数据写入到所述存储设备时,根据预设数据文件格式确定所述待写入数据中的索引字段;
记录所述索引字段对应的数据所在文件的存储路径,以及,所述索引字段对应的数据位于所在文件中的行记录;
将所述索引字段、所述存储路径和行记录之间的对应关系生成索引文件。
5.一种数据查询方法,其特征在于,包括:
获取待查询的目标索引字段;
在预设索引文件中查找与所述目标索引字段对应的文件存储路径和行记录;
根据所述文件存储路径查找与所述目标索引字段对应的存储文件;
从所述存储文件中读取与所述行记录相对应的数据,作为所述目标索引字段的目标数据。
6.根据权利要求5所述的方法,其特征在于,所述获取待查询的目标索引字段,包括:
获取用户输入的查询语句;
对所述查询语句进行解析,提取所述查询语中的目标索引字段。
7.一种数据导入装置,其特征在于,包括:
通道建立模块,用于建立数据处理平台与分布式存储集群之间的多个数据通道;所述分布式存储集群中包括:多个分布式设置的存储设备;
数据读取装置,用于利用数据处理平台读取待写入数据;
数据写入模块,用于将所述待写入数据通过所述多个数据通道写入到所述分布式存储集群内的至少两个存储设备中;
索引文件生成模块,用于在将所述待写入数据写入到所述至少两个存储设备中时,生成所述待写入数据的索引文件。
8.根据权利要求7所述的装置,其特征在于,所述数据写入模块,包括:
属性信息获取子模块,用于获取所述待写入数据的属性信息;
存储设备查找子模块,用于查找与所述待写入数据的属性信息相对应的存储设备;
第一写入子模块,用于通过与所述存储存储设备之间的数据通道,将所述待写入数据以预设格式文件写入到所述查找到的存储设备。
9.根据权利要求7所述的装置,其特征在于,所述数据写入模块,包括:
存储顺序获取模块,用于获取所述分布式存储集群内的多个存储设备的存储顺序;
存储设备确定子模块,用于确定所述待写入数据对应的前一数据写入的存储设备;
第二写入子模块,用于按照所述存储顺序将所述待写入数据写入到排序位于所述前一数据写入的存储设备之后的存储设备中。
10.根据权利要求7所述的装置,其特征在于,所述索引文件生成模块,包括:
索引字段确定子模块,用于在将所述待写入数据写入到所述存储设备时,根据预设数据文件格式确定所述待写入数据中的索引字段;
记录子模块,用于记录所述索引字段对应的数据所在文件的存储路径,以及,所述索引字段对应的数据位于所在文件中的行记录;
生成子模块,用于将所述索引字段、所述存储路径和行记录之间的对应关系生成索引文件。
11.一种数据查询装置,其特征在于,包括:
目标索引字段获取模块,用于获取待查询的目标索引字段;
存储信息查找模块,用于在预设索引文件中查找与所述目标索引字段对应的文件存储路径和行记录;
存储文件查找模块,用于根据所述文件存储路径查找与所述目标索引字段对应的存储文件;
数据读取模块,用于从所述存储文件中读取与所述行记录相对应的数据,作为所述目标索引字段的目标数据。
12.根据权利要求11所述的装置,其特征在于,所述目标索引字段获取模块,包括:
语句获取子模块,用于获取用户输入的查询语句;
语句解析子模块,用于对所述查询语句进行解析,提取所述查询语中的目标索引字段。
CN201510974827.7A 2015-12-23 2015-12-23 数据导入、查询方法及装置 Pending CN105868253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510974827.7A CN105868253A (zh) 2015-12-23 2015-12-23 数据导入、查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510974827.7A CN105868253A (zh) 2015-12-23 2015-12-23 数据导入、查询方法及装置

Publications (1)

Publication Number Publication Date
CN105868253A true CN105868253A (zh) 2016-08-17

Family

ID=56624203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510974827.7A Pending CN105868253A (zh) 2015-12-23 2015-12-23 数据导入、查询方法及装置

Country Status (1)

Country Link
CN (1) CN105868253A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534249A (zh) * 2016-09-21 2017-03-22 苏州市广播电视总台 一种基于文件直通技术的文件传输系统
CN106527968A (zh) * 2016-09-21 2017-03-22 苏州市广播电视总台 一种基于文件直通技术的文件传输方法
CN108074192A (zh) * 2016-11-14 2018-05-25 平安科技(深圳)有限公司 责任定义数据导入方法及装置
WO2018103315A1 (zh) * 2016-12-09 2018-06-14 上海壹账通金融科技有限公司 监控数据的处理方法、装置、服务器及存储设备
CN109376149A (zh) * 2018-08-22 2019-02-22 中国平安人寿保险股份有限公司 将数据落地到数据平台的方法、设备和存储介质
CN111427910A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 数据处理方法及装置
CN113434520A (zh) * 2021-08-27 2021-09-24 国家电网有限公司 基于区块链的数据存储和查询方法、装置、设备和介质
CN113791593A (zh) * 2021-11-15 2021-12-14 西安热工研究院有限公司 分散控制系统测点导出方法、系统、终端设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110079A (zh) * 2007-06-27 2008-01-23 中国科学院遥感应用研究所 一种数字地球原型系统
CN101170416A (zh) * 2006-10-26 2008-04-30 阿里巴巴公司 网络数据存储系统及其数据访问方法
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法
US20140280400A1 (en) * 2013-03-15 2014-09-18 Stephane G. Legay System and method for improved data accessibility
US20150120695A1 (en) * 2013-10-31 2015-04-30 Tata Consultancy Services Limited Indexing of file in a hadoop cluster

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170416A (zh) * 2006-10-26 2008-04-30 阿里巴巴公司 网络数据存储系统及其数据访问方法
CN101110079A (zh) * 2007-06-27 2008-01-23 中国科学院遥感应用研究所 一种数字地球原型系统
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法
US20140280400A1 (en) * 2013-03-15 2014-09-18 Stephane G. Legay System and method for improved data accessibility
US20150120695A1 (en) * 2013-10-31 2015-04-30 Tata Consultancy Services Limited Indexing of file in a hadoop cluster

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534249A (zh) * 2016-09-21 2017-03-22 苏州市广播电视总台 一种基于文件直通技术的文件传输系统
CN106527968A (zh) * 2016-09-21 2017-03-22 苏州市广播电视总台 一种基于文件直通技术的文件传输方法
CN108074192A (zh) * 2016-11-14 2018-05-25 平安科技(深圳)有限公司 责任定义数据导入方法及装置
WO2018103315A1 (zh) * 2016-12-09 2018-06-14 上海壹账通金融科技有限公司 监控数据的处理方法、装置、服务器及存储设备
CN109376149A (zh) * 2018-08-22 2019-02-22 中国平安人寿保险股份有限公司 将数据落地到数据平台的方法、设备和存储介质
CN111427910A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 数据处理方法及装置
CN113434520A (zh) * 2021-08-27 2021-09-24 国家电网有限公司 基于区块链的数据存储和查询方法、装置、设备和介质
CN113791593A (zh) * 2021-11-15 2021-12-14 西安热工研究院有限公司 分散控制系统测点导出方法、系统、终端设备及可读存储介质
CN113791593B (zh) * 2021-11-15 2022-02-01 西安热工研究院有限公司 分散控制系统测点导出方法、系统、终端设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN105868253A (zh) 数据导入、查询方法及装置
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
CN111382174B (zh) 多方数据联合查询方法、装置、服务器和存储介质
US10108628B2 (en) Access control for unprotected data storage system endpoints
CN105938477B (zh) 用于整合和格式化搜索结果的方法和系统
CN106326429A (zh) 一种基于solr的Hbase秒级查询方案
US11934403B2 (en) Generating training data for natural language search systems
US10755729B2 (en) Systems and methods for interrelating text transcript information with video and/or audio information
CN106886371B (zh) 缓存数据处理方法及装置
US20150052129A1 (en) Weighting sentiment information
JP2016018566A (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
CN107798017B (zh) 分布式数据库中的执行计划信息生成方法和系统
US11354311B2 (en) Database-agnostic parallel reads
CN107329987A (zh) 一种基于mongo数据库的搜索系统
CN106649426A (zh) 一种数据分析方法和数据分析平台以及服务器
CN106021276A (zh) 基于分布式全文检索系统的卡口车辆搜索的方法及系统
CN111813804B (zh) 一种数据查询方法、装置、电子设备及存储介质
CN102682036A (zh) 一种基于非编系统的媒资检索方法和系统
US20200265114A1 (en) Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
US20170053023A1 (en) System to organize search and display unstructured data
CN105183916A (zh) 一种管理非结构化数据的装置和方法
US9679012B1 (en) Parallel streaming of external data
US10606837B2 (en) Partitioned join with dense inner table representation
US20220383350A1 (en) Tracking user engagement and user impressions
US9984108B2 (en) Database joins using uncertain criteria

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160817

WD01 Invention patent application deemed withdrawn after publication