CN109213756A - 数据存储、检索方法、装置、服务器和存储介质 - Google Patents
数据存储、检索方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN109213756A CN109213756A CN201811231541.XA CN201811231541A CN109213756A CN 109213756 A CN109213756 A CN 109213756A CN 201811231541 A CN201811231541 A CN 201811231541A CN 109213756 A CN109213756 A CN 109213756A
- Authority
- CN
- China
- Prior art keywords
- data
- stored
- retrieval
- full
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000003860 storage Methods 0.000 title claims abstract description 69
- 238000013500 data storage Methods 0.000 title claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 37
- 238000012544 monitoring process Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000000547 structure data Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据存储、检索方法、装置、服务器和存储介质。该数据存储方法包括:对待存储数据进行预处理;根据所述待存储数据的数据类型将预处理后的待存储数据存入对应的数据库。通过上述技术方案,可以实现对不同类型数据的同时全面的存储,可以降低成本。
Description
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及一种数据存储、检索方 法、装置、服务器和存储介质。
背景技术
随着大数据存储技术的飞速发展和企业信息化的快速普及,各企业拥有越 来越多的、各式各样的电子文件和数据信息,面临着“信息爆炸”的挑战,并 且不同的数据信息之间存在一定的关联性。对于企业员工而言,想要找到企业 内部的数据信息,需要搜索多种资料,包括数据库中存储的结构化数据,以及 邮件、网页、文档中的非结构化数据等,并且需要对数据信息进行关联和综合 分析,才能针对不同的业务需求给出完善的搜索结果。
目前关于大数据存储的方案大多是基于Hadoop Hbase或Cassandra等KV 库的大规模解决方案,这种方案虽然能够存储超大规模的数据,但由于是基于 KV库所以对OLAP(Online Analytical Processing,联机分析处理)的支持并 不完善,虽然也有SQL-on-Hadoop的解决方案,但其核心原理还是MapReduce 等离线运算技术,实时性很差。例如NoSQL Database,在面向分析型应用时, 需要基于大范围的数据做计算,甚至全表扫描,速度较慢,并且由于是通过 key-value的方式对数据进行查询,一个Key查询一个Value,因此其存储方式 不利于进行复杂条件的查询。又如搜索引擎(Search Engine),其没有SQL支持,难以对接企业的数据应用和BI(Business Intelligence,商业智能)工 具,无法存储和整合全面的业务信息。又如SQL-on-Hadoop,由于没有索引支 持,不利于对有过滤条件的复杂数据进行查询。又如并行数据库(Parallel Database),其不支持全文数据的检索,无法满足对不同类型的数据进行全面的 存储和检索的需求。
总体来说,数据库中需要存储的数据具有不同的类型,并且不同类型的数 据性质差异较大,现有的存储方法不能针对各种类型的数据进行全面的存储, 缺乏对业务系统完善的功能支持,并且通常对于不同类型的数据需要不同的硬 件设备进行管理,从而增加了数据存储的成本。
发明内容
本发明实施例提供一种数据存储、检索方法、装置、服务器和存储介质, 以实现对不同类型数据的统一存储,可以降低成本。
第一方面,本发明实施例提供一种数据存储方法,包括:
对待存储数据进行预处理;
根据所述待存储数据的数据类型将预处理后的待存储数据存入对应的数据 库。
进一步的,在对所述待存储数据进行预处理之前,还包括:
获取原始数据;
根据设定标准对所述原始数据进行标准化处理;
对标准化处理后的原始数据进行质量监测,获得所述待存储数据。
进一步的,所述对待存储数据进行预处理,包括:
对所述待存储数据进行清洗处理和/或关联处理和/或去重处理和/或预警 处理。
进一步的,对所述待存储数据进行预警处理,包括:
从缓存数据库中读取预警信息;
将所述预警信息与所述待存储数据进行比对;
根据比对结果对所述待存储数据进行预警处理。
进一步的,所述数据类型包括结构化数据、非结构化数据和全文数据。
进一步的,若所述待存储数据为结构化数据,则根据所述数据类型将所述 待存储数据存入对应的数据库,包括:
将所述结构化数据保存至本地磁盘指定文件目录中;
将所述结构化数据由所述本地磁盘指定文件目录中转移至设定加载工具进 行加载;
根据设定配置文件将加载后的结构化数据写入结构化数据库。
进一步的,若所述待存储数据为非结构化数据或全文数据,则根据所述数 据类型将所述待存储数据存入对应的数据库,包括:
将所述非结构化数据存入非结构化数据库,或者将所述全文数据存入全文 数据库。
进一步的,在将所述非结构化数据存入非结构化数据库之后,还包括:
获取所述非结构化数据的存储地址;
将所述存储地址写入结构化数据中。
第二方面,本发明实施例提供一种数据检索方法,包括:
调用检索接口,并通过所述检索接口传入检索参数;
根据所述检索参数的类型检索对应的数据。
进一步的,所述根据所述检索参数的类型检索对应的数据,包括:
若所述检索参数为结构化数据检索参数,则根据所述结构化数据检索参数 调用结构化数据库中的API函数;根据所述API函数检索目标结构化数据;
若所述检索参数为非结构化数据检索参数,则根据所述非结构化数据检索 参数检索目标非结构化数据;
若所述检索参数为全文参数,则根据全文参数检索目标全文数据。
第三方面,本发明实施例提供一种数据存储装置,包括:
预处理模块,用于对数据进行预处理;
入库模块,用于根据所述待存储数据的数据类型将预处理后的待存储数据 存入对应的数据库。
第四方面,本发明实施例提供一种数据检索装置,包括:
检索参数传入模块,用于调用检索接口,并通过所述检索接口传入检索参 数;
检索模块,用于根据所述检索参数的类型检索对应的数据。
第五方面,本发明实施例提供一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多 个处理器实现如第一方面所述的数据存储方法或者如第二方面所述的数据检索 方法。
第六方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算 机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的数据存储 方法或者如第二方面所述的数据检索方法。
本发明实施例通过对待存储数据进行预处理;根据所述待存储数据的数据 类型将预处理后的待存储数据存入对应的数据库,解决了现有技术不能针对各 种类型的数据进行全面的存储,缺乏完善的功能支持,并且数据存储成本较高 的问题,实现对不同类型数据的同时全面的存储,并且可以降低成本。
附图说明
图1为本发明实施例一提供的一种数据存储方法的流程图;
图2为本发明实施例一提供的一种数据存储方法的另一流程图;
图3为本发明实施例三中的提供的一种数据检索方法的流程图;
图4为本发明实施例四提供的一种数据存储、检索方法的实现流程的示意 图;
图5为本发明实施例五提供的一种数据存储装置的结构示意图;。
图6为本发明实施例六提供的一种数据检索装置的结构示意图;
图7为本发明实施例七提供的一种服务器的硬件结构示意图;
图8为本发明实施例八提供的一种数据存储系统的结构示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结 构。
实施例一
图1为本发明实施例一提供的一种数据存储方法的流程图。本实施例可适 用于对不同类型的数据进行存储的情况。具体的,该数据存储方法可以由数据 存储装置执行,该数据存储装置可以通过软件和/或硬件的方式实现,并集成在 服务器中。进一步的,服务器包括但不限定于:网络服务器、系统后台服务器 以及云端服务器。
参照图1,该方法具体包括如下步骤:
S110、对待存储数据进行预处理。
具体的,在将待存储数据存储至数据库之前,首先要对待存储数据进行预 处理。通常情况下待存储数据是面向某一业务主题的数据的集合,规模庞大, 这些数据从多个业务系统中抽取而来,并且也包含了历史数据,可能存在多种 问题,例如,由于技术的限制或人为的失误,原始数据在采集、记录、编码和 传输的过程中都可能产生错误的信息,造成数据采集不完整、包含较多的噪声、 多个数据之间不一致等问题。通过对待存储数据进行预处理,如填补遗漏数据、 消除异常数据、去除噪声、整合不一致的数据等,可以去除待存储数据中的噪 声以及无效的、错误的数据,筛选出有效的数据,提高待存储数据的质量。
S120、根据待存储数据的数据类型将预处理后的待存储数据存入对应的数 据库。
具体的,数据类型可以为根据数据格式进行的分类,如整数数据、浮点数 据、二进制数据等,也可以为根据数据内容的分类,如身份信息数据、工作业 绩数据、车辆信息数据等,也可以为根据数据形式的分类,如结构化数据、非 结构化数据、全文数据等。数据类型可根据实际需求设定,并在进行预处理的 过程中获取。数据类型的设定决定了数据存储的多样性,并且对于不同类型的 待存储数据可分别选取不同的数据库存储,采用不同数据库的优势是可包括SQL、 索引、OLAP等各种功能支持,以便于对待存储数据进行系统全面的管理。
示例性的,并行地对不同类型的待存储数据分别存储和管理。例如,当待 存储数据为结构化数据时,通过设定的加载工具将其存入结构化数据库中;当 待存储数据为非结构化数据时,将其存入非结构化数据库中;当待存储数据为 全文数据时,将其存入全文数据库中。在将待存储数据存入对应的数据库中的 同时,也可以建立不同类型的数据之间的链接关系,例如根据存储地址、ID标 识等具有唯一性的标志将不同类型的数据关联起来,便于对不同类型的数据的 综合管理,从而支持更完善的联机分析处理OLAP功能。OLAP是一种软件技术, 可使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
本实施例通过对待存储数据进行预处理,提高待存储数据的质量;通过根 据待存储数据的数据类型将预处理后的待存储数据存入对应的数据库,实现针 对各种类型的数据进行全面的存储,提供完善的功能支持并且可以降低数据存 储的成本。
图2为本发明实施例一提供的一种数据存储方法的另一流程图。本实施例 在上述实施例的基础上进行了优化,在对待存储数据进行预处理之前增加了步 骤S210-S230,并对“对待存储数据进行预处理”进行了具体优化。该数据存 储方法包括:
S210、获取原始数据。
具体的,获取原始数据的过程可以理解为外部的原始数据接入数据库的过 程。原始数据由各类传感器监测获得,或者通过各类客户端(Web、App等)的 传输获得。不同方式、不同业务需求下获得的原始数据具有不同的类型和标准。 例如,对于环境监控数据,不同种类的传感器(温度、湿度、光线传感器等) 获取的监控数据具有不同的形式。本实施例的数据存储方法可获取具有不同的 类型和标准的数据,并对其进行进一步的处理和存储的功能。
S220、根据设定标准对原始数据进行标准化处理。
具体的,对原始数据进行标准化处理,是指根据实际需求将原始数据分类, 不同类型的数据拥有不同的字段,同时定义每个字段的数据类型以及字段长度。 标准化处理也可理解为数据治理,对于不同的实体,所根据的设定标准也不同。 例如,原始数据为车辆信息数据,包括车辆的型号、品牌、价格等属性数据, 则在进行标准化处理时,需要为车辆的属性数据设定标准,如型号必须包括中 文和英文字符,品牌必须在10个中文字符以内,价格必须为阿拉伯数字的形式 等。而实际获得的原始数据可能存在错误的字符形式,或者超过了规定的字符 长度等。又如,对于身份信息数据,包括人的姓名、年龄、手机号等数据,则在进行标准化处理时,需要为身份信息的数据设定标准,如姓名必须包括汉字 与拼音两部分,年龄必须是数字且数值大小在1-150的范围内,手机号必须是 固定的长度,并且前方需要统一加上“+86”的字符等。所述设定标准根据实际 的业务需求制定和更新。根据设定标准对原始数据进行标准化处理,可将原始 数据整理成统一的格式,避免获得的原始数据杂乱、格式错误等问题。
S230、对标准化处理后的原始数据进行质量监测,获得待存储数据。
具体的,对标准化处理后的原始数据进行质量监测是指监测原始数据中所 有的必填项目的数据是否上报(如在身份信息数据中监测所有人对应的姓名、 年、手机号等必要信息是否完整采集到);监测原始数据中的数据上报量(如所 有人员的总数量、每个人员应填的项目数量等);监测原始数据中是否存在空字 段、字段类型格式是否存在错误(如是否存在忘填、填错、数据格式错误)等。 可选的,在质量监测的过程中,按照实际业务需求和设定标准对原始数据进行 检查,并实时记录检查日志,根据检查日志可输出质量监测的报表数据,同时 也可确定否对检查过的错误数据备份。将检查后的数据作为待存储数据进行预 处理。
S240、对待存储数据进行预处理。
通过对待存储数据进行预处理,可以去除其中的噪声以及无效的、错误的 数据,筛选出有效的数据,提高待存储数据的质量。
进一步的,对待存储数据进行预处理,包括:
对待存储数据进行清洗处理和/或关联处理和/或去重处理和/或预警处理。
具体的,对待存储数据进行清洗处理,即数据清洗。数据清洗是指通过对 待存储数据进行重新审查和校验,发现并纠正待存储数据中的可识别的错误, 包括检查数据一致性,处理无效值和缺失值等。数据清理一般是通过计算机程 序自动完成而不是人工完成,其目的在于去除噪声和无效数据、纠正存在的错 误,整合相互冲突的数据使其具有一致性。
对待存储数据进行关联处理是指从单条数据中提取出相关性强的信息,将 其关联在一起。例如,对于身份信息的数据,将同一人员的姓名、年龄和手机 号的相关数据关联起来。
对待存储数据进行去重处理是指将一段时间内获取到的重复的数据去除。 例如,在一段时间内对同一人员的身份信息采集了两次数据,并且两次采集的 数据没有更新和变化,则两次采集的数据是重复的,通过去重处理可将其中一 次采集的数据去除,只保留一组数据,从而减少待存储数据中的冗余信息。
对待存储数据进行预警处理是指通过将待存储数据与预先设定的预警信息 进行比对,根据比对结果生成提示信息并保存在待存储数据中。
进一步的,对待存储数据进行预警处理,包括:
从缓存数据库中读取预警信息;将预警信息与待存储数据进行比对;根据 比对结果对待存储数据进行预警处理。
具体的,预警处理是指,在业务系统中,有一部分数据具有标准的范围或 阈值,当待存储数据超出此标准的范围或阈值时,对此待存储数据进行一定的 预警操作提示用户此数据异常,同时生成预警数据并保存在待存储数据中。其 中,标准的范围或阈值即为预警信息,预警信息预先存储在缓存数据库中。在 对待存储数据进行预处理时,首先从缓存数据库中读取预警信息,然后将预警 信息与待存储数据进行比对,根据比对结果对待存储数据进行预警处理。示例 性的,设定缓存数据库为Redis集群,即业务系统将预警信息写入Redis集群 中。对于环境监控数据,通过温度传感器采集温度,获得原始数据,经过预处 理后得到的待存储数据为25℃、28℃、26℃、31℃,Redis集群中的预警信 息对环境监控数据设定的标准范围为20℃-30℃,则通过将预警信息与待存储数 据进行比对,待存储数据中的“31℃”会突出显示,同时生成预警数据,预警 数据包含了预警信息的标准范围、超出标准范围的待存储数据的个数、实际的 待存储数据以及预警方式等,以便于用户查看预警处理的详细信息。
S250、根据待存储数据的数据类型将预处理后的待存储数据存入对应的数 据库。
具体的,根据数据类型并行地对不同类型的待存储数据分别存储和管理, 并且在将待存储数据存入对应的数据库的同时,可建立不同类型的数据之间的 链接关系。
进一步的,数据类型包括结构化数据、非结构化数据和全文数据。
具体的,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的 数据,具有严格的数据格式与长度规范,主要通过关系型数据库进行存储和管 理。与结构化数据相对的是非结构化数据,其数据结构不规则或不完整,没有 预定义的数据模型,不适于由数据库二维表来表现,包括所有格式的办公文档、 XML、HTML、各类报表、图片和咅频、视频信息等。全文数据是指来自完整的信 息源的全部内容所构成的数据。
本实施例通过对原始数据进行标准化处理,可将原始数据整理成统一的格 式,然后对其进行质量监测,可获得正确有效的待存储数据;通过对待存储数 据进行预处理,进一步提高待存储数据的质量;通过根据数据类型将待存储数 据存入对应的数据库,可实现对不同类型数据的同时全面的存储,可以降低成 本。
实施例二
在上述实施例的基础上,本实施例对“根据待存储数据的数据类型将预处 理后的待存储数据存入对应的数据库”进行了优化,将其具体优化为针对结构 化数据、非结构化数据以及全文数据进行不同处理的三种方案。未在本实施例 中详尽描述的技术细节可参见上述任意实施例所提供的数据存储方法。
具体的,根据待存储数据的数据类型将预处理后的待存储数据存入对应的 数据库,包括以下三种方案。
方案一、若待存储数据为结构化数据,则根据数据类型将待存储数据存入 对应的数据库,包括:将结构化数据保存至本地磁盘指定文件目录中;将结构 化数据由本地磁盘指定文件目录中转移至设定加载工具进行加载;根据设定配 置文件将加载后的结构化数据写入结构化数据库。
具体的,在对待存储数据进行预处理的过程中,可对结构化数据生成对应 的结构化数据文件并落地到本地磁盘,即经过预处理之后的结构化数据以文本 文件的形式存放在本地磁盘的指定文件目录中,通过指定多个不同的文件目录, 可将结构化数据按照一定的类别分别存储。例如,指定的多个文件目录分别用 于存储字段长度不同的结构化数据,或者分别用于存储针对不同业务主题的结 构化数据。然后将结构化数据由本地磁盘指定文件目录中转移至设定加载工具 进行加载,其中,所述设定加载工具可以为GPLoad。GPLoad是一种结构化数据 库的数据加载工具,可以根据定义在YAML格式的控制文件中的规范来执行一次 加载,直接将数据从本地磁盘指定文件目录加载到结构化数据库的表中。
进一步的,将结构化数据转移至设定加载工具后,设定加载工具根据实际 业务规则以及设定的YAML配置文件,将其中的结构化数据写入结构化数据库。 其中,结构化数据库为GreenPlum,用于存储结构化数据。
方案二、若待存储数据为非结构化数据,则根据数据类型将待存储数据存 入对应的数据库,包括:将非结构化数据存入非结构化数据库。
具体的,非结构化数据可以为图片、视频、音频等数据。预处理之后的非 结构化数据将直接存入非结构化数据库中。其中,非结构化数据库可以为Hadoop 集群的HDFS。
进一步的,在将非结构化数据存入非结构化数据库之后,还包括:获取非 结构化数据的存储地址;将存储地址写入结构化数据中。
具体的,将非结构化数据写入HDFS后,会自动获取其相对应的HDFS存储 地址。该HDFS存储地址可用二维表进行表示,属于结构化数据。将获取的HDFS 地址写入结构化数据,记录在结构化数据文件中,然后重复方案一所述的将结 构化数据写入结构化数据的流程。
方案三、若待存储数据为全文数据,则根据数据类型将待存储数据存入对 应的数据库,包括:将全文数据存入全文数据库。
具体的,全文数据库即收录有原始文献全文的数据库,如期刊论文、研究 报告、法律条文、商业信息等构成的数据库。全文数据库将全文数据转化为计 算机可以识别、处理的信息单元而形成的数据集合,其不仅存储了海量的信息, 而且还具有对全文数据进行词、字、段落等更深层次的编辑、加工的功能。若 待存储数据为全文数据,则将待存储数据存入全文数据库。
进一步的,将全文数据存入全文数据库具体包括:将全文数据保存至本地 磁盘中;将全文数据和结构化数据通过ID号进行关联;将全文数据存入全文数 据库。
具体的,将全文数据以文件的形式保存至本地磁盘中,本地磁盘中还保存 了结构化数据的相关文件。全文数据的文件以及结构化数据的文件中都记录着 唯一的ID号标识,通过ID号可以将对应的全文数据和结构化数据关联起来。 此外,全文文件中除了记录与结构化数据中相对应的ID号以外,还记录了数据 类型等相关信息(依实际业务需求确定的信息)。然后将全文数据写入到全文数 据库中。其中,全文数据库可以为ElasticSearch,用于存储全文数据,同时 ElasticSearch可提供一种具有分布式多用户能力的全文搜索引擎,具有较好 的稳定性和实时性。将全文数据存入全文数据库ElasticSearch具体包括:将 全文数据以文件的形式转移到ElasticSearch节点上,再通过预设的定时任务 将ElasticSearch节点中的全文数据文件定时导入到ElasticSearch中。
在将全文数据写入到全文数据库中的同时,重复方案一所述的将结构化数 据写入结构化数据的流程。
进一步的,将全文数据存入全文数据库后,定期对全文数据库中的内容进 行索引、更新、追加和整理,以保证全文数据库的实用性、有效性和完整性。
本实施例通过将结构化数据存入结构化数据库,将非结构化数据库存入非 结构化数据库,并将非结构化数据的存储地址保存在结构化数据中,将全文数 据存入全文数据库,以实现对不同类型数据的同时全面的存储,提供完善的功 能支持,降低数据存储的成本;并且通过ID号将全文数据与结构化数据关联起 来,加强了不同类型的数据存储的关联性,利于对不同类型数据的综合管理。
实施例三
图3为本发明实施例三提供的一种数据检索方法的流程图,本实施例可适 用于对不同类型的数据进行检索的情况。具体的,该数据检索方法可以由数据 检索装置执行,该数据检索装置可以通过软件和/或硬件的方式实现,并集成在 服务器中。进一步的,服务器包括但不限定于:网络服务器、系统后台服务器 以及云端服务器。
参照图3,该方法具体包括如下步骤:
S310、调用检索接口,并通过所述检索接口传入检索参数;
具体的,检索接口可以为各种客户端(Web、App等)提供的用于进行数据 检索的API接口,用户无需访问源代码或理解内部工作机制,只需通过检索接口 传入检索参数,便可自动通过调用源代码或编写的函数,实现对数据的检索。 本实施例中,检索接口设置于中间件上。
S320、根据检索参数的类型检索对应的数据。
具体的,通过查询中间件可根据检索参数的类型对相应的数据进行检索。 其中,中间件是一种用于连接独立的应用程序或独立系统的软件或服务程序, 各独立系统之间通过中间件交换信息,从而提供数据访问、数据检索、数据传 输等功能。通过查询中间件,根据检索参数的类型检索对应的数据,可实现基 于标准SQL的实时检索的功能,以及对全文数据与结构化数据的实时混合检索 功能。示例性的,业务系统调用中间件的Hessian接口,通过Hessian接口传 入检索参数,中间件即可根据检索参数的类型进行对应的检索,并将检索结果 加工成所需要的格式返回。
进一步的,对数据进行检索的过程还包括离线数据提取。离线数据提取是 指对结构化数据库GreenPlum中的数据进行业务提取,对不同类型的数据进行 分析归纳整理。例如,对于身份信息数据,有两个不同姓名的人的手机号相同, 通过离线数据提取可以将这两个人的信息提取出来,判断数据的正确性并进一 步分析,明确这两个人的关系。对于GreenPlum进行离线数据提取的方式有两 种:使用存储过程的方式以及使用GreenPlumMapReduce。其中,离线数据提 取的方法属于现有技术,此处不做赘述。
本实施例通过调用检索接口,并通过检索接口传入检索参数;根据检索参 数的类型检索对应的数据,可实现针对各种类型的数据进行全面的检索,从而 提供完善的功能支持。
在上述实施例的基础上,本实施例对步骤S320所述的“根据检索参数的类 型检索对应的数据”进行了优化,将其具体优化为以下三种方案。
方案一、若检索参数为结构化数据检索参数,则根据结构化数据检索参数 调用结构化数据库中的API函数;根据API函数检索目标结构化数据。
具体的,若检索参数为结构化数据检索参数,则业务系统调用中间件的检 索接口,传入结构化数据检索参数。中间件接收结构化数据检索参数后,调用 结构化数据库查询API函数,根据API函数检索目标结构化数据。最后,结构 化数据库将检索到的目标结构化数据返回给中间件,中间件将返回的目标结构 化数据加工成适用于该业务系统的格式(如二进制流格式)返回给业务系统。 其中,中间件的检索接口为Hessian接口,结构化数据检索参数为SQL参数, 中间件根据SQL参数调用GreenPlum查询API函数。
方案二、若检索参数为非结构化数据检索参数,则根据非结构化数据检索 参数检索目标非结构化数据。
具体的,若检索参数为非结构化数据检索参数,则业务系统调用中间件的 检索接口,传入非结构化数据检索参数。中间件根据传入的非结构化数据检索 参数访问非结构化数据库中对应的目标非结构化数据。非结构化数据库将检索 到的目标非结构化数据返回给中间件,中间件将返回的目标非结构化数据以适 用于该业务系统的格式返回给业务系统。其中,中间件的检索接口为Hessian 接口,非结构化数据检索参数为HDFS地址参数,中间件根据HDFS地址参数访 问HDFS地址,读取目标非结构化数据返回给中间件,中间件将返回的目标非结 构化数据以二进制流的形式返回给业务系统。
方案三、若检索参数为全文数据检索参数,则根据全文数据检索参数检索 目标非结构化数据。
具体的,若检索参数为全文数据检索参数,则业务系统调用中间件的检索 接口,传入全文数据检索参数,中间件根据传入的全文数据检索参数访问全文 数据库中对应的全文数据。全文数据库将检索到的全文数据返回给中间件,中 间件将返回的全文数据以适用于该业务系统的格式返回给业务系统。其中,中 间件的检索接口为Hessian接口,全文数据检索参数为需要查询的文字,全文 数据库为ElasticSearch,中间件访问ElasticSearch后检索到的为全文文档 数据。
进一步的,本实施例的数据检索方法还提供了对全文数据和结构化数据的 混合检索功能。具体的,结构化数据与全文数据之间通过ID号关联。根据业务 需求,当需要对全文数据和结构化数据进行混合检索时,中间件除了根据全文 数据检索参数检索目标全文数据以外,还根据结构化数据的数据类型和唯一ID 号在结构化数据库中查询与目标全文数据相对应的结构化数据,并根据业务需 求返回全文数据和/或结构化数据,将其以适用于该业务系统的格式返回给业务 系统,从而实现对全文数据和结构化数据的混合检索。
需要说明的是,现有技术通常将不同类型的数据分开存储,并且通过不同 的方式进行检索,但无论采用哪一种检索方式,都会因无法兼顾到不同类型的 数据而造成检索结果不全面、不完整,而本实施例可以实现对全文数据和结构 化数据的混合检索。
本实施例通过根据检索参数的类型检索对应的数据,可实现针对结构化数 据、非结构化数据以及全文数据进行全面的检索,提供完善的功能支持;并且 在检索全文数据的同时,通过结构化数据的数据类型和唯一ID号在结构化数据 库中查询对应的结构化数据,可实现对结构化数据和全文数据的混合检索。
实施例四
图4为本发明实施例四提供的一种数据存储、检索方法的实现流程的示意 图在上述实施例的基础上,本实施例对数据存储、检索的实现流程进行介绍, 未在本实施例中详尽描述的技术细节可参见上述任意实施例。
参照图4,待存储数据为原始数据经过标准化处理以及质量监测后得到的 数据,首先对待存储数据进行预处理。其中,对待存储数据进行预处理包括: 对待存储数据进行清洗处理和/或关联处理和/或去重处理和/或预警处理。
进一步的,预警信息由不同的业务系统根据实际业务需求设定,并预先缓 存在Redis集群中。对待存储数据进行预警处理时,通过读取Redis集群中的 预警信息,将待存储数据与预警信息进行比对,从而实现预警处理。在对待存 储数据进行预警处理时会生成预警数据,预警数据经过系统处理程序后存入到 GreenPlum和/或ElasticSearch中,便于用户查询。其中,系统处理程序是一 种用于控制数据存储或检索方法中各个步骤的实现的软件程序。
进一步的,根据待存储数据的数据类型将预处理后的待存储数据存入对应 的数据库。
若预处理之后的数据为结构化数据,则系统处理程序首先将结构化数据保 存至本地磁盘指定文件目录中;然后将结构化数据由本地磁盘指定文件目录中 转移至设定加载工具GPLoad,GPLoad根据设定的YAML配置文件和业务规则将 加载后的结构化数据写入结构化数据库GreenPlum。
若待存储数据为非结构化数据,则将预处理之后的非结构化数据将直接存 入非结构化数据库中。其中,非结构化数据库为Hadoop集群的HDFS。将非结 构化数据写入HDFS后,会自动获取其相对应的HDFS存储地址,该HDFS地址被 记录在结构化数据文件中,并存入结构化数据库。
若待存储数据为全文数据,则存入全文数据库Elastic Search中。将全文 数据存入全文数据库包括:将全文数据保存至本地磁盘中;将全文数据和结构 化数据通过ID号进行关联;在将全文数据写入到全文数据库中的同时,重复将 结构化数据写入结构化数据的流程。
进一步的在将结构化数据、非结构化数据以及全文数据分别存入对应的数 据库后,通过查询中间件可根据传入的检索参数的类型进行相应的检索。
具体的,业务系统调用中间件的检索接口(Hessian接口),传入检索参数;
若检索参数为结构化数据检索参数(SQL参数),则中间件根据传入的SQL 参数,调用GreenPlum相关的API函数,GreenPlum根据API函数检索目标结 构化数据,并将检索到的目标结构化数据返回给中间件,中间件将返回的目标 结构化数据加工成适用于该业务系统的格式(如二进制流格式)返回给业务系 统。
若检索参数为非结构化数据检索参数(HDFS地址参数),则中间件根据传 入的HDFS地址参数,访问HDFS地址,并将HDFS地址中的非结构化数据返回给 中间件,中间件将返回的目标结构化数据加工成适用于该业务系统的格式(如 二进制流格式)返回给业务系统。
若检索参数为全文参数(需要查询的文字),则中间件根据需要查询的文 字访问ElasticSearch得到全文文档数据,并将其返回给中间件,中间件将其 加工成适用于该业务系统的格式(如二进制流格式)返回给业务系统。
进一步的,结构化数据与全文数据之间通过ID号关联,当需要对全文数据 和结构化数据进行混合检索时,除了根据全文数据检索参数访问ElasticSearch 以外,还可根据结构化数据的数据类型和唯一ID号,在GreenPlum中查询对应 的结构化数据,然后根据业务需求返回全文数据和/或结构化数据,将其以适用 于该业务系统的格式返回给业务系统,从而实现对全文数据和结构化数据的混 合检索。
本实施例通过对待存储数据进行预处理,提高待存储数据的质量;通过根 据数据类型将待存储数据存入对应的数据库,实现针对各种类型的数据进行全 面的存储,降低数据存储的成本;然后通过调用检索接口,并通过检索接口传 入检索参数,根据检索参数的类型检索对应的数据,可实现针对各种类型的数 据进行全面的检索,从而提供完善的功能支持。
实施例五
图5为本发明实施例五提供的一种数据存储装置的结构示意图,本实施例 可适用于对不同类型的数据进行存储的情况。
参照图5,该数据存储装置包括:
预处理模块410,用于对待存储数据进行预处理;
待存储数据入库模块420,用于根据待存储数据的数据类型将预处理后的 待存储数据存入对应的数据库。
本实施例通过预处理模块对待存储数据进行预处理,提高待存储数据的质 量;通过待存储数据入库模块根据数据类型将待存储数据存入对应的数据库, 以实现针对各种类型的数据进行全面的存储,提供完善的功能支持,并且可以 降低数据存储的成本。
在上述实施例的基础上,该数据存储装置还包括:
原始数据获取模块,用于获取原始数据;
标准化处理模块,用于根据设定标准对原始数据进行标准化处理。
质量监测模块,用于对标准化处理后的原始数据进行质量监测,获得待存 储数据。
进一步的,质量监测模块还用于按照实际业务需求和设定标准对原始数据 进行检查,并实时记录检查日志,根据检查日志输出质量监测的报表数据,并 将检查后的数据作为待存储数据。
进一步的,预处理模块410包括:
清洗模块,用于对待存储数据进行清洗处理;
关联模块,用于对待存储数据进行关联处理;
去重模块,用于对待存储数据进行去重处理;
预警模块,用于对待存储数据进行预警处理。
进一步的,预警模块包括:
读取模块,用于从缓存数据库中读取预警信息;
比对模块,用于将预警信息与待存储数据进行比对;
预警处理模块,用于根据比对结果对待存储数据进行预警处理。
进一步的,待存储数据入库模块420包括:
结构化数据入库模块,用于若待存储数据为结构化数据,则将结构化数据 保存至本地磁盘指定文件目录中;将结构化数据由所述本地磁盘指定文件目录 中转移至设定加载工具进行加载;根据设定配置文件将加载后的结构化数据写 入结构化数据库。
进一步的,待存储数据入库模块420还包括:
非结构化数据入库模块,用于若待存储数据为非结构化数据,则将所述非 结构化数据存入非结构化数据库。
进一步的,非结构化数据入库模块还用于在将所述非结构化数据存入非结 构化数据库之后,获取所述非结构化数据的存储地址;将所述存储地址写入结 构化数据中。
进一步的,待存储数据入库模块420还包括:
全文数据入库模块,用于若待存储数据为全文数据,则将全文数据保存至 本地磁盘中;将全文数据和结构化数据通过ID号进行关联;将全文数据写入到 全文数据库中。
进一步的,全文数据入库模块还用于定期对全文数据库中的内容进行索引、 更新、追加和整理。
需要说明的是,本发明实施例五提供的数据存储装置可以用于执行上述任 意实施例提供的数据存储方法,具备相应的功能和有益效果。未在本实施例中 详尽描述的技术细节可参见上述任意实施例。
实施例六
图6为本发明实施例六提供的一种数据检索装置的结构示意图。本实施例 可适用于对不同类型的数据进行检索的情况。
参照图6,该装置包括:
检索参数传入模块510,用于调用检索接口,并通过所述检索接口传入检 索参数;
检索模块520,用于根据所述检索参数的类型检索对应的数据。
本实施例通过检索参数传入模块调用检索接口,并通过检索接口传入检索 参数;通过检索模块根据检索参数的类型检索对应的数据,可实现针对各种类 型的数据进行全面的检索,从而提供完善的功能支持。
在上述实施例的基础上,检索模块520,包括:
结构化数据检索模块,用于若检索参数为结构化数据检索参数,则根据结 构化数据检索参数调用结构化数据库中的API函数;根据API函数检索目标结 构化数据。具体的,所述结构化数据库为GreenPlum,所述结构化数据检索参 数为SQL参数。
进一步的,检索模块520还包括:
非结构化数据检索模块,用于若检索参数为非结构化数据检索参数,则根 据非结构化数据检索参数检索目标非结构化数据。具体的,根据非结构化数据 检索参数检索目标非结构化数据包括,根据HDFS地址参数访问HDFS地址,读 取目标非结构化数据。
进一步的,检索模块520还包括:
全文数据检索模块,用于若检索参数为全文数据检索参数,则根据全文数 据检索参数检索目标非结构化数据。具体的,根据全文数据检索参数检索目标 非结构化数据包括,根据需要查询的文字,访问ElasticSearch得到目标非结 构化数据。
需要说明的是,本发明实施例六提供的数据检索装置可以用于执行上述任 意实施例提供的数据检索方法,具备相应的功能和有益效果。未在本实施例中 详尽描述的技术细节可参见上述任意实施例。
实施例七
图7为本发明实施例七提供的一种服务器的硬件结构示意图。如图7所示, 本实施例提供的一种服务器,包括:处理器610和存储装置620。该服务器中 的处理器可以是一个或多个,图7中以一个处理器610为例,所述设备中的处 理器610和存储装置620可以通过总线或其他方式连接,图7中以通过总线连 接为例。
所述一个或多个程序被所述一个或多个处理器610执行,使得所述一个或 多个处理器实现上述实施例中任意所述的数据存储或者数据检索方法。
该服务器中的存储装置620作为一种计算机可读存储介质,可用于存储一 个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本 发明实施例中数据存储或者检索方法对应的程序指令/模块(例如,附图4所示 的数据存储装置中的模块,包括:预处理模块410和入库模块420)。处理器610 通过运行存储在存储装置620中的软件程序、指令以及模块,从而执行设备的 各种功能应用以及数据处理,即实现上述方法实施例中的数据存储或者检索方 法。
存储装置620主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使 用所创建的数据等(如上述实施例中的结构化数据、全文数据等)。此外,存储 装置620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至 少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例 中,存储装置620可进一步包括相对于处理器610远程设置的存储器,这些远 程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企 业内部网、局域网、移动通信网及其组合。
并且,当上述服务器中所包括一个或者多个程序被所述一个或者多个处理 器610执行时,程序进行如上述实施例所述的数据存储方法或者数据检索方法。
本实施例提出的服务器与上述实施例提出的数据存储或者检索方法属于同 一发明构思,未在本实施例中详尽描述的技术细节可参见上述任意实施例,并 且本实施例具备与执行数据存储或者检索方法相同的有益效果。
在上述实施例的基础上,本实施例还提供一种计算机可读存储介质,其上 存储有计算机程序,该程序被数据存储装置或者数据检索装置执行时实现本发 明上述任意实施例中的数据存储或者数据检索方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计 算机可执行指令不限于如上所述的数据存储或者检索方法操作,还可以执行本 发明任意实施例所提供的数据存储或者检索方法中的相关操作,且具备相应的 功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以 是个人计算机,服务器,或者网络设备等)执行本发明实施例所述的数据存储 方法或者数据检索方法。
实施例八
图8本发明实施例八提供的一种数据存储系统的结构示意图。该系统包括: 预处理节点100、主节点111、从节点112以及万兆交换机113。可选的,预处 理节点100的数量为至少三个,本实施例以三个为例进行说明。
需要说明的是,本实施例在数据存储系统中部署了7台服务器,在实际应 用中,如果待存储数据的规模较大,可根据实际需求对数据存储系统进行线性 扩展,增加服务器的部署数量。
参照图8,该数据存储系统包括3台预处理节点,3台预处理节点中分别安 装Hadoop、Flink和Redis。其中,预处理节点101中安装Flink,用于对数据 进行预处理,提供数据接入的功能;预处理节点102中安装Hadoop,用于将经 过预处理的非结构化数据直接存储在非结构化数据库HDFS中;预处理节点103 中安装Redis,用于数据的缓存,例如用于存储预警信息、数据治理标准等。
主节点111中安装了数据加载工具GPLoad、系统处理程序、中间件程序、 结构化数据库GreenPlum主节点以及全文数据库ElasticSearch主节点。主节 点111利用GPLoad将结构化数据存入结构化数据库GreenPlum中;然后将全文 数据存入全文数据库ElasticSearch中;主节点111通过系统处理程序控制数 据存储方法中各个步骤的实现;通过中间件程序可控制中间件根据检索参数进 行对应的检索,从而提供完整的数据存储与检索功能。
从节点112具体为结构化数据库GreenPlum和全文数据库ElasticSearc的 从节点,其中GreenPlum的从节点中安装有8个PostgreSql。
预处理节点100、主节点111、从节点112之间通过万兆交换机113连接, 以进行安全、快速的数据传输。万兆交换机还用于与客户端相连,用户可通过 客户端输入检索参数并查看检索结果。
进一步的,主节点111将全文数据存入全文数据库ElasticSearch中具体 包括:通过系统处理程序将全文数据文件转移到ElasticSearch节点上,再通 过预设的定时任务将全文数据文件定时导入到全文数据库ElasticSearch中。
需要说明的是,本实施例提供了一种基于Hadoop、GreenPlum、 ElasticSearch、Redis等的大数据平台架构,采用较少的硬件设备即可实现对 不同类型的数据的全面存储。通过预处理节点对待存储数据进行预处理;并根 据待存储数据的数据类型将不同类型的待存储数据存入对应的数据库,实现针 对各种类型的数据进行全面的存储,提供完善的功能支持并且可以降低数据存 储的成本。
本实施例提供的数据存储系统可以用于执行上述任意实施例提供的数据存 储方法,具备相应的功能和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。
Claims (14)
1.一种数据存储方法,其特征在于,包括:
对待存储数据进行预处理;
根据所述待存储数据的数据类型将预处理后的待存储数据存入对应的数据库。
2.根据权利要求1所述的方法,其特征在于,在对所述待存储数据进行预处理之前,还包括:
获取原始数据;
根据设定标准对所述原始数据进行标准化处理;
对标准化处理后的原始数据进行质量监测,获得所述待存储数据。
3.根据权利要求1所述的方法,其特征在于,所述对待存储数据进行预处理,包括:
对所述待存储数据进行清洗处理和/或关联处理和/或去重处理和/或预警处理。
4.根据权利要求3所述的方法,其特征在于,对所述待存储数据进行预警处理,包括:
从缓存数据库中读取预警信息;
将所述预警信息与所述待存储数据进行比对;
根据比对结果对所述待存储数据进行预警处理。
5.根据权利要求1所述的方法,其特征在于,所述数据类型包括结构化数据、非结构化数据和全文数据。
6.根据权利要求5所述的方法,其特征在于,若所述待存储数据为结构化数据,则根据所述数据类型将所述待存储数据存入对应的数据库,包括:
将所述结构化数据保存至本地磁盘指定文件目录中;
将所述结构化数据由所述本地磁盘指定文件目录中转移至设定加载工具进行加载;
根据设定配置文件将加载后的结构化数据写入结构化数据库。
7.根据权利要求5所述的方法,其特征在于,若所述待存储数据为非结构化数据或全文数据,则根据所述数据类型将所述待存储数据存入对应的数据库,包括:
将所述非结构化数据存入非结构化数据库,或者将所述全文数据存入全文数据库。
8.根据权利要求7所述的方法,其特征在于,在将所述非结构化数据存入非结构化数据库之后,还包括:
获取所述非结构化数据的存储地址;
将所述存储地址写入结构化数据中。
9.一种数据检索方法,其特征在于,包括:
调用检索接口,并通过所述检索接口传入检索参数;
根据所述检索参数的类型检索对应的数据。
10.根据权利要求9所述的方法,其特征在于,所述根据所述检索参数的类型检索对应的数据,包括:
若所述检索参数为结构化数据检索参数,则根据所述结构化数据检索参数调用结构化数据库中的API函数;根据所述API函数检索目标结构化数据;
若所述检索参数为非结构化数据检索参数,则根据所述非结构化数据检索参数检索目标非结构化数据;
若所述检索参数为全文参数,则根据全文参数检索目标全文数据。
11.一种数据存储装置,其特征在于,包括:
预处理模块,用于对待存储数据进行预处理;
入库模块,用于根据所述待存储数据的数据类型将预处理后的待存储数据存入对应的数据库。
12.一种数据检索装置,其特征在于,包括:
检索参数传入模块,用于调用检索接口,并通过所述检索接口传入检索参数;
检索模块,用于根据所述检索参数的类型检索对应的数据。
13.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的数据存储方法或者权利要求9-10任一所述的数据检索方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的数据存储方法或者权利要求9-10任一所述的数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811231541.XA CN109213756B (zh) | 2018-10-22 | 2018-10-22 | 数据存储、检索方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811231541.XA CN109213756B (zh) | 2018-10-22 | 2018-10-22 | 数据存储、检索方法、装置、服务器和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213756A true CN109213756A (zh) | 2019-01-15 |
CN109213756B CN109213756B (zh) | 2021-05-28 |
Family
ID=64980059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811231541.XA Expired - Fee Related CN109213756B (zh) | 2018-10-22 | 2018-10-22 | 数据存储、检索方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213756B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059105A (zh) * | 2019-04-26 | 2019-07-26 | 北京贝斯平云科技有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN110209656A (zh) * | 2019-04-26 | 2019-09-06 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
CN110362630A (zh) * | 2019-07-19 | 2019-10-22 | 深圳前海微众银行股份有限公司 | 数据管理方法、装置、设备与计算机可读存储介质 |
CN110489445A (zh) * | 2019-08-02 | 2019-11-22 | 四川宏力信息科技有限责任公司 | 一种基于多形态复合的海量数据快速查询方法 |
CN111352930A (zh) * | 2020-03-31 | 2020-06-30 | 深圳市优必选科技股份有限公司 | 一种模板数据处理方法、装置、服务器和存储介质 |
CN111552683A (zh) * | 2020-04-23 | 2020-08-18 | 武汉澄川朗境环境科技有限公司 | 一种基于大数据的水务数据信息管理方法及装置 |
CN111723075A (zh) * | 2020-06-11 | 2020-09-29 | 合肥阳光新能源科技有限公司 | 实时数据库的构建、检索以及数据保存方法、系统及介质 |
CN112420202A (zh) * | 2019-08-23 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 数据的处理方法、装置及设备 |
CN113010490A (zh) * | 2021-02-22 | 2021-06-22 | 北京字节跳动网络技术有限公司 | 数据存储方法、装置和电子设备 |
CN114490663A (zh) * | 2022-02-14 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 数据处理方法及装置 |
CN115221184A (zh) * | 2022-09-01 | 2022-10-21 | 北京理工大学 | 基础地理数据发送方法、装置、设备和计算机可读介质 |
CN117591625A (zh) * | 2024-01-18 | 2024-02-23 | 之江实验室 | 一种数据存储方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750855A (zh) * | 2015-04-16 | 2015-07-01 | 成都睿峰科技有限公司 | 一种大数据存储优化方法和装置 |
CN107391770A (zh) * | 2017-09-13 | 2017-11-24 | 北京锐安科技有限公司 | 一种处理数据的方法、装置、设备以及存储介质 |
-
2018
- 2018-10-22 CN CN201811231541.XA patent/CN109213756B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750855A (zh) * | 2015-04-16 | 2015-07-01 | 成都睿峰科技有限公司 | 一种大数据存储优化方法和装置 |
CN107391770A (zh) * | 2017-09-13 | 2017-11-24 | 北京锐安科技有限公司 | 一种处理数据的方法、装置、设备以及存储介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209656A (zh) * | 2019-04-26 | 2019-09-06 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
CN110059105A (zh) * | 2019-04-26 | 2019-07-26 | 北京贝斯平云科技有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN110209656B (zh) * | 2019-04-26 | 2022-05-17 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
CN110362630A (zh) * | 2019-07-19 | 2019-10-22 | 深圳前海微众银行股份有限公司 | 数据管理方法、装置、设备与计算机可读存储介质 |
CN110362630B (zh) * | 2019-07-19 | 2023-11-28 | 深圳前海微众银行股份有限公司 | 数据管理方法、装置、设备与计算机可读存储介质 |
WO2021013057A1 (zh) * | 2019-07-19 | 2021-01-28 | 深圳前海微众银行股份有限公司 | 数据管理方法、装置、设备与计算机可读存储介质 |
CN110489445A (zh) * | 2019-08-02 | 2019-11-22 | 四川宏力信息科技有限责任公司 | 一种基于多形态复合的海量数据快速查询方法 |
CN112420202A (zh) * | 2019-08-23 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 数据的处理方法、装置及设备 |
CN111352930A (zh) * | 2020-03-31 | 2020-06-30 | 深圳市优必选科技股份有限公司 | 一种模板数据处理方法、装置、服务器和存储介质 |
CN111552683A (zh) * | 2020-04-23 | 2020-08-18 | 武汉澄川朗境环境科技有限公司 | 一种基于大数据的水务数据信息管理方法及装置 |
CN111723075A (zh) * | 2020-06-11 | 2020-09-29 | 合肥阳光新能源科技有限公司 | 实时数据库的构建、检索以及数据保存方法、系统及介质 |
CN111723075B (zh) * | 2020-06-11 | 2023-05-30 | 阳光新能源开发股份有限公司 | 实时数据库的构建、检索以及数据保存方法、系统及介质 |
CN113010490A (zh) * | 2021-02-22 | 2021-06-22 | 北京字节跳动网络技术有限公司 | 数据存储方法、装置和电子设备 |
CN114490663A (zh) * | 2022-02-14 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 数据处理方法及装置 |
CN115221184A (zh) * | 2022-09-01 | 2022-10-21 | 北京理工大学 | 基础地理数据发送方法、装置、设备和计算机可读介质 |
CN117591625A (zh) * | 2024-01-18 | 2024-02-23 | 之江实验室 | 一种数据存储方法、装置、存储介质及电子设备 |
CN117591625B (zh) * | 2024-01-18 | 2024-04-12 | 之江实验室 | 一种数据存储方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109213756B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213756A (zh) | 数据存储、检索方法、装置、服务器和存储介质 | |
CN112199366B (zh) | 数据表处理方法、装置及设备 | |
AU2019219824B2 (en) | System for synchronization of changes in edited websites and interactive applications | |
US8782096B2 (en) | Virtual repository management | |
US10684990B2 (en) | Reconstructing distributed cached data for retrieval | |
US20070192374A1 (en) | Virtual repository management to provide functionality | |
US7424470B2 (en) | Local data repository generation | |
DE202012013469U1 (de) | Datenverarbeitungsdienst | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN114461603A (zh) | 多源异构数据融合方法及装置 | |
WO2014058711A1 (en) | Creation of inverted index system, and data processing method and apparatus | |
CN115374102A (zh) | 数据处理方法及系统 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN106802928B (zh) | 电网历史数据管理方法及其系统 | |
CN118069712A (zh) | 数据生命周期管理方法、装置、电子设备及存储介质 | |
CN116303628B (zh) | 基于Elasticsearch的告警数据查询方法、系统及设备 | |
CN106844497A (zh) | 一种数据库代码的检查装置和方法 | |
England et al. | Microsoft SQL Server 2005 performance optimization and tuning handbook | |
Kvet et al. | Managing, locating and evaluating undefined values in relational databases | |
EP2595069A2 (en) | Replication server | |
CN116561114A (zh) | 一种基于元数据的管理方法 | |
Lee et al. | TPC-C benchmarking for ElasticSearch | |
Kvet et al. | Enhancing Analytical Select Statements Using Reference Aliases | |
Subotić | Data warehouse schema evolution perspectives | |
CA2918472C (en) | A method and process for enabling distributing cache data sources for query processing and distributed disk caching of large data and analysis requests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210528 |