CN114595219A - 一种数据存储方法、装置和系统 - Google Patents

一种数据存储方法、装置和系统 Download PDF

Info

Publication number
CN114595219A
CN114595219A CN202011406605.2A CN202011406605A CN114595219A CN 114595219 A CN114595219 A CN 114595219A CN 202011406605 A CN202011406605 A CN 202011406605A CN 114595219 A CN114595219 A CN 114595219A
Authority
CN
China
Prior art keywords
data
stored
preprocessing
processing
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011406605.2A
Other languages
English (en)
Inventor
陈桂文
钟雪慧
邓太良
林纲
郝建忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011406605.2A priority Critical patent/CN114595219A/zh
Publication of CN114595219A publication Critical patent/CN114595219A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据存储方法、装置和系统,用以解决由于处理数据不当而导致存储的数据质量差的问题。本方案包括:接收数据存储请求和与所述数据存储请求匹配的待存储数据;确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。本方案能保证对数据执行的预处理步骤符合待存储数据的特征,灵活地对待存储数据进行处理,优化存储的数据质量。

Description

一种数据存储方法、装置和系统
技术领域
本发明涉及数据处理领域,尤其涉及一种数据存储方法、装置和系统。
背景技术
在网络安全领域,随着互联网技术的大规模应用和发展,网络安全攻击的日益复杂化、隐秘化,检测和发现攻击行为的难度越来越大。针对不同安全设备日志数据、安全业务数据、安全策略等各类安全数据进行大数据处理、存储、分析,实现安全威胁的发现识别以及理解分析的能力成为越来越迫切的需求。
在对于网络安全相关数据执行处理与存储的过程中,为保障在数据汇聚存储、数据分析、态势预警、数据共享等各个阶段对数据质量的要求,需要高效灵活地进行数据处理,以提高存储数据质量。但网络数据接入源往往较多,各个接入源接入的数据的内容、类型通常也各不相同,难以通过统一的处理方式对各类数据进行处理。
如何灵活地对数据进行有针对性的处理,以提高存储数据的质量,是本申请所要解决的技术问题。
发明内容
本申请实施例的目的是提供一种数据存储方法、装置和系统,用以解决由于处理数据不当而导致存储的数据质量差的问题。
第一方面,提供了一种数据存储方法,包括:
接收数据存储请求和与所述数据存储请求匹配的待存储数据;
确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;
确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;
根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。
第二方面,提供了一种数据存储装置,包括:
接收模块,接收数据存储请求和与所述数据存储请求匹配的待存储数据;
第一确定模块,确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;
第二确定模块,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;
处理模块,根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。
第三方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面该的方法的步骤。
在本申请实施例中,通过接收数据存储请求和与所述数据存储请求匹配的待存储数据;确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。本方案能针对待存储数据的特征确定相匹配的预处理策略,从而保证对数据执行的预处理步骤符合待存储数据的特征,灵活地对待存储数据进行处理,优化存储的数据质量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例一种数据存储方法的流程示意图之一;
图2是本发明的一个实施例一种数据存储方法的流程示意图之二;
图3是本发明的一个实施例一种数据存储方法的流程示意图之三;
图4是本发明的一个实施例一种数据存储方法的流程示意图之四;
图5是本发明的一个实施例一种数据存储方法的流程示意图之五;
图6a是本发明的一个实施例一种数据存储装置的结构示意图之一;
图6b是本发明的一个实施例一种数据存储装置的结构示意图之二;
图7a是本发明的一个实施例一种数据存储系统的结构示意图之一;
图7b是本发明的一个实施例一种数据存储系统的结构示意图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
本申请实施例提供的方案可以应用于网络安全领域,例如对网络安全数据执行高效灵活的处理,以提高存储数据的质量。存储的网络安全数据可以进一步用于网络安全分析、诊断或安全策略的制定与实施。当然,本申请实施例提供的方案也可以根据实际需求应用于其他与数据处理相关的领域,以满足实际应用中的数据高质量需求。
为了解决现有技术中存在的问题,本申请实施例提供一种数据存储方法,执行主体可以是服务器等具有数据处理功能的电子设备,本实施例中以服务器为执行主体进行说明,如图1所示,本实施例提供的方案包括以下步骤:
S11:接收数据存储请求和与所述数据存储请求匹配的待存储数据。
服务器可以从同一个数据源端设备接收上述数据存储请求及其匹配的待存储数据,也可以从一个设备接收数据存储请求并从与该设备不同的其他至少一个设备获取相匹配的待存储数据。
上述待存储数据可以是文件形式的也可以是流式的。当存储数据是文件形式时,服务器可以根据数据存储请求批量获取待存储数据,并在随后的步骤中分批或逐个处理存储。服务器也可以根据数据存储请求逐个获取待存储数据,并在随后的步骤中逐个处理存储。当存储数据是流式时,服务器可以通过有线或无线接口与流数据源通信连接,并实时获取流式数据并实时处理存储。
S12:确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征。
待存储数据的数据特征可以指待存储数据在被处理之前本身具有的特征,该特征可以是数据格式特征也可以是数据内容特征。举例而言,待存储数据的类型为字符类型,那么该待存储数据的数据特征的数据格式特征可以为“字符类型”。再比如,待存储数据中包含用户的电话、证件号码等敏感信息,那么该待存储数据的数据特征的数据内容特征可以为“敏感信息”。
其中,待存储数据包括多项数据时,数据特征可以根据多项数据中预设比例以上的数据确定。比如,待存储数据中有89%是字符类型,11%是字符类型以外的其他类型。假设预设比例是70%,由于89%大于70%,所以可以将字符类型确定为待存储数据的数据特征。
S13:确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤。
与待存储数据的数据特征相匹配的预处理策略可以是预先生成的,也可以是根据待存储数据的数据特征临时生成的。本实施例中所述的预处理步骤可以有多种,例如可以包括数据标准化步骤、数据清洗步骤、数据补全步骤等。通过这些步骤处理待存储数据,能提高待存储数据的数据质量,避免不完整的无效数据。
预处理策略中的预处理步骤可以根据待存储数据的数据特征来确定,比如说,待存储数据的数据特征包括字符类型,则预处理策略中可以包括数据标准化步骤和数据数据补全步骤。预处理步骤可以为先执行数据补全步骤再执行数据标准化步骤,使处理得到的数据完整且具有统一格式。
基于上述任一实施例提供的方案,可选的,所述预处理策略包括以下至少一项预处理步骤:
异常数据清洗步骤、缺失数据补全步骤、数据格式转换步骤、同类数据归并步骤、数据合法性校验步骤。
其中,异常数据清洗步骤可以包括针对数据错误、数据不完整、数据无效等问题,基于一种或多种关键字组合以及标准化数据字段条件运算、表达式、正则等配置方式,进行数据清洗的步骤。
缺失数据补全步骤可以包括针对标准化数据进行数据补全的步骤,具体可以关联补全用户信息、资产信息、地理位置信息、威胁情报信息等。
数据格式转换步骤可以是面向数据分析、计算需求的格式转换步骤,用于针对标准化数据字段类型进行转换、统一时间字段格式、统一IP等字段格式。
同类数据归并步骤可以是针对大量相同或相似数据,进行数据归并的步骤。
数据合法性校验步骤可以是对数据的格式、调用的函数、数据源等信息进行校验的步骤,能降低数据处理过程中的错误,有效识别异常数据。
S14:根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。
由于数据特征表征所述待存储数据的数据格式特征和/或数据内容特征,按预处理策略中多个预处理步骤的排列顺序对待存储数据执行处理,能将待存储数据处理为符合待存储数据的数据特征的数据。即对待存储数据执行与数据格式或数据内容相适应的处理步骤。避免对由于数据处理不当而导致数据缺失、数据错误等情况,优化存储的数据质量。
可选的,本申请实施例提供的方案可以通过分布式消息总线执行处理,例如,可以先采集对多种类型、多个来源的待存储数据并输出至分布式消息总线中,由分步实现消息总线对待存储数据执行处理。
其中,分布式消息总线可以根据待存储数据的数据特征、噪声程度等信息来确定相匹配的预处理策略,调用预处理策略相匹配的功能模块执行数据处理。
或者,分布式消息总线可以针对全局多类待存储数据批量配置相匹配的预处理策略,针对各类待存储数据的特征灵活调整处理步骤和顺序,实现批量数据处理。
基于上述实施例提供的方案,可选的,上述步骤S12,确定所述待存储数据的数据特征,如图2所示,包括:
S21:将所述待存储数据转换为具有目标数据格式的待存储数据,所述目标数据格式与所述待存储数据的数据类型相匹配。
本步骤可以基于正则匹配、字符串拆分、分隔符解析等一个或多个步骤将待存储数据转换为具有目标数据格式的待存储数据。其中,具有目标数据格式的待存储数据可以指具有统一数据格式且统一字段映射的数据。具有目标数据格式的待存储数据能便于后续步骤继续处理,降低后续处理中的错误。
其中,目标数据格式可以根据待存储数据的数据类型确定,该数据类型可以与获取待存储数据的地址或端口、数据的形式等因素相关。举例而言,可以将流式的待存储数据和文件式的待存储数据转换为不同目标数据格式的待存储数据,以匹配待存储数据在被处理前所具有的数据类型。本步骤能将待存储数据处理为统一的目标数据格式,提高后续步骤的处理效率,而且,目标数据格式是与待存储数据相匹配的,能有效保留待存储数据未被处理前具有的数据特征,避免处理过程中数据丢失。
S22:根据所述具有目标数据格式的待存储数据确定所述待存储数据的数据特征。
将待存储数据处理为目标数据格式能便于后续数据处理步骤的执行,但目标数据格式是待存储数据被处理后所具有的一种格式特征。在本步骤中,可以根据目标数据格式和待存储数据来确定待存储数据在被处理之前所具有的特征,也可以根据目标数据格式所对应的数据类型来辅助确定待存储数据的数据特征。
其中,上述步骤S13,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,包括:
S23:确定与所述待存储数据的数据特征和所述目标数据格式相匹配的预处理策略和目标数据库。
与待存储数据的数据特征相匹配的预处理策略能用于对待存储数据执行符合数据特征的处理步骤,避免数据处理不当。通过上述步骤S21已经将待存储数据处理为具有目标数据格式的数据,在本步骤中,确定的预处理策略可以包括对具有目标数据格式的数据执行处理的步骤,提高数据处理效率。
上述目标数据库可以根据待存储数据所具有的数据特征或预处理策略计划处理得到的数据来确定。比如,目标数据库可以是关系型数据库、分布式检索数据库、分布式文件数据库中的一种或多种。
可选的,在确定预处理策略的过程中,可以基于数据特征动态加载该数据特征所匹配的多个预处理步骤需要调用的功能模块。便于提高后续数据处理效率,提高处理灵活性。
可选的,由于S21-S23步骤在数据处理过程中需要消耗较多的处理性能,为了优化处理流程,可以首先执行全局筛选。具体可以通过全局多累数据匹配模式,基于一种或多种关键字组合以及正则配置方式,执行全局数据清洗,能有效降低后续处理过程中需要消耗的处理性能。
基于上述实施例提供的方案,可选的,上述步骤S23,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,如图3所示,包括:
S31:确定与所述待存储数据的数据特征匹配的多个预处理步骤。
具体的,可以根据预先设置的匹配关系确定与待存储数据的数据特征匹配的多个预处理步骤。
S32:根据所述数据特征确定所述多个预处理步骤的执行顺序。
预处理步骤的执行顺序可以是预先设定的与数据特征相匹配的顺序,也可以在确定多个预处理步骤之后,根据多个预处理步骤的优先级和多个预处理步骤之间的关系来确定。
S33:根据所述多个预处理步骤和所述执行顺序确定所述预处理策略。
将确定的多个预处理步骤按照执行顺序排序,生成预处理策略。同时,可以调用执行多个预处理步骤所需的功能模块,以便对待存储数据执行处理。
基于上述实施例提供的方案,可选的,上述步骤14,根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库,如图4所示,包括:
S41:确定与所述处理后的数据相匹配的目标存储格式,所述目标存储格式包括关系型数据格式、分布式文件格式、分布式全文检索格式中的至少一项。
根据处理后的数据确定相匹配的目标存储格式,以将处理后的数据存储至相应格式的数据库中。
S42:将所述处理后的数据按所述目标存储格式存储至所述目标数据库。
当目标数据库的种类时多种时,可以将处理后的数据分类存储至不同的目标数据库中。例如,一部分处理后的数据存储至关系型数据库中以关系型数据存储,另一部分处理后的数据存储至分布式文件数据库中以分布式文件存储。
或者,可以根据处理后的数据生成副本,一份处理后数据以关系型数据存储至关系型数据库中,一份处理后数据的副本以分布式文件格式存储至分布式文件数据库中。
通过本申请实施例提供的方案,能将处理后的数据以相应格式存储至相匹配的数据库中,避免在存储过程中由于格式转换而丢失数据,优化存储的数据质量。
基于上述任一实施例提供的方案,可选的,如图5所示,本实施例提供的方法还包括:
S51:监听根据所述预处理策略处理所述待存储数据的处理状态。
监听的处理状态例如可以包括处理是否完成、处理进度、梳理是否正常等。
S52:当监听到所述处理状态异常时,获取处理状态异常的待存储数据。
导致处理状态异常的原因可能有一种或多种,本步骤获取处理状态异常的待存储数据,在随后的步骤中对处理状态异常的待存储数据执行优化的处理步骤,从而避免处理状态异常。
S53:确定所述预处理策略中的多个预处理步骤分别对应的预设优先级。
预处理策略中包括的多个预处理步骤中包括导致处理状态异常的步骤,本方案确定各个预处理步骤的预设优先级,用于随后对预处理策略进行优化,以避免执行导致处理状态异常的步骤。
上述预设优先级可以是预先由人工设定的,也可以是根据历史数据处理记录生成的。预设优先级可以表征数据处理的步骤的重要程度,也可以表征数据处理步骤导致数据的处理状态异常的可能性。其中,导致数据的处理状态异常的可能性越高,则预设优先级越低。
可选的,对于基于动态加载模式的流式模块化处理流程,数据处理顺序优先基于预处理策略中的步骤顺序执行,功能层面可以通过后续模块配置条件选择基于前序模块输出配置结果来约束数据处理模块前后顺序,在程序层面可以通过增加数据处理逻辑校验方式,约束数据处理模块矛盾时,判断以前序模块优先级高。若后续模块未匹配条件则不执行该后续模块,若后续模块报错则可以将处理状态异常的数据抛入非标准化数据池,以便针对出现异常的数据做其他处理。
S54:根据多个预处理步骤分别对应的预设优先级生成优化后的预处理策略,所述优化后的预处理策略包括优先级高于预设优先级的至少一个数据预处理策略。
基于上述步骤确定的各个预处理步骤对应的预设优先级对预处理策略进行优化,以得到优化后的预处理策略。优化后的预处理策略中的与处理步骤的优先级高于预设优先级,这使优化后的预处理策略导致处理状态异常的可能性降低。
S55:根据优化后的预处理策略处理所述待存储数据。
通过优化后的预处理策略处理待存储数据,能降低待存储数据处理过程中出现处理状态异常的可能性,优化处理后的数据质量。
另外,为了优化数据处理步骤,优化处理后的数据质量,本实施例还提供针对于预处理策略的优化步骤。在确定预处理策略的过程中,由于灵活的模块化配置能力,可能导致在功能层面无法约束对同一类数据配置同类数据处理模块。本方案中识别预处理策略中相同的预处理步骤,并对相同的预处理步骤执行模块化归并,避免进行两次模块载入,优化处理步骤。
本方案实施例提供的方案能开放模块接口,可定制添加数据分析和处理模块以适应更多类型的源数据,能进行多种场景的数据流分析,能可个性化配置方案。
为了解决现有技术中的问题,本申请实施例还提供一种数据存储装置60,如图6a所示,包括:
接收模块61,接收数据存储请求和与所述数据存储请求匹配的待存储数据;
第一确定模块62,确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;
第二确定模块63,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;
处理模块64,根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。
可选的,所述第一确定模块62用于:
将所述待存储数据转换为具有目标数据格式的待存储数据,所述目标数据格式与所述待存储数据的数据类型相匹配;
根据所述具有目标数据格式的待存储数据确定所述待存储数据的数据特征;
其中,第二确定模块63用于:
确定与所述待存储数据的数据特征和所述目标数据格式相匹配的预处理策略和目标数据库。
可选的,第二确定模块63用于:
确定与所述待存储数据的数据特征匹配的多个预处理步骤;
根据所述数据特征确定所述多个预处理步骤的执行顺序;
根据所述多个预处理步骤和所述执行顺序确定所述预处理策略。
可选的,所述处理模块64用于:
确定与所述处理后的数据相匹配的目标存储格式,所述目标存储格式包括关系型数据格式、分布式文件格式、分布式全文检索格式中的至少一项;
将所述处理后的数据按所述目标存储格式存储至所述目标数据库。
可选的,所述预处理策略包括以下至少一项预处理步骤:
异常数据清洗步骤、缺失数据补全步骤、数据格式转换步骤、同类数据归并步骤、数据合法性校验步骤。
可选的,如图6b所示,本实施例提供的装置还包括:
监听模块65,监听根据所述预处理策略处理所述待存储数据的处理状态;
获取模块66,当监听到所述处理状态异常时,获取处理状态异常的待存储数据;
第三确定模块67,确定所述预处理策略中的多个预处理步骤分别对应的预设优先级;
优化模块68,根据多个预处理步骤分别对应的预设优先级生成优化后的预处理策略,所述优化后的预处理策略包括优先级高于预设优先级的至少一个数据预处理策略;
优化处理模块69,根据优化后的预处理策略处理所述待存储数据。
在本申请实施例中,通过接收数据存储请求和与所述数据存储请求匹配的待存储数据;确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。本方案能针对待存储数据的特征确定相匹配的预处理策略,从而保证对数据执行的预处理步骤符合待存储数据的特征,优化存储的数据质量。
为了解决现有技术中的问题,本申请实施例还提供一种数据存储系统,如图7a所示,包括:
如上述任一实施例所述的数据存储装置71;
与所述数据存储装置71通信连接的至少一个数据源端72,所述数据源端72用于向所述数据存储装置传输待存储数据;
与所述数据存储装置71通信连接的至少一个数据库73,所述数据库73用于存储所述数据存储装置71预处理后的待存储数据。
本发明基于流式模块化构建大数据数据处理系统,能通过灵活的数据处理模块配置、流式顺序设定、处理动态加载等提供更多灵活的数据处理手段,并提供处理优先算法保障灵活数据处理配置过程中高效、高质量的处理能力,以支撑上层对数据的复杂应用需求。
参见图7b,本实施例提供的数据存储装置71中可以包括分布式消息总线,用于对数据源端流入的待存储数据执行数据筛选、数据标准化等步骤,具体可以动态加载数据清洗模块、数据补全模块、数据转换模块、数据归并模块等功能性模块对待存储数据顺序执行处理,并将处理后的数据根据数据类型、数据特征或实际需求以关系型数据、分布式检索数据、分布式文件数据中的一种或多种数据类型存储至数据库,优化存储的数据质量。
优选的,本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种数据存储方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种数据存储方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种数据存储方法,其特征在于,包括:
接收数据存储请求和与所述数据存储请求匹配的待存储数据;
确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;
确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;
根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。
2.如权利要求1所述的方法,其特征在于,确定所述待存储数据的数据特征,包括:
将所述待存储数据转换为具有目标数据格式的待存储数据,所述目标数据格式与所述待存储数据的数据类型相匹配;
根据所述具有目标数据格式的待存储数据确定所述待存储数据的数据特征;
其中,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,包括:
确定与所述待存储数据的数据特征和所述目标数据格式相匹配的预处理策略和目标数据库。
3.如权利要求1所述的方法,其特征在于,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,包括:
确定与所述待存储数据的数据特征匹配的多个预处理步骤;
根据所述数据特征确定所述多个预处理步骤的执行顺序;
根据所述多个预处理步骤和所述执行顺序确定所述预处理策略。
4.如权利要求1所述的方法,其特征在于,根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库,包括:
确定与所述处理后的数据相匹配的目标存储格式,所述目标存储格式包括关系型数据格式、分布式文件格式、分布式全文检索格式中的至少一项;
将所述处理后的数据按所述目标存储格式存储至所述目标数据库。
5.如权利要求1~4任一项所述的方法,其特征在于,所述预处理策略包括以下至少一项预处理步骤:
异常数据清洗步骤、缺失数据补全步骤、数据格式转换步骤、同类数据归并步骤、数据合法性校验步骤。
6.如权利要求1所述的方法,其特征在于,还包括:
监听根据所述预处理策略处理所述待存储数据的处理状态;
当监听到所述处理状态异常时,获取处理状态异常的待存储数据;
确定所述预处理策略中的多个预处理步骤分别对应的预设优先级;
根据多个预处理步骤分别对应的预设优先级生成优化后的预处理策略,所述优化后的预处理策略包括优先级高于预设优先级的至少一个数据预处理策略;
根据优化后的预处理策略处理所述待存储数据。
7.一种数据存储装置,其特征在于,包括:
接收模块,接收数据存储请求和与所述数据存储请求匹配的待存储数据;
第一确定模块,确定所述待存储数据的数据特征,所述数据特征表征所述待存储数据的数据格式特征和/或数据内容特征;
第二确定模块,确定与所述待存储数据的数据特征相匹配的预处理策略和目标数据库,其中,所述预处理策略包括顺序排列的多个预处理步骤;
处理模块,根据所述预处理策略处理所述待存储数据以得到处理后的数据,并将所述处理后的数据存储至所述目标数据库。
8.一种数据存储系统,其特征在于,包括:
如权利要求7所述的数据存储装置;
与所述数据存储装置通信连接的至少一个数据源端,所述数据源端用于向所述数据存储装置传输待存储数据;
与所述数据存储装置通信连接的至少一个数据库,所述数据库用于存储所述数据存储装置预处理后的待存储数据。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
CN202011406605.2A 2020-12-04 2020-12-04 一种数据存储方法、装置和系统 Pending CN114595219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011406605.2A CN114595219A (zh) 2020-12-04 2020-12-04 一种数据存储方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011406605.2A CN114595219A (zh) 2020-12-04 2020-12-04 一种数据存储方法、装置和系统

Publications (1)

Publication Number Publication Date
CN114595219A true CN114595219A (zh) 2022-06-07

Family

ID=81813486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011406605.2A Pending CN114595219A (zh) 2020-12-04 2020-12-04 一种数据存储方法、装置和系统

Country Status (1)

Country Link
CN (1) CN114595219A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309780A (zh) * 2022-06-13 2022-11-08 目人(苏州)医学科技有限公司 医学临床数据预处理方法、系统、设备及存储介质
CN115481166A (zh) * 2022-08-08 2022-12-16 北京永信至诚科技股份有限公司 一种数据存储方法、装置、电子设备及计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309780A (zh) * 2022-06-13 2022-11-08 目人(苏州)医学科技有限公司 医学临床数据预处理方法、系统、设备及存储介质
CN115481166A (zh) * 2022-08-08 2022-12-16 北京永信至诚科技股份有限公司 一种数据存储方法、装置、电子设备及计算机存储介质
CN115481166B (zh) * 2022-08-08 2024-06-18 永信至诚科技集团股份有限公司 一种数据存储方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN111866016B (zh) 日志的分析方法及系统
CN108183916A (zh) 一种基于日志分析的网络攻击检测方法及装置
CN112183782B (zh) 故障工单处理方法及设备
CN114595219A (zh) 一种数据存储方法、装置和系统
CN111970236A (zh) 跨网数据传输方法和装置
CN116303290B (zh) 一种office文档检测方法及装置、设备及介质
CN112398867A (zh) 黑白名单限制实现方法、平台、计算机设备及存储介质
CN112363907A (zh) Dubbo接口的测试方法、装置、电子装置和存储介质
KR20200066428A (ko) 행위 기반 룰 처리 장치 및 그 처리 방법
CN117725594A (zh) 智能合约的多重复合检测方法、装置、设备及存储介质
CN113094243B (zh) 节点性能检测方法和装置
CN112688947B (zh) 基于互联网的网络通信信息智能监测方法及系统
CN111752600B (zh) 代码异常检测方法、装置、计算机设备及存储介质
CN116781389B (zh) 一种异常数据列表的确定方法、电子设备及存储介质
CN116595529B (zh) 一种信息安全检测方法、电子设备及存储介质
CN116010600B (zh) 日志分类方法、装置、设备及介质
CN117556809B (zh) 参数校验结果生成方法及装置、校验平台及存储介质
CN116881880B (zh) 时空数据管理系统及时空数据服务化资源协同调度方法
CN113672910B (zh) 安全事件处理方法及装置
US20040102999A1 (en) Validating an electronic transaction
CN116170514B (zh) 一种用于中台业务的服务策略调用实现方法及系统
TWI820961B (zh) 基於微服務及公雲元件處理情資的電子裝置及方法
CN111144086B (zh) 一种日志格式化方法及装置、电子设备、存储介质
CN115225342B (zh) 漏洞扫描方法、装置、系统、电子装置和存储介质
US11894981B1 (en) Systems and methods for generating soar playbooks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination