CN114780370A - 基于日志的数据修正方法、装置、电子设备及存储介质 - Google Patents

基于日志的数据修正方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114780370A
CN114780370A CN202210505209.8A CN202210505209A CN114780370A CN 114780370 A CN114780370 A CN 114780370A CN 202210505209 A CN202210505209 A CN 202210505209A CN 114780370 A CN114780370 A CN 114780370A
Authority
CN
China
Prior art keywords
data
log
field
stock
backtracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210505209.8A
Other languages
English (en)
Inventor
张炫铤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202210505209.8A priority Critical patent/CN114780370A/zh
Publication of CN114780370A publication Critical patent/CN114780370A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种基于日志的数据修正方法,包括:获取数据源内的存量数据,以及获取所述存量数据对应的操作日志;判断所述操作日志是否为完整字段日志;当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;利用所述回溯数据对所述存量数据进行修正,得到修正数据。此外,本发明还涉及区块链技术,存量数据可存储于区块链的节点。本发明还提出一种基于日志的数据修正装置、设备及介质。本发明可以提高采集到的数据整体质量。

Description

基于日志的数据修正方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于日志的数据修正方法、装置、电子设备及计算机可读存储介质。
背景技术
随着大数据技术浪潮掀起,越来越多企业投身于数字化转型,采集企业各个业务系统或渠道数据构建数据湖、数据仓库进行企业智能化经营分析,为企业提供决策信息,数字化驱动公司业务。而数据湖或数据仓库所采集数据与数据源内记载的数据是否一致,对后续数据分析起着关键影响。
当前数据采集方案一般使用Sqoop、DataX等工具,进行离线采集,其中,离线增量采集方案有一种天然缺陷,也就是强依赖于时间字段,当数据源不按规则更新时间字段值时,就会出现漏数或多数情况,进而造成采集到的数据不够精确,实时性较低,因此,导致采集到的数据整体质量不高。
发明内容
本发明提供一种基于日志的数据修正方法、装置及计算机可读存储介质,其主要目的在于解决采集到的数据整体质量不高的问题。
为实现上述目的,本发明提供的一种基于日志的数据修正方法,包括:
获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
判断所述操作日志是否为完整字段日志;
当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
利用所述回溯数据对所述存量数据进行修正,得到修正数据。
可选地,所述获取所述存量数据对应的操作日志,包括:
获取预设数据源中所述存量数据对应的日志生成请求;
对所述日志抓取请求进行操作日志地址解析,得到所述存量数据对应的后台操作日志地址;
利用所述后台操作日志地址对所述存量数据的操作日志进行抓取。
可选地,所述对所述日志抓取请求进行操作日志地址解析,得到所述存量数据对应的后台操作日志地址,包括:
遍历所述日志生成请求并确定所述日志生成请求中字段分隔符的位置;
根据所述字段分隔符的位置对所述日志生成请求进行字段拆分,得到多个拆分字段;
按照拆分顺序将所述多个拆分字段进行序号标注;
选取预设序号的拆分字段为所述目标数据字段;
对所述目标数据字段进行字段解析,得到所述存量数据对应的后台操作日志地址。
可选地,所述判断所述操作日志是否为完整字段日志,包括:
对所述操作日志内的每一步操作进行空值字段提取;
若所述操作日志内的每一步操作均可提取出控制字段,确定所述操作日志不是完整字段日志;
若所述操作日志内的存在操作步骤无法提取出控制字段,确定所述操作日志是完整字段日志。
可选地,所述利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据,包括:
逐个选取所述操作日志的操作步骤中其中一个操作步骤的结果为目标结果;
将所述目标结果在所述操作日志内对应的原始数据在所述存量数据内进行检索,得到所述原始数据对应的存量数据;
确定所述目标结果为所述原始数据对应的存量数据的回溯数据。
可选地,所述利用所述存量数据对所述操作日志进行字段补全,包括:
逐个从所述操作日志中选取其中一个操作步骤为目标步骤;
对所述目标步骤进行字段分割,得到操作字段;
识别所述操作字段内的主键字段;
确定所述主键字段在所述存量数据中对应的值为原始字段值,并将所述原始字段值补入所述目标步骤内。
可选地,所述利用所述回溯数据对所述存量数据进行修正,得到修正数据,包括:
逐个从所述回溯数据中选取其中一个回溯数据,确定被选取的回溯数据对应的存量数据为待修正数据;
检索出在所述存量数据内所有包含所述待修正数据的待修正字段;
利用所述回溯数据对每个所述待修正字段内的待修正数据进行替换,得到修正数据。
为了解决上述问题,本发明还提供一种基于日志的数据修正装置,所述装置包括:
日志获取模块,用于获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
类型判断模块,用于判断所述操作日志是否为完整字段日志;
第一回溯模块,用于当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
第二回溯模块,用于当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
数据修正模块,用于利用所述回溯数据对所述存量数据进行修正,得到修正数据。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于日志的数据修正方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于日志的数据修正方法。
本发明实施例能够将视频截取成一张张图片,可以从视频中快速导出高分辨率的照片,也可以使上传的视频显示一张不黑屏不模糊旋转角度正常的预览图片,点击预览图片后进行视频播放,客户体检更佳。对于本案中产品的上传功能,可以提供接口,接收视频和其他配置参数,用户可以调整自己需要的参数从而个性化其所需要的图片。因此本发明提出的基于日志的数据修正方法、装置、电子设备及计算机可读存储介质,可以采集到的数据整体质量不高的问题。
附图说明
图1为本发明一实施例提供的基于日志的数据修正方法的流程示意图;
图2为本发明一实施例提供的存量数据包含的数据表的示意图;
图3为本发明一实施例提供的对数据表进行操作的操作记录表的示意图;
图4为本发明一实施例提供的更新后的数据表的示意图;
图5为本发明一实施例提供的完整字段日志的示意图;
图6为本发明一实施例提供的对数据表内部分字段进行操作的操作记录表的示意图;
图7为本发明一实施例提供的对数据表内部分字段进行操作得到的完整数据记录的示意图;
图8为本发明一实施例提供的非完整字段日志的示意图;
图9为本发明一实施例提供的基于日志的数据修正装置的功能模块图;
图10为本发明一实施例提供的实现所述基于日志的数据修正方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于日志的数据修正方法。所述基于日志的数据修正方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于日志的数据修正方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于日志的数据修正方法的流程示意图。在本实施例中,所述基于日志的数据修正方法包括:
S1、获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志。
本发明实施例中,所述预设数据源可以为任何预设的数据库(如MySql数据库、Oracle数据库或PostgreSQL数据库等)、数据处理系统等具有数据存储功能的软件或硬件。
详细地,可利用具有数据抓取功能的计算机语句(如java语句、python语句等)从预设数据源内抓取该数据源的存量数据,其中,所述存量数据是指该数据源内当前已经存储的数据。
本发明其中一个实际应用场景中,由于数据采集过程中诸多外界因素的影响(如预设数据源内的存量数据在采集时存在着插入、更新或删除等操作),采集到的存量数据与所述预设数据源内存储的数据可能存在不一致的情况,因此,为了实现对该预设数据源内的数据进行精确的采集,可同时获取所述存量数据对应的操作日志,进而便于后续对所述操作日志进行分析,以实现对采集到的存量数据进行回溯修正,得到所述预设数据源内的精确的数据。
本发明实施例中,所述获取所述存量数据对应的操作日志,包括:
获取预设数据源中所述存量数据对应的日志生成请求;
对所述日志抓取请求进行操作日志地址解析,得到所述存量数据对应的后台操作日志地址;
利用所述后台操作日志地址对所述存量数据的操作日志进行抓取。
详细地,所述日志生成请求是预设数据源的后台系统在生成操作日志时自动生成的数据请求或对MySql数据库、Oracle数据库或PostgreSQL数据库开启DML操作日志。
本发明实施使用ASM增强字节码过滤器获取预设数据源中所述存量数据对应的日志生成请求,所述ASM增强字节码过滤器是一款基于java字节码层面的代码分析工具,利用ASM增强字节码过滤器对日志生成请求进行监测并获取,可提高日志生成请求获取的成功率。
具体地,所述对所述日志抓取请求进行操作日志地址解析,得到所述存量数据对应的后台操作日志地址,包括:
遍历所述日志生成请求并确定所述日志生成请求中字段分隔符的位置;
根据所述字段分隔符的位置对所述日志生成请求进行字段拆分,得到多个拆分字段;
按照拆分顺序将所述多个拆分字段进行序号标注;
选取预设序号的拆分字段为所述目标数据字段;
对所述目标数据字段进行字段解析,得到所述存量数据对应的后台操作日志地址。
例如,数据打包请求为“qwe<rt<yuio<pl”,其中,<为字段分隔符,则按照数据打包请求中字段分隔符的位置将数据打包请求进行字段拆分为:“qwe”、“rt”、“yuio”和“pl”四个拆分字段,并按照拆分顺序将多个拆分字段进行序号标注为:1“qwe”、2“rt”、3“yuio”和4“pl”,例如,预设序号为2,则确定字段“rt”为目标数据字段。
一般情况下,日志生成请求中每个字段的位置是固定的,因此,可通过预设序号的筛选,得到标识后台系统对应的后台操作日志地址的目标字段。
进一步地,本发明实施例中可利用解析器对所述目标数据字段进行字段解析,得到所述存量数据对应的后台操作日志地址,所述解析器包括CarakanC/C++,SquirrelFishC++和SquirrelFishExtremeC++等。
本发明其他实施例中,还可用过预设的日志采集组件对所述存量数据对应的操作日志进行采集,其中,所述日志采集组件包括但不限于:Flume组件、Logstash组件和Filebeat组件。
S2、判断所述操作日志是否为完整字段日志。
本发明其中一个实际应用场景中,所述操作日志往往可被分为完整字段日志和非完整字段日志(部分字段日志),其中,所述完整字段日志内记载了对所述存量数据进行操作的完整过程,所述非完整日志内记载了对所述存量数据进行操作的结果,因此,为了实现利用所述操作日志对所述存量数据的回溯修正,需针对性的对完整字段日志和非完整字段日志进行分析。
本发明实施例中,所述判断所述操作日志是否为完整字段日志,包括:
对所述操作日志内的每一步操作进行空值字段提取;
若所述操作日志内的每一步操作均可提取出控制字段,确定所述操作日志不是完整字段日志;
若所述操作日志内的存在操作步骤无法提取出控制字段,确定所述操作日志是完整字段日志。
详细地,由于非完整字段日志是对所述存量数据的每一次操作步骤的结果的记录,因此,所述非完整字段日志内记录的每一步操作步骤中均包含空值字段,即对操作对象原始状态的省略,因此,可对所述操作日志内的每一步操作进行空值字段提取,进而根据所述控制字段对该操作日志是否为完整字段日志进行判断。
具体地,可利用具有特定字段提取功能的java语句对所述操作日志内的每一步操作进行空值字段提取,或者,还可利用预先构建的规则表达式对所述操作日志内的每一步操作进行空值字段提取,其中,所述规则表达式为预先编译得到的可对特定格式字段进行提取的语句。
S3、当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据。
本发明实施例中,当所述操作日志时完整字段日志时,由于所述完整字段日志内记载了对所述存量数据进行操作的所有步骤,因此,可直接对所述操作日志进行分析,以实现了对所述存量数据的数据回溯,得到回溯数据,其中,所述数据回溯是指按照所述操作日志内的操作结果对所述存量数据中的数据进行替换,以找出所述存量数据中每一个数据的真实值。
本发明实施例中,所述利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据,包括:
逐个选取所述操作日志的操作步骤中其中一个操作步骤的结果为目标结果;
将所述目标结果在所述操作日志内对应的原始数据在所述存量数据内进行检索,得到所述原始数据对应的存量数据;
确定所述目标结果为所述原始数据对应的存量数据的回溯数据。
示例性地,如图2所示,所述存量数据内包括一张名为invent_sample数据表,其中,该数据表包含id(主键)、name、patent、update_time等4个字段,并已有3条数据记录。
现对上述数据表执行如图3所示的操作。
即,2021-01-13 10:21:15执行操作:更新图2中invent_sample数据表中主键(id)为3的数据的patent字段为'Lili-NO.1patent';2021-01-13 11:15:22执行操作:在invent_sample数据表中插入主键(id)为4的数据,且该主键(id)为4的数据的id(主键)、name、patent、update_time四个字段的值依次分别为:4,‘Tim’,'Tim-NO.6patent','2021-01-13 11:15:22';2021-01-13 12:05:34执行操作:删除invent_sample数据表中主键(id)为1的数据;2021-01-1312:16:15执行操作:更新invent_sample数据表中主键(id)为3的数据的patent字段为'Lili-NO.2patent'。
可知,invent_sample数据表更新后的数据表如图4所示。
进一步地,可知,按照上述操作步骤,得到的完整字段日志如图5所示。
其中,"before"后的字段用于记录invent_sample数据表内的修改前存量数据,"after"后的字段用于记录invent_sample数据表内的存量数据执行图2内的操作后生成的数据;position字段用于记录数据数据操作顺序;op_type为数据操作类型,例如(insert/update/delete)。
详细地,由于所述操作日志是完整字段日志,因此,所述操作日志内记载了对所述存量数据进行操作的所有步骤,即可按照所述操作日志的操作结果对所述存量数据中与所述操作结果不同的数据进行替换,得到回溯数据。
例如,参图6所示,invent_sample数据表中,主键(id)为3的数据有图6内记载的两次操作。
进而,根据所述完整字段日志中记载的操作步骤可知,主键(id)为3的数据中利用after字段值替换before对应字段值得到完整数据记录,如图7所示。
S4、当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回S3。
本发明实施例中,当所述操作日志不是完整字段日志时,所述操作日志内记载的多为操作的结果,因此,无法直接知晓每一个操作结果在所述存量数据中对应的原始数据是什么,进而无法直接利用所述操作日志对所述存量数据进行数据回溯。
详细地,无论是对所述存量数据进行更新、插入、删除等操作中任一项或多项操作,该不完整字段的操作日志中每一次操作记录内均会包含被操作对象的部分内容,因此,可根据该操作日志的每一步操作内与所述存量字段的重复字段对所述操作日志进行字段补全。
本发明实施例中,所述利用所述存量数据对所述操作日志进行字段补全,包括:
逐个从所述操作日志中选取其中一个操作步骤为目标步骤;
对所述目标步骤进行字段分割,得到操作字段;
识别所述操作字段内的主键字段;
确定所述主键字段在所述存量数据中对应的值为原始字段值,并将所述原始字段值补入所述目标步骤内。
示例性地,因此,按照S3内图4的操作步骤,得到的非完整字段日志如图8所示。
其中,"after"后的字段用于记录invent_sample数据表内的存量数据执行图2的操作后生成的数据,"before"为空值字段,其空值省略的内容为"after"后的字段在invent_sample数据表内的存量数据。
例如,操作步骤1的结果为:
{{"patent":"Lili-NO.1patent"},"position":1,"op_type":"update"}
可知,对上述结果进行字段分割后,可识别出上述结果中的主键字段为NO.1,因此,可知该操作步骤是对存量数据内主键为1的数据进行的操作,即存量数据内主键为1的数据的值为原始字段值,可将所述原始字段值补入图8内步骤1中"before"后方。
本发明实施例中,当所述操作日志内所有操作步骤均完成字段补全操作,所述操作日志即为完整字段日志,因此,可返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤进行处理,得到回溯数据。
S5、利用所述回溯数据对所述存量数据进行修正,得到修正数据。
本发明其中一个实际应用场景中,由于所述回溯数据是根据操作日志分析得到的每个存量数据的最终操作结果,因此,可利用所述回溯数据对所述存量数据进行修正,得到修正数据。
本发明实施例中,所述利用所述回溯数据对所述存量数据进行修正,得到修正数据,包括:
逐个从所述回溯数据中选取其中一个回溯数据,确定被选取的回溯数据对应的存量数据为待修正数据;
检索出在所述存量数据内所有包含所述待修正数据的待修正字段;
利用所述回溯数据对每个所述待修正字段内的待修正数据进行替换,得到修正数据。
本发明其他实施例中,还可利用SQL内的CREATE INDEX语句检索出在所述存量数据内所有包含所述待修正数据的待修正数据记录,进而按照所述待修正数据记录对所述待修正数据进行修正,得到修正数据。
本发明其他实施例中,还可通过关联(Join)方式根据所述回溯数据和所述存量数据进行全量数据修正,以修正所述存量数据集内的错误数据,得到修正数据。
本发明其他实施例中,还可通过开窗窗口计算如(row_number)形式对所述存量数据进行全量数据,得到修正数据。
本发明其他实施例中,还可利用数据湖组件,如Apache Iceberg/Apache Hudi/DeltaLake等组件提供的upsert/update/delete能力对所述存量数据内存在错误的数据进行流式、微批、离线修正全量数据等操作进行修正,得到修正数据。
进而利用所述回溯数据对每个待修正字段进行替换,以将每个待修正字段按照操作日志的操作修正为正确的结果,实现对数据的修正。
本发明实施例能够将视频截取成一张张图片,可以从视频中快速导出高分辨率的照片,也可以使上传的视频显示一张不黑屏不模糊旋转角度正常的预览图片,点击预览图片后进行视频播放,客户体检更佳。对于本案中产品的上传功能,可以提供接口,接收视频和其他配置参数,用户可以调整自己需要的参数从而个性化其所需要的图片。因此本发明提出的基于日志的数据修正方法,可以采集到的数据整体质量不高的问题。
如图9所示,是本发明一实施例提供的基于日志的数据修正装置的功能模块图。
本发明所述基于日志的数据修正装置100可以安装于电子设备中。根据实现的功能,所述基于日志的数据修正装置100可以包括日志获取模块101、类型判断模块102、第一回溯模块103、第二回溯模块104及数据修正模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述日志获取模块101,用于获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
所述类型判断模块102,用于判断所述操作日志是否为完整字段日志;
所述第一回溯模块103,用于当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
所述第二回溯模块104,用于当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
所述数据修正模块105,用于利用所述回溯数据对所述存量数据进行修正,得到修正数据。
详细地,本发明实施例中所述基于日志的数据修正装置100中所述的各模块在使用时采用与上述图1至图8中所述的基于日志的数据修正方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图10所示,是本发明一实施例提供的实现基于日志的数据修正方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于日志的数据修正程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于日志的数据修正程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于日志的数据修正程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于日志的数据修正程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
判断所述操作日志是否为完整字段日志;
当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
利用所述回溯数据对所述存量数据进行修正,得到修正数据。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
判断所述操作日志是否为完整字段日志;
当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
利用所述回溯数据对所述存量数据进行修正,得到修正数据。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于日志的数据修正方法,其特征在于,所述方法包括:
获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
判断所述操作日志是否为完整字段日志;
当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
利用所述回溯数据对所述存量数据进行修正,得到修正数据。
2.如权利要求1所述的基于日志的数据修正方法,其特征在于,所述获取所述存量数据对应的操作日志,包括:
获取预设数据源中所述存量数据对应的日志生成请求;
对所述日志抓取请求进行操作日志地址解析,得到所述存量数据对应的后台操作日志地址;
利用所述后台操作日志地址对所述存量数据的操作日志进行抓取。
3.如权利要求2所述的基于日志的数据修正方法,其特征在于,所述对所述日志抓取请求进行操作日志地址解析,得到所述存量数据对应的后台操作日志地址,包括:
遍历所述日志生成请求并确定所述日志生成请求中字段分隔符的位置;
根据所述字段分隔符的位置对所述日志生成请求进行字段拆分,得到多个拆分字段;
按照拆分顺序将所述多个拆分字段进行序号标注;
选取预设序号的拆分字段为所述目标数据字段;
对所述目标数据字段进行字段解析,得到所述存量数据对应的后台操作日志地址。
4.如权利要求1所述的基于日志的数据修正方法,其特征在于,所述判断所述操作日志是否为完整字段日志,包括:
对所述操作日志内的每一步操作进行空值字段提取;
若所述操作日志内的每一步操作均可提取出控制字段,确定所述操作日志不是完整字段日志;
若所述操作日志内的存在操作步骤无法提取出控制字段,确定所述操作日志是完整字段日志。
5.如权利要求1所述的基于日志的数据修正方法,其特征在于,所述利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据,包括:
逐个选取所述操作日志的操作步骤中其中一个操作步骤的结果为目标结果;
将所述目标结果在所述操作日志内对应的原始数据在所述存量数据内进行检索,得到所述原始数据对应的存量数据;
确定所述目标结果为所述原始数据对应的存量数据的回溯数据。
6.如权利要求1所述的基于日志的数据修正方法,其特征在于,所述利用所述存量数据对所述操作日志进行字段补全,包括:
逐个从所述操作日志中选取其中一个操作步骤为目标步骤;
对所述目标步骤进行字段分割,得到操作字段;
识别所述操作字段内的主键字段;
确定所述主键字段在所述存量数据中对应的值为原始字段值,并将所述原始字段值补入所述目标步骤内。
7.如权利要求1至6中任一项所述的基于日志的数据修正方法,其特征在于,所述利用所述回溯数据对所述存量数据进行修正,得到修正数据,包括:
逐个从所述回溯数据中选取其中一个回溯数据,确定被选取的回溯数据对应的存量数据为待修正数据;
检索出在所述存量数据内所有包含所述待修正数据的待修正字段;
利用所述回溯数据对每个所述待修正字段内的待修正数据进行替换,得到修正数据。
8.一种基于日志的数据修正装置,其特征在于,所述装置包括:
日志获取模块,用于获取预设数据源内的存量数据,以及获取所述存量数据对应的操作日志;
类型判断模块,用于判断所述操作日志是否为完整字段日志;
第一回溯模块,用于当所述操作日志是完整字段日志时,利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据;
第二回溯模块,用于当所述操作日志不是完整字段日志时,利用所述存量数据对所述操作日志进行字段补全,并返回利用所述操作日志对所述存量数据进行数据回溯,得到回溯数据的步骤;
数据修正模块,用于利用所述回溯数据对所述存量数据进行修正,得到修正数据。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于日志的数据修正方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于日志的数据修正方法。
CN202210505209.8A 2022-05-10 2022-05-10 基于日志的数据修正方法、装置、电子设备及存储介质 Pending CN114780370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210505209.8A CN114780370A (zh) 2022-05-10 2022-05-10 基于日志的数据修正方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210505209.8A CN114780370A (zh) 2022-05-10 2022-05-10 基于日志的数据修正方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114780370A true CN114780370A (zh) 2022-07-22

Family

ID=82436116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210505209.8A Pending CN114780370A (zh) 2022-05-10 2022-05-10 基于日志的数据修正方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114780370A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129494A (zh) * 2022-08-31 2022-09-30 浙江工业大学 一种基于Windows内核的事件日志采集方法及系统
CN115757302A (zh) * 2022-10-28 2023-03-07 支付宝(杭州)信息技术有限公司 一种数据分析的方法、装置、设备及存储介质
CN117520313A (zh) * 2024-01-02 2024-02-06 北京淇瑀信息科技有限公司 基于多维关联数据仓库切片表的数据回溯方法及装置
CN117668069A (zh) * 2023-11-21 2024-03-08 上海金仕达卫宁软件科技有限公司 针对商保可回溯系统的数据加工存储方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129494A (zh) * 2022-08-31 2022-09-30 浙江工业大学 一种基于Windows内核的事件日志采集方法及系统
CN115757302A (zh) * 2022-10-28 2023-03-07 支付宝(杭州)信息技术有限公司 一种数据分析的方法、装置、设备及存储介质
CN117668069A (zh) * 2023-11-21 2024-03-08 上海金仕达卫宁软件科技有限公司 针对商保可回溯系统的数据加工存储方法和系统
CN117520313A (zh) * 2024-01-02 2024-02-06 北京淇瑀信息科技有限公司 基于多维关联数据仓库切片表的数据回溯方法及装置
CN117520313B (zh) * 2024-01-02 2024-03-26 北京淇瑀信息科技有限公司 基于多维关联数据仓库切片表的数据回溯方法及装置

Similar Documents

Publication Publication Date Title
CN114780370A (zh) 基于日志的数据修正方法、装置、电子设备及存储介质
CN113283446A (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN112883042A (zh) 数据更新及展示方法、装置、电子设备及存储介质
CN112506910A (zh) 多源数据采集方法、装置、电子设备及存储介质
CN114138784A (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
CN113282854A (zh) 数据请求响应方法、装置、电子设备及存储介质
CN113886204A (zh) 用户行为数据收集方法、装置、电子设备及可读存储介质
CN112486532A (zh) 配置文件的管理方法、装置、电子设备及存储介质
CN115525235B (zh) 一种基于存储结构的数据运算方法及系统
CN111538768A (zh) 基于n元模型的数据查询方法、装置、电子设备及介质
CN107544894A (zh) 一种日志处理的方法、装置及服务器
CN115409041A (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
CN113347451B (zh) 视频上传方法、装置、电子设备及计算机可读存储介质
CN115145870A (zh) 失败任务原因定位方法、装置、电子设备及存储介质
CN114357337A (zh) 缓存管理方法、装置、设备及存储介质
CN113419951A (zh) 人工智能模型优化方法、装置、电子设备及存储介质
CN112527655A (zh) 软件版本质量异常检测方法、装置、电子设备及存储介质
CN113380414A (zh) 基于大数据的数据采集方法及系统
CN113360505B (zh) 基于时序数据的数据处理方法、装置、电子设备及可读存储介质
CN115002100B (zh) 文件传输方法、装置、电子设备及存储介质
CN114595153A (zh) 基于自动化测试的视频生成方法、装置、设备及存储介质
CN115237981A (zh) 基于用户行为分析的数据采集方法、装置、设备及介质
CN115629978A (zh) 埋点自动化测试方法、装置、电子设备及存储介质
CN116089525A (zh) 同步任务日志收集及可视化检索方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination