CN112231133A - 一种数据修复处理方法、装置及电子设备 - Google Patents

一种数据修复处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112231133A
CN112231133A CN202011115261.XA CN202011115261A CN112231133A CN 112231133 A CN112231133 A CN 112231133A CN 202011115261 A CN202011115261 A CN 202011115261A CN 112231133 A CN112231133 A CN 112231133A
Authority
CN
China
Prior art keywords
data
information
abnormal data
model
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011115261.XA
Other languages
English (en)
Other versions
CN112231133B (zh
Inventor
孙云
储宇晗
郑申俊
陆克贤
江易
王鸿儒
田甜
俞山青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chinaoly Technology Co ltd
Original Assignee
Hangzhou Chinaoly Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chinaoly Technology Co ltd filed Critical Hangzhou Chinaoly Technology Co ltd
Priority to CN202011115261.XA priority Critical patent/CN112231133B/zh
Publication of CN112231133A publication Critical patent/CN112231133A/zh
Application granted granted Critical
Publication of CN112231133B publication Critical patent/CN112231133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请提供一种数据修复处理方法、装置及电子设备,涉及数据处理技术领域。该方法可以包括:获取异常数据的信息,该异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,该关联信息用于表征发生异常的数据位置;将该异常数据的信息输入数据修复模型,得到该异常数据对应的修复后数据。应用本申请实施例,可以提高对异常数据进行修复时的处理效率。

Description

一种数据修复处理方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据修复处理方法、装置及电子设备。
背景技术
随着互联网时代的高速发展,各行各业产生的数据量越来越多,人们为了获取数据中的价值往往需要对数据进行许多处理。在数据处理的过程中,往往会存在异常数据的现象。
目前,为了在数据处理过程中对存在的异常数据进行修复,往往需要工作人员学习相关行业知识去寻找该异常数据最初出现错误的位置,并且,还需要采用人工的方式对该异常数据进行修复。
然而,发现该异常数据最初出现错误的位置是需要工作人员耗费一定的时间学习相关行业知识,并且,还需要采用人工的方式对该异常数据进行修复,这样会导致对异常数据进行修复时的处理效率降低。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种数据处理方法、装置及电子设备,可以提高对异常数据进行修复时的处理效率。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种数据修复处理方法,所述方法包括:
获取异常数据的信息,所述异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,所述关联信息用于表征发生异常的数据位置;
将所述异常数据的信息输入数据修复模型,得到所述异常数据对应的修复后数据。
可选地,所述将所述异常数据的信息输入数据修复模型,得到所述异常数据对应的修复后数据,包括:
将所述异常数据的信息输入数据修复模型,由所述数据修复模型基于所述异常数据的发生步骤信息以及所述异常数据的关联信息对所述异常数据进行修复,得到所述异常数据对应的修复后数据。
可选地,所述将所述异常数据的信息输入数据修复模型,由所述数据修复模型基于所述异常数据的发生步骤信息以及所述异常数据的关联信息对所述异常数据进行修复,得到所述异常数据对应的修复后数据,包括:
将所述异常数据的信息输入数据修复模型,由所述数据修复模型将所述异常数据的发生步骤信息以及所述异常数据的关联信息输入目标策略函数,得到所述目标策略函数输出的修复信息,并根据所述修复信息得到所述异常数据对应的修复后数据。
可选地,所述将所述异常数据的信息输入数据修复模型之前,还包括:
基于预设的训练样本,对初始修复模型进行训练,得到所述数据修复模型。
可选地,所述基于预设的训练样本,对初始修复模型进行训练,得到所述数据修复模型,包括:
获取至少一个训练样本,其中,所述训练样本至少包括:样本的发生步骤信息以及样本的关联信息;
将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,得到所述初始修复模型输出的修复信息,所述修复信息用于标识对所述样本的修复操作;
根据所述修复信息,修正所述初始修复模型的参数。
可选地,所述根据所述修复信息,修正所述初始修复模型的参数,包括:
确定所述修复信息对应的操作得分;
根据所述操作得分,修正所述初始修复模型的参数。
可选地,所述根据所述操作得分,修正所述初始修复模型的参数,包括:
根据所述操作得分,确定目标价值函数的输出结果;
根据所述目标价值函数的输出结果,修正所述初始修复模型的参数。
可选地,所述将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,得到所述初始修复模型输出的修复信息,包括:
将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,由所述初始修复模型将所述样本的发生步骤信息以及样本的关联信息输入初始策略函数中,得到所述初始策略函数输出的修复信息。
第二方面,本申请实施例提供了一种数据修复处理装置,所述装置包括:
第一获取模块,用于获取异常数据的信息,所述异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,所述关联信息用于表征发生异常的数据位置;
第一输入模块,用于将所述异常数据的信息输入数据修复模型,得到所述异常数据对应的修复后数据。
可选地,所述第一输入模块,具体用于将所述异常数据的信息输入数据修复模型,由所述数据修复模型基于所述异常数据的发生步骤信息以及所述异常数据的关联信息对所述异常数据进行修复,得到所述异常数据对应的修复后数据。
可选地,所述第一输入模块,还具体用于将所述异常数据的信息输入数据修复模型,由所述数据修复模型将所述异常数据的发生步骤信息以及所述异常数据的关联信息输入目标策略函数,得到所述目标策略函数输出的修复信息,并根据所述修复信息得到所述异常数据对应的修复后数据。
可选地,所述装置还包括:
训练模块,用于基于预设的训练样本,对初始修复模型进行训练,得到所述数据修复模型。
可选地,所述装置还包括:
第二获取模块,用于获取至少一个训练样本,其中,所述训练样本至少包括:样本的发生步骤信息以及样本的关联信息;
第二输入模块,用于将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,得到所述初始修复模型输出的修复信息,所述修复信息用于标识对所述样本的修复操作;
修正模块,用于根据所述修复信息,修正所述初始修复模型的参数。
可选地,所述装置还包括:
确定模块,用于确定所述修复信息对应的操作得分;
相应的,所述修正模块,还具体用于根据所述操作得分,修正所述初始修复模型的参数。
可选地,所述修正模块,还具体用于根据所述操作得分,确定目标价值函数的输出结果;根据所述目标价值函数的输出结果,修正所述初始修复模型的参数。
可选地,所述第二输入模块,具体用于将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,由所述初始修复模型将所述样本的发生步骤信息以及样本的关联信息输入初始策略函数中,得到所述初始策略函数输出的修复信息。
本申请的有益效果是:
本申请实施例提供一种数据修复处理方法、装置及电子设备,该方法包括:获取异常数据的信息,该异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,该关联信息用于表征发生异常的数据位置;将该异常数据的信息输入数据修复模型,得到该异常数据对应的修复后数据。采用本申请实施例提供的上述数据修复处理方法,可以通过预先训练好的数据修复模型,对异常数据信息进行分析,在分析的过程中,可以找到该异常数据最初出现错误的位置,并且,还可以采用自动的方式对该异常数据进行修复,避免了需要工作人员耗费一定的时间学习相关行业知识去寻找该异常数据最初出现错误的位置,以及需要采用人工的方式对该异常数据进行修复,这样可以提高对异常数据进行修复时的处理效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据修复处理方法的流程示意图;
图2为本申请实施例提供的另一种数据修复处理方法的流程示意图;
图3为本申请实施例提供的一种数据修复模型训练方法的流程示意图;
图4为本申请实施例提供的另一种数据修复模型训练方法的流程示意图;
图5为本申请实施例提供的一种数据修复处理装置的结构示意图;
图6为本申请实施例提供的一种数据修复模型训练装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1为本申请实施例提供的一种数据修复处理方法的流程示意图。如图1所述,该方法可以包括:
S101、获取异常数据的信息。
其中,该异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,该关联信息用于表征发生异常的数据位置。可选地,该异常数据的信息可以是在数据处理过程中监测到数据异常时,实时对该数据异常现象进行描述,形成对应的异常数据的发生步骤信息以及该异常数据的关联信息。该异常数据的信息也可以是当数据处理过程中监测到数据异常时,从该数据处理的流程模型中的步骤得到的代码库中查找出和当前数据异常现象对应的异常数据的发生步骤信息以及该异常数据的关联信息,需要说明的是,本申请不对其进行限定。其中,该数据处理的流程模型包括该数据处理的每个步骤中输入、输出的数据(如数据文件信息)以及每个步骤对该数据的操作内容(如对两个数据文件中的内容进行比较),在已知该数据处理的流程中每个步骤涉及的内容以及该数据处理中共有的文件个数后,可以得到该代码库,该代码库中可存储有该数据处理过程中所有可能出现数据异常的现象。
需要说明的是,不管采用上述哪种方式获取到异常数据的发生步骤信息以及异常数据的关联信息,具体都可以采用以下的形式描述。已知该数据处理过程中包含的数据文件个数、每个数据文件中的字段个数、每个字段中的数据个数以及可能发生数据异常的异常类型个数,在上述信息已知的情况下,可以分别对上述信息进行编号,如该数据处理过程中包含的数据文件个数为100个,那么可以对第1号数据文件编号为1、第2号数据文件编号为2……后面的以此类推,每个数据文件中的字段个数、每个字段中的数据个数以及可能发生数据异常的异常类型个数同理,这里不再解释。
上述数据异常现象可以用这些编号的组合,形成不同的代码进行描述,即该异常数据的发生步骤信息以及该异常数据的关联信息都可以用这些编号的组合形成的代码进行表示,也就是说,可以采用代码的形式对数据异常现象进行描述。其中,该异常数据的发生步骤信息可以采用以下的代码信息(也可以称为状态代码)进行表示。示例性的,该异常数据的发生步骤信息所对应的状态代码可以为5位,第一位可表示数据处理过程中是否有数据异常(1为有异常,0为无异常),第二位表示当前数据处理位置(步骤)是否有异常(1为有异常,0为无异常),第三位表示当前所在的处理位置编号(第几个步骤),第四位表示当前处理位置的文件总数(该步骤下有几个数据文件),第五位表示上一个发生异常的处理位置。
举例来说,假设数据异常现象为当前数据处理过程中还存在着异常数据,但是当前处理位置没有异常数据,当前数据处理位置为3(正在执行第3步骤),有12个处理的数据文件(第3步骤下有12个需要处理的数据文件),上一个发生异常数据的处理位置编号为5,则其对应的状态代码(异常数据的发生步骤信息)可以表示为[1,0,3,12,5]。
该异常数据的关联信息可以采用以下的代码信息(也可以称为异常代码)进行表示,该异常代码用于表征发生异常的数据位置,即具体是哪个数据文件发生了异常数据。示例性的,该异常数据的关联信息所对应的异常代码可以为9位,第一位可表示发生异常的数据文件编号(如果为0,则表示该步骤下所有数据文件中的信息都为异常;如果不为0,则表示对应编号的数据文件中的信息为异常),第二位可表示异常字段编号(如果为0表示该数据文件下所有字段的数据都为异常),第三位可表示异常内容编号(如果为0,则表示该字段下所有数据都为异常),第四位可表示异常类型编号(异常类型可以有例如空值(编号为1)、与另一文件相比的同一字段的同一数据不同、异常数据类型等可以根据实际的数据流图修改异常类型(编号为3)),第五位可表示该数据文件是否有对照文件,第六位可表示该对照文件所处的处理位置编号,第七位可表示该对照文件在所处处理位置的文件编号,第八位可表示该文件下的字段编号(如果为0,则表示该文件下所有字段的数据都为对照字段),第九位可表示该文件字段下的内容编号(如果为0,则表示该字段下所有数据都为对照内容)。
举例来说,假设数据异常现象为该步骤下第10号数据文件的第3个字段的第210个数据发生了异常类型3的异常,和异常数据对照的文件位于第4处理位置上第1个文件的第三个字段的第210个数据,则其对应的异常代码(异常数据的关联信息)可以表示为[10,3,210,3,1,4,1,3,210]。
需要说明的是,可以在数据处理过程中监测到数据异常时,实时根据预设的编号内容自动生成与该数据异常现象对应的状态代码以及异常代码,也可以是在建立该数据处理的流程模型后,根据预设的编号内容自动生成与所有可能出现的数据异常现象对应的状态代码以及异常代码,并将产生的所有状态代码存储在该代码库中的状态代码库中,将产生的所有异常代码存储在该代码库中的异常代码库中。当然,用户也可以根据实际情况,在存储器中添加和/或修改数据异常的异常类型以及编号,因为一般情况下,最初获取到的都是一些基础的数据异常形象,为了完善数据异常形象的类型,可以在后期工作中添加和/或修改数据异常的异常类型以及编号,如发生不符如年龄字段下出现一些无关文字、两个不同数据文件中同一个ID下的相同字段的内容不同(如两个文件中一个有相同身份证号的人的性别信息不同)等数据异常现象,这样可以提高对异常数据进行修复的处理效率。
S102、将该异常数据的信息输入数据修复模型,得到该异常数据对应的修复后数据。
上述数据修复模型可以是预先训练好的数据修复模型,模型训练的过程将在下述实施例中详细说明。
在一种可实现的实施例中,在数据处理过程中监测到有数据异常现象时,可以生成该数据异常现象对应的异常数据信息,即上述的异常代码(异常数据的发生步骤信息)和状态代码(异常数据的关联信息),将该异常代码和该状态代码输入到预先训练好的数据修复模型中,得到所述异常数据对应的修复后数据。
在另一种可实现的实施例中,在数据处理过程中监测到有数据异常现象时,可以从异常代码库和状态代码库中查找出和该数据异常现象对应的异常数据信息(异常代码和状态代码),并将该异常数据信息输入到预先训练好的数据修复模型中,得到所述异常数据对应的修复后数据。
需要说明的是,上述提到的数据处理过程中监测到数据异常,可以是用户自报错误得到的数据异常,也可以是在数据处理过程中,两个相同的数据发生冲突时监测到的数据异常,本申请不对其进行限定。
综上所述,本申请提供的数据修复处理方法中,获取异常数据的信息,该异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,该关联信息用于表征发生异常的数据位置;将该异常数据的信息输入数据修复模型,得到该异常数据对应的修复后数据。采用本申请实施例提供的上述数据修复处理方法,可以通过预先训练好的数据修复模型,对异常数据信息进行分析,在分析的过程中,可以找到该异常数据最初出现错误的位置,并且,还可以采用自动的方式对该异常数据进行修复,避免了需要工作人员耗费一定的时间学习相关行业知识去寻找该异常数据最初出现错误的位置,以及需要采用人工的方式对该异常数据进行修复,这样可以提高对异常数据进行修复时的处理效率。
图2为本申请实施例提供的另一种数据修复处理方法的流程示意图,如图2所示,可选地,上述将该异常数据的信息输入数据修复模型,得到该异常数据对应的修复后数据,可包括:
S201、将该异常数据的信息输入数据修复模型,由该数据修复模型基于该异常数据的发生步骤信息以及该异常数据的关联信息对该异常数据进行修复,得到该异常数据对应的修复后数据。
一种可选方式中,该数据修复模型可以将上述异常数据的发生步骤信息以及上述异常数据的关联信息输入目标策略函数,得到目标策略函数输出的修复信息,并根据该修复信息得到异常数据对应的修复后数据。
其中,将该异常数据的信息输入到该数据修复模型中的输入层,该输入层再将该异常数据的信息输入到目标策略函数中,其中,该目标策略函数具体可以表示为:π(a|e,s;θ)=P(A=a|E=e,S=s;θ)
其中,π表示目标策略函数,E表示异常代码,S表示状态代码,A表示行动代码,P(A=a|E=e,S=s;θ)表示当前输入的异常代码E为e,状态代码S为s时,输出的行动代码A为a的概率,θ表示需要训练的参数。
在该目标策略函数接收到该异常数据的信息中的异常代码以及状态代码后,会输出修复信息,该修复信息可以用修复代码(也可以称为行动代码)进行表示。也就是说,可以采用代码的形式对异常数据的修复过程进行描述。示例性的,该修复信息对应的修复代码可以为11位,第一位可表示当前的处理位置是否移动(1表示移动,0表示不移动),第二位可表示移动的目标处理位置编号,第三位可表示是否处理该目标处理位置上的数据文件(1表示处理,0表示不处理),第四位表示处理该目标处理位置中数据文件的编号,第五位表示处理的数据文件字段的编号(如果为0表示处理该数据文件下所有字段的数据),第六位表示处理的数据文件字段内容的编号(如果为0表示处理该字段下所有的数据),第七位表示处理的方法编号(例如1表示删除,2表示替换,3表示修改数据类型等),第八位表示处理所需的数据文件在处理位置下的文件编号(为0表示无需其他文件),第九位表示处理所需的数据文件位于的处理位置编号,第十位表示处理所需的数据文件编码下的字段编号(如果为0表示处理该字段下所有的数据),第十一位表示处理所需的数据文件字段下具体内容的编号(如果为0表示处理该字段下所有的数据),其中,第七位表示的处理的方法类型可以根据实际情况具体设置,本申请不对其进行限定。
举例来说,假设该修复代码为[1,12,1,33,15,0,2,7,10,8,0],则该修复代码将当前处理位置移动到12号目标处理位置,将该目标处理位置下第33号数据文件的第15个字段中所有内容替换为处理位置10下第7号数据文件中的第8个字段中的内容。
需要说明的是,可以预先在代码库中的行动代码库中存储该数据处理过程中的多个修复行为信息。当该目标策略函数得出的行动代码中有小数时,可以从该行动代码库中选取最接近的行动代码对该目标策略函数得出的行动代码进行修订,这样可以提高对异常数据进行修复的处理精度。
该数据修复模型在得到该行动代码后,就可以根据该行动代码具体指代的修复行动去行动,从而得到一个新的异常代码和一个新的状态代码,根据该新的状态代码中的第一位判断是否继续对该异常数据进行修复,如果其第一位为0,则表示该异常数据已被完全修复,如果其第一位为1,则表示该异常数据还没有被完全修复,继续将该新的异常代码和该新的状态代码输入到该目标策略函数中,直到得到的状态代码中的第一位为0(数据处理过程中无异常),这样就代表着找到了导致发生该异常数据的真正位置。当状态代码中第一位为0时,按照数据修复模型此时所得到的行动代码行动,在可以得到异常数据对应的修复后数据。
以下对数据修复模型的训练过程进行说明。
上述图1中数据修复模型可以采用下述方式进行训练,当然,也可以采用其他的方式进行训练,这里只是作为一个示例进行说明。具体的训练过程可以用图3表示。图3为本申请实施例提供的一种数据修复模型训练方法的流程示意图,如图3所示,可选地,在上述图1中的步骤102之前,该方法还包括:
S301、基于预设的训练样本,对初始修复模型进行训练,得到该数据修复模型。
具体的,根据实际要求,可以从上述状态代码以及异常代码库中提取出状态代码以及异常代码作为训练样本,当然也可以随机从上述状态代码以及异常代码库中提取出状态代码以及异常代码作为训练样本,需要说明的是,本申请不对训练样本的具体内容进行限定。当然,本申请也不对该训练样本的个数进行限定。在获取到训练样本后,可以将获取到的训练样本输入到该初始修复模型中,对该初始修复模型进行训练,根据预设的停止条件(例如,针对所有的训练样本,新生成的状态代码中的第一位是否为0,如果为0,则停止对该初始修复模型的训练),判断是否对该初始修复模型的停止训练,如果满足该预设的停止条件,则得到的训练后的初始修复模型就为数据修复模型,这样可以使该数据修复模型在针对不同的状态代码以及异常代码时,可以对生成最优的行动代码,快速的对该异常数据进行修复。
值得说明的是,在初始修复模型满足上述预设的停止条件之前,初始修复模型可以经过多轮循环的训练,每一轮训练所使用的模型参数均为经过上一轮修正后的参数。以下实施例所描述的为其中一轮训练时的处理过程。
图4为本申请实施例提供的另一种数据修复模型训练方法的流程示意图,如图4所示,该方法还包括:
S401、获取至少一个训练样本。
S402、将该样本的发生步骤信息以及样本的关联信息输入到该初始修复模型中,得到该初始修复模型输出的修复信息,该修复信息用于标识对该样本的修复操作。
其中,该训练样本至少包括:样本的发生步骤信息以及样本的关联信息;可以从上述状态代码库中提取该样本的发生步骤信息,也就是样本的状态代码,同理,也可以从上述异常代码库中提取该样本的关联信息,也就是样本的异常代码,需要说明的是,本申请不对作为训练样本的状态代码个数、异常类型以及作为训练样本的异常代码个数、异常类型进行限定。
可将作为训练样本的状态代码以及异常代码输入到该初始修复模型中的初始策略函数中,该初始策略函数对该样本的状态代码以及该样本的异常代码进行分析,输出修复信息,即修复代码(行动代码)。当该初始策略函数得出的行动代码中有小数时,可以从该行动代码库中选取最接近的行动代码对该目标策略函数得出的行动代码进行修订,这样可以提高对异常数据进行修复的处理精度。
该初始修复模在得到该修复信息后,就可以根据该修复信息具体指代的修复操作对该样本进行修复,从而得到一个新的异常代码和一个新的状态代码,根据该新的状态代码中的第一位判断是否继续对该样本进行修复,如果其第一位为0,则表示该样本已被完全修复,如果其第一位为1,则表示该样本还没有被完全修复。
S403、根据该修复信息,修正该初始修复模型的参数。
可选的,可以确定修复信息的操作得分,并根据该操作得分修正初始修复模型的参数。
在该样本还没有被完全修复时,需要对该初始修复模型中的初始策略函数中的参数进行修订。具体的修订过程如下:上述提到的训练样本中除了样本的发生步骤信息以及样本的关联信息外,还包括异常数据(样本)实际发生错误的位置信息。假设在t步骤时,该初始修复模型输出的修复信息(行动代码)中的第一位不为0,则根据该样本中的实际发生错误的位置信息以及本次该修复信息所指示的修复操作得到的位置信息进行对比,得到操作得分。表1中的内容为和对比结果相匹配的操作得分情况,比如,如果t步骤生成的行动代码表示向实际发生异常的位置移动,则其操作得分可以为(500),如果t步骤生成的行动代码表示远离实际发生异常的位置移动,则其操作得分可以为(-500),其他内容类似。需要说明的是,本申请不对对比结果的具体内容以及操作得分的具体数值进行限定,可以根据实际情况,对该表1中的内容进行修订。
表1
Figure BDA0002727778340000161
Figure BDA0002727778340000171
在一种实施例中,可以直接采用本次(t步骤)的操作得分对该初始修订模型进行修订。在另一种实施例中,可以将本次(t步骤)的操作得分(Rt)和以前步骤对应的操作得分(Rt-n)累加后,得到总的操作得分(Ut)对该初始修订模型进行修订,这样可以提高对该初始修复模型的训练效率。其中,总的操作得分(Ut)公式如下,γ为常数(取值在0和1之间的任何一个数),n等于(t-1)。
Ut=Rt+γRt-12Rt-2+…γnRt-n
不管是根据本次的操作得分修订该初始待修订模型的参数,还是根据总的操作得分修订该初始待修订模型的参数,都可以得到最后的数据修复模型。
可选地,上述根据该操作得分,修正初始修复模型的参数,包括:根据该操作得分,确定目标价值函数的输出结果;根据该目标价值函数的输出结果,修正该初始修复模型的参数。
具体的,在获取到操作得分(Ut)后,可以根据下式确定t步骤时对应的目标价值函数Qπ(s,a,e):
Qπ(s,a,e)=E[Ut|St=s,At=a,Et=e]
其中,St表示在t步骤下的状态代码,Et表示在t步骤下的异常代码,At表示在t步骤下的行动代码,E[Ut|St=s,At=a,Et=e]表示t步骤下输入的异常代码Et为e,状态代码St为s,输出的行动代码At为a的目标价值。
在获取到该目标价值函数的输出结果后,可以对该目标价值函数求导:
Figure BDA0002727778340000181
其中,θ表示该初始策略函数中的参数。
然后再根据该目标价值函数求导结果dθ,t,对该初始策略函数求梯度:g(a,θ)=Qπ(s,a,e)*dθ,t
最后可根据该初始策略函数求梯度结果g(a,θ)以及当前(t步骤)对应的初始策略函数中的参数(θt)求解执行下个步骤(t+1)时所对应的初始策略函数中的参数(θt+1),(θt+1)即为本轮训练中对初始修复模型修正后的参数。求解θt+1公式如下:
θt+1=θt+β*g(a,θ)
其中,β为学习率。
图5为本申请实施例提供的一种数据修复处理装置的结构示意图。如图5所述,该装置可以包括:
第一获取模块501,用于获取异常数据的信息;
第一输入模块502,用于将该异常数据的信息输入数据修复模型,得到该异常数据对应的修复后数据。
可选地,第一输入模块502,具体用于将该异常数据的信息输入数据修复模型,由该数据修复模型基于该异常数据的发生步骤信息以及该异常数据的关联信息对该异常数据进行修复,得到该异常数据对应的修复后数据。
可选地,第一输入模块502,还具体用于将该异常数据的信息输入数据修复模型,由该数据修复模型将所述异常数据的发生步骤信息以及该异常数据的关联信息输入目标策略函数,得到该目标策略函数输出的修复信息,并根据该修复信息得到该异常数据对应的修复后数据。
可选地,该装置还包括:训练模块,用于基于预设的训练样本,对初始修复模型进行训练,得到所述数据修复模型。
图6为本申请实施例提供的一种数据修复模型训练装置的结构示意图,如图6所示,该装置包括:
第二获取模块601,用于获取至少一个训练样本;
第二输入模块602,用于将该样本的发生步骤信息以及样本的关联信息输入到该初始修复模型中,得到该初始修复模型输出的修复信息,该修复信息用于标识对该样本的修复操作;
修正模块603,用于根据所述修复信息,修正所述初始修复模型的参数。
可选地,所述装置包括:确定模块,用于确定所述修复信息对应的操作得分;相应的,修正模块603,还具体用于根据所述操作得分,修正所述初始修复模型的参数。
可选地,修正模块603,还具体用于根据所述操作得分,确定目标价值函数的输出结果;根据所述目标价值函数的输出结果,修正所述初始修复模型的参数。
第二输入模块602,具体用于将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,由所述初始修复模型将所述样本的发生步骤信息以及样本的关联信息输入初始策略函数中,得到所述初始策略函数输出的修复信息。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示,该故障检测设备可以包括:处理器701、存储介质702和总线703,存储介质702存储有处理器701可执行的机器可读指令,当电子设备运行时,处理器701与存储介质702之间通过总线703通信,处理器701执行机器可读指令,以执行上述数据修复处理方法的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述数据修复处理方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种数据修复处理方法,其特征在于,所述方法包括:
获取异常数据的信息,所述异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,所述关联信息用于表征发生异常的数据位置;
将所述异常数据的信息输入数据修复模型,得到所述异常数据对应的修复后数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述异常数据的信息输入数据修复模型,得到所述异常数据对应的修复后数据,包括:
将所述异常数据的信息输入数据修复模型,由所述数据修复模型基于所述异常数据的发生步骤信息以及所述异常数据的关联信息对所述异常数据进行修复,得到所述异常数据对应的修复后数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述异常数据的信息输入数据修复模型,由所述数据修复模型基于所述异常数据的发生步骤信息以及所述异常数据的关联信息对所述异常数据进行修复,得到所述异常数据对应的修复后数据,包括:
将所述异常数据的信息输入数据修复模型,由所述数据修复模型将所述异常数据的发生步骤信息以及所述异常数据的关联信息输入目标策略函数,得到所述目标策略函数输出的修复信息,并根据所述修复信息得到所述异常数据对应的修复后数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述异常数据的信息输入数据修复模型之前,还包括:
基于预设的训练样本,对初始修复模型进行训练,得到所述数据修复模型。
5.根据权利要求4所述的方法,其特征在于,所述基于预设的训练样本,对初始修复模型进行训练,得到所述数据修复模型,包括:
获取至少一个训练样本,其中,所述训练样本至少包括:样本的发生步骤信息以及样本的关联信息;
将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,得到所述初始修复模型输出的修复信息,所述修复信息用于标识对所述样本的修复操作;
根据所述修复信息,修正所述初始修复模型的参数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述修复信息,修正所述初始修复模型的参数,包括:
确定所述修复信息对应的操作得分;
根据所述操作得分,修正所述初始修复模型的参数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述操作得分,修正所述初始修复模型的参数,包括:
根据所述操作得分,确定目标价值函数的输出结果;
根据所述目标价值函数的输出结果,修正所述初始修复模型的参数。
8.根据权利要求5-7任一项所述的方法,其特征在于,所述将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,得到所述初始修复模型输出的修复信息,包括:
将所述样本的发生步骤信息以及样本的关联信息输入到所述初始修复模型中,由所述初始修复模型将所述样本的发生步骤信息以及样本的关联信息输入初始策略函数中,得到所述初始策略函数输出的修复信息。
9.一种数据修复处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取异常数据的信息,所述异常数据的信息至少包括:异常数据的发生步骤信息以及异常数据的关联信息,所述关联信息用于表征发生异常的数据位置;
第一输入模块,用于将所述异常数据的信息输入数据修复模型,得到所述异常数据对应的修复后数据。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-8任一所述方法的步骤。
CN202011115261.XA 2020-10-16 2020-10-16 一种数据修复处理方法、装置及电子设备 Active CN112231133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011115261.XA CN112231133B (zh) 2020-10-16 2020-10-16 一种数据修复处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011115261.XA CN112231133B (zh) 2020-10-16 2020-10-16 一种数据修复处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112231133A true CN112231133A (zh) 2021-01-15
CN112231133B CN112231133B (zh) 2023-06-30

Family

ID=74117385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011115261.XA Active CN112231133B (zh) 2020-10-16 2020-10-16 一种数据修复处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112231133B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799870A (zh) * 2021-02-24 2021-05-14 上海数禾信息科技有限公司 实现数据修复的数据处理方法和装置
CN113535449A (zh) * 2021-07-08 2021-10-22 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN116269450A (zh) * 2023-03-21 2023-06-23 苏州海臻医疗器械有限公司 一种基于肌电信号的患者肢体康复状态评估系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159809A (zh) * 2015-09-29 2015-12-16 杭州华为数字技术有限公司 基于状态机故障定位方法以及装置
CN109408320A (zh) * 2018-09-03 2019-03-01 中国平安人寿保险股份有限公司 前端开发异常处理方法、装置、计算机设备和存储介质
CN109902832A (zh) * 2018-11-28 2019-06-18 华为技术有限公司 机器学习模型的训练方法、异常预测方法及相关装置
CN110178121A (zh) * 2017-09-06 2019-08-27 富璟科技(深圳)有限公司 一种数据库的检测方法及其终端
CN111522704A (zh) * 2020-03-04 2020-08-11 平安科技(深圳)有限公司 告警信息处理方法、装置、计算机装置及存储介质
CN111597093A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 一种异常处理方法、装置及其设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159809A (zh) * 2015-09-29 2015-12-16 杭州华为数字技术有限公司 基于状态机故障定位方法以及装置
CN110178121A (zh) * 2017-09-06 2019-08-27 富璟科技(深圳)有限公司 一种数据库的检测方法及其终端
CN109408320A (zh) * 2018-09-03 2019-03-01 中国平安人寿保险股份有限公司 前端开发异常处理方法、装置、计算机设备和存储介质
CN109902832A (zh) * 2018-11-28 2019-06-18 华为技术有限公司 机器学习模型的训练方法、异常预测方法及相关装置
CN111597093A (zh) * 2019-02-20 2020-08-28 阿里巴巴集团控股有限公司 一种异常处理方法、装置及其设备
CN111522704A (zh) * 2020-03-04 2020-08-11 平安科技(深圳)有限公司 告警信息处理方法、装置、计算机装置及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799870A (zh) * 2021-02-24 2021-05-14 上海数禾信息科技有限公司 实现数据修复的数据处理方法和装置
CN113535449A (zh) * 2021-07-08 2021-10-22 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN113535449B (zh) * 2021-07-08 2024-05-03 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN116269450A (zh) * 2023-03-21 2023-06-23 苏州海臻医疗器械有限公司 一种基于肌电信号的患者肢体康复状态评估系统及方法
CN116269450B (zh) * 2023-03-21 2023-12-19 苏州海臻医疗器械有限公司 一种基于肌电信号的患者肢体康复状态评估系统及方法

Also Published As

Publication number Publication date
CN112231133B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN112231133A (zh) 一种数据修复处理方法、装置及电子设备
CN109918100B (zh) 一种面向版本缺陷的基于修复模式的修复推荐方法
CN116401464B (zh) 一种职业用户画像的构建方法、装置、设备及存储介质
CN111783460A (zh) 一种企业简称提取方法、装置、计算机设备及存储介质
Borkowski et al. Challenges faced in modern quality inspection
CN113343677A (zh) 一种意图识别方法、装置、电子设备及存储介质
CN112528633A (zh) 文本纠错方法、装置、电子设备及计算机可读存储介质
CN108984777B (zh) 客户服务方法、装置和计算机可读存储介质
CN114911999A (zh) 一种名称匹配方法和装置
CN117372424B (zh) 一种缺陷检测方法、装置、设备及存储介质
CN114638501A (zh) 一种业务数据处理方法、装置、计算机设备及存储介质
Lee et al. Capturing green information and mapping with MES functions for increasing manufacturing sustainability
Schuh et al. Event log-based weaknesses detection in business processes
CN115660451A (zh) 基于rpa的供应商风险预警方法、装置、设备及介质
CN115049084B (zh) 基于区块链的故障设备溯源方法、装置、设备及存储介质
CN111754103A (zh) 企业风险画像方法、装置、计算机设备和可读存储介质
Hübner et al. Evaluation of techniques to detect wrong interaction based trace links
CN112685277A (zh) 警告信息检查方法、装置、电子设备和可读存储介质
CN112035364A (zh) 功能测试结果评估方法及装置
Wang et al. Beyond Pareto Analysis: A Decision Support Model for the Prioritization of Deviations with Natural Language Processing
JP2008117280A (ja) ソフトウェアソースコードの検索方法及びシステム
US20230325847A1 (en) Automated document auditing method and system
Agarwal et al. Software metrics for assessing reusability of component based software system
CN114817929B (zh) 物联网漏洞动态追踪和处理方法、装置、电子设备及介质
CN113378907B (zh) 增强数据预处理过程的自动化软件可追踪性恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant