CN114861912B - 一种基于大数据的数据验证方法和装置 - Google Patents

一种基于大数据的数据验证方法和装置 Download PDF

Info

Publication number
CN114861912B
CN114861912B CN202210789447.6A CN202210789447A CN114861912B CN 114861912 B CN114861912 B CN 114861912B CN 202210789447 A CN202210789447 A CN 202210789447A CN 114861912 B CN114861912 B CN 114861912B
Authority
CN
China
Prior art keywords
verification
data
submodel
data set
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210789447.6A
Other languages
English (en)
Other versions
CN114861912A (zh
Inventor
吴浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shanchuan Software Co ltd
Original Assignee
Wuhan Shanchuan Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shanchuan Software Co ltd filed Critical Wuhan Shanchuan Software Co ltd
Priority to CN202210789447.6A priority Critical patent/CN114861912B/zh
Publication of CN114861912A publication Critical patent/CN114861912A/zh
Application granted granted Critical
Publication of CN114861912B publication Critical patent/CN114861912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于大数据的数据验证方法和装置,其中,方法包括:通过数据获取子模型获取连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,并对其进行划分为n个临时数据集,然后通过第一验证子模型和第二验证子模型求取其中的转换函数,并采用有监督的方式进行训练,再将训练完成的第一验证子模型和第二验证子模型用于数据验证,从而得到待验证的原始数据集的验证结果。本发明的有益效果:实现了从原始数据到输出数据,以及输出数据到原始数据的双向验证,提高了数据验证的准确性。

Description

一种基于大数据的数据验证方法和装置
技术领域
本发明涉及大数据领域,特别涉及一种基于大数据的数据验证方法和装置。
背景技术
数据是系统重要的资源,保证数据的准确性才能保证系统的准确运行,随着科技的发展,对于数据的正确性验证逐渐被重视起来,目前,数据验证的方式主要是通过单一方向的验算,即从原始数据进行分析,来判断最终的输出结果是否正确,但是目前伪造数据技术也在不断更新,篡改原始数据,一样可以得到最终的输出结果,同理,篡改输出结果,也可能得到对应的原始数据,因此,现有的技术中,不能对一些篡改数据的准确性进行验证。
发明内容
本发明的主要目的为提供一种基于大数据的数据验证方法和装置,旨在解决现有的技术中不能对一些篡改数据的准确性进行验证的问题。
本发明提供了一种基于大数据的数据验证方法,通过数据验证模型实现,所述数据验证模型包括第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接,所述数据验证方法,包括:
S1:所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果;
S2:所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集,其中,所述临时数据集中包括所述原始数据集中的一个原始数据以及对应所述输出数据集中的一个输出数据;
S3:将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;
S4:按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中;
S5:获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;
S6:将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);
S7:根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型;
S8:通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;
S9:将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。
进一步地,将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x)的步骤S6,包括:
S601:所述第一验证子模型通过公式
Figure 708384DEST_PATH_IMAGE001
,得到对应各个原始数据集中原始数据与输出数据的第一转换函数f(x),以及所述第二验证子模型通过公式
Figure 544752DEST_PATH_IMAGE002
,得到对应各个原始数据集中原始数据与输出数据的第二转换函数g(x);其中,
Figure 661744DEST_PATH_IMAGE003
Figure 74883DEST_PATH_IMAGE004
Figure 859300DEST_PATH_IMAGE005
表示基于参数x的计算函数,
Figure 335412DEST_PATH_IMAGE006
表示基于参数x的计算函数,
Figure 205279DEST_PATH_IMAGE007
表示第h个临时数据集中的原始数据,
Figure 896810DEST_PATH_IMAGE008
表示第h个临时数据集中的输出数据,
Figure 535733DEST_PATH_IMAGE009
表示第k个临时数据集中的输出数据,
Figure 448325DEST_PATH_IMAGE008
表示第h个临时数据集中的原始数据,
Figure 805488DEST_PATH_IMAGE010
表示第h+i个临时数据集中的原始数据,
Figure 828939DEST_PATH_IMAGE011
表示第h+i+1个临时数据集中的原始数据,
Figure 53859DEST_PATH_IMAGE012
表示第h+i-1个临时数据集中的原始数据,
Figure 871774DEST_PATH_IMAGE013
表示第k+j个临时数据集中的输出数据,
Figure 388337DEST_PATH_IMAGE014
表示第k+j+1个临时数据集中的输出数据,
Figure 418741DEST_PATH_IMAGE015
表示第k+j-1个临时数据集中的原始数据。
进一步地,所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果的步骤S1,包括:
S101:所述数据获取子模型通过sqoop脚本获取一时间段内各平台数据的第一原始数据以及对应的第一输出数据,以及各个第一原始数据、所述第一输出数据的平台,以及知识图谱;其中,所述知识图谱包括各个所述第一原始数据与各个第一输出数据的关联关系;
S102:根据所述第一输出数据与各个第一原始数据的关联关系计算各个第一原始数据对应所述第一输出数据的关联值;
S103:根据所述第一输出数据与各个第一原始数据的关联值,提取多个目标原始数据;
S104:根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果。
进一步地,所述根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型的步骤S7,包括:
S701:所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,以及,所述第二验证子模型将各个所述第二转换函数按照所述原始数据集的时间顺序,顺序输入至所述第二验证子模型的各个神经元中,并逆序输入至所述第一验证子模型的各个神经元中;
S702:所述第一验证子模型通过所述第二验证子模型的第二转换参数对第一转换参数进行有监督的训练,所述第二验证子模型通过所述第一验证子模型的第一转换参数对第一转换参数进行有监督的训练,得到所述训练完成的第一验证子模型和第二验证子模型。
进一步地,所述根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型的步骤S7,还包括:
S701、将所述多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,根据预设比例划分为多个训练数据集和多个验证数据集;
S702、将所述多个训练数据输入预设的神经网络模型,并采用有监督学习的方式进行训练处理,以得到第一暂时验证模型和第二暂时验证模型;
S703、采用所述多个验证数据对所述第一暂时验证模型和所述第二暂时验证模型进行验证处理,以得到验证结果;
S704、判断验证结果是否通过;
S705、若验证结果通过,则将暂时验证模型记为训练完成的第一验证子模型和第二验证子模型。
本发明还提供了一种基于大数据的数据验证装置,通过数据验证模型实现,所述数据验证模型包括第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接,所述数据验证装置,包括:
第一获取模块,用于指示实施步骤S1:所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果;
分割模块,用于指示实施步骤S2:所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集,其中,所述临时数据集中包括所述原始数据集中的一个原始数据以及对应所述输出数据集中的一个输出数据;
第一输入模块,用于指示实施步骤S3:将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;
第二输入模块,用于指示实施步骤S4:按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中;
第二获取模块,用于指示实施步骤S5:获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;
求取模块,用于指示实施步骤S6:将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);
训练模块,用于指示实施步骤S7:根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型;
第三获取模块,用于指示实施步骤S8:通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;
第三输入模块,用于指示实施步骤S9:将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。
进一步地,所述求取模块,包括:
求取子模块,用于指示实施步骤S601:所述第一验证子模型通过公式
Figure 781325DEST_PATH_IMAGE016
,得到对应各个原始数据集中原始数据与输出数据的第一转换函数f(x),以及所述第二验证子模型通过公式
Figure 770141DEST_PATH_IMAGE017
,得到对应各个原始数据集中原始数据与输出数据的第二转换函数g(x);其中,
Figure 836317DEST_PATH_IMAGE018
Figure 935991DEST_PATH_IMAGE019
Figure 869925DEST_PATH_IMAGE020
表示基于参数x的计算函数,
Figure 967325DEST_PATH_IMAGE021
表示基于参数x的计算函数,
Figure 192901DEST_PATH_IMAGE022
表示第h个临时数据集中的原始数据,
Figure 568037DEST_PATH_IMAGE023
表示第h个临时数据集中的输出数据,
Figure 31511DEST_PATH_IMAGE024
表示第k个临时数据集中的输出数据,
Figure 703407DEST_PATH_IMAGE023
表示第h个临时数据集中的原始数据,
Figure 885121DEST_PATH_IMAGE025
表示第h+i个临时数据集中的原始数据,
Figure 61018DEST_PATH_IMAGE026
表示第h+i+1个临时数据集中的原始数据,
Figure 963685DEST_PATH_IMAGE027
表示第h+i-1个临时数据集中的原始数据,
Figure 402887DEST_PATH_IMAGE028
表示第k+j个临时数据集中的输出数据,
Figure 134214DEST_PATH_IMAGE029
表示第k+j+1个临时数据集中的输出数据,
Figure 845294DEST_PATH_IMAGE030
表示第k+j-1个临时数据集中的原始数据。
进一步地,所述第一获取模块,包括:
获取子模块,用于指示实施步骤S101:所述数据获取子模型通过sqoop脚本获取一时间段内各平台数据的第一原始数据以及对应的第一输出数据,以及各个第一原始数据、所述第一输出数据的平台,以及知识图谱;其中,所述知识图谱包括各个所述第一原始数据与各个第一输出数据的关联关系;
关联值计算子模块,用于指示实施步骤S102:根据所述第一输出数据与各个第一原始数据的关联关系计算各个第一原始数据对应所述第一输出数据的关联值;
目标原始数据提取子模块,用于指示实施步骤S103:根据所述第一输出数据与各个第一原始数据的关联值,提取多个目标原始数据;
构建子模块,用于指示实施步骤S104:根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果。
进一步地,所述训练模块,包括:
数据输入子模块,用于指示实施步骤S701:所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,以及,所述第二验证子模型将各个所述第二转换函数按照所述原始数据集的时间顺序,顺序输入至所述第二验证子模型的各个神经元中,并逆序输入至所述第一验证子模型的各个神经元中;
训练子模块,用于指示实施步骤S702:所述第一验证子模型通过所述第二验证子模型的第二转换参数对第一转换参数进行有监督的训练,所述第二验证子模型通过所述第一验证子模型的第一转换参数对第一转换参数进行有监督的训练,得到所述训练完成的第一验证子模型和第二验证子模型。
进一步地,所述训练模块,还包括:
划分子模块,用于指示实施步骤S701、将所述多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,根据预设比例划分为多个训练数据集和多个验证数据集;
处理子模块,用于指示实施步骤S702、将所述多个训练数据输入预设的神经网络模型,并采用有监督学习的方式进行训练处理,以得到第一暂时验证模型和第二暂时验证模型;
验证子模块,用于指示实施步骤S703、采用所述多个验证数据对所述第一暂时验证模型和所述第二暂时验证模型进行验证处理,以得到验证结果;
判断子模块,用于指示实施步骤S704、判断验证结果是否通过;
记为子模块,用于指示实施步骤S705、若验证结果通过,则将暂时验证模型记为训练完成的第一验证子模型和第二验证子模型。
本发明的有益效果:通过数据获取子模型获取连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,并对其进行划分为n个临时数据集,然后通过第一验证子模型和第二验证子模型求取其中的转换函数,并采用有监督的方式进行训练,再将训练完成的第一验证子模型和第二验证子模型用于数据验证,从而得到待验证的原始数据集的验证结果。实现了从原始数据到输出数据,以及输出数据到原始数据的双向验证,提高了数据验证的准确性。
附图说明
图1 是本发明一实施例的一种基于大数据的数据验证方法的流程示意图;
图2 是本发明一实施例的一种基于大数据的数据验证装置的结构示意框图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种基于大数据的数据验证方法,通过数据验证模型实现,所述数据验证模型包括第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接,所述数据验证方法,包括:
S1:所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果;
S2:所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集,其中,所述临时数据集中包括所述原始数据集中的一个原始数据以及对应所述输出数据集中的一个输出数据;
S3:将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;
S4:按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中;
S5:获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;
S6:将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);
S7:根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型;
S8:通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;
S9:将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。
需要说明的是,数据验证模型包括了第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接。具体地,第一验证子模型的各个神经元按照顺序依次连接,第一验证子模型中的神经元的数量与第二验证子模型中的神经元的数量相同,第二验证子模块中的各个神经元按照顺序依次连接,第一验证子模型的各个神经元与所述第二验证子模型的各个神经元呈倒序依次连接,举例说明,假设第一验证子模型和第二验证子模型中分别有5个神经元,则第一验证子模型的第一神经元与其第二神经元连接,并且还与第二验证子模型的第五神经元进行连接,此举是为了后续采用有监督的方式进行训练,即通过第二验证子模型的第五神经元的数据对第一验证子模型的第一神经元中的数据进行监督,当然,第一验证子模型的第二神经元则可以通过第一验证子模型的第一神经元和第二验证子模型的第四神经元进行共同监督训练。
如上述步骤S1所述,所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,其中,数据获取子模型获取原始数据集、输出数据集以及对所述一时间段内的人为验证结果的获取方式可以是人为上传至数据获取子模型中,也可以是数据获取子模型通过数据爬取的方式进行获取,其中,通过数据爬取的方式后续有详细说明,此处不再赘述。此外,原始数据集和输出数据集为根据时间变换的一连串的原始数据和输出数据,当然,原始数据可以包括一个或者多个数据,输出数据同样也包括一个或者多个数据,需要说明的是,本申请只针对一些基于时间变化而变化的数据,对于一些单一的数据,或者互不相关的数据,则不在本申请的保护范围内。
如上述步骤S2所述,所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集,其中,所述临时数据集中包括所述原始数据集中的一个原始数据以及对应所述输出数据集中的一个输出数据。其中,由于原始数据集和输出数据集为按照时间变化而变化的一系列数据,因此,将其可以按照时间顺序进行匹配,然后按照预设的步骤分割方法分为n个步骤,此处限定为n个步骤,其相应的在第一验证子模型和第二验证子模型中同样也具备n个神经元,即第一验证子模型具有n个神经元,第二验证子模型同样具有n个神经元,至于步骤的分割方法,可以是将数据进行拆分,若数据的数量大于n,则可以采取对数据合并的方式,若数据的数量小于n,则可以将相邻两个数据进行平均,得到的新数据进行填充,使最终的数量为n,从而分为n个步骤,并得到n个步骤分别对应的临时数据集。
如上述步骤S3-S4所述,将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中。通过数据获取子模型将获取到的临时数据集分别输入至第一验证子模型和第二验证子模型的输入层中,然后第一验证子模型和第二数据验证子模型通过输入层将对应的数据输入至各个神经元中,此举是为了在各个神经元中分别计算各个临时数据集中对应的转换函数。
如上述步骤S5-S6所述,获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);获取多组临时数据集,以便于对各个神经元进行训练,其中人为验证结果为最终的输出值,,需要说明的是,一般而言,一组数据得到的第一转换函数f(x)和第二转换函数g(x)互为反函数,当然,在实际的求取过程中,会有一些误差,此处的只是利用这种特性来进行有监督的训练,从而提高训练精度。
如上述步骤S7所述,根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型。由于前述已经说明了一组数据得到的第一转换函数f(x)和第二转换函数g(x)互为反函数,利用这种特性可以对第一验证子模型和第二验证子模型都进行有监督的训练,具体的训练方式后续有详细说明,此处不再赘述。
如上述步骤S8-S9所述,通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。即通过数据获取子模型获取到待验证的原始数据集,从而根据其对应的验证方式进行验证,得到原始数据集的验证结果,其中需要说明的是,将原始数据集按照步骤S2的方式进行计算,得到对应之前的临时数据集的目标数据集,其计算方式与步骤S2相同,另外验证的方式为比较每个第一转换函数和第二转换函数基于反函数的误差值,然后将各个误差值进行累加,从而得到对应待验证的原始数据集的目标误差值,根据目标误差值与各个验证结果的对应关系,得到最终的验证结果,从而实现了对数据进行双向的验证,并基于第一验证子模型和第二验证子模型的有监督的训练,获取到最终的数据验证模型,从而实现了从原始数据到输出数据,以及输出数据到原始数据的双向验证,提高了数据验证的准确性。
在一个实施例中,将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x)的步骤S6,包括:
S601:所述第一验证子模型通过公式
Figure 345676DEST_PATH_IMAGE031
,得到对应各个原始数据集中原始数据与输出数据的第一转换函数f(x),以及所述第二验证子模型通过公式
Figure 752518DEST_PATH_IMAGE032
,得到对应各个原始数据集中原始数据与输出数据的第二转换函数g(x);其中,
Figure 502299DEST_PATH_IMAGE033
Figure 288508DEST_PATH_IMAGE034
Figure 908977DEST_PATH_IMAGE035
表示基于参数x的计算函数,
Figure 752299DEST_PATH_IMAGE036
表示基于参数x的计算函数,
Figure 455288DEST_PATH_IMAGE037
表示第h个临时数据集中的原始数据,
Figure 776679DEST_PATH_IMAGE038
表示第h个临时数据集中的输出数据,
Figure 517233DEST_PATH_IMAGE039
表示第k个临时数据集中的输出数据,
Figure 298DEST_PATH_IMAGE038
表示第h个临时数据集中的原始数据,
Figure 286241DEST_PATH_IMAGE040
表示第h+i个临时数据集中的原始数据,
Figure 411323DEST_PATH_IMAGE041
表示第h+i+1个临时数据集中的原始数据,
Figure 6384DEST_PATH_IMAGE042
表示第h+i-1个临时数据集中的原始数据,
Figure 925929DEST_PATH_IMAGE043
表示第k+j个临时数据集中的输出数据,
Figure 337931DEST_PATH_IMAGE044
表示第k+j+1个临时数据集中的输出数据,
Figure 1125DEST_PATH_IMAGE030
表示第k+j-1个临时数据集中的原始数据。
如上述步骤S601所述,需要区别的是,上角标上的T,为向量的计算符号,而其他的T则是对应的计算函数,本申请通过公式
Figure 185113DEST_PATH_IMAGE045
和公式
Figure 544069DEST_PATH_IMAGE046
进行计算,分别可以得到输出数据基于原始数据的第二变换函数,以及原始数据基于输出数据的第一变换函数,利用其对应的变换函数互为反函数的特性,后续可以采用有监督的方式进行训练,公式中
Figure 180718DEST_PATH_IMAGE047
Figure 382023DEST_PATH_IMAGE048
为待求取的第一变换函数和第二变换函数,其变换函数可以是任意的一次函数、二次函数、对数函数、多次函数、指数函数等。
在一个实施例中,所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果的步骤S1,包括:
S101:所述数据获取子模型通过sqoop脚本获取一时间段内各平台数据的第一原始数据以及对应的第一输出数据,以及各个第一原始数据、所述第一输出数据的平台,以及知识图谱;其中,所述知识图谱包括各个所述第一原始数据与各个第一输出数据的关联关系;
S102:根据所述第一输出数据与各个第一原始数据的关联关系计算各个第一原始数据对应所述第一输出数据的关联值;
S103:根据所述第一输出数据与各个第一原始数据的关联值,提取多个目标原始数据;
S104:根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果。
如上述步骤S101-S104所述,实现了对第一原始数据和第一输出数据的获取,Sqoop脚本是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。由于数据种类繁多,对于原始数据需要进行筛选,而各个平台中一般存有各个数据之间的知识图谱,因此,可以根据其计算到对于的关联值,从中提取到多个目标原始数据,根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果,其中,获取人为验证结果的方式为将输出数据集和原始数据集呈现在相关人员面前,然后由相关人员进行输入。
在一个实施例中,所述根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型的步骤S7,包括:
S701:所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,以及,所述第二验证子模型将各个所述第二转换函数按照所述原始数据集的时间顺序,顺序输入至所述第二验证子模型的各个神经元中,并逆序输入至所述第一验证子模型的各个神经元中;
S702:所述第一验证子模型通过所述第二验证子模型的第二转换参数对第一转换参数进行有监督的训练,所述第二验证子模型通过所述第一验证子模型的第一转换参数对第一转换参数进行有监督的训练,得到所述训练完成的第一验证子模型和第二验证子模型。
如上述步骤S701-S702所述,具体地,将各个
所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,举例说明,假设第一验证子模型和第二验证子模型中分别有5个神经元,则第一验证子模型的第一神经元与其第二神经元连接,并且还与第二验证子模型的第五神经元进行连接,此举是为了后续采用有监督的方式进行训练,即通过第二验证子模型的第五神经元的数据对第一验证子模型的第一神经元中的数据进行监督,当然,第一验证子模型的第二神经元则可以通过第一验证子模型的第一神经元和第二验证子模型的第四神经元进行共同监督训练。得到所述训练完成的第一验证子模型和第二验证子模型。具体可以采用随机梯度下降算法进行模型的训练,并采用反向传播算法更新各层神经元的参数。
在一个实施例中,所述根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型的步骤S7,还包括:
S701、将所述多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,根据预设比例划分为多个训练数据集和多个验证数据集;
S702、将所述多个训练数据输入预设的神经网络模型,并采用有监督学习的方式进行训练处理,以得到第一暂时验证模型和第二暂时验证模型;
S703、采用所述多个验证数据对所述第一暂时验证模型和所述第二暂时验证模型进行验证处理,以得到验证结果;
S704、判断验证结果是否通过;
S705、若验证结果通过,则将暂时验证模型记为训练完成的第一验证子模型和第二验证子模型。
如上述步骤S701-S702所述,因此训练过程与验证过程采用的是出处相同的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,因此训练得到的第一验证子模型和第二验证子模型具有较高的可靠性。训练过程采用的是有监督学习的方式,具体的训练方式上述有详细说明,此处不再赘述。若验证结果通过,则表明最终得到的第一验证子模型和第二验证子模型能够胜任对于数据的验证任务,因此可以采用第一验证子模型和第二验证子模型进行数据的验证。
参照图2,本发明还提供了一种基于大数据的数据验证装置,通过数据验证模型实现,所述数据验证模型包括第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接,所述数据验证装置,包括:
第一获取模块10,用于指示实施步骤S1:所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果;
分割模块20,用于指示实施步骤S2:所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集,其中,所述临时数据集中包括所述原始数据集中的一个原始数据以及对应所述输出数据集中的一个输出数据;
第一输入模块30,用于指示实施步骤S3:将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;
第二输入模块40,用于指示实施步骤S4:按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中;
第二获取模块50,用于指示实施步骤S5:获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;
求取模块60,用于指示实施步骤S6:将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);
训练模块70,用于指示实施步骤S7:根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型;
第三获取模块80,用于指示实施步骤S8:通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;
第三输入模块90,用于指示实施步骤S9:将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。
在一个实施例中,所述求取模块60,包括:
求取子模块,用于指示实施步骤S601:所述第一验证子模型通过公式
Figure 683167DEST_PATH_IMAGE049
,得到对应各个原始数据集中原始数据与输出数据的第一转换函数f(x),以及所述第二验证子模型通过公式
Figure 944515DEST_PATH_IMAGE050
,得到对应各个原始数据集中原始数据与输出数据的第二转换函数g(x);其中,
Figure 599618DEST_PATH_IMAGE051
Figure 339035DEST_PATH_IMAGE052
Figure 754405DEST_PATH_IMAGE053
表示基于参数x的计算函数,
Figure 983393DEST_PATH_IMAGE054
表示基于参数x的计算函数,
Figure 860213DEST_PATH_IMAGE055
表示第h个临时数据集中的原始数据,
Figure 934479DEST_PATH_IMAGE056
表示第h个临时数据集中的输出数据,
Figure 475794DEST_PATH_IMAGE057
表示第k个临时数据集中的输出数据,
Figure 875683DEST_PATH_IMAGE056
表示第h个临时数据集中的原始数据,
Figure 770958DEST_PATH_IMAGE058
表示第h+i个临时数据集中的原始数据,
Figure 648915DEST_PATH_IMAGE059
表示第h+i+1个临时数据集中的原始数据,
Figure 578825DEST_PATH_IMAGE060
表示第h+i-1个临时数据集中的原始数据,
Figure 886965DEST_PATH_IMAGE061
表示第k+j个临时数据集中的输出数据,
Figure 269536DEST_PATH_IMAGE062
表示第k+j+1个临时数据集中的输出数据,
Figure 685605DEST_PATH_IMAGE063
表示第k+j-1个临时数据集中的原始数据。
在一个实施例中,所述第一获取模块10,包括:
获取子模块,用于指示实施步骤S101:所述数据获取子模型通过sqoop脚本获取一时间段内各平台数据的第一原始数据以及对应的第一输出数据,以及各个第一原始数据、所述第一输出数据的平台,以及知识图谱;其中,所述知识图谱包括各个所述第一原始数据与各个第一输出数据的关联关系;
关联值计算子模块,用于指示实施步骤S102:根据所述第一输出数据与各个第一原始数据的关联关系计算各个第一原始数据对应所述第一输出数据的关联值;
目标原始数据提取子模块,用于指示实施步骤S103:根据所述第一输出数据与各个第一原始数据的关联值,提取多个目标原始数据;
构建子模块,用于指示实施步骤S104:根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果。
在一个实施例中,所述训练模块70,包括:
数据输入子模块,用于指示实施步骤S701:所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,以及,所述第二验证子模型将各个所述第二转换函数按照所述原始数据集的时间顺序,顺序输入至所述第二验证子模型的各个神经元中,并逆序输入至所述第一验证子模型的各个神经元中;
训练子模块,用于指示实施步骤S702:所述第一验证子模型通过所述第二验证子模型的第二转换参数对第一转换参数进行有监督的训练,所述第二验证子模型通过所述第一验证子模型的第一转换参数对第一转换参数进行有监督的训练,得到所述训练完成的第一验证子模型和第二验证子模型。
在一个实施例中,所述训练模块70,还包括:
划分子模块,用于指示实施步骤S701、将所述多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,根据预设比例划分为多个训练数据集和多个验证数据集;
处理子模块,用于指示实施步骤S702、将所述多个训练数据输入预设的神经网络模型,并采用有监督学习的方式进行训练处理,以得到第一暂时验证模型和第二暂时验证模型;
验证子模块,用于指示实施步骤S703、采用所述多个验证数据对所述第一暂时验证模型和所述第二暂时验证模型进行验证处理,以得到验证结果;
判断子模块,用于指示实施步骤S704、判断验证结果是否通过;
记为子模块,用于指示实施步骤S705、若验证结果通过,则将暂时验证模型记为训练完成的第一验证子模型和第二验证子模型。
本发明的有益效果:通过数据获取子模型获取连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,并对其进行划分为n个临时数据集,然后通过第一验证子模型和第二验证子模型求取其中的转换函数,并采用有监督的方式进行训练,再将训练完成的第一验证子模型和第二验证子模型用于数据验证,从而得到待验证的原始数据集的验证结果。实现了从原始数据到输出数据,以及输出数据到原始数据的双向验证,提高了数据验证的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于大数据的数据验证方法,其特征在于,通过数据验证模型实现,所述数据验证模型包括第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接,所述数据验证方法,包括:
S1:所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果;
S2:所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集;
S3:将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;
S4:按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中;
S5:获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;
S6:将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);
S7:根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型;
S8:通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;
S9:将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。
2.如权利要求1所述的基于大数据的数据验证方法,其特征在于,将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x)的步骤S6,包括:
S601:所述第一验证子模型通过公式
Figure 774255DEST_PATH_IMAGE002
,得到对应各个原始数据集中原始数据与输出数据的第一转换函数f(x),以及所述第二验证子模型通过公式
Figure 824250DEST_PATH_IMAGE004
,得到对应各个原始数据集中原始数据与输出数据的第二转换函数g(x);其中,
Figure 1
Figure 153918DEST_PATH_IMAGE008
Figure 387059DEST_PATH_IMAGE010
表示基于参数x的计算函数,
Figure 416195DEST_PATH_IMAGE012
表示基于参数x的计算函数,
Figure 594367DEST_PATH_IMAGE014
表示第h个临时数据集中的原始数据,
Figure 76164DEST_PATH_IMAGE016
表示第h个临时数据集中的输出数据,
Figure 411199DEST_PATH_IMAGE018
表示第k个临时数据集中的输出数据,
Figure 170208DEST_PATH_IMAGE020
表示第h+i个临时数据集中的原始数据,
Figure 643914DEST_PATH_IMAGE022
表示第h+i+1个临时数据集中的原始数据,
Figure 239106DEST_PATH_IMAGE024
表示第h+i-1个临时数据集中的原始数据,
Figure 190881DEST_PATH_IMAGE026
表示第k+j个临时数据集中的输出数据,
Figure 69976DEST_PATH_IMAGE028
表示第k+j+1个临时数据集中的输出数据,
Figure 714584DEST_PATH_IMAGE030
表示第k+j-1个临时数据集中的原始数据。
3.如权利要求1所述的基于大数据的数据验证方法,其特征在于,所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果的步骤S1,包括:
S101:所述数据获取子模型通过sqoop脚本获取一时间段内各平台数据的第一原始数据以及对应的第一输出数据,以及各个第一原始数据、所述第一输出数据的平台,以及知识图谱;其中,所述知识图谱包括各个所述第一原始数据与各个第一输出数据的关联关系;
S102:根据所述第一输出数据与各个第一原始数据的关联关系计算各个第一原始数据对应所述第一输出数据的关联值;
S103:根据所述第一输出数据与各个第一原始数据的关联值,提取多个目标原始数据;
S104:根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果。
4.如权利要求1所述的基于大数据的数据验证方法,其特征在于,所述根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型的步骤S7,包括:
S701:所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,以及,所述第二验证子模型将各个所述第二转换函数按照所述原始数据集的时间顺序,顺序输入至所述第二验证子模型的各个神经元中,并逆序输入至所述第一验证子模型的各个神经元中;
S702:所述第一验证子模型通过所述第二验证子模型的第二转换参数对第一转换参数进行有监督的训练,所述第二验证子模型通过所述第一验证子模型的第一转换参数对第一转换参数进行有监督的训练,得到所述训练完成的第一验证子模型和第二验证子模型。
5.如权利要求1所述的基于大数据的数据验证方法,其特征在于,所述根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型的步骤S7,还包括:
S701、将所述多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,根据预设比例划分为多个训练数据集和多个验证数据集;
S702、将所述多个训练数据输入预设的神经网络模型,并采用有监督学习的方式进行训练处理,以得到第一暂时验证模型和第二暂时验证模型;
S703、采用所述多个验证数据对所述第一暂时验证模型和所述第二暂时验证模型进行验证处理,以得到验证结果;
S704、判断验证结果是否通过;
S705、若验证结果通过,则将暂时验证模型记为训练完成的第一验证子模型和第二验证子模型。
6.一种基于大数据的数据验证装置,其特征在于,通过数据验证模型实现,所述数据验证模型包括第一验证子模型,数据获取子模型以及第二验证子模型,其中,所述第一验证子模型与所述第二验证子模型的中间层的神经元依次交叉连接,所述数据获取子模型分别与所述第一验证子模型以及所述第二验证子模型的输入层连接,所述数据验证装置,包括:
第一获取模块,用于指示实施步骤S1:所述数据获取子模型获取一时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果;
分割模块,用于指示实施步骤S2:所述数据获取子模型将所述原始数据集和所述输出数据集按照时间顺序进行匹配,并按照预设的步骤分割方法分为n个步骤,得到所述n个步骤分别对应的临时数据集;
第一输入模块,用于指示实施步骤S3:将各个所述临时数据集分别输入至所述第一验证子模型和第二验证子模型的输入层中;
第二输入模块,用于指示实施步骤S4:按照所述原始数据集的时间顺序,顺序将所述临时数据集输入至所述第一验证子模型的各个神经元中,并逆序将所述临时数据集输入至所述第二验证子模型的各个神经元中;
第二获取模块,用于指示实施步骤S5:获取多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,重复S2-S4的步骤,从而得到多个原始数据集对应的临时数据集;
求取模块,用于指示实施步骤S6:将获得的临时数据集在所述神经元中进行原始数据与所述输出数据的转换函数的求取,得到所述第一验证子模型中各个神经元对应各个原始数据集的第一转换函数f(x),以及所述第二验证子模型中各个神经元对应各个原始数据集的第二转换函数g(x);
训练模块,用于指示实施步骤S7:根据各个所述第一转换函数、各个所述第二转换函数以及对应的所述验证结果对所述第一验证子模型和第二验证子模型,采用有监督学习的方式进行训练,从而得到训练完成的第一验证子模型和第二验证子模型;
第三获取模块,用于指示实施步骤S8:通过所述数据获取子模型获取待验证的原始数据集,并将所述待验证的原始数据集按照步骤S2的方式,得到目标数据集;
第三输入模块,用于指示实施步骤S9:将所述目标数据集输入至所述训练完成的第一验证子模型和第二验证子模型中,得到所述待验证的原始数据集的验证结果。
7.如权利要求6所述的基于大数据的数据验证装置,其特征在于,所述求取模块,包括:
求取子模块,用于指示实施步骤S601:所述第一验证子模型通过公式
Figure DEST_PATH_IMAGE032
,得到对应各个原始数据集中原始数据与输出数据的第一转换函数f(x),以及所述第二验证子模型通过公式
Figure DEST_PATH_IMAGE034
,得到对应各个原始数据集中原始数据与输出数据的第二转换函数g(x);其中,
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
表示基于参数x的计算函数,
Figure DEST_PATH_IMAGE042
表示基于参数x的计算函数,
Figure DEST_PATH_IMAGE044
表示第h个临时数据集中的原始数据,
Figure DEST_PATH_IMAGE046
表示第h个临时数据集中的输出数据,
Figure DEST_PATH_IMAGE048
表示第k个临时数据集中的输出数据,
Figure DEST_PATH_IMAGE050
表示第h+i个临时数据集中的原始数据,
Figure DEST_PATH_IMAGE052
表示第h+i+1个临时数据集中的原始数据,
Figure DEST_PATH_IMAGE054
表示第h+i-1个临时数据集中的原始数据,
Figure DEST_PATH_IMAGE056
表示第k+j个临时数据集中的输出数据,
Figure DEST_PATH_IMAGE058
表示第k+j+1个临时数据集中的输出数据,
Figure DEST_PATH_IMAGE060
表示第k+j-1个临时数据集中的原始数据。
8.如权利要求6所述的基于大数据的数据验证装置,其特征在于,所述第一获取模块,包括:
获取子模块,用于指示实施步骤S101:所述数据获取子模型通过sqoop脚本获取一时间段内各平台数据的第一原始数据以及对应的第一输出数据,以及各个第一原始数据、所述第一输出数据的平台,以及知识图谱;其中,所述知识图谱包括各个所述第一原始数据与各个第一输出数据的关联关系;
关联值计算子模块,用于指示实施步骤S102:根据所述第一输出数据与各个第一原始数据的关联关系计算各个第一原始数据对应所述第一输出数据的关联值;
目标原始数据提取子模块,用于指示实施步骤S103:根据所述第一输出数据与各个第一原始数据的关联值,提取多个目标原始数据;
构建子模块,用于指示实施步骤S104:根据所述目标原始数据构建所述原始数据集以及根据所述第一输出数据构建所述输出数据集,并基于所述输出数据集和所述原始数据集获取所述人为验证结果。
9.如权利要求6所述的基于大数据的数据验证装置,其特征在于,所述训练模块,包括:
数据输入子模块,用于指示实施步骤S701:所述第一验证子模型将各个所述第一转换函数按照所述原始数据集的时间顺序,顺序输入至所述第一验证子模型的各个神经元中,并逆序输入至所述第二验证子模型的各个神经元中,以及,所述第二验证子模型将各个所述第二转换函数按照所述原始数据集的时间顺序,顺序输入至所述第二验证子模型的各个神经元中,并逆序输入至所述第一验证子模型的各个神经元中;
训练子模块,用于指示实施步骤S702:所述第一验证子模型通过所述第二验证子模型的第二转换参数对第一转换参数进行有监督的训练,所述第二验证子模型通过所述第一验证子模型的第一转换参数对第一转换参数进行有监督的训练,得到所述训练完成的第一验证子模型和第二验证子模型。
10.如权利要求6所述的基于大数据的数据验证装置,其特征在于,所述训练模块,还包括:
划分子模块,用于指示实施步骤S701、将所述多组各个时间段内连续数据组成的原始数据集、输出数据集以及对所述一时间段内的人为验证结果,根据预设比例划分为多个训练数据集和多个验证数据集;
处理子模块,用于指示实施步骤S702、将所述多个训练数据输入预设的神经网络模型,并采用有监督学习的方式进行训练处理,以得到第一暂时验证模型和第二暂时验证模型;
验证子模块,用于指示实施步骤S703、采用所述多个验证数据对所述第一暂时验证模型和所述第二暂时验证模型进行验证处理,以得到验证结果;
判断子模块,用于指示实施步骤S704、判断验证结果是否通过;
记为子模块,用于指示实施步骤S705、若验证结果通过,则将暂时验证模型记为训练完成的第一验证子模型和第二验证子模型。
CN202210789447.6A 2022-07-06 2022-07-06 一种基于大数据的数据验证方法和装置 Active CN114861912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210789447.6A CN114861912B (zh) 2022-07-06 2022-07-06 一种基于大数据的数据验证方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210789447.6A CN114861912B (zh) 2022-07-06 2022-07-06 一种基于大数据的数据验证方法和装置

Publications (2)

Publication Number Publication Date
CN114861912A CN114861912A (zh) 2022-08-05
CN114861912B true CN114861912B (zh) 2022-09-16

Family

ID=82625944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210789447.6A Active CN114861912B (zh) 2022-07-06 2022-07-06 一种基于大数据的数据验证方法和装置

Country Status (1)

Country Link
CN (1) CN114861912B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633788A (zh) * 2019-08-14 2019-12-31 南京大学 面向神经网络模型的基于层间剖析的输入实例验证方法
CN111739646A (zh) * 2020-06-22 2020-10-02 平安医疗健康管理股份有限公司 数据验证方法、装置、计算机设备及可读存储介质
CN111767193A (zh) * 2020-07-01 2020-10-13 中国银行股份有限公司 一种服务器数据异常检测方法、装置、存储介质及设备
CN112364388A (zh) * 2020-10-28 2021-02-12 中车工业研究院有限公司 基于区块链实现的传感器数据认证方法及装置
CN112560939A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 模型验证方法、装置及计算机设备
AU2021102600A4 (en) * 2021-05-16 2021-07-01 Kumaradhas, S. MR IMPROVED ARTIFICIAL NEURAL NETWORK AND MODIFIED GRAPH MODEL BASED DETECTION OF SECURITY ATTACKS WITH BETTER QoS PERFORMANCE IN MANET

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639642B2 (en) * 2013-10-09 2017-05-02 Fujitsu Limited Time series forecasting ensemble
US11783201B2 (en) * 2020-01-23 2023-10-10 International Business Machines Corporation Neural flow attestation
US20220138550A1 (en) * 2020-10-29 2022-05-05 International Business Machines Corporation Blockchain for artificial intelligence training

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633788A (zh) * 2019-08-14 2019-12-31 南京大学 面向神经网络模型的基于层间剖析的输入实例验证方法
CN111739646A (zh) * 2020-06-22 2020-10-02 平安医疗健康管理股份有限公司 数据验证方法、装置、计算机设备及可读存储介质
CN111767193A (zh) * 2020-07-01 2020-10-13 中国银行股份有限公司 一种服务器数据异常检测方法、装置、存储介质及设备
CN112364388A (zh) * 2020-10-28 2021-02-12 中车工业研究院有限公司 基于区块链实现的传感器数据认证方法及装置
CN112560939A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 模型验证方法、装置及计算机设备
AU2021102600A4 (en) * 2021-05-16 2021-07-01 Kumaradhas, S. MR IMPROVED ARTIFICIAL NEURAL NETWORK AND MODIFIED GRAPH MODEL BASED DETECTION OF SECURITY ATTACKS WITH BETTER QoS PERFORMANCE IN MANET

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An efficient dynamic neural network for predicting time series data stream;liang chen 等;《2020 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking》;20210604;第625-632页 *
基于MSNN模型的网络安全入侵检测;朱韶平等;《计算技术与自动化》;20200131(第04期);第182-185页 *

Also Published As

Publication number Publication date
CN114861912A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN110686633B (zh) 一种滑坡位移预测方法、装置及电子设备
Zhu et al. Statistical training for neuromorphic computing using memristor-based crossbars considering process variations and noise
CN113469088A (zh) 一种无源干扰场景下的sar图像舰船目标检测方法及系统
CN112925909B (zh) 一种考虑局部不变性约束的图卷积文献分类方法及系统
Konakoglu et al. 2D coordinate transformation using artificial neural networks
CN113805235B (zh) 基于卷积神经网络的三维地震相识别方法及装置
CN107578448B (zh) 基于cnn的无标定曲面所包含拼接曲面个数识别方法
Czapczuk et al. Application of multilayer perceptron for the calculation of pressure losses in water supply lines
CN114398059A (zh) 参数的更新方法、装置、设备以及存储介质
Stepanov et al. Prediction of numerical homogenization using deep learning for the Richards equation
CN114818549A (zh) 一种物体的流体力学参数计算方法、系统、设备以及介质
CN114861912B (zh) 一种基于大数据的数据验证方法和装置
CN115905848A (zh) 基于多模型融合的化工过程故障诊断方法及系统
CN110852415B (zh) 基于神经网络算法的植被指数预测方法、系统及设备
CN110781968B (zh) 一种基于塑性卷积神经网络的可扩展类别的图像识别方法
CN117591961A (zh) 基于自归一化分类模型的脉冲星候选体识别方法及系统
CN116484904A (zh) 一种基于人工智能深度学习的监管数据处理实现方法
CN111859094A (zh) 一种基于云计算的信息分析方法系统
CN113487200B (zh) 一种公路工程的项目质量评定方法及系统
CN111542818A (zh) 一种网络模型数据存取方法、装置及电子设备
CN111401394A (zh) 一种图像标注方法及装置、计算机可读存储介质
CN114996947A (zh) 三维油藏数值模拟方法
CN113822441A (zh) 决策模型训练方法、装置、终端设备及存储介质
CN113837294A (zh) 模型训练及调用方法、装置、计算机设备、存储介质
CN112949307A (zh) 预测语句实体的方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant