CN111274158A - 一种数据验证方法 - Google Patents
一种数据验证方法 Download PDFInfo
- Publication number
- CN111274158A CN111274158A CN202010125880.0A CN202010125880A CN111274158A CN 111274158 A CN111274158 A CN 111274158A CN 202010125880 A CN202010125880 A CN 202010125880A CN 111274158 A CN111274158 A CN 111274158A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- neural network
- network model
- correctness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013524 data verification Methods 0.000 title claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 9
- 238000013502 data validation Methods 0.000 claims 3
- 238000012795 verification Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开的数据验证方法,涉及数据处理技术领域,通过将待验证的数据集输入训练过的神经网络模型,根据神经网络模型的输出结果,判断数据集中是否存在错误的数据,不需要编写相互独立的程序对各个步骤进行验证,提高了效率,不需要人为去排查错误数据,降低了人工成本,在中间数据丢失的情况下,会输出错误提醒,提高了验证的准确度。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据验证方法。
背景技术
随着智能手机及网络的普及,人们获取信息的途径也越来越多,但在信息展示的过程中,会发生展示错误的信息及当出现错误信息时处理错误信息的速度较慢的,极大地影响了企业形象及用户体验,所以需要事先对待展示的数据进行验证。
现有的数据验证方法存在以下缺陷:
(1)针对大量的数据计算步骤,需要编写相互独立的程序对各个步骤进行验证,工作量大,效率较低;
(2)产生错误后,基本都需要人为去排查错误数据,时间成本较高;
(3)在中间数据丢失的情况下,无bug产生,无错误提醒,但依然能输出错误结果到展示端,准确度较低。
发明内容
为解决现有技术的不足,本发明实施例提供了一种数据验证方法,该方法包括:
将待验证的数据集输入训练过的神经网络模型;
根据所述神经网络模型的输出结果,判断所述数据集中是否存在错误的数据,若是,则输出所述数据及所述数据在所述数据集中的位置。
优选地,所述神经网络模型的训练过程包括:
设计数据集的数据结构并将所述数据集存储于数据库中,分别验证所述数据集中各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成原始数据集;
对所述数据集中各个数据进行计算,分别验证各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成中间数据集;
对所述中间数据集进行计算,分别验证各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成结果数据集;
将所述结果数据集展示到界面上,分别验证界面上各个数据的正确性,根据各个数据的正确与否对各个数据进行标识,生成界面数据集;
将所述原始数据集、所述中间数据集、所述结果数据集及所述界面数据集输入神经网络模型,对所述神经网络模型进行训练。
优选地,所述神经网络模型为LSTM神经网络模型。
优选地,所述神经网络模型的训练过程还包括:
随机丢弃所述中间数据集中的数据,将所述中间数据集输入神经网络模型对所述神经网络模型进行训练,以达到训练后的神经网络模型具备识别数据丢失的功能。
本发明实施例提供的数据验证方法具有以下有益效果:
(1)通过使用训练过的神经网络模型,不需要编写相互独立的程序对各个步骤进行验证,减少了工作量,提高了效率;
(2)通过使用训练过的神经网络模型,产生错误后,不需要人为去排查错误数据,降低了人工成本;
(3)在中间数据丢失的情况下,会输出错误提醒,提高了验证的准确度。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明实施例提供的数据验证方法包括以下步骤:
S101,将待验证的数据集输入训练过的神经网络模型。
作为一个具体的实施例,该数据集可以为原始数据集、中间数据集和结果数据集中的一种或多种。
S102,根据神经网络模型的输出结果,判断数据集中是否存在错误的数据,若是,则输出数据及数据在数据集中的位置。
可选地,神经网络模型的训练过程包括:
设计数据集的数据结构并将数据集存储于数据库中,分别验证数据集中各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成原始数据集。
其中,可以通过编写程序或者人为对原始数据集及相应的计算过程进行验证。
对数据集中各个数据进行计算,分别验证各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成中间数据集。
其中,可以通过编写程序或者人为对中间数据集及相应的计算过程进行验证。
对中间数据集进行计算,分别验证各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成结果数据集。
其中,可以通过编写程序或者人为对结果数据集及相应的计算过程进行验证。
将结果数据集展示到界面上,分别验证界面上各个数据的正确性,根据各个数据的正确与否对各个数据进行标识,生成界面数据集。
其中,可以通过人为对结果数据集及相应的计算过程进行验证。
作为一个具体的实施例,在对各个数据标识的过程中,将正确的数据标识为“1”,将错误的数据标识为“0”。
将原始数据集、中间数据集、结果数据集及界面数据集输入神经网络模型,对神经网络模型进行训练。
作为一个具体的实施例,可以从用户打开gofun共享汽车APP产生的操作记录中获取原始数据集。比如原始数据为100条APP操作记录(打开、查看、返回、预定、订单、取消、定位),其中,该原始数据集为15条用户交易单记录(10条订单、5条取消单),平均每10条操作记录中产生一个订单。该原始数据集对应的中间数据集为:城市1的订单数量为2条、城市2的订单数量为5条及城市3的订单数量为3条;该中间数据集对应的结果数据集为全国城市订单数量为10条。
优选地,神经网络模型为LSTM神经网络模型。
优选地,神经网络模型的训练过程还包括:
随机丢弃中间数据集中的数据,将中间数据集输入神经网络模型对所述神经网络模型进行训练。
本发明实施例提供的数据验证方法,通过将待验证的数据集输入训练过的神经网络模型,根据神经网络模型的输出结果,判断数据集中是否存在错误的数据,不需要编写相互独立的程序对各个步骤进行验证,提高了效率,不需要人为去排查错误数据,降低了人工成本,在中间数据丢失的情况下,会输出错误提醒,提高了验证的准确度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (4)
1.一种数据验证方法,其特征在于,包括:
将待验证的数据集输入训练过的神经网络模型;
根据所述神经网络模型的输出结果,判断所述数据集中是否存在错误的数据,若是,则输出所述数据及所述数据在所述数据集中的位置。
2.根据权利要求1所述的数据验证方法,其特征在于,所述神经网络模型的训练过程包括:
设计数据集的数据结构并将所述数据集存储于数据库中,分别验证所述数据集中各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成原始数据集;
对所述数据集中各个数据进行计算,分别验证各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成中间数据集;
对所述中间数据集进行计算,分别验证各个数据的正确性,根据各个数据的正确与否对各个数据进行标识并记录各个数据的位置,生成结果数据集;
将所述结果数据集展示到界面上,分别验证界面上各个数据的正确性,根据各个数据的正确与否对各个数据进行标识,生成界面数据集;
将所述原始数据集、所述中间数据集、所述结果数据集及所述界面数据集输入神经网络模型,对所述神经网络模型进行训练。
3.根据权利要求1所述的数据验证方法,其特征在于,所述神经网络模型为LSTM神经网络模型。
4.根据权利要求2所述的数据验证方法,其特征在于,所述神经网络模型的训练过程还包括:
随机丢弃所述中间数据集中的数据,将所述中间数据集输入神经网络模型对所述神经网络模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125880.0A CN111274158A (zh) | 2020-02-27 | 2020-02-27 | 一种数据验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125880.0A CN111274158A (zh) | 2020-02-27 | 2020-02-27 | 一种数据验证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274158A true CN111274158A (zh) | 2020-06-12 |
Family
ID=71000484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010125880.0A Pending CN111274158A (zh) | 2020-02-27 | 2020-02-27 | 一种数据验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274158A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480792B1 (en) * | 1998-10-22 | 2002-11-12 | British Aerospace Public Limited Company | Fatigue monitoring systems and methods incorporating neural networks |
CN1407456A (zh) * | 2001-08-15 | 2003-04-02 | 独立行政法人通信综合研究所 | 数据错误检测方法、装置、软件和媒体 |
CN104866542A (zh) * | 2015-05-05 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 一种poi数据验证方法和装置 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN107562808A (zh) * | 2017-08-10 | 2018-01-09 | 浙江众合科技股份有限公司 | 一种异构双链自动化数据的验证方法 |
CN108030494A (zh) * | 2017-11-08 | 2018-05-15 | 华南理工大学 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
CN108062411A (zh) * | 2017-12-29 | 2018-05-22 | 深圳市智搜信息技术有限公司 | 一种查找电子元器件数据信息的系统及方法 |
CN108364087A (zh) * | 2018-01-11 | 2018-08-03 | 安徽优思天成智能科技有限公司 | 一种城市机动车尾气浓度的时空预测方法 |
CN109768877A (zh) * | 2018-11-23 | 2019-05-17 | 国网上海市电力公司 | 一种基于空间最优编码集及dhnn纠错的电网故障诊断方法 |
CN109933572A (zh) * | 2019-01-28 | 2019-06-25 | 安徽斯瑞菱智能科技有限公司 | 一种用于大型企业的数据管理方法及系统 |
CN110489344A (zh) * | 2019-08-02 | 2019-11-22 | Oppo广东移动通信有限公司 | 引擎测试方法及相关产品 |
CN110750527A (zh) * | 2019-10-24 | 2020-02-04 | 南方电网科学研究院有限责任公司 | 一种电力大数据的数据清洗方法 |
CN110781381A (zh) * | 2019-09-11 | 2020-02-11 | 平安科技(深圳)有限公司 | 基于神经网络的数据验证方法、装置、设备及存储介质 |
-
2020
- 2020-02-27 CN CN202010125880.0A patent/CN111274158A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480792B1 (en) * | 1998-10-22 | 2002-11-12 | British Aerospace Public Limited Company | Fatigue monitoring systems and methods incorporating neural networks |
CN1407456A (zh) * | 2001-08-15 | 2003-04-02 | 独立行政法人通信综合研究所 | 数据错误检测方法、装置、软件和媒体 |
US20040078730A1 (en) * | 2001-08-15 | 2004-04-22 | Qing Ma | Data error detection method, apparatus, software, and medium |
CN104866542A (zh) * | 2015-05-05 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 一种poi数据验证方法和装置 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN107562808A (zh) * | 2017-08-10 | 2018-01-09 | 浙江众合科技股份有限公司 | 一种异构双链自动化数据的验证方法 |
CN108030494A (zh) * | 2017-11-08 | 2018-05-15 | 华南理工大学 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
CN108062411A (zh) * | 2017-12-29 | 2018-05-22 | 深圳市智搜信息技术有限公司 | 一种查找电子元器件数据信息的系统及方法 |
CN108364087A (zh) * | 2018-01-11 | 2018-08-03 | 安徽优思天成智能科技有限公司 | 一种城市机动车尾气浓度的时空预测方法 |
CN109768877A (zh) * | 2018-11-23 | 2019-05-17 | 国网上海市电力公司 | 一种基于空间最优编码集及dhnn纠错的电网故障诊断方法 |
CN109933572A (zh) * | 2019-01-28 | 2019-06-25 | 安徽斯瑞菱智能科技有限公司 | 一种用于大型企业的数据管理方法及系统 |
CN110489344A (zh) * | 2019-08-02 | 2019-11-22 | Oppo广东移动通信有限公司 | 引擎测试方法及相关产品 |
CN110781381A (zh) * | 2019-09-11 | 2020-02-11 | 平安科技(深圳)有限公司 | 基于神经网络的数据验证方法、装置、设备及存储介质 |
CN110750527A (zh) * | 2019-10-24 | 2020-02-04 | 南方电网科学研究院有限责任公司 | 一种电力大数据的数据清洗方法 |
Non-Patent Citations (2)
Title |
---|
张永超: "《野外采集原数据的处理技术》", 《竞争情报创机关报与发展》 * |
张永超: "《野外采集原数据的处理技术》", 《竞争情报创机关报与发展》, 31 December 2006 (2006-12-31), pages 1 - 6 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175916B (zh) | 资金流核对方法及装置 | |
CN109345392B (zh) | 编程题目发布、解答代码发布、解答代码检验方法及系统 | |
CN110321339A (zh) | 一种数据迁移方法、装置、设备和存储介质 | |
CN109145981B (zh) | 深度学习自动化模型训练方法及设备 | |
CN108647353A (zh) | 一种实时核对数据的方法、装置 | |
CN106897335A (zh) | 一种业务数据的存储方法、记录标识符的生成方法及装置 | |
CN112487083A (zh) | 一种数据校验方法和设备 | |
CN108230130B (zh) | 日切数据验证的方法、装置和电子设备 | |
CN111062770B (zh) | 商户识别方法、设备及计算机可读介质 | |
CN114022264A (zh) | 生成凭证的方法、装置、设备及存储介质 | |
CN111478985B (zh) | 一种服务域名基础信息动态配置方法 | |
CN109544014A (zh) | 基于历史数据回放的反欺诈方法及装置 | |
CN109298941A (zh) | 一种文件生成方法和装置 | |
CN111274158A (zh) | 一种数据验证方法 | |
CN110428156B (zh) | 用于业务数据校验的方法、装置及电子设备 | |
CN114493551B (zh) | 一种合同的生成方法及装置、电子设备、存储介质 | |
CN110209769A (zh) | 文本填写方法及装置 | |
CN115129590A (zh) | 一种测试用例的生成方法及装置、电子设备、存储介质 | |
US20200294057A1 (en) | Business processing method, apparatus, and equipment | |
CN114490692A (zh) | 数据核对方法、装置、设备及存储介质 | |
CN110060164B (zh) | 账务数据处理方法、装置及设备 | |
CN110795421A (zh) | 一种防止脏数据产生的方法 | |
CN111126624A (zh) | 一种判定模型预测结果有效性的方法 | |
CN110610078A (zh) | 一种电子印章状态发布系统 | |
CN114756440B (zh) | 智能卡的数据写入方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |