CN110362722A - 基于大数据的一种手册数据校验方法 - Google Patents
基于大数据的一种手册数据校验方法 Download PDFInfo
- Publication number
- CN110362722A CN110362722A CN201910482758.6A CN201910482758A CN110362722A CN 110362722 A CN110362722 A CN 110362722A CN 201910482758 A CN201910482758 A CN 201910482758A CN 110362722 A CN110362722 A CN 110362722A
- Authority
- CN
- China
- Prior art keywords
- data
- subset
- handbook
- feedback
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000012795 verification Methods 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了数据校验领域的基于大数据的一种手册数据校验方法,能够将手册录入后的标准数据以及录入的数据分别拆分成若干个第一数据子集与第二数据子集,并在第一数据子集、第二数据子集中分别进行查询,当相应搜索命令获得的第一数据反馈子集以及第二数据反馈子集中的目标数据相等时,说明该第一数据子集、第二数据子集中出现问题的可能性较小,因此顺序对下一第一数据子集、第二数据子集进行查询,本发明采用拆分与查询的方式,能够快速对手册录入前后的数据不对等的区域进行定位,然后再对不对等的原因进一步查询,能够快速发现数据丢失的现象及定位到具体的区域,校验效率高,检测速度快。
Description
技术领域
本发明涉及数据校验领域,具体涉及基于大数据的一种手册数据校验方法。
背景技术
在海关检验过程中,企业需要将自身的电子账册提供给海关部门,在电子账册数据上传的过程中,会有各种各样的影响,有的影响会导致数据出现差错。因此,需要对上传的数据进行校验和比对,然而传统的数据比对方法虽然比对逻辑比较简单,但是比对、运行速度比较慢,比对效率不高,具体地措施在于,在对比数据中提取一条比对数据,然后将对比数据分别逐一的与被对比数据比对并逐一反馈比对结果,可想而知的是,这种比对方法的运算量极为庞大,比对运算效率低。
发明内容
解决的技术问题
针对现有技术中的问题,本发明提出基于大数据的一种手册数据校验方法。
技术方案
本发明通过以下技术方案予以实现:
基于大数据的一种手册数据校验方法,包括步骤:S1:获取手册数据并定义为第一数据集,获取手册的录入数据,定义录入数据为第二数据集,第一数据集与第二数据集中数据的顺序位置一一对应相同;
S2:第一数据集中的数据按照固定的长度拆分为多个第一数据子集,第二数据集中的数据按照固定的长度拆分为多个第二数据子集;
S3:在第一数据子集与第二数据子集中分别进行查询,得到响应搜索命令获得的第一数据反馈子集以及第二数据反馈子集;
S4:第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量相等,则顺序对下一第一数据反馈子集、第二数据反馈子集进行查询;
S5:第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量不相等,则通过数据提取模块提取该第一数据子集与第二数据子集,再通过数据对比模块对该第一数据子集与第二数据子集中的数据进行比对。
进一步地,多个第一数据子集的数据顺序拼接排列后与第一数据集中的数据排列顺序相同。
进一步地,多个第二数据子集的数据顺序拼接排列后与第二数据集中的数据排列顺序相同。
进一步地,在S5中,第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量相等,则通过数据对比模块顺序对第一数据子集与第二数据子集中的数据进行比对。
进一步地,在S5中,数据对比模块将第一数据子集与第二数据子集中对应不一致的数据进行标记。
进一步地,多个第一数据子集与第二数据子集中对应不一致的数据采用数据提取模块统一提取并汇成列表显示。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
本发明提出了基于大数据的一种手册数据校验方法,能够将手册数据以及录入后的数据分别拆分成若干个第一数据子集与第二数据子集,并在第一数据子集、第二数据子集中分别进行查询,当相应搜索命令获得的第一数据反馈子集以及第二数据反馈子集中的目标数据相等时,说明该第一数据子集、第二数据子集中出现问题的可能性较小,因此顺序对下一第一数据子集、第二数据子集进行查询,当相应搜索命令获得的第一数据反馈子集以及第二数据反馈子集中的目标数据不等时,优先对该部分的第一数据子集、第二数据子集比对,获取目标数据不等的原因。本发明采用拆分与查询的方式,能够快速对手册录入前后的数据不对等的区域进行定位,然后再对不对等的原因进一步查询,能够快速发现数据丢失的现象及定位到具体的区域,校验效率高,检测速度快。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体框架图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1,结合图1,基于大数据的一种手册数据校验方法,包括步骤:S1:获取手册数据并定义为第一数据集,获取手册的录入数据,定义录入数据为第二数据集,第一数据集与第二数据集中数据的顺序位置一一对应相同;
S2:第一数据集中的数据按照固定的长度拆分为多个第一数据子集,第二数据集中的数据按照固定的长度拆分为多个第二数据子集;
S3:在第一数据子集与第二数据子集中分别进行查询,得到响应搜索命令获得的第一数据反馈子集以及第二数据反馈子集;
S4:第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量相等,则顺序对下一第一数据反馈子集、第二数据反馈子集进行查询;
S5:第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量不相等,则通过数据提取模块提取该第一数据子集与第二数据子集,再通过数据对比模块对该第一数据子集与第二数据子集中的数据进行比对。
本发明提出了基于大数据的一种手册数据校验方法,能够将手册数据以及录入后的数据分别拆分成若干个第一数据子集与第二数据子集,并在第一数据子集、第二数据子集中分别进行查询,当相应搜索命令获得的第一数据反馈子集以及第二数据反馈子集中的目标数据相等时,说明该第一数据子集、第二数据子集中出现问题的可能性较小,因此顺序对下一第一数据子集、第二数据子集进行查询,当相应搜索命令获得的第一数据反馈子集以及第二数据反馈子集中的目标数据不等时,优先对该部分的第一数据子集、第二数据子集比对,获取目标数据不等的原因。本发明采用拆分与查询的方式,能够快速对手册录入前后的数据不对等的区域进行定位,然后再对不对等的原因进一步查询,能够快速发现数据丢失的现象及定位到具体的区域,校验效率高,检测速度快。
进一步地,多个第一数据子集的数据顺序拼接排列后与第一数据集中的数据排列顺序相同。
进一步地,多个第二数据子集的数据顺序拼接排列后与第二数据集中的数据排列顺序相同。
进一步地,在S5中,第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量相等,则通过数据对比模块顺序对第一数据子集与第二数据子集中的数据进行比对。
进一步地,在S5中,数据对比模块将第一数据子集与第二数据子集中对应不一致的数据进行标记。多个第一数据子集与第二数据子集中对应不一致的数据采用数据提取模块统一提取并汇成列表显示,能够使手册数据录入前后的数据差异一目了然地显示。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.基于大数据的一种手册数据校验方法,其特征在于:包括步骤:S1:获取手册数据并定义为第一数据集,获取手册的录入数据,定义录入数据为第二数据集,第一数据集与第二数据集中数据的顺序位置一一对应相同;
S2:第一数据集中的数据按照固定的长度拆分为多个第一数据子集,第二数据集中的数据按照固定的长度拆分为多个第二数据子集;
S3:在第一数据子集与第二数据子集中分别进行查询,得到响应搜索命令获得的第一数据反馈子集以及第二数据反馈子集;
S4:第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量相等,则顺序对下一第一数据反馈子集、第二数据反馈子集进行查询;
S5:第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量不相等,则通过数据提取模块提取该第一数据子集与第二数据子集,再通过数据对比模块对该第一数据子集与第二数据子集中的数据进行比对。
2.根据权利要求1所述的基于大数据的一种手册数据校验方法,其特征在于:多个第一数据子集的数据顺序拼接排列后与第一数据集中的数据排列顺序相同。
3.根据权利要求1所述的基于大数据的一种手册数据校验方法,其特征在于:多个第二数据子集的数据顺序拼接排列后与第二数据集中的数据排列顺序相同。
4.根据权利要求1所述的基于大数据的一种手册数据校验方法,其特征在于:在S5中,第一数据反馈子集与第二数据反馈子集的响应搜索命令获得的目标数据数量相等,则通过数据对比模块顺序对第一数据子集与第二数据子集中的数据进行比对。
5.根据权利要求1所述的基于大数据的一种手册数据校验方法,其特征在于:在S5中,数据对比模块将第一数据子集与第二数据子集中对应不一致的数据进行标记。
6.根据权利要求5所述的基于大数据的一种手册数据校验方法,其特征在于:多个第一数据子集与第二数据子集中对应不一致的数据采用数据提取模块统一提取并汇成列表显示。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310722078.3A CN116628283A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
CN201910482758.6A CN110362722A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910482758.6A CN110362722A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310722078.3A Division CN116628283A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110362722A true CN110362722A (zh) | 2019-10-22 |
Family
ID=68215151
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310722078.3A Pending CN116628283A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
CN201910482758.6A Pending CN110362722A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310722078.3A Pending CN116628283A (zh) | 2019-06-04 | 2019-06-04 | 基于大数据的一种手册数据校验方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116628283A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639849A (zh) * | 2009-06-01 | 2010-02-03 | 北京四维图新科技股份有限公司 | 处理数据的方法和装置 |
US20110295825A1 (en) * | 2008-06-30 | 2011-12-01 | Ali Davar | Method and System for Interacting with a Plurality of Search Engines |
CN104298736A (zh) * | 2014-09-30 | 2015-01-21 | 华为软件技术有限公司 | 数据集合连接方法、装置及数据库系统 |
CN107291716A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种链路数据校验方法及装置 |
CN108268496A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 数据的校验方法及装置 |
CN109308299A (zh) * | 2018-09-12 | 2019-02-05 | 北京字节跳动网络技术有限公司 | 用于搜索信息的方法和装置 |
CN109344151A (zh) * | 2018-08-08 | 2019-02-15 | 航天信息股份有限公司 | 批量注册和修改用户信息的方法 |
CN109635256A (zh) * | 2018-12-20 | 2019-04-16 | 上海掌门科技有限公司 | 用于校验数据的方法和装置 |
-
2019
- 2019-06-04 CN CN202310722078.3A patent/CN116628283A/zh active Pending
- 2019-06-04 CN CN201910482758.6A patent/CN110362722A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295825A1 (en) * | 2008-06-30 | 2011-12-01 | Ali Davar | Method and System for Interacting with a Plurality of Search Engines |
CN101639849A (zh) * | 2009-06-01 | 2010-02-03 | 北京四维图新科技股份有限公司 | 处理数据的方法和装置 |
CN104298736A (zh) * | 2014-09-30 | 2015-01-21 | 华为软件技术有限公司 | 数据集合连接方法、装置及数据库系统 |
CN107291716A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种链路数据校验方法及装置 |
CN108268496A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 数据的校验方法及装置 |
CN109344151A (zh) * | 2018-08-08 | 2019-02-15 | 航天信息股份有限公司 | 批量注册和修改用户信息的方法 |
CN109308299A (zh) * | 2018-09-12 | 2019-02-05 | 北京字节跳动网络技术有限公司 | 用于搜索信息的方法和装置 |
CN109635256A (zh) * | 2018-12-20 | 2019-04-16 | 上海掌门科技有限公司 | 用于校验数据的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116628283A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431459B1 (ko) | 블록체인 스마트 계약 검증 방법, 장치 및 저장 매체 | |
US10699036B2 (en) | Method and system for testing vehicle | |
CN106682036A (zh) | 一种数据交换系统及其交换方法 | |
JP2017188137A5 (zh) | ||
US10775286B2 (en) | Method for test data reduction of composite intralaminar failure mode | |
CN104732332B (zh) | 基于电子商务的订单拆分方法和装置 | |
CN105653335A (zh) | 一种插件程序的控制方法和装置 | |
CN106503268A (zh) | 数据对比方法、装置和系统 | |
US9471630B2 (en) | Efficient query processing on ordered views | |
US20180067974A1 (en) | Index b-tree maintenance for linear sequential insertion | |
US20190073600A1 (en) | Skipping maintenance mode of applications | |
CN103699442A (zh) | MapReduce计算框架下的可迭代式数据处理方法 | |
CN104765760A (zh) | 一种基于json格式的页面生成和显示方法 | |
CN105426305A (zh) | 一种控件属性解析系统及方法 | |
CN110362722A (zh) | 基于大数据的一种手册数据校验方法 | |
US20050114836A1 (en) | Block box testing in multi-tier application environments | |
CN113946399A (zh) | 一种空间数据加载方法及装置 | |
CN109062577A (zh) | 一种前端脚本拆分与解构优化方法及系统 | |
CN102890717B (zh) | 网页类别知识库的建立系统及方法 | |
CN103051668B (zh) | 一种服务器资源管理系统及管理方法 | |
KR102594770B1 (ko) | 데이터 처리장치에서의 연속값들의 매칭 | |
CN103176843B (zh) | MapReduce分布式系统的文件迁移方法及设备 | |
CN105389257B (zh) | 一种系统参数处理方法、装置及系统 | |
US20150066872A1 (en) | Efficient Duplicate Elimination | |
CN103631951A (zh) | 一种基于元数据的批量取数函数的合并方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215000 Bamboo Garden Road, Suzhou high tech Zone, Jiangsu Province, No. 209 Applicant after: Suzhou Zhimao Jietong Technology Co.,Ltd. Address before: 215000 Bamboo Garden Road, Suzhou high tech Zone, Jiangsu Province, No. 209 Applicant before: SUZHOU DIGITAL CHINA JET TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |
|
RJ01 | Rejection of invention patent application after publication |