CN110716928A - 一种数据处理方法、装置、设备和存储介质 - Google Patents

一种数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110716928A
CN110716928A CN201910846331.XA CN201910846331A CN110716928A CN 110716928 A CN110716928 A CN 110716928A CN 201910846331 A CN201910846331 A CN 201910846331A CN 110716928 A CN110716928 A CN 110716928A
Authority
CN
China
Prior art keywords
data
logistics
field
under
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910846331.XA
Other languages
English (en)
Inventor
龚伟松
高敏
张慧霞
韦松松
徐玉莹
孙国川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai zebra Laila Logistics Technology Co.,Ltd.
Original Assignee
Shanghai Kjing Xinda Science And Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kjing Xinda Science And Technology Group Co Ltd filed Critical Shanghai Kjing Xinda Science And Technology Group Co Ltd
Priority to CN201910846331.XA priority Critical patent/CN110716928A/zh
Publication of CN110716928A publication Critical patent/CN110716928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例中提供了一种数据处理方法、装置、设备和存储介质,包括:获取待处理的物流数据;将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。采用本申请中的方案,能够解决大数据中的异构和脏数据问题,为后续的大数据分析挖掘提供高质量的数据。

Description

一种数据处理方法、装置、设备和存储介质
技术领域
本申请涉及信息处理技术,具体地,涉及一种数据处理方法、装置、设备和存储介质。
背景技术
随着移动互联网和信息技术的高速发展,大数据已经得到广泛的重视。通过对大数据的分析,可以获得很多有价值的信息。物流数据亦然。
目前很多中小物流公司采用手工台账方式或者是自身的ERP(EnterpriseResource Planning,企业资源计划)系统来记录自身的物流数据,使得大部分物流公司的物流数据,其数据结构都是不相同的,并且受到数据记录和管理过程中的各种影响,每个物流公司的物流数据都不可避免的存在各种脏数据,即存在质量问题,例如数据丢失、数据重复、数据不符合标准、数据不完整、数据过期等等。上述物流数据中的异构和脏数据问题,使得很多物流数据无法正常使用,不利于后续的大数据分析挖掘。
发明内容
本申请实施例中提供了一种数据处理方法、装置、设备和存储介质,以解决上述技术问题。
根据本申请实施例的第一个方面,提供了一种数据处理方法,包括:
获取待处理的物流数据;
将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。
根据本申请实施例的第二个方面,提供了一种数据处理装置,包括:
获取单元,用于获取待处理的物流数据;
原始表生成单元,用于将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
第一清洗单元,用于对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
第二清洗单元,用于对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。。
根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
根据本申请实施例的第四个方面,提供了一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的方法。
采用本申请实施例中提供的数据处理方案,获取待处理的物流数据后,将物流数据按照新的表结构进行存储,生成原始表,其中新的表结构中包括多个表征物流属性的字段,然后对原始表存储的物流数据中各字段下的数据执行第一清洗操作,得到第一中间表,再对第一中间表存储的物流数据中指定字段下的数据进行第二清洗操作,从而得到最终表,其中第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作和多余数据清除操作,第二清洗操作包括异常数据纠正操作。本申请实施例中的方案不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种数据处理方法的流程示意图;
图2为本申请实施例提供的一种数据处理装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现:
现有的很多中小物流公司采用手工台账方式或者是自身的ERP系统来记录自身的物流数据,使得大部分物流公司的物流数据,其数据结构都是不相同的,并且受到数据记录和管理过程中的各种影响,每个物流公司的物流数据都不可避免的存在各种脏数据,即存在质量问题,例如数据丢失、数据重复、数据不符合标准、数据不完整、数据过期等等。上述物流数据中的异构和脏数据问题,使得很多物流数据无法正常使用,不利于后续的大数据分析挖掘。
针对上述问题,本申请实施例中提供了一种数据处理方案,首先将获取的物流数据按照新的表结构进行存储,生成原始表,然后按照预先针对每个字段设置的清洗规则,对原始表中的每个字段的数据执行清洗操作,得到第一中间表,再对第一中间表中预设的目标字段的数据进行异常值检测,当检测出目标字段的数据存在异常值时,对异常值进行修正,从而得到最终表。本申请实施例中的方案不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,为本申请实施例提供的一种数据处理方法的流程示意图。该方法包括:
步骤11,获取待处理的物流数据。
本申请实施例中,待处理的物流数据可以是来自不同数据源的异构数据,并且分别存储在包含不同原始字段的数据表中。
比如来自数据源A的物流数据存储在数据表a中,其中包含原始字段x1、x2和x3,来自数据源B的物流数据存储在数据表b中,其中包含原始字段x1、x2和x4。
步骤12,将待处理的物流数据按照新的表结构进行存储,生成原始表,新的表结构包括多个表征物流属性的字段。
如果获取的待处理的物流数据的数据结构不同,那么后续在大数据分析挖掘时便无法使用,因此本申请实施例为了解决该异构问题,在获取到待处理的物流数据之后,首先将其按照新的表结构进行存储,生成原始表,其中,新的表结构中包含多个表征物流属性的字段,该字段可以与物流数据中的原始字段相同,也可以不同,本申请实施例对此不进行限制。
具体的,将物流数据按照新的表结构进行存储时,可以将物流数据中原始字段和新的表结构中的字段进行匹配,当物流数据中的原始字段与新的表结构中的任一字段匹配成功时,则将该原始字段下的数据写入到对应的字段下。
如果新的表结构中的字段没有与物流数据中的任一原始字段匹配成功,则该条物流数据中未与物流数据中的任一原始字段匹配成功的字段下的数据为空。
本申请实施例中,新的表结构中包含的表征物流属性的字段可以但不限于包括以下一个或多个:
公司名称、日期、车型、车长、车牌号、司机信息、发车地、到达地、线路、线路类型、距离、收入、物流票数、快递件数、快递重量、快递体积。
步骤13,对原始表存储的物流数据中各字段下的数据执行第一清洗操作,得到第一中间表。
第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作。
数据去重操作:
由于获取的物流数据中可能会存在重复数据,即内容完全相同的两条物流数据,为了避免得到的最终表中存在重复数据,因此有必要执行数据去重操作,即对于重复的多条物流数据只保留其中一条。
缺失值补充操作:
当原始表存储的物流数据中字段下的数据为空时,则有必要执行缺失值补充操作,此时可以根据该条物流数据中的其他字段下的数据对该缺失数据进行补充。
比如车长字段和车型字段,当车长字段下的数据为空时,则可以根据车型字段下的数据确定出车长数据,并填充在车长字段下,反之亦然,当车型字段下的数据为空时,则根据车长字段下的数据确定出车型数据,填充在车型字段下。
比如发车地字段、到达地字段、线路字段和线路类型字段,包括下述情况:
1、当线路字段下的数据为空时,可以根据发车地字段和到达地字段下的数据确定出线路数据,并填充在线路字段下;
2、当发车地字段和/或到达地字段下的数据为空时,可以根据线路字段下的数据确定出发车地数据和/或到达地数据,并填充在发车地字段和/或到达地字段下;
3、当线路类型字段下的数据为空时,可以根据线路字段、发车地字段和到达地字段下的数据确定出线路类型数据,并填充在线路类型字段下的数据。
具体的,线路类型可以包括:
①单边:发车地和到达地为不同城市且线路里只有2个城市;
②经停:发车地和到达地为不同城市且线路里有2个以上城市;
③往返:发车地和到达地为相同城市且线路里有与发车地和到达地不同的城市;
④同城:发车地和到达地为相同城市且线路里没有与发车地和到达地不同的城市。
比如距离字段,当距离字段下的数据为空时,可以根据发车地字段和到达地字段下的数据,利用经纬度计算出两地之间的距离,并填充在距离字段下。
多余数据清除操作:
原始表中的物流数据中字段下的数据除了有用数据,可能还会存在无用数据,此时有必要执行多余数据清除操作,将有用数据保留,将无用数据删除。
比如车牌号字段,当车牌号字段下的数据除了车牌号码之外还存在其他无用数据时,可以通过识别车牌号的方式,将合法的车牌号保留,将除车牌号之外的无用数据删除。
错误数据修正操作:
比如司机信息字段,一般情况下司机信息字段下的数据包含司机姓名和电话号码,当同一个电话号码对应的司机姓名有多个时,则说明数据出现了不一致性,此时可以将同一个电话号码对应的出现次数最多的司机姓名作为司机的正确姓名,同时将该电话号码对应的其他司机姓名修改为出现次数最多的司机姓名。
比如收入字段、物流票数字段、快递件数字段、快递重量字段、快递体积字段,预先对上述字段下的数据分别设置最大值,对上述字段进行清洗时,如果字段下的数据超过了设置的最大值,则将字段下的数据修改成设置的最大值。
需要说明的是,针对字段下的同一数据,可以采用上述一种或多种清洗操作方式,从而使得清洗后的数据更加准确。
以车长字段为例,对车长字段下的数据进行清洗时,首先提取车长字段下的数据,如果该数据值为空或者数据超过设置的最大阈值(比如250),则采用缺失值补充操作,根据车型字段下的数据来填充相应数值,如果该数据值小于30,则直接作为车长数据,不进行修改,如果该数值大于30且小于250,则采用错误数据修正操作,将该数据除以10作为车长数据。
步骤14,对第一中间表存储的物流数据中指定字段下的数据进行第二清洗操作,得到最终表。
其中,第二清洗操作包括异常数据纠正操作。
本申请实施例中,异常数据纠正操作和步骤13中涉及的错误数据修正操作具有明显区别:错误数据指明显错误,无需通过其他数据分析来判断,比如数据前后不一致等显而易见的错误,而异常数据则具有不确定性,无法直接判断其正确与否,需要对其他的相关数据进行分析才能判断其是否为错误数据。
步骤14可以按照如下方式实现:
第一步,对第一中间表存储的物流数据中指定字段下的数据进行异常检测。
第二步,当检测出指定字段下的数据异常时,对检测出的异常数据进行修正,得到最终表。
其中,第一步的异常检测过程可以但不限于按照如下方式实现:
首先,根据第一中间表中指定字段下的全部数据,确定指定字段对应的中位数。
所谓中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。
然后,根据指定字段对应的中位数,分别判断指定字段下的每个数据是否异常。
具体的,针对指定字段下的每个数据分别执行如下操作:
根据指定字段下的当前数据所属的物流数据,对中位数进行调整,得到调整后的中位数,再将指定字段下的当前数据和调整后的中位数进行比较,若指定字段下的当前数据超过调整后的中位数的预设倍数,则指定字段下的当前数据异常。
本申请实施例中,指定字段可以但不限于包括以下一种或多种:收入、物流票数、快递件数、快递重量、快递体积。
确定了指定字段对应的中位数之后,可以进一步根据车型字段、车长字段和线路字段下的数据对中位数进行调整,比如可以根据车型字段、车长字段和线路字段下的数据确定出一个调整系数,然后根据该调整系数对中位数进行调整,这样得到的调整后的中位数相比直接确定出的中位数,准确度会更高。
第二步的异常数据修正过程可以但不限于按照如下方式实现:
按照如下公式计算异常数据的修正值,并将异常数据替换为修正值,得到最终表:
Figure BDA0002195347120000081
其中,C为异常数据的修正值,M为指定字段对应的中位数,σ为指定字段下的全部数据的标准差,N为指定字段下的数据的总条数,xi为指定字段下的第i条数据值,r为指定字段下的全部数据的平均值。
需要说明的是,上述公式中的M也可以采用指定字段对应的调整后的中位数。
可选的,步骤14中对第一中间表存储的物流数据中指定字段下的数据进行第二清洗操作之后,还可以继续执行合并操作,以实现物流数据精简的目的。具体的,该方法还可以包括:
从第一中间表中,筛选出公司名称、日期、车牌号和线路均相同的第一物流数据;
将第一物流数据按照第一合并规则进行合并,得到第二中间表;其中,第一合并规则为:分别对第一物流数据中数据类型为数值型的字段下的数据取最大值;
从第二中间表中,筛选出公司名称、日期、发车地相同、到达地不同的第二物流数据;
将第二物流数据按照第二合并规则进行合并,得到第三中间表;其中,第二合并规则为:分别对第二物流数据中除距离、且数据类型为数值型的字段的数据求和,并将距离最远的到达地作为合并后的到达地;
从第三中间表中,筛选出公司名称、日期和到达地相同、发车地不同的第三物流数据;
将第三物流数据按照第三合并规则进行合并,得到最终表;其中,第三合并规则为:分别对第三物流数据中除距离、且数据类型为数值型的字段对应的数据求和,并将距离最远的发车地作为合并后的发车地。
采用本申请实施例中提供的数据处理方案,获取待处理的物流数据后,将物流数据按照新的表结构进行存储,生成原始表,其中新的表结构中包括多个表征物流属性的字段,然后对原始表存储的物流数据中各字段下的数据执行第一清洗操作,得到第一中间表,再对第一中间表存储的物流数据中指定字段下的数据进行第二清洗操作,从而得到最终表,其中第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作和多余数据清除操作,第二清洗操作包括异常数据纠正操作。本申请实施例中的方案不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。
基于同一发明构思,本申请实施例还提供了一种数据处理装置,该装置的各个设备解决问题的原理与上述货物抓取方法相似,重复之处不再赘述。
图2示出了本申请实施例提供的一种数据处理装置的结构示意图。
如图所示,所述数据处理装置,包括:
获取单元21,用于获取待处理的物流数据;
原始表生成单元22,用于将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
第一清洗单元23,用于对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
第二清洗单元24,用于对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。
可选的,第二清洗单元24,包括:
异常检测模块,用于对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测;
修正模块,用于当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表。
进一步的,异常检测模块,具体包括:
中位数确定子模块,用于根据所述第一中间表中所述指定字段下的全部数据,确定所述指定字段对应的中位数;
判断子模块,用于根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常。
进一步的,判断子模块,具体用于:
针对所述指定字段下的每个数据分别执行如下操作:
根据所述指定字段下的当前数据所属的物流数据,对所述中位数进行调整,得到调整后的中位数;
将所述指定字段下的当前数据和所述调整后的中位数进行比较,若所述指定字段下的当前数据超过所述调整后的中位数的预设倍数,则所述指定字段下的当前数据异常。
可选的,修正模块具体用于:
按照如下公式计算所述异常数据的修正值,并将所述异常数据替换为所述修正值,得到所述最终表:
Figure BDA0002195347120000111
Figure BDA0002195347120000112
其中,所述C为所述异常数据的修正值,所述M为所述指定字段对应的中位数,所述σ为所述指定字段下的全部数据的标准差,所述N为所述指定字段下的数据的总条数,所述xi为所述指定字段下的第i条数据值,所述r为所述指定字段下的全部数据的平均值。
可选的,所述表征物流属性的字段包括以下一种或多种:
公司名称、日期、车型、车长、车牌号、司机信息、发车地、到达地、线路、线路类型、距离、收入、物流票数、快递件数、快递重量、快递体积。
进一步的,所述装置还可以包括合并单元,用于:
从所述第一中间表中,筛选出所述公司名称、所述日期、所述车牌号和所述线路均相同的第一物流数据;
将所述第一物流数据按照第一合并规则进行合并,得到第二中间表;其中,所述第一合并规则为:分别对所述第一物流数据中数据类型为数值型的字段下的数据取最大值;
从所述第二中间表中,筛选出所述公司名称、所述日期、所述发车地相同、所述到达地不同的第二物流数据;
将所述第二物流数据按照第二合并规则进行合并,得到第三中间表;其中,所述第二合并规则为:分别对所述第二物流数据中除所述距离、且数据类型为数值型的字段的数据求和,并将所述距离最远的到达地作为合并后的到达地;
从所述第三中间表中,筛选出所述公司名称、所述日期和所述到达地相同、所述发车地不同的第三物流数据;
将所述第三物流数据按照第三合并规则进行合并,得到所述最终表;其中,所述第三合并规则为:分别对所述第三物流数据中除所述距离、且数据类型为数值型的字段对应的数据求和,并将所述距离最远的发车地作为合并后的发车地。
采用本申请实施例中提供的数据处理装置,不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。
基于同一发明构思,本申请实施例还提供一种计算机存储介质,下面进行说明。
所述计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述方法的步骤。
本申请实施例中提供的计算机存储介质,不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。
基于同一发明构思,本申请实施例还提供一种电子设备,下面进行说明。
图3示出了本申请实施例提供的一种电子设备的结构示意图。
如图所示,所述电子设备包括存储器301、以及一个或多个处理器302,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如实施例一所述的方法。
本申请实施例中提供的电子设备,不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理的物流数据;
将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。
2.根据权利要求1所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表,包括:
对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测;
当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表。
3.根据权利要求2所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测,包括:
根据所述第一中间表中所述指定字段下的全部数据,确定所述指定字段对应的中位数;
根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常。
4.根据权利要求3所述的方法,其特征在于,根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常,包括:
针对所述指定字段下的每个数据分别执行如下操作:
根据所述指定字段下的当前数据所属的物流数据,对所述中位数进行调整,得到调整后的中位数;
将所述指定字段下的当前数据和所述调整后的中位数进行比较,若所述指定字段下的当前数据超过所述调整后的中位数的预设倍数,则所述指定字段下的当前数据异常。
5.根据权利要求2所述的方法,其特征在于,当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表,包括:
按照如下公式计算所述异常数据的修正值,并将所述异常数据替换为所述修正值,得到所述最终表:
Figure FDA0002195347110000021
其中,所述C为所述异常数据的修正值,所述M为所述指定字段对应的中位数,所述σ为所述指定字段下的全部数据的标准差,所述N为所述指定字段下的数据的总条数,所述xi为所述指定字段下的第i条数据值,所述r为所述指定字段下的全部数据的平均值。
6.根据权利要求1所述的方法,其特征在于,所述表征物流属性的字段包括以下一种或多种:
公司名称、日期、车型、车长、车牌号、司机信息、发车地、到达地、线路、线路类型、距离、收入、物流票数、快递件数、快递重量、快递体积。
7.根据权利要求6所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作之后,所述方法还包括:
从所述第一中间表中,筛选出所述公司名称、所述日期、所述车牌号和所述线路均相同的第一物流数据;
将所述第一物流数据按照第一合并规则进行合并,得到第二中间表;其中,所述第一合并规则为:分别对所述第一物流数据中数据类型为数值型的字段下的数据取最大值;
从所述第二中间表中,筛选出所述公司名称、所述日期、所述发车地相同、所述到达地不同的第二物流数据;
将所述第二物流数据按照第二合并规则进行合并,得到第三中间表;其中,所述第二合并规则为:分别对所述第二物流数据中除所述距离、且数据类型为数值型的字段的数据求和,并将所述距离最远的到达地作为合并后的到达地;
从所述第三中间表中,筛选出所述公司名称、所述日期和所述到达地相同、所述发车地不同的第三物流数据;
将所述第三物流数据按照第三合并规则进行合并,得到所述最终表;其中,所述第三合并规则为:分别对所述第三物流数据中除所述距离、且数据类型为数值型的字段对应的数据求和,并将所述距离最远的发车地作为合并后的发车地。
8.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待处理的物流数据;
原始表生成单元,用于将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
第一清洗单元,用于对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
第二清洗单元,用于对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。
9.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述方法的步骤。
10.一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至7任一所述的方法。
CN201910846331.XA 2019-09-09 2019-09-09 一种数据处理方法、装置、设备和存储介质 Pending CN110716928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910846331.XA CN110716928A (zh) 2019-09-09 2019-09-09 一种数据处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910846331.XA CN110716928A (zh) 2019-09-09 2019-09-09 一种数据处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110716928A true CN110716928A (zh) 2020-01-21

Family

ID=69209764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910846331.XA Pending CN110716928A (zh) 2019-09-09 2019-09-09 一种数据处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110716928A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650865A (zh) * 2021-01-27 2021-04-13 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及系统
CN113064888A (zh) * 2021-03-25 2021-07-02 珠海格力电器股份有限公司 数据校对方法、装置和系统、服务器、设备
CN115760006A (zh) * 2022-11-29 2023-03-07 联仁健康医疗大数据科技股份有限公司 数据校正方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248641A1 (en) * 2008-03-25 2009-10-01 Ning Duan Method and apparatus for detecting anomalistic data record
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN108509485A (zh) * 2018-02-07 2018-09-07 深圳壹账通智能科技有限公司 数据的预处理方法、装置、计算机设备和存储介质
CN109766331A (zh) * 2018-12-06 2019-05-17 中科恒运股份有限公司 异常数据处理方法及装置
CN110162519A (zh) * 2019-04-17 2019-08-23 苏宁易购集团股份有限公司 数据清理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248641A1 (en) * 2008-03-25 2009-10-01 Ning Duan Method and apparatus for detecting anomalistic data record
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN108509485A (zh) * 2018-02-07 2018-09-07 深圳壹账通智能科技有限公司 数据的预处理方法、装置、计算机设备和存储介质
CN109766331A (zh) * 2018-12-06 2019-05-17 中科恒运股份有限公司 异常数据处理方法及装置
CN110162519A (zh) * 2019-04-17 2019-08-23 苏宁易购集团股份有限公司 数据清理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SPIDER_MAN_: "清理异常值(MAD:绝对中位差)", 《百度网页频道》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650865A (zh) * 2021-01-27 2021-04-13 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及系统
CN112650865B (zh) * 2021-01-27 2021-11-09 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及系统
WO2022160373A1 (zh) * 2021-01-27 2022-08-04 南威软件股份有限公司 一种基于灵活规则解决多区域证照数据冲突的方法及系统
CN113064888A (zh) * 2021-03-25 2021-07-02 珠海格力电器股份有限公司 数据校对方法、装置和系统、服务器、设备
CN113064888B (zh) * 2021-03-25 2021-12-07 珠海格力电器股份有限公司 数据校对方法、装置和系统、服务器、设备
CN115760006A (zh) * 2022-11-29 2023-03-07 联仁健康医疗大数据科技股份有限公司 数据校正方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110716928A (zh) 一种数据处理方法、装置、设备和存储介质
CN108959374B (zh) 数据存储方法、装置及电子设备
US20160092290A1 (en) Processing data errors for a data processing system
CN103389937A (zh) 一种界面测试方法和装置
CN108805180B (zh) 目标对象的检测方法及装置
CN111833594B (zh) 车流量预测方法、装置、电子设备及存储介质
CN111008805A (zh) 妥投时间确定方法、装置、存储介质与电子设备
CN110728422A (zh) 用于施工项目的建筑信息模型、方法、装置和结算系统
CN107633015A (zh) 一种数据处理方法、装置及设备
CN115357629A (zh) 用于金融数据流的处理方法、系统、电子装置及存储介质
CN113723637B (zh) 一种面向船舶维修体系的经济性修理级别分析方法及系统
CN113138990B (zh) 一种数据血缘构建、追溯方法、装置及设备
CN112583610A (zh) 系统状态的预测方法、装置、服务器及存储介质
CN112270319B (zh) 一种事件标注方法、装置及电子设备
CN114067326A (zh) 一种车牌号码补齐方法及装置
US20060161806A1 (en) Method and system of configuring a software program
CN115496440B (zh) 一种二手车库存量的确定方法及装置
US20160292610A1 (en) Method and device for real time prediction of timely delivery of telecom service orders
US9895846B2 (en) Multi-part counting system for three-dimensional printed parts
CN107783896B (zh) 一种数据处理模型的优化方法和装置
CN114648310A (zh) 供应商的行为数据分析方法、系统及装置
CN109491921B (zh) 埋点信息的管理方法和系统
CN114416686A (zh) 一种车辆设备指纹carid识别系统及识别方法
CN114490768A (zh) 结合rpa及ai的任务复核方法及其装置
CN110851344B (zh) 基于计算公式复杂性的大数据测试方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210319

Address after: 200333 room 3110, No. 100, Lane 130, Taopu Road, Putuo District, Shanghai

Applicant after: Shanghai zebra Laila Logistics Technology Co.,Ltd.

Address before: Room 308-1, area C, 1718 Daduhe Road, Putuo District, Shanghai 200333

Applicant before: Shanghai kjing XinDa science and Technology Group Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200121