CN112100161B - 数据处理方法及系统、电子设备及存储介质 - Google Patents
数据处理方法及系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112100161B CN112100161B CN201910874489.8A CN201910874489A CN112100161B CN 112100161 B CN112100161 B CN 112100161B CN 201910874489 A CN201910874489 A CN 201910874489A CN 112100161 B CN112100161 B CN 112100161B
- Authority
- CN
- China
- Prior art keywords
- address
- logistics
- dispatch
- data
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法及系统、电子设备及存储介质,数据处理方法包括:获取由多条数据记录构成的第一样本数据,依次检测每一条数据记录是否符合规范条件,若否,则执行第一数据清洗操作,第一数据清洗操作包括将不符合所述地址语义规范条件的记录修改为符合所述语义规范条件或删除不符合所述语义规范条件的记录。本发明能够对样本数据进行清洗处理,使得样本数据更加规范,提升了样本数据的可用性,也提升了基于样本数据训练出的分类器的模型精度和泛化能力。
Description
技术领域
本发明涉及一种数据清洗技术,特别涉及一种数据处理方法及系统、电子设备及存储介质。
背景技术
目前,主流电商平台均上线了智能分单系统,通过对物流快递地址进行分类,来自动生成分拣码,将用户收件地址自动映射到末端派件网点或派件员,来辅助快递企业进行分拣决策。现有技术中都是通过历史快递地址、派件网点等数据训练得到相应的地址分类器,但是现有技术中由于地址不规范或数据处理不规范导致历史样本数据可用性并不高,从而会影响到地址分类器的训练精度以及泛化能力。
发明内容
本发明要解决的技术问题是为了克服现有技术中历史样本数据可用性并不高,从而会影响到地址分类器的训练精度以及泛化能力的缺陷,提供一种数据处理方法及系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种数据处理方法,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
较佳地,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
较佳地,所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一数据清洗操作具体为:删除该条物流记录。
较佳地,所述数据处理方法还包括以下步骤:获取经过所述第一数据清洗操作所形成的第二样本数据;
遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
较佳地,所述检测每一个相同的第二地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述检测每一条相同的第二地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。
较佳地,判断所述派件单量是否满足要求的具体方法为:
基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;
将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
较佳地,所述数据处理方法还包括以下步骤:
获取经过所述第二数据清洗操作所形成的第三样本数据;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
较佳地,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。
本发明还提供了一种数据处理系统,包括:第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
条件设置模块,用于设置至少一个地址语义规范条件;
第一检测模块,用于依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
较佳地,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一清洗模块执行的第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
较佳地,所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一清洗模块执行的第一数据清洗操作具体为:删除该条物流记录。
较佳地,所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二检测模块,用于遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
较佳地,所述数据处理系统还包括:
第一分组模块,用于按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述第二检测模块具体用于在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。
较佳地,所述第二清洗模块具体用于:基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;并将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
较佳地,所述数据处理系统还包括:
第三获取模块,用于获取经过所述第二数据清洗操作所形成的第三样本数据;
第二分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第三检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第三清洗模块;
所述第三清洗模块用于执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
较佳地,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。
本发明还提供了一种数据处理方法,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则执行第一数据清洗操作;
所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
较佳地,所述检测每一个相同的用户地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第一样本数据中的物流记录进行分组;
所述检测每一条相同的用户地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点。
较佳地,判断所述派件单量是否满足要求的具体方法为:
基于正态分布,计算当前用户地址对应的派件网点的派件单量的均值μ和标准差σ;
将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
较佳地,所述数据处理方法还包括以下步骤:
获取经过所述第一数据清洗操作所形成的第二样本数据;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第二数据清洗操作,所述第二数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本发明还提供了一种数据处理系统,包括:
第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
第一检测模块,用于遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作;
所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
较佳地,所述数据处理系统还包括:
第一分组模块,用于按照时间段的划分对所述第一样本数据中的物流记录进行分组;
所述第一检测模块具体用于在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点。
较佳地,所述第一清洗模块具体用于:基于正态分布,计算当前用户地址对应的派件网点的派件单量的均值μ和标准差σ;并将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
较佳地,所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第二检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作,所述第二数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本发明还提供了一种数据处理方法,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第一数据清洗操作,所述第一数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
较佳地,所述用户地址包括第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
所述数据处理方法还包括:
获取经过所述第一数据清洗操作所形成的第二样本数据;
设置至少一个地址语义规范条件,依次检测所述第二样本数据中同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行第二数据清洗操作,所述第二数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
较佳地,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第二数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
较佳地,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第二数据清洗操作具体为:删除该条物流记录。
本发明还提供了一种数据处理系统,包括:
第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
第一分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第一检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作,所述第一数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
较佳地,所述用户地址包括第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二检测模块,用于设置至少一个地址语义规范条件,依次检测所述第二样本数据中同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作,所述第二数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
较佳地,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第二清洗模块执行的所述第二数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
较佳地,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第二清洗模块执行的所述第二数据清洗操作具体为:删除该条物流记录。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据处理方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据处理方法的步骤。
本发明的积极进步效果在于:本发明能够对包含物流记录的样本数据进行清洗处理,从而使得样本数据更加规范,提升了样本数据的可用性,进而也提升了基于样本数据训练出的地址分类器的模型精度和泛化能力。
附图说明
图1为本发明实施例1的数据处理方法的流程图。
图2为本发明实施例2的数据处理方法的流程图。
图3为本发明实施例3的数据处理方法的流程图。
图4为本发明实施例4的数据处理系统的模块示意图。
图5为本发明实施例5的数据处理系统的模块示意图。
图6为本发明实施例6的数据处理系统的模块示意图。
图7为本发明实施例7的数据处理方法的流程图。
图8为本发明实施例8的数据处理方法的流程图。
图9为本发明实施例9的数据处理系统的模块示意图。
图10为本发明实施例10的数据处理系统的模块示意图。
图11为本发明实施例11的数据处理方法的流程图。
图12为本发明实施例12的数据处理方法的流程图。
图13为本发明实施例13的数据处理系统的模块示意图。
图14为本发明实施例14的数据处理系统的模块示意图。
图15为本发明实施例15的电子设备的硬件结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供了一种数据处理方法,如图1所示,包括以下步骤:
步骤101、获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
其中,所述物流记录具体可以为电商平台的历史订单的物流记录,所述第一地址具体为基于用户选择操作而生成的地址或系统自动生成的地址,即用户在下单时通过电商平台的系统提供的下拉菜单所选择的地址,或者系统基于用户的基本信息或历史下单信息所自动生成的地址;所述第二地址为用户直接输入的地址,即用户通过手工方式填写的地址;优选地,所述第一地址和所述第二地址均为用户的收件地址。
步骤102、设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行步骤103;
步骤103、执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
其中,在步骤102中,所述地址语义规范条件具体可以包括:所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;即,如果所述第一地址和所述第二地址中均包括省信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括市信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括区县信息,那么二者必须一致;当然,行政区划还可以包括乡镇、街道等信息,在此就不再赘述,本实施例重点考虑省、市、区县这三个级别的行政区划;
而在步骤103中,所述第一数据清洗操作具体可以为:对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录;
即所述第一数据清洗操作具体会先对所述第二地址中的每一个行政区划级别进行判断,例如,假设所述第一地址为:广东省珠海市拱北区;所述第二地址为广东省广州市海珠区新港东路135号,在本实施例中,由于重点考虑省、市、区县这三个级别的行政区划,因此,对于所述第二地址来说,省、市、区县这三个级别的行政区划分别为广东省、广州市、海珠区,在步骤103的第一数据清洗操作中,会对这三个行政区划进行判断;
例如,对于广东省这一行政区划,由于其上一级别为中国,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的省级别的行政区划也修改为与第二地址中的省级别的行政区划一致即可,即对于省级别的行政区划,如果第一地址和第二地址中的不同,则将第一地址中的修改为与第二地址中的一致;
对于广州市这一行政区划,由于其上一级别为广东,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的市级别的行政区划也修改为与第二地址中的市级别的行政区划一致即可,即将第一地址中的珠海市修改为广州市;
同理,对于海珠区这一行政区划,由于其上一级别为广州市,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的区县级别的行政区划也修改为与第二地址中的区县级别的行政区划一致即可,即将第一地址中的天河区修改为海珠区;
这样,修改后的第一地址即变为广东省广州市海珠区,从而使得该条物流记录中的第一地址和第二地址符合所述地址语义规范条件。
当然,在执行所述第一数据清洗操作时,如果第二地址中当前级别的行政区划不隶属于上一级别的行政区划,则会直接删除该条物流记录,例如,假设某条物流记录中第二地址为广东省杭州市海珠区新港东路135号,由于杭州市并不隶属于广东省,因此,该条物流记录会被删除;当然,若是第二地址中的区县不属于市,该条物流记录也会被删除。
另外,在本实施例中,所述物流记录还可以包括派件网点,相应地,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;所述第一数据清洗操作具体为:删除该条物流记录。
即,当所述物流记录中包括派件网点时,如果派件网点和所述第二地址中均包括省信息但二者不相同、或均包括市信息但二者不相同,那么,该条物流记录就会被删除。在本实施例中,对于所述第二地址和所述派件网点的行政区划比较,重点只考虑省和市这两个级别,因此,其他级别的行政区划在此就不再赘述,如果考虑的话,其原理与省、市这两个级别一致。
例如,假设某条物流记录中所述第二地址为:广东省广州市天河区先烈中路11号,所述派件网点为:广东省珠海市拱北区派件网点,由于广州市和珠海市并不相同,二者在市这一级别的行政区划并不是同一个,那么在执行所述第一数据清洗操作时就会删除该条物流记录。
在本实施例中,通过上述的检测以及相应的第一数据清洗操作,实现了对存在地址语义冲突问题的物流记录的数据清洗,所谓地址语义冲突问题一般是由于地址填写不规范、商家恶意刷单等行为,导致地址内部或地址与网点之间存在语义冲突的问题,存在地址语义冲突问题的物流记录属于样本数据中的分类脏数据,不利于地址的正确解析,会影响分类算法精度,因此,需要对相应的物流记录予以剔除或纠偏;而本实施例充分考虑了存在地址语义冲突问题的物流记录具体存在的问题,通过对所述第一地址和所述第二地址进行比较、以及对所述第二地址和所述派件网点进行比较,将需要纠偏的物流记录进行纠偏处理(即将第一地址修改为与第二地址相匹配),将需要删除的物流记录进行删除处理,从而实现了对所述第一样本数据中分类脏数据的清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
另外,在本实施例的具体实施过程中,对于每一条物流记录,都可以提前对其中的第一地址、第二地址以及派件网点进行标准化解析处理,使其满足标准地址书写规范,例如,将地址中的“黑龙江”解析为“黑龙江省”,在进行地址解析时,可以采用开源工具,通过正则化匹配的方式来实现,这属于比较成熟的现有技术,在此就不再赘述。
实施例2
本实施例的数据处理方法在实施例1的基础上做了更进一步拓展,如图2所示,本实施例的数据处理方法在步骤103之后还包括以下步骤:
步骤104、获取经过所述第一数据清洗操作所形成的第二样本数据;
步骤105、遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则执行步骤106;
步骤106、执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
其中,步骤105中可以先对所述第二样本数据中的物流记录进行分组,具体可按照时间段进行分组,例如可以按照物流订单的签收时间所处的时间段,将同一天签收的物流订单的物流记录分在同一组;而在具体检测时,则可以在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点;在步骤106中,具体可以采用3σ法则对同一地址的派件网点的派件单量进行分析,具体地,可基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ,然后将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点,然后将派件单量不满足要求的派件网点所对应的物流记录予以删除。
在本实施例中,通过上述的检测以及相应的第二数据清洗操作,实现了对存在网点交叉乱派问题的物流记录的数据清洗,所述网点交叉乱派问题一般是由于干线分拨中心分拣错误、末端派件网点不规范操作等行为,导致针对同一地址在一定时间内出现多个派件网点交叉乱派的情况,而这会导致在训练样本数据中出现同一特征向量对应多个分类标签的情况,从而影响最终的分类效果;
本实施例充分考虑了存在网点交叉乱派问题的物流记录具体存在的问题,通过对物流记录中的第二地址检测其是否存在多个对应的派件网点,并将不满足派件单量要求的派件网点所对应的物流记录予以删除,即实现了对所述第二样本数据作进一步的数据清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
实施例3
本实施例的数据处理方法在实施例2的基础上做了更进一步拓展,如图3所示,本实施例的数据处理方法在步骤106之后还包括以下步骤:
步骤107、获取经过所述第二数据清洗操作所形成的第三样本数据;
步骤108、提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
步骤109、对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则执行步骤110;
步骤110、执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本实施例中,通过将物流记录按照地址特征进行分组,然后以组为单位对物流记录进行处理,对于每一组物流记录,当其中包含多个派件网点时,选取一个最合适的派件网点(本实施例中为出现频率最高的派件网点)作为关联派件网点,然后将该地址特征下的物流记录的派件网点记录均修改为该关联派件网点,从而实现了对于每一组物流记录其中的派件网点记录的统一,解决了派件网点过期失效的问题。所谓的派件网点过期失效的问题实质由于末端网络中出现派件网点的新建、撤销、切换等操作,导致同一地址的派件网点,在一段时间内发生变更,这会导致在训练样本数据时出现同一特征向量在一段时间内分类标签发生过渡变迁,从而影响到最终的分类效果,本实施例则很好地解决了这一技术问题,通过将每一组物流记录其中的派件网点记录统一,保证训练样本数据时对于同一特征向量在一段时间内分类标签保持稳定,从而保障了最终的分类效果。
实施例4
本实施例提供了一种数据处理系统,如图4所示,包括第一获取模块11、条件设置模块12、第一检测模块13以及第一清洗模块14;
其中,第一获取模块11用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
其中,所述物流记录具体可以为电商平台的历史订单的物流记录,所述第一地址具体为基于用户选择操作而生成的地址或系统自动生成的地址,即用户在下单时通过电商平台的系统提供的下拉菜单所选择的地址,或者系统基于用户的基本信息或历史下单信息所自动生成的地址;所述第二地址为用户直接输入的地址,即用户通过手工方式填写的地址;优选地,所述第一地址和所述第二地址均为用户的收件地址。
所述条件设置模块12用于设置至少一个地址语义规范条件,所述第一检测模块13用于依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第一清洗模块14;
所述第一清洗模块14用于执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
其中,所述地址语义规范条件具体可以包括:所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;即,如果所述第一地址和所述第二地址中均包括省信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括市信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括区县信息,那么二者必须一致;当然,行政区划还可以包括乡镇、街道等信息,在此就不再赘述,本实施例重点考虑省、市、区县这三个级别的行政区划;
所述第一清洗模块14执行的所述第一数据清洗操作具体可以为:对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录;
即所述第一数据清洗操作具体会先对所述第二地址中的每一个行政区划级别进行判断,例如,假设所述第一地址为:广东省珠海市拱北区;所述第二地址为广东省广州市海珠区新港东路135号,在本实施例中,由于重点考虑省、市、区县这三个级别的行政区划,因此,对于所述第二地址来说,省、市、区县这三个级别的行政区划分别为广东省、广州市、海珠区,在第一数据清洗操作中,会对这三个行政区划进行判断;
例如,对于广东省这一行政区划,由于其上一级别为中国,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的省级别的行政区划也修改为与第二地址中的省级别的行政区划一致即可,即对于省级别的行政区划,如果第一地址和第二地址中的不同,则将第一地址中的修改为与第二地址中的一致;
对于广州市这一行政区划,由于其上一级别为广东,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的市级别的行政区划也修改为与第二地址中的市级别的行政区划一致即可,即将第一地址中的珠海市修改为广州市;
同理,对于海珠区这一行政区划,由于其上一级别为广州市,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的区县级别的行政区划也修改为与第二地址中的区县级别的行政区划一致即可,即将第一地址中的天河区修改为海珠区;
这样,修改后的第一地址即变为广东省广州市海珠区,从而使得该条物流记录中的第一地址和第二地址符合所述地址语义规范条件。
当然,在执行所述第一数据清洗操作时,如果第二地址中当前级别的行政区划不隶属于上一级别的行政区划,则会直接删除该条物流记录,例如,假设某条物流记录中第二地址为广东省杭州市海珠区新港东路135号,由于杭州市并不隶属于广东省,因此,该条物流记录会被删除;当然,若是第二地址中的区县不属于市,该条物流记录也会被删除。
另外,在本实施例中,所述物流记录还可以包括派件网点,相应地,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;所述第一数据清洗操作具体为:删除该条物流记录。
即,当所述物流记录中包括派件网点时,如果派件网点和所述第二地址中均包括省信息但二者不相同、或均包括市信息但二者不相同,那么,该条物流记录就会被删除。在本实施例中,对于所述第二地址和所述派件网点的行政区划比较,重点只考虑省和市这两个级别,因此,其他级别的行政区划在此就不再赘述,如果考虑的话,其原理与省、市这两个级别一致。
例如,假设某条物流记录中所述第二地址为:广东省广州市天河区先烈中路11号,所述派件网点为:广东省珠海市拱北区派件网点,由于广州市和珠海市并不相同,二者在市这一级别的行政区划并不是同一个,那么在执行所述第一数据清洗操作时就会删除该条物流记录。
在本实施例中,通过上述的检测以及相应的第一数据清洗操作,实现了对存在地址语义冲突问题的物流记录的数据清洗,所谓地址语义冲突问题一般是由于地址填写不规范、商家恶意刷单等行为,导致地址内部或地址与网点之间存在语义冲突的问题,存在地址语义冲突问题的物流记录属于样本数据中的分类脏数据,不利于地址的正确解析,会影响分类算法精度,因此,需要对相应的物流记录予以剔除或纠偏;而本实施例充分考虑了存在地址语义冲突问题的物流记录具体存在的问题,通过对所述第一地址和所述第二地址进行比较、以及对所述第二地址和所述派件网点进行比较,将需要纠偏的物流记录进行纠偏处理(即将第一地址修改为与第二地址相匹配),将需要删除的物流记录进行删除处理,从而实现了对所述第一样本数据中分类脏数据的清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
另外,在本实施例的具体实施过程中,对于每一条物流记录,都可以提前对其中的第一地址、第二地址以及派件网点进行标准化解析处理,使其满足标准地址书写规范,例如,将地址中的“黑龙江”解析为“黑龙江省”,在进行地址解析时,可以采用开源工具,通过正则化匹配的方式来实现,这属于比较成熟的现有技术,在此就不再赘述。
实施例5
本实施例的数据处理系统在实施例4的基础上做了更进一步拓展,如图5所示,本实施例的数据处理系统还包括:第二获取模块15、第二检测模块16以及第二清洗模块17;
其中,所述第二获取模块15用于获取经过所述第一数据清洗操作所形成的第二样本数据;
所述第二检测模块16用于遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则调用第二清洗模块17;
所述第二清洗模块17用于执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
在本实施例的具体实施过程中,所述数据处理系统还包括:第一分组模块18,所述第一分组模块18用于按照时间段的划分对所述第二样本数据中的物流记录进行分组,例如可以按照物流订单的签收时间所处的时间段,将同一天签收的物流订单的物流记录分在同一组;而在具体检测时,则可以在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点;
所述第二清洗模块17具体可以采用3σ法则对同一地址的派件网点的派件单量进行分析,具体地,可基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ,然后将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点,然后将派件单量不满足要求的派件网点所对应的物流记录予以删除。
在本实施例中,通过上述的检测以及相应的第二数据清洗操作,实现了对存在网点交叉乱派问题的物流记录的数据清洗,所述网点交叉乱派问题一般是由于干线分拨中心分拣错误、末端派件网点不规范操作等行为,导致针对同一地址在一定时间内出现多个派件网点交叉乱派的情况,而这会导致在训练样本数据中出现同一特征向量对应多个分类标签的情况,从而影响最终的分类效果;
本实施例充分考虑了存在网点交叉乱派问题的物流记录具体存在的问题,通过对物流记录中的第二地址检测其是否存在多个对应的派件网点,并将不满足派件单量要求的派件网点所对应的物流记录予以删除,即实现了对所述第二样本数据作进一步的数据清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
实施例6
本实施例的数据处理系统在实施例5的基础上做了更进一步拓展,如图6所示,本实施例的数据处理系统还包括:第三获取模块191、第二分组模块192、第三检测模块193以及第三清洗模块194;
其中,所述第三获取模块191用于获取经过所述第二数据清洗操作所形成的第三样本数据;
所述第二分组模块192用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
所述第三检测模块193用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第三清洗模块194;
所述第三清洗模块194用于执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本实施例中,通过将物流记录按照地址特征进行分组,然后以组为单位对物流记录进行处理,对于每一组物流记录,当其中包含多个派件网点时,选取一个最合适的派件网点(本实施例中为出现频率最高的派件网点)作为关联派件网点,然后将该地址特征下的物流记录的派件网点记录均修改为该关联派件网点,从而实现了对于每一组物流记录其中的派件网点记录的统一,解决了派件网点过期失效的问题。所谓的派件网点过期失效的问题实质由于末端网络中出现派件网点的新建、撤销、切换等操作,导致同一地址的派件网点,在一段时间内发生变更,这会导致在训练样本数据时出现同一特征向量在一段时间内分类标签发生过渡变迁,从而影响到最终的分类效果,本实施例则很好地解决了这一技术问题,通过将每一组物流记录其中的派件网点记录统一,保证训练样本数据时对于同一特征向量在一段时间内分类标签保持稳定,从而保障了最终的分类效果。
实施例7
本实施例提供了一种数据处理方法,如图7所示,包括以下步骤:
步骤201、获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
其中,所述用户地址可以为基于用户选择操作而生成的地址或系统自动生成的地址,即用户在下单时通过电商平台的系统提供的下拉菜单所选择的地址,或者系统基于用户的基本信息或历史下单信息所自动生成的地址,或者可以为用户直接输入的地址,即用户通过手工方式填写的地址;并且,优选地,所述用户地址为用户的收件地址。
步骤202、遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则执行步骤203;
步骤203、执行第一数据清洗操作;所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除
其中,步骤202中可以先对所述第二样本数据中的物流记录进行分组,具体可按照时间段进行分组,例如可以按照物流订单的签收时间所处的时间段,将同一天签收的物流订单的物流记录分在同一组;而在具体检测时,则可以在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点;在步骤203中,具体可以采用3σ法则对同一地址的派件网点的派件单量进行分析,具体地,可基于正态分布,计算当前用户地址对应的派件网点的派件单量的均值μ和标准差σ,然后将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点,然后将派件单量不满足要求的派件网点所对应的物流记录予以删除。
在本实施例中,通过上述的检测以及相应的第一数据清洗操作,实现了对存在网点交叉乱派问题的物流记录的数据清洗,所述网点交叉乱派问题一般是由于干线分拨中心分拣错误、末端派件网点不规范操作等行为,导致针对同一地址在一定时间内出现多个派件网点交叉乱派的情况,而这会导致在训练样本数据中出现同一特征向量对应多个分类标签的情况,从而影响最终的分类效果;
本实施例充分考虑了存在网点交叉乱派问题的物流记录具体存在的问题,通过对物流记录中的用户地址检测其是否存在多个对应的派件网点,并将不满足派件单量要求的派件网点所对应的物流记录予以删除,即实现了对所述用户样本数据作进一步的数据清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
实施例8
本实施例的数据处理方法在实施例7的基础上做了更进一步拓展,如图8所示,本实施例的数据处理方法在步骤203之后还包括以下步骤:
步骤204、获取经过所述第一数据清洗操作所形成的第二样本数据;
步骤205、提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
步骤206、对于每一组物流记录,检测其是否包含多个不同的派件网点;若是,则执行步骤207;
步骤207、执行第二数据清洗操作,所述第二数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本实施例中,通过将物流记录按照地址特征进行分组,然后以组为单位对物流记录进行处理,对于每一组物流记录,当其中包含多个派件网点时,选取一个最合适的派件网点(本实施例中为出现频率最高的派件网点)作为关联派件网点,然后将该地址特征下的物流记录的派件网点记录均修改为该关联派件网点,从而实现了对于每一组物流记录其中的派件网点记录的统一,解决了派件网点过期失效的问题。所谓的派件网点过期失效的问题实质由于末端网络中出现派件网点的新建、撤销、切换等操作,导致同一地址的派件网点,在一段时间内发生变更,这会导致在训练样本数据时出现同一特征向量在一段时间内分类标签发生过渡变迁,从而影响到最终的分类效果,本实施例则很好地解决了这一技术问题,通过将每一组物流记录其中的派件网点记录统一,保证训练样本数据时对于同一特征向量在一段时间内分类标签保持稳定,从而保障了最终的分类效果。
实施例9
本实施例提供了一种数据处理系统,如图9所示,包括:第一获取模块21、第一检测模块22以及第一清洗模块23;
其中,所述第一获取模块21用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
其中,所述用户地址可以为基于用户选择操作而生成的地址或系统自动生成的地址,即用户在下单时通过电商平台的系统提供的下拉菜单所选择的地址,或者系统基于用户的基本信息或历史下单信息所自动生成的地址,或者可以为用户直接输入的地址,即用户通过手工方式填写的地址;并且,优选地,所述用户地址为用户的收件地址。
所述第一检测模块22用于遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则调用第一清洗模块23;
所述第一清洗模块23用于执行第一数据清洗操作;所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
在本实施例的具体实施过程中,所述数据处理系统还包括:第一分组模块24,所述第一分组模块24用于按照时间段的划分对所述第一样本数据中的物流记录进行分组,例如可以按照物流订单的签收时间所处的时间段,将同一天签收的物流订单的物流记录分在同一组;而在具体检测时,则可以在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点;
所述第一清洗模块23具体可以采用3σ法则对同一地址的派件网点的派件单量进行分析,具体地,可基于正态分布,计算当前用户地址对应的派件网点的派件单量的均值μ和标准差σ,然后将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点,然后将派件单量不满足要求的派件网点所对应的物流记录予以删除。
在本实施例中,通过上述的检测以及相应的第一数据清洗操作,实现了对存在网点交叉乱派问题的物流记录的数据清洗,所述网点交叉乱派问题一般是由于干线分拨中心分拣错误、末端派件网点不规范操作等行为,导致针对同一地址在一定时间内出现多个派件网点交叉乱派的情况,而这会导致在训练样本数据中出现同一特征向量对应多个分类标签的情况,从而影响最终的分类效果;
本实施例充分考虑了存在网点交叉乱派问题的物流记录具体存在的问题,通过对物流记录中的用户地址检测其是否存在多个对应的派件网点,并将不满足派件单量要求的派件网点所对应的物流记录予以删除,即实现了对所述用户样本数据作进一步的数据清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
实施例10
本实施例的数据处理系统在实施例9的基础上做了更进一步拓展,如图10所示,本实施例的数据处理系统还包括:第二获取模块25、第二分组模块26、第二检测模块27以及第二清洗模块28;
其中,所述第二获取模块25用于获取经过所述第一数据清洗操作所形成的第二样本数据;
所述第二分组模块26用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
所述第二检测模块27用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第二清洗模块28;
所述第二清洗模块28用于执行第二数据清洗操作,所述第二数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点.
本实施例中,通过将物流记录按照地址特征进行分组,然后以组为单位对物流记录进行处理,对于每一组物流记录,当其中包含多个派件网点时,选取一个最合适的派件网点(本实施例中为出现频率最高的派件网点)作为关联派件网点,然后将该地址特征下的物流记录的派件网点记录均修改为该关联派件网点,从而实现了对于每一组物流记录其中的派件网点记录的统一,解决了派件网点过期失效的问题。所谓的派件网点过期失效的问题实质由于末端网络中出现派件网点的新建、撤销、切换等操作,导致同一地址的派件网点,在一段时间内发生变更,这会导致在训练样本数据时出现同一特征向量在一段时间内分类标签发生过渡变迁,从而影响到最终的分类效果,本实施例则很好地解决了这一技术问题,通过将每一组物流记录其中的派件网点记录统一,保证训练样本数据时对于同一特征向量在一段时间内分类标签保持稳定,从而保障了最终的分类效果。
实施例11
本实施例提供了一种数据处理方法,如图11所示,包括以下步骤:
步骤301、获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
步骤302、提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
步骤303、对于每一组物流记录,检测其是否包含多个不同的派件网点;若是,则执行步骤304;
步骤304、执行第一数据清洗操作,所述第一数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本实施例中,通过将物流记录按照地址特征进行分组,然后以组为单位对物流记录进行处理,对于每一组物流记录,当其中包含多个派件网点时,选取一个最合适的派件网点(本实施例中为出现频率最高的派件网点)作为关联派件网点,然后将该地址特征下的物流记录的派件网点记录均修改为该关联派件网点,从而实现了对于每一组物流记录其中的派件网点记录的统一,解决了派件网点过期失效的问题。所谓的派件网点过期失效的问题实质由于末端网络中出现派件网点的新建、撤销、切换等操作,导致同一地址的派件网点,在一段时间内发生变更,这会导致在训练样本数据时出现同一特征向量在一段时间内分类标签发生过渡变迁,从而影响到最终的分类效果,本实施例则很好地解决了这一技术问题,通过将每一组物流记录其中的派件网点记录统一,保证训练样本数据时对于同一特征向量在一段时间内分类标签保持稳定,从而保障了最终的分类效果。
实施例12
本实施例的数据处理方法在实施例11的基础上做了更进一步拓展,在本实施例中,所述用户地址包括第一地址、第二地址中的至少一个;
其中,所述物流记录具体可以为电商平台的历史订单的物流记录,所述第一地址具体为基于用户选择操作而生成的地址或系统自动生成的地址,即用户在下单时通过电商平台的系统提供的下拉菜单所选择的地址,或者系统基于用户的基本信息或历史下单信息所自动生成的地址;所述第二地址为用户直接输入的地址,即用户通过手工方式填写的地址;优选地,所述第一地址和所述第二地址均为用户的收件地址。
如图12所示,本实施例的数据处理方法在步骤304之后还包括以下步骤:
步骤305、获取经过所述第一数据清洗操作所形成的第二样本数据;
步骤306、设置至少一个地址语义规范条件,依次检测所述第二样本数据中同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行步骤307;
步骤307、执行第二数据清洗操作,所述第二数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
其中,在步骤306中,所述地址语义规范条件具体可以包括:所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;即,如果所述第一地址和所述第二地址中均包括省信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括市信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括区县信息,那么二者必须一致;当然,行政区划还可以包括乡镇、街道等信息,在此就不再赘述,本实施例重点考虑省、市、区县这三个级别的行政区划;
而在步骤307中,所述第二数据清洗操作具体可以为:对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录;
即所述第二数据清洗操作具体会先对所述第二地址中的每一个行政区划级别进行判断,例如,假设所述第一地址为:广东省珠海市拱北区;所述第二地址为广东省广州市海珠区新港东路135号,在本实施例中,由于重点考虑省、市、区县这三个级别的行政区划,因此,对于所述第二地址来说,省、市、区县这三个级别的行政区划分别为广东省、广州市、海珠区,在步骤307的第二数据清洗操作中,会对这三个行政区划进行判断;
例如,对于广东省这一行政区划,由于其上一级别为中国,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的省级别的行政区划也修改为与第二地址中的省级别的行政区划一致即可,即对于省级别的行政区划,如果第一地址和第二地址中的不同,则将第一地址中的修改为与第二地址中的一致;
对于广州市这一行政区划,由于其上一级别为广东,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的市级别的行政区划也修改为与第二地址中的市级别的行政区划一致即可,即将第一地址中的珠海市修改为广州市;
同理,对于海珠区这一行政区划,由于其上一级别为广州市,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的区县级别的行政区划也修改为与第二地址中的区县级别的行政区划一致即可,即将第一地址中的天河区修改为海珠区;
这样,修改后的第一地址即变为广东省广州市海珠区,从而使得该条物流记录中的第一地址和第二地址符合所述地址语义规范条件。
当然,在执行所述第二数据清洗操作时,如果第二地址中当前级别的行政区划不隶属于上一级别的行政区划,则会直接删除该条物流记录,例如,假设某条物流记录中第二地址为广东省杭州市海珠区新港东路135号,由于杭州市并不隶属于广东省,因此,该条物流记录会被删除;当然,若是第二地址中的区县不属于市,该条物流记录也会被删除。
在本实施例中,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;所述第二数据清洗操作具体为:删除该条物流记录。
即,当所述物流记录中包括派件网点时,如果派件网点和所述第二地址中均包括省信息但二者不相同、或均包括市信息但二者不相同,那么,该条物流记录就会被删除。在本实施例中,对于所述第二地址和所述派件网点的行政区划比较,重点只考虑省和市这两个级别,因此,其他级别的行政区划在此就不再赘述,如果考虑的话,其原理与省、市这两个级别一致。
例如,假设某条物流记录中所述第二地址为:广东省广州市天河区先烈中路11号,所述派件网点为:广东省珠海市拱北区派件网点,由于广州市和珠海市并不相同,二者在市这一级别的行政区划并不是同一个,那么在执行所述第二数据清洗操作时就会删除该条物流记录。
在本实施例中,通过上述的检测以及相应的第二数据清洗操作,实现了对存在地址语义冲突问题的物流记录的数据清洗,所谓地址语义冲突问题一般是由于地址填写不规范、商家恶意刷单等行为,导致地址内部或地址与网点之间存在语义冲突的问题,存在地址语义冲突问题的物流记录属于样本数据中的分类脏数据,不利于地址的正确解析,会影响分类算法精度,因此,需要对相应的物流记录予以剔除或纠偏;而本实施例充分考虑了存在地址语义冲突问题的物流记录具体存在的问题,通过对所述第一地址和所述第二地址进行比较、以及对所述第二地址和所述派件网点进行比较,将需要纠偏的物流记录进行纠偏处理(即将第一地址修改为与第二地址相匹配),将需要删除的物流记录进行删除处理,从而实现了对所述第二样本数据中分类脏数据的清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
另外,在本实施例的具体实施过程中,对于每一条物流记录,都可以提前对其中的第一地址、第二地址以及派件网点进行标准化解析处理,使其满足标准地址书写规范,例如,将地址中的“黑龙江”解析为“黑龙江省”,在进行地址解析时,可以采用开源工具,通过正则化匹配的方式来实现,这属于比较成熟的现有技术,在此就不再赘述。
实施例13
本实施例提供了一种数据处理系统,如图13所示,包括:第一获取模块31、第一分组模块32、第一检测模块33以及第一清洗模块34;
其中,所述第一获取模块31用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
所述第一分组模块32用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
所述第一检测模块33用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第一清洗模块34;
所述第一清洗模块34用于执行第一数据清洗操作,所述第一数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
本实施例中,通过将物流记录按照地址特征进行分组,然后以组为单位对物流记录进行处理,对于每一组物流记录,当其中包含多个派件网点时,选取一个最合适的派件网点(本实施例中为出现频率最高的派件网点)作为关联派件网点,然后将该地址特征下的物流记录的派件网点记录均修改为该关联派件网点,从而实现了对于每一组物流记录其中的派件网点记录的统一,解决了派件网点过期失效的问题。所谓的派件网点过期失效的问题实质由于末端网络中出现派件网点的新建、撤销、切换等操作,导致同一地址的派件网点,在一段时间内发生变更,这会导致在训练样本数据时出现同一特征向量在一段时间内分类标签发生过渡变迁,从而影响到最终的分类效果,本实施例则很好地解决了这一技术问题,通过将每一组物流记录其中的派件网点记录统一,保证训练样本数据时对于同一特征向量在一段时间内分类标签保持稳定,从而保障了最终的分类效果。
实施例14
本实施例的数据处理系统在实施例13的基础上做了更进一步拓展,在本实施例中,所述用户地址包括第一地址、第二地址中的至少一个;
其中,所述物流记录具体可以为电商平台的历史订单的物流记录,所述第一地址具体为基于用户选择操作而生成的地址或系统自动生成的地址,即用户在下单时通过电商平台的系统提供的下拉菜单所选择的地址,或者系统基于用户的基本信息或历史下单信息所自动生成的地址;所述第二地址为用户直接输入的地址,即用户通过手工方式填写的地址;优选地,所述第一地址和所述第二地址均为用户的收件地址。
如图14所示,本实施例的数据处理系统还包括:第二获取模块35、第二检测模块36以及第二清洗模块37;
其中,所述第二获取模块35用于获取经过所述第一数据清洗操作所形成的第二样本数据;
所述第二检测模块36用于设置至少一个地址语义规范条件,依次检测所述第二样本数据中同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第二清洗模块37;
所述第二清洗模块37用于执行第二数据清洗操作,所述第二数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
其中,所述地址语义规范条件具体可以包括:所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;即,如果所述第一地址和所述第二地址中均包括省信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括市信息,那么二者必须一致,如果所述第一地址和所述第二地址中均包括区县信息,那么二者必须一致;当然,行政区划还可以包括乡镇、街道等信息,在此就不再赘述,本实施例重点考虑省、市、区县这三个级别的行政区划;
所述第二数据清洗操作具体可以为:对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录;
即所述第二数据清洗操作具体会先对所述第二地址中的每一个行政区划级别进行判断,例如,假设所述第一地址为:广东省珠海市拱北区;所述第二地址为广东省广州市海珠区新港东路135号,在本实施例中,由于重点考虑省、市、区县这三个级别的行政区划,因此,对于所述第二地址来说,省、市、区县这三个级别的行政区划分别为广东省、广州市、海珠区,在所述第二数据清洗操作中,会对这三个行政区划进行判断;
例如,对于广东省这一行政区划,由于其上一级别为中国,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的省级别的行政区划也修改为与第二地址中的省级别的行政区划一致即可,即对于省级别的行政区划,如果第一地址和第二地址中的不同,则将第一地址中的修改为与第二地址中的一致;
对于广州市这一行政区划,由于其上一级别为广东,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的市级别的行政区划也修改为与第二地址中的市级别的行政区划一致即可,即将第一地址中的珠海市修改为广州市;
同理,对于海珠区这一行政区划,由于其上一级别为广州市,因此,其符合判断为是的情况,此时,只需要将所述第一地址中的区县级别的行政区划也修改为与第二地址中的区县级别的行政区划一致即可,即将第一地址中的天河区修改为海珠区;
这样,修改后的第一地址即变为广东省广州市海珠区,从而使得该条物流记录中的第一地址和第二地址符合所述地址语义规范条件。
当然,在执行所述第二数据清洗操作时,如果第二地址中当前级别的行政区划不隶属于上一级别的行政区划,则会直接删除该条物流记录,例如,假设某条物流记录中第二地址为广东省杭州市海珠区新港东路135号,由于杭州市并不隶属于广东省,因此,该条物流记录会被删除;当然,若是第二地址中的区县不属于市,该条物流记录也会被删除。
在本实施例中,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;所述第二数据清洗操作具体为:删除该条物流记录。
即,当所述物流记录中包括派件网点时,如果派件网点和所述第二地址中均包括省信息但二者不相同、或均包括市信息但二者不相同,那么,该条物流记录就会被删除。在本实施例中,对于所述第二地址和所述派件网点的行政区划比较,重点只考虑省和市这两个级别,因此,其他级别的行政区划在此就不再赘述,如果考虑的话,其原理与省、市这两个级别一致。
例如,假设某条物流记录中所述第二地址为:广东省广州市天河区先烈中路11号,所述派件网点为:广东省珠海市拱北区派件网点,由于广州市和珠海市并不相同,二者在市这一级别的行政区划并不是同一个,那么在执行所述第二数据清洗操作时就会删除该条物流记录。
在本实施例中,通过上述的检测以及相应的第二数据清洗操作,实现了对存在地址语义冲突问题的物流记录的数据清洗,所谓地址语义冲突问题一般是由于地址填写不规范、商家恶意刷单等行为,导致地址内部或地址与网点之间存在语义冲突的问题,存在地址语义冲突问题的物流记录属于样本数据中的分类脏数据,不利于地址的正确解析,会影响分类算法精度,因此,需要对相应的物流记录予以剔除或纠偏;而本实施例充分考虑了存在地址语义冲突问题的物流记录具体存在的问题,通过对所述第一地址和所述第二地址进行比较、以及对所述第二地址和所述派件网点进行比较,将需要纠偏的物流记录进行纠偏处理(即将第一地址修改为与第二地址相匹配),将需要删除的物流记录进行删除处理,从而实现了对所述第二样本数据中分类脏数据的清洗,最大限度地保留对分类有益的物流记录数据,从而在后续进行地址分类处理时能够提升分类算法精度。
另外,在本实施例的具体实施过程中,对于每一条物流记录,都可以提前对其中的第一地址、第二地址以及派件网点进行标准化解析处理,使其满足标准地址书写规范,例如,将地址中的“黑龙江”解析为“黑龙江省”,在进行地址解析时,可以采用开源工具,通过正则化匹配的方式来实现,这属于比较成熟的现有技术,在此就不再赘述。
实施例15
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1-3中任意一实施例提供的数据处理方法、或实现实施例7或8提供的数据处理方法、或实现实施例11或12提供的数据处理方法。
图15示出了本实施例的硬件结构示意图,如图15所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1-3中任意一实施例提供的数据处理方法、或实现实施例7或8提供的数据处理方法、或实现实施例11或12提供的数据处理方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例16
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例1-3中任意一实施例提供的数据处理方法、或实现实施例7或8提供的数据处理方法、或实现实施例11或12提供的数据处理方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现本发明实施例1-3中任意一实施例提供的数据处理方法、或实现实施例7或8提供的数据处理方法、或实现实施例11或12提供的数据处理方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (34)
1.一种数据处理方法,其特征在于,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录中,第一地址和第二地址的比较是否符合所述地址语义规范条件,若否,则执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
2.如权利要求1所述的数据处理方法,其特征在于,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
3.如权利要求1或2所述的数据处理方法,其特征在于,
所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一数据清洗操作具体为:删除该条物流记录。
4.如权利要求3所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:获取经过所述第一数据清洗操作所形成的第二样本数据;
遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
5.如权利要求4所述的数据处理方法,其特征在于,所述检测每一个相同的第二地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述检测每一条相同的第二地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。
6.如权利要求4所述的数据处理方法,其特征在于,
判断所述派件单量是否满足要求的具体方法为:
基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;
将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
7.如权利要求4-6中任意一项所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:
获取经过所述第二数据清洗操作所形成的第三样本数据;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
8.如权利要求4-6中任意一项所述的数据处理方法,其特征在于,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。
9.一种数据处理系统,其特征在于,包括:第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
条件设置模块,用于设置至少一个地址语义规范条件;
第一检测模块,用于依次检测同时包含有第一地址和第二地址的每一条物流记录中,第一地址和第二地址的比较是否符合所述地址语义规范条件,若否,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
10.如权利要求9所述的数据处理系统,其特征在于,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一清洗模块执行的第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
11.如权利要求9或10所述的数据处理系统,其特征在于,所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一清洗模块执行的第一数据清洗操作具体为:删除该条物流记录。
12.如权利要求11所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二检测模块,用于遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
13.如权利要求12所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第一分组模块,用于按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述第二检测模块具体用于在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。
14.如权利要求12所述的数据处理系统,其特征在于,所述第二清洗模块具体用于:基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;并将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
15.如权利要求12-14中任意一项所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第三获取模块,用于获取经过所述第二数据清洗操作所形成的第三样本数据;
第二分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第三检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第三清洗模块;
所述第三清洗模块用于执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
16.如权利要求12-14中任意一项所述的数据处理系统,其特征在于,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。
17.一种数据处理方法,其特征在于,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则执行第一数据清洗操作;
所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
18.如权利要求17所述的数据处理方法,其特征在于,所述检测每一个相同的用户地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第一样本数据中的物流记录进行分组;
所述检测每一条相同的用户地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点。
19.如权利要求17所述的数据处理方法,其特征在于,
判断所述派件单量是否满足要求的具体方法为:
基于正态分布,计算当前用户地址对应的派件网点的派件单量的均值μ和标准差σ;
将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
20.如权利要求17-19中任意一项所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:
获取经过所述第一数据清洗操作所形成的第二样本数据;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第二数据清洗操作,所述第二数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
21.一种数据处理系统,其特征在于,包括:
第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
第一检测模块,用于遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作;
所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。
22.如权利要求21所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第一分组模块,用于按照时间段的划分对所述第一样本数据中的物流记录进行分组;
所述第一检测模块具体用于在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点。
23.如权利要求21所述的数据处理系统,其特征在于,所述第一清洗模块具体用于:基于正态分布,计算当前用户地址对应的派件网点的派件单量的均值μ和标准差σ;并将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。
24.如权利要求21-23中任意一项所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第二检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作,所述第二数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
25.一种数据处理方法,其特征在于,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第一数据清洗操作,所述第一数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
26.如权利要求25所述的数据处理方法,其特征在于,所述用户地址包括第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
所述数据处理方法还包括:
获取经过所述第一数据清洗操作所形成的第二样本数据;
设置至少一个地址语义规范条件,依次检测所述第二样本数据中同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行第二数据清洗操作,所述第二数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
27.如权利要求26所述的数据处理方法,其特征在于,
所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第二数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
28.如权利要求26或27所述的数据处理方法,其特征在于,
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第二数据清洗操作具体为:删除该条物流记录。
29.一种数据处理系统,其特征在于,包括:
第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
第一分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第一检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作,所述第一数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的用户地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。
30.如权利要求29所述的数据处理系统,其特征在于,所述用户地址包括第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二检测模块,用于设置至少一个地址语义规范条件,依次检测所述第二样本数据中同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作,所述第二数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。
31.如权利要求30所述的数据处理系统,其特征在于,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第二清洗模块执行的所述第二数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。
32.如权利要求30或31所述的数据处理系统,其特征在于,所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第二清洗模块执行的所述第二数据清洗操作具体为:删除该条物流记录。
33.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的数据处理方法,或实现权利要求17至20中任一项所述的数据处理方法,或实现权利要求25至28中任一项所述的数据处理方法。
34.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的数据处理方法的步骤,或实现权利要求17至20中任一项所述的数据处理方法的步骤,或实现权利要求25至28中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910874489.8A CN112100161B (zh) | 2019-09-17 | 2019-09-17 | 数据处理方法及系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910874489.8A CN112100161B (zh) | 2019-09-17 | 2019-09-17 | 数据处理方法及系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100161A CN112100161A (zh) | 2020-12-18 |
CN112100161B true CN112100161B (zh) | 2021-05-28 |
Family
ID=73749000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910874489.8A Active CN112100161B (zh) | 2019-09-17 | 2019-09-17 | 数据处理方法及系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100161B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7516103B1 (en) * | 2001-03-09 | 2009-04-07 | Whitefence, Inc. | Method and apparatus for facilitating electronic acquisition and maintenance of goods and services via the internet |
CN103279523A (zh) * | 2013-05-29 | 2013-09-04 | 北京京东尚科信息技术有限公司 | 一种处理地址信息的方法和装置 |
CN103593591A (zh) * | 2013-11-15 | 2014-02-19 | 华中科技大学 | 一种基于rbac访问控制模型的用户信息访问控制方法 |
CN103685371A (zh) * | 2012-09-10 | 2014-03-26 | 上海丫丫信息科技有限公司 | 基于在线地图选择用户地点信息的方法 |
CN106269528A (zh) * | 2015-05-20 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 提供地址分拣信息的方法及装置 |
CN106296209A (zh) * | 2015-06-05 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 地址输入控制方法及装置 |
CN106296059A (zh) * | 2015-06-02 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 派送网点确定方法及设备 |
CN106709065A (zh) * | 2017-01-19 | 2017-05-24 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN107093038A (zh) * | 2016-11-18 | 2017-08-25 | 北京小度信息科技有限公司 | 配送方式选择方法和装置 |
CN108228825A (zh) * | 2018-01-02 | 2018-06-29 | 北京市燃气集团有限责任公司 | 一种基于分词的用户地址数据清洗方法 |
KR20180126063A (ko) * | 2016-03-31 | 2018-11-26 | 차이니아오 스마트 로지스틱스 홀딩스 리미티드 | 물류 자원을 스케줄링하기 위한 방법, 장치 및 시스템 |
CN109005249A (zh) * | 2018-07-27 | 2018-12-14 | 国政通科技有限公司 | 一种地址数据补充装置 |
CN109255565A (zh) * | 2017-07-14 | 2019-01-22 | 菜鸟智能物流控股有限公司 | 地址的归属识别和物流任务的分发方法及其装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7149780B2 (en) * | 2001-12-14 | 2006-12-12 | Pitney Bowes Inc. | Method for determining e-mail address format rules |
US7277898B2 (en) * | 2004-12-23 | 2007-10-02 | Pitney Bowes Inc. | Certification of address records for use in address hygiene |
US20120245954A1 (en) * | 2011-03-22 | 2012-09-27 | MRCS Holdings LLC | Medical Record Collection System |
CN102955833B (zh) * | 2011-08-31 | 2015-11-25 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
US20130159091A1 (en) * | 2011-12-19 | 2013-06-20 | William Anthony Harper | Hosted website access prompted by product |
CN103324749B (zh) * | 2013-07-05 | 2016-06-22 | 中邮科通信技术股份有限公司 | 一种基于标准文本地址的空间化解析及纠偏方法 |
CN103440312B (zh) * | 2013-08-27 | 2019-01-22 | 深圳市华傲数据技术有限公司 | 一种通信地址查询邮政编码的系统及终端 |
CN103984735B (zh) * | 2014-05-21 | 2017-02-15 | 北京京东尚科信息技术有限公司 | 一种用于生成推荐配送地点名称的方法和装置 |
CN104166679B (zh) * | 2014-07-08 | 2018-10-09 | 北京迪威特科技有限公司 | 一种用于分拣的地址匹配方法 |
CN106033460A (zh) * | 2015-03-19 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 地址数据处理方法及装置 |
CN106156145A (zh) * | 2015-04-13 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种地址数据的管理方法和装置 |
CN106649386A (zh) * | 2015-11-03 | 2017-05-10 | 圆通速递有限公司 | 一种客户信息搜索云系统 |
CN107133752B (zh) * | 2016-02-29 | 2022-01-28 | 菜鸟智能物流控股有限公司 | 用于物流配送的数据处理、基于配送方的移动终端进行物流配送的方法和装置 |
CN114037589A (zh) * | 2016-06-13 | 2022-02-11 | 北京嘀嘀无限科技发展有限公司 | 一种上车点推荐处理方法及系统 |
CN106649803A (zh) * | 2016-12-29 | 2017-05-10 | 华南师范大学 | 一种地址匹配方法及系统 |
-
2019
- 2019-09-17 CN CN201910874489.8A patent/CN112100161B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7516103B1 (en) * | 2001-03-09 | 2009-04-07 | Whitefence, Inc. | Method and apparatus for facilitating electronic acquisition and maintenance of goods and services via the internet |
CN103685371A (zh) * | 2012-09-10 | 2014-03-26 | 上海丫丫信息科技有限公司 | 基于在线地图选择用户地点信息的方法 |
CN103279523A (zh) * | 2013-05-29 | 2013-09-04 | 北京京东尚科信息技术有限公司 | 一种处理地址信息的方法和装置 |
CN103593591A (zh) * | 2013-11-15 | 2014-02-19 | 华中科技大学 | 一种基于rbac访问控制模型的用户信息访问控制方法 |
CN106269528A (zh) * | 2015-05-20 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 提供地址分拣信息的方法及装置 |
CN106296059A (zh) * | 2015-06-02 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 派送网点确定方法及设备 |
CN106296209A (zh) * | 2015-06-05 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 地址输入控制方法及装置 |
KR20180126063A (ko) * | 2016-03-31 | 2018-11-26 | 차이니아오 스마트 로지스틱스 홀딩스 리미티드 | 물류 자원을 스케줄링하기 위한 방법, 장치 및 시스템 |
CN107093038A (zh) * | 2016-11-18 | 2017-08-25 | 北京小度信息科技有限公司 | 配送方式选择方法和装置 |
CN106709065A (zh) * | 2017-01-19 | 2017-05-24 | 国家电网公司 | 一种地址信息标准化处理方法及装置 |
CN109255565A (zh) * | 2017-07-14 | 2019-01-22 | 菜鸟智能物流控股有限公司 | 地址的归属识别和物流任务的分发方法及其装置 |
CN108228825A (zh) * | 2018-01-02 | 2018-06-29 | 北京市燃气集团有限责任公司 | 一种基于分词的用户地址数据清洗方法 |
CN109005249A (zh) * | 2018-07-27 | 2018-12-14 | 国政通科技有限公司 | 一种地址数据补充装置 |
Non-Patent Citations (1)
Title |
---|
基于Hadoop的物流历史数据聚类挖掘研究;苏金;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115;I138-763 * |
Also Published As
Publication number | Publication date |
---|---|
CN112100161A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502509B (zh) | 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置 | |
CN111080304A (zh) | 一种可信关系识别方法、装置及设备 | |
CN109800220B (zh) | 一种大数据清洗方法、系统及相关装置 | |
CN109660533B (zh) | 实时识别异常流量的方法、装置、计算机设备和存储介质 | |
CN109978619B (zh) | 机票定价策略筛选的方法、系统、设备以及介质 | |
CN111966766A (zh) | 地址信息的检测方法、系统、电子设备和存储介质 | |
CN110471945B (zh) | 活跃数据的处理方法、系统、计算机设备和存储介质 | |
CN110275889B (zh) | 一种适用于机器学习的特征处理方法及装置 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN109684309A (zh) | 一种数据质量评测方法及装置、计算机设备和存储介质 | |
CN112084448B (zh) | 相似信息处理方法以及装置 | |
CN116415206A (zh) | 运营商多数据融合方法、系统、电子设备及计算机存储介质 | |
CN113538154A (zh) | 风险对象的识别方法、装置、存储介质和电子设备 | |
CN109344255B (zh) | 标签的填充方法及终端设备 | |
CN115689334A (zh) | 仓库管理系统的效率分析方法、系统及计算机设备 | |
CN115576834A (zh) | 支撑故障还原的软件测试复用方法、系统、终端及介质 | |
CN115100739A (zh) | 人机行为检测方法、系统、终端设备及存储介质 | |
CN114676961A (zh) | 企业外迁风险预测方法、装置及计算机可读存储介质 | |
CN110276609B (zh) | 业务数据处理方法及装置、电子设备、计算机可读介质 | |
CN110019193B (zh) | 相似帐号识别方法、装置、设备、系统及可读介质 | |
CN112100161B (zh) | 数据处理方法及系统、电子设备及存储介质 | |
CN110119784B (zh) | 一种订单推荐方法及装置 | |
CN111930725A (zh) | 一种配用电数据压缩、融合方法及装置 | |
CN109739840A (zh) | 数据空值处理方法、装置及终端设备 | |
CN114359670A (zh) | 非结构化数据标注方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210826 Address after: Room 2902, No. 533, Loushanguan Road, Changning District, Shanghai 200050 Patentee after: Walnut Street (Shanghai) Information Technology Co.,Ltd. Address before: Room 2902-2913, No. 533, Loushanguan Road, Changning District, Shanghai, 200051 Patentee before: SHANGHAI XUNMENG INFORMATION TECHNOLOGY Co.,Ltd. |