CN109165119B

CN109165119B - 一种电子商务数据处理方法和系统

Info

Publication number: CN109165119B
Application number: CN201810889530.4A
Authority: CN
Inventors: 左梅兰; 郭子森
Original assignee: Hangzhou Golden Litchi Technology Co ltd
Current assignee: Hangzhou golden litchi Technology Co.,Ltd.
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2021-05-14
Anticipated expiration: 2038-08-07
Also published as: CN109165119A

Abstract

本发明公开了一种电子商务数据处理方法和系统，通过将电子商务中大量数据根据数据集属性的不同合并成多个数据集，并且对数据预先进行预处理，降低数据维度，建立多条处理线程，合理计算参考数据与其他数据之间的数据相似度值，从而确定数据集中的每个数据是否具有较好的关联度，最终确定是否保留该数据。该方法大大减小算法的时间复杂度，提高资源对象的创建和处理，缩短数据总量的处理时间，减小数据处理的误差。

Description

一种电子商务数据处理方法和系统

技术领域

本发明涉及计算机数据处理技术领域，特别涉及一种电子商务数据处理方法和系统。

背景技术

近年来，电子商务蓬勃发展，人们越来越多地使用网络远程购物。在良好的互联网环境下，电子商务发展迅猛，越来越多的零售企业选择电子商务来发展自身业务。电子商务作为一种虚拟的交易方式，在为广大消费者提供便捷的同时，需要很多社会服务环节的配合，它不仅代表一种新的消费体验，也代表了一种零售及其配套服务发展的新业态。与此同时，电子商务平台与信息化息息相关，平台所产生的数据源源不断，数据量呈几何倍数的增长，这些数据可以经由大数据分析后提供给用户更方便快捷的体验。

但是，其中一些数据未进行筛选过滤或者未进行优化处理，保存在数据库表中的数据往往有数据缺失、信息冗余和数据错误等质量问题，这些将直接影响数据分析结果的准确性，极大地降低了平台数据的可用性。而传统的数据整理方法只是针对小规模的数据进行整理，在处理大数据集时，往往具有较低的性能、运算能力不理想、处理时间较长，因此亟待提出针对大数据的处理方法。

发明内容

本发明实施例提供了一种电子商务数据处理方法和系统，将数据库表中的数据进行优化处理，从而解决了现有数据优化处理较低的性能、运算能力不理想、处理时间较长等问题。

为了解决上述问题，本发明公开了如下技术方案：

第一方面，提供一种电子商务数据处理方法，包括：

从数据库中读取数据表，并对所述数据表进行备份存档，复制所述数据到内存中，并将所述数据合并形成多个数据集，其中每个所述数据集中的第一条记录为所述数据集的参考数据；

对所述多个数据集中的数据进行预处理，降低数据的维度，删除冗余或者关联性不大的属性；

在处理器单元内建立多线程，每条所述线程对应一个所述数据集的处理进程，所述多线程同时进行数据处理任务；

建立一个长度为D的窗口，对所述数据集的数据逐条遍历执行字符串匹配运算，将窗口第一条记录与后面的D-1条记录进行比较，对字符串从左侧进行正向最大匹配；

计算所述参考数据与所述数据集中其他数据的数据相似度值，将得到的数据相似度值Q与预设的参考数据相似度值进行比较，得到比较结果；

根据所述比较结果确定所述其他数据是否保留。

第二方面，提供一种电子商务数据处理系统，包括：

合并模块，从数据库中读取数据表，并对所述数据表进行备份存档，复制所述数据到内存中，并将所述数据合并形成多个数据集，其中每个所述数据集中的第一条记录为该数据集的参考数据；

预处理模块，对所述多个数据集中的数据进行预处理，降低数据的维度，删除冗余或者关联性不大的属性；

处理模块，在处理器单元内建立多线程，每条所述线程对应一个所述数据集的处理进程，所述多线程同时进行数据处理任务；

遍历模块，建立一个长度为D的窗口，对所述数据集逐条遍历执行字符串匹配运算，将窗口第一条记录与后面的D-1条记录进行比较，对字符串从左侧进行正向最大匹配；

计算模块，计算所述参考数据与所述数据集中其他数据的数据相似度值，将得到的数据相似度值Q与预设的参考数据相似度值进行比较，得到比较结果；

确定模块，根据所述比较结果确定所述其他数据是否保留。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中电子商务数据处理方法的流程示意图。

图2是本发明另一个实施例中电子商务数据处理系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明一个实施例提出了一种电子商务数据处理方法的流程图，从数据库中读取数据表，并对所述数据表进行备份存档，复制所述数据到内存中，并将所述数据合并形成多个数据集。由于数据量可能是海量的，对数据处理任务的分解可以从数据本身入手，将原有的数据集分解成多个小的数据集。假设数据量有N条记录，对于每个记录的处理时间消耗为t，则执行完这M条记录的数据处理任务耗时为M*t，如果将这M条数据分解成M/n个的小的数据集，将这M/n个数据集同时执行数据处理，在不考虑内存和CPU的影响情况下，可以认为处理时间耗时为M/n*t。

进一步的，对所述多个数据集中的数据进行预处理，删除冗余或者关联性不大的属性。对于已分解后多个小的数据集，需要进行降低数据的维度，这样将大大减小算法的时间复杂度，减小误差。

进一步的，将所述数据合并形成多个数据集具体步骤为：提取数据库中的首个数据记录，并将该记录视为新的数据集，并保存下来；分析数据库中的第二条记录，通过比较第二条记录和当前己经存在的数据集的属性，当满足一定的条件时，将这条记录分配到与其相匹配的数据集中，并重新计算这个数据集的属性；如果这条记录与当前己经存在的所有的数据集都不匹配，为这条记录创建一个新的数据集，并为其创建匹配属性；不断重复前面两个步骤，直到每条记录都被扫描计算过，正确的放置到所对应的数据集中，最终得到多个数据集。

进一步的，在处理器单元内建立多线程，每条线程对应一个数据集的处理进程，多个线程可同时进行数据处理任务，提高资源对象的创建和处理，缩短数据总量的处理时间。

进一步的，建立一个长度为D的窗口，对数据集中的数据逐条遍历执行字符串匹配运算，将窗口第一条记录与后面的D-1条记录进行比较；数据滑动窗口模型是在数据集上一个处理窗口，并且可以滑动。在处理数据时，窗口是从数据集中的第一条记录不断向后滑动。

最后，计算两个数据的数据相似度值，将得到的数据相似度值Q与预设的参考数据相似度值进行比较，如果大于或等于参考数据相似度值，则将匹配到的数据添加至记录集，最后保存至新的数据表中；小于参考数据相似度值的数据，从数据表中删除。如果该数据的数据相似度Q大于或等于参考数据相似度值，表示该数据在该数据集中数据关联度较高，不是错误数据；相反，如果该数据的数据相似度Q小于参考数据相似度值，表示该数据在该数据集中数据关联度较低，该数据为错误数据。

其中，所述数据相似度值Q的计算公式为：

D为窗口的长度，q_i为字段i的相似度，p为两个比较字符串的相同字符数，N_max为取两个比较字符串长度的最大值，m_i为字段i占的权重。

本发明通过将电子商务中大量数据根据数据集属性的不同合并成多个数据集，并且对数据预先进行预处理，降低数据维度，建立多条处理线程，合理计算参考数据与其他数据之间的数据相似度值，从而确定数据集中的每个数据是否具有较好的关联度，最终确定是否保留该数据。该方法大大减小算法的时间复杂度，提高资源对象的创建和处理，缩短数据总量的处理时间，减小数据处理的误差。

图2是本发明另一个实施例中电子商务数据处理系统的结构示意图，提出了一种电子商务数据处理系统，包括：合并模块201、预处理模块202、多线程处理模块203、遍历模块204、计算模块205以及确定模块206。其中：

合并模块201，从数据库中读取数据表，并对所述数据表进行备份存档，复制所述数据到内存中，并将所述数据合并形成多个数据集。由于数据量可能是海量的，对数据处理任务的分解可以从数据本身入手，将原有的数据集分解成多个小的数据集。假设数据量有N条记录，对于每个记录的处理时间消耗为t，则执行完这M条记录的数据处理任务耗时为M*t，如果将这M条数据分解成M/n个的小的数据集，将这M/n个数据集同时执行数据处理，在不考虑内存和CPU的影响情况下，可以认为处理时间耗时为M/n*t。

预处理模块202，对所述多个数据集中的数据进行预处理，删除冗余或者关联性不大的属性。对于已分解后多个小的数据集，需要进行降低数据的维度，这样将大大减小算法的时间复杂度，减小误差。

多线程处理模块203，在处理器单元内建立多线程，每条线程对应一个数据集的处理进程，多个线程可同时进行数据处理任务，提高资源对象的创建和处理，缩短数据总量的处理时间。

遍历模块204，建立一个长度为D的窗口，对数据集中的数据逐条遍历执行字符串匹配运算，将窗口第一条记录与后面的D-1条记录进行比较；数据滑动窗口模型是在数据集上一个处理窗口，并且可以滑动。在处理数据时，窗口是从数据集中的第一条记录不断向后滑动。

计算模块205，计算两个数据的数据相似度值，将得到的数据相似度值Q与预设的参考数据相似度值进行比较，得到比较结果。

确定模块206，根据上述比较结果，如果大于或等于参考数据相似度值，则将匹配到的数据添加至记录集，最后保存至新的数据表中；小于参考数据相似度值的数据，从数据表中删除。如果该数据的数据相似度Q大于或等于参考数据相似度值，表示该数据在该数据集中数据关联度较高，不是错误数据；相反，如果该数据的数据相似度Q小于参考数据相似度值，表示该数据在该数据集中数据关联度较低，该数据为错误数据。

其中，所述数据相似度值Q的计算公式为：

上述系统通过将电子商务中大量数据根据数据集属性的不同合并成多个数据集，并且对数据预先进行预处理，降低数据维度，建立多条处理线程，合理计算参考数据与其他数据之间的数据相似度值，从而确定数据集中的每个数据是否具有较好的关联度，最终确定是否保留该数据。该系统大大减小算法的时间复杂度，提高资源对象的创建和处理，缩短数据总量的处理时间，减小数据处理的误差。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种电子商务数据处理方法，其特征在于，所述方法包括：

从数据库中读取数据表，并对所述数据表进行备份存档，复制数据到内存中，并将所述数据合并形成多个数据集，其中每个所述数据集中的第一条记录为所述数据集的参考数据；数据量有N条记录，对于每个记录的处理时间消耗为t，则执行完这M条记录的数据处理任务耗时为M*t，将这M条数据分解成M/n个的小的数据集，将这M/n个数据集同时执行数据处理，处理时间耗时为M/n*t；

根据所述比较结果确定所述其他数据是否保留；

其中根据比较结果确定所述其他数据是否保留具体为：如果所述其他数据的数据相似度值大于或等于所述参考数据相似度值，则将所述其他数据添加至记录集，最后保存至新数据表中；如果得到的数据相似度值Q小于所述参考数据相似度值，从所述数据表中删除所述其他数据；

其中，所述数据相似度值Q的计算公式为：

；

；D为所述窗口的长度，

为字段i的相似度，p为两个比较字符串的相同字符数，

为取两个比较字符串长度的最大值，

为字段i占的权重。

2.根据权利要求1所述的方法，其特征在于，其中将所述数据合并形成多个数据集具体为：提取所述数据表中的所述第一条记录，并将所述第一条记录视为新的数据集，并保存下来；分析所述数据表中的第二条记录，通过比较所述第二条记录和当前己经存在的数据集的属性，当匹配时，将所述第二条记录分配到与其相匹配的数据集中；如果这条记录与当前己经存在的所有的数据集都不匹配，则为这条记录创建一个新的数据集，并为其创建匹配属性；不断重复前面两个步骤，直到每条记录都被扫描计算过，最终得到第二条记录多个数据集。

3.一种电子商务数据处理系统，其特征在于，所述系统包括：

合并模块，从数据库中读取数据表，并对所述数据表进行备份存档，复制数据到内存中，并将所述数据合并形成多个数据集，其中每个所述数据集中的第一条记录为该数据集的参考数据；数据量有N条记录，对于每个记录的处理时间消耗为t，则执行完这M条记录的数据处理任务耗时为M*t，将这M条数据分解成M/n个的小的数据集，将这M/n个数据集同时执行数据处理，处理时间耗时为M/n*t；

确定模块，根据所述比较结果确定所述其他数据是否保留；

其中所述确定模块，根据所述比较结果确定所述其他数据是否保留，具体为：如果所述其他数据的数据相似度值大于或等于所述参考数据相似度值，则将所述其他数据添加至记录集，最后保存至新数据表中；如果得到的数据相似度值Q小于所述参考数据相似度值，从所述数据表中删除所述其他数据；

其中，所述数据相似度值Q的计算公式为：

；

；D为所述窗口的长度，

为字段i的相似度，p为两个比较字符串的相同字符数，

为取两个比较字符串长度的最大值，

为字段i占的权重。

4.根据权利要求3所述的系统，其特征在于，其中将所述数据合并形成多个数据集具体为：提取所述数据表中的所述第一条记录，并将所述第一条记录视为新的数据集，并保存下来；分析所述数据表中的第二条记录，通过比较所述第二条记录和当前己经存在的数据集的属性，当匹配时，将所述第二条记录分配到与其相匹配的数据集中；如果这条记录与当前己经存在的所有的数据集都不匹配，则为这条记录创建一个新的数据集，并为其创建匹配属性；不断重复前面两个步骤，直到每条记录都被扫描计算过，最终得到第二条记录多个数据集。