CN111258968A

CN111258968A - 企业冗余数据清理方法、装置及大数据平台

Info

Publication number: CN111258968A
Application number: CN201911400656.1A
Authority: CN
Inventors: 费红琳; 肖巧巧; 丁杰
Original assignee: Guangzhou Doctor Information Technology Research Institute Co ltd
Current assignee: Guangzhou Doctor Information Technology Research Institute Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-09
Anticipated expiration: 2039-12-30
Also published as: CN111258968B

Abstract

本发明涉及数据处理技术领域，涉及一种企业冗余数据清理方法、装置及大数据平台。本发明加入了对于数据冗余评价特征的要素，通过数据冗余评价特征进行统计项目筛选后再进行冗余数据清理，从而可以在数据内容复杂、尤其是数据统计过程中数据业务更新较频繁的情况下提高冗余数据筛选的成功率和准确率。本发明通过将清理过程信息下发至企业数据终端，可以便于企业数据终端根据清理过程信息对企业统计数据的统计过程进行调整，以针对冗余数据的来源进行控制，避免非必要的计算资源浪费。

Description

企业冗余数据清理方法、装置及大数据平台

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种企业冗余数据清理方法、装置及大数据平台。

背景技术

为了确保后期对数据分析的准确性和可靠性，现有技术中，在提取各类企业统计数据进行分析之前，通常会清理掉各类企业统计数据中的冗余数据（例如错误数据或者无效数据）。传统方案中通常是基于设定的关键词或者设定的数据过滤策略来筛选冗余数据进行清理，但是由于关键词和数据过滤策略相对较为固定，难以在数据内容复杂、尤其是数据统计过程中数据业务更新较频繁的情况保证冗余数据筛选的成功率和准确率，并且无法针对冗余数据的来源进行控制，导致诸多非必要的计算资源浪费。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的在于提供一种企业冗余数据清理方法、装置及大数据平台，以解决或者改善上述问题。

第一方面，本申请提供一种企业冗余数据清理方法，应用于大数据平台，所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端，所述方法包括：

所述服务器提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表，所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况；

所述服务器获取所述企业统计数据所对应的数据业务的预设数据业务特征，并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果；

所述服务器根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从所述第一统计项目列表中提取出对应的第二统计项目列表；

所述服务器从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据，并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给所述企业数据终端；

所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整。

在第一方面的一种可能的设计中，所述提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表的步骤，包括：

对所述企业统计数据进行分量提取，得到分量提取特征，其中，所述分量提取特征用于表示所述企业统计数据中每个统计项目对应的分词向量；

针对所述分量提取特征进行预设有效特征的过滤处理，得到第一目标分量提取特征，并获取所述第一目标分量提取特征中所有分词向量的关联特征节点，并根据所述所有分词向量的关联特征节点从所述第一目标分量提取特征中筛选掉关联特征节点大于设定节点数量的分词向量，得到第二目标分量提取特征；

对所述第二目标分量提取特征进行结构化特征提取，得到第一提取向量集，并将所述第一提取向量集中向量特征数值大于设定值的分词向量进行过滤，得到第一筛选向量序列；

根据所述第一筛选向量序列对所述第一提取向量集进行追溯，确定所述第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，其中，所述正向量方向和所述负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向，所述分词特征量化度用于表示分词特征的频繁度；

根据所述第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，分别得到第一正向量方向延伸度组以及第一负向量方向延伸度组；

根据所述第一正向量方向延伸度组以及第一负向量方向延伸度组提取出所有的结构化特征向量方向的结构化特征关联节点；

对所述第二目标分量提取特征做非结构化特征提取，得到第二提取向量集，并将所述第二提取向量集中向量特征数值大于设定值的分词向量进行过滤，得到第二筛选向量序列；

根据所述第二筛选向量序列对所述第二提取向量集进行追溯，确定所述第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，其中，所述正向量方向和所述负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向，所述分词特征量化度用于表示分词特征的频繁度；

根据所述第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，分别得到第二正向量方向延伸度组以及第二负向量方向延伸度组；

根据所述第二正向量方向延伸度组以及第二负向量方向延伸度组提取出所有的非结构化特征向量方向的非结构化特征关联节点；

根据所述结构化特征关联节点和非结构化特征关联节点确定所有关联节点，并确定每个关联节点上所有关联特征节点的节点统计项目集合、节点统计次数集合以及节点统计等级集合；

当确定所述节点统计项目集合、节点统计次数集合以及节点统计等级集合的中位数与平均数之比和平均数与中位数之比的两者中的最大值小于设定值时，确定所述关联特征节点为冗余关联特征节点的待定节点；

对于一个关联节点中的每一个关联特征节点，确定该关联特征节点中各个非结构化特征相邻的关联特征节点间的非结构化特征的关联位置，根据所述关联位置确定与每个所述冗余关联特征节点的非结构化特征的关联位置；

根据所述每个所述冗余关联特征节点的非结构化特征的关联位置确定出数据冗余评价特征；

计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表。

在第一方面的一种可能的设计中，所述获取所述企业统计数据所对应的数据业务的预设数据业务特征，并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果的步骤，包括：

获取所述企业统计数据所对应的数据业务的业务标识；

根据所述业务标识从预设的数据业务特征库中获取包含所述数据业务的预设数据业务特征，其中，所述预设的数据业务特征库中包括业务标识与预设数据业务特征之间的对应关系，所述预设数据业务特征用于表征所述数据业务的统计过程的特征策略，并随着所述数据业务的变化而适应性变化；

根据所述第一统计项目列表获取包含当前所述数据业务的待匹配统计项目，根据所述待匹配统计项目确定以所述预设数据业务特征为基准特征的参考业务特征，将所述待匹配统计项目以所述数据冗余评价特征为基准，依次划分为与参考业务特征对应的多个冗余业务特征，对每一冗余业务特征分别与所述参考业务特征进行比对得到对应的特征比对参考值范围，当特征比对参考值范围不满足设定的参考值范围时，记录所述特征比对参考值范围对应的冗余业务特征为第一业务特征，所述参考业务特征为第二业务特征，以得到由至少一个由所述第一业务特征和所述第二业务特征形成的业务特征组合；

基于至少一个所述业务特征组合确定对应的第一特征比对空间，并以第一特征比对空间为基准，根据设置的空间大小对所述待匹配统计项目进行划分，分别得到与每一所述空间大小对应的多个包含第一特征比对空间的第二特征比对空间；

对所述第二特征比对空间进行解析，得到所述第二特征比对空间中各业务特征组合的特征信息，并根据所述业务特征组合的特征信息确定业务特征组合的冗余量级以及对应的特征值，并根据所述业务特征组合的冗余量级以及对应的特征值确定第一业务特征序列；

基于所述第一业务特征序列、业务特征组合的冗余量级以及对应的特征值确定满足设置条件的业务特征组合构成的空间向量，确定每一所述特征比对空间的第一空间向量和第二空间向量的其中一个，根据所述第一空间向量和所述第二空间向量的其中一个对每一所述特征比对空间进行筛选得到与每一所述特征比对空间对应的筛选后的特征比对空间；

基于每一所述特征比对空间对应的筛选后的特征比对空间得到第一空间向量和第二空间向量的其中另一个；

根据所述特征比对空间分别对应的第一空间向量得到第一空间向量集、以及根据所述特征比对空间分别对应的第二空间向量得到第二空间向量集；

确定所述第一空间向量集对应的第一参考空间向量和所述第二空间向量集对应的第二参考空间向量，并基于所述第一空间向量集与所述第一参考空间向量以及所述第二空间向量集与所述第二参考空间向量分别确定对应所述第一空间向量集的第一待比对向量以及对应所述第二空间向量集的第二待比对向量；

对所述第一空间向量集的第一待比对向量以及对应所述第二空间向量集的第二待比对向量进行比对，得到所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果。

在第一方面的一种可能的设计中，所述根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表的步骤，包括

根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果，确定出所述第一统计项目列表中存在与所述特征比对结果相匹配的统计项目；

根据与所述特征比对结果相匹配的统计项目从第一统计项目列表提取出对应的第二统计项目列表。

在第一方面的一种可能的设计中，所述根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据的步骤，包括：

从每个目标统计项目的项目统计数据中筛选出与所述数据冗余评价特征之间的匹配度大于设定匹配度的多个待清理冗余数据以及所述多个待清理冗余数据各自对应的匹配度；

根据所述匹配度从所述多个待清理冗余数据中选取至少一个冗余清理区域，形成冗余清理区域组，并根据所述冗余清理区域组中的各冗余清理区域与所述项目统计数据中的各数据区域的关联度确定各冗余清理区域的清理评价指数；

确定所述多个待清理冗余数据各自对应的匹配度与预设匹配度之间的差异的匹配度差值，并基于所述匹配度差值的等级与所述清理评价指数的乘积，生成冗余清理范围参数，其中，所述匹配度差值的等级通过预先配置的匹配度差值与等级之间的映射关系获得；

基于所述冗余清理范围参数，从每个目标统计项目的项目统计数据中清理对应的冗余数据。

在第一方面的一种可能的设计中，所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整的步骤，包括：

所述企业数据终端从所述清理过程信息获得每个清理的冗余数据的清理数据区域；

确定企业统计数据的统计过程中与所述每个清理的冗余数据的清理数据区域对应的目标数据统计节点；

将所述目标数据统计节点统计的数据存储在冗余数据库中，以将所述目标数据统计节点统计的数据隔离在向所述服务器发送的企业统计数据之外。

第二方面，本申请实施例还提供一种企业冗余数据清理方法，应用于服务器，所述服务器与至少一个企业数据终端通信连接，所述方法包括：

提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表，所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况；

获取所述企业统计数据所对应的数据业务的预设数据业务特征，并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果；

根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表；

从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据，并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给所述企业数据终端，以使所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整。

第三方面，本申请实施例还提供一种企业冗余数据清理装置，应用于服务器，所述服务器与至少一个企业数据终端通信连接，所述装置包括：

第一提取模块，用于提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表，所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况；

获取计算模块，用于获取所述企业统计数据所对应的数据业务的预设数据业务特征，并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果；

第二提取模块，用于根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表；

清理模块，用于从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据，并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给所述企业数据终端，以使所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整。

第四方面，本申请实施例还提供一种大数据平台，所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端；

所述服务器，用于提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表，所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况；

所述服务器，用于获取所述企业统计数据所对应的数据业务的预设数据业务特征，并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果；

所述服务器，用于根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表；

所述服务器，用于从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据，并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给所述企业数据终端；

所述企业数据终端，用于根据所述清理过程信息对企业统计数据的统计过程进行调整。

第五方面，本申请实施例还提供一种服务器，所述服务器包括处理器、机器可读存储介质和网络接口，所述机器可读存储介质、所述网络接口以及所述处理器之间通过总空间向量系统相连，所述网络接口用于与至少一个企业数据终端通信连接，所述机器可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述机器可读存储介质中的程序、指令或代码，以执行第一方面或者第一方面中任意一个可能的设计中的企业冗余数据清理方法。

第六方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上检测时，使得计算机执行上述第一方面或者第一方面中任意一个可能的设计中的企业冗余数据清理方法。

基于上述任意一个方面，本申请加入了对于数据冗余评价特征的考虑，通过数据冗余评价特征进行统计项目筛选后再进行冗余数据清理，从而可以在数据内容复杂、尤其是数据统计过程中数据业务更新较频繁的情况下提高冗余数据筛选的成功率和准确率。此外，通过将清理过程信息下发至企业数据终端，可以便于企业数据终端根据清理过程信息对企业统计数据的统计过程进行调整，以针对冗余数据的来源进行控制，避免非必要的计算资源浪费。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的大数据平台的应用场景示意图；

图2为本申请实施例提供的企业冗余数据清理方法的流程示意图之一；

图3为本申请实施例提供的企业冗余数据清理方法的流程示意图之二；

图4为本申请实施例提供的企业冗余数据清理装置的功能模块示意图；

图5为本申请实施例提供的用于实现上述的企业冗余数据清理方法的服务器的结构示意框图。

具体实施方式

下面结合说明书附图对本申请进行具体说明，方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。在本申请的描述中，除非另有说明，“至少一个”包括一个或多个。“多个”是指两个或两个以上。例如，A、B和C中的至少一个，包括：单独存在A、单独存在B、同时存在A和B、同时存在A和C、同时存在B和C，以及同时存在A、B和C。在本申请中，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联目标核磁共振设备的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

图1是本申请一种实施例提供的大数据平台10的交互示意图。大数据平台10可以包括服务器100以及与所述服务器100通信连接的企业数据终端200，服务器100中可以包括执行指令操作的处理器。图1所示的大数据平台10仅为一种可行的示例，在其它可行的实施例中，该大数据平台10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

在一些实施例中，服务器100可以是单个服务器，也可以是一个服务器组。运营服务器组可以是集中式的，也可以是分布式的（例如，服务器100可以是分布式系统）。在一些实施例中，服务器100相对于企业数据终端200，可以是本地的、也可以是远程的。例如，服务器100可以经由网络访问存储在企业数据终端200以及数据库、或其任意组合中的信息。作为另一示例，服务器100可以直接连接到企业数据终端200和数据库中的至少一个，以访问其中存储的信息和/或数据。在一些实施例中，服务器100可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云（inter-cloud）、多云(multi-cloud)等，或者它们的任意组合。

在一些实施例中，服务器100可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。处理器可以包括一个或多个处理核（例如，单核处理器（S）或多核处理器（S））。仅作为举例，处理器可以包括中央处理单元（Central Processing Unit, CPU）、专用集成电路（Application Specific IntegratedCircuit, ASIC）、专用指令集处理器（Application Specific Instruction-setProcessor, ASIP）、图形处理单元（Graphics Processing Unit, GPU）、物理处理单元（Physics Processing Unit, PPU）、数字信号处理器 (Digital Signal Processor,DSP)、现场可编程门阵列( Field Programmable Gate Array, FPGA)、可编程逻辑器件(Programmable Logic Device, PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing, RISC)、或微处理器等，或其任意组合。

网络可以用于信息和/或数据的交换。在一些实施例中，大数据平台10中的一个或多个组件（例如，服务器100，企业数据终端200和数据库）可以向其他组件发送信息和/或数据。在一些实施例中，网络可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络130可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网（Local Area Network，LAN）、广域网（Wide Area Network，WAN）、无线局域网（Wireless Local Area Networks，WLAN）、城域网（Metropolitan Area Network，MAN）、广域网（Wide Area Network，WAN）、公共电话交换网（Public Switched Telephone Network，PSTN）、蓝牙网络、ZigBee网络、或近场通信（Near Field Communication, NFC）网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点，大数据平台10的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。

前述的数据库可以存储数据和/或指令。在一些实施例中，数据库可以存储从企业数据终端200获得的数据。在一些实施例中，数据库可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器（Read-Only Memory, ROM）等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器（Random AccessMemory, RAM）；RAM可以包括动态RAM（Dynamic Random Access Memory, DRAM），双倍数据速率同步动态RAM（Double Date-Rate Synchronous RAM, DDR SDRAM）；静态RAM（StaticRandom-Access Memory, SRAM），晶闸管RAM（Thyristor-Based Random Access Memory,T-RAM）和零电容器RAM（Zero-RAM）等。作为举例，ROM可以包括掩模ROM（Mask Read-OnlyMemory, MROM）、可编程ROM（ Programmable Read-Only Memory, PROM）、可擦除可编程ROM（Programmable Erasable Read-only Memory , PEROM）、电可擦除可编程ROM（Electrically Erasable Programmable read only memory, EEPROM）、光盘ROM（CD-ROM）、以及数字通用磁盘ROM等。在一些实施例中，数据库可以在云平台上实现。仅作为示例，云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等，或其任意组合。

在一些实施例中，数据库可以连接到网络以与大数据平台10（例如，服务器100，企业数据终端200等）中的一个或多个组件通信。大数据平台10中的一个或多个组件可以经由网络访问存储在数据库中的数据或指令。在一些实施例中，数据库可以直接连接到大数据平台10中的一个或多个组件（例如，服务器100，企业数据终端200等）；或者，在一些实施例中，数据库也可以是服务器100的一部分。

为了解决前述背景技术中的技术问题，图2为本申请实施例提供的企业冗余数据清理方法的流程示意图，本实施例提供的企业冗余数据清理方法可以由图1中所示的大数据平台10执行，下面对该企业冗余数据清理方法进行详细介绍。

步骤S110，服务器100提取每个企业数据终端200上传的企业统计数据中的数据冗余评价特征，并计算企业统计数据中与数据冗余评价特征对应的第一统计项目列表，数据冗余评价特征用于表征在企业统计数据的各个统计项目中存在的数据的冗余情况。

步骤S120，服务器100获取企业统计数据所对应的数据业务的预设数据业务特征，并根据第一统计项目列表计算数据冗余评价特征与预设数据业务特征之间的特征比对结果。

步骤S130，服务器100根据数据冗余评价特征与预设数据业务特征之间的特征比对结果从第一统计项目列表中提取出对应的第二统计项目列表。

步骤S140，服务器100从企业统计数据中确定第二统计项目列表每个目标统计项目的项目统计数据，并根据数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给企业数据终端200。

步骤S150，企业数据终端200根据清理过程信息对企业统计数据的统计过程进行调整。

基于上述设计，本实施例加入了对于数据冗余评价特征的考虑，通过数据冗余评价特征进行统计项目筛选后再进行冗余数据清理，从而可以在数据内容复杂、尤其是数据统计过程中数据业务更新较频繁的情况下提高冗余数据筛选的成功率和准确率。此外，通过将清理过程信息下发至企业数据终端，可以便于企业数据终端根据清理过程信息对企业统计数据的统计过程进行调整，以针对冗余数据的来源进行控制，避免非必要的计算资源浪费。

在一种可能的设计中，针对步骤S110，本实施例可以对企业统计数据进行分量提取，得到分量提取特征，其中，分量提取特征用于表示企业统计数据中每个统计项目对应的分词向量。

接着，可以针对分量提取特征进行预设有效特征的过滤处理，得到第一目标分量提取特征，并获取第一目标分量提取特征中所有分词向量的关联特征节点，并根据所有分词向量的关联特征节点从第一目标分量提取特征中筛选掉关联特征节点大于设定节点数量的分词向量，得到第二目标分量提取特征。

接着，可以对第二目标分量提取特征进行结构化特征提取，得到第一提取向量集，并将第一提取向量集中向量特征数值大于设定值的分词向量进行过滤，得到第一筛选向量序列。

接着，可以根据第一筛选向量序列对第一提取向量集进行追溯，确定第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，其中，正向量方向和负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向，分词特征量化度用于表示分词特征的频繁度。

接着，可以根据第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，分别得到第一正向量方向延伸度组以及第一负向量方向延伸度组。

接着，可以根据第一正向量方向延伸度组以及第一负向量方向延伸度组提取出所有的结构化特征向量方向的结构化特征关联节点。

接着，可以对第二目标分量提取特征做非结构化特征提取，得到第二提取向量集，并将第二提取向量集中向量特征数值大于设定值的分词向量进行过滤，得到第二筛选向量序列。

接着，可以根据第二筛选向量序列对第二提取向量集进行追溯，确定第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，其中，正向量方向和负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向，分词特征量化度用于表示分词特征的频繁度。

接着，可以根据第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度，分别得到第二正向量方向延伸度组以及第二负向量方向延伸度组。

接着，可以根据第二正向量方向延伸度组以及第二负向量方向延伸度组提取出所有的非结构化特征向量方向的非结构化特征关联节点。

接着，可以根据结构化特征关联节点和非结构化特征关联节点确定所有关联节点，并确定每个关联节点上所有关联特征节点的节点统计项目集合、节点统计次数集合以及节点统计等级集合。

接着，当确定节点统计项目集合、节点统计次数集合以及节点统计等级集合的中位数与平均数之比和平均数与中位数之比的两者中的最大值小于设定值时，确定关联特征节点为冗余关联特征节点的待定节点。

接着，可以对于一个关联节点中的每一个关联特征节点，确定该关联特征节点中各个非结构化特征相邻的关联特征节点间的非结构化特征的关联位置，根据关联位置确定与每个冗余关联特征节点的非结构化特征的关联位置。

接着，可以根据每个冗余关联特征节点的非结构化特征的关联位置确定出数据冗余评价特征，并计算企业统计数据中与数据冗余评价特征对应的第一统计项目列表。

在一种可能的设计中，针对步骤S120，本实施例可以获取企业统计数据所对应的数据业务的业务标识，并根据业务标识从预设的数据业务特征库中获取包含数据业务的预设数据业务特征，其中，预设的数据业务特征库中包括业务标识与预设数据业务特征之间的对应关系，预设数据业务特征用于表征数据业务的统计过程的特征策略，并随着数据业务的变化而适应性变化。

接着，可以根据第一统计项目列表获取包含当前数据业务的待匹配统计项目，根据待匹配统计项目确定以预设数据业务特征为基准特征的参考业务特征，将待匹配统计项目以数据冗余评价特征为基准，依次划分为与参考业务特征对应的多个冗余业务特征，对每一冗余业务特征分别与参考业务特征进行比对得到对应的特征比对参考值范围，当特征比对参考值范围不满足设定的参考值范围时，记录特征比对参考值范围对应的冗余业务特征为第一业务特征，参考业务特征为第二业务特征，以得到由至少一个由第一业务特征和第二业务特征形成的业务特征组合。

接着，可以基于至少一个业务特征组合确定对应的第一特征比对空间，并以第一特征比对空间为基准，根据设置的空间大小对待匹配统计项目进行划分，分别得到与每一空间大小对应的多个包含第一特征比对空间的第二特征比对空间。

接着，可以对第二特征比对空间进行解析，得到第二特征比对空间中各业务特征组合的特征信息，并根据业务特征组合的特征信息确定业务特征组合的冗余量级以及对应的特征值，并根据业务特征组合的冗余量级以及对应的特征值确定第一业务特征序列。

接着，可以基于第一业务特征序列、业务特征组合的冗余量级以及对应的特征值确定满足设置条件的业务特征组合构成的空间向量，确定每一特征比对空间的第一空间向量和第二空间向量的其中一个，根据第一空间向量和第二空间向量的其中一个对每一特征比对空间进行筛选得到与每一特征比对空间对应的筛选后的特征比对空间。

接着，可以基于每一特征比对空间对应的筛选后的特征比对空间得到第一空间向量和第二空间向量的其中另一个。

接着，可以根据特征比对空间分别对应的第一空间向量得到第一空间向量集、以及根据特征比对空间分别对应的第二空间向量得到第二空间向量集。

接着，可以确定第一空间向量集对应的第一参考空间向量和第二空间向量集对应的第二参考空间向量，并基于第一空间向量集与第一参考空间向量以及第二空间向量集与第二参考空间向量分别确定对应第一空间向量集的第一待比对向量以及对应第二空间向量集的第二待比对向量。

接着，可以对第一空间向量集的第一待比对向量以及对应第二空间向量集的第二待比对向量进行比对，得到数据冗余评价特征与预设数据业务特征之间的特征比对结果。

在一种可能的设计中，针对步骤S130，本实施例可以根据数据冗余评价特征与预设数据业务特征之间的特征比对结果，确定出第一统计项目列表中存在与特征比对结果相匹配的统计项目，并根据与特征比对结果相匹配的统计项目从第一统计项目列表提取出对应的第二统计项目列表。

在一种可能的设计中，针对步骤S140，本实施例可以从每个目标统计项目的项目统计数据中筛选出与数据冗余评价特征之间的匹配度大于设定匹配度的多个待清理冗余数据以及多个待清理冗余数据各自对应的匹配度。

接着，可以根据匹配度从多个待清理冗余数据中选取至少一个冗余清理区域，形成冗余清理区域组，并根据冗余清理区域组中的各冗余清理区域与项目统计数据中的各数据区域的关联度确定各冗余清理区域的清理评价指数。

接着，可以确定多个待清理冗余数据各自对应的匹配度与预设匹配度之间的差异的匹配度差值，并基于匹配度差值的等级与清理评价指数的乘积，生成冗余清理范围参数，其中，匹配度差值的等级通过预先配置的匹配度差值与等级之间的映射关系获得。

接着，可以基于冗余清理范围参数，从每个目标统计项目的项目统计数据中清理对应的冗余数据。

在一种可能的设计中，针对步骤S150，企业数据终端200可以从清理过程信息获得每个清理的冗余数据的清理数据区域，然后确定企业统计数据的统计过程中与每个清理的冗余数据的清理数据区域对应的目标数据统计节点，从而可以将目标数据统计节点统计的数据存储在冗余数据库中，以将目标数据统计节点统计的数据隔离在向服务器100发送的企业统计数据之外。

图3示出了本申请实施还提供的另一种企业冗余数据清理方法的流程示意图，与上面实施例不同的是，本企业冗余数据清理方法由服务器100执行，可以理解的是，接下来要描述的企业冗余数据清理方法中涉及的步骤在上面实施例中已经描述过，具体各个步骤的详尽内容可参照上面的实施例描述，下面仅对服务器100执行步骤进行简要说明。

步骤S210，提取每个企业数据终端200上传的企业统计数据中的数据冗余评价特征，并计算企业统计数据中与数据冗余评价特征对应的第一统计项目列表，数据冗余评价特征用于表征在企业统计数据的各个统计项目中存在的数据的冗余情况。

步骤S220，获取企业统计数据所对应的数据业务的预设数据业务特征，并根据第一统计项目列表计算数据冗余评价特征与预设数据业务特征之间的特征比对结果。

步骤S230，根据数据冗余评价特征与预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表。

步骤S240，从企业统计数据中确定第二统计项目列表每个目标统计项目的项目统计数据，并根据数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给企业数据终端200，以使企业数据终端200根据清理过程信息对企业统计数据的统计过程进行调整。

图4为本申请实施例提供的企业冗余数据清理装置300的功能模块示意图，本实施例可以根据上述服务器100执行的方法实施例对该企业冗余数据清理装置300进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图4示出的企业冗余数据清理装置300只是一种装置示意图。其中，企业冗余数据清理装置300可以包括第一提取模块310、获取计算模块320、第二提取模块330以及清理模块340，下面分别对该企业冗余数据清理装置300的各个功能模块的功能进行详细阐述。

第一提取模块310，用于提取每个企业数据终端200上传的企业统计数据中的数据冗余评价特征，并计算企业统计数据中与数据冗余评价特征对应的第一统计项目列表，数据冗余评价特征用于表征在企业统计数据的各个统计项目中存在的数据的冗余情况。

获取计算模块320，用于获取企业统计数据所对应的数据业务的预设数据业务特征，并根据第一统计项目列表计算数据冗余评价特征与预设数据业务特征之间的特征比对结果。

第二提取模块330，用于根据数据冗余评价特征与预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表。

清理模块340，用于从企业统计数据中确定第二统计项目列表每个目标统计项目的项目统计数据，并根据数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据，并将清理过程信息下发给企业数据终端200，以使企业数据终端200根据清理过程信息对企业统计数据的统计过程进行调整。

进一步地，图5为本申请实施例提供的用于执行上述企业冗余数据清理方法的服务器100的结构示意图。如图5所示，该服务器100可包括网络接口110、机器可读存储介质120、处理器130以及总线140。处理器130可以是一个或多个，图5中以一个处理器130为例。网络接口110、机器可读存储介质120以及处理器130可以通过总线140或其他方式连接，图5中以通过总线140连接为例。

机器可读存储介质120作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的企业冗余数据清理方法对应的程序指令/模块（例如图4中所示的企业冗余数据清理装置300的第一提取模块310、获取计算模块320、第二提取模块330以及清理模块340）。处理器130通过检测存储在机器可读存储介质120中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述的企业冗余数据清理方法，在此不再赘述。

机器可读存储介质120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，机器可读存储介质120可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合发布节点的存储器。在一些实例中，机器可读存储介质120可进一步包括相对于处理器130远程设置的存储器，这些远程存储器可以通过网络连接至服务器100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。

服务器100可以通过网络接口110和其它设备（例如企业数据终端200）进行信息交互。网络接口110可以是电路、总线、收发器或者其它任意可以用于进行信息交互的装置。处理器130可以利用网络接口110收发信息。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种企业冗余数据清理方法，其特征在于，应用于大数据平台，所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端，所述方法包括：

2.根据权利要求1所述的企业冗余数据清理方法，其特征在于，所述提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表的步骤，包括：

3.根据权利要求1所述的企业冗余数据清理方法，其特征在于，所述获取所述企业统计数据所对应的数据业务的预设数据业务特征，并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果的步骤，包括：

获取所述企业统计数据所对应的数据业务的业务标识；

4.根据权利要求1所述的企业冗余数据清理方法，其特征在于，所述根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表的步骤，包括

5.根据权利要求1所述的企业冗余数据清理方法，其特征在于，所述根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据的步骤，包括：

6.根据权利要求1所述的企业冗余数据清理方法，其特征在于，所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整的步骤，包括：

7.一种企业冗余数据清理方法，其特征在于，应用于服务器，所述服务器与至少一个企业数据终端通信连接，所述方法包括：

8.一种企业冗余数据清理装置，其特征在于，应用于服务器，所述服务器与至少一个企业数据终端通信连接，所述装置包括：

9.一种大数据平台，其特征在于，所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端；

10.根据权利要求8所述的大数据平台，其特征在于，服务器通过以下方式提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征，并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表：