CN118245743A

CN118245743A - 基于自动化流程的基础数据建设优化系统及方法

Info

Publication number: CN118245743A
Application number: CN202410643493.4A
Authority: CN
Inventors: 潘子文; 林斌; 徐伟君
Original assignee: Ruixi Suzhou Intelligent Technology Co ltd
Current assignee: Ruixi Suzhou Intelligent Technology Co ltd
Priority date: 2024-05-23
Filing date: 2024-05-23
Publication date: 2024-06-25

Abstract

本发明公开了基于自动化流程的基础数据建设优化系统及方法，属于数据建设技术领域，其方法具体包括：明确需要收集、整理和分析的基础数据，确定数据的来源和用途，进行基础数据采集，对收集的基础数据进行预处理，对预处理后的基础数据进行降维处理，建立基础数据补充模型，对基础数据进行补全，建立基础数据模型，对降维后的基础数据进行筛选，筛选关联性数据，筛选出最核心和相互隔离性较强的基础数据，再对基础数据进行建设和优化，对自动化流程进行持续的监控和优化，及时更新数据处理流程和工具，以适应业务需求的变化和提高数据处理效率，有效地解决了数据基础建设成本、决策精度和数据完整性的问题。

Description

基于自动化流程的基础数据建设优化系统及方法

技术领域

本发明属于数据建设技术领域，具体的说是基于自动化流程的基础数据建设优化系统及方法。

背景技术

目前大多数企业亟需通过制定一套由管理制度、管控流程、技术工具共同组成的体系，来对数据定义、分类、格式、编码等标准化管理。通俗地讲，对企业来说，数据标准就是对数据类型、长度、归属部门等定义一套统一的规范，以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。

在一个传统行业中推进数字化和智能决策时，常常是利用已获取的数据来进行数据统计和分析挖掘。但实际在传统企业中，如果单个数据源看，每种数据缺失都不太严重，数据完整度在90%左右，但是一旦把这些不同来源的因素关联起来，有完整信息的管段不到30%。常规是通过经验选择可能有用的数据字段，对数据基础进行搭建，然后再进行分析。

如授权公告号为CN106855865B的中国专利公开了一种水利水电大数据架构建设方法，包括水利水电大数据采集系统、水利水电大数据挖掘系统、水利水电大数据挖掘模型库、水利水电大数据分析系统及水利水电大数据分布服务器节点控制系统，包括可用数据的采集和存储，水利水电大数据的挖掘，对比数据的提取及水利水电大数据的分析四个步骤。该发明的水利水电大数据架构建设方法相对于传统大数据分析方法，可实现对水利水电行业数据进行体系化的采集、挖掘、分析并形成指导数据，有利于提高水利水电工程建设绩效和质量管控水平，同时提高了水利水电工程的信息化管理水平。

如公开号为CN116796220A的中国专利公开了一种基于数据标准建设装置和方法。所述装置包括：数据标准分类单元，用于根据数据结构、数据内容、技术业务，确定数据标准分类；数据标准规划单元，用于根据业务的优先顺序和实施难易程度，确定数据标准框架体系；数据标准设计单元，用于根据数据标准分类，对数据规划数据标准设计；数据标准实施映射单元，用于根据规划设计后的数据标准，确定所述数据标准对应的业务系统和业务应用；数据标准执行单元，用于根据业务需求和实施难易程度，确定数据标准执行原则。所述方法能够在业务系统之间做到对同样的数据理解统一和使用统一。

以上专利的缺陷：1）数据基础的建设成本较高，产生的很多数据不一定是我们需要的；2）受经验影响较大，如果是不同的行业，需要从底层逻辑进行研判；3）数据建设达到的决策精度，不匹配实际的数据完整性内容。

发明内容

针对现有技术的不足，本发明提出了基于自动化流程的基础数据建设优化系统及方法，明确需要收集、整理和分析的基础数据，确定数据的来源和用途，进行基础数据采集，对收集的基础数据进行预处理，对预处理后的基础数据进行降维处理，建立基础数据补充模型，对基础数据进行补全，建立基础数据模型，对降维后的基础数据进行筛选，筛选关联性数据，筛选出最核心和相互隔离性较强的基础数据，再对基础数据进行建设和优化，对自动化流程进行持续的监控和优化，及时更新数据处理流程和工具，以适应业务需求的变化和提高数据处理效率。

为实现上述目的，本发明提供如下技术方案：

基于自动化流程的基础数据建设优化方法，包括以下具体步骤：

步骤S1：明确需要收集、整理和分析的基础数据，确定数据的来源和用途，进行基础数据采集；

步骤S2：对收集的基础数据进行预处理；

步骤S3：对预处理后的基础数据进行降维处理，建立基础数据补充模型，对基础数据进行补全；

步骤S4：建立基础数据模型，对降维后的基础数据进行筛选，筛选关联性数据，筛选出最核心和相互隔离性较强的基础数据，再对基础数据进行建设和优化；

步骤S5：对自动化流程进行持续的监控和优化，及时更新数据处理流程和工具，以适应业务需求的变化和提高数据处理效率。

具体的，所述步骤S1中基础数据采集的方法为：利用网络爬虫技术，对互联网中、基础数据所在网站中的基础数据进行采集。

具体的，所述步骤S2中的预处理包括：数据清洗和建立标准，去除重复和冗余的数据，和建立统一的数据标准，包括数据分类、编码和规格。

具体的，所述步骤S3的具体步骤为：

步骤S301：设定预处理后的基础数据集合为，，其中，/>表示第m个基础数据点，/>表示第m个基础数据点的标签；

步骤S302：计算基础数据集合中两个基础数据点联合的概率，计算公式为：

，

其中，表示基础数据集合中两个基础数据点联合的概率，/>表示指数函数，/>表示第i个基础数据点，/>表示第j个基础数据点，/>表示第k个基础数据点，/>表示第l个基础数据点，/>表示L2范数函数，/>表示概率修正系数；

步骤S303：设定和/>投影降维后对应的点为/>和/>，计算降维后的点/>和的联合概率，计算公式为：

，

其中，表示降维后的点/>和/>的联合概率，/>表示降维后的第k个点，/>表示降维后的第k个点；

步骤S304：对第i个基础数据点降维投影后的点进行择优选择，择优选择的具体公式为：

，

其中，表示第i个基础数据点/>降维投影后的点选择概率，/>表示对数函数；

步骤S305：选择，即点/>作为第i个基础数据点/>降维投影后的点。

具体的，所述步骤S4的具体步骤为：

步骤S401：降维处理后的基础数据集合为，，其中，/>表示降维后的第n个基础数据点，表示降维后第n个基础数据点的标签；

步骤S402：建立基础数据模型和基础数据与基础数据源的对应关系，对降维后的基础数据间的关联性进行计算，计算公式为：

，

其中，表示降维后的基础数据间的关联性，即第j个降维后的基础数据属于第t个降维后的基础数据源的概率，/>表示第i个关联事件是否关联的概率，/>表示第i个关联事件的关联系数；

步骤S403：根据降维后的基础数据间的关联性，设定基础数据关联性阈值，选出符合条件的基础数据源，并以基础数据源作为数据建设的核心数据；

步骤S404：当数据量增加时，首先进行降维操作，对数据进行补全，再重复步骤S401-S403，完成数据建设工作。

具体的，所述步骤S402中第i个关联事件是否关联的概率的具体公式为：

，其中，/>表示错误的基础数据密度，/>表示杂波数量，/>表示归一化常数，/>表示降维后基础数据的数量，/>和/>表示分配系数，表示第i个关联事件中，第c个降维后的基础数据与第t个基础数据源关联的概率。

具体的，所述步骤S404中对数据进行补全的方法包括：均值法、随机样本法和插值法。

基于自动化流程的基础数据建设优化系统，包括：基础数据采集模块、基础数据预处理模块、数据降维和补全模块、数据建设优化模块和后续监控与优化模块；

所述基础数据采集模块，用于明确需要收集、整理和分析的基础数据，确定数据的来源和用途，进行基础数据采集；

所述基础数据预处理模块，用于对收集的基础数据进行预处理；

所述数据降维和补全模块，用于对预处理后的基础数据进行降维处理，建立基础数据补充模型，对基础数据进行补全；

所述数据建设优化模块，用于建立基础数据模型，对降维后的基础数据进行筛选，筛选关联性数据，筛选出最核心和相互隔离性较强的基础数据，再对基础数据进行建设和优化；

所述后续监控与优化模块，用于对自动化流程进行持续的监控和优化，及时更新数据处理流程和工具，以适应业务需求的变化和提高数据处理效率。

具体的，所述数据降维和补全模块包括数据降维单元和数据补全单元；

所述数据降维单元，用于对预处理后的基础数据进行降维处理；

所述数据补全单元，用于建立基础数据补充模型，对基础数据进行补全。

具体的，所述数据建设优化模块包括基础数据关联性单元和基础数据建设优化单元；

所述基础数据关联性单元，用于建立基础数据模型和基础数据与基础数据源的对应关系，对降维后的基础数据间的关联性进行计算；

所述基础数据建设优化单元，用于根据降维后的基础数据间的关联性，设定基础数据关联性阈值，选出符合条件的基础数据源，并以基础数据源作为数据建设的核心数据。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于自动化流程的基础数据建设优化方法的步骤。

一种计算机可读存储介质，其上存储有计算机指令，当计算机指令运行时执行基于自动化流程的基础数据建设优化方法的步骤。

与现有技术相比，本发明的有益效果是：

1.本发明提出基于自动化流程的基础数据建设优化系统，并进行了架构、运行步骤和流程上的优化改进，系统具备流程简单，投资运行费用低廉，生产工作成本低的优点。

2.本发明提出基于自动化流程的基础数据建设优化方法，收集基础数据，对收集的基础数据进行预处理，再对预处理后的基础数据进行降维处理，将经验性、逻辑性的问题变为相关性问题，建立数据补全模型，在满足一定的精准度情况下，推进基础数据补全计划，解决了决策精度和数据完整性的问题。

3.本发明提出基于自动化流程的基础数据建设优化方法，利用数据本身的关联性问题，筛选关联性数据，让数据基础收集工作只采集最核心、相互隔离性较强的数据，有效地控制了建设成本，解决了基础建设成本的问题。

附图说明

图1为本发明基于自动化流程的基础数据建设优化方法流程图；

图2为本发明基于自动化流程的基础数据建设优化系统架构图；

图3为本发明基于自动化流程的基础数据建设优化方法的电子设备图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“一号”、“二号”、“三号”仅用于描述目的，而不能理解为指示或暗示相对重要性。下面结合具体实施方式，进一步阐述本发明。

实施例1

请参阅图1，本发明提供的一种实施例：基于自动化流程的基础数据建设优化方法，包括以下具体步骤：

步骤S2：对收集的基础数据进行预处理；

步骤S1中基础数据采集的方法为：利用网络爬虫技术，对互联网中、基础数据所在网站中的基础数据进行采集。

步骤S2中的预处理包括：数据清洗和建立标准，去除重复和冗余的数据，和建立统一的数据标准，包括数据分类、编码和规格。

步骤S3的具体步骤为：

，

其中，表示基础数据集合中两个基础数据点联合的概率，/>表示指数函数，表示第i个基础数据点，/>表示第j个基础数据点，/>表示第k个基础数据点，/>表示第l个基础数据点，/>表示L2范数函数，/>表示概率修正系数；

步骤S303：设定和/>投影降维后对应的点为/>和/>，计算降维后的点/>和/>的联合概率，计算公式为：

，

数据降维的主要优点包括：1）减少计算复杂度，通过降低数据的维度，可以简化模型，减少计算量，从而提高计算效率；2）提高模型的准确性，降维有助于去除数据中的冗余信息和噪声，这有助于提高模型的泛化性能和鲁棒性；3）节省存储空间，降维减少了数据的存储需求，降低了数据处理的成本；4）加速学习算法，由于维度的减少，算法的运行速度会加快；5）便于数据可视化，降维后的数据可以更直观地展示在二维或三维空间中，有助于分析和理解数据；6）去除冗余特征，降维可以去除相关性大的特征，减少特征之间的多重共线性，从而提高数据质量；7）降低过拟合风险，通过降维，可以防止模型过度学习训练数据中的噪声，减少过拟合现象；8）增强内存管理，由于维度的降低，可以更有效地管理内存。

步骤S4的具体步骤为：

步骤S401：降维处理后的基础数据集合为，/>，其中，/>表示降维后的第n个基础数据点，/>表示降维后第n个基础数据点的标签；

，

数据关联不确定性：在与点目标跟踪相关的各类文献中，数据关联一直占据着很重要的地位。数据关联就是目标和量测的对应关系。由于量测的来源不确定（可能是虚警、新/旧目标），很多情况中我们不能判断量测属于哪个目标产生的，所以算法中需要考虑数据关联（对应关系）的所有可能性。一种对应关系称为关联假设，然而我们会看到这种对应关系的数目是组合数增长的，计算量爆炸性增长；

此处的基础数据和基础数据源之间的关系类似目标和量测之间的关系，存在多个基础数据属于一个基础数据源，这样就可以以基础数据源代表这些基础数据；

步骤S404中对数据进行补全的方法包括：均值法、随机样本法和插值法。

均值法适用于数值类型数据，整体极值差异不大时，计算列的平均值，然后将缺失值替换为这个平均值；随机样本法，随机在数据中填充数值，可以使用不同的概率分布（如正态分布、泊松分布等）；中位数填充，适用于数值类型数据，整体极值差异较大时，计算列的中位数，用中位数替换缺失值；众数填充，适用于字符类型或没有大小关系的数值类型数据，适用于大多数情况，众数是各类别变量中出现次数最多的值，用于替换缺失的分类数据；回归填充，适用于数据集较大且缺失值较多的情况，使用回归模型（如线性回归、决策树回归等）预测缺失值，还有多重插补法、特殊值法等。选择哪种方法取决于数据的类型、缺失值的数量以及数据的上下文。

实施例2

请参阅图2，本发明提供的另一种实施例：基于自动化流程的基础数据建设优化系统，包括：基础数据采集模块、基础数据预处理模块、数据降维和补全模块、数据建设优化模块和后续监控与优化模块；

数据降维和补全模块包括数据降维单元和数据补全单元；

数据建设优化模块包括基础数据关联性单元和基础数据建设优化单元；

实施例3

请参阅图3，一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于自动化流程的基础数据建设优化方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自动化流程的基础数据建设优化方法，其特征在于，包括以下具体步骤：

步骤S2：对收集的基础数据进行预处理；

2.如权利要求1所述的基于自动化流程的基础数据建设优化方法，其特征在于，所述步骤S1中基础数据采集的方法为：利用网络爬虫技术，对互联网中、基础数据所在网站中的基础数据进行采集。

3.如权利要求1所述的基于自动化流程的基础数据建设优化方法，其特征在于，所述步骤S2中的预处理包括：数据清洗和建立标准，去除重复和冗余的数据，和建立统一的数据标准，包括数据分类、编码和规格。

4.如权利要求1所述的基于自动化流程的基础数据建设优化方法，其特征在于，所述步骤S3的具体步骤为：

，

5.如权利要求1所述的基于自动化流程的基础数据建设优化方法，其特征在于，所述步骤S4的具体步骤为：

步骤S401：降维处理后的基础数据集合为，/>，其中，表示降维后的第n个基础数据点，/>表示降维后第n个基础数据点的标签；

，

6.如权利要求5所述的基于自动化流程的基础数据建设优化方法，其特征在于，所述步骤S402中第i个关联事件是否关联的概率的具体公式为：

，其中，/>表示错误的基础数据密度，表示杂波数量，/>表示归一化常数，/>表示降维后基础数据的数量，/>和/>表示分配系数，/>表示第i个关联事件中，第c个降维后的基础数据与第t个基础数据源关联的概率。

7.如权利要求5所述的基于自动化流程的基础数据建设优化方法，其特征在于，所述步骤S404中对数据进行补全的方法包括：均值法、随机样本法和插值法。

8.基于自动化流程的基础数据建设优化系统，其基于权利要求1-7中任一项所述的基于自动化流程的基础数据建设优化方法实现，其特征在于，包括：基础数据采集模块、基础数据预处理模块、数据降维和补全模块、数据建设优化模块和后续监控与优化模块；

9.如权利要求8所述的基于自动化流程的基础数据建设优化系统，其特征在于，所述数据降维和补全模块包括数据降维单元和数据补全单元；

10.如权利要求9所述的基于自动化流程的基础数据建设优化系统，其特征在于，所述数据建设优化模块包括基础数据关联性单元和基础数据建设优化单元；

11.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的基于自动化流程的基础数据建设优化方法的步骤。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，当计算机指令运行时执行权利要求1-7中任一项所述的基于自动化流程的基础数据建设优化方法的步骤。