CN117708198A

CN117708198A - 一种应用系统数据智能关联方法

Info

Publication number: CN117708198A
Application number: CN202311714453.6A
Authority: CN
Inventors: 田�健; 唐菁; 张伟; 于浩; 邬浩翔
Original assignee: Unicom Digital Technology Co Ltd
Current assignee: Unicom Digital Technology Co Ltd
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-15

Abstract

本发明公开了一种应用系统数据智能关联方法，涉及数据采集技术领域。包括：获取系统数据的输入信息，并将输入信息转换成预备数据集；构建处理规则，预备数据集借助处理规则剔除非必要的数据集；建立分化指标，分化指标通过提取剩余的数据集内；构建联想规则，提取剩余数据集内的关键词，对关键词进行扩展联想。本发明通过获取系统数据的输入信息、构建处理规则、建立分化指标、构建联想规则以及对照联想数据集和非必要数据集等步骤，实现了对系统数据的智能化关联和分析。这种方法思路清晰、逻辑严密、推理精确，能够有效地从大量数据中提取有价值的信息并建立相应的关联关系，为后续的数据处理和分析提供了有力的支持。

Description

一种应用系统数据智能关联方法

技术领域

本发明涉及数据采集技术领域，具体为一种应用系统数据智能关联方法。

背景技术

申请公布号“CN114020805A”的中国发明专利，名称为“一种应用于项目管理的实时数据智能关联方法”，通过从历史数据中获取相关信息，然后使用Apriori算法的技术来找出新项目和已有项目之间的关联规则。接着系统会把这些规则展示给项目管理人员，他们可以根据实际情况调整这些规则。一旦新项目的数据进入系统并经过备份，系统会根据之前确认的规则来对新数据进行关联分析，然后通过邮件通知项目管理人员结果，然而该专利在实际使用时，存在以下几点不足：

第一，缺乏自动学习和适应能力：实时数据智能关联方法通常不能主动学习和适应新的数据模式和关联规律。一旦项目管理环境或数据发生变化，需要手动调整和更新规则和逻辑，增加了维护和调优的工作量。

第二，对复杂非线性关联的限制：实时数据智能关联方法通常使用简单的算法和规则，难以捕捉复杂的非线性关联模式，在复杂项目管理场景中，数据之间的关系可能是非常复杂和多样化的，因此需要大量的人工维护和调优。

第三，数据质量的影响：实时数据智能关联方法对数据质量要求较高。如果项目管理数据存在缺失和错误等问题，实时数据智能关联方法可能会受到影响，并产生不准确的关联结果。

针对以上现有技术的缺点，本发明提出一种应用系统数据智能关联方法，旨在解决现有技术中存在的依赖人工设定的规则和逻辑、缺乏自动学习和适应能力、对复杂非线性关联的限制、数据质量的影响以及有限的扩展性和泛化能力等问题。

发明内容

本发明的目的在于提供一种应用系统数据智能关联方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种应用系统数据智能关联方法，包括：

获取系统数据的输入信息，并将输入信息转换成预备数据集；

构建处理规则，预备数据集借助处理规则剔除非必要的数据集；

建立分化指标，分化指标通过提取剩余的数据集内；

构建联想规则，提取剩余数据集内的关键词，对关键词进行扩展联想，得到联想数据集，对照联想数据集和非必要数据集，将关联的数据集归纳到一起。

更进一步地，获取系统数据的输入信息，并将输入信息转换成预备数据集，包括以下步骤：

S1、确定系统数据的输入来源；

S2、提取输入来源的数据信息；

S3、将数据信息整合成预备数据集。

更进一步地，构建处理规则，预备数据集借助处理规则剔除非必要的数据集，包括以下步骤：

A1、根据预备数据集的内容确定处理规则；

A2、根据处理规则将预备数据集中的非必要数据剔除；

A3、得到经过处理规则的数据集。

更进一步地，建立分化指标，分化指标通过提取剩余的数据集内，包括以下步骤：

B1、根据经过处理规则的数据集确定分化指标；

B2、提取数据集中的关键词；

B3、根据关键词和分化指标对数据集进行分化。

更进一步地，构建联想规则，提取剩余数据集内的关键词，对关键词进行扩展联想，得到联想数据集，对照联想数据集和非必要数据集，将关联的数据集归纳到一起，包括以下步骤：

C1、根据分化后的数据集确定关键词；

C2、根据关键词和联想规则构建联想数据集；

C3、对照联想数据集和非必要数据集，将关联的数据集归纳到一起。

更进一步地，在构建联想规则后还能设置以下步骤：

D1、对归纳到的关联的数据集进行进一步处理，包括对数据集进行聚类、分类、关联规则挖掘；

D2、根据处理结果对数据集进行可视化展示，用于用户直观地了解数据集的分布、特征和关联情况；

D3、根据用户的需求，对数据集进行定制化处理，以满足用户的特定需求；

D4、将处理结果反馈给用户，并接受用户的反馈，以便不断优化数据处理过程。

更进一步地，在获取信息时，需对数据集进行安全性和隐私性检查，确保数据的安全性和隐私性。

更进一步地，在构建处理规则、建立分化指标和构建联想规则等步骤中，都需要进行数据清洗和预处理，包括去除重复数据、处理缺失值、异常值和噪声等，以保证数据的质量和可靠性。

与现有技术相比，本发明的有益效果是：

该应用系统数据智能关联方法，通过获取系统数据的输入信息、构建处理规则、建立分化指标、构建联想规则以及对照联想数据集和非必要数据集等步骤，实现了对系统数据的智能化关联和分析。

此外，通过自动学习和适应新的数据模式和关联规律，本发明能够更准确地发现项目之间的关联关系，并且覆盖更多的关联情况，且通过自动调整和更新规则和逻辑，以适应项目管理环境或数据的变化，降低了人工维护和调优的工作量；

然后就是在实际使用时，通过数据预处理和特征提取步骤，本发明能够提高数据质量，降低对缺失和错误值的影响，提高关联结果的准确性。

附图说明

图1为本发明方法的步骤流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：一种应用系统数据智能关联方法包括：

建立分化指标，分化指标通过提取剩余的数据集内；

需说明的是，本发明采用机器学习算法，对输入的数据进行学习，自动发现数据之间的关联规则和模式，同时，根据输入数据内特点的词语，进行联想，例如“信息采集”联想到“信息支出”此外还可以根据输入数据内的其他特点词语进行联想。例如，当输入数据中出现“数据分析”时，该算法可以联想到“数据可视化”或“数据挖掘”，从而提供更丰富的建议和选项。

另外，该机器学习算法还可以根据用户的偏好和历史行为进行联想。例如，如果用户在过去经常搜索与某个主题相关的信息，该算法可以优先推荐与该主题相关的建议和选项。这样可以提高用户的效率和满意度，同时增强用户体验。

因此本方在实际进行关联时，其关联方法细化包括以下步骤：

步骤1.数据收集：首先需要收集相关的数据。这可能包括从各种来源(例如传感器、数据库、网络等)收集到的原始数据，以及经过初步处理和分析的数据(其中步骤1在联通领域内实施时，所采集的信息为id卡号，网络密钥、输入的指令等)。

步骤2.数据预处理：对于收集到的原始数据，需要进行必要的预处理，去除异常值，填充缺失值，进行标准化等，使其更适合进行后续的分析和关联。(其中步骤2在联通领域内实施时，所进行的对象为，输入的指令，即输入的指令存在错别字时，对错别字进行的去除，并重新填充)。

步骤3.数据分析和挖掘：在预处理之后，使用各种数据分析和挖掘技术来识别和提取数据中的模式和关系，这可能包括聚类分析、关联规则挖掘等。(例如在实际使用时，会对实施例2内输入的信息进行关联，并列举出树状图，其中树状图为步骤2对修复后输入的指令的读取，并列举出相似规格的内容)

步骤4.特征提取：从数据中提取出有意义的特征，以便能够更好地表示数据。(例如：在实际使用时，对步骤3内的列举出的树状图内的信息进行分类划分，例如：在联通信号领域内，将信息输入和指令输入归纳到一起)

步骤5.模型构建：基于提取出的特征，使用机器学习算法构建模型，该模型能够根据已有的数据进行预测或决策。(例如：在实际使用时，对步骤4内的信息进行模型构建，将信息输入和指令输入进行划分后，归纳到一起，并使用联通信号领域内的知识进行模型构建)。

步骤6.模型评估：在构建模型后，使用一部分数据对模型进行评估，检查模型的准确性和可靠性。

步骤7.部署和应用：将优化后的模型部署到实际应用场景中，进行实时预测或决策。

需补充的是，在本申请中，获取系统数据的输入信息，并将输入信息转换成预备数据集，包括以下步骤：

S1、确定系统数据的输入来源；

S2、提取输入来源的数据信息；

S3、将数据信息整合成预备数据集。

此外需说明的是，在本申请中，构建处理规则，预备数据集借助处理规则剔除非必要的数据集，包括以下步骤：

A1、根据预备数据集的内容确定处理规则；

A2、根据处理规则将预备数据集中的非必要数据剔除；

A3、得到经过处理规则的数据集。

还需说明的是，在本申请中，建立分化指标，分化指标通过提取剩余的数据集内，包括以下步骤：

B1、根据经过处理规则的数据集确定分化指标；

B2、提取数据集中的关键词；

B3、根据关键词和分化指标对数据集进行分化。

需进一步说明的是，在本申请中，构建联想规则，提取剩余数据集内的关键词，对关键词进行扩展联想，得到联想数据集，对照联想数据集和非必要数据集，将关联的数据集归纳到一起，包括以下步骤：

C1、根据分化后的数据集确定关键词；

C2、根据关键词和联想规则构建联想数据集；

还有需要补充的是，在本申请中，在构建联想规则后还能设置以下步骤：

需说明的是，数据预处理是在收集到的原始数据上进行必要的清洗和处理，使其适合后续的分析和建模。在这一步骤中，需要处理异常值、填充缺失值、进行数据平滑或标准化等操作，以提高数据质量和准确性。同样，需要注意数据隐私和安全，避免泄漏敏感信息。

此外数据分析和挖掘阶段旨在从预处理后的数据中识别和提取有用的模式和关系，在这一步骤中，需要确保分析结果的准确性和可靠性，并根据需要进行数据脱敏处理，以保护隐私信息。

还需补充的是特征提取：特征提取是从数据中提取出有意义的特征，以更好地表示数据。这一步骤的目标是减少数据维度并保留最相关的信息。在特征提取过程中，需要考虑特征的选择、转换和组合方式，并确保不会泄露敏感信息。

需说明的是，本申请中的模型构建是使用机器学习算法基于提取出的特征构建预测或决策模型。这一步骤涉及选择合适的算法、模型训练和调优等过程。在模型构建中，需要注意对模型和数据进行保护，避免未经授权的访问和使用，需强调的是，在此过程中机器的学习算法包括：

线性回归、逻辑回归、决策树、随机森林、支持向量机，这些算法能够根据提取出的特征，通过训练和优化来创建预测或决策模型。

此外为了保障模型和数据的安全性，我们采取了多种安全措施，包括对数据进行加密、对模型进行访问控制、对敏感数据进行脱敏处理等，这些措施有效地避免了未经授权的访问和使用，从而确保了模型和数据的安全性。

此外还需补充的是，在选择机器学习算法时，我们根据不同的场景和需求选择了不同的算法。例如，对于需要解释性强的场景，我们选择了决策树或逻辑回归等可解释性强的算法；对于需要高精度的场景，我们选择了支持向量机或神经网络等精度高的算法。

在模型训练和调优过程中，我们采用了交叉验证、网格搜索等技术来提高模型的精度和泛化能力。同时，我们还采用了早停机制、Dropout等技术来防止过拟合和欠拟合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种应用系统数据智能关联方法，其特征在于，所述方法包括：

建立分化指标，分化指标通过提取剩余的数据集内；

2.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：获取系统数据的输入信息，并将输入信息转换成预备数据集，包括以下步骤：

S1、确定系统数据的输入来源；

S2、提取输入来源的数据信息；

S3、将数据信息整合成预备数据集。

3.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：构建处理规则，预备数据集借助处理规则剔除非必要的数据集，包括以下步骤：

A1、根据预备数据集的内容确定处理规则；

A2、根据处理规则将预备数据集中的非必要数据剔除；

A3、得到经过处理规则的数据集。

4.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：建立分化指标，分化指标通过提取剩余的数据集内，包括以下步骤：

B1、根据经过处理规则的数据集确定分化指标；

B2、提取数据集中的关键词；

B3、根据关键词和分化指标对数据集进行分化。

5.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：构建联想规则，提取剩余数据集内的关键词，对关键词进行扩展联想，得到联想数据集，对照联想数据集和非必要数据集，将关联的数据集归纳到一起，包括以下步骤：

C1、根据分化后的数据集确定关键词；

C2、根据关键词和联想规则构建联想数据集；

6.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：在构建联想规则后还能设置以下步骤：

7.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：在获取信息时，需对数据集进行安全性和隐私性检查，确保数据的安全性和隐私性。

8.根据权利要求1所述的一种应用系统数据智能关联方法，其特征在于：在构建处理规则、建立分化指标和构建联想规则等步骤中，都需要进行数据清洗和预处理，包括去除重复数据、处理缺失值、异常值和噪声等，以保证数据的质量和可靠性。