CN117453764A

CN117453764A - 一种数据挖掘分析方法

Info

Publication number: CN117453764A
Application number: CN202311319394.2A
Authority: CN
Inventors: 刘永利; 苏金平
Original assignee: Shanghai Hegen Technology Co ltd
Current assignee: Shanghai Hegen Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-26

Abstract

本发明提供一种数据挖掘分析方法，涉及数据挖掘技术领域。该种数据挖掘分析方法，包括：步骤1：获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，并与预设数据库进行第一匹配，来获取得到每个第一需求词的第一搜索资源库；步骤2：对所述步骤1中的原始数据进行处理，包括去除重复数据、处理缺失值、处理异常值等，以确保数据质量；步骤3：将所述步骤2中来自不同来源的数据整合在一起，以便进行综合分析和挖掘。通过对数据集中存在大量缺失值、异常值等问题，进行处理，可减少异常值和缺失值对数据分析产生不必要的干扰和误导，从而影响模型的准确性，提高模型的稳定性和可靠性。

Description

一种数据挖掘分析方法

技术领域

本发明涉及数据挖掘技术领域，具体为一种数据挖掘分析方法。

背景技术

数据挖掘是指通过应用统计学和机器学习等技术，从大规模数据中自动发现模式、关联和隐藏信息的过程，可以帮助企业和组织深入了解客户需求、市场趋势和竞争对手行为等商业信息，通过分析大数据，企业可以制定更准确的营销策略、优化产品设计、提升客户满意度，从而获得竞争优势，并且，通过挖掘历史数据中的模式和规律，可以对未来的趋势进行预测，从而帮助企业和政府做出更明智的决策，还可以通过数据挖掘技术，分析社交媒体数据、网络日志、交通数据等，了解人群行为、社会趋势和事件关联，对于社会管理、公共安全和反恐等方面具有重要意义，帮助相关部门及时发现异常情况并采取相应措施，此外，数据挖掘还可以应用于公共卫生管理、流行病预测等领域，提高健康和医疗服务的质量和效率。

现有的，数据挖掘分析方法在面对数据集中存在大量缺失值、异常值等问题时，缺失值会对数据挖掘过程产生影响，因为算法通常无法处理缺失值，常见的处理方式包括删除带有缺失值的样本或特征、使用均值或中值填充缺失值等，然而，这些方法都可能引入偏差或丢失重要信息，异常值对数据挖掘有干扰作用，可能导致模型不准确或不稳定。

为此，我们研发出了新的一种数据挖掘分析方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种数据挖掘分析方法，解决了现有数据挖掘分析方法在面对数据集中存在大量缺失值、异常值等问题时，缺失值会对数据挖掘过程产生影响，从而导致模型不准确或不稳定的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种数据挖掘分析方法，包括：

步骤1：获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，并与预设数据库进行第一匹配，来获取得到每个第一需求词的第一搜索资源库；

步骤2：对所述步骤1中的原始数据进行处理，包括去除重复数据、处理缺失值、处理异常值等，以确保数据质量；

步骤3：将所述步骤2中来自不同来源的数据整合在一起，以便进行综合分析和挖掘；

步骤4：将所述步骤3后整合后的数据，进行可视化和统计分析，发现数据中的规律、趋势、性质、关系和异常情况，为后续分析提供指导和决策基础；

步骤5：对原始数据进行特征选择、特征抽取、变量转换等方法，提取有用信息和建立新特征，同时，根据实际需求和算法选择合适的变量进行预测或分类；

步骤6：使用常见的机器学习算法如K-means聚类、决策树、支持向量机、人工神经网络、逻辑回归等方法进行建模，然后进行模型评估，并根据结果对模型进行调整和重构；

步骤7：应用挖掘结果到实际业务中，为业务决策提供支持，并根据用户反馈不断改进和提升。

优选的，获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，包括：

获取与所述用户存在搜索关联的第一平台，并按照所述第一平台的平台属性，从属性引擎数据库中筛选与所述平台属性一致的词汇提取引擎；

按照所述词汇提取引擎对所述用户搜索需求进行提取，得到第一需求词。

通过上述技术方案，能够从大量的数据中挖掘出隐藏在其中的规律、关联性和趋势，利用历史数据和模型预测未来的趋势和可能的发展方向，帮助企业和组织做出更加准确的决策，如产品开发、营销和战略规划等。

优选的，所述步骤2中通过删除包含缺失值的行或列、用均值、中位数或众数等基础统计量填补缺失值和使用插值法、回归分析等高级技术填充缺失值；

所述处理异常值通过采用删除异常值、将异常值转换为缺失值，并使用上述方法进行处理和对异常值进行剪枝，将其设置为与数据集中其他值相同的值。

通过上述技术方案，可以帮助提高模型的准确性，并且减少处理数据时所需的时间和计算资源，通过使用处理缺失值的技术，如插补或删除缺失值，可以将数据集清理并准备好用于训练模型，并且，提高模型的准确性和稳定性，并避免因缺失数据引起的偏置。

优选的，所述步骤3中通过将来自同一对象的不同属性或特征整合在一起，形成宽表格或高表格，通过标识符或关键信息来匹配不同数据源中的记录或实体，并将它们整合在一起，对象匹配需要依据业务和数据需求来确定匹配规则，并使用相应的技术进行处理。

通过上述技术方案，可以消除原始数据中的噪声和误差，提高数据的质量和准确性。通过对多个数据源进行比较和校验，可以筛选出相对可靠的数据，并使用这些数据进行建模和分析，从而得到更准确的结果。

优选的，所述步骤4中使用直方图、柱状图、箱线图等方式对数值型变量进行可视化，以了解其分布、中心趋势和离群值情况，并通过散点图、折线图等方式对不同变量之间的关系进行可视化，探索变量之间的相关性和趋势。

通过上述技术方案，可以对数据进行可视化、统计分析和描述性分析，帮助我们深入理解数据，了解数据的基本特征、属性分布、缺失值和异常值情况等，从而为后续的数据预处理和建模提供基础。

优选的，所述步骤5中对类别型变量进行编码，例如使用独热编码、标签编码等方式将其转化为数值型变量，后对连续型变量进行转换，例如使用对数变换、归一化、标准化等方法，使其符合模型假设。

通过上述技术方案，可以选择和构建与目标变量相关性较高的特征和变量，从而提高模型的预测性能，并且，可以筛选出最具代表性和关联性的特征，避免过拟合问题。

优选的，所述步骤6中假设有n个样本，每个样本包含m个特征，其中第j个特征记为xj，则逻辑回归模型的表达式如下：

其中，θ是一个m维向量，表示模型的参数，h_θ(x)是对于输入x的预测输出，e是自然常数。

通过上述技术方案，可以提供变量权重、系数等信息，帮助我们解释和理解数据背后的规律和机制，从而得到有关数据的深入洞察。

优选的，所述步骤7中利用已经建立好的模型，对新数据进行预测、分类等操作，获得模型在实际业务中的应用效果，针对应用中的问题和反馈，对模型进行调整和优化，使其更加符合业务需求。

通过上述技术方案，企业可以发现市场机会、洞察消费者需求、优化产品组合、提高客户满意度、降低成本和风险等，从而获得更好的经济效益和竞争优势。

(三)有益效果

本发明提供了一种数据挖掘分析方法。具备以下有益效果：

该数据挖掘分析方法，通过对数据集中存在大量缺失值、异常值等问题，使用处理异常值的技术，如替换或删除异常值等，减少异常值可对数据分析产生不必要的干扰和误导，从而影响模型的准确性，提高模型的稳定性和可靠性，并且，在数据挖掘分析中，删除重复数据帮助提高模型的准确性，减少处理数据时所需的时间和计算资源，可以帮助清理数据集，使得分析过程更简单、更容易理解。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1所示，本发明实施例提供一种数据挖掘分析方法，包括：

步骤1：获取用户搜索需求，来对用户搜索需求进行第一需求词提取，并与预设数据库进行第一匹配，来获取得到每个第一需求词的第一搜索资源库，来对用户搜索需求进行第一需求词提取，包括：获取与用户存在搜索关联的第一平台，并按照第一平台的平台属性，从属性引擎数据库中筛选与平台属性一致的词汇提取引擎；按照词汇提取引擎对用户搜索需求进行提取，得到第一需求词；

步骤2：对步骤1中的原始数据进行处理，包括去除重复数据、处理缺失值、处理异常值等，以确保数据质量，通过删除包含缺失值的行或列、用均值、中位数或众数等基础统计量填补缺失值和使用插值法、回归分析等高级技术填充缺失值；处理异常值通过采用删除异常值、将异常值转换为缺失值，并使用上述方法进行处理和对异常值进行剪枝，将其设置为与数据集中其他值相同的值；

步骤3：将步骤2中来自不同来源的数据整合在一起，以便进行综合分析和挖掘；通过将来自同一对象的不同属性或特征整合在一起，形成宽表格或高表格，通过标识符或关键信息来匹配不同数据源中的记录或实体，并将它们整合在一起，对象匹配需要依据业务和数据需求来确定匹配规则，并使用相应的技术进行处理；

步骤4：将步骤3后整合后的数据，进行可视化和统计分析，发现数据中的规律、趋势、性质、关系和异常情况，为后续分析提供指导和决策基础；步骤4中使用直方图、柱状图、箱线图等方式对数值型变量进行可视化，以了解其分布、中心趋势和离群值情况，并通过散点图、折线图等方式对不同变量之间的关系进行可视化，探索变量之间的相关性和趋势；

步骤5：对原始数据进行特征选择、特征抽取、变量转换等方法，提取有用信息和建立新特征，同时，根据实际需求和算法选择合适的变量进行预测或分类；对类别型变量进行编码，例如使用独热编码、标签编码等方式将其转化为数值型变量，后对连续型变量进行转换，例如使用对数变换、归一化、标准化等方法，使其符合模型假设；

步骤6：使用常见的机器学习算法如K-means聚类、决策树、支持向量机、人工神经网络、逻辑回归等方法进行建模，然后进行模型评估，并根据结果对模型进行调整和重构；假设有n个样本，每个样本包含m个特征，其中第j个特征记为xj，则逻辑回归模型的表达式如下：

其中，θ是一个m维向量，表示模型的参数，h_θ(x)是对于输入x的预测输出，e是自然常数；

步骤7：应用挖掘结果到实际业务中，为业务决策提供支持，并根据用户反馈不断改进和提升，利用已经建立好的模型，对新数据进行预测、分类等操作，获得模型在实际业务中的应用效果，针对应用中的问题和反馈，对模型进行调整和优化，使其更加符合业务需求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种数据挖掘分析方法，其特征在于，包括：

2.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，包括：

3.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：所述步骤2中通过删除包含缺失值的行或列、用均值、中位数或众数等基础统计量填补缺失值和使用插值法、回归分析等高级技术填充缺失值；

4.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：所述步骤3中通过将来自同一对象的不同属性或特征整合在一起，形成宽表格或高表格，通过标识符或关键信息来匹配不同数据源中的记录或实体，并将它们整合在一起，对象匹配需要依据业务和数据需求来确定匹配规则，并使用相应的技术进行处理。

5.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：所述步骤4中使用直方图、柱状图、箱线图等方式对数值型变量进行可视化，以了解其分布、中心趋势和离群值情况，并通过散点图、折线图等方式对不同变量之间的关系进行可视化，探索变量之间的相关性和趋势。

6.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：所述步骤5中对类别型变量进行编码，例如使用独热编码、标签编码等方式将其转化为数值型变量，后对连续型变量进行转换，例如使用对数变换、归一化、标准化等方法，使其符合模型假设。

7.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：所述步骤6中假设有n个样本，每个样本包含m个特征，其中第j个特征记为xj，则逻辑回归模型的表达式如下：

8.根据权利要求1所述的一种数据挖掘分析方法，其特征在于：所述步骤7中利用已经建立好的模型，对新数据进行预测、分类等操作，获得模型在实际业务中的应用效果，针对应用中的问题和反馈，对模型进行调整和优化，使其更加符合业务需求。