CN117453764A - 一种数据挖掘分析方法 - Google Patents
一种数据挖掘分析方法 Download PDFInfo
- Publication number
- CN117453764A CN117453764A CN202311319394.2A CN202311319394A CN117453764A CN 117453764 A CN117453764 A CN 117453764A CN 202311319394 A CN202311319394 A CN 202311319394A CN 117453764 A CN117453764 A CN 117453764A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- requirement
- analysis method
- data mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000007418 data mining Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000002159 abnormal effect Effects 0.000 claims abstract description 18
- 238000005065 mining Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 2
- 238000011426 transformation method Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
Abstract
本发明提供一种数据挖掘分析方法,涉及数据挖掘技术领域。该种数据挖掘分析方法,包括:步骤1:获取用户搜索需求,来对所述用户搜索需求进行第一需求词提取,并与预设数据库进行第一匹配,来获取得到每个第一需求词的第一搜索资源库;步骤2:对所述步骤1中的原始数据进行处理,包括去除重复数据、处理缺失值、处理异常值等,以确保数据质量;步骤3:将所述步骤2中来自不同来源的数据整合在一起,以便进行综合分析和挖掘。通过对数据集中存在大量缺失值、异常值等问题,进行处理,可减少异常值和缺失值对数据分析产生不必要的干扰和误导,从而影响模型的准确性,提高模型的稳定性和可靠性。
Description
技术领域
本发明涉及数据挖掘技术领域,具体为一种数据挖掘分析方法。
背景技术
数据挖掘是指通过应用统计学和机器学习等技术,从大规模数据中自动发现模式、关联和隐藏信息的过程,可以帮助企业和组织深入了解客户需求、市场趋势和竞争对手行为等商业信息,通过分析大数据,企业可以制定更准确的营销策略、优化产品设计、提升客户满意度,从而获得竞争优势,并且,通过挖掘历史数据中的模式和规律,可以对未来的趋势进行预测,从而帮助企业和政府做出更明智的决策,还可以通过数据挖掘技术,分析社交媒体数据、网络日志、交通数据等,了解人群行为、社会趋势和事件关联,对于社会管理、公共安全和反恐等方面具有重要意义,帮助相关部门及时发现异常情况并采取相应措施,此外,数据挖掘还可以应用于公共卫生管理、流行病预测等领域,提高健康和医疗服务的质量和效率。
现有的,数据挖掘分析方法在面对数据集中存在大量缺失值、异常值等问题时,缺失值会对数据挖掘过程产生影响,因为算法通常无法处理缺失值,常见的处理方式包括删除带有缺失值的样本或特征、使用均值或中值填充缺失值等,然而,这些方法都可能引入偏差或丢失重要信息,异常值对数据挖掘有干扰作用,可能导致模型不准确或不稳定。
为此,我们研发出了新的一种数据挖掘分析方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种数据挖掘分析方法,解决了现有数据挖掘分析方法在面对数据集中存在大量缺失值、异常值等问题时,缺失值会对数据挖掘过程产生影响,从而导致模型不准确或不稳定的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种数据挖掘分析方法,包括:
步骤1:获取用户搜索需求,来对所述用户搜索需求进行第一需求词提取,并与预设数据库进行第一匹配,来获取得到每个第一需求词的第一搜索资源库;
步骤2:对所述步骤1中的原始数据进行处理,包括去除重复数据、处理缺失值、处理异常值等,以确保数据质量;
步骤3:将所述步骤2中来自不同来源的数据整合在一起,以便进行综合分析和挖掘;
步骤4:将所述步骤3后整合后的数据,进行可视化和统计分析,发现数据中的规律、趋势、性质、关系和异常情况,为后续分析提供指导和决策基础;
步骤5:对原始数据进行特征选择、特征抽取、变量转换等方法,提取有用信息和建立新特征,同时,根据实际需求和算法选择合适的变量进行预测或分类;
步骤6:使用常见的机器学习算法如K-means聚类、决策树、支持向量机、人工神经网络、逻辑回归等方法进行建模,然后进行模型评估,并根据结果对模型进行调整和重构;
步骤7:应用挖掘结果到实际业务中,为业务决策提供支持,并根据用户反馈不断改进和提升。
优选的,获取用户搜索需求,来对所述用户搜索需求进行第一需求词提取,包括:
获取与所述用户存在搜索关联的第一平台,并按照所述第一平台的平台属性,从属性引擎数据库中筛选与所述平台属性一致的词汇提取引擎;
按照所述词汇提取引擎对所述用户搜索需求进行提取,得到第一需求词。
通过上述技术方案,能够从大量的数据中挖掘出隐藏在其中的规律、关联性和趋势,利用历史数据和模型预测未来的趋势和可能的发展方向,帮助企业和组织做出更加准确的决策,如产品开发、营销和战略规划等。
优选的,所述步骤2中通过删除包含缺失值的行或列、用均值、中位数或众数等基础统计量填补缺失值和使用插值法、回归分析等高级技术填充缺失值;
所述处理异常值通过采用删除异常值、将异常值转换为缺失值,并使用上述方法进行处理和对异常值进行剪枝,将其设置为与数据集中其他值相同的值。
通过上述技术方案,可以帮助提高模型的准确性,并且减少处理数据时所需的时间和计算资源,通过使用处理缺失值的技术,如插补或删除缺失值,可以将数据集清理并准备好用于训练模型,并且,提高模型的准确性和稳定性,并避免因缺失数据引起的偏置。
优选的,所述步骤3中通过将来自同一对象的不同属性或特征整合在一起,形成宽表格或高表格,通过标识符或关键信息来匹配不同数据源中的记录或实体,并将它们整合在一起,对象匹配需要依据业务和数据需求来确定匹配规则,并使用相应的技术进行处理。
通过上述技术方案,可以消除原始数据中的噪声和误差,提高数据的质量和准确性。通过对多个数据源进行比较和校验,可以筛选出相对可靠的数据,并使用这些数据进行建模和分析,从而得到更准确的结果。
优选的,所述步骤4中使用直方图、柱状图、箱线图等方式对数值型变量进行可视化,以了解其分布、中心趋势和离群值情况,并通过散点图、折线图等方式对不同变量之间的关系进行可视化,探索变量之间的相关性和趋势。
通过上述技术方案,可以对数据进行可视化、统计分析和描述性分析,帮助我们深入理解数据,了解数据的基本特征、属性分布、缺失值和异常值情况等,从而为后续的数据预处理和建模提供基础。
优选的,所述步骤5中对类别型变量进行编码,例如使用独热编码、标签编码等方式将其转化为数值型变量,后对连续型变量进行转换,例如使用对数变换、归一化、标准化等方法,使其符合模型假设。
通过上述技术方案,可以选择和构建与目标变量相关性较高的特征和变量,从而提高模型的预测性能,并且,可以筛选出最具代表性和关联性的特征,避免过拟合问题。
优选的,所述步骤6中假设有n个样本,每个样本包含m个特征,其中第j个特征记为xj,则逻辑回归模型的表达式如下:
其中,θ是一个m维向量,表示模型的参数,hθ(x)是对于输入x的预测输出,e是自然常数。
通过上述技术方案,可以提供变量权重、系数等信息,帮助我们解释和理解数据背后的规律和机制,从而得到有关数据的深入洞察。
优选的,所述步骤7中利用已经建立好的模型,对新数据进行预测、分类等操作,获得模型在实际业务中的应用效果,针对应用中的问题和反馈,对模型进行调整和优化,使其更加符合业务需求。
通过上述技术方案,企业可以发现市场机会、洞察消费者需求、优化产品组合、提高客户满意度、降低成本和风险等,从而获得更好的经济效益和竞争优势。
(三)有益效果
本发明提供了一种数据挖掘分析方法。具备以下有益效果:
该数据挖掘分析方法,通过对数据集中存在大量缺失值、异常值等问题,使用处理异常值的技术,如替换或删除异常值等,减少异常值可对数据分析产生不必要的干扰和误导,从而影响模型的准确性,提高模型的稳定性和可靠性,并且,在数据挖掘分析中,删除重复数据帮助提高模型的准确性,减少处理数据时所需的时间和计算资源,可以帮助清理数据集,使得分析过程更简单、更容易理解。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明实施例提供一种数据挖掘分析方法,包括:
步骤1:获取用户搜索需求,来对用户搜索需求进行第一需求词提取,并与预设数据库进行第一匹配,来获取得到每个第一需求词的第一搜索资源库,来对用户搜索需求进行第一需求词提取,包括:获取与用户存在搜索关联的第一平台,并按照第一平台的平台属性,从属性引擎数据库中筛选与平台属性一致的词汇提取引擎;按照词汇提取引擎对用户搜索需求进行提取,得到第一需求词;
步骤2:对步骤1中的原始数据进行处理,包括去除重复数据、处理缺失值、处理异常值等,以确保数据质量,通过删除包含缺失值的行或列、用均值、中位数或众数等基础统计量填补缺失值和使用插值法、回归分析等高级技术填充缺失值;处理异常值通过采用删除异常值、将异常值转换为缺失值,并使用上述方法进行处理和对异常值进行剪枝,将其设置为与数据集中其他值相同的值;
步骤3:将步骤2中来自不同来源的数据整合在一起,以便进行综合分析和挖掘;通过将来自同一对象的不同属性或特征整合在一起,形成宽表格或高表格,通过标识符或关键信息来匹配不同数据源中的记录或实体,并将它们整合在一起,对象匹配需要依据业务和数据需求来确定匹配规则,并使用相应的技术进行处理;
步骤4:将步骤3后整合后的数据,进行可视化和统计分析,发现数据中的规律、趋势、性质、关系和异常情况,为后续分析提供指导和决策基础;步骤4中使用直方图、柱状图、箱线图等方式对数值型变量进行可视化,以了解其分布、中心趋势和离群值情况,并通过散点图、折线图等方式对不同变量之间的关系进行可视化,探索变量之间的相关性和趋势;
步骤5:对原始数据进行特征选择、特征抽取、变量转换等方法,提取有用信息和建立新特征,同时,根据实际需求和算法选择合适的变量进行预测或分类;对类别型变量进行编码,例如使用独热编码、标签编码等方式将其转化为数值型变量,后对连续型变量进行转换,例如使用对数变换、归一化、标准化等方法,使其符合模型假设;
步骤6:使用常见的机器学习算法如K-means聚类、决策树、支持向量机、人工神经网络、逻辑回归等方法进行建模,然后进行模型评估,并根据结果对模型进行调整和重构;假设有n个样本,每个样本包含m个特征,其中第j个特征记为xj,则逻辑回归模型的表达式如下:
其中,θ是一个m维向量,表示模型的参数,hθ(x)是对于输入x的预测输出,e是自然常数;
步骤7:应用挖掘结果到实际业务中,为业务决策提供支持,并根据用户反馈不断改进和提升,利用已经建立好的模型,对新数据进行预测、分类等操作,获得模型在实际业务中的应用效果,针对应用中的问题和反馈,对模型进行调整和优化,使其更加符合业务需求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种数据挖掘分析方法,其特征在于,包括:
步骤1:获取用户搜索需求,来对所述用户搜索需求进行第一需求词提取,并与预设数据库进行第一匹配,来获取得到每个第一需求词的第一搜索资源库;
步骤2:对所述步骤1中的原始数据进行处理,包括去除重复数据、处理缺失值、处理异常值等,以确保数据质量;
步骤3:将所述步骤2中来自不同来源的数据整合在一起,以便进行综合分析和挖掘;
步骤4:将所述步骤3后整合后的数据,进行可视化和统计分析,发现数据中的规律、趋势、性质、关系和异常情况,为后续分析提供指导和决策基础;
步骤5:对原始数据进行特征选择、特征抽取、变量转换等方法,提取有用信息和建立新特征,同时,根据实际需求和算法选择合适的变量进行预测或分类;
步骤6:使用常见的机器学习算法如K-means聚类、决策树、支持向量机、人工神经网络、逻辑回归等方法进行建模,然后进行模型评估,并根据结果对模型进行调整和重构;
步骤7:应用挖掘结果到实际业务中,为业务决策提供支持,并根据用户反馈不断改进和提升。
2.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:获取用户搜索需求,来对所述用户搜索需求进行第一需求词提取,包括:
获取与所述用户存在搜索关联的第一平台,并按照所述第一平台的平台属性,从属性引擎数据库中筛选与所述平台属性一致的词汇提取引擎;
按照所述词汇提取引擎对所述用户搜索需求进行提取,得到第一需求词。
3.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:所述步骤2中通过删除包含缺失值的行或列、用均值、中位数或众数等基础统计量填补缺失值和使用插值法、回归分析等高级技术填充缺失值;
所述处理异常值通过采用删除异常值、将异常值转换为缺失值,并使用上述方法进行处理和对异常值进行剪枝,将其设置为与数据集中其他值相同的值。
4.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:所述步骤3中通过将来自同一对象的不同属性或特征整合在一起,形成宽表格或高表格,通过标识符或关键信息来匹配不同数据源中的记录或实体,并将它们整合在一起,对象匹配需要依据业务和数据需求来确定匹配规则,并使用相应的技术进行处理。
5.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:所述步骤4中使用直方图、柱状图、箱线图等方式对数值型变量进行可视化,以了解其分布、中心趋势和离群值情况,并通过散点图、折线图等方式对不同变量之间的关系进行可视化,探索变量之间的相关性和趋势。
6.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:所述步骤5中对类别型变量进行编码,例如使用独热编码、标签编码等方式将其转化为数值型变量,后对连续型变量进行转换,例如使用对数变换、归一化、标准化等方法,使其符合模型假设。
7.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:所述步骤6中假设有n个样本,每个样本包含m个特征,其中第j个特征记为xj,则逻辑回归模型的表达式如下:
其中,θ是一个m维向量,表示模型的参数,hθ(x)是对于输入x的预测输出,e是自然常数。
8.根据权利要求1所述的一种数据挖掘分析方法,其特征在于:所述步骤7中利用已经建立好的模型,对新数据进行预测、分类等操作,获得模型在实际业务中的应用效果,针对应用中的问题和反馈,对模型进行调整和优化,使其更加符合业务需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319394.2A CN117453764A (zh) | 2023-10-12 | 2023-10-12 | 一种数据挖掘分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311319394.2A CN117453764A (zh) | 2023-10-12 | 2023-10-12 | 一种数据挖掘分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117453764A true CN117453764A (zh) | 2024-01-26 |
Family
ID=89595707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311319394.2A Pending CN117453764A (zh) | 2023-10-12 | 2023-10-12 | 一种数据挖掘分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117453764A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117785862A (zh) * | 2024-02-28 | 2024-03-29 | 天津大学 | 生物安全数据库提取验证方法和系统 |
-
2023
- 2023-10-12 CN CN202311319394.2A patent/CN117453764A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117785862A (zh) * | 2024-02-28 | 2024-03-29 | 天津大学 | 生物安全数据库提取验证方法和系统 |
CN117785862B (zh) * | 2024-02-28 | 2024-05-03 | 天津大学 | 生物安全数据库提取验证方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866819A (zh) | 一种基于元学习的自动化信贷评分卡生成方法 | |
CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
US8805836B2 (en) | Fuzzy tagging method and apparatus | |
CN106022477A (zh) | 智能分析决策系统及方法 | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN117453764A (zh) | 一种数据挖掘分析方法 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
KR101625124B1 (ko) | 특허 정량분석을 이용한 기술평가 방법 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
CN116468536A (zh) | 一种自动化风险控制规则生成的方法 | |
CN116128544A (zh) | 一种电力营销异常营业数据的主动稽核方法和系统 | |
CN114757495A (zh) | 一种基于逻辑回归的会员价值量化评估方法 | |
Luthfiarta et al. | Prediction on deposit subscription of customer based on bank telemarketing using Decision Tree with entropy comparison | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN112070107A (zh) | 一种电子口岸船舶进港控制方法 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
CN112836926B (zh) | 基于电力大数据的企业经营状况评估方法 | |
CN113742472B (zh) | 一种基于客服营销场景下的数据挖掘方法及装置 | |
Fedenczuk et al. | Predicting waterflood responses with decision trees | |
CN117670221A (zh) | 一种erp与电商平台双向信息流集成方法及系统 | |
CN117808065A (zh) | 一种基于数据大脑的智能决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |