CN117725437B - 一种基于机器学习的数据精准匹配分析方法 - Google Patents
一种基于机器学习的数据精准匹配分析方法 Download PDFInfo
- Publication number
- CN117725437B CN117725437B CN202410180429.7A CN202410180429A CN117725437B CN 117725437 B CN117725437 B CN 117725437B CN 202410180429 A CN202410180429 A CN 202410180429A CN 117725437 B CN117725437 B CN 117725437B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- model
- test
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims description 115
- 238000011156 evaluation Methods 0.000 claims description 46
- 238000003062 neural network model Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000010485 coping Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 230000003631 expected effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Complex Calculations (AREA)
Abstract
本发明属于数据匹配技术领域,具体涉及一种基于机器学习的数据精准匹配分析方法。该发明通过引入机器学习技术,实现数据的精准匹配,并且在数据训练过程中,能够对数据匹配模型的有效性进行实时评估,以此避免数据匹配模型输出后过拟合和欠拟合的现象发生,并且针对欠拟合和过拟合的现象,还设置了对应的优化处理方式,以此来提高数据匹配模型输出结果的准确性,从而实现对数据的高效、准确匹配,提高数据利用效率,同时具备较强的自适应性,能够应对各种复杂的数据场景。
Description
技术领域
本发明属于数据匹配技术领域,具体涉及一种基于机器学习的数据精准匹配分析方法。
背景技术
在当今的大数据时代,数据已成为企业决策的重要依据,然而,面对海量的数据,如何快速、准确地找到所需信息,提高数据利用效率,是众多企业和研究者关注的焦点,传统的数据匹配方法主要依赖人工筛选和关键词匹配,这种方法在处理大量数据时效率低下,且容易受到主观因素的影响,导致匹配结果的准确性不高,因此,研究一种基于机器学习的数据精准匹配分析方法具有重要的现实意义。
现有技术中,多采用关键词匹配方法来执行数据匹配,而关键词匹配方法容易受到词汇歧义、同义词等问题的影响,导致匹配结果的准确性不高,同时其在处理复杂的数据场景时,如文本分类、语义分析等方面表现不佳,难以满足实际应用需求,基于此,本发明提供了一种基于机器学习的数据精准匹配分析方法,以解决上述问题。
发明内容
本发明的目的是提供一种基于机器学习的数据精准匹配分析方法,通过引入机器学习技术,实现对数据的高效、准确匹配,提高数据利用效率,同时具备较强的自适应性,能够应对各种复杂的数据场景。
本发明采取的技术方案具体如下:
一种基于机器学习的数据精准匹配分析方法,包括:
获取原始数据集,其中,所述原始数据集包含多个数据项,且每个所述数据项均包括多个特征属性;
对所述原始数据集中的数据执行预处理,得到基准数据集,再将所述基准数据集分类为训练集和测试集;
对所述训练集进行特征选择和模型训练,得到数据匹配模型,再将所述测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率;
依据所述测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态,其中,所述模型训练状态包括正常执行状态和非执行状态;
获取检索数据,依据所述正常执行状态下的数据匹配模型执行需求数据的匹配。
在一种优选方案中,所述对所述原始数据集中的数据执行预处理,得到基准数据集的步骤,包括:
调用所述原始数据集中的所有数据项;
对所有数据项进行逐一进行比对,得到重复数据和独立数据,且将所述独立数据和重复数据中的任一个数据项标定为过渡数据;
对所述过渡数据进行清洗和填充缺失值处理,得到基准数据,再将所有基准数据进行汇总处理,得到基准数据集。
在一种优选方案中,所述将所述基准数据集分类为训练集和测试集的步骤,包括:
从所述基准数据集中调用基准数据,其中,所述基准数据包括前端搜索数据和后端输出数据;
对所述基准数据集进行等分处理,得到多个平行子集,每个所述平行子集中均包括数量一致的前端搜索数据和后端输出数据;
将多个所述平行子集进行随机排列,并按照排序结果,逐一将所有所述平行子集标定为测试集,再将所述测试集以外的所有平行子集标定为训练集。
在一种优选方案中,所述对所述训练集进行特征选择和模型训练,得到数据匹配模型的步骤,包括:
获取初始神经网络模型;
将所述训练集中的前端搜索数据作为输入数据输入至初始神经网络模型中,所述后端输出数据作为输出目标数据,对初始神经网络模型进行训练;
将所述训练结束的初始神经网络模型标定为数据匹配模型。
在一种优选方案中,所述初始神经网络模型为卷积神经网络模型。
在一种优选方案中,所述将所述测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率的步骤,包括:
获取各个所述测试集中的前端搜索数据和后端输出数据,并执行对应的测试处理;
获取测试集测试处理后的测试结果,并分类为错误结果和正确结果,再统计所述正确结果的数量,并标定为待评估参数;
获取测算函数,并将所述待评估参数输入至测算函数中,且将其输出结果标定为测试结果的准确率。
在一种优选方案中,所述依据所述测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态的步骤,包括:
获取所述待评估参数;
获取评估阈值,并与所述待评估参数进行比较;
若所述待评估参数大于或等于评估阈值,则表明所述模型训练成功,并将其对应的训练状态标定为正常执行状态;
若所述待评估参数小于评估阈值,则表明所述模型训练失败,并将其对应的训练状态标定为非执行状态。
在一种优选方案中,所述非执行状态输出后,对所述数据匹配模型执行优化处理,其具体过程如下:
获取与所述平行子集中数据项数量一致的新增训练集,并将所述新增训练集加入至初始神经网络模型中,并与多个平行子集一同执行训练,且统计其训练后测试结果的准确率,并标定为待评价参数;
获取评价阈值,并与所述待评价参数进行比较;
若所述待评价参数大于评价阈值,则表明所述新增训练集有效,并继续增加新增训练集,直至所述待评价参数大于评估阈值后停止,得到优化后的数据匹配模型;
若所述待评价参数小于或等于评价阈值,则表明所述数据匹配模型过拟合,并删除新增训练集,且同步获取各个平行子集中数据项的噪声水平,并按照由大至小的顺序进行排列;
依据所述噪声水平的排列结果,逐一对其对应的所述数据项执行筛除处理,并在每次执行数据项筛除后,重新对多个所述平行子集执行优化训练;
实时获取所述优化训练后测试结果的准确率,并在其大于评估阈值后停止,得到优化后的数据匹配模型。
本发明还提供了,一种基于机器学习的数据精准匹配分析系统,应用于上述的基于机器学习的数据精准匹配分析方法,包括:
数据采集模块,所述数据采集模块用于获取原始数据集,其中,所述原始数据集包含多个数据项,其每个所述数据项均包括多个特征属性;
预处理模块,所述预处理模块用于对所述原始数据集中的数据执行预处理,得到基准数据集,再将所述基准数据集分类为训练集和测试集;
训练模块,所述训练模块用于对所述训练集进行特征选择和模型训练,得到数据匹配模型,再将所述测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率;
优化模块,所述优化模块用于依据所述测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态,其中,所述模型训练状态包括正常执行状态和非执行状态;
执行模块,所述执行模块用于获取检索数据,依据所述正常执行状态下的数据匹配模型执行需求数据的匹配。
以及,一种基于机器学习的数据精准匹配分析终端,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于机器学习的数据精准匹配分析方法。
本发明取得的技术效果为:
本发明通过引入机器学习技术,实现数据的精准匹配,并且在数据训练过程中,能够对数据匹配模型的有效性进行实时评估,以此避免数据匹配模型输出后过拟合和欠拟合的现象发生,并且针对欠拟合和过拟合的现象,还设置了对应的优化处理方式,以此来提高数据匹配模型输出结果的准确性,从而实现对数据的高效、准确匹配,提高数据利用效率,同时具备较强的自适应性,能够应对各种复杂的数据场景。
附图说明
图1是本发明实施例1所提供的方法流程图;
图2是本发明实施例2所提供的系统模块图;
图3是本发明实施例3所提供的终端结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个较佳的实施方式中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1:
请参阅图1所示,为本发明的第一个实施例,该实施例提供了一种基于机器学习的数据精准匹配分析方法,包括:
S1、获取原始数据集,其中,原始数据集包含多个数据项,且每个数据项均包括多个特征属性;
S2、对原始数据集中的数据执行预处理,得到基准数据集,再将基准数据集分类为训练集和测试集;
S3、对训练集进行特征选择和模型训练,得到数据匹配模型,再将测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率;
S4、依据测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态,其中,模型训练状态包括正常执行状态和非执行状态;
S5、获取检索数据,依据正常执行状态下的数据匹配模型执行需求数据的匹配。
如上述步骤S1-S5所述,随着信息技术的飞速发展,数据的产生、存储和处理已成为现代社会的基础,在众多行业和领域中,如何从海量数据中提取有价值的信息,实现数据的精确匹配与分析,已经成为一个亟待解决的问题,传统的数据匹配方法往往依赖于固定的规则和算法,难以适应数据多样性和动态变化的需求,因此,探索一种更为高效、智能的数据匹配分析方法显得尤为重要,本实施例中,首先需要收集大量的原始数据,这些数据集包含多个数据项,每个数据项都由多个特征属性组成,数据来源可以是结构化的数据存储系统,如关系型数据库、文件等,也可以是半结构化或非结构化的数据,如文本、图片等,在获取原始数据后,需要对其进行预处理,预处理的过程包括数据清洗、数据规范化等,目的是提高数据质量,经过预处理后,便可以得到一个基准数据集,接下来,将基准数据集划分为训练集和测试集,训练集用于训练模型,而测试集则用于评估模型的性能,划分数据集的方法有多种,如随机划分、按比例划分等,划分后的训练集和测试集应具有一定的代表性,以确保模型训练和评估的准确性,对训练集进行特征选择和模型训练,特征选择是从众多特征中筛选出对数据匹配任务最具有区分度的特征,从而降低模型的复杂度,提高模型训练速度,再将训练好的数据匹配模型应用于测试集,进行测试处理,同时,同步统计测试结果的准确率,以评估模型在未知数据上的表现,根据测试结果的准确率,对数据匹配模型进行有效性评估,若模型表现不佳,则需要对其进行进一步的优化处理,当模型训练状态达到预期效果时,可以将其应用于实际场景,获取检索数据后,根据正常执行状态下的数据匹配模型,对需求数据进行匹配,匹配结果可以用于业务决策、推荐系统、数据分析等领域,为用户提供个性化服务。
在一个较佳的实施方式中,对原始数据集中的数据执行预处理,得到基准数据集的步骤,包括:
S201、调用原始数据集中的所有数据项;
S202、对所有数据项进行逐一进行比对,得到重复数据和独立数据,且将独立数据和重复数据中的任一个数据项标定为过渡数据;
S203、对过渡数据进行清洗和填充缺失值处理,得到基准数据,再将所有基准数据进行汇总处理,得到基准数据集。
如上述步骤S201-S203所述,在对原始数据集中的数据项执行预处理时,首先需要对原始数据集中的所有数据项进行调用,这一步骤的目的是获取完整的数据内容,以便进一步处理,原始数据可能来源于不同的来源,具有不同的结构和格式,因此在这一阶段,需要对数据进行整合和整理,为后续操作做好准备,接下来,需要对整合后的数据进行逐一比对,比对的过程中,需要识别出重复数据和独立数据,重复数据指的是在数据集中出现多次的相同或类似的数据项,而独立数据则是指仅出现一次的数据项,在识别出重复数据和独立数据后,将重复数据中的任意一个数据项和独立数据均标定为过渡数据,在完成数据比对后,需要对过渡数据进行清洗和填充缺失值处理,数据清洗是指对数据中的异常值、错误值等进行处理,以提高数据质量,填充缺失值则是用一定的策略填补数据中的空缺部分,如均值、中位数等,这一阶段的目的是为了得到一个更加完整和一致的数据集,为后续分析奠定基础,最后将清洗和填充后的数据集进行汇总处理,得到最终的基准数据集,以满足后续分析和建模的需求。
在一个较佳的实施方式中,将基准数据集分类为训练集和测试集的步骤,包括:
S204、从基准数据集中调用基准数据,其中,基准数据包括前端搜索数据和后端输出数据;
S205、对基准数据集进行等分处理,得到多个平行子集,每个平行子集中均包括数量一致的前端搜索数据和后端输出数据;
S206、将多个平行子集进行随机排列,并按照排序结果,逐一将所有平行子集标定为测试集,再将测试集以外的所有平行子集标定为训练集。
如上述步骤S204-S206所述,首先需要从基准数据集中调用所需的数据,这个基准数据集主要包括前端搜索数据和后端输出数据,前端搜索数据通常是指用户在搜索引擎中输入的查询语句,而后端输出数据则是指搜索引擎根据这些查询语句返回的搜索结果,这些数据是训练和评估模型的重要依据,然后需要对基准数据集进行等分处理,以得到多个平行子集,这样可以确保每个子集中包含的前端搜索数据和后端输出数据数量一致,其目的是在划分数据集时保持数据分布的均衡,从而确保模型训练和评估的公平性,然后,对得到的多个平行子集进行随机排列,使得在随机划分数据集时,降低潜在的顺序依赖关系对模型训练和评估的影响,随机排列可以使数据集在各个子集之间的分布更加均匀,有助于提高模型的泛化能力,最后,按照随机排列的排序结果,逐一将所有平行子集标定为测试集和训练集,在这个过程中,逐一将其中一个平行子集作为测试集,用于评估模型的性能,剩余的子集则作为训练集,用于训练模型,这样就可以利用这些数据对模型进行训练和性能评估,并且各个平行子集均能够参与训练,且也能够作为测试集来检测数据匹配模型的性能,进而便可提高该模型的泛化能力。
在一个较佳的实施方式中,对训练集进行特征选择和模型训练,得到数据匹配模型的步骤,包括:
S301、获取初始神经网络模型;
S302、将训练集中的前端搜索数据作为输入数据输入至初始神经网络模型中,后端输出数据作为输出目标数据,对初始神经网络模型进行训练;
S303、将训练结束的初始神经网络模型标定为数据匹配模型。
如上述步骤S301-S303所述,在进行数据匹配模型的训练之前,需要进行一系列的准备工作,首先需要获取初始的神经网络模型,本实施方式中,初始神经网络模型为卷积神经网络模型,这种模型具有强大的特征提取和分类能力,非常适合处理前端搜索数据,获取初始神经网络模型后,需要准备训练数据,这里包括训练集中的前端搜索数据和后端输出数据,然后将训练集中的前端搜索数据作为输入数据,后端输出数据作为输出目标数据,将这些数据输入到初始的神经网络模型中进行训练,在这个过程中,神经网络模型会根据输入数据和输出目标的对应关系,自动调整模型内部的参数,使得模型能够更好地匹配数据,一旦训练完成,需要对训练好的神经网络模型进行标定,将其确定为数据匹配模型,在完成模型标定后,就可以得到一个能够实现数据匹配的神经网络模型,这个模型可以应用于实际场景中,帮助实现前端搜索数据与后端输出数据的匹配,从而达到使用需求。
在一个较佳的实施方式中,将测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率的步骤,包括:
S304、获取各个测试集中的前端搜索数据和后端输出数据,并执行对应的测试处理;
S305、获取测试集测试处理后的测试结果,并分类为错误结果和正确结果,再统计正确结果的数量,并标定为待评估参数;
S306、获取测算函数,并将待评估参数输入至测算函数中,且将其输出结果标定为测试结果的准确率。
如上述步骤S304-S306所述,在进行数据匹配模型测试的过程中,首先需要获取测试集中的前端搜索数据和后端输出数据,这些数据将作为测试处理的输入,帮助理解和评估模型的性能,在前端搜索数据和后端输出数据的获取过程中,要确保数据的完整性和准确性,以便在后续的测试处理中能够得到可靠的测试结果,之后对获取到的数据进行测试处理,具体需要运用数据匹配模型对前端搜索数据和后端输出数据进行匹配,以检验模型的匹配效果,在处理过程中,完成测试处理后,需要获取测试结果,这些结果将分为错误结果和正确结果两类,对于正确结果,需要统计其数量,并将其作为待评估参数,其目的是为了后续评估模型性能提供可靠的数据支持,然后需要获取一个测算函数,将待评估参数输入至测算函数中,以此计算出测试结果的准确率,其中,测算函数的表达式为:,式中,/>表示测试结果的准确率,/>表示测试结果的数量,/>表示平行子集的数量,/>表示各组前端搜索数据和后端输出数据的正确测试结果,基于上述,测试结果的准确率输出之后,能为模型训练状态的评估提供相应的数据支持。
在一个较佳的实施方式中,依据测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态的步骤,包括:
S401、获取待评估参数;
S402、获取评估阈值,并与待评估参数进行比较;
若待评估参数大于或等于评估阈值,则表明模型训练成功,并将其对应的训练状态标定为正常执行状态;
若待评估参数小于评估阈值,则表明模型训练失败,并将其对应的训练状态标定为非执行状态。
如上述步骤S401-S402所述,在评估数据匹配模型的有效性时,首先需要获取待评估参数,之后便需要确定评估的阈值,这一阈值是根据历史数据和实际需求来设定的,用于判断模型训练的成功与否,例如,我们可以将阈值设定为95%,意味着只有当模型的准确率等指标达到或超过95%时,才认为模型训练成功,然后将待评估参数与评估阈值进行比较,明确模型训练的状态,如果待评估参数大于或等于评估阈值,那么就认为模型训练成功,并将其对应的训练状态标定为正常执行状态,这意味着模型在实际应用中能够正常工作,达到预期的效果,然而,如果待评估参数小于评估阈值,那么就表明模型训练失败,其无法在实际应用中达到预期的效果,此时,需要将对应的训练状态标定为非执行状态,并在后续对该模型执行优化处理。
在一个较佳的实施方式中,非执行状态输出后,对数据匹配模型执行优化处理,其具体过程如下:
Step1、获取与平行子集中数据项数量一致的新增训练集,并将新增训练集加入至初始神经网络模型中,并与多个平行子集一同执行训练,且统计其训练后测试结果的准确率,并标定为待评价参数;
Step2、获取评价阈值,并与待评价参数进行比较;
Step3、若待评价参数大于评价阈值,则表明新增训练集有效,并继续增加新增训练集,直至待评价参数大于评估阈值后停止,得到优化后的数据匹配模型;
Step4、若待评价参数小于或等于评价阈值,则表明数据匹配模型过拟合,并删除新增训练集,且同步获取各个平行子集中数据项的噪声水平,并按照由大至小的顺序进行排列;
Step5、依据噪声水平的排列结果,逐一对其对应的数据项执行筛除处理,并在每次执行数据项筛除后,重新对多个平行子集执行优化训练;
Step6、实时获取优化训练后测试结果的准确率,并在其大于评估阈值后停止,得到优化后的数据匹配模型。
如上述步骤Step1-Step6所述,在数据匹配模型的非执行状态输出之后,需要对模型进行优化处理,以提高其性能,首先需要获取与原始数据集平行子集数据项数量一致的新增训练集,这个新增训练集将用于扩充初始神经网络模型,并与多个平行子集一起进行训练,在训练过程中,还需要关注模型在测试集上的表现,统计其训练后测试结果的准确率,这个准确率将被用作待评价参数,以评估模型的性能,接下来,我们需要确定一个评价阈值,并将待评价参数与该阈值进行比较,如果待评价参数大于评价阈值,说明新增训练集对模型具有积极的影响,可以继续增加新增训练集,以优化模型性能,直至待评价参数大于评估阈值后停止,此时我们已经得到了优化后的数据匹配模型,然而,如果待评价参数小于或等于评价阈值,那么情况就有所不同,这表明数据匹配模型可能出现了过拟合现象,此时便需要采取措施来消除这种现象,首先,删除新增训练集,然后同步获取各个平行子集中数据项的噪声水平,这些噪声水平将按照从大到小的顺序进行排列,以便于更好地识别影响模型性能的不良数据,在获取噪声水平排列顺序之后,需要逐一分析对应数据项,并对它们执行筛除处理,每次筛除数据项后,都要重新对多个平行子集进行优化训练,这样便可以逐步降低模型对噪声数据的敏感度,提高其在测试集上的表现,并且在整个优化过程中,需要实时关注优化训练后测试结果的准确率,一旦该准确率大于评价阈值,就停止优化过程,并得到最终的优化后的数据匹配模型,这样,就完成了对数据匹配模型的优化处理,提高了其在实际应用中的性能。
实施例2:
请参阅图2,为本发明的第二个实施例,该实施例基于上一个实施例,还提供了一种基于机器学习的数据精准匹配分析系统,应用于上述的基于机器学习的数据精准匹配分析方法,包括:
数据采集模块,数据采集模块用于获取原始数据集,其中,原始数据集包含多个数据项,且每个数据项均包括多个特征属性;
预处理模块,预处理模块用于对原始数据集中的数据执行预处理,得到基准数据集,再将基准数据集分类为训练集和测试集;
训练模块,训练模块用于对训练集进行特征选择和模型训练,得到数据匹配模型,再将测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率;
优化模块,优化模块用于依据测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态,其中,模型训练状态包括正常执行状态和非执行状态;
执行模块,执行模块用于获取检索数据,依据正常执行状态下的数据匹配模型执行需求数据的匹配。
如上述,该系统主要包括五个模块:数据采集模块、预处理模块、训练模块、优化模块和执行模块,数据采集模块是整个系统的首要环节,负责获取原始数据集,原始数据集包含多个数据项,每个数据项都包含多个特征属性,这些数据可以来源于各种数据源,主要为后续模块提供丰富的数据支持,预处理模块对接收到的原始数据进行处理,主要包括数据清洗、数据规范化等操作,清洗过程中,要去掉重复、缺失、异常值等不良数据,保证数据的质量,数据规范化是将数据转化为统一的数据格式和单位,以便于后续分析和处理,经过预处理后,得到基准数据集,训练模块负责对基准数据集进行特征选择和模型训练,特征选择是从众多特征中筛选出对数据匹配任务最具有区分度的特征,降低数据维度,提高模型训练效果,优化模块主要用于评估数据匹配模型的有效性,该模块根据测试集的测试结果,对模型进行测试准确率的计算,再根据评估结果,对模型进行调整和优化,以提高模型在实际应用中的性能,同时,优化模块还需监控模型训练状态,包括正常执行状态和非执行状态,确保模型的可行性,执行模块负责在实际应用中获取检索数据,并根据数据匹配模型的需求进行匹配处理,执行模块会根据模型训练状态选择合适的模型进行匹配,将检索数据输入模型中,得到匹配结果,执行模块可以应用于各种场景,如广告推荐、商品匹配、人才招聘等,为用户提供精准的数据服务。
实施例3:
请参阅图3所示,为本发明的第三个实施例,该实施例基于前两个实施例,还提供了一种基于机器学习的数据精准匹配分析终端,包括:
至少一个处理器;
以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述的基于机器学习的数据精准匹配分析方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。
Claims (8)
1.一种基于机器学习的数据精准匹配分析方法,其特征在于:包括:
获取原始数据集,其中,所述原始数据集包含多个数据项,其每个所述数据项均包括多个特征属性,原始数据来源是半结构化或非结构化的数据文本或图片;
对所述原始数据集中的数据执行预处理,得到基准数据集,再将所述基准数据集分类为训练集和测试集;
对所述训练集进行特征选择和模型训练,得到数据匹配模型,再将所述测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率;
依据所述测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态,其中,所述模型训练状态包括正常执行状态和非执行状态;
获取检索数据,依据所述正常执行状态下的数据匹配模型执行需求数据的匹配;
所述将所述基准数据集分类为训练集和测试集的步骤,包括:
从所述基准数据集中调用基准数据,其中,所述基准数据包括前端搜索数据和后端输出数据;
对所述基准数据集进行等分处理,得到多个平行子集,每个所述平行子集中均包括数量一致的前端搜索数据和后端输出数据;
将多个所述平行子集进行随机排列,并按照排序结果,逐一将所有所述平行子集标定为测试集,再将所述测试集以外的所有平行子集标定为训练集;
所述非执行状态输出后,对所述数据匹配模型执行优化处理,其具体过程如下:
获取与所述平行子集中数据项数量一致的新增训练集,并将所述新增训练集加入至初始神经网络模型中,并与多个平行子集一同执行训练,且统计其训练后测试结果的准确率,并标定为待评价参数;
获取评价阈值,并与所述待评价参数进行比较;
若所述待评价参数大于评价阈值,则表明所述新增训练集有效,并继续增加新增训练集,直至所述待评价参数大于评估阈值后停止,得到优化后的数据匹配模型;
若所述待评价参数小于或等于评价阈值,则表明所述数据匹配模型过拟合,并删除新增训练集,且同步获取各个平行子集中数据项的噪声水平,并按照由大至小的顺序进行排列;
依据所述噪声水平的排列结果,逐一对其对应的所述数据项执行筛除处理,并在每次执行数据项筛除后,重新对多个所述平行子集执行优化训练;
实时获取所述优化训练后测试结果的准确率,并在其大于评估阈值后停止,得到优化后的数据匹配模型。
2.根据权利要求1所述的一种基于机器学习的数据精准匹配分析方法,其特征在于:所述对所述原始数据集中的数据执行预处理,得到基准数据集的步骤,包括:
调用所述原始数据集中的所有数据项;
对所有数据项进行逐一进行比对,得到重复数据和独立数据,且将所述独立数据和重复数据中的任一个数据项标定为过渡数据;
对所述过渡数据进行清洗和填充缺失值处理,得到基准数据,再将所有基准数据进行汇总处理,得到基准数据集。
3.根据权利要求2所述的一种基于机器学习的数据精准匹配分析方法,其特征在于:所述对所述训练集进行特征选择和模型训练,得到数据匹配模型的步骤,包括:
获取初始神经网络模型;
将所述训练集中的前端搜索数据作为输入数据输入至初始神经网络模型中,所述后端输出数据作为输出目标数据,对初始神经网络模型进行训练;
将所述训练结束的初始神经网络模型标定为数据匹配模型。
4.根据权利要求3所述的一种基于机器学习的数据精准匹配分析方法,其特征在于:所述初始神经网络模型为卷积神经网络模型。
5.根据权利要求4所述的一种基于机器学习的数据精准匹配分析方法,其特征在于:所述将所述测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率的步骤,包括:
获取各个所述测试集中的前端搜索数据和后端输出数据,并执行对应的测试处理;
获取测试集测试处理后的测试结果,并分类为错误结果和正确结果,再统计所述正确结果的数量,并标定为待评估参数;
获取测算函数,并将所述待评估参数输入至测算函数中,且将其输出结果标定为测试结果的准确率。
6.根据权利要求5所述的一种基于机器学习的数据精准匹配分析方法,其特征在于:所述依据所述测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态的步骤,包括:
获取所述待评估参数;
获取评估阈值,并与所述待评估参数进行比较;
若所述待评估参数大于或等于评估阈值,则表明所述模型训练成功,并将其对应的训练状态标定为正常执行状态;
若所述待评估参数小于评估阈值,则表明所述模型训练失败,并将其对应的训练状态标定为非执行状态。
7.一种基于机器学习的数据精准匹配分析系统,应用于权利要求1-6任一项所述的基于机器学习的数据精准匹配分析方法,其特征在于:包括:
数据采集模块,所述数据采集模块用于获取原始数据集,其中,所述原始数据集包含多个数据项,其每个所述数据项均包括多个特征属性,原始数据来源是半结构化或非结构化的数据文本或图片;
预处理模块,所述预处理模块用于对所述原始数据集中的数据执行预处理,得到基准数据集,再将所述基准数据集分类为训练集和测试集;
训练模块,所述训练模块用于对所述训练集进行特征选择和模型训练,得到数据匹配模型,再将所述测试集中的测试数据输入至数据匹配模型中执行测试处理,并同步统计测试结果的准确率;
优化模块,所述优化模块用于依据所述测试结果的准确率,对数据匹配模型执行有效性评估,并输出模型训练状态,其中,所述模型训练状态包括正常执行状态和非执行状态;
执行模块,所述执行模块用于获取检索数据,依据所述正常执行状态下的数据匹配模型执行需求数据的匹配。
8.一种基于机器学习的数据精准匹配分析终端,其特征在于:包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任意一项所述的基于机器学习的数据精准匹配分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410180429.7A CN117725437B (zh) | 2024-02-18 | 2024-02-18 | 一种基于机器学习的数据精准匹配分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410180429.7A CN117725437B (zh) | 2024-02-18 | 2024-02-18 | 一种基于机器学习的数据精准匹配分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117725437A CN117725437A (zh) | 2024-03-19 |
CN117725437B true CN117725437B (zh) | 2024-05-24 |
Family
ID=90205685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410180429.7A Active CN117725437B (zh) | 2024-02-18 | 2024-02-18 | 一种基于机器学习的数据精准匹配分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725437B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560701A (zh) * | 2016-10-20 | 2017-04-12 | 中国计量大学 | 基于五隐藏层的武夷岩茶产地深度学习系统 |
CN106560691A (zh) * | 2016-10-20 | 2017-04-12 | 中国计量大学 | 具有深度学习功能的武夷岩茶产地鉴别方法 |
CN113031087A (zh) * | 2021-03-03 | 2021-06-25 | 王佳馨 | 一种跨街对穿电阻率测量系统及数据采集方法 |
CN113609843A (zh) * | 2021-10-12 | 2021-11-05 | 京华信息科技股份有限公司 | 一种基于梯度提升决策树的句词概率计算方法及系统 |
CN113986893A (zh) * | 2021-09-17 | 2022-01-28 | 山东联安信息科技有限责任公司 | 一种基于发电车风险识别主动预警系统及方法 |
CN114248152A (zh) * | 2021-12-31 | 2022-03-29 | 江苏洵谷智能科技有限公司 | 一种基于优选特征和狮群优化svm的刀具磨损状态评估方法 |
CN116298984A (zh) * | 2023-05-05 | 2023-06-23 | 金陵科技学院 | 一种锂离子电池容量跳水点和电池衰减程度识别方法 |
CN116955936A (zh) * | 2023-07-28 | 2023-10-27 | 深圳全企通信息技术有限公司 | 企业大数据算法属性数据预测方法 |
CN117131449A (zh) * | 2023-08-28 | 2023-11-28 | 烟台海颐软件股份有限公司 | 面向数据治理的具有传播学习能力的异常识别方法及系统 |
CN117499553A (zh) * | 2023-09-26 | 2024-02-02 | 长沙润伟机电科技有限责任公司 | 用于检查作业的数据传输管理系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9639973B2 (en) * | 2014-04-04 | 2017-05-02 | Decision Sciences International Corporation | Muon tomography imaging improvement using optimized limited angle data |
EP3654247A1 (en) * | 2018-11-15 | 2020-05-20 | IMEC vzw | Convolution engine for neural networks |
-
2024
- 2024-02-18 CN CN202410180429.7A patent/CN117725437B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560701A (zh) * | 2016-10-20 | 2017-04-12 | 中国计量大学 | 基于五隐藏层的武夷岩茶产地深度学习系统 |
CN106560691A (zh) * | 2016-10-20 | 2017-04-12 | 中国计量大学 | 具有深度学习功能的武夷岩茶产地鉴别方法 |
CN113031087A (zh) * | 2021-03-03 | 2021-06-25 | 王佳馨 | 一种跨街对穿电阻率测量系统及数据采集方法 |
CN113986893A (zh) * | 2021-09-17 | 2022-01-28 | 山东联安信息科技有限责任公司 | 一种基于发电车风险识别主动预警系统及方法 |
CN113609843A (zh) * | 2021-10-12 | 2021-11-05 | 京华信息科技股份有限公司 | 一种基于梯度提升决策树的句词概率计算方法及系统 |
CN114248152A (zh) * | 2021-12-31 | 2022-03-29 | 江苏洵谷智能科技有限公司 | 一种基于优选特征和狮群优化svm的刀具磨损状态评估方法 |
CN116298984A (zh) * | 2023-05-05 | 2023-06-23 | 金陵科技学院 | 一种锂离子电池容量跳水点和电池衰减程度识别方法 |
CN116955936A (zh) * | 2023-07-28 | 2023-10-27 | 深圳全企通信息技术有限公司 | 企业大数据算法属性数据预测方法 |
CN117131449A (zh) * | 2023-08-28 | 2023-11-28 | 烟台海颐软件股份有限公司 | 面向数据治理的具有传播学习能力的异常识别方法及系统 |
CN117499553A (zh) * | 2023-09-26 | 2024-02-02 | 长沙润伟机电科技有限责任公司 | 用于检查作业的数据传输管理系统 |
Non-Patent Citations (4)
Title |
---|
Parallel-amplitude architecture and subset ranking for fast distribution matching;Fehenberger T等;《IEEE Transactions on Communications》;20201231;第68卷(第4期);1981-1990 * |
XPSort——树形数据多核并行外存排序算法;杨良怀等;《电子学报》;20231231;第42卷(第2期);292-300 * |
一种精确匹配的全景图自动拼接算法;邹北骥等;《计算机工程与科学》;20100815;第32卷(第8期);60-63 * |
基于序列信息对人类DNaseⅠ超敏位点进行预测;王芳;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20210115(第1期);A006-563 * |
Also Published As
Publication number | Publication date |
---|---|
CN117725437A (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN114281809B (zh) | 一种多源异构数据清洗方法及装置 | |
CN116109195B (zh) | 一种基于图卷积神经网络的绩效评估方法及系统 | |
CN111179068A (zh) | 一种企业履约信用级别的确定方法、装置及存储介质 | |
CN112732914A (zh) | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 | |
CN111046059B (zh) | 基于分布式数据库集群的低效sql语句分析方法及系统 | |
CN112508440B (zh) | 数据质量评估方法、装置、计算机设备及存储介质 | |
CN110287114A (zh) | 一种数据库脚本性能测试的方法及装置 | |
CN117556369A (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN117725437B (zh) | 一种基于机器学习的数据精准匹配分析方法 | |
CN117313683A (zh) | 元数据处理方法、装置、服务器及存储介质 | |
CN112286799A (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN115423600B (zh) | 数据筛选方法、装置、介质及电子设备 | |
CN114202038B (zh) | 一种基于dbm深度学习的众包缺陷分类方法 | |
CN116127194A (zh) | 一种企业推荐方法 | |
CN115687352A (zh) | 一种存储的方法及装置 | |
Bo | Research on the classification of high dimensional imbalanced data based on the optimizational random forest algorithm | |
CN113157814B (zh) | 关系数据库下查询驱动的智能工作负载分析方法 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN113407700A (zh) | 一种数据查询方法、装置和设备 | |
CN116187299B (zh) | 一种科技项目文本数据检定评价方法、系统及介质 | |
CN116049700B (zh) | 基于多模态的运检班组画像生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |