CN114756740A - 一种算法推荐方法、装置、存储介质及电子设备 - Google Patents
一种算法推荐方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114756740A CN114756740A CN202210289323.1A CN202210289323A CN114756740A CN 114756740 A CN114756740 A CN 114756740A CN 202210289323 A CN202210289323 A CN 202210289323A CN 114756740 A CN114756740 A CN 114756740A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- data
- candidate
- feature
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种算法推荐方法、装置、存储介质及电子设备,其中方法包括:基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各候选算法对应的数据集合;基于各候选算法中的特征处理方式,对与各候选算法对应的数据集合中的第一特征数据进行处理,获得与各初始特征集合;基于各候选算法中的特征选择方式,对各初始特征集合中的数据进行选择,获得各目标特征集合;基于各候选算法中的分析方式,对与各目标特征集合中的数据进行分析处理,获得与各候选算法对应的分析结果;基于各分析结果对各所述候选算法进行筛选,获得目标算法。本申请中的方法能够节省算法选择的时间,提高了算法选择的速度。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种算法推荐方法、装置、存储介质及电子设备。
背景技术
在现有的智能搜索、智能推荐等应用服务中,需要使用到算法,利用算法来确定出目标推荐内容。因此在各种智能推荐等应用服务中算法的选择至关重要,其是实现精准推荐的保证。
在现有技术中,算法的选择都是由算法工程师来完成的。算法工程师在业务应用过程中,针对业务数据结构以及流程,会按照经验评估对已知的几种算法进评估,然后挑选出几种种算法,接着利用这几种种算法进行测试,然后将测试结果进行对比,以确定出最终的算法。然而由于每个算法工程师的经验参差不齐,所探索的路径各不相同,得到的方案也各不相同,并且尝试过程耗费时间较多,一个小的调整需要经过更改、计算、等待、重新验证等过程,耗费时间较长。
因此,亟需一种算法推荐方法,以解决现有技术中算法的选择耗费时间较长的问题。
发明内容
有鉴于此,本发明提供了一种算法推荐方法、装置、存储介质及电子设备,主要目的在于解决目前算法选择过程耗费时间较长的问题。
为解决上述问题,本申请提供一种算法推荐方法,包括:
基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
可选的,所述方法还包括:获取与目标项目对应的若干数据,以获得所述样本数据库;
所述基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合,具体包括:
基于各所述候选算法中的数据选择方式,确定与所述数据选择方式对应的第一标识信息;
基于各所述第一标识信息对选中的数据进行标记,并将标记后的数据作为与各所述候选算法对应的数据集合中的数据;
其中,所述数据选择方式包括如下任意一种:留出法、留一法、自助法、时间段筛选法。
可选的,所述基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合,具体包括:
基于各所述候选算法中的特征处理方式,确定与各所述特征处理方式对应的第二标识信息;
基于所述第二标识信息,对与所述候选算法对应的数据集合中的第一特征数据进行标记;
基于各所述第一特征数据被标记的第二标识信息,采用与所述第二标识信息对应的特征处理方式对各所述第一特征数据进行处理,并将修改后的第一特征数据作为所述初始特征集合中的数据;
其中,所述特征处理方式包括如下任意一种或几种:分桶处理、归一化处理、编码处理、去噪处理。
可选的,所述基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合,具体包括:
基于各所述候选算法中的特征选择方式,确定与所述特征选择方式对应的第三标识信息;
基于各所述第三标识信息对与所述候选算法对应的初始特征集合中的所述修改后的第一特征数据进行标记;
基于各所述修改后的第一特征数据被标记的第三标识信息,采用与所述第三标识信息对应的特征选择方式,对各所述修改后的第一特征数据进行选择,并将选择获得的修改后的第一特征数据作为各所述目标特征集合中的数据;
其中,所述特征据选择方式包括如下任意一种:信息增益方式、交叉熵方式、相对熵方式、比值比方式、互信息方式。
可选的,所述基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果,具体包括:
基于各所述候选算法中的分析方式,确定与各所述分析方式对应的第四标识信息;
基于所述第四标识信息,对与所述候选算法对应的目标特征集合中的选择获得的修改后的第一特征数据数据进行标记;
基于各所述选择获得的修改后的第一特征数据被标记的第四标识信息,采用与所述第四标识信息对应的分析方式对各所述选择获得的修改后的第一特征数据进行分析处理,获得与各所述候选算法对应的分析结果。
其中,所述分析方式包括如下任意一种:迭代算法、K均值聚类算法、网页排名法、关联规则算法、分类回归树算法、朴素贝叶斯分类算法、逻辑回归算法、支持向量机算法、邻近算法、决策树算法、梯度下降树算法。
可选的,所述基于各所述分析结果对各所述候选算法进行筛选,获得目标算法,具体包括:
确定目标评估方式;
基于目标评估方式对各所述分析结果进行评估,获得与各所述分析结果对应的评估系数;
基于各分析结果的评估系数,从各所述候选算法中确定出目标算法。
为解决上述问题,本申请提供一种算法推荐装置,包括:
第一选择模块,用于基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
处理模块,用于基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
第二选择模块,用于基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
分析模块,用于基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
筛选模块,用于基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
可选的,所述第一选择模块具体用于:
基于各所述候选算法中的数据选择方式,确定与所述数据选择方式对应的第一标识信息;
基于各所述第一标识信息对选中的数据进行标记,并将标记后的数据作为与各所述候选算法对应的数据集合中的数据;
其中,所述数据选择方式包括如下任意一种:留出法、留一法、自助法、时间段筛选法。
为解决上述问题,本申请提供一种存储介质,包括:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述算法推荐方法的步骤。
为解决上述问题,本申请提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述任一项所述算法推荐方法的步骤。
本申请中的算法推荐方法、装置、存储介质及电子设备,能够自动从众多的算法中挑选出最合适的目标算法,然后将目标算法应用到智能推荐等目标应用服务中,节省了算法选择的时间,并且提高了算法选择的准确性,同时解决了由于数据有万级别以上维度、每个维度都要经过复杂的算法计算、大量数据训练,每一个细微的调整都需要重新走整个流程、进而使得算法的选择耗时时间较长的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例一种算法推荐方法的流程图;
图2为本申请又一实施例一种算法推荐方法的流程图;
图3为本申请另一实施例一种算法推荐装置的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供一种算法推荐方法,如图1所示,包括如下步骤:
步骤S101,基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
本步骤在具体实施过程中,可以预先基于目标项目创建样本数据库,也就是获取与目标项目对应的若干数据,以此来获得所述样本数据库。本实施例中的目标项目具体是指算法所应用于的目标应用/目标平台,例如目标项目可以为购物软件、新闻软件等等。本步骤中的候选算法是指可以应用于购物软件或新闻软件的各推送方法,各候选算法中均包含若干种类型的数据处理方式,也即,各候选算法由各类型的数据处理方式组合而成的。其中,数据选择方式就是其中一种类型的数据处理方式。本步骤中数据选择方式具体可以包括如下任意一种或几种:留出法、留一法、自助法、时间段筛选法等等。由于每种类型的数据处理方式有多种,因此可以组合获得若干种候选算法。
步骤S102,基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
本步骤中,特征处理方式具体包括如下一种或几种:分桶处理、归一化处理、编码处理、去噪处理等等。本步骤在具体实施过程中,可以将数据以列来存储,并给数据列进行标记,单个特征,多种处理方式,由此会产生多条数据出来,所以标记位,只有一位是1。通过采用这种方法来对数据进行特征处理,能够避免数据过多,造成数据存储的压力,避免数据爆炸。
步骤S103,基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
本步骤在具体实施过程中,所述特征选择方式包括如下任意一种或几种:信息增益方式、交叉熵方式、KL散度方式/相对熵方式、比值比/odds ratio方式、互信息方式。由于针对同一个初始特征集合,采用不同的特征选择方式对该初始特征集合中的数据进行选择,会获得不同的结果,因此具体该选择何种特征选择方式来作为目标算法中的一个子算法,是确定目标算法的关键。
本步骤在具体实施过程中,也可以采用标记的方式来对数据进行标记,即加入一个特征选择方式的标记位,由此就可以实现多种选择算法标记同一条数据,同时组合序号附加裂变,通过增加特征选择算法的标记位,能够防止数据过多的问题。
步骤S104,基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
本步骤中,分析方式具体包括如下任意一种或几种:迭代算法Adaboost、K均值聚类算法K-Means、网页排名法PageRank、关联规则算法Aproori、分类回归树算法CART、朴素贝叶斯分类算法Nave Bayes、逻辑回归算法LR、支持向量机算法SVM、邻近算法KNN、决策树算法C4.5、梯度下降树算法GDBT。
本步骤在具体实施过程中,在对与各算法对应的特征集合进行分析处理之前,还可以确定出目标计算平台,即利用目标计算平台来基于各算法对相应的目标特征集合中的各目标特征数据进行分析计算,以此来获得分析结果,即获得智能推荐的结果。也即通过将计算量分摊到各个计算平台,能够加快计算速度。
步骤S105,基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
本步骤中,在获得各分析结果后,具体可以通过预定的评估方式对各分析结果进行评估计算,以此来获得相应的评估系数,最后根据评估系数的大小来确定出目标算法。
本实施例中的方法,能够自动从众多的算法中挑选出最合适的目标算法,然后将目标算法应用到智能推荐等目标应用服务中,节省了算法选择的时间,并且提高了算法选择的准确性,同时解决了由于数据有万级别以上维度、每个维度都要经过复杂的算法计算、大量数据训练,每一个细微的调整都需要重新走整个流程、进而使得算法的选择耗时时间较长的问题。
本申请另一实施例提供一种算法推荐方法,如图2所示,包括如下步骤:
步骤S201,获取与目标项目对应的若干数据,以获得所述样本数据库;
步骤S202,基于各所述候选算法中的数据选择方式,确定与所述数据选择方式对应的第一标识信息;基于各所述第一标识信息对选中的数据进行标记,并将标记后的数据作为与各所述候选算法对应的数据集合中的数据;
本步骤中所述数据选择方式包括如下任意一种:留出法、留一法、自助法、时间段筛选法。本步骤在具体实施过程中,可以预先建立各数据选择方式与各第一标识信息的第一对应关系,由此在需要利用候选算法中的数据选择方式对样本数据库中的数据进行选择时,就可以查找该第一对应关系,以此来确定数据选择方式对应的第一标识信息,然后利用该第一标识信息对样本数据库中的数据进行标注,以此来获得与候选算法对应的数据集合。具体的,在基于第一标识信息进行标记时,还可以同时添加候选算法的标识信息,即通过为各数据添加候选算法的标记位,由此能够准确的确定出是哪种候选算法中的数据选择方式对数据进行了标记。本步骤中通过对数据进行标记,能够避免由于算法较多,而造成与各算法对应的数据集合较多,进而造成数据量过多的问题。
步骤S203,基于各所述候选算法中的特征处理方式,确定与各所述特征处理方式对应的第二标识信息;基于所述第二标识信息,对与所述候选算法对应的数据集合中的第一特征数据进行标记;基于各所述第一特征数据被标记的第二标识信息,采用与所述第二标识信息对应的特征处理方式对各所述第一特征数据进行处理,并将修改后的第一特征数据作为初始特征集合中的数据;
本步骤在具体实施过程中,所述特征处理方式包括如下任意一种或几种:分桶处理、归一化处理、编码处理、去噪处理。本步骤在具体实施过程中,也可以预先建立各第二标识信息与各特征处理方式的第二对应关系,由此在需要对数据集合中的第一特征数据进行处理来获得初始特征集合时,就可以通过查找该第二对应关系来确定出对应的第二标识信息,然后利用第二标识信息来进一步对数据集合中的第一特征数据进行标记,后续就可以通过标记结果来直接对第一特征数据进行处理,从而能够避免多种候选算法中均涉及同一第一特征数据以及同一特征数据处理方式,而造成数据重复处理、数据量过多的问题,同时减轻了数据存储压力。
步骤S204,基于各所述候选算法中的特征选择方式,确定与所述特征选择方式对应的第三标识信息;基于各所述第三标识信息对与所述候选算法对应的初始特征集合中的修改后的第一特征数据进行标记;基于各所述修改后的第一特征数据被标记的第三标识信息,采用与所述第三标识信息对应的特征选择方式,对各所述修改后的第一特征数据进行选择,并将选择获得的修改后的第一特征数据作为各目标特征集合中的数据;
本步骤在具体实施过程中,所述特征据选择方式包括如下任意一种:信息增益方式、交叉熵方式、KL散度方式/相对熵方式、odds ratio方式/比值比方式、互信息方式。本步骤在具体实施过程中,还可以建立各第三标识信息与各特征选择方式的第三对应关系,由此在需要对初始特征集合中的数据进行处理来获得目标特征集合时,就可以通过查找该第二对应关系来确定出对应的第三标识信息,然后利用第三标识信息来进一步对数据集合中的数据进行标记,后续就可以通过该标记结果来直接对数据进行处理,从而能够避免多种候选算法中均涉及同一第二特征数据以及同一特征选择方式,而造成数据重复处理、数据量过多的问题。
步骤S205,基于各所述候选算法中的分析方式,确定与各所述分析方式对应的第四标识信息;基于所述第四标识信息,对与所述候选算法对应的目标特征集合中的选择获得的修改后的第一特征数据进行标记;基于各所述选择获得的修改后的第一特征数据被标记的第四标识信息,采用与所述第四标识信息对应的分析方式对各所述选择获得的修改后的第一特征数据进行分析处理,获得与各所述候选算法对应的分析结果。
本步骤在具体实施过程中,所述分析方式包括如下任意一种:迭代算法Adaboost、K均值聚类算法K-Means、网页排名法PageRank、关联规则算法Aproori、分类回归树算法CART、朴素贝叶斯分类算法Nave Bayes、逻辑回归算法LR、支持向量机算法SVM、邻近算法KNN、决策树算法C4.5、梯度下降树算法GDBT。
还可以建立各第四标识信息与各分析方式的第四对应关系,由此在需要对目标特征集合中的数据进行分析处理,来获得分析结果时,可以通过查找该第四对应关系来确定出对应的第四标识信息,然后利用第四标识信息来进一步对数据集合中的数据进行标记,能够避免数据重复处理、数据量过多的问题。
本步骤在具体实施过程中,在对与各算法对应的特征集合进行分析处理之前,还可以确定出目标计算平台,即利用目标计算平台来基于各算法对对应的特征集合中的各目标特征数据进行分析计算,以此来获得分析结果,即获得智能推荐的结果。也即通过将计算量分摊到各个计算平台,能够加快计算速度。本步骤中目标计算平台具体包括如下任意一种:Flink平台、Spark平台、Hadoop平台。
步骤S206,确定目标评估方式;基于目标评估方式对各所述分析结果进行评估,获得与各所述分析结果对应的评估系数;基于各分析结果的评估系数,从各所述候选算法中确定出目标算法。
本步骤在具体实施过程中,目标评估方式包括如下任意一种或几种:精确率、召回率、准确率、F1分数、平均绝对误差、均方误差、可释方差分数、R2分数,也就是可以采用上述的评估方式来计算获得评估系数,最后基于各评估系数的高低来确定出目标算法。本步骤在具体实施过程中,具体还可以按照评估系数的高低顺序,对各候选算法进行排序,然后根据排序结果确定至少一个目标推荐算法,例如,确定位于前三位的候选算法为目标算法,并进行展示。在具体实施过程中,还可以对各候选算法的排序结果进行展示,以此来使用户能够更加清楚的了解各候选算法的推荐等级。
本实施例中,在确定出目标算法后,就可以实时训练,例如对接实时反馈的数据,按照各数据处理方式的最优组合,即按照目标算法中的各数据处理方式来逐步进行训练,以此来为对应的目标项目提供实时算法服务。并且本实施例中还可以对各候选算法的评估分值进行存储,以此作为参考数据,为后续业务组合提供支撑,减少组合数。
本申请中的智能推荐方法,可以取代算法工程师的工作,完成算法工程师完成不了的大量探索选择的工作。本申请中通过智能对各数据处理方式进行组合来获得各候选算法,然后根据对数据的添加的标记信息智能的成相应的数据计算、数据处理等任务,获得与各候选算法对应的评估系数,最后按照评估系数的高低顺序,对各候选算法进行排序、展示,由此会选择一个最优的算法,提供给应用程序编程接口api服务,不需要工程师额外的去开发api,重复处理特征的逻辑,api可以实现数据分析abtest的功能。本实施例中的方法支持实时业务场景,实时训练,并且还可以能通过人工干预,即人工选择数据分析方式abtest,进行数据分析,以此来更加精确的得到各候选算法的评估结果,实现最优选择。本申请中的方法还能够为企业节省大量的成本,为业务发展提供具有数据说服力的支撑。
本申请中的算法推荐方法、装置、存储介质及电子设备,能够自动从众多的算法中挑选出最合适的目标算法,然后将目标算法应用到智能推荐等目标应用服务中,节省了算法选择的时间,并且提高了算法选择的准确性,同时解决了由于数据有万级别以上维度、每个维度都要经过复杂的算法计算、大量数据训练,每一个细微的调整都需要重新走整个流程、进而使得算法的选择耗时时间较长的问题,同时为后续目标平台基于该目标算法以及用户的历史浏览信息来进行智能推荐提供了保障。
本申请另一实施例提供一种算法推荐装置,如图3所示,包括:
第一选择模块1,用于基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
处理模块2,用于基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
第二选择模块3,用于基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
分析模块4,用于基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
筛选模块5,用于基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
本实施例在具体实施过程中,所述算法推荐装置还包括获取模块,所述获取模块用于:获取与目标项目对应的若干数据,以获得所述样本数据库;所述第一选择模块具体用于:基于各所述候选算法中的数据选择方式,确定与所述数据选择方式对应的第一标识信息;基于各所述第一标识信息对选中的数据进行标记,并将标记后的数据作为与各所述候选算法对应的数据集合中的数据;其中,所述数据选择方式包括如下任意一种:留出法、留一法、自助法、时间段筛选法。
本实施例在具体实施过程中,所述处理模块具体用于:基于各所述候选算法中的特征处理方式,确定与各所述特征处理方式对应的第二标识信息;基于所述第二标识信息,对与所述候选算法对应的数据集合中的第一特征数据进行标记;基于各所述第一特征数据被标记的第二标识信息,采用与所述第二标识信息对应的特征处理方式对各所述第一特征数据进行处理,并将修改后的第一特征数据作为所述初始特征集合中的数据;其中,所述特征处理方式包括如下任意一种或几种:分桶处理、归一化处理、编码处理、去噪处理。
本实施例在具体实施过程中,所述第二选择模块具体用于:基于各所述候选算法中的特征选择方式,确定与所述特征选择方式对应的第三标识信息;基于各所述第三标识信息对与所述候选算法对应的初始特征集合中的所述修改后的第一特征数据进行标记;基于各所述修改后的第一特征数据被标记的第三标识信息,采用与所述第三标识信息对应的特征选择方式,对各所述修改后的第一特征数据进行选择,并将选择获得的修改后的第一特征数据作为各所述目标特征集合中的数据;其中,所述特征据选择方式包括如下任意一种:信息增益方式、交叉熵方式、相对熵方式、比值比方式、互信息方式。
本实施例在具体实施过程中,所述分析模块具体用于:基于各所述候选算法中的分析方式,确定与各所述分析方式对应的第四标识信息;基于所述第四标识信息,对与所述候选算法对应的目标特征集合中的选择获得的修改后的第一特征数据数据进行标记;基于各所述选择获得的修改后的第一特征数据被标记的第四标识信息,采用与所述第四标识信息对应的分析方式对各所述选择获得的修改后的第一特征数据进行分析处理,获得与各所述候选算法对应的分析结果。其中,所述分析方式包括如下任意一种:迭代算法、K均值聚类算法、网页排名法、关联规则算法、分类回归树算法、朴素贝叶斯分类算法、逻辑回归算法、支持向量机算法、邻近算法、决策树算法、梯度下降树算法。
本实施例在具体实施过程中,所述筛选模块具体用于:确定目标评估方式;基于目标评估方式对各所述分析结果进行评估,获得与各所述分析结果对应的评估系数;基于各分析结果的评估系数,从各所述候选算法中确定出目标算法。
本申请中的算法推荐装置,能够自动从众多的算法中挑选出最合适的目标算法,然后将目标算法应用到智能推荐等目标应用服务中,节省了算法选择的时间,并且提高了算法选择的准确性,同时解决了由于数据有万级别以上维度、每个维度都要经过复杂的算法计算、大量数据训练,每一个细微的调整都需要重新走整个流程、进而使得算法的选择耗时时间较长的问题。
本申请另一实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
步骤一、基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
步骤二、基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
步骤三、基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
步骤四、基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
步骤五、基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
上述方法步骤的具体实施过程可参见上述任意一算法推荐方法的实施例,本实施例在此不再重复赘述。
本申请中的存储介质能够自动从众多的算法中挑选出最合适的目标算法,然后将目标算法应用到智能推荐等目标应用服务中,节省了算法选择的时间,并且提高了算法选择的准确性,同时解决了由于数据有万级别以上维度、每个维度都要经过复杂的算法计算、大量数据训练,每一个细微的调整都需要重新走整个流程、进而使得算法的选择耗时时间较长的问题。
本申请另一实施例提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现如下方法步骤:
步骤一、基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
步骤二、基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
步骤三、基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
步骤四、基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
步骤五、基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
上述方法步骤的具体实施过程可参见上述任意一算法推荐方法的实施例,本实施例在此不再重复赘述。
本申请中的电子设备能够自动从众多的算法中挑选出最合适的目标算法,然后将目标算法应用到智能推荐等目标应用服务中,节省了算法选择的时间,并且提高了算法选择的准确性,同时解决了由于数据有万级别以上维度、每个维度都要经过复杂的算法计算、大量数据训练,每一个细微的调整都需要重新走整个流程、进而使得算法的选择耗时时间较长的问题。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种算法推荐方法,其特征在于,包括:
基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:获取与目标项目对应的若干数据,以获得所述样本数据库;
所述基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合,具体包括:
基于各所述候选算法中的数据选择方式,确定与所述数据选择方式对应的第一标识信息;
基于各所述第一标识信息对选中的数据进行标记,并将标记后的数据作为与各所述候选算法对应的数据集合中的数据;
其中,所述数据选择方式包括如下任意一种:留出法、留一法、自助法、时间段筛选法。
3.如权利要求1所述的方法,其特征在于,所述基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合,具体包括:
基于各所述候选算法中的特征处理方式,确定与各所述特征处理方式对应的第二标识信息;
基于所述第二标识信息,对与所述候选算法对应的数据集合中的第一特征数据进行标记;
基于各所述第一特征数据被标记的第二标识信息,采用与所述第二标识信息对应的特征处理方式对各所述第一特征数据进行处理,并将修改后的第一特征数据作为所述初始特征集合中的数据;
其中,所述特征处理方式包括如下任意一种或几种:分桶处理、归一化处理、编码处理、去噪处理。
4.如权利要求3所述的方法,其特征在于,所述基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合,具体包括:
基于各所述候选算法中的特征选择方式,确定与所述特征选择方式对应的第三标识信息;
基于各所述第三标识信息对与所述候选算法对应的初始特征集合中的所述修改后的第一特征数据进行标记;
基于各所述修改后的第一特征数据被标记的第三标识信息,采用与所述第三标识信息对应的特征选择方式,对各所述修改后的第一特征数据进行选择,并将选择获得的修改后的第一特征数据作为各所述目标特征集合中的数据;
其中,所述特征据选择方式包括如下任意一种:信息增益方式、交叉熵方式、相对熵方式、比值比方式、互信息方式。
5.如权利要求1所述的方法,其特征在于,所述基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果,具体包括:
基于各所述候选算法中的分析方式,确定与各所述分析方式对应的第四标识信息;
基于所述第四标识信息,对与所述候选算法对应的目标特征集合中的选择获得的修改后的第一特征数据数据进行标记;
基于各所述选择获得的修改后的第一特征数据被标记的第四标识信息,采用与所述第四标识信息对应的分析方式对各所述选择获得的修改后的第一特征数据进行分析处理,获得与各所述候选算法对应的分析结果。
其中,所述分析方式包括如下任意一种:迭代算法、K均值聚类算法、网页排名法、关联规则算法、分类回归树算法、朴素贝叶斯分类算法、逻辑回归算法、支持向量机算法、邻近算法、决策树算法、梯度下降树算法。
6.如权利要求1所述的方法,其特征在于,所述基于各所述分析结果对各所述候选算法进行筛选,获得目标算法,具体包括:
确定目标评估方式;
基于目标评估方式对各所述分析结果进行评估,获得与各所述分析结果对应的评估系数;
基于各分析结果的评估系数,从各所述候选算法中确定出目标算法。
7.一种算法推荐装置,其特征在于,包括:
第一选择模块,用于基于各候选算法中的数据选择方式,对样本数据库中的数据进行选择,获得与各所述候选算法对应的数据集合;
处理模块,用于基于各所述候选算法中的特征处理方式,对与各所述候选算法对应的数据集合中的第一特征数据进行处理,获得与各所述候选算法对应的初始特征集合;
第二选择模块,用于基于各所述候选算法中的特征选择方式,对与各所述候选算法对应的初始特征集合中的数据进行选择,获得与各所述候选算法对应的目标特征集合;
分析模块,用于基于各所述候选算法中的分析方式,对与各所述候选算法对应的目标特征集合中的数据进行分析处理,获得与各所述候选算法对应的分析结果;
筛选模块,用于基于各所述分析结果对各所述候选算法进行筛选,获得目标算法。
8.如权利要求7所述的算法推荐装置,其特征在于,所述第一选择模块具体用于:
基于各所述候选算法中的数据选择方式,确定与所述数据选择方式对应的第一标识信息;
基于各所述第一标识信息对选中的数据进行标记,并将标记后的数据作为与各所述候选算法对应的数据集合中的数据;
其中,所述数据选择方式包括如下任意一种:留出法、留一法、自助法、时间段筛选法。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-6任一项所述算法推荐方法的步骤。
10.一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-6任一项所述算法推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210289323.1A CN114756740A (zh) | 2022-03-23 | 2022-03-23 | 一种算法推荐方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210289323.1A CN114756740A (zh) | 2022-03-23 | 2022-03-23 | 一种算法推荐方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114756740A true CN114756740A (zh) | 2022-07-15 |
Family
ID=82326810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210289323.1A Pending CN114756740A (zh) | 2022-03-23 | 2022-03-23 | 一种算法推荐方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756740A (zh) |
-
2022
- 2022-03-23 CN CN202210289323.1A patent/CN114756740A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
CN109992601B (zh) | 待办事项信息的推送方法、装置和计算机设备 | |
US9390142B2 (en) | Guided predictive analysis with the use of templates | |
CN110717534A (zh) | 一种基于网络监督的目标分类和定位方法 | |
CN110427483B (zh) | 文本摘要评测方法、装置、系统及评测服务器 | |
CN110633421B (zh) | 特征提取、推荐以及预测方法、装置、介质和设备 | |
CN110737756B (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
WO2022041940A1 (en) | Cross-modal retrieval method, training method for cross-modal retrieval model, and related device | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN111626346A (zh) | 数据分类方法、设备、存储介质及装置 | |
CN114741603A (zh) | 基于用户聚类和商品聚类的混合协同过滤推荐算法 | |
CN110377618B (zh) | 裁决结果分析方法、装置、计算机设备和存储介质 | |
CN115374354A (zh) | 基于机器学习的科技服务推荐方法、装置、设备及介质 | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
CN111709475A (zh) | 一种基于N-grams的多标签分类方法及装置 | |
CN108229572B (zh) | 一种参数寻优方法及计算设备 | |
CN116341059A (zh) | 基于相似度的隧道智能设计方法 | |
CN114756740A (zh) | 一种算法推荐方法、装置、存储介质及电子设备 | |
CN114780589A (zh) | 多表连接查询方法、装置、设备及存储介质 | |
CN117813602A (zh) | 主成分分析 | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
US20210365831A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
CN112884028A (zh) | 一种系统资源调整方法、装置及设备 | |
CN116228484B (zh) | 基于量子聚类算法的课程组合方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |