CN110457329B - 一种实现个性化推荐的方法及装置 - Google Patents

一种实现个性化推荐的方法及装置 Download PDF

Info

Publication number
CN110457329B
CN110457329B CN201910759846.6A CN201910759846A CN110457329B CN 110457329 B CN110457329 B CN 110457329B CN 201910759846 A CN201910759846 A CN 201910759846A CN 110457329 B CN110457329 B CN 110457329B
Authority
CN
China
Prior art keywords
feature
target data
data table
depth
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910759846.6A
Other languages
English (en)
Other versions
CN110457329A (zh
Inventor
刘正夫
程秋建
张孝丹
周振华
伍思恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201910759846.6A priority Critical patent/CN110457329B/zh
Publication of CN110457329A publication Critical patent/CN110457329A/zh
Application granted granted Critical
Publication of CN110457329B publication Critical patent/CN110457329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现个性化推荐的方法及装置,涉及机器学习技术领域,主要技术方案包括:获取数据源,数据源包括多个数据表;确定数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从数据源中,确定当前嵌套层级的目标数据表;对目标数据表以及数据源中与目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到目标数据表中,形成深度特征表;对深度特征表进行离散特征处理和/或窗口特征处理,形成针对目标数据表的特征表,并将特征表作为新的数据表添加到数据源中;基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;利用推荐模型实现个性化推荐。

Description

一种实现个性化推荐的方法及装置
技术领域
本发明涉及机器学习技术领域,特别是涉及一种实现个性化推荐的方法及装置。
背景技术
随着数据挖掘技术的不断发展,机器学习模型逐渐成为分析海量数据的重要手段,个性化推荐成为机器学习模型的主要应用场景之一。
目前,个性化推荐的方法通常为:从大量的数据中提取特征,并选用合适的机器学习模型对样本进行建模,从而得到用于个性化推荐的推荐模型。推荐模型所涉及的特征是机器学习中作为个体可测量的属性或被观测现象,其在机器学习中占有重要作用。发明人在发明创造过程中发现特征提取时需要选用具有丰富的建模经验的业务人员,由该业务人员人工提取出可能有用的特征用于个性化推荐模型的构建。可见,现有的方式特征在实现个性化推荐时,人力成本的投入较大。
发明内容
有鉴于此,本发明提出了一种实现个性化推荐的方法及装置,主要目的在于实现个性化推荐时,减少人力成本的投入。
第一方面,本发明提供了一种实现个性化推荐的方法,该方法包括:
获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
利用所述推荐模型实现个性化推荐。
第二方面,本发明提供了一种实现个性化推荐的装置,该装置包括:
获取单元,用于获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
处理单元,用于确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
训练单元,用于基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
推荐单元,用于利用所述推荐模型实现个性化推荐。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中所述的实现个性化推荐的方法。
第四方面,本发明提供了一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行第一方面中所述的实现个性化推荐的方法。
借由上述技术方案,本发明提供的实现个性化推荐的方法及装置,确定数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从数据源中,确定当前嵌套层级的目标数据表,并对目标数据表以及数据源中与目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到目标数据表中形成深度特征表,然后对深度特征表进行离散特征处理和/或窗口特征处理,形成针对目标数据表的特征表,并将特征表作为新的数据表添加到数据源中。利用第N个嵌套层级的目标数据表的特征表进行机器学习模型训练得到推荐模型,最后利用推荐模型实现个性化推荐,从而对用户完成个性化推荐。通过上述可知,本发明提供的方案中通过对数据源中的各表进行N个嵌套层级的深度特征处理、离散特征处理和/或窗口特征处理便可完成特征的自动生成,并利用第N个嵌套层级的生成的特征得到用于个性化推荐的推荐模型,依据该推荐模型实现个性化推荐。而从特征提取到推荐的整个过程无需人工的介入,因此,本发明提供的方案在实现个性化推荐时,减少人力成本的投入。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的一种实现个性化推荐的方法的流程图;
图2示出了本发明另一个实施例提供的一种实现个性化推荐的方法的流程图;
图3示出了本发明一个实施例提供的一种实现个性化推荐的装置的结构示意图;
图4示出了本发明另一个实施例提供的一种实现个性化推荐的装置的结构示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供了一种实现个性化推荐的方法,该方法主要包括:
101、获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别。
在实际应用中,数据源存储于预设的存储位置,在需要获取数据源时,通过预设的接口从预设的存储位置获取数据源,可选的,预设的接口可以包括但不限于API接口。需要说明的是,为了保证数据源的实时性,预设存储位置中的数据源以预设频率进行更新。比如,在预设存储位置实时添加新的数据表,并对存储位置中日期最早的数据表进行清除。
本实施例中数据源中的各数据表均具有其各自的类别,各数据表属于同一类表或不同类别。示例性的,数据源中包括有100个数据表,该100个数据表为同一类表的数据表。示例性的,数据源中包括有200个数据表,该200个数据表为三个类别的数据表。
本实施例中对表的类别不做具体限定。可选的,表的类别至少包括如下三类:用户信息表、交易表和产品信息表。在数据源中包括有这三类表时,每类表的数量本实施例中不做具体限定,可选的,每类表的数量为多个或一个。其中,用户信息表用于记录用户信息,用户信息包括如下内容中的至少一种:用户编号、用户年龄、用于分类数据(比如,性别、学历、国籍、所处年龄状态、所在行政区等)、用户交易日期、标签值(标签值用于表征是否值得推荐)、用户住址、用户收入和用户喜好。交易表用于记录用户交易情况信息,用户交易情况信息包括如下内容中的至少一种:交易编号、用户编号(可以为名字或数字标号)、交易产品编号、交易产品时间、交易产品地点和交易产品金额中的至少一种。产品信息表用于记录产品信息,产品信息包括如下内容中的至少一种:产品编号、产品名称、产品产地、产品金额和产品售卖地。
在本实施例中,数据源中的各表均具有的唯一主键和至少一个非主键,且每一个数据表的非主键中包括有与其存在对应关系的数据表的主键。唯一主键的含义为:表中不可能有两行存在相同的主键值的数据。
下面以表-A对交易表中的主键和非主键进行说明:表-A中存在如下三列:C1列、C2列和C3列。其中,C1为唯一主键,C2和C3均为非主键,在表-A中不可能有两行存在相同的C1的数据。C1可以表征交易编号。
表-A
C1 C2 C3
1 6 11
2 7 12
3 8 13
4 9 14
5 10 15
下面以表-B对用户信息表中的主键和非主键进行说明:表-B中的C4为唯一主键,C6、F、C4、Date和label均为非主键。C4可以表征用户编号。其中,F对应表征分类的数据。
表-B
C1 C6 F C4 Date label
1 2 a 4 2018/1/1 0
1 4 a 5 2018/1/2 0
2 5 b 6 2018/1/3 0
2 3 b 7 2018/1/4 1
3 6 c 8 2018/1/5 1
下面以表-C对产品信息表中的主键和非主键进行说明:表-C中的C5为唯一主键,C4和C7均为非主键。C5可以表征产品编号。
C4 C5 C7
4 9 11
4 8 2
5 7 3
5 6 4
从上述的表-A至表-C中可以看出,用户信息表、交易表和产品表之间基于主键和非主键存在对应关系。用户信息表“表-B”中的非主键中包括有交易表“表-A”的主键“C1”,且交易表“表-A”中的一条数据对应用户信息表“表-B”中的多条数据。产品信息表“表-C”中的非主键中包括用户信息表“表-B”的主键“C4”,产品信息表“表-C”中的多条数据对应用户信息表“表-B”中的一条数据。需要说明的是,这里所述的一条数据为表中的一行数据。
102、确定所述数据源中的多个数据表的嵌套层级数N。
在实际应用中,确定数据源中的多个数据表的嵌套层级数N至少需要考虑如下两个因素:一是,特征提取的处理量;二是,提取特征的数量。
在需要降低特征提取的处理量时,嵌套层级数可以设置的较小。在需要提高提取特征的数量时,嵌套层级数可以设置的较大。需要说明的是,在确定嵌套层级数N时,需要综合考虑上述的两个因素,在保证提取特征的数量的基础上,降低特征提取的处理量。示例性的,N取值为大于或等于1的整数。
下面对根据嵌套层级数N对多个数据表进行嵌套操作进行说明:示例性的,存在6个数据表A1、A2、A3、A4、A5和A6。其中,A1、A2、A3、A4、A5和A6之间的对应关系为,每一个数据表中的一条数据均对应其后面相邻的一个数据表中的多条数据。
当确定对A3进行特征提取,即A3为最终特征提取数据表,且嵌套层级数为2时,特征提取过程可以包括如下两种:
第一种,将直接与A3存在对应关系的A2确定为第一个嵌套层级对应的目标数据表,对A2以及数据源中与A2存在对应关系的数据表A1和A3,进行深度特征提取,并将提取的深度特征添加到A2中,对添加了深度特征的A2进行离散特征处理和/或窗口特征处理,形成针对A2的特征表A2’。将A3确定为第二个嵌套层级对应的目标数据表,对A3以及数据源中与A3存在对应关系的数据表A2’和A4,进行深度特征提取,并将提取的深度特征添加到A3中,对添加了深度特征的A3进行离散特征处理和/或窗口特征处理,形成针对A3的特征表A3’,完成整个嵌套过程。
第一种,将直接与A3存在对应关系的A4确定为第一个嵌套层级对应的目标数据表,对A4以及数据源中与A4存在对应关系的数据表A5和A3,进行深度特征提取,并将提取的深度特征添加到A4中,对添加了深度特征的A4进行离散特征处理和/或窗口特征处理,形成针对A4的特征表A4’。将A3确定为第二个嵌套层级对应的目标数据表,对A3以及数据源中与A3存在对应关系的数据表A4’和A2,进行深度特征提取,并将提取的深度特征添加到A3中,对添加了深度特征的A3进行离散特征处理和/或窗口特征处理,形成针对A3的特征表A3’,完成整个嵌套过程。
通过上述中嵌套层级数为2的示例可以得出,第一嵌套层级对应的目标数据表是依据嵌套层级数N和最终特征提取数据表确定的,第一嵌套层级对应的目标数据表与最终特征提取数据表之间具有N-1层对应关系。
103、基于嵌套层级数N,依次将每一个嵌套层级作为当前嵌套层级。
104、从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表。
在本实施例中,当前嵌套层级的目标数据表的确定方法至少包括如下三种:
第一种,在当前嵌套层级为第一层级时,当前嵌套层级的目标数据表为用户在数据源中指定的数据表。用户可以基于自身的业务需求,执行数据源中的任意一个数据表为目标数据表。
第二种,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的前表,当前嵌套层级的目标数据表的后表为上一个嵌套层级的特征表。
第三种,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的后表,当前嵌套层级的目标数据表的前表为上一个嵌套层级的特征表。
需要说明的是,第二种和第三种中目标数据表的确定方法,使得各嵌套层级间相关联。另外,N≥M≥2,前表中的一条数据对应目标数据表中的多条数据;后表中的多条数据对应目标数据表中的一条数据。
下面对形成深度特征表的具体过程进行说明,该过程至少包括如下三种:
第一种,当目标数据表仅存在前表时,确定与目标数据表存在对应关系的前表。将前表中的至少一个非主键对应的数据作为新特征,添加到目标数据表,形成深度特征表。其中,前表中的一条数据对应目标数据表中的多条数据。
第二种,当目标数据表仅存在后表时,确定与目标数据表存在对应关系的后表;采用预设的第一特征生成算法对后表进行新特征生成,并将新特征添加到目标数据表,形成所述深度特征表。其中,后表中的多条数据对应目标数据表中的一条数据
第三种,当目标数据表既存在前表又存在后表时,确定与目标数据表存在对应关系的前表和后表。将前表中的至少一个非主键对应的数据作为新特征,添加到目标数据表,以及采用预设的第一特征生成算法对后表进行新特征生成,并将新特征添加到目标数据表,形成所述深度特征表。
需要说明的是,所述目标数据表与其存在对应关系的数据表“前表和/或后表”属于同一类别或不同类别。示例性的,下面以目标表与其存在对应关系的数据表属于不同列表的表进行说明:在进行深度特征提取时,以用户信息表为目标数据表。由于交易表中的一条数据对应用户信息表中的多条数据,故将交易表作为用户信息表的前表。由于用户信息表中的一条数据对应产品信息表中的多条数据,故将产品信息表作为用户信息表的后表。在进行深度特征提取时,将交易表中的至少一个非主键对应的数据作为新特征,添加到用户信息表,以及采用预设的第二特征生成算法对产品信息表进行新特征生成,并将新特征添加到用户信息表,形成深度特征表。需要说明的是,第二特征生成算法为聚合操作算法,其可以至少包括但不限于下算法中的至少一种:加和算法、平均值算法、取最大值算法、取最小值算法、取中间值算法和标准偏差。
在本实施例中,为了保证特征提取的全面性,在形成针对目标数据表的深度特征表之前,采用预设的第二特征生成算法对添加了新特征的目标数据表进行新特征生成,并将生成的新特征添加到所述添加了新特征的目标数据表中。需要说明的是,基于新特征添加的时间点不同,该添加了新特征的目标数据表包括如下两种:第一种是,仅添加了前表中的至少一个非主键对应的数据的目标数据表。第二种是,采用预设的第一特征生成算法对后表生成的新特征的目标数据表。第三种是,添加了前表中的至少一个非主键对应的数据和采用预设的第一特征生成算法对后表生成的新特征的目标数据表。另外,这里所述的第二特征生成算法可以包括但不限于取绝对值、取log值、计算两列的比值、计算两列的乘积、计算两列的加和以及计算两列的差值等。
105、对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中。
在本实施例中,离散特征处理是指对表征分类的数据进行离散化处理,并基于离散化处理后得到的离散特征,进行特征提取的过程。窗口特征处理是指依据数据表中的时间特征,对数据表中的其他连续数据进行运算进行特征提取的过程。
在实际应用中,基于深度特征表形成针对目标数据表的特征表的过程中至少包括下三种:
第一种,对深度特征表进行离散特征处理,形成针对目标数据表的特征表。
第二种,对深度特征表进行窗口特征处理,形成针对目标数据表的特征表。
第二种,对深度特征表进行离散特征处理和窗口特征处理,形成针对目标数据表的特征表。需要说明的是,由于离散特征处理会产生大量的离散特征,如果在离散特征处理的基础上使用窗口特征处理,会增加窗口特征处理的计算量,因此避免计算量增大,在对深度特征表进行离散特征处理和窗口特征处理时,需要按照先对深度特征表进行窗口特征处理,再对深度特征表进行离散特征处理的顺序执行。
106、判断当前嵌套层级是否为第N个嵌套层级,若是,执行步骤107;否则,执行103。
在本实施例中,在判断出当前嵌套层级为第N个嵌套层级时,说明N个嵌套层级已经执行完成,则执行步骤107。在判断出当前嵌套层级不是第N个嵌套层级时,说明N个嵌套层级中仅执行了部分嵌套层级,还需要继续执行后续的嵌套层级,则执行103。
107、基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型。
在本实施例中,基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型的具体方法至少包括如下两种:
第一种、基于所述特征表确定训练样本;采用贝叶斯优化算法调节不同迭代周期内的超参数;在不同迭代周期内,通过预设的机器学习模型,采用训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到推荐模型。
具体的,训练样本的确定方法至少包括如下两种:第一种,为了保证训练样本涵盖特征的丰富性和全面性,则将特征表中的所有特征均作为训练样本。第二种,为了保证训练样本的针对性和减少训练难度,仅将特征表中符合预设规则的特征作为训练样本。示例性的,仅将符合预设窗口特征条件的特征作为训练样本。
具体的,采用贝叶斯优化算法调节不同迭代周期内的超参数的过程为:通过测试样本测试上一个迭代周期产生的推荐模型,根据测试结果在预设的超参数范围内,对上一个迭代周期内使用的超参数进行调整,以供调整后的超参数供下一个迭代周期使用。
具体的,在不同迭代周期内,通过预设的机器学习模型,采用训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到每个迭代周期的推荐模型。最终的推荐模型的确定方法至少包括如下两种:第一种,将第P个迭代周期得到的推荐模型确定为最终的推荐模型,所述的P根据业务经验确定,在第P个迭代周期得到的推荐模型是推荐效果较好的模型。第二种,利用测试样本依次对每一个迭代周期得到的推荐模型进行测试,当一个迭代周期的推荐模型的测试结果符合预期时,则将该迭代周期的推荐模型确定为最终的推荐模型,并停止后续的迭代过程。需要说明的是,预设的机器学习模型可以基于业务需求选择,则预设的机器学习模型为如下内容中的任意一种:随机森林模型、神经网络模型和梯度下降树模型。超参数种类和范围的确定与所选取的机器学习模型有关。示例性的,在预设的机器学习模型选取随机森林模型时,超参数可以包括但不限于树的棵树、树最大深度、叶子节点上最少样例数、分裂内部节点需要最少的样例数。
108、利用所述推荐模型实现个性化推荐。
在本实施例中,利用推荐模型实现个性化推荐的过程为:确定待进行个性化推荐的用户的用户信息,基于该用户信息,利用推荐模型对该用户进行个性化推荐。
本发明实施例提供的实现个性化推荐的方法,确定数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从数据源中,确定当前嵌套层级的目标数据表,并对目标数据表以及数据源中与目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到目标数据表中形成深度特征表,然后对深度特征表进行离散特征处理和/或窗口特征处理,形成针对目标数据表的特征表,并将特征表作为新的数据表添加到数据源中。利用第N个嵌套层级的目标数据表的特征表进行机器学习模型训练得到推荐模型,最后利用推荐模型实现个性化推荐,从而对用户完成个性化推荐。通过上述可知,本发明实施例提供的方案中通过对数据源中的各表进行N个嵌套层级的深度特征处理、离散特征处理和/或窗口特征处理便可完成特征的自动生成,并利用第N个嵌套层级的生成的特征得到用于个性化推荐的推荐模型,依据该推荐模型实现个性化推荐。而从特征提取到推荐的整个过程无需人工的介入,因此,本发明实施例提供的方案在实现个性化推荐时,减少人力成本的投入。
进一步的,根据图1所示的方法,本发明的另一个实施例还提供了一种标注数据的审核方法,如图2所示,所述方法主要包括:
201、获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别。
示例性的,本步骤中数据源中包括的数据表为交易表、用户信息表和产品信息表,交易表、用户信息表和产品信息表分别为上述中的表-A、表-B和表-C。
202、确定所述数据源中的多个数据表的嵌套层级数N。
本实施例中,嵌套层级数N的确定方法与上述步骤102中的详述的确定方法基本相同,因此这里将不再赘述。
示例性的,本实施例中将嵌套层级数N设置为1。
203、基于嵌套层级数N,依次将每一个嵌套层级作为当前嵌套层级。
204、从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表。在仅对对深度特征表进行离散特征处理时,执行208或209;在对所述深度特征表进行窗口特征处理时,执行210;对所述深度特征表进行离散特征处理和窗口特征处理时,执行205。
在实际应用中,在对目标数据表进行深度特征提取时,至少可以通过如下的伪代码执行:
Figure BDA0002169917850000091
Figure BDA0002169917850000101
其中Ei代表第i个张表“第i个目标数据表”,E1:M代表所有的数据表,EV代表已经访问过表的集合。Ei和Ej是一对多的关系,Ei是Ej的一张前表,Ej是Ei的一张后表。
backward(Ei,E1:M)函数的输入是:Ei和所有数据表E1:M,输出为:在所有数据表范围内,Ei的所有后表。
forward(Ei,E1:M)函数的输入是:Ei和所有数据表E1:M,输出为:在所有数据表范围内,Ei的所有前表。
Fi则代表Ei的当前产生的特征。
RFeat(Ei,Ej)的输入是:前表Ei和后表Ej,输出则是:按照Ei主键对Ej进行各种特征生成算法,得到对应的特征。需要说明的是,该特征生成算法为聚合操作算法,一般有mean、sum、min、max、medium、std等算法)
DFeat(Ei,Ej)则是直接将前表Ej的非主键特征作为输出。
EFeat(Ei)输入:某张表Ei。输出:对Ei的数值型特征进行数值处理(处理方式通常有abs、log、计算两列的比值等等),生成新特征,将新旧特征同时输出。
需要说明的是,在实际应用中,在设置的嵌套层级数为两层或两层以上时,则依次对每个嵌套层级执行上述中的伪代码。
下面以嵌套层级数N为1,交易表、用户信息表和产品信息表分别为上述中的表-A、表-B和表-C为例,对深度特征表的形成过程进行说明:
首先,将用户信息表“表-B”的前表“交易表表-A”中的非主键特征作为新特征添加到表-B中,形成新的用户信息表“表-D”。
表-D
Figure BDA0002169917850000102
Figure BDA0002169917850000111
然后,将用户信息表“表-B”的后表“产品信息表表-C”进行新特征生成(本实施例中仅利用了取最小值算法,在实际应用中还可以选取其他的符合业务要求的算法),并将新特征添加到表-D中,形成新的深度特征表“表-E”,表-E中的NaN表征非数。
表-E
C1 C6 F C4 Date label MIN(C.C7) A.C2 A.C3
1 2 a 4 2018/1/1 0 2 6 11
1 4 a 5 2018/1/2 0 2 6 11
2 5 b 6 2018/1/3 0 NaN 7 12
2 3 b 7 2018/1/4 1 NaN 7 12
3 6 c 8 2018/1/5 1 NaN 8 13
最后,采用预设的特征生成算法对添加了新特征的用户信息表“表-E”进行新特征生成,并将生成的新特征添加到“表-E”中,形成表-F。在本实施中,本实施例中选定的预设的特征生成算法为Efeat中处理方式选用reverse操作,y=reverse(x)=-1*x,在实际应用中还可以选取其他的符合业务要求的算法,得到的表-F为:
表-F
Figure BDA0002169917850000112
205、基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中。
在实际应用中,在对深度特征表进行窗口特征提取提取时,至少可以通过如下的伪代码执行:
Function make_timewindow(Ei)
cols=getCols(Ei)//得到表Ei的所有列
time=getTime(Ei)//得到表Ei的时间索引列(创建表时需要指定,每张表//最多只能有一个时间索引列)
for col in cols:
if getType(Ei[col])==′continuous′:
Fi=Fi∪window(Ei[col],time)//对连续的特征生成窗口特征
上述的伪代码具体的描述的过程为:.选出“目标数据表”中的连续特征,得到时间特征“日期字段time”。对“目标数据表”中连续特征在time上做窗口特征运算,该运算的做法为SQL窗口函数。最后将新生成的窗口特征添加到“目标数据表”中。
可选的,在进行窗口特征提取时,可采用如下方法:采用预设的第一特征生成算法,对时间间隔为预设时长的两个时间特征对应的连续特征进行窗口特征提取。需要说明的是,第一特征生成算法可以为加和等数学运算。
下面以深度特征表为“表-F”,对窗口特征提取过程进行说明:确定表-F中的非主键“date”对应的时间特征和非主键“C6”对应的连续特征。然后,基于非主键“date”对应的时间数据,对非主键“C6”对应的连续特征在2天的时间窗口,得到窗口特征,并将窗口特征添加到表-F中,形成“表-G”。
表-G
Figure BDA0002169917850000121
206、对所述深度特征表的至少一个离散特征进行onehot编码,并将各离散特征的onehot编码作为新特征添加到所述深度特征表中。
在本实施例中,选取深度特征表中表征分类的数据即“离散特征”,然后对该数据进行离散化处理,在离散化处理后,采用onehot编码规则对离散化处理后得到的离散化特征进行onehot编码。
示例性的,用户信息表“表-B”中非主键“F”对应的数据为表征分类的数据的离散特征,则对非主键“F”对应的数据进行离散化处理及onehot编码处理后得到的离散化数据如表-B1所示。
表-B1
F-a F-b F-c
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
207、对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中,并执行步骤211。
在本实施例中,首先确定预设的标签值,然后基于标签值确定概率。概率可以通过如下公式确定:
Fi→p(label=1|F=Fi)
其中F是一个离散特征,F有n种取值,Fi是F的第i种取值。label为标签。p(label=1|F=Fi)代表当F取值为Fi时,label为1的概率。
下面以对表-G中的离散特征F进行概率计算,并将计算结果添加到表-B1中,得到表-B2。
表-B2
F-a F-b F-c F-target Label
1 0 0 p(label=1|F=a)=0 0
1 0 0 p(label=1|F=a)=0 0
0 1 0 p(label=1|F=b)=0.5 0
0 1 0 p(label=1|F=b)=0.5 1
0 0 1 p(label=1|F=c)=1 1
在本实施例中,基于表-B1和表-B2中的各离散化特征、各离散化特征对应的onehot编码以及各概率,作为新特征添加到所述中间表中,形成特征表“表-H”。
表-H
Figure BDA0002169917850000141
综上步骤205-207中的特征提取过程的描述,步骤205-207融合后的伪代码可以为:
Figure BDA0002169917850000142
208、对所述深度特征表的至少一个离散特征进行onehot编码,并将各离散特征的onehot编码作为新特征添加到所述深度特征表中,并执行步骤211。
209、对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中,并执行步骤211。
210、基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中,并执行步骤211。
211、判断当前嵌套层级是否为第N个嵌套层级,若是,执行步骤212;否则,执行203。
212、确定所述特征表中所有特征的信息值IV。
在实际应用中,经过深度特征处理、离散特征处理和/或窗口特征处理后得到的特征表中会包括有大量的特征,这些特征不仅数量巨大,且会存在有低价值的特征。如果对这些特征不加以筛选而直接进行模型训练,不仅会增加计算量和降低模型超参数调的效率,而且会使训练样本中包含更多的噪音,不利于模型效果。因此为了降低特征的数量,并剔除低价值的特征,需要对特征进行筛选。
由于IV值(Information Value)可以用来对变量进行编码和预测能力评估。因此本实施例中基于特征表中各特征的IV值来对特征进行筛选。
213、基于所述所有特征的信息值IV,对所述所有特征进行筛选。
在本实施例中,按照各特征的IV值从高到低的顺序进行排序,剔除IV值小于设定阈值的特征,或,剔除排序位于后S%的特征,其中,S为70以下的数值。
214、基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型。
本步骤的详细说明与上述的步骤107的详细说明该基本相同,因此这里将不再赘述。
215、利用所述推荐模型实现个性化推荐。
在本实施例中,进一步的,当推荐模型应用于个性化推荐的总时长大于预设的时长阈值时,说明该推荐模型可能已经滞后与当前个性化推荐的应用场景,则需要重新获取最新的数据源,进行新推荐模型的生成。
进一步的,为了避免添加到数据源中的特征表污染数据源,影响后续的其他特征提取过程,则删除嵌套层级数N中的各层嵌套层级对应的特征表。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种实现个性化推荐的装置,如图3所示,所述装置包括:
获取单元31,用于获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
处理单元32,用于确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
训练单元33,用于基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
推荐单元34,用于利用所述推荐模型实现个性化推荐。
本发明实施例提供的实现个性化推荐的装置,确定数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从数据源中,确定当前嵌套层级的目标数据表,并对目标数据表以及数据源中与目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到目标数据表中形成深度特征表,然后对深度特征表进行离散特征处理和/或窗口特征处理,形成针对目标数据表的特征表,并将特征表作为新的数据表添加到数据源中。利用第N个嵌套层级的目标数据表的特征表进行机器学习模型训练得到推荐模型,最后利用推荐模型实现个性化推荐,从而对用户完成个性化推荐。通过上述可知,本发明实施例提供的方案中通过对数据源中的各表进行N个嵌套层级的深度特征处理、离散特征处理和/或窗口特征处理便可完成特征的自动生成,并利用第N个嵌套层级的生成的特征得到用于个性化推荐的推荐模型,依据该推荐模型实现个性化推荐。而从特征提取到推荐的整个过程无需人工的介入,因此,本发明实施例提供的方案在实现个性化推荐时,减少人力成本的投入。
可选的,如图4所示,所述处理单元32包括:
第一编码模块321,用于对所述深度特征表的至少一个离散特征进行onehot编码;
第一添加模块322,用于将各离散特征的onehot编码作为新特征添加到所述深度特征表中。
可选的,如图4所示,所述处理单元32包括:
第二添加模块323,用于对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中。
可选的,如图4所示,所述处理单元32包括:
第三添加模块324,用于基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中。
可选的,如图4所示,所述第三添加模块324,用于采用预设的第一特征生成算法,对时间间隔为预设时长的两个时间特征对应的连续特征进行窗口特征提取。
可选的,如图4所示,所述处理单元32包括:
第一确定模块325,用于确定与所述目标数据表存在对应关系的前表,其中,所述前表中的一条数据对应目标数据表中的多条数据;
第四添加模块326,用于将所述前表中的至少一个非主键对应的数据作为新特征,添加到所述目标数据表,形成所述深度特征表。
可选的,如图4所示,所述处理单元32包括:
第二确定模块327,用于确定与所述目标数据表存在对应关系的后表,其中,所述后表中的多条数据对应所述目标数据表中的一条数据;
第五添加模块328,用于采用预设的第一特征生成算法对所述后表进行新特征生成,并将新特征添加到所述目标数据表,形成所述深度特征表。
可选的,如图4所示,所述处理单元32还包括:
第六添加模块329,用于在形成所述深度特征表之前,采用预设的第二特征生成算法对添加了新特征的目标数据表进行新特征生成,并将生成的新特征添加到所述添加了新特征的目标数据表中。
可选的,如图4所示,所述处理单元32包括:
第一指定模块3201,用于在当前嵌套层级为第一层级时,当前嵌套层级的目标数据表为用户在所述数据源中指定的数据表。
可选的,如图4所示,所述处理单元32包括:
第二指定模块3202,用于在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的前表,当前嵌套层级的目标数据表的后表为上一个嵌套层级的特征表;或,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的后表,当前嵌套层级的目标数据表的前表为上一个嵌套层级的特征表;其中,N≥M≥2,所述前表中的一条数据对应目标数据表中的多条数据;所述后表中的多条数据对应所述目标数据表中的一条数据。
可选的,所述目标数据表与其存在对应关系的数据表属于同一类别或不同类别。
可选的,所述类别至少包括:用户信息表、交易表和产品信息表。
可选的,各数据表均具有唯一主键和至少一个非主键,每一个所述数据表的非主键中包括有与其存在对应关系的数据表的主键。
可选的,如图4所示,所述装置还包括:
删除单元35,用于在所述训练单元基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型之后,删除所述数据源中各嵌套层级对应的特征表。
可选的,在对所述深度特征表进行离散特征处理和窗口特征处理时,按照先对所述深度特征表进行窗口特征处理,再对所述深度特征表进行离散特征处理的顺序执行。
可选的,如图4所示,所述装置还包括:
筛选单元36,用于确定所述特征表中所有特征的信息值IV;基于所述所有特征的信息值IV,对所述所有特征进行筛选。
可选的,如图4所示,所述训练单元33包括:
第三确定模块331,用于基于所述特征表确定训练样本;
调节模块332,用于采用贝叶斯优化算法调节不同迭代周期内的超参数;
训练模块333,用于在不同迭代周期内,通过预设的机器学习模型,采用所述训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到所述推荐模型。
可选的,所述预设的机器学习模型为如下内容中的任意一种:随机森林模型、神经网络模型和梯度下降树模型。
本发明实施例提供的实现个性化推荐的装置中,各个功能模块运行过程中所采用的方法详解可以参见图1、图2方法实施例的对应方法详解,在此不再赘述。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的实现个性化推荐的方法。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行上述中任意一项所述的实现个性化推荐的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本发明实施例公开了:
A1.一种实现个性化推荐的方法,包括:
获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
利用所述推荐模型实现个性化推荐。
A2.根据A1所述的方法,对所述深度特征表进行离散特征处理,包括:
对所述深度特征表的至少一个离散特征进行onehot编码;
将各离散特征的onehot编码作为新特征添加到所述深度特征表中。
A3.根据A1或A2所述的方法,对所述深度特征表进行离散特征处理,包括:
对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中。
A4.根据A1所述的方法,对所述深度特征表进行窗口特征处理,包括:
基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中。
A5.根据A4所述的方法,所述基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,包括:
采用预设的第一特征生成算法,对时间间隔为预设时长的两个时间特征对应的连续特征进行窗口特征提取。
A6.根据A1所述的方法,对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表,包括:
确定与所述目标数据表存在对应关系的前表,其中,所述前表中的一条数据对应目标数据表中的多条数据;
将所述前表中的至少一个非主键对应的数据作为新特征,添加到所述目标数据表,形成所述深度特征表。
A7.根据A1或A6所述的方法,对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表,包括:
确定与所述目标数据表存在对应关系的后表,其中,所述后表中的多条数据对应所述目标数据表中的一条数据;
采用预设的第一特征生成算法对所述后表进行新特征生成,并将新特征添加到所述目标数据表,形成所述深度特征表。
A8.根据A7所述的方法,在形成所述深度特征表之前,所述方法还包括:
采用预设的第二特征生成算法对添加了新特征的目标数据表进行新特征生成,并将生成的新特征添加到所述添加了新特征的目标数据表中。
A9.根据A1、A2、A4-A6和A8中任一所述的方法,所述从所述数据源中,确定当前嵌套层级的目标数据表,包括:
在当前嵌套层级为第一层级时,当前嵌套层级的目标数据表为用户在所述数据源中指定的数据表。
A10.根据A1、A2、A4-A6和A8中任一所述的方法,所述从所述数据源中,确定当前嵌套层级的目标数据表,包括:
在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的前表,当前嵌套层级的目标数据表的后表为上一个嵌套层级的特征表;
或,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的后表,当前嵌套层级的目标数据表的前表为上一个嵌套层级的特征表;
其中,N≥M≥2,所述前表中的一条数据对应目标数据表中的多条数据;所述后表中的多条数据对应所述目标数据表中的一条数据。
A11.根据A1、A2、A4-A6和A8中任一所述的方法,所述目标数据表与其存在对应关系的数据表属于同一类别或不同类别。
A12.根据A1、A2、A4-A6和A8中任一所述的方法,所述类别至少包括:用户信息表、交易表和产品信息表。
A13.根据A1、A2、A4-A6和A8中任一所述的方法,各数据表均具有唯一主键和至少一个非主键,每一个所述数据表的非主键中包括有与其存在对应关系的数据表的主键。
A14.根据A1、A2、A4-A6和A8中任一所述的方法,在所述基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型之后,所述方法还包括:
删除所述数据源中各嵌套层级对应的特征表。
A15.根据A1、A2、A4-A6和A8中任一所述的方法,在对所述深度特征表进行离散特征处理和窗口特征处理时,按照先对所述深度特征表进行窗口特征处理,再对所述深度特征表进行离散特征处理的顺序执行。
A16.根据A1、A2、A4-A6和A8中任一所述的方法,所述方法还包括:
确定所述特征表中所有特征的信息值IV;
基于所述所有特征的信息值IV,对所述所有特征进行筛选。
A17.根据A1、A2、A4-A6和A8中任一所述的方法,所述基于所述特征表进行机器学习模型训练,得到推荐模型,包括:
基于所述特征表确定训练样本;
采用贝叶斯优化算法调节不同迭代周期内的超参数;
在不同迭代周期内,通过预设的机器学习模型,采用所述训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到所述推荐模型。
A18.根据A17所述的方法,所述预设的机器学习模型为如下内容中的任意一种:随机森林模型、神经网络模型和梯度下降树模型。
B1.一种实现个性化推荐的装置,包括:
获取单元,用于获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
处理单元,用于确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
训练单元,用于基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
推荐单元,用于利用所述推荐模型实现个性化推荐。
B2.根据B1所述的装置,所述处理单元包括:
第一编码模块,用于对所述深度特征表的至少一个离散特征进行onehot编码;
第一添加模块,用于将各离散特征的onehot编码作为新特征添加到所述深度特征表中。
B3.根据B1或B2所述的装置,所述处理单元包括:
第二添加模块,用于对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中。
B4.根据B1所述的装置,所述处理单元包括:
第三添加模块,用于基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中。
B5.根据B4所述的装置,所述第三添加模块,用于采用预设的第一特征生成算法,对时间间隔为预设时长的两个时间特征对应的连续特征进行窗口特征提取。
B6.根据B1所述的装置,所述处理单元包括:
第一确定模块,用于确定与所述目标数据表存在对应关系的前表,其中,所述前表中的一条数据对应目标数据表中的多条数据;
第四添加模块,用于将所述前表中的至少一个非主键对应的数据作为新特征,添加到所述目标数据表,形成所述深度特征表。
B7.根据B1或B6所述的装置,所述处理单元包括:
第二确定模块,用于确定与所述目标数据表存在对应关系的后表,其中,所述后表中的多条数据对应所述目标数据表中的一条数据;
第五添加模块,用于采用预设的第一特征生成算法对所述后表进行新特征生成,并将新特征添加到所述目标数据表,形成所述深度特征表。
B8.根据B7所述的装置,所述处理单元还包括:
第六添加模块,用于在形成所述深度特征表之前,采用预设的第二特征生成算法对添加了新特征的目标数据表进行新特征生成,并将生成的新特征添加到所述添加了新特征的目标数据表中。
B9.根据B1、B2、B4-B6和B8中任一所述的装置,所述处理单元包括:
第一指定模块,用于在当前嵌套层级为第一层级时,当前嵌套层级的目标数据表为用户在所述数据源中指定的数据表。
B10.根据B1、B2、B4-B6和B8中任一所述的装置,所述处理单元包括:
第二指定模块,用于在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的前表,当前嵌套层级的目标数据表的后表为上一个嵌套层级的特征表;或,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的后表,当前嵌套层级的目标数据表的前表为上一个嵌套层级的特征表;其中,N≥M≥2,所述前表中的一条数据对应目标数据表中的多条数据;所述后表中的多条数据对应所述目标数据表中的一条数据。
B11.根据B1、B2、B4-B6和B8中任一所述的装置,所述目标数据表与其存在对应关系的数据表属于同一类别或不同类别。
B12.根据B1、B2、B4-B6和B8中任一所述的装置,所述类别至少包括:用户信息表、交易表和产品信息表。
B13.根据B1、B2、B4-B6和B8中任一所述的装置,各数据表均具有唯一主键和至少一个非主键,每一个所述数据表的非主键中包括有与其存在对应关系的数据表的主键。
B14.根据B1、B2、B4-B6和B8中任一所述的装置,所述装置还包括:
删除单元,用于在所述训练单元基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型之后,删除所述数据源中各嵌套层级对应的特征表。
B15.根据B1、B2、B4-B6和B8中任一所述的装置,在对所述深度特征表进行离散特征处理和窗口特征处理时,按照先对所述深度特征表进行窗口特征处理,再对所述深度特征表进行离散特征处理的顺序执行。
B16.根据B1、B2、B4-B6和B8中任一所述的装置,所述装置还包括:
筛选单元,用于确定所述特征表中所有特征的信息值IV;基于所述所有特征的信息值IV,对所述所有特征进行筛选。
B17.根据B1、B2、B4-B6和B8中任一所述的装置,所述训练单元包括:
第三确定模块,用于基于所述特征表确定训练样本;
调节模块,用于采用贝叶斯优化算法调节不同迭代周期内的超参数;
训练模块,用于在不同迭代周期内,通过预设的机器学习模型,采用所述训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到所述推荐模型。
B18.根据B17所述的装置,所述预设的机器学习模型为如下内容中的任意一种:随机森林模型、神经网络模型和梯度下降树模型。
C1、一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行A1至A18中任意一项所述的实现个性化推荐的方法。
D1、一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行A1至A18中任意一项所述的实现个性化推荐的方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (34)

1.一种实现个性化推荐的方法,其特征在于,包括:
获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
利用所述推荐模型实现个性化推荐;
其中,所述从所述数据源中,确定当前嵌套层级的目标数据表,包括:
在当前嵌套层级为第一层级时,当前嵌套层级的目标数据表为用户在所述数据源中指定的数据表;
或,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的前表,当前嵌套层级的目标数据表的后表为上一个嵌套层级的特征表;
或,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的后表,当前嵌套层级的目标数据表的前表为上一个嵌套层级的特征表;
其中,N≥M≥2,所述前表中的一条数据对应目标数据表中的多条数据;所述后表中的多条数据对应所述目标数据表中的一条数据。
2.根据权利要求1所述的方法,其特征在于,对所述深度特征表进行离散特征处理,包括:
对所述深度特征表的至少一个离散特征进行onehot编码;
将各离散特征的onehot编码作为新特征添加到所述深度特征表中。
3.根据权利要求1或2所述的方法,其特征在于,对所述深度特征表进行离散特征处理,包括:
对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中。
4.根据权利要求1所述的方法,其特征在于,对所述深度特征表进行窗口特征处理,包括:
基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中。
5.根据权利要求4所述的方法,其特征在于,所述基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,包括:
采用预设的第一特征生成算法,对时间间隔为预设时长的两个时间特征对应的连续特征进行窗口特征提取。
6.根据权利要求1所述的方法,其特征在于,对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表,包括:
确定与所述目标数据表存在对应关系的前表,其中,所述前表中的一条数据对应目标数据表中的多条数据;
将所述前表中的至少一个非主键对应的数据作为新特征,添加到所述目标数据表,形成所述深度特征表。
7.根据权利要求1或6所述的方法,其特征在于,对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表,包括:
确定与所述目标数据表存在对应关系的后表,其中,所述后表中的多条数据对应所述目标数据表中的一条数据;
采用预设的第一特征生成算法对所述后表进行新特征生成,并将新特征添加到所述目标数据表,形成所述深度特征表。
8.根据权利要求7所述的方法,其特征在于,在形成所述深度特征表之前,所述方法还包括:
采用预设的第二特征生成算法对添加了新特征的目标数据表进行新特征生成,并将生成的新特征添加到所述添加了新特征的目标数据表中。
9.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,所述目标数据表与其存在对应关系的数据表属于同一类别或不同类别。
10.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,所述类别至少包括:用户信息表、交易表和产品信息表。
11.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,各数据表均具有唯一主键和至少一个非主键,每一个所述数据表的非主键中包括有与其存在对应关系的数据表的主键。
12.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,在所述基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型之后,所述方法还包括:
删除所述数据源中各嵌套层级对应的特征表。
13.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,在对所述深度特征表进行离散特征处理和窗口特征处理时,按照先对所述深度特征表进行窗口特征处理,再对所述深度特征表进行离散特征处理的顺序执行。
14.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,所述方法还包括:
确定所述特征表中所有特征的信息值IV;
基于所述所有特征的信息值IV,对所述所有特征进行筛选。
15.根据权利要求1、2、4-6和8中任一所述的方法,其特征在于,所述基于第N个嵌套层级的目标数据表的特征表进行机器学习模型训练,得到推荐模型,包括:
基于所述特征表确定训练样本;
采用贝叶斯优化算法调节不同迭代周期内的超参数;
在不同迭代周期内,通过预设的机器学习模型,采用所述训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到所述推荐模型。
16.根据权利要求15所述的方法,其特征在于,所述预设的机器学习模型为如下内容中的任意一种:随机森林模型、神经网络模型和梯度下降树模型。
17.一种实现个性化推荐的装置,其特征在于,包括:
获取单元,用于获取数据源,其中,所述数据源包括多个数据表,各数据表均具有其各自的类别;
处理单元,用于确定所述数据源中的多个数据表的嵌套层级数N,依次对每个嵌套层级执行如下步骤:从所述数据源中,确定当前嵌套层级的目标数据表;对所述目标数据表以及所述数据源中与所述目标数据表存在对应关系的数据表,进行深度特征提取,并将提取的深度特征添加到所述目标数据表中,形成深度特征表;对所述深度特征表进行离散特征处理和/或窗口特征处理,形成针对所述目标数据表的特征表,并将所述特征表作为新的数据表添加到所述数据源中;N≥1;
训练单元,用于基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型;
推荐单元,用于利用所述推荐模型实现个性化推荐;
所述处理单元包括:
第一指定模块,用于在当前嵌套层级为第一层级时,当前嵌套层级的目标数据表为用户在所述数据源中指定的数据表;
第二指定模块,用于在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的前表,当前嵌套层级的目标数据表的后表为上一个嵌套层级的特征表;或,在当前特征嵌套层级为第M层级时,当前嵌套层级的目标数据表为上一个嵌套层级的目标数据表的后表,当前嵌套层级的目标数据表的前表为上一个嵌套层级的特征表;
其中,N≥M≥2,所述前表中的一条数据对应目标数据表中的多条数据;所述后表中的多条数据对应所述目标数据表中的一条数据。
18.根据权利要求17所述的装置,其特征在于,所述处理单元包括:
第一编码模块,用于对所述深度特征表的至少一个离散特征进行onehot编码;
第一添加模块,用于将各离散特征的onehot编码作为新特征添加到所述深度特征表中。
19.根据权利要求17或18所述的装置,其特征在于,所述处理单元包括:
第二添加模块,用于对所述深度特征表的至少一个离散特征中的每个离散特征,计算该离散特征取不同值时对应标签为预设值的概率值,将计算出的相应概率值添加到所述深度特征表中。
20.根据权利要求17所述的装置,其特征在于,所述处理单元包括:
第三添加模块,用于基于所述深度特征表的时间特征,对所述深度特征表的至少一个连续特征进行窗口特征提取,将窗口特征添加到所述深度特征表中。
21.根据权利要求20所述的装置,其特征在于,所述第三添加模块,用于采用预设的第一特征生成算法,对时间间隔为预设时长的两个时间特征对应的连续特征进行窗口特征提取。
22.根据权利要求17所述的装置,其特征在于,所述处理单元包括:
第一确定模块,用于确定与所述目标数据表存在对应关系的前表,其中,所述前表中的一条数据对应目标数据表中的多条数据;
第四添加模块,用于将所述前表中的至少一个非主键对应的数据作为新特征,添加到所述目标数据表,形成所述深度特征表。
23.根据权利要求17或22所述的装置,其特征在于,所述处理单元包括:
第二确定模块,用于确定与所述目标数据表存在对应关系的后表,其中,所述后表中的多条数据对应所述目标数据表中的一条数据;
第五添加模块,用于采用预设的第一特征生成算法对所述后表进行新特征生成,并将新特征添加到所述目标数据表,形成所述深度特征表。
24.根据权利要求23所述的装置,其特征在于,所述处理单元还包括:
第六添加模块,用于在形成所述深度特征表之前,采用预设的第二特征生成算法对添加了新特征的目标数据表进行新特征生成,并将生成的新特征添加到所述添加了新特征的目标数据表中。
25.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,所述目标数据表与其存在对应关系的数据表属于同一类别或不同类别。
26.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,所述类别至少包括:用户信息表、交易表和产品信息表。
27.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,各数据表均具有唯一主键和至少一个非主键,每一个所述数据表的非主键中包括有与其存在对应关系的数据表的主键。
28.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,所述装置还包括:
删除单元,用于在所述训练单元基于第N个嵌套层级的目标数据表的特征表,进行机器学习模型训练,得到推荐模型之后,删除所述数据源中各嵌套层级对应的特征表。
29.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,在对所述深度特征表进行离散特征处理和窗口特征处理时,按照先对所述深度特征表进行窗口特征处理,再对所述深度特征表进行离散特征处理的顺序执行。
30.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,所述装置还包括:
筛选单元,用于确定所述特征表中所有特征的信息值IV;基于所述所有特征的信息值IV,对所述所有特征进行筛选。
31.根据权利要求17、18、20-22和24中任一所述的装置,其特征在于,所述训练单元包括:
第三确定模块,用于基于所述特征表确定训练样本;
调节模块,用于采用贝叶斯优化算法调节不同迭代周期内的超参数;
训练模块,用于在不同迭代周期内,通过预设的机器学习模型,采用所述训练样本和贝叶斯优化算法调节的超参数进行模型训练,得到所述推荐模型。
32.根据权利要求31所述的装置,其特征在于,所述预设的机器学习模型为如下内容中的任意一种:随机森林模型、神经网络模型和梯度下降树模型。
33.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求16中任意一项所述的实现个性化推荐的方法。
34.一种存储管理设备,其特征在于,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行权利要求1至权利要求16中任意一项所述的实现个性化推荐的方法。
CN201910759846.6A 2019-08-16 2019-08-16 一种实现个性化推荐的方法及装置 Active CN110457329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910759846.6A CN110457329B (zh) 2019-08-16 2019-08-16 一种实现个性化推荐的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910759846.6A CN110457329B (zh) 2019-08-16 2019-08-16 一种实现个性化推荐的方法及装置

Publications (2)

Publication Number Publication Date
CN110457329A CN110457329A (zh) 2019-11-15
CN110457329B true CN110457329B (zh) 2022-05-06

Family

ID=68487331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910759846.6A Active CN110457329B (zh) 2019-08-16 2019-08-16 一种实现个性化推荐的方法及装置

Country Status (1)

Country Link
CN (1) CN110457329B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104422B (zh) * 2019-12-10 2023-08-29 北京明略软件系统有限公司 一种数据推荐模型的训练方法、装置、设备及存储介质
CN111143685B (zh) * 2019-12-30 2024-01-26 第四范式(北京)技术有限公司 一种商品推荐方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984726A (zh) * 2014-05-16 2014-08-13 上海新炬网络技术有限公司 一种数据库执行计划的局部修正方法
CN107622427A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 深度学习的方法、装置及系统
CN108052952A (zh) * 2017-12-19 2018-05-18 中山大学 一种基于特征提取的服装相似度判定方法及其系统
CN108090516A (zh) * 2017-12-27 2018-05-29 第四范式(北京)技术有限公司 自动生成机器学习样本的特征的方法及系统
CN108228861A (zh) * 2018-01-12 2018-06-29 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及系统
CN110097193A (zh) * 2019-04-28 2019-08-06 第四范式(北京)技术有限公司 训练模型的方法及系统和预测序列数据的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991101B (zh) * 2016-01-21 2021-02-02 阿里巴巴集团控股有限公司 一种数据表分析处理的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984726A (zh) * 2014-05-16 2014-08-13 上海新炬网络技术有限公司 一种数据库执行计划的局部修正方法
CN107622427A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 深度学习的方法、装置及系统
CN108052952A (zh) * 2017-12-19 2018-05-18 中山大学 一种基于特征提取的服装相似度判定方法及其系统
CN108090516A (zh) * 2017-12-27 2018-05-29 第四范式(北京)技术有限公司 自动生成机器学习样本的特征的方法及系统
CN108228861A (zh) * 2018-01-12 2018-06-29 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及系统
CN110097193A (zh) * 2019-04-28 2019-08-06 第四范式(北京)技术有限公司 训练模型的方法及系统和预测序列数据的方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Boosting neural network feature extraction by reduced accuracy activation functions;A. Raudys;《Pattern Recognition》;20031231;第1343-1354页 *
Learning Tolerance Relations by Boolean Descriptors: Automatic Feature Extraction from Data Tables;Andrzej Skowron et al.;《ResearchGate》;20130118;第1-7页 *
Web数据库特征表示和抽取方法的研究;赵琳;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20130315;第2013年卷(第03期);第I138-909页 *
基于随机森林和转导推理的特征提取方法;邱一卉等;《厦门大学学报(自然科学版)》;20100515(第03期);第333-338页 *
嵌套数据记录列表页的Web信息抽取;李贵 等;《郑州大学学报(理学版)》;20110630;第43卷(第02期);第20-23页 *

Also Published As

Publication number Publication date
CN110457329A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
US11893466B2 (en) Systems and methods for model fairness
CN111199343B (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
Patil et al. Comparison of C5. 0 & CART classification algorithms using pruning technique
CN110717535B (zh) 一种基于数据分析处理系统的自动建模方法及系统
US11366806B2 (en) Automated feature generation for machine learning application
CN113536097B (zh) 基于自动特征分组的推荐方法及装置
CN110457329B (zh) 一种实现个性化推荐的方法及装置
CN111967971A (zh) 银行客户数据处理方法及装置
CN109583782B (zh) 支持多数据源的汽车金融风控方法
CN109615504A (zh) 产品推荐方法、装置、电子设备和计算机可读存储介质
US20190370600A1 (en) Accessible machine learning
US20240152818A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
US11803464B2 (en) System for automatic identification and selection of optimization metrics and accompanying models in experimentation platforms
US11775887B2 (en) Methods and systems for processing data having varied temporal characteristics to generate predictions related to management arrangements using random forest classifiers
CN116228284A (zh) 货品需求预测方法、训练方法、装置、计算机系统及介质
CN112927012A (zh) 营销数据的处理方法及装置、营销模型的训练方法及装置
Mauritsius et al. Customer churn prediction models for PT. XYZ insurance
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
Díaz et al. Some experiences applying fuzzy logic to economics
CN112506930A (zh) 一种基于机器学习技术的数据洞察平台
CN111984842A (zh) 银行客户数据处理方法及装置
CN111753992A (zh) 筛选方法和筛选系统
Brešić Knowledge acquisition in databases
Luna et al. Prediction of Missing Values in Adult Data Set of UCI Machine Learning: A Case of Study
Vlahova et al. Collecting a Custom Database for Image Classification in Recommender Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant