CN112907284A - 一种目标特征组合的构建方法和装置 - Google Patents

一种目标特征组合的构建方法和装置 Download PDF

Info

Publication number
CN112907284A
CN112907284A CN202110181919.5A CN202110181919A CN112907284A CN 112907284 A CN112907284 A CN 112907284A CN 202110181919 A CN202110181919 A CN 202110181919A CN 112907284 A CN112907284 A CN 112907284A
Authority
CN
China
Prior art keywords
combined
field
feature
features
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110181919.5A
Other languages
English (en)
Inventor
付金伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110181919.5A priority Critical patent/CN112907284A/zh
Publication of CN112907284A publication Critical patent/CN112907284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0245Surveys
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种目标特征组合的构建方法和装置,属于CTR预估技术领域。所述方法包括:从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。本申请提高了CTR预估的准确性。

Description

一种目标特征组合的构建方法和装置
技术领域
本申请涉及CTR预估技术领域,尤其涉及一种目标特征组合的构建方法和装置。
背景技术
网络广告是一种通过网络传递到互联网用户的高科技广告运作方式,目前投放广告一般是使用在网页上提供的广告位登载设定有URL(Uniform Resource Locator,统一资源定位符)链接的互联网广告,当用户点击该互联网广告时,会跳转到该互联网广告的广告网页,这样广告业主达成推送该广告的目的。对一组广告的CTR(Click Through Rate,网络广告的点击率)预估的准确性决定了DSP(Demand-Side Platform,需求方平台)投放该组广告时的出价,一般CTR预估值越高,则出价越高,反之出价越低。
目前业界针对CTR预估问题大量使用的是广义线性模型LR(LogisticRegression,逻辑回归)+人工特征工程。LR使用了Logit变换将函数值映射到0-1区间,映射后的函数值就是CTR的预估值。LR作为线性模型很容易并行化,可以轻松的处理上亿条训练样本,性能较高,而且预测结果可解释性强。但由于线性模型的学习能力有限,该技术只能对字段特征进行处理,所以表达能力有限,如果要增强表达能力,则需要引入大量的领域知识来人工设计特征以及特征之间的交叉组合,从而间接补充算法的非线性学习能力,消耗大量的人力和机器资源,且需要大量的经验积累,在不同领域迁移后难以保证预测的效果。
此外,基于超高维度的深度学习模型也别广泛用于CTR预估领域,例如超高维度的分解机模型以及宽度深度模型等,自动学习高阶属性的权值,不需要通过人工的方式选取特征来做交叉。但该技术严重缺乏对CTR预估结果的合理分析和解释,因而,这种CTR预估方法难以给出预测理由也难以进行优化调整。
发明内容
本申请实施例的目的在于提供一种目标特征组合的构建方法和装置,以解决CTR预估不准确问题。具体技术方案如下:
第一方面,提供了一种目标特征组合的构建方法,所述方法包括:
从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
可选地,从数据集中获取多个字段特征之后,所述方法还包括:确定所述字段特征对应的独热码;
所述通过对多个所述字段特征进行组合得到多个组合特征包括:通过对多个独热码进行组合得到多个组合特征编码;
所述通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征包括:通过所述遗传方案确定所述组合特征编码对应的适应性函数值;选取适应性函数值大于第一预设阈值的第一组合特征值和适应性函数值大于第二预设阈值的第二组合特征值,其中,所述第一预设阈值与所述第二预设阈值不同。
可选地,所述将所述第一组合特征和所述第二组合特征进行交叉包括:
将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到交换后的第三组合特征和第四组合特征,其中,所述第一组合特征和所述第二组合特征中没有重复的字段特征;
在所述第三组合特征或所述第四组合特征符合期望的情况下,保留所述第三组合特征或所述第四组合特征。
可选地,所述将所述第一组合特征进行变异包括:
将所述第一组合特征中的至少一个字段特征更换为目标字段特征,其中,更换后的第一组合特征并未出现过。
可选地,所述确定所述字段特征对应的独热码包括:
在所述字段特征为连续特征的情况下,确定所述字段特征所属的类别;
确定所述类别对应的多个连续的分区,其中,每个所述分区中包含多个连续的数值,每个所述分区具有对应的数字化编码;
根据所述字段特征的值确定所述字段特征所属的分区;
根据所述字段特征所属的分区确定所述字段特征对应的独热码。
可选地,从数据集中获取多个字段特征之前,所述方法还包括:
获取广告信息和用户属性信息,其中,所述广告信息包括广告的点击信息和浏览过所述广告的用户标识,所述用户属性信息包括所述用户标识和用户个人信息;
根据所述用户标识,将具有交集的广告信息和用户属性信息作为所述数据集。
可选地,所述通过对至少两个独热码进行组合得到一个组合特征编码包括:
将至少两个独热码进行与、或、非、拼接中的至少一个逻辑运算操作,得到所述组合特征编码。
第二方面,提供了一种目标特征组合的构建装置,所述装置包括:
获取模块,用于从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
组合模块,用于通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
选取模块,用于通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
交叉变异模块,用于将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的目标特征组合的构建方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的目标特征组合的构建方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种目标特征组合的构建方法,所述方法包括:服务器从数据集中获取多个字段特征,通过对多个所述字段特征进行组合,得到多个组合特征,然后通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,最后将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。本申请在CTR预估领域增加了组合特征,提高了CTR预估的准确性,同时,由于各组合特征都具有明确的含义,因此提高了组合特征的可解释性,采用遗传算法也提高了获取组合特征的效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简字段地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标特征组合的构建方法硬件环境示意图;
图2为本申请实施例提供的一种目标特征组合的构建的方法流程图;
图3为本申请实施例提供的一种目标特征组合的构建装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“字段元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种目标特征组合的构建方法的实施例。
可选地,在本申请实施例中,上述目标特征组合的构建方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种目标特征组合的构建方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种目标特征组合的构建方法,可以应用于服务器,用于针对CTR预估提供目标特征组合。
下面将结合具体实施方式,对本申请实施例提供的一种目标特征组合的构建方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:从数据集中获取多个字段特征。
其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息。
在本申请实施例中,广告业务会通过网络广告投放平台,例如通过网站上的广告横幅、文本链接、多媒体等方法,在互联网刊登或发布广告,用户可以在不点击该广告的情况下进行简单浏览,也可以点击该广告跳转至广告页面进行深入阅读。
后端会持续监督该广告的广告信息,广告信息包括广告的点击信息和浏览过所述广告的用户标识,点击信息为该广告是否点击,用户标识可以为用户ID。服务器中预存有用户属性信息,用户属性信息包括用户标识和用户个人信息,用户个人信息可以为用户性别、年龄、所属地域、广告浏览时刻等。
广告信息和用户属性信息红都包含有用户标识,服务器可以根据所述用户标识,确定广告信息和用户属性信息的交集,并将该交集作为数据集。
示例性的,数据集中的内容为:
性别 年龄 时刻 是否点击
男 24 20时 是
女 18 13时 否。
如上述所示,数据集中包括两条日志记录,每条日志记录包括四个字段,字段特征为日志记录中的一个字段对应的信息,例如:男、24、20时或“是”。
步骤202:通过对多个所述字段特征进行组合,得到多个组合特征。其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的。
在本申请实施例,服务器获取到多个字段特征之后,需要对多个字段特征进行组合,具体为将至少两个字段特征组合为一个组合特征,采用这种方式可以得到多个组合特征。
步骤203:通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征。
服务器确定遗传方案中的适应性函数,该适应性函数为组合特征和目标特征之间的皮尔逊相关系数,目标特征为日志记录中的是否点击,即“是”或“否”。服务器通过适应性函数从多个所述组合特征中选取出第一组合特征和第二组合特征。其中,第一组合特征和第二组合特征不同。
步骤204:将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
服务器通过遗传方案,对第一组合特征和第二组合特征进行交叉、或变异、或先交叉后变异,得到目标特征组合。
本申请基于遗传方案提高了特征组合的效率,无需通过人工进行特征设计,并且由于字段特征具有清楚明确的含义,因此组合特征的含义也清晰,相较于深度学习模型,本申请能够对CTR预估结果给出合理的分析和解释,有利于后续进行业务的开展和模型的调优,提高了CTR预估领域的准确性、可解释性和预估效率。
作为一种可选的实施方式,从数据集中获取多个字段特征之后,所述方法还包括:确定所述字段特征对应的独热码;所述通过对多个所述字段特征进行组合得到多个组合特征包括:通过对至少两个独热码进行组合得到一个组合特征编码;所述通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征包括:通过所述遗传方案确定所述组合特征编码对应的适应性函数值;选取适应性函数值大于第一预设阈值的第一组合特征值和适应性函数值大于第二预设阈值的第二组合特征值。
字段特征可以分为连续特征和离散特征,连续特征是特征值能够连续的特征,例如年龄、工资等。离散特征是特征值不能够连续的特征,例如性别、媒体等。
独热编码,即one-hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他比特全为0的一种码制。并且独热码能够起到扩充特征的作用。本申请可以利用独热编码表示所获取的每一特征,作为每一个特征对应的独热码特征。在字段特征为离散特征时,离散特征可以直接用独热码进行表示,例如,字段特征为性别,而性别包括男和女,则可以用01表示男,用10表示女。字段特征为是或否,则可以用1表示“是”,用0表示“否”。
在字段特征为连续特征时,所述得到该字段特征的独热码的方法包括:在所述字段特征为连续特征的情况下,确定所述字段特征所属的类别;确定所述类别对应的多个连续的分区,其中,每个所述分区中包含多个连续的数值,每个所述分区具有对应的数字化编码;根据所述字段特征的值确定所述字段特征所属的分区;根据所述字段特征所属的分区确定所述字段特征对应的独热码。
在字段特征为连续特征时,通过分箱法对字段特征进行分类得到离散特征,然后再用独热码表示得到的离散特征。分箱法具体为:服务器确定字段特征所属的类别,然后确定该类别对应的多个连续的分区,每个分区表示一个离散特征,每个分区包含多个连续的特征值,该多个特征值均可以采用一个数字化编码进行表示。服务器确定字段特征对应的特征值,然后根据各分区包含的多个特征值,将包含字段特征对应的特征值的分区作为字段特征所属的分区,并将该分区对应的数字化编码作为该字段特征的独热码。
示例性的,字段特征为24岁,则该字段特征所属的类别为年龄,年龄对应的各分区为:少年(0-18)、中年(19-60)、老年(60以上),其中,001表示少年,010表示中年,100表示老年。24属于中年(19-60),则24的独热码为010。
字段特征为20时,则该字段特征所属的类别为时刻,将时刻离散为:上午(6-12点)、下午(12-18)、晚上(18-24)、凌晨(0-6),用0001表示上午,0010表示下午,0100表示晚上,1000表示凌晨,则20时的独热码为0100。
服务器确定每个字段特征对应的独热码后,由于需要通过多个多个字段特征得到组合特征,因此,服务器需要通过对至少两个独热码进行组合得到一个组合特征编码。具体的,服务器从多个独热码中选取n个独热码,其中,2<n<M,其中,M为独热码的最大数量。n个独热码的选取方式可以为服务器随机选取,也可以为根据预先设定的数量进行获取。
服务器对多个独热码进行与、或、非、拼接等逻辑运算方案中的至少一个操作,得到组合特征编码。示例性的,若操作方式为拼接,字段特征分别为年龄和时刻,则24岁-20时的组合特征为中年-晚上,可以用0100100表示。18岁-13时的组合特征为少年-下午,可以用0010010表示。
服务器得到预计的多个组合特征编码后,通过这些组合特征编码构建初始化种群,然后通过所述适应性函数确定每个组合特征编码对应的适应性函数值,然后选取出适应性函数值大于第一预设阈值K1的适应性函数值对应的组合特征,作为第一组合特征,选取出适应性函数值大于第二预设阈值K2的适应性函数值对应的组合特征,作为第二组合特征。示例性的,选取出的第一组合特征为5岁-晚上,第二组合特征为中年-本科。
作为一种可选的实施方式,所述将所述第一组合特征和所述第二组合特征进行交叉包括:将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到交换后的第三组合特征和第四组合特征,其中,所述第一组合特征和所述第二组合特征中没有重复的字段特征;在所述第三组合特征或所述第四组合特征符合期望的情况下,保留所述第三组合特征或所述第四组合特征。
在本申请实施例中,第一组合特征为5岁-晚上,第二组合特征为中年-本科,服务器将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到两个新的组合特征:第三组合特征5岁-本科和第四组合特征中年-晚上。服务器判断第三组合特征或第四组合特征是否符合实际期望,若符合实际期望,表示第三组合特征和第四组合特征为新的组合特征,可以将该组合特征进行保留,并保存为1;若不符合实际期望,则可以舍弃该组合特征,保存为0。
示例性的,第三组合特征5岁-本科在实际中的可能性是很小的,则第三组合特征进行舍弃。
可选地,第一组合特征和第二组合特征中并没有重复的字段特征,否则第一组合特征和第二组合特征交叉后得到的组合特征可能并没有发生改变,交叉后并没有任何意义。
作为一种可选的实施方式,所述将所述第一组合特征进行变异包括:将所述第一组合特征中的至少一个字段特征更换为目标字段特征,其中,更换后的第一组合特征并未出现过。
在本申请实施例中,第一组合特征中包含至少两个字段特征,服务器将至少一个字段特征更换为目标字段特征,更换后的包含该目标字段特征的组合特征并没有在之前的组合特征中出现过,这样变异后的组合特征为新的组合特征。
服务器进行组合特征之间的交叉变异后得到新的组合特征,然后继续通过遗传算法确定每个新的组合特征的适应函数值,然后选取适应函数值大于第三预设阈值K3的组合特征,作为适应函数值最大的组合特征。服务器可以不断的进行组合特征之间的交叉变异,直至得到预设数目个组合特征。
本申请在CTR预估领域增加了组合特征,提高了CTR预估的准确性,同时,由于各组合特征都具有明确的含义,因此提高了组合特征的可解释性,采用遗传算法也提高了获取组合特征的效率。
可选的,本申请实施例还提供了一种目标特征组合的构建方法的处理流程,具体步骤如下。
步骤1.根据广告信息和用户属性信息构建数据集。
步骤2.从数据集中获取多个字段特征,并确定所述字段特征对应的独热码。
步骤3.通过对至少两个独热码进行组合得到一个组合特征编码。
步骤4.设定遗传算法中的适应性函数。
步骤5.通过适应性函数得到第一组合特征和第二组合特征。
步骤6.对第一组合特征和第二组合特征进行交叉变异,得到目标组合特征。
基于相同的技术构思,本申请实施例还提供了一种目标特征组合的构建装置,如图3所示,该装置包括:
第一获取模块301,用于从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
组合模块302,用于通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
选取模块303,用于通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
交叉变异模块304,用于将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
可选地,从数据集中获取多个字段特征之后,所述装置还包括:
确定模块,用于确定所述字段特征对应的独热码;
组合模块302包括:
组合单元,用于通过对多个独热码进行组合得到多个组合特征编码;
选取模块303包括:
第一确定单元,用于通过所述遗传方案确定所述组合特征编码对应的适应性函数值;
选取单元,用于选取适应性函数值大于第一预设阈值的第一组合特征值和适应性函数值大于第二预设阈值的第二组合特征值,其中,所述第一预设阈值与所述第二预设阈值不同。
可选地,交叉变异模块304包括:
交换单元,用于将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到交换后的第三组合特征和第四组合特征,其中,所述第一组合特征和所述第二组合特征中没有重复的字段特征;
保留单元,用于在所述第三组合特征或所述第四组合特征符合期望的情况下,保留所述第三组合特征或所述第四组合特征。
可选地,交叉变异模块304包括:
更换单元,用于将所述第一组合特征中的至少一个字段特征更换为目标字段特征,其中,更换后的第一组合特征并未出现过。
可选地,确定模块包括:
第二确定单元,用于在所述字段特征为连续特征的情况下,确定所述字段特征所属的类别;
第三确定单元,用于确定所述类别对应的多个连续的分区,其中,每个所述分区中包含多个连续的数值,每个所述分区具有对应的数字化编码;
第四确定单元,用于根据所述字段特征的值确定所述字段特征所属的分区;
第五确定单元,用于根据所述字段特征所属的分区确定所述字段特征对应的独热码。
可选地,该装置还包括:
第二获取模块,用于获取广告信息和用户属性信息,其中,所述广告信息包括广告的点击信息和浏览过所述广告的用户标识,所述用户属性信息包括所述用户标识和用户个人信息;
作为模块,用于根据所述用户标识,将具有交集的广告信息和用户属性信息作为所述数据集。
可选地,组合模块302包括:
操作单元,用于将至少两个独热码进行与、或、非、拼接中的至少一个逻辑运算操作,得到所述组合特征编码。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器403、处理器401、通信接口402及通信总线404,存储器403中存储有可在处理器401上运行的计算机程序,存储器403、处理器401通过通信接口402和通信总线404进行通信,处理器401执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码:
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理字段元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子字段元或其组合中。
对于软件实现,可通过执行本文所述功能的字段元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的字段元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和字段元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或字段元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的字段元可以是或者也可以不是物理上分开的,作为字段元显示的部件可以是或者也可以不是物理字段元,即可以位于一个地方,或者也可以分布到多个网络字段元上。可以根据实际的需要选择其中的部分或者全部字段元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能字段元可以集成在一个处理字段元中,也可以是各个字段元字段独物理存在,也可以两个或两个以上字段元集成在一个字段元中。
所述功能如果以软件功能字段元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种目标特征组合的构建方法,其特征在于,所述方法包括:
从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
2.根据权利要求1所述的方法,其特征在于,
从数据集中获取多个字段特征之后,所述方法还包括:确定所述字段特征对应的独热码;
所述通过对多个所述字段特征进行组合得到多个组合特征包括:通过对多个独热码进行组合得到多个组合特征编码;
所述通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征包括:通过所述遗传方案确定所述组合特征编码对应的适应性函数值;选取适应性函数值大于第一预设阈值的第一组合特征值和适应性函数值大于第二预设阈值的第二组合特征值,其中,所述第一预设阈值与所述第二预设阈值不同。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一组合特征和所述第二组合特征进行交叉包括:
将所述第一组合特征中的字段特征和所述第二组合特征的字段特征进行交换,得到交换后的第三组合特征和第四组合特征,其中,所述第一组合特征和所述第二组合特征中没有重复的字段特征;
在所述第三组合特征或所述第四组合特征符合期望的情况下,保留所述第三组合特征或所述第四组合特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一组合特征进行变异包括:
将所述第一组合特征中的至少一个字段特征更换为目标字段特征,其中,更换后的第一组合特征并未出现过。
5.根据权利要求2所述的方法,其特征在于,所述确定所述字段特征对应的独热码包括:
在所述字段特征为连续特征的情况下,确定所述字段特征所属的类别;
确定所述类别对应的多个连续的分区,其中,每个所述分区中包含多个连续的数值,每个所述分区具有对应的数字化编码;
根据所述字段特征的值确定所述字段特征所属的分区;
根据所述字段特征所属的分区确定所述字段特征对应的独热码。
6.根据权利要求1所述的方法,其特征在于,从数据集中获取多个字段特征之前,所述方法还包括:
获取广告信息和用户属性信息,其中,所述广告信息包括广告的点击信息和浏览过所述广告的用户标识,所述用户属性信息包括所述用户标识和用户个人信息;
根据所述用户标识,将具有交集的广告信息和用户属性信息作为所述数据集。
7.根据权利要求2所述的方法,其特征在于,所述通过对至少两个独热码进行组合得到一个组合特征编码包括:
将至少两个独热码进行与、或、非、拼接中的至少一个逻辑运算操作,得到所述组合特征编码。
8.一种目标特征组合的构建装置,其特征在于,所述装置包括:
获取模块,用于从数据集中获取多个字段特征,其中,所述数据集中包含与广告关联的多条日志记录,每个所述字段特征指示所述日志记录中的一个字段对应的信息;
组合模块,用于通过对多个所述字段特征进行组合,得到多个组合特征,其中,所述每个所述组合特征是对至少两个所述字段特征进行组合得到的;
选取模块,用于通过遗传方案从多个所述组合特征中选取出第一组合特征和第二组合特征,其中,第一组合特征和第二组合特征不同;
交叉变异模块,用于将所述第一组合特征和所述第二组合特征进行交叉或变异中的至少一个操作,得到目标特征组合。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202110181919.5A 2021-02-09 2021-02-09 一种目标特征组合的构建方法和装置 Pending CN112907284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110181919.5A CN112907284A (zh) 2021-02-09 2021-02-09 一种目标特征组合的构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110181919.5A CN112907284A (zh) 2021-02-09 2021-02-09 一种目标特征组合的构建方法和装置

Publications (1)

Publication Number Publication Date
CN112907284A true CN112907284A (zh) 2021-06-04

Family

ID=76123353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110181919.5A Pending CN112907284A (zh) 2021-02-09 2021-02-09 一种目标特征组合的构建方法和装置

Country Status (1)

Country Link
CN (1) CN112907284A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN111538767A (zh) * 2020-05-28 2020-08-14 支付宝(杭州)信息技术有限公司 数据处理方法、装置、设备及存储介质
CN111860986A (zh) * 2020-07-07 2020-10-30 北京明略昭辉科技有限公司 一种预测模型的训练方法、广告点击预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN111538767A (zh) * 2020-05-28 2020-08-14 支付宝(杭州)信息技术有限公司 数据处理方法、装置、设备及存储介质
CN111860986A (zh) * 2020-07-07 2020-10-30 北京明略昭辉科技有限公司 一种预测模型的训练方法、广告点击预测方法及装置

Similar Documents

Publication Publication Date Title
Taieb et al. Hierarchical probabilistic forecasting of electricity demand with smart meter data
Vargiu et al. Exploiting web scraping in a collaborative filtering-based approach to web advertising.
CN105320766A (zh) 信息推送方法和装置
US20140156379A1 (en) Method and Apparatus for Hierarchical-Model-Based Creative Quality Scores
CN106850750B (zh) 一种实时推送信息的方法和装置
CN110119474A (zh) 推荐模型训练方法、基于推荐模型的预测方法及装置
CN103106285A (zh) 一种基于信息安全专业社交网络平台的推荐算法
US11741358B2 (en) Application recommendation machine learning system
CN102279963B (zh) 两级预算合理性检查提醒及自动优化的方法、设备和系统
CN109242654A (zh) 一种物品推荐方法及系统
CN111028087A (zh) 信息展示方法、装置和设备
Ching et al. A higher-order Markov model for the Newsboy's problem
WO2023142520A1 (zh) 信息推荐方法及装置
Liang et al. Collaborative filtering based on information-theoretic co-clustering
CN113761348A (zh) 一种信息推荐方法、装置、电子设备和存储介质
Zhan et al. Identifying market structure to monitor product competition using a consumer-behavior-based intelligence model
CN108965360B (zh) 一种推荐数据处理方法及服务器、计算机存储介质
US10402855B2 (en) Advertisement distribution device and advertisement distribution method
US10331713B1 (en) User activity analysis using word clouds
Alemu Causality links between consumer and producer price inflation in South Africa
CN111680213A (zh) 信息推荐方法、数据处理方法及装置
KR102238438B1 (ko) 규격화된 광고상품을 이용한 광고상품거래 서비스 제공 시스템
CN112015970A (zh) 产品推荐方法、相关设备及计算机存储介质
CN112907284A (zh) 一种目标特征组合的构建方法和装置
KR101990502B1 (ko) 범용화된 정보 추출 방법 및 이를 적용한 디바이스

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination