CN110516815A - 人工智能推荐模型的特征处理方法、装置及电子设备 - Google Patents

人工智能推荐模型的特征处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110516815A
CN110516815A CN201910810105.6A CN201910810105A CN110516815A CN 110516815 A CN110516815 A CN 110516815A CN 201910810105 A CN201910810105 A CN 201910810105A CN 110516815 A CN110516815 A CN 110516815A
Authority
CN
China
Prior art keywords
feature
artificial intelligence
recommended models
group mark
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910810105.6A
Other languages
English (en)
Inventor
张亚霏
钟俊葳
夏锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910810105.6A priority Critical patent/CN110516815A/zh
Publication of CN110516815A publication Critical patent/CN110516815A/zh
Priority to JP2021561988A priority patent/JP7206419B2/ja
Priority to PCT/CN2020/103256 priority patent/WO2021036589A1/zh
Priority to US17/491,435 priority patent/US20220020064A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种人工智能推荐模型的特征处理方法、装置、电子设备及存储介质;人工智能推荐模型的特征处理方法包括:获取输入数据,将所述输入数据的数据结构转换为统一的样本结构;确定与人工智能推荐模型对应的特征组标识及特征提取函数;根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值;根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。通过本发明,能够对不同种类的输入数据进行统一的特征提取,提升了特征的强一致性,并且提升了特征提取的高效性和灵活性。

Description

人工智能推荐模型的特征处理方法、装置及电子设备
技术领域
本发明涉及人工智能技术,尤其涉及一种人工智能推荐模型的特征处理方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。机器学习(ML,Machine Learning)是一门多领域交叉学科,是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及各个领域。
对于依赖机器学习构建的人工智能推荐模型如广告推荐模型,在使用过程中涉及到训练和应用两个方面。在相关技术提供的方案中,通常是在离线情况下,从保存在日志的训练数据中提取特征,从而进行模型训练,并将训练好的模型推送到线上的模型服务,然后,从线上的待测数据中提取特征,并输入至模型服务得到推荐结果。在上述方案中,离线和在线的过程分隔,离线的特征提取过程与在线的特征提取过程可能存在潜在的差异,导致内容相同的数据在离线情况下和在线情况下,提取出的特征可能不一致,特征的强一致性差。
发明内容
本发明实施例提供一种人工智能推荐模型的特征处理方法、装置、电子设备及存储介质,能够保证不同情况下提取出的特征的强一致性,提升特征提取的灵活性和高效性。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种人工智能推荐模型的特征处理方法,包括:
获取输入数据,将所述输入数据的数据结构转换为统一的样本结构;
确定与人工智能推荐模型对应的特征组标识及特征提取函数;
根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值;
根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。
本发明实施例提供一种人工智能推荐模型的特征处理装置,包括:
转换模块,用于获取输入数据,将所述输入数据的数据结构转换为统一的样本结构;
函数确定模块,用于确定与人工智能推荐模型对应的特征组标识及特征提取函数;
特征提取模块,用于根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值;
构建模块,用于根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的人工智能推荐模型的特征处理方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的人工智能推荐模型的特征处理方法。
本发明实施例具有以下有益效果:
本发明实施例将输入数据的数据结构转换为统一的样本结构,根据特征提取函数对转换后的输入数据进行特征提取处理,得到包括特征组标识、特征标识及特征值的处理结果,再根据处理结果构建人工智能推荐模型的样本,本发明实施例克服了来源不同的输入数据的数据结构差异,并通过特征提取函数对输入数据进行统一处理,提升了特征提取的灵活性和高效性,保证了样本中特征的强一致性。
附图说明
图1是相关技术提供的特征提取方案的一个结构示意图;
图2是本发明实施例提供的人工智能推荐模型的特征处理系统的一个可选的结构示意图;
图3是本发明实施例提供的服务器的一个可选的结构示意图;
图4A是本发明实施例提供的人工智能推荐模型的特征处理方法的一个可选的流程示意图;
图4B是本发明实施例提供的人工智能推荐模型的特征处理方法的另一个可选的流程示意图;
图4C是本发明实施例提供的确定与人工智能推荐模型对应的特征组标识及特征提取函数的流程示意图;
图4D是本发明实施例提供的根据特征提取函数对转换后的输入数据进行特征提取处理,得到输入数据中的特征组标识、特征标识及特征值的流程示意图;
图4E是本发明实施例提供的根据特征组标识、特征标识及特征值,构建人工智能推荐模型的样本的流程示意图;
图5是本发明实施例提供的特征提取架构的一个对比示意图;
图6是本发明实施例提供的特征提取框架的一个可选的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)样本(instance):也称样例(example),用于输入至人工智能推荐模型,以完成对应任务。通常,一个样本包含若干个特征组,一个特征组包含若干特征,一个特征包含特征标识和特征值。
2)特征组:也称特征域,一个特征组包括至少一个特征,且包括的特征通常存在相关关系。此外,每个特征组对应一个特征组标识,特征组标识可简称为gid。
3)特征标识:位于特征组标识下一级的特征标识,特征标识可简称为fid,<gid,fid>的联合才能表示一个全局特征,特征标识不能脱离于特征组标识独立存在。
4)特征值:用于表示特征的含义,根据实际应用场景的不同,特征值可以取二值(即0或者1),也可以是连续的,特征值用浮点数表示。可简称为fvalue。
5)原子特征:指最小的,不可分割的特征。原子特征的特征组标识称为原子特征组标识,简称agid;原子特征的特征标识称为原子特征标识,简称afid;原子特征的特征值称为原子特征值,简称afvalue。举例来说,某个样本为“用户年龄:20:1”,其中的用户年龄为原子特征组标识,20为原子特征标识,1为原子特征值,假设在原子特征值中,数值1的含义是正确,数值0的含义是错误,则在该样本中,用户年龄为20这个结果是正确的。
6)组合特征:将任意个原子特征组合起来,得到的新特征。组合特征的特征组标识称为组合特征组标识,简称cgid;组合特征的特征标识称为组合特征标识,简称cfid;组合特征的特征值称为组合特征值,简称cfvalue。举例来说,某个样本为“用户年龄_用户性别:20_女:1”,其中的用户年龄_用户性别为组合特征组标识,20_女为组合特征标识,1为原子特征值,假设在原子特征值中,数值1的含义是正确,数值0的含义是错误,则在该样本中,用户年龄为20,用户性别为女这个结果是正确的。
7)数据结构:计算机存储及组织数据的方式,如相互之间存在一种或多种特定关系的数据元素的集合。
发明人在实施本发明的过程中发现,在广告或推荐等业务中,通常会应用人工智能推荐模型来处理相关数据。而对于业务涉及的召回及排序等算法任务,其数据流向通常如图1所示,即:在离线情况下,从数据日志提取离线的训练数据,该训练数据拥有离线数据结构,然后,通过离线特征框架对训练数据进行特征提取处理,提取出其中的特征,从而进行模型训练,例如训练图1中的模型a、模型b及模型c,然后将训练好的模型推送到线上的模型服务。对于在线情况,通过在线特征框架对拥有在线数据结构的待测数据,如图1所示的用户画像、文档索引及上下文数据进行特征提取,将提取到的特征输入至模型服务,获取模型服务中的模型处理后返回的结果,并执行对应的业务操作。其中的特征框架部分,离线特征框架和在线特征框架可能存在潜在的不一致,例如业务人员根据业务要求,对离线特征框架中某一特征的提取方式做了更新,但是并未将新的提取方式同步至在线特征框架中,导致对于内容相同、数据结构不同的数据,经离线特征框架和在线特征框架提取后,得到的特征不一致,对人工智能推荐模型的应用造成不利影响。
本发明实施例提供一种人工智能推荐模型的特征处理方法、装置、电子设备及存储介质,能够提升特征的强一致性,并提升特征提取的高效性及灵活性,下面说明本发明实施例提供的电子设备的示例性应用。
参见图2,图2是本发明实施例提供的人工智能推荐模型的特征处理系统100的一个可选的架构示意图,为实现支撑一个人工智能推荐模型的特征处理应用,终端设备400(示例性示出了终端设备400-1和终端设备400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,另外,服务器200与数据库500存在通信连接。
终端设备400用于在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示业务应用;还用于响应用户对业务应用的操作,生成在线的待测数据,并将待测数据发送至服务器200;服务器200用于获取终端设备400的待测数据;还用于将待测数据的数据结构转换为统一的样本结构;还用于确定与人工智能推荐模型对应的特征组标识及特征提取函数;还用于根据特征提取函数对转换后的待测数据进行特征提取处理,得到待测数据中的特征组标识、特征标识及特征值;还用于根据待测数据中的特征组标识、特征标识及特征值构建待测样本;还用于通过人工智能推荐模型对待测样本进行预测处理,得到推荐结果,并将推荐结果发送至终端设备400;终端设备400用于在图形界面410的业务应用中显示推荐结果,在图2中,示例性地示出了广告A、广告B及广告C。
除此之外,服务器200还用于获取数据库500的训练数据;还用于将训练数据的数据结构转换为统一的样本结构;还用于确定与人工智能推荐模型对应的特征组标识及特征提取函数;还用于根据特征提取函数对转换后的训练数据进行特征提取处理,得到训练数据中的特征组标识、特征标识及特征值;还用于根据训练数据中的特征组标识、特征标识及特征值构建训练样本;还用于根据训练样本对人工智能推荐模型进行训练。
下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端设备,也可以实施为服务器。下面,以电子设备为服务器为例进行说明。
参见图3,图3是本发明实施例提供的服务器200(例如,可以是图2所示的服务器200)的架构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的人工智能推荐模型的特征处理装置可以采用软件方式实现,图3示出了存储在存储器250中的人工智能推荐模型的特征处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:转换模块2551、函数确定模块2552、特征提取模块2553及构建模块2554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的人工智能推荐模型的特征处理装置可以采用硬件方式实现,作为示例,本发明实施例提供的人工智能推荐模型的特征处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的人工智能推荐模型的特征处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Spe cific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
本发明实施例提供的人工智能推荐模型的特征处理方法可以由上述的服务器执行,也可以由终端设备(例如,可以是图2所示的终端设备400-1和终端设备400-2)执行,或者由服务器和终端设备共同执行。
下面将结合上文记载的电子设备的示例性应用和结构,说明电子设备中通过嵌入的人工智能推荐模型的特征处理装置而实现人工智能推荐模型的特征处理方法的过程。
参见图4A,图4A是本发明实施例提供的人工智能推荐模型的特征处理方法的一个可选的流程示意图,将结合图4A示出的步骤进行说明。
在步骤101中,获取输入数据,将所述输入数据的数据结构转换为统一的样本结构。
这里,输入数据可以是待测数据或训练数据,例如,在人工智能推荐模型是广告推荐模型的情况下,待测数据可以是用户画像数据,如用户年龄及性别等,训练数据可以包括用户画像数据以及用户对于广告的点击数据(如点击或未点击)。由于待测数据通常是线上获取,以便能够快速进行预测并进行反馈,训练数据通常存储于日志中,而在实际应用场景中,为了方便存储,日志中数据的数据结构与线上的数据结构通常存在不同,故在本发明实施例中,将输入数据的数据结构转换为统一的样本结构,从而克服数据结构之间的差异,保证不同种类的输入数据中字段含义的一致性。其中,统一的样本结构为跨语言数据格式,包括不限于protobuf格式、flatbuffers格式、thrift格式、avro格式及m sgpack格式,在转换时,首先确定采用的跨语言数据格式,再调用相应格式的工具包,将输入数据的数据结构转换为该跨语言数据格式,转换完成后,生成相应格式的文件,其中包含有使用该跨语言数据格式描述的输入数据。
在步骤102中,确定与人工智能推荐模型对应的特征组标识及特征提取函数。
本发明实施例并不限定人工智能推荐模型的种类,如人工智能推荐模型可为应用线性回归、支持向量机或神经网络的推荐模型。在本步骤中,确定人工智能推荐模型配置对应的特征组标识,该特征组标识包括原子特征组标识和/或组合特征组标识,根据实际应用场景确定。对于适用于相同业务类型的人工智能推荐模型来说,在需求的数据方面存在一定共通性,故可预先针对不同业务类型,配置对应的特征组标识,并在本步骤中,根据人工智能推荐模型的业务类型,确定对应的已配置的特征组标识。例如,业务类型包括游戏推荐、化妆品推荐及电视剧推荐,针对每种业务类型配置对应的特征组标识,并在确定人工智能推荐模型应用于游戏推荐时,确定游戏推荐类型对应的特征组标识。确定人工智能推荐模型对应的特征组标识的同时,确定人工智能推荐模型对应的特征提取函数,该特征提取函数预先配置,且每个特征提取函数对应一个原子特征组标识,特征提取函数用于从转换后的输入数据中解析出原子特征组标识,以及与原子特征组标识对应的原子特征标识及原子特征值。在配置特征提取函数时,例如原子特征组标识为“用户年龄”,则在原子提取函数中配置“用户年龄”的字段,如此,通过执行原子提取函数,便可在转换后的输入数据中识别出为“用户年龄”的原子特征组标识,以及与该原子特征组标识相关的原子特征标识及原子特征值。
在步骤103中,根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值。
经特征提取函数进行特征提取处理后,得到转换后的输入数据中的原子特征组标识、原子特征标识及原子特征值。当然,如果转换后的输入数据中未含有某个原子特征组标识,则经对应该原子特征组标识的特征提取函数对输入数据进行处理后,得到的结果为空。值得说明的是,在确定的特征提取函数为至少两个的情况下,根据每个特征提取函数对转换后的输入数据进行特征提取处理。
在步骤104中,根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。
根据<特征组标识:特征标识:特征值>的三元组构建人工智能推荐模型的样本,用于输入至人工智能推荐模型,每个特征组标识对应一个单独的样本,例如对于原子特征“用户年龄”来说,构建的样本为“用户年龄:20:1”。值得说明的是,由于在步骤103中仅得到原子特征组标识、原子特征标识及原子特征值,故在人工智能推荐模型还对应组合特征的情况下,还要对原子特征标识及原子特征值进行进一步组合,具体内容在后文进行阐述。
通过发明实施例对于图4A的上述示例性实施可知,本发明实施例在统一的样本结构的基础上,利用人工智能推荐模型对应的特征提取函数,对输入数据进行特征提取,得到所需的样本,本发明实施例屏蔽了预测数据与训练数据之间的数据结构差异,保证了特征的强一致性,提升了特征提取的灵活性与高效性。
在一些实施例中,参见图4B,图4B是本发明实施例提供的人工智能推荐模型的特征处理方法的一个可选的流程示意图,基于图4A,在步骤104之后,还可以在步骤105中,当所述输入数据为训练数据时,根据所述样本对所述人工智能推荐模型进行训练。
举例来说,人工智能推荐模型为广告推荐模型,根据输入数据构建的样本为“用户年龄_用户性别_广告:20_女_广告A:1”,其中,输入数据为训练数据,特征值“1”表示该用户对广告A进行了点击。则在训练时,将用户年龄“20”以及用户性别“女”作为输入参数输入至人工智能推荐模型,根据人工智能推荐模型的输出参数与样本中的特征值“1”之间的差异,调整人工智能推荐模型中的参数,以使后续在根据新的样本进行训练时,人工智能推荐模型的输出参数与样本中的特征值之间的差异减小,即提升人工智能推荐模型进行预测的准确度。例如,在人工智能推荐模型为应用神经网络的推荐模型时,根据输出参数与样本中的特征值“1”之间的差异,进行反向传播,从而调整神经网络各个层的权重参数。
在一些实施例中,还可以通过这样的方式实现上述的根据所述样本对所述人工智能推荐模型进行训练:创建所述人工智能推荐模型的副本;根据所述样本对所述人工智能推荐模型的副本进行训练。
这里,可将模型训练和模型预测的过程分隔开,具体地,创建人工智能推荐模型的副本,并根据训练数据对应的样本,对人工智能推荐模型的副本进行训练。通过上述方式,避免因人工智能推荐模型同时对两种类型的样本进行处理,而导致的处理过程混乱。
在一些实施例中,所述根据所述样本对所述人工智能推荐模型的副本进行训练之前,还包括:根据所述样本确定所述人工智能推荐模型的副本的第一准确率。
这里,可设置准确率的机制,来确定对人工智能推荐模型的更新时机。首先,根据样本确定人工智能推荐模型的副本的第一准确率,例如,样本包括100个子样本,此处,子样本是指形式为<特征组标识:特征标识:特征值>的一个三元组。将每个子样本中的输入参数输入至人工智能推荐模型的副本,对于样本中的70个子样本来说,人工智能推荐模型的副本的输出参数与子样本中的特征值相符;对于另外30个子样本来说,输出参数与特征值不相符,则可确定出第一准确率为70%。
所述根据所述样本对所述人工智能推荐模型的副本进行训练之后,还包括:根据新的训练数据对应的样本,确定训练后的所述人工智能推荐模型的副本的第二准确率;当所述第二准确率超过所述第一准确率时,根据训练后的所述人工智能推荐模型的副本,更新所述人工智能推荐模型。
在人工智能推荐模型的副本训练完成后,获取新的训练数据,构建样本。同理,根据新构建的样本,确定训练后的人工智能推荐模型的副本的第二准确率。当第二准确率超过第一准确率时,根据训练后的人工智能推荐模型的副本,更新人工智能推荐模型(这里的人工智能推荐模型是用于处理待测数据对应的样本);当第二准确率未超过第一准确率时,可根据新构建的样本对人工智能推荐模型的副本进行继续训练。通过上述方式,保证了用于预测的人工智能推荐模型的准确率,避免因训练数据质量较低而导致的准确率降低。
在一些实施例中,可以通过这样的方式实现上述的根据训练后的所述人工智能推荐模型的副本,更新所述人工智能推荐模型:获取训练数据的生成率;当所述生成率低于生成率阈值时,根据训练后的所述人工智能推荐模型的副本,更新所述人工智能推荐模型。
例如,每隔特定的间隔,统计一次新获取的训练数据的数量。当生成率低于设定的生成率阈值时,如生成率为1分钟10条,而生成率阈值为1分钟11条时,根据训练后的人工智能推荐模型的副本,更新人工智能推荐模型。通过上述方式执行人工智能推荐模型的更新,减少了因模型更新而导致的业务延迟。
在一些实施例中,所述根据所述样本对所述人工智能推荐模型进行训练之前,还包括:获取特征调整标识以及对应的调整值;在所述样本中,将符合所述特征调整标识的各组特征组标识、特征标识及特征值确定为待调整子样本;将所述待调整子样本的权重值更新为所述调整值;其中,所述特征调整标识为以下其中一种:特征组标识,特征组标识及特征标识。
例如,根据业务的倾重情况,设置特征调整标识以及调整值。如在用户业务较为关注用户年龄为20的用户时,设置特征调整标识包括特征组标识和特征标识,具体为<用户年龄:20>,对应的调整值为2。样本中包括有<特征组标识:特征标识:特征值>的三元组,为了便于理解,将该三元组命名为子样本,子样本中的特征值有0和1的取值,其中,0代表对应的用户点击了广告A,1代表对应的用户点击了广告B,并且子样本的权重值(sample_weight)默认为1。则根据特征调整标识,将样本中含有<用户年龄:20>的子样本确定为待调整子样本(无论特征值如何),并将待调整子样本的权重值更新为2,以提升待调整子样本在总的样本中所占的比重。通过上述方式,提升了模型训练的灵活性,可根据实际应用场景调整各类子样本的比重。
在步骤106中,当所述输入数据为待测数据时,通过所述人工智能推荐模型对所述样本进行预测处理,得到推荐结果。
同样,以上述例子举例,在经特征提取后,得到根据输入数据构建的样本为“用户年龄_用户性别:20_女:1”,其中,输入数据为待测数据,特征值“1”表示样本的数据为正确数据。则在预测时,将样本中的用户年龄“20”以及用户性别“女”作为输入参数输入至人工智能推荐模型,将人工智能推荐模型的输出参数作为该用户点击广告A的概率,从而,通过业务逻辑确定是否对该用户推荐广告A,得到对应的推荐结果,如概率超过70%时,确定推荐广告A;概率未超过70%时,确定不推荐广告A。
通过发明实施例对于图4B的上述示例性实施可知,本发明实施例将训练数据对应的样本作为训练样本,以训练人工智能推荐模型;将待测数据对应的样本作为待测样本,从而输入至人工智能推荐模型,得到推荐结果,提升了对不同种类的输入数据的针对性。
在一些实施例中,参见图4C,图4C是本发明实施例提供的确定与人工智能推荐模型对应的特征组标识及特征提取函数的流程示意图,基于图4A,步骤102可以通过步骤201至步骤206实现,将结合各步骤进行说明。
在步骤201中,获取原子特征注册信息及组合特征注册信息,其中,所述原子特征注册信息包括已注册的原子特征组标识及对应的特征提取函数,所述组合特征注册信息包括已注册的组合特征组标识及对应的至少两个原子特征组标识。
在本步骤中,原子特征注册信息及组合特征注册信息并不限于人工智能推荐模型,而是全局的注册信息。其中,原子特征注册信息包括已注册的原子特征组标识及对应的特征提取函数,组合特征注册信息包括已注册的组合特征组标识及对应的至少两个原子特征组标识,例如,组合特征注册信息包括组合特征组标识“用户年龄_用户性别”,以及对应的两个原子特征组标识“用户年龄”“用户性别”。
在步骤202中,获取与人工智能推荐模型对应的特征组标识集合,并遍历所述特征组标识集合。
对于获取的特征组标识集合来说,与步骤201的注册信息不同,该特征组标识集合并非是全局的,而是仅包括作为样本的构建元素的特征组标识,样本是指人工智能推荐模型对应的样本。特征组标识集合包括至少一个特征组标识,在获取到特征组标识集合之后,对其执行遍历操作。
在步骤203中,当遍历到的特征组标识与所述原子特征注册信息匹配时,将所述原子特征注册信息中与所述特征组标识对应的特征提取函数,添加至特征提取函数链。
每遍历到一个特征组标识,将该特征组标识与原子特征注册信息中的原子特征组标识进行一一匹配,判断特征组标识与原子特征注册信息中的原子特征组标识是否相同,若相同,则确定特征组标识与原子特征注册信息相匹配,并将原子特征注册信息中与该特征组标识对应的特征提取函数,添加至设定的特征提取函数链。值得说明的是,此处的特征提取函数链指特征提取函数的集合,并非是指某一种特定的存储结构。
在步骤204中,当遍历到的特征组标识与所述原子特征注册信息不匹配,且与所述组合特征注册信息匹配时,确定所述组合特征注册信息中与所述特征组标识对应的原子特征组标识。
当遍历到的特征组标识与原子特征注册信息中的所有原子特征组标识均不匹配时,将该特征组标识与组合特征注册信息中的每个组合特征组标识进行一一匹配,判断特征组标识与组合特征注册信息中的组合特征组标识是否相同,若相同,则确定组合特征注册信息中,与该特征组标识对应的所有原子特征组标识。当遍历到的特征组标识与原子特征注册信息不匹配,且与组合特征注册信息不匹配时,不做处理。
在步骤205中,在所述原子特征注册信息中,确定所述原子特征组标识对应的特征提取函数。
对于确定出的每个原子特征组标识,在原子特征注册信息中确定对应的特征提取函数。
在步骤206中,当所述特征提取函数不存在于所述特征提取函数链中时,将所述特征提取函数添加至所述特征提取函数链。
当确定出的特征提取函数存在于特征提取函数链中时,不做处理;当确定出的特征提取函数不存在于特征提取函数链中时,将特征提取函数添加至特征提取函数链。
为了便于理解,进行举例说明。将特征提取函数以fa表示,特征提取函数链以fa_chain表示,假如获取到的原子特征注册信息包括“agid1-fa1”及“agid2-fa2”,其中,“agid1-fa1”表示原子特征组标识agid1以及对应的特征提取函数f a1,获取到的组合特征注册信息包括“cgid1-(agid1,agid2)”,特征组标识集合包括特征组标识agid1及cgid1。则以编号形式进行构建fa_chain过程的说明:
(1)在特征组标识集合中遍历到特征组标识agid1,确定agid1与原子特征注册信息匹配,将agid1在原子特征注册信息中对应的fa1添加至fa_chain中。
(2)在特征组标识集合中遍历到特征组标识cgid1,确定cgid1与原子特征注册信息不匹配,然后确定cgid1与组合特征注册信息匹配,得到cgid1在组合特征注册信息对应的两个原子特征组标识agid1和agid2。对于agid1,其在原子特征注册信息中对应的fa1已被添加至fa_chain,故不做处理;对于agid2,其在原子特征注册信息中对应的fa2不存在于fa_chain,故将fa2添加至fa_chain。
(3)已遍历完特征组标识集合中的所有特征组标识,输出fa_chain。
在一些实施例中,参见图4D,图4D是本发明实施例提供的根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值的流程示意图,基于图4A和图4C,步骤103可以通过步骤207至步骤208实现,将结合各步骤进行说明。
在步骤207中,遍历所述特征提取函数链。
根据特征提取函数链对转换后的所述输入数据进行特征提取处理,首先,对特征提取函数链进行遍历。
在步骤208中,根据遍历到的特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的原子特征组标识、原子特征标识及原子特征值。
根据遍历到的每个特征提取函数,对转换后的输入数据进行特征提取处理,直至遍历完毕为止。其中,特征提取函数仅会识别出输入数据中与该函数对应的原子特征组标识,以及与原子特征组标识相关的原子特征标识及原子特征值。
在一些实施例中,参见图4E,图4E是本发明实施例提供的根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本的流程示意图,基于图4A、图4C及图4D,步骤104可以通过步骤209至步骤214实现,将结合各步骤进行说明。
在步骤209中,遍历所述特征组标识集合。
在构建人工智能推荐模型的样本时,同样对特征组标识集合进行遍历。
在步骤210中,当遍历到的特征组标识与所述原子特征注册信息匹配时,将所述特征组标识确定为原子特征组标识,并将所述原子特征组标识、对应的原子特征标识及原子特征值添加至样本。
当遍历到的特征组标识与原子特征注册信息中的某个原子特征组标识相同时,将该特征组标识确定为原子特征组标识,将该原子特征组标识、对应的原子特征标识及原子特征值(通过步骤208确定出)添加至样本。
在步骤211中,当遍历到的特征组标识与所述原子特征注册信息不匹配,且与所述组合特征注册信息匹配时,将所述特征组标识确定为组合特征组标识。
当遍历到的特征组标识与原子特征注册信息中的所有原子特征组标识均不相同,且与组合特征注册信息中的某个组合特征组标识相同时,将该特征组标识确定为组合特征组标识。
在步骤212中,确定所述组合特征注册信息中与所述组合特征组标识对应的至少两个原子特征组标识,并确定所述原子特征组标识对应的原子特征标识及原子特征值。
为了便于说明,例如遍历到的特征组标识为cgid1,cgid1在组合特征注册信息中对应的原子特征组标识包括agid1和agid2,则根据步骤208的特征提取结果,确定agid1对应的原子特征标识afid1及原子特征值afvalue1,以及agid2对应的原子特征标识afid2及原子特征值afvalue2
在步骤213中,对至少两个所述原子特征标识进行组合处理得到组合特征标识,对至少两个所述原子特征值进行组合处理得到组合特征值。
例如,对afid1和afid2进行组合处理得到组合特征标识cfid1,对afvalue1和afvalue2进行组合处理得到组合特征值cfvalue1
在一些实施例中,还可以通过这样的方式实现上述的对至少两个所述原子特征标识进行组合处理得到组合特征标识:对至少两个所述原子特征标识执行第一组合操作,得到组合特征标识;其中,所述第一组合操作包括以下至少之一:哈希操作,按位或操作,按位与操作,按位异或操作。
根据实际应用场景的不同,可应用不同的第一组合操作对至少两个原子特征标识(例如上述的afid1和afid2)进行组合处理,得到组合特征标识(例如上述的cfid1),第一组合操作包括但不限于哈希操作、按位或操作、按位与操作及按位异或操作。
在一些实施例中,还可以通过这样的方式实现上述的对至少两个所述原子特征值进行组合处理得到组合特征值:对至少两个所述原子特征值执行第二组合操作,得到组合特征值;其中,所述第二组合操作包括以下至少之一:乘积操作,相加操作。
根据实际应用场景的不同,可应用不同的第二组合操作对至少两个原子特征值(例如上述的afvalue1和afvalue2)进行组合处理,得到组合特征值(例如上述的cfvalue1),第二组合操作包括但不限于乘积操作,相加操作。
在步骤214中,将所述组合特征组标识、所述组合特征标识及所述组合特征值添加至所述样本。
进行组合处理得到组合特征标识及组合特征值后,以<组合特征组标识:组合特征标识:组合特征值>的三元组形式添加至样本,例如<cgid1:cfid1:cfval ue1>。
通过发明实施例对于图4C的上述示例性实施可知,本发明实施例通过获取注册信息,并根据人工智能推荐模型的特征组标识集合来确定对应的特征提取函数,实现了与人工智能推荐模型相关的样本生成,提升了特征提取的灵活性和可扩展性,即可根据不同的特征组标识集合来确定输入数据中相关的特征。
参见图5,图5是本发明实施例提供的特征提取架构的一个对比示意图。图5的左图为相关技术提供的特征提取架构,其中,对于离线的训练数据,采用离线特征框架进行特征提取,并根据提取到的特征训练模型;对于在线的待测数据,采用在线特征框架进行特征提取,并根据模型对提取到的特征进行处理,得到结果。图5的右图为应用本发明实施例的特征处理方法而得到的特征提取架构,其中,无论是离线的训练数据还是在线的待测数据,都是采用统一的特征框架进行提取,避免了因框架之间差异而导致的提取出的特征不一致。
参见图6,图6是本发明实施例提供的特征提取框架的结构示意图,包括数据结构适配层、原子特征管理层、组合特征管理层、模型配置层及特征提取层,为了便于理解,后文以自底向上的方式,结合伪代码,对各层的功能进行一一阐述。
特征框架的第一层,即数据结构适配层用于对不同种类的输入数据的数据结构进行适配,将其转换为统一的样本结构,从而保证字段含义的一致性,该统一的样本结构可定义为一种通用的跨语言数据格式,包括不限于protobuf、f latbuffers、thrift、avro及msgpack。具体,可通过调用相应跨语言数据格式的工具包对输入数据进行处理,完成数据结构的转换。
原子特征管理层用于存储原子特征注册信息,为了便于说明,原子特征注册信息以fa_rule表示,fa_rule中包括若干个原子特征组标识agid以及与每个a gid存在映射关系的特征提取函数fa。其中,fa用于对应用统一的样本结构的数据进行处理,输出对应的agid,及afid到afvalue的映射,fa可根据实际应用场景进行预先配置,并与对应的agid建立映射关系。
组合特征管理层用于存储组合特征注册信息,为了便于说明,组合特征注册信息以fc_rule表示,fc_rule中包括组合特征组标识cgid以及与cgid存在映射关系的至少两个agid。值得说明的是,数据结构适配层、原子特征管理层及组合特征管理层都属于“注册”阶段,即,对于应用至不同种类的人工智能推荐模型的特征提取框架来说,都可沿用统一的数据结构适配层、原子特征管理层及组合特征管理层。
而对于“配置”阶段,则是与人工智能推荐模型自身相关的配置。
在模型配置层中,在已有预先注册的fa_rule和fc_rule的基础上,选择若干个原子特征和/或若干个组合特征,作为模型配置添加到特征框架中,而选择的依据是人工智能推荐模型对应的特征组标识集合,简称为model_rule。在特征框架中,结合已注册的原子特征和组合特征,生成一组fa链,即fa_chain,该fa_chain用于之后的特征提取。生成过程的伪代码流程如下:
函数:生成fa_chain
输入:特征组标识集合model_rule,model_rule是一个gid的集合
输入:原子特征注册信息fa_rule,fa_rule包括agid到fa的映射
输入:组合特征注册信息fc_rule,fc_rule包括cgid到“agid集合”的映射输出:fa链fa_chain
初始化fa_chain;
对于model_rule中的每个gid,执行:
当gid是fa_rule中的agid时,执行:
在fa_rule中确定与该gid存在映射的fa,即fa_rule[gid],并将fa_rule[gid]插入至fa_chain中;
当gid不是fa_rule中的agid,而是fc_rule中的cgid时,执行:
在fc_rule中确定与该gid存在映射的“agid集合”,即
fc_rule[gid],并对fc_rule[gid]中的每个agid执行:
当与agid存在映射的fa,即fa_rule[agid]不存在于fa_chain,
执行:
将fa_rule[agid]插入至fa_chain中;
输出fa_chain;
特征提取层是特征提取框架的核心层,用于以样本形式,输出一系列存在于输入数据中的特征,伪代码如下:
函数:获取样本instance
输入:model_rule、fa_rule、fc_rule及fa_chain
输入:在线的待测数据,或离线的训练数据,以s表示
输出:一条样本instance
初始化instance;
将s转换为具有统一的样本结构的数据u;
初始化映射数组map;
对于fa_chain中的每个fa,执行:
根据fa对u进行特征提取处理,得到agid,以及afid到afvalue的映射,
以afid_afvalue_map表示;
map[agid]=afid_afvalue_map,即,将afid_afvalue_map作为
map[agid]的值;
对于model_rule中的每个gid,执行:
当gid是fa_rule中的agid时,执行:
instance[gid]=map[gid],即,将该gid与afid_afvalue_map之间的对应关系,存储于样本中;
当gid不是fa_rule中的agid,而是fc_rule中的cgid时,执行:
初始化组合映射数组cross_map;
在fc_rule中确定与该gid存在映射的“agid集合”,即
fc_rule[gid],并对fc_rule[gid]中的每个agid执行:
cross_map[agid]=map[agid];
执行instance[gid]=fc(cross_map),即,将组合特征添加至instance中,其中fc为特征组合函数;
输出instance;
其中,特征组合函数fc的伪代码如下:
函数:fc
输入:cross_map,包括agid到“afid_afvalue_map”的映射
输出:cfid到cfvalue的映射,以cfid_cfvalue_map表示
令cross_map中的所有agid依次用agid_1、agid_2、…、agid_n表示,其对应的“afid_afvalue_map”依次用afid_afvalue_map_1、afid_afvalue_map_2、…、afid_afvalue_map_n表示,其中,n为大于1的整数;
初始化cfid_cfvalue_map;
对afid_1、afid_2、…、afid_n执行第一组合操作,得到cfid,第一组合操作包括但不限于:哈希操作,按位或操作,按位与操作,按位异或操作;
对afvalue_1、afvalue_2、…、afvalue_n执行第二组合操作,得到cfvalue,第二组合操作包括但不限于:乘积操作,相加操作;
cfid_cfvalue_map[cfid]=cfvalue,即,建立cfid与cfvalue之间的映射关系;
输出cfid_cfvalue_map;
通过上述的统一特征框架,可根据人工智能推荐模型对应的特征组标识集合,从转换后的输入数据提取特征,构成样本,从而执行模型训练或模型预测的任务,提升了特征的强一致性,克服因应用两个框架而导致的提取出特征的差异。
下面继续说明本发明实施例提供的人工智能推荐模型的特征处理装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的人工智能推荐模型的特征处理装置255中的软件模块可以包括:
转换模块2551,用于获取输入数据,将所述输入数据的数据结构转换为统一的样本结构;
函数确定模块2552,用于确定与人工智能推荐模型对应的特征组标识及特征提取函数;
特征提取模块2553,用于根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值;
构建模块2554,用于根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。
在一些实施例中,函数确定模块2552,还用于:获取原子特征注册信息及组合特征注册信息,其中,所述原子特征注册信息包括已注册的原子特征组标识及对应的特征提取函数,所述组合特征注册信息包括已注册的组合特征组标识及对应的至少两个原子特征组标识;获取与人工智能推荐模型对应的特征组标识集合,并遍历所述特征组标识集合;当遍历到的特征组标识与所述原子特征注册信息匹配时,将所述原子特征注册信息中与所述特征组标识对应的特征提取函数,添加至特征提取函数链。
在一些实施例中,函数确定模块2552,还用于:当遍历到的特征组标识与所述原子特征注册信息不匹配,且与所述组合特征注册信息匹配时,确定所述组合特征注册信息中与所述特征组标识对应的原子特征组标识;在所述原子特征注册信息中,确定所述原子特征组标识对应的特征提取函数;当所述特征提取函数不存在于所述特征提取函数链中时,将所述特征提取函数添加至所述特征提取函数链。
在一些实施例中,特征提取模块2553,还用于:遍历所述特征提取函数链;根据遍历到的特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的原子特征组标识、原子特征标识及原子特征值。
在一些实施例中,构建模块2554,还用于:遍历所述特征组标识集合;当遍历到的特征组标识与所述原子特征注册信息匹配时,将所述特征组标识确定为原子特征组标识,并将所述原子特征组标识、对应的原子特征标识及原子特征值添加至样本。
在一些实施例中,构建模块2554,还用于:当遍历到的特征组标识与所述原子特征注册信息不匹配,且与所述组合特征注册信息匹配时,将所述特征组标识确定为组合特征组标识;确定所述组合特征注册信息中与所述组合特征组标识对应的至少两个原子特征组标识,并确定所述原子特征组标识对应的原子特征标识及原子特征值;对至少两个所述原子特征标识进行组合处理得到组合特征标识,对至少两个所述原子特征值进行组合处理得到组合特征值;将所述组合特征组标识、所述组合特征标识及所述组合特征值添加至所述样本。
在一些实施例中,所述对至少两个所述原子特征标识进行组合处理得到组合特征标识,包括:对至少两个所述原子特征标识执行第一组合操作,得到组合特征标识;其中,所述第一组合操作包括以下至少之一:哈希操作,按位或操作,按位与操作,按位异或操作;
所述对至少两个所述原子特征值进行组合处理得到组合特征值,包括:对至少两个所述原子特征值执行第二组合操作,得到组合特征值;其中,所述第二组合操作包括以下至少之一:乘积操作,相加操作。
在一些实施例中,人工智能推荐模型的特征处理装置255还包括:训练模块,用于当所述输入数据为训练数据时,根据所述样本对所述人工智能推荐模型进行训练;预测模块,用于当所述输入数据为待测数据时,通过所述人工智能推荐模型对所述样本进行预测处理,得到推荐结果。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的人工智能推荐模型的特征处理方法,例如,如图4A及4B示出的人工智能推荐模型的特征处理方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本发明实施例克服了来源不同的输入数据的数据结构差异,并通过特征提取函数对输入数据进行统一处理,提升了特征提取的灵活性和高效性,保证了样本中特征的强一致性,对于大规模稀疏的广告或推荐业务场景,具有良好的样本生成效果,其中,“大规模”是指特征数量大,规模可能达到亿级以上,“稀疏”是指每条样本只包含部分特征组的部分特征,规模可能是上百或者上千。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种人工智能推荐模型的特征处理方法,其特征在于,包括:
获取输入数据,将所述输入数据的数据结构转换为统一的样本结构;
确定与人工智能推荐模型对应的特征组标识及特征提取函数;
根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值;
根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。
2.根据权利要求1所述的特征处理方法,其特征在于,所述确定与人工智能推荐模型对应的特征组标识及特征提取函数,包括:
获取原子特征注册信息及组合特征注册信息,其中,所述原子特征注册信息包括已注册的原子特征组标识及对应的特征提取函数,所述组合特征注册信息包括已注册的组合特征组标识及对应的至少两个原子特征组标识;
获取与人工智能推荐模型对应的特征组标识集合,并遍历所述特征组标识集合;
当遍历到的特征组标识与所述原子特征注册信息匹配时,将所述原子特征注册信息中与所述特征组标识对应的特征提取函数,添加至特征提取函数链。
3.根据权利要求2所述的特征处理方法,其特征在于,还包括:
当遍历到的特征组标识与所述原子特征注册信息不匹配,且与所述组合特征注册信息匹配时,确定所述组合特征注册信息中与所述特征组标识对应的原子特征组标识;
在所述原子特征注册信息中,确定所述原子特征组标识对应的特征提取函数;
当所述特征提取函数不存在于所述特征提取函数链中时,将所述特征提取函数添加至所述特征提取函数链。
4.根据权利要求2所述的特征处理方法,其特征在于,所述根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值,包括:
遍历所述特征提取函数链;
根据遍历到的特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的原子特征组标识、原子特征标识及原子特征值。
5.根据权利要求4所述的特征处理方法,其特征在于,所述根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本,包括:
遍历所述特征组标识集合;
当遍历到的特征组标识与所述原子特征注册信息匹配时,将所述特征组标识确定为原子特征组标识,并将所述原子特征组标识、对应的原子特征标识及原子特征值添加至样本。
6.根据权利要求5所述的业务特征处理方法,其特征在于,还包括:
当遍历到的特征组标识与所述原子特征注册信息不匹配,且与所述组合特征注册信息匹配时,将所述特征组标识确定为组合特征组标识;
确定所述组合特征注册信息中与所述组合特征组标识对应的至少两个原子特征组标识,并确定所述原子特征组标识对应的原子特征标识及原子特征值;
对至少两个所述原子特征标识进行组合处理得到组合特征标识,对至少两个所述原子特征值进行组合处理得到组合特征值;
将所述组合特征组标识、所述组合特征标识及所述组合特征值添加至所述样本。
7.根据权利要求6所述的特征处理方法,其特征在于,
所述对至少两个所述原子特征标识进行组合处理得到组合特征标识,包括:
对至少两个所述原子特征标识执行第一组合操作,得到组合特征标识;其中,所述第一组合操作包括以下至少之一:哈希操作,按位或操作,按位与操作,按位异或操作;
所述对至少两个所述原子特征值进行组合处理得到组合特征值,包括:
对至少两个所述原子特征值执行第二组合操作,得到组合特征值;其中,所述第二组合操作包括以下至少之一:乘积操作,相加操作。
8.根据权利要求1至7任一项所述的特征处理方法,其特征在于,还包括:
当所述输入数据为训练数据时,根据所述样本对所述人工智能推荐模型进行训练;
当所述输入数据为待测数据时,通过所述人工智能推荐模型对所述样本进行预测处理,得到推荐结果。
9.根据权利要求8所述的特征处理方法,其特征在于,所述根据所述样本对所述人工智能推荐模型进行训练,包括:
创建所述人工智能推荐模型的副本;
根据所述样本对所述人工智能推荐模型的副本进行训练。
10.根据权利要求9所述的特征处理方法,其特征在于,
所述根据所述样本对所述人工智能推荐模型的副本进行训练之前,还包括:
根据所述样本确定所述人工智能推荐模型的副本的第一准确率;
所述根据所述样本对所述人工智能推荐模型的副本进行训练之后,还包括:
根据新的训练数据对应的样本,确定训练后的所述人工智能推荐模型的副本的第二准确率;
当所述第二准确率超过所述第一准确率时,根据训练后的所述人工智能推荐模型的副本,更新所述人工智能推荐模型。
11.根据权利要求10所述的特征处理方法,其特征在于,所述根据训练后的所述人工智能推荐模型的副本,更新所述人工智能推荐模型,包括:
获取训练数据的生成率;
当所述生成率低于生成率阈值时,根据训练后的所述人工智能推荐模型的副本,更新所述人工智能推荐模型。
12.根据权利要求8所述的特征处理方法,其特征在于,所述根据所述样本对所述人工智能推荐模型进行训练之前,还包括:
获取特征调整标识以及对应的调整值;
在所述样本中,将符合所述特征调整标识的各组特征组标识、特征标识及特征值确定为待调整子样本;
将所述待调整子样本的权重值更新为所述调整值;
其中,所述特征调整标识为以下其中一种:特征组标识,特征组标识及特征标识。
13.一种人工智能推荐模型的特征处理装置,其特征在于,包括:
转换模块,用于获取输入数据,将所述输入数据的数据结构转换为统一的样本结构;
函数确定模块,用于确定与人工智能推荐模型对应的特征组标识及特征提取函数;
特征提取模块,用于根据所述特征提取函数对转换后的所述输入数据进行特征提取处理,得到所述输入数据中的特征组标识、特征标识及特征值;
构建模块,用于根据所述特征组标识、特征标识及特征值,构建所述人工智能推荐模型的样本。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的特征处理方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的特征处理方法。
CN201910810105.6A 2019-08-29 2019-08-29 人工智能推荐模型的特征处理方法、装置及电子设备 Pending CN110516815A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910810105.6A CN110516815A (zh) 2019-08-29 2019-08-29 人工智能推荐模型的特征处理方法、装置及电子设备
JP2021561988A JP7206419B2 (ja) 2019-08-29 2020-07-21 人工知能推奨モデルの特徴処理方法、装置、電子機器、及びコンピュータプログラム
PCT/CN2020/103256 WO2021036589A1 (zh) 2019-08-29 2020-07-21 人工智能推荐模型的特征处理方法、装置、电子设备及存储介质
US17/491,435 US20220020064A1 (en) 2019-08-29 2021-09-30 Feature processing method and apparatus for artificial intelligence recommendation model, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910810105.6A CN110516815A (zh) 2019-08-29 2019-08-29 人工智能推荐模型的特征处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110516815A true CN110516815A (zh) 2019-11-29

Family

ID=68628133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910810105.6A Pending CN110516815A (zh) 2019-08-29 2019-08-29 人工智能推荐模型的特征处理方法、装置及电子设备

Country Status (4)

Country Link
US (1) US20220020064A1 (zh)
JP (1) JP7206419B2 (zh)
CN (1) CN110516815A (zh)
WO (1) WO2021036589A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144578A (zh) * 2019-12-27 2020-05-12 创新奇智(重庆)科技有限公司 一种分布式环境下的人工智能模型管理系统及管理方法
CN111753994A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 Ai芯片的数据处理方法、装置和计算机设备
CN112270586A (zh) * 2020-11-12 2021-01-26 广东烟草广州市有限公司 一种基于线性回归的遍历方法、系统、设备和存储介质
WO2021036589A1 (zh) * 2019-08-29 2021-03-04 腾讯科技(深圳)有限公司 人工智能推荐模型的特征处理方法、装置、电子设备及存储介质
CN113641337A (zh) * 2021-07-13 2021-11-12 广州三七互娱科技有限公司 数据处理方法、装置、计算机设备和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828486A (zh) * 2022-03-21 2023-09-29 华为技术有限公司 一种通信方法及相关装置
CN115099352A (zh) * 2022-07-05 2022-09-23 北京火山引擎科技有限公司 模型训练系统、模型训练方法及装置
KR102545575B1 (ko) * 2022-07-21 2023-06-21 (주)시큐레이어 고객군별 특성에 따른 이중화 서비스 플로우를 적용한 플랫폼을 통한 ai모델 자동추천 구독 서비스 방법 및 서버

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589971B (zh) 2016-01-08 2018-12-18 车智互联(北京)科技有限公司 训练推荐模型的方法、装置及推荐系统
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法
US10970605B2 (en) * 2017-01-03 2021-04-06 Samsung Electronics Co., Ltd. Electronic apparatus and method of operating the same
CN109325167B (zh) * 2017-07-31 2022-02-18 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
CN107292298B (zh) * 2017-08-09 2018-04-20 北方民族大学 基于卷积神经网络和分类器模型的牛脸识别方法
EP3451219A1 (en) 2017-08-31 2019-03-06 KBC Groep NV Improved anomaly detection
JP6787861B2 (ja) 2017-09-20 2020-11-18 日本電信電話株式会社 分類装置
EP3480714A1 (en) * 2017-11-03 2019-05-08 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
CN109086312B (zh) * 2018-06-26 2020-09-25 湘潭大学 一种区域综合能源系统多能流网络的数据表示方法及系统
CN108879692B (zh) * 2018-06-26 2020-09-25 湘潭大学 一种区域综合能源系统能流分布预测方法及系统
CN109635993A (zh) * 2018-10-23 2019-04-16 平安科技(深圳)有限公司 基于预测模型的操作行为监控方法及装置
CN109902222B (zh) * 2018-11-30 2022-05-13 华为技术有限公司 一种推荐方法及装置
CN110516815A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 人工智能推荐模型的特征处理方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021036589A1 (zh) * 2019-08-29 2021-03-04 腾讯科技(深圳)有限公司 人工智能推荐模型的特征处理方法、装置、电子设备及存储介质
CN111144578A (zh) * 2019-12-27 2020-05-12 创新奇智(重庆)科技有限公司 一种分布式环境下的人工智能模型管理系统及管理方法
CN111144578B (zh) * 2019-12-27 2023-07-28 创新奇智(重庆)科技有限公司 一种分布式环境下的人工智能模型管理系统及管理方法
CN111753994A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 Ai芯片的数据处理方法、装置和计算机设备
CN111753994B (zh) * 2020-06-22 2023-11-03 深圳鲲云信息科技有限公司 Ai芯片的数据处理方法、装置和计算机设备
CN112270586A (zh) * 2020-11-12 2021-01-26 广东烟草广州市有限公司 一种基于线性回归的遍历方法、系统、设备和存储介质
CN112270586B (zh) * 2020-11-12 2024-01-02 广东烟草广州市有限公司 一种基于线性回归的遍历方法、系统、设备和存储介质
CN113641337A (zh) * 2021-07-13 2021-11-12 广州三七互娱科技有限公司 数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP7206419B2 (ja) 2023-01-17
WO2021036589A1 (zh) 2021-03-04
US20220020064A1 (en) 2022-01-20
JP2022529178A (ja) 2022-06-17

Similar Documents

Publication Publication Date Title
CN110516815A (zh) 人工智能推荐模型的特征处理方法、装置及电子设备
WO2022057658A1 (zh) 推荐模型训练方法、装置、计算机设备及存储介质
TW201946013A (zh) 基於lstm模型的信用風險預測方法及裝置
CN110377814A (zh) 题目推荐方法、装置及介质
CN110533097A (zh) 一种图像清晰度识别方法、装置、电子设备及存储介质
CN108132887B (zh) 用户界面校验方法、装置、软件测试系统、终端及介质
CN108280104A (zh) 目标对象的特征信息提取方法及装置
CN108595497A (zh) 数据筛选方法、装置及终端
CN106464529A (zh) 隔离在线计算服务的一部分的技术
CN106294830A (zh) 多媒体资源的推荐方法及装置
CN109726105A (zh) 测试数据构造方法、装置、设备及存储介质
CN109544197A (zh) 一种用户流失预测方法和装置
CN108038052A (zh) 自动化测试管理方法、装置、终端设备及存储介质
CN107918825A (zh) 一种基于应用安装偏好判定用户年龄段的方法和装置
CN111933225B (zh) 药物分类方法、装置、终端设备以及存储介质
CN110955828B (zh) 一种基于深度神经网络的多因素嵌入个性化套餐推荐方法
CN108255706A (zh) 自动化测试脚本的编辑方法、装置、终端设备及存储介质
JP7240505B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
US20210334593A1 (en) Recommending scripts for constructing machine learning models
CN110019800A (zh) 分发内容处理方法、装置、计算机设备和存储介质
CN109656541A (zh) 开发资源的推荐方法、装置、存储介质和电子设备
CN111815169A (zh) 业务审批参数配置方法及装置
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN104471530B (zh) 可执行软件规程生成
CN105608065A (zh) 一种图表生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination