CN111967599B - 用于训练模型的方法、装置、电子设备及可读存储介质 - Google Patents

用于训练模型的方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111967599B
CN111967599B CN202010876261.5A CN202010876261A CN111967599B CN 111967599 B CN111967599 B CN 111967599B CN 202010876261 A CN202010876261 A CN 202010876261A CN 111967599 B CN111967599 B CN 111967599B
Authority
CN
China
Prior art keywords
feature
user
information
implicit
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010876261.5A
Other languages
English (en)
Other versions
CN111967599A (zh
Inventor
苏东
马小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010876261.5A priority Critical patent/CN111967599B/zh
Publication of CN111967599A publication Critical patent/CN111967599A/zh
Application granted granted Critical
Publication of CN111967599B publication Critical patent/CN111967599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Stored Programmes (AREA)

Abstract

本申请实施例公开了用于训练模型的方法、装置、电子设备及计算机可读存储介质,涉及深度学习、神经网络、信息匹配、模型训练、信息推荐技术领域。该方法的一具体实施方式包括:获取用户的兴趣特征和样本待推荐信息的属性特征;按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合;根据隐式特征组合进行训练,得到目标模型。该实施方式通过对基于中间表示构造出的隐式特征组合进行训练,使得训练出的目标模型具有更强的泛化能力、精简的交叉方式尽可能的避免了组合爆炸,也更加便于构造出高阶的特征组合。

Description

用于训练模型的方法、装置、电子设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及深度学习、神经网络、信息匹配、模型训练、信息推荐技术领域,尤其涉及用于训练模型的方法、装置、电子设备及计算机可读存储介质。
背景技术
在信息流推荐系统中,一般分为召回、排序两阶段,召回根据用户兴趣从海量的信息池中挑选出少量候选,排序阶段对挑选出来的信息进行匹配度打分,最终根据打分排序把高匹配度的信息推荐给用户。
目前,排序阶段一般基于深度学习进行,其使用用户兴趣、资源属性等原始数据,进行浅层匹配或者显式特征组合的方式生成交叉特征,通过神经网络进行训练,以利用训练得到的排序模型对召回候选进行预测打分,最终基于打分的排序情况向用户推荐相应的信息。
发明内容
本申请实施例提出了一种用于训练模型的方法、装置、电子设备及计算机可读存储介质。
第一方面,本申请实施例提出了一种用于训练模型的方法,包括:获取用户的兴趣特征和样本待推荐信息的属性特征;按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合;根据隐式特征组合进行训练,得到目标模型。
第二方面,本申请实施例提出了一种用于训练模型的装置,包括:特征获取单元,被配置成获取用户的兴趣特征和样本待推荐信息的属性特征;中间表示获取单元,被配置成按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;隐式特征组合构造单元,被配置成将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合;模型训练单元,被配置成根据隐式特征组合进行训练,得到目标模型。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于训练模型的方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于训练模型的方法。
第五方面,本申请实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的用于训练模型的方法。
本申请实施例提供的用于推荐信息的方法、装置、电子设备及计算机可读存储介质,首先,获取用户的兴趣特征和样本待推荐信息的属性特征;然后,按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合;根据隐式特征组合进行训练,得到目标模型。
区别于采用浅层匹配或显式特征组合经训练得到模型的现有技术,本申请并非直接对兴趣特征和属性特征的明文进行交叉匹配,而是先按照隐式特征组合的方式通过Embedding层得到其原始特征经降维后的中间表示,使得基于不同的中间表示构造出的隐式特征组合训练出的模型具有较强的泛化能力。同时,由于采用区别于全量交叉方式的精简交叉方式,使得构造出的隐式特征组合的数据量更小、尽可能的避免了组合爆炸现象的产生,而基于精简交叉方式也更加便于构造出高阶的特征组合。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构;
图2为本申请实施例提供的一种用于训练模型的方法的流程图;
图3为本申请实施例提供的另一种用于训练模型的方法的流程图;
图4为本申请实施例提供的一种用于训练模型的装置的结构框图;
图5为本申请实施例提供的一种适用于执行用于训练模型的方法的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于训练模型的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如资讯推荐类应用、模型训练类应用、即时通讯类应用等。
终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以可以提供与用户兴趣相关的信息推荐服务的模型训练类应用为例,服务器105在运行该资讯推荐类应用时可实现如下效果:首先,通过网络104从终端设备101、102、103中获取表征用户兴趣的兴趣特征,从服务器105本地存储单元获取样本待推荐信息的属性特征;然后,按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;接着,将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合;最后,根据隐式特征组合进行训练,得到目标模型。
进一步的,服务器105还可利用该目标模型分别对每个实际待推荐信息进行评分,并按照评分分值进行排序,得到排序结果;根据排序结果确定与用户的兴趣特征匹配度超过预设阈值的目标信息,并将目标信息推荐给用户。即服务器105依次经过模型训练、模型使用两个步骤实现向用户所持有的终端101、102、103推送与用户兴趣相关的信息的目的。
需要指出的是,用户的兴趣特征除可以从终端设备101、102、103通过网络104获取到之外,也可以通过各种方式预先存储在服务器105本地。因此,当服务器105检测到本地已经存储有这些数据时(例如之前已从终端设备101、102、103收集了用户的兴趣特征),可选择直接从本地获取这些数据。
由于不同特征的交叉、组合、模型的训练等操作需要占用较多的运算资源和拥有较强的运算能力,因此本申请后续各实施例所提供的用于训练模型的方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,用于训练模型的装置一般也设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本申请实施例提供的一种用于训练模型的方法的流程图,其中流程200包括以下步骤:
步骤201:获取用户的兴趣特征和样本待推荐信息的属性特征;
本步骤旨在由用于训练模型的方法的执行主体(例如图1所示的服务器105)获取用户的兴趣特征和作为样本的待推荐信息的属性特征。
其中,用户的兴趣特征是指所有能够表征用户兴趣、爱好、偏好的特征的统称,根据实际情况可特指某一类型的兴趣、爱好,或针对某应用场景下所能表征出的区别于其它用户的个性化参数。以咨询信息类应用为例,可直接将用户的历史搜索记录、历史查看过的咨询的关键词、标签等作为用户的兴趣特征,也可以将对其进行抽象化处理后的结果作为兴趣特征。待推荐信息的属性特征则是指所有能够表征待推荐信息在某方面可用于区别其他待推荐信息的特征的统称,例如信息来源、信息内容、信息类型、信息内容对应的对象、时间等等,用于从某个层面描述一个信息。
具体的,用户的兴趣特征可由上述执行主体在需要时实时通过网络从用户所持有的终端设备(例如图1所示的终端设备101、102、103)中获取,包括且不限于向终端设备发送兴趣特征获取请求,以在用户同意该兴趣特征获取请求的情况下接收终端设备返回的兴趣特征,在用户的兴趣特征已事先记录在上述执行主体的本地存储单元的情况下,直接在本地查询到;待推荐信息的属性特征可以由上述执行主体在需要时实时通过网络从存储待推荐信息的分布式存储节点中获取,也可以在已事先记录在上述执行主体的本地存储单元的情况下,直接在本地查询到。
步骤202:按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;
在步骤201的基础上,本步骤旨在由上述执行主体对兴趣特征和属性特征进行降维处理,以得到拥有更强泛化能力的中间表示。
其中,在隐式特征组合中,通常利用其包含的Embedding层(也称为嵌入层)来处理原始的、明文的特征,以得到该中间表示。Embedding这个概念在深度学习领域最原初的切入点是所谓的Manifold Hypothesis(流形假设),流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么,深度学习的任务就是把高维原始数据(图像,句子)映射到低维流形,使得高维的原始数据被映射到低维流形之后变得可分,而这个映射就叫嵌入。简单来说,对特征进行Embedding处理,是指将原始的高维特征通过降维的方式获取到低维特征,以借助低维特征对特征更底层的展开抓住不同特征之间的共同点,从而提升对特征分类、识别的能力。
本申请就是在借助Embedding处理的这一特性来得到初始、明文的兴趣特征和属性特征的中间表示,使得得到的中间表示可使基于构造出的隐式特征组合训练后的模型拥有更强的泛化能力。
隐式特征组合是区别于显式特征组合的一种特征组合方式,显式特征组合是直接对原始的、明文特征进行组合的一种方式,隐式特征组合则是通过使用特征的Embedding表示(即中间表示),通过一定的神经网络交互方式来进行组合,从而通过Embedding处理提升泛化能力。
步骤203:将至少两个中间表述按预设的精简交叉方式构造为隐式特征组合;
在步骤202的基础上,本步骤旨在由上述执行主体将兴趣特征和属性特征的至少两个中间表示构造为隐式特征组合,简单来说,就是至少将两个不同的降维后特征进行交叉、组合。
其中,本步骤所使用的精简交叉方式是指区别于传统显式特征组合所使用的交叉方式的特征交叉方式,也可以理解为不同特征在神经网络中的交互方式。之所以将其称之为精简交叉方式,是因为传统显式特征组合方式往往采用诸如笛卡尔积等特征交叉方式,基于笛卡尔积的运算方式往往会在特征表示复杂的情况下生成大量复杂的特征组合,出现特征组合爆炸、消耗大量存储资源、无法进行高阶特征组合的问题,而采用诸如哈达玛积、余弦相似度方式等精简交叉方式则可以尽可能的避免上述问题的出现。
笛卡尔积是针对集合的概念,两个集合X和Y的笛卡尔积(Cartesian product),又称直积,表示为X×Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。假设集合A={a,b},集合B={0,1},则两个集合的笛卡尔积为{(a,0),(a,1),(b,0),(b,1)};哈达玛积(Hadamard product)是矩阵的一类运算,若A=(aij)和B=(bij)是两个同阶矩阵,若cij=aij×bij,则称矩阵C=(cij)为A和B的哈达玛积,或称基本积,当A为[a,b]、B为[0,1]时,C为[a×0,b×1]=[0,b];余弦相似度是指通过计算两个向量(即当特征表现为向量形式时)的夹角余弦值来评估他们的相似度的一类运算。据此可以看出,当特征越来越复杂、维度/元素越来越多的情况下,采用笛卡尔积的显式特征组合方式因其运算方式极易出现特征组合爆炸、消耗大量存储资源、无法进行高阶特征组合的问题,都将对后续基于组合特征进行的信息推荐环节造成不同程度的影响。因此在采用诸如哈达玛积或余弦相似度等可实现较为精简的特征交叉方式时,可以尽可能的避免上述问题,从而提升信息推荐环节的信息推荐效果。
简单来说,与显式特征组合不同,隐式特征组合在特征组合时特征空间是线性关系不会存在组合爆炸的问题,以二阶特征组合为例,如用户兴趣特征空间为m,资源属性特征空间为n,那么在使用显式特征组合后,新特征组合的特征空间为m*n,而采用隐式特征组合的方案,特征空间仅有m+n,高阶特征组合的存储成本大大降低,仅与特征阶数线性相关,系统不在受限于存储,可以方便地进行三阶、四阶等更高阶的特征交叉,完善系统的高阶特征学习能力。
即响应于接收到的高阶特征交叉指令,上述执行主体可以将与高阶特征交叉指令所指示的阶数对应数量的中间表示按预设的精简交叉方式构造为相应阶数的高阶隐式特征组合。进一步的,由于构造越高阶的隐式特征组合就会占用越多的存储空间,因此为了保障模型持久可用,还可以根据剩余存储空间的大小动态调整构造的阶数,例如响应于剩余存储空间小于预设大小,降低将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合的阶数,反之在通过主动清理掉一些无用数据腾出更多的存储空间时,还可以适当调高阶数。
应当理解的是,精简交叉方式除包括求取哈达玛积和余弦相似度之后,还包括其它在特征交叉方式和运算机制类似的其它运算方式,此处不再一一赘述。
步骤204:根据隐式特征组合进行训练,得到目标模型。
在步骤203的基础上,本步骤旨在由上述执行主体将构造好的隐式特征组合输入神经网络进行训练,以得到训练好的目标模型。
区别于采用浅层匹配或显式特征组合经训练得到模型的现有技术,本申请并非直接对兴趣特征和属性特征的明文进行交叉匹配,而是先按照隐式特征组合的方式通过Embedding层得到其原始特征经降维后的中间表示,使得基于不同的中间表示构造出的隐式特征组合训练出的模型具有较强的泛化能力。同时,由于采用区别于全量交叉方式的精简交叉方式,使得构造出的隐式特征组合的数据量更小、尽可能的避免了组合爆炸现象的产生,而基于精简交叉方式也更加便于构造出高阶的特征组合。
请参考图3,图3为本申请实施例提供的另一种用于训练模型的方法的流程图,其中流程300包括以下步骤:
步骤301:获取用户的兴趣特征和样本待推荐信息的属性特征;
步骤302:按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;
上述步骤301-步骤302与如图2所示的步骤201-步骤202一致,相同部分内容请参见上一实施例的相应部分,此处不再进行赘述。
步骤303:求取至少两个中间表示的哈达玛积,并将得到的实际哈达玛积作为隐式特征组合;
本步骤旨在由上述执行主体具体提供了一种以求取不同Embedding的哈达玛积的特征组合方式,求取哈达玛积的特征组合方式则用于尽可能的实现精简化的特征组合,使得特征组合数量尽可能的少、对存储空间的占用尽可能的少、尽可能的降低了进行高阶特征组合的难度。
步骤304:将各隐式特征组合与其余特征置入神经网络与隐层进行联合训练,得到排序模型;
其中,其余特征为除兴趣特征和属性特征外的其它用户特征和其它信息特征。
在步骤303的基础上,本步骤旨在由上述执行主体将各隐式特征组合与其余特征置入神经网络与隐层进行联合训练,得到训练后的排序模型。其中,联合学习是指将隐式特征组合与其余特征同时置入神经网络,并与其隐层之间以联合方式进行的一种训练方式,区别于传统的先预训练隐式特征组合,再将训练后的结果输入神经网络与其余特征进行二次训练的两阶段训练方式,减少了训练步骤,提升了效率。
使用隐式特征组合的方式,模型不在依赖机械记忆进行推理,同时,通过对不同用户和信息属性的进行联合学习,使得模型具备基于已有数据推理缺失特征的能力,可以显著提升推荐结果的泛化性,改善信息茧房问题。
步骤305:利用目标模型分别对每个实际待推荐信息进行评分,并按照评分分值进行排序,得到排序结果;
在步骤304的基础上,本步骤旨在由上述执行主体利用训练出的目标模型对各待推荐信息进行评分,按照评分分值进行排序(通常评分越大证明对应的待推荐信息与用户的兴趣匹配度越高),最终得到排序结果。
步骤306:根据排序结果确定与用户的兴趣特征匹配度超过预设阈值的目标信息,并将目标信息推荐给用户。
在步骤305的基础上,本步骤旨在由上述执行主体根据排序结果结合实际需求确定出满足需求的目标信息,以便将目标信息作为匹配与用户兴趣的优选信息推荐给用户。其中,预设阈值的表现形式多种多样,例如当匹配度评分采用百分制时,该预设阈值可以为80或85等高评分,以便筛选高匹配度的信息;该预设阈值也可以表现为TOP K,其中K为3、5等类似的数值,以便将优先级排序前K个都确定为目标信息。
进一步的,为尽可能使通过目标模型推荐给用户的目标信息切实被用户感兴趣,还可以接收用户返回的针对目标信息的查看结果,并根据查看结果确定用户针对目标信息的感兴趣程度,从而根据该感兴趣程度来调整目标模型的参数,以使调整后的目标模型能够将更被用户感兴趣的信息确定为目标信息。
步骤303是上一实施例步骤202的一种具体下位方案,通过使用求取哈达玛积的方式实现隐式特征的交叉组合,尽可能的减少了组合特征的数量、对存储空间的占用、尽可能的降低了进行高阶特征组合的难度;步骤304则是上一实施例中的步骤204的一种具体下位方案,通过联合训练的方式尽可能的提升了训练效率;步骤305-步骤306则结合信息推荐场景,给出了一种利用目标模型对实际待推荐信息进行评分、排序,以及根据排序结果确定目标信息的具体方案,使得目标模型在信息推荐场景下将其泛化能力转换为提升确定出的目标信息与用户兴趣特征匹配程度的效果,拓展了应用场景。
应当理解的是,步骤303、步骤304分别给出的下位方案与步骤305-步骤306给出的一种结合应用场景的补充方案之间并无依赖和因果关系,因此完全可以将上述三部分优选方案单独结合上述实施例形成单独的实施例。因此,不应基于本实施例中对实现方案的阐述就认定除上述实施例外仅存在这一实现方案,本实施例仅作为一个同时存在多部分优选方案的优选实施例存在。
为加深理解,本申请还结合一个具体应用场景,给出了一种具体的实现方案。假定场景下存在一个资讯类应用,该资讯类应用可以基于使用者的兴趣特征向相应用户推送匹配的咨询。其中,该资讯类应用的使用者A经过长期的使用,服务器陆续通过资讯类应用的反馈记录得到用户A的对咨询阅读的偏好信息,该偏好信息具体表现为“娱乐”、“明星”、“不超过700字”的偏好兴趣标签。不同的咨询分别被存储至不同的分布式存储节点,每个分布式存储节点都存储有记录咨询的属性特征的元数据。
1)服务器接收到定期向用户A推荐偏好咨询的指令;
2)服务器从本地存储单元获取用户A的三个偏好兴趣标签,从分布式存储节点记录的元数据中获取与偏好兴趣标签类型相应的三个属性特征信息(分别为咨询类型、咨询内容的对象、字数);
3)服务器按照隐式特征组合方式分别生成偏好兴趣特征的中间表示Useremb和属性特征信息的中间表示Docemb
4)服务器按照求取哈达玛积的方式,构造Useremb和Docemb的隐式特征组合;
当Useremb=<a1,a2,a3>、Docemb=<b1,b2,b3>时,隐式特征组合UserembΘDocemb=<a1*b1,a2*b2,a3*b3>。
5)服务器将构造出的隐式特征组合输入深度神经网络和其余特征进行联合学习,得到排序模型;
6)服务器利用训练出的排序模型分别对每个待推荐信息进行打分,并根据打分分值的大小进行排序,得到排序结果;
按照预设的对咨询类型、咨询内容的对象、字数是否匹配用户A的“娱乐”、“明星”、“不超过700字”的偏好兴趣标签,结合预设的评分权重,得到排序模型的实际评分。
7)服务器根据排序结果确定与用户的兴趣特征匹配度超过预设阈值的目标信息,并将目标信息推荐给用户A的终端设备。
将评分TOP 2的信息确定为目标信息,并将其推荐给用户A的终端设备。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于训练模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于训练模型的装置400可以包括:特征获取单元401、中间表示获取单元402、隐式特征组合构造单元403和模型训练单元404。其中,特征获取单元401,被配置成获取用户的兴趣特征和样本待推荐信息的属性特征;中间表示获取单元402,被配置成按隐式特征组合的方式分别获取兴趣特征和属性特征的至少一个中间表示;隐式特征组合构造单元403,被配置成将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合;模型训练单元404,被配置成根据隐式特征组合进行训练,得到目标模型。
在本实施例中,用于训练模型的装置400中:特征获取单元401、中间表示获取单元402、隐式特征组合构造单元403和模型训练单元404的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,用于训练模型的装置400还可以包括:
评分及排序单元,被配置成在得到目标模型之后,利用目标模型分别对每个实际待推荐信息进行评分,并按照评分分值进行排序,得到排序结果;
目标信息确定及推荐单元,被配置成根据排序结果确定与用户的兴趣特征匹配度超过预设阈值的目标信息,并将目标信息推荐给用户。
在本实施例的一些可选的实现方式中,用于训练模型的装置400还可以包括:
查看结果接收单元,被配置成在将目标信息推荐给用户之后,接收用户返回的针对目标信息的查看结果;
感兴趣程度确定单元,被配置成根据查看结果确定用户针对目标信息的感兴趣程度;
模型参数调整单元,被配置成根据感兴趣程度调整目标模型的参数。
在本实施例的一些可选的实现方式中,模型训练单元404可以进一步被配置成:
将隐式特征组合与其余特征置入神经网络与隐层进行联合训练,得到目标模型;其中,其余特征为除兴趣特征和属性特征外的其它用户特征和其它信息特征。
在本实施例的一些可选的实现方式中,隐式特征组合构造单元403可以进一步被配置成:
求取至少两个中间表示的哈达玛积,并将得到的实际哈达玛积作为隐式特征组合。
在本实施例的一些可选的实现方式中,隐式特征组合构造单元403可以进一步被配置成:
求取至少两个中间表示的余弦相似度,并将得到的实际余弦相似度作为隐式特征组合。
在本实施例的一些可选的实现方式中,隐式特征组合构造单元403可以进一步被配置成:
响应于接收到的高阶特征交叉指令,将与高阶特征交叉指令所指示的阶数对应数量的中间表示按精简交叉方式构造为相应阶数的高阶隐式特征组合。
在本实施例的一些可选的实现方式中,用于训练模型的装置400还可以包括:
阶数调整单元,被配置成响应于剩余存储空间小于预设大小,降低将至少两个中间表示按预设的精简交叉方式构造为隐式特征组合的阶数。
本实施例作为对应于上述方法实施例的装置实施例存在,区别于采用浅层匹配或显式特征组合的现有技术,本申请实施例提供的用于训练模型的装置并非直接对兴趣特征和属性特征的明文进行交叉匹配,而是先按照隐式特征组合的方式通过Embedding层得到其原始特征经降维后的中间表示,使得基于不同的中间表示构造出的隐式特征组合训练出的模型具有较强的泛化能力。同时,由于采用区别于全量交叉方式的精简交叉方式,使得构造出的隐式特征组合的数据量更小、尽可能的避免了组合爆炸现象的产生,而基于精简交叉方式也更加便于构造出高阶的特征组合。
根据本申请的实施例,本申请还提供了一种电子设备和一种计算机可读存储介质。
图5示出了一种适于用来实现本申请实施例的用于训练模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于训练模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于训练模型的方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于训练模型的方法对应的程序指令/模块(例如,附图4所示的特征获取单元401、中间表示获取单元402、隐式特征组合构造单元403和模型训练单元404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于训练模型的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储该电子设备在执行用于训练模型的方法所创建的各类数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至适用于执行用于训练模型的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
适用于执行用于训练模型的方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生适用于执行用于训练模型的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来构建两者的关系。
区别于采用浅层匹配或显式特征组合训练得到模型的现有技术,本申请实施例并非直接对兴趣特征和属性特征的明文进行交叉匹配,而是先按照隐式特征组合的方式通过Embedding层得到其原始特征经降维后的中间表示,使得基于不同的中间表示构造出的隐式特征组合训练出的模型具有较强的泛化能力。同时,由于采用区别于全量交叉方式的精简交叉方式,使得构造出的隐式特征组合的数据量更小、尽可能的避免了组合爆炸现象的产生,而基于精简交叉方式也更加便于构造出高阶的特征组合。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种用于训练模型的方法,包括:
获取用户的兴趣特征和样本待推荐信息的属性特征;
按隐式特征组合的方式分别获取所述兴趣特征和所述属性特征的至少一个中间表示;其中,所述隐式特征组合指将原始的高维特征以降维的方式得到低维特征,以作为所述高维特征的中间表示;
将至少两个所述中间表示按预设的精简交叉方式构造为隐式特征组合;其中,所述精简交叉方式包括:求取至少两个所述中间表示的哈达玛积或余弦相似度;
将所述隐式特征组合与其余特征置入神经网络与隐层进行联合训练,得到目标模型;其中,所述其余特征为除所述兴趣特征和所述属性特征外的其它用户特征和其它信息特征;
其中,所述将至少两个所述中间表示按预设的精简交叉方式构造为隐式特征组合,包括:
响应于接收到高阶特征交叉指令,将与所述高阶特征交叉指令所指示的阶数对应数量的中间表示按所述精简交叉方式构造为相应阶数的高阶隐式特征组合。
2.根据权利要求1所述的方法,在得到所述目标模型之后,还包括:
利用所述目标模型分别对每个实际待推荐信息进行评分,并按照评分分值进行排序,得到排序结果;
根据所述排序结果确定与所述用户的兴趣特征匹配度超过预设阈值的目标信息,并将所述目标信息推荐给所述用户。
3.根据权利要求2所述的方法,在将所述目标信息推荐给所述用户之后,还包括:
接收所述用户返回的针对所述目标信息的查看结果;
根据所述查看结果确定所述用户针对所述目标信息的感兴趣程度;
根据所述感兴趣程度调整所述目标模型的参数。
4.根据权利要求1-3任一项所述的方法,还包括:
响应于剩余存储空间小于预设大小,降低将至少两个所述中间表示按预设的精简交叉方式构造为隐式特征组合的阶数。
5.一种用于训练模型的装置,包括:
特征获取单元,被配置成获取用户的兴趣特征和样本待推荐信息的属性特征;
中间表示获取单元,被配置成按隐式特征组合的方式分别获取所述兴趣特征和所述属性特征的至少一个中间表示;其中,所述隐式特征组合指将原始的高维特征以降维的方式得到低维特征,以作为所述高维特征的中间表示;
隐式特征组合构造单元,被配置成将至少两个所述中间表示按预设的精简交叉方式构造为隐式特征组合;其中,所述精简交叉方式包括:求取至少两个所述中间表示的哈达玛积或余弦相似度;
模型训练单元,被配置将所述隐式特征组合与其余特征置入神经网络与隐层进行联合训练,得到目标模型;其中,所述其余特征为除所述兴趣特征和所述属性特征外的其它用户特征和其它信息特征;
其中,所述隐式特征组合构造单元被进一步配置成:
响应于接收到高阶特征交叉指令,将与所述高阶特征交叉指令所指示的阶数对应数量的中间表示按所述精简交叉方式构造为相应阶数的高阶隐式特征组合。
6.根据权利要求5所述的装置,还包括:
评分及排序单元,被配置成在得到所述目标模型之后,利用所述目标模型分别对每个实际待推荐信息进行评分,并按照评分分值进行排序,得到排序结果;
目标信息确定及推荐单元,被配置成根据所述排序结果确定与所述用户的兴趣特征匹配度超过预设阈值的目标信息,并将所述目标信息推荐给所述用户。
7.根据权利要求6所述的装置,还包括:
查看结果接收单元,被配置成在将所述目标信息推荐给所述用户之后,接收所述用户返回的针对所述目标信息的查看结果;
感兴趣程度确定单元,被配置成根据所述查看结果确定所述用户针对所述目标信息的感兴趣程度;
模型参数调整单元,被配置成根据所述感兴趣程度调整所述目标模型的参数。
8.根据权利要求5-7任一项所述的装置,还包括:
阶数调整单元,被配置成响应于剩余存储空间小于预设大小,降低将至少两个所述中间表示按预设的精简交叉方式构造为隐式特征组合的阶数。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的用于推荐信息的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的用于推荐信息的方法。
CN202010876261.5A 2020-08-25 2020-08-25 用于训练模型的方法、装置、电子设备及可读存储介质 Active CN111967599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010876261.5A CN111967599B (zh) 2020-08-25 2020-08-25 用于训练模型的方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010876261.5A CN111967599B (zh) 2020-08-25 2020-08-25 用于训练模型的方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111967599A CN111967599A (zh) 2020-11-20
CN111967599B true CN111967599B (zh) 2023-07-28

Family

ID=73399320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010876261.5A Active CN111967599B (zh) 2020-08-25 2020-08-25 用于训练模型的方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111967599B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559885B (zh) * 2020-12-25 2024-01-12 北京百度网讯科技有限公司 地图兴趣点的训练模型确定方法、装置及电子设备
CN113205183B (zh) * 2021-04-23 2024-05-14 北京达佳互联信息技术有限公司 物品推荐网络训练方法、装置、电子设备及存储介质
CN114363671B (zh) * 2021-12-31 2024-03-19 北京达佳互联信息技术有限公司 多媒体资源推送方法、模型训练方法、装置、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339510A (zh) * 2016-10-28 2017-01-18 北京百度网讯科技有限公司 基于人工智能的点击预估方法及装置
CN109359247A (zh) * 2018-12-07 2019-02-19 广州市百果园信息技术有限公司 内容推送方法及存储介质、计算机设备
CN110085292A (zh) * 2019-04-28 2019-08-02 广东技术师范大学 药品推荐方法、装置及计算机可读存储介质
CN110149541A (zh) * 2019-04-23 2019-08-20 腾讯科技(深圳)有限公司 视频推荐方法、装置、计算机设备及存储介质
CN111177575A (zh) * 2020-04-07 2020-05-19 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
CN108335177A (zh) * 2018-03-09 2018-07-27 京东方科技集团股份有限公司 购物推荐方法、用户端、服务端、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339510A (zh) * 2016-10-28 2017-01-18 北京百度网讯科技有限公司 基于人工智能的点击预估方法及装置
CN109359247A (zh) * 2018-12-07 2019-02-19 广州市百果园信息技术有限公司 内容推送方法及存储介质、计算机设备
CN110149541A (zh) * 2019-04-23 2019-08-20 腾讯科技(深圳)有限公司 视频推荐方法、装置、计算机设备及存储介质
CN110085292A (zh) * 2019-04-28 2019-08-02 广东技术师范大学 药品推荐方法、装置及计算机可读存储介质
CN111177575A (zh) * 2020-04-07 2020-05-19 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合热度和隐特征分析模型推荐个性化森林旅游景点;蔡清;《林业经济问题》;40(1);第60-65页 *

Also Published As

Publication number Publication date
CN111967599A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
US11714816B2 (en) Information search method and apparatus, device and storage medium
US20240080531A1 (en) Profiling media characters
CN111967599B (zh) 用于训练模型的方法、装置、电子设备及可读存储介质
US8156060B2 (en) Systems and methods for generating and implementing an interactive man-machine web interface based on natural language processing and avatar virtual agent based character
KR20210040316A (ko) 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램
CN112632403B (zh) 推荐模型的训练方法、推荐方法、装置、设备和介质
CN111737559B (zh) 资源排序方法、训练排序模型的方法及对应装置
US12008591B2 (en) Machine learning based user targeting
US11475290B2 (en) Structured machine learning for improved whole-structure relevance of informational displays
US9129216B1 (en) System, method and apparatus for computer aided association of relevant images with text
US9331973B1 (en) Aggregating content associated with topics in a social network
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
CN114036398A (zh) 内容推荐和排序模型训练方法、装置、设备以及存储介质
US20210279269A1 (en) Content Fragments Aligned to Content Criteria
KR20190075277A (ko) 콘텐트 검색을 위한 방법 및 그 전자 장치
CN111563198B (zh) 一种物料召回方法、装置、设备及存储介质
US10600017B2 (en) Co-opetition index based on rival behavior in social networks
US20230117568A1 (en) Knowledge attributes and passage information based interactive next query recommendation
IL293916A (en) Resource recommendations in online chat conversations are based on text sequences
CN114357951A (zh) 生成标准报告的方法、装置、设备及存储介质
US10579630B2 (en) Content creation from extracted content
CN111523019B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN112541145A (zh) 一种页面展现方法、装置、设备及存储介质
CN111695036B (zh) 内容推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant