CN116955798A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116955798A CN116955798A CN202310593691.XA CN202310593691A CN116955798A CN 116955798 A CN116955798 A CN 116955798A CN 202310593691 A CN202310593691 A CN 202310593691A CN 116955798 A CN116955798 A CN 116955798A
- Authority
- CN
- China
- Prior art keywords
- feature
- initial
- sample
- domain
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 230000003993 interaction Effects 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 30
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 26
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于人工智能技术领域,具体涉及一种数据处理方法、装置、设备及存储介质。所述方法包括:将至少两个初始特征域输入至初始对象推荐模型进行处理,得到预设数量个初始特征域对和预测交互信息;基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练,得到目标对象推荐模型;基于目标对象推荐模型的模型参数,确定每个初始特征域对所对应的目标交叉权重数据;基于每个初始特征域对所对应的目标交叉权重数据,对至少两个初始特征域进行调整,得到目标特征域。通过基于目标交叉权重数据对初始特征域进行调整得到目标特征域,实现了基于推荐效果来确定特征域划分依据,从而避免了特征域内的特征损耗,实现了对推荐效果的准确预测。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着互联网技术的不断发展,为了使人们能够更方便地获取感兴趣的网络信息,互联网平台可能会基于推荐系统向目标账号进行对象推荐,比如向目标账号推荐文章、视频、音乐、图片、商品、广告等等。
推荐系统在向目标账号推荐某个对象之前,通常会基于对象推荐模型进行推荐效果预测。在进行推荐效果预测时,对象推荐模型通过将多种不同类型、不同维度的对象特征以及账号特征进行交叉组合,然后预测待推荐对象的推荐效果。对象推荐模型在对特征进行交叉组合时,需要先对输入的特征进行特征域划分。目前,特征域的划分方式通常仅仅是按照对象特征和账号特征进行粗略划分,并没有对特征与进行进一步的细化。这样的特征域划分方式并没有考虑到不同特征对推荐效果影响,而且也无法提供更细粒度的特征域划分依据。此外,基于上述特征域划分方式,同一特征域内的特征可能会对推荐效果起到互斥作用,从而导致特征损耗,无法对推荐效果进行准确预测。
发明内容
为了解决上述技术问题,本申请提供一种数据处理方法、装置、设备及存储介质。通过采用模型训练的方式得到每个初始特征域与其他初始特征域之间的目标交叉权重数据,然后基于目标交叉权重数据对初始特征域进行调整得到目标特征域,实现了基于推荐效果来确定特征域划分依据,从而避免了特征域内的特征损耗,进而实现了对推荐效果的准确预测。
一方面,本申请提出了一种数据处理方法,所述方法包括:
获取初始对象推荐模型、样本交互信息和至少两个初始特征域;每个初始特征域中包括至少一个样本特征数据;样本特征数据为样本推荐对象特征数据或样本账号特征数据;样本推荐对象特征数据为样本推荐对象对应的特征数据;样本账号特征数据为样本账号对应的特征数据;样本账号为接收样本推荐对象的账号;样本交互信息为样本账号与样本推荐对象之间的交互信息;
将至少两个初始特征域输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;以及基于每个初始特征域对,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息;
基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练,直至初始对象推荐模型输出的预测交互信息与样本交互信息之间的差异满足预设条件,得到目标对象推荐模型;
基于目标对象推荐模型的模型参数,确定每个初始特征域对所对应的目标交叉权重数据;目标交叉权重数据用于表征初始特征域对中的初始特征域进行特征交叉的交叉权重;
基于每个初始特征域对所对应的目标交叉权重数据,对至少两个初始特征域进行调整,得到目标特征域。
另一方面,本申请实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取初始对象推荐模型、样本交互信息和至少两个初始特征域;每个初始特征域中包括至少一个样本特征数据;样本特征数据为样本推荐对象特征数据或样本账号特征数据;样本推荐对象特征数据为样本推荐对象对应的特征数据;样本账号特征数据为样本账号对应的特征数据;样本账号为接收样本推荐对象的账号;样本交互信息为样本账号与样本推荐对象之间的交互信息;
处理模块,用于将至少两个初始特征域输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;以及基于每个初始特征域对,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息;
模型训练模块,用于基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练,直至初始对象推荐模型输出的预测交互信息与样本交互信息之间的差异满足预设条件,得到目标对象推荐模型;
目标交叉权重数据确定模块,用于基于目标对象推荐模型的模型参数,确定每个初始特征域对所对应的目标交叉权重数据;目标交叉权重数据用于表征初始特征域对中的初始特征域进行特征交叉的交叉权重;
特征域调整模块,用于基于每个初始特征域对所对应的目标交叉权重数据,对至少两个初始特征域进行调整,得到目标特征域。
另一方面,本申请提出了一种数据处理的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的数据处理方法。
另一方面,本申请提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的数据处理方法。
另一方面,本申请提出了一种计算机程序产品,所述计算机程被处理器执行时实现如上述所述的数据处理方法。
本申请实施例提出的数据处理方法、装置、电子设备及存储介质,基于初始特征域,通过初始对象推荐模型对样本推荐对象的推荐效果进行预测,并利用样本交互数据对初始对象推荐模型进行模型训练,从而得到目标对象推荐模型。然后基于目标对象推荐模型的模型参数,来确定每个初始特征域与其他初始特征域之间的目标交叉权重数据。然后将目标交叉权重数据作为特征域调整依据,来对初始划分得到的初始特征域进行调整,从而得到目标特征域,实现了特征域的准确划分。该方案基于推荐效果来确定特征域划分依据,从而避免了特征域内的特征损耗,进而提升了对推荐效果预测的准确度。
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是根据一示例性实施例示出的一种交互信息预测方法的实施环境示意图。
图2是根据一示例性实施例示出的一种数据处理方法的流程示意图。
图3是根据一示例性实施例示出的一种初始对象推荐模型的结构示意图。
图4是根据一示例性实施例示出的另一种初始对象推荐模型的结构示意图。
图5是根据一示例性实施例示出的一种数据处理装置框图。
图6是根据一示例性实施例提供的一种数据处理方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了使本申请实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(ArtificialIntelligence,AI)和机器学习(MachineLearning,ML)技术。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术,也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术;人工智能的软件技术一般包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能的发展与进步,人工智能在多个领域中进行研究和应用,如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着未来技术的进一步发展,人工智能将在更多的领域中得到应用,发挥出越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,那么深度学习则是机器学习的核心,是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习等技术,深度学习则包括移动视觉神经网络(Mobilenet)、卷积神经网络(Convolutional Neural Networks,CNN)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。
为了便于理解本申请实施例上述的技术方案及其产生的技术效果,本申请实施例首先对于相关专业名词进行解释:
特征域(Field):多个类似的特征会组成一个特征域,比如广告类型、广告规格、广告主属于广告这个“域”;通过对高维稀疏特征进行分组,然后利用组别内的所有特征来共建一个特征向量,以此来达到特征稠密降维的效果,从而减少模型输入规模,并有效降低模型参数。也就是说,特征域是输入模型的一类特征,而特征是属于某个特征域的数据化形式。
域加权因子分解机(Field-weighted Factorization Machines,FwFM):一种特征交叉方式,考虑了不同二阶交互特征对于最终预测的贡献度不同,在进行特征交叉时为每个特征域对设置了交叉权重数据。一个特征域对的交叉权重数据往往与其他特征域对的交叉权重数据不同,而不同的特征域对与特征标签的关联程度也显著不同。
域加权因子分解机(Field-weighted Factorization Machines,FwFM)及其变种以其模型简单、可解释性强等优点,被广泛应用在对象推荐模型中,进行特征交叉组合的处理。域加权因子分解机在对特征进行交叉组合时,需要先对输入的特征进行特征域划分。目前,特征域的划分方式仅仅是基于特征的来源进行简单分组,比如将来源于账号的特征组合为账号特征域,将来源于推荐对象的特征组合为推荐对象特征域。而这种特征域划分方式对于对象推荐效果来说可能是有损的。例如,对于特征域对(特征域i,特征域j),其中一个特征域中的所有特征,对另一个特征域都共享同一个交叉权重数据,即特征域i内的任意两个特征(特征_i_k,特征_i_l)与特征域j内特征的交叉权重数据均为w。然而,当特征_i_k与特征域j的实际交叉权重数据和特征_i_l与特征域j的实际交叉权重数据相差较大的时候,比如特征_i_k与特征域j的实际交叉权重数据为-0.1,特征_i_l与特征域j的实际交叉权重数据为0.2,而特征域i与特征域j之间的交叉权重数据w可能经过损耗后为0.05,这就使得特征_i_k与特征_i_l的作用相互抵消,从而影响最终预测的推荐效果。因此,有必要提供一种特征域划分标准来作为特征域划分依据,使得划分得到的特征域中的特征不会相互损耗,从而提高对推荐效果预测的准确度。
有鉴于此,本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质,基于初始特征域,通过初始对象推荐模型对样本推荐对象的推荐效果进行预测,并利用样本交互数据对初始对象推荐模型进行模型训练,从而得到目标对象推荐模型。然后基于目标对象推荐模型的模型参数,来确定每个初始特征域与其他初始特征域之间的目标交叉权重数据。然后将目标交叉权重数据作为特征域调整依据,来对初始划分得到的初始特征域进行调整,从而得到目标特征域,实现了特征域的准确划分。该方案基于推荐效果来确定特征域划分依据,利用推荐效果来反向确定特征域划分,从而避免了特征域内的特征损耗,进而提升了对推荐效果预测的准确度。
图1是根据一示例性实施例示出的一种交互信息预测方法的实施环境示意图。如图1所示,该实施环境至少可以包括客户端01和服务器02,该客户端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中,该客户端01可以用于获取初始对象推荐模型、样本交互信息和至少两个初始特征域。以及用于将至少两个初始特征域输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;并基于每个初始特征域对,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息。以及用于基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练,直至初始对象推荐模型输出的预测交互信息与样本交互信息之间的差异满足预设条件,得到目标对象推荐模型。以及用于基于目标对象推荐模型的模型参数,确定每个初始特征域对所对应的目标交叉权重数据。以及用于基于每个初始特征域对所对应的目标交叉权重数据,对至少两个初始特征域进行调整,得到目标特征域。可选地,该客户端01可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等,但并不局限于此。本申请实施例可应用于各种场景,包括但不限于对云技术、人工智能、智慧交通、辅助驾驶等各种场景所涉及到的交互信息进行渲染和展示。
本申请实施例中,该服务器02可以用于提供样本推荐对象特征数据、样本账号特征数据和样本交互信息。可选地,该服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,图1仅仅是一种示例。在其他场景中,还可以包括其他实施环境。
图2是根据一示例性实施例示出的一种数据处理方法的流程示意图。该数据处理方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图所述的数据处理方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S101:获取初始对象推荐模型、样本交互信息和至少两个初始特征域。
本申请实施例中,在将待推荐目标对象推荐给目标账号之前,可以基于预设对象推荐模型对待推荐目标对象推荐给目标账号的推荐效果进行预测。可选的,待推荐目标对象可以是文章、视频、音乐、图片、商品、广告等。预设对象推荐模型对待推荐目标对象推荐给目标账号的推荐效果进行预测时,通过获取待推荐目标对象的目标对象特征以及目标账号的目标账号特征,并对目标独享特征以及目标账号特征按照目标特征域的设置方式进行特征域划分,然后将这些特征按照划分的特征域进行特征交叉以及交互信息预测,从而得到目标交互预测信息。
本申请实施例中,目标特征域可以通过基于每个初始特征域对所对应的目标交叉权重数据对初始特征域进行调整得到。在确定目标交叉权重数据时,需要先获取初始对象推荐模型、样本交互信息和至少两个初始特征域。其中,初始对象推荐模型用于对输入的样本特征数据进行交互信息预测,从而得到预测交互信息。样本交互信息为样本账号与样本推荐对象之间的交互信息,样本账号为接收样本推荐对象的账号。可选的,样本推荐对象可以是文章、视频、音乐、图片、商品、广告等。可选的,样本交互信息可以是样本账号点击或不点击样本推荐对象。初始特征域为基于预设规则对样本特征数据进行特征域划分得到的。可选的,基于预设规则对样本特征数据进行特征域划分可以是按照样本特征数据的来源进行划分,也可以是按照样本特征数据的数据属性划分,还可以是对样本特征数据进行随机划分等。
本申请实施例中,每个初始特征域中包括至少一个样本特征数据。样本特征数据为样本推荐对象特征数据,也可以为样本账号特征数据。样本推荐对象特征数据为样本推荐对象对应的特征数据,样本账号特征数据为样本账号对应的特征数据。即每个初始特征域中可以包括一个至多个样本特征数据,每个初始特征域中的样本特征数据可以全部为样本推荐对象特征数据,也可以全部为样本账号特征数据,还可以既包含样本推荐对象特征数据也包含样本账号特征数据。在一些实施例中,这些样本特征数据和样本交互信息,可以是历史特征数据和历史交互信息。具体的,在将历史推荐对象向历史账号推荐后,可以得到历史账号与历史推荐对象对应的历史交互信息,即历史账号点击或未点击历史推荐对象。而历史推荐对象所对应的特征数据可以作为样本推荐对象特征数据,历史账号所对应的特征数据可以作为样本账号特征数据。
本申请实施例中,在对样本特征数据进行特征域划分得到至少两个初始特征域之前,可以先获取样本推荐对象特征集和样本账号特征集。其中,样本推荐对象特征集包括至少一个样本推荐对象特征数据。样本账号特征集包括至少一个样本账号特征数据。然后基于样本推荐对象特征数据和样本账号特征数据,生成至少两个初始特征域。至少两个初始特征域用于输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对。通过获取样本推荐对象特征集和样本账号特征集,来得到样本推荐对象特征数据和样本账号特征数据,然后基于样本推荐对象特征数据和样本账号特征数据,生成至少两个初始特征域,从而可以利用初始特征域来确定目标特征域,以实现对特征域的准确划分。
作为一种可选的实施方式,在基于样本推荐对象特征数据和样本账号特征数据进行初始特征域划分时,可以将所有的样本推荐对象特征数据组合在一起,得到样本推荐对象特征域,并将所有的样本账号特征数据打散,得到两个或多个样本账号特征域。具体的,可以基于样本推荐对象特征数据,生成样本推荐对象特征域,以及基于样本账号特征数据,生成预设数量个样本账号特征域。从而可以基于样本推荐对象特征域和预设数量个样本账号特征域,得到至少两个初始特征域。换句话来说就是,最终所得到的初始特征域中包括一个样本推荐对象特征域和两个或多个样本账号特征域。样本推荐对象特征域中可以包括一个或多个样本推荐对象特征数据,样本账号特征域中也可以包括一个或多个样本账号特征数据。通过将所有的样本推荐对象特征数据组合在一起,得到样本推荐对象特征域,并将所有的样本账号特征数据打散,得到两个或多个样本账号特征域,从而可以确定出每个样本账号特征域与样本推荐对象特征域的目标交叉权重数据,进而能够在特征域划分时实现对样本账号特征数据的准确划分。
应当理解的是,样本账号特征域中所包含的样本账号特征数据数量越少,越能够避免同一样本账号特征域中特征互相损耗的情况,也就越能够从更细粒度对样本账号特征数据进行特征域调整,从而实现对样本账号特征数据的准确划分。
作为另一种可选的实施方式,在基于样本账号特征数据和样本推荐对象特征数据进行初始特征域划分时,可以将所有的样本账号特征数据组合在一起,得到样本账号特征域,并将所有的样本推荐对象特征数据打散,得到两个或多个样本推荐对象特征域。具体的,可以基于样本账号特征数据,生成样本账号特征域,以及基于样本推荐对象特征数据,生成预设数量个样本推荐对象特征域。从而基于样本账号特征域和预设数量个样本推荐对象特征域,得到至少两个初始特征域。换句话来说就是,最终所得到的初始特征域中包括一个样本账号特征域和两个或多个样本推荐对象特征域。样本账号特征域中可以包括一个或多个样本账号特征数据,样本推荐对象特征域中也可以包括一个或多个样本推荐对象特征数据。通过将所有的样本账号特征数据组合在一起,得到样本账号特征域,并将所有的样本推荐对象特征数据打散,得到两个或多个样本推荐对象特征域,从而可以确定出每个样本推荐对象特征域与样本账号特征域的目标交叉权重数据,进而能够在特征域划分时实现对样本推荐对象特征数据的准确划分。
应当理解的是,样本推荐对象特征域中所包含的样本推荐对象特征数据数量越少,越能够避免同一样本推荐对象特征域中特征互相损耗的情况,也就越能够从更细粒度对样本推荐对象特征数据进行特征域调整,从而实现对样本推荐对象特征数据的准确划分。
需要说明的是,在基于样本账号特征数据和样本推荐对象特征数据进行初始特征域划分时,除了上述两种可选的实施方式之外,还可以将所有的样本账号特征数据和样本推荐对象特征数据均作为样本特征数据混合在一起,然后选取一定数量样本特征数据,比如一半的样本特征数据组合在一起作为一个特征域,并将剩余样本特征数据打散组合得到两个或多个特征域。
S103:将至少两个初始特征域输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;以及基于每个初始特征域对,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息。
本申请实施例中,在得到初始特征域后,可以将每个初始特征域中的特征组合后输入到初始对象推荐模型进行处理,从而得到初始对象推荐模型所输出的预测交互信息。具体的,初始对象推荐模型包括初始特征处理子模型和初始推荐预测子模型。初始对象推荐模型对初始特征域进行处理时,将每个初始特征域中的样本特征数据输入至初始特征处理子模型进行特征嵌入处理,得到每个初始特征域对应的特征向量。初始特征处理子模型通过将所有的初始特征域进行两两组合,得到预设数量个初始特征域对。初始特征处理子模型通过获取每个初始特征域对所对应的初始交叉权重数据,并基于每个初始特征域对中两个初始特征域所对应的特征向量确定初始交叉特征。初始交叉权重数据为初始特征处理子模型中的模型参数,该参数可通过模型训练得到目标交叉权重数据。然后通过将初始交叉特征输入到初始推荐预测子模型,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息。
作为一种可选的实施方式,在初始特征域为一个样本推荐对象特征域和两个或多个样本账号特征域时,所得到的初始特征域对为第一初始特征域对。每个初始特征域对包括一个样本推荐对象特征域和一个样本账号特征域。初始对象推荐模型可以包括第一初始特征处理子模型和第一初始推荐预测子模型。初始推荐预测子模型对样本账号和样本推荐对象之间的交互信息进行预测,所得到预测交互信息为第一预测交互信息。初始对象推荐模型对样本账号和样本推荐对象之间的交互信息进行预测过程可以包括:将样本推荐对象特征域中的特征数据输入第一初始特征处理子模型进行特征嵌入处理,可以得到样本推荐对象特征域对应的特征向量。将每个样本账号特征域中的特征数据输入第一初始特征处理子模型进行特征嵌入处理,可以得到每个样本账号特征域对应的特征向量。基于第一初始特征处理子模型可以确定每个第一初始特征域对所对应的第一初始交叉权重数据。基于每个第一初始特征域对所对应的特征向量和每个第一初始特征域对对应的第一初始交叉权重数据,可以确定第一初始交叉特征。通过将第一初始交叉特征输入第一初始推荐预测子模型,对样本账号和样本推荐对象之间的交互信息进行预测,可以得到第一预测交互信息。通过将一个样本推荐对象特征域以及两个或多个样本账号特征域中样本特征数据输入到初始对象推荐模型中进行处理,可以得到初始对象推荐模型所输出的第一预测交互信息,从而可以利用第一预测交互信息和样本交互信息对初始对象推荐模型进行训练,以得到作为特征域调整依据的目标交叉权重数据,实现对样本账号特征域的准确划分。
图3是根据一示例性实施例示出的一种初始对象推荐模型的结构示意图,如图3所示,初始对象推荐模型可以包括第一初始特征处理子模型和第一初始推荐预测子模型。在进行特征域划分时,可以先将样本特征数据划分为一个样本推荐对象特征域和若干样本账号特征域,其中,样本推荐对象特征域中可以包括多个样本推荐对象特征数据,每个样本账号特征域中可以包括一个样本账号特征数据。将一个样本推荐对象特征域和若干样本账号特征域中的样本特征数据输入到初始对象推荐第一初始特征处理子模型中,第一初始特征处理子模型中的特征向量表示层按照预设向量维度对每个特征域内的特征数据进行嵌入表示,从而得到每个特征域对应的特征向量。然后第一初始特征处理子模型将这些特征向量输入特征交叉层进行特征交叉,得到第一初始交叉特征。可选的,特征交叉层所采用的方法可以是FwFM算法以及FwFM算法的各种变种算法。第一初始交叉特征经过全连接层后进入第一初始推荐预测子模型,第一初始推荐预测子模型可以基于第一初始交叉特征进行预测,从而得到第一预测交互信息。
作为另一种可选的实施方式,在初始特征域为一个样本账号特征域和两个或多个样本推荐对象特征域时,所得到的初始特征域对为第二初始特征域对。每个初始特征域对包括一个样本账号特征域和一个样本推荐对象特征域。初始对象推荐模型可以包括第二初始特征处理子模型和第二初始推荐预测子模型。初始推荐预测子模型对样本推荐对象和样本账号之间的交互信息进行预测,所得到预测交互信息为第二预测交互信息。初始对象推荐模型对样本推荐对象和样本账号之间的交互信息进行预测过程可以包括:将样本账号特征域中的特征数据输入第二初始特征处理子模型进行特征嵌入处理,可以得到样本账号特征域对应的特征向量。将每个样本推荐对象特征域中的特征数据输入第二初始特征处理子模型进行特征嵌入处理,可以得到每个样本推荐对象特征域对应的特征向量。基于第二初始特征处理子模型可以确定每个第二初始特征域对所对应的第二初始交叉权重数据。基于每个第二初始特征域对所对应的特征向量和每个第二初始特征域对对应的第二初始交叉权重数据,可以确定第二初始交叉特征。通过将第二初始交叉特征输入第二初始推荐预测子模型,对样本推荐对象和样本账号之间的交互信息进行预测,可以得到第二预测交互信息。通过将一个样本账号特征域以及两个或多个样本推荐对象特征域中样本特征数据输入到初始对象推荐模型中进行处理,可以得到初始对象推荐模型所输出的第二预测交互信息,从而可以利用第二预测交互信息和样本交互信息对初始对象推荐模型进行训练,以得到作为特征域调整依据的目标交叉权重数据,实现对样本推荐对象特征域的准确划分。
图4是根据一示例性实施例示出的另一种初始对象推荐模型的结构示意图,如图4所示,初始对象推荐模型可以包括第二初始特征处理子模型和第二初始推荐预测子模型。在进行特征域划分时,可以先将样本特征数据划分为一个样本账号特征域和若干样本推荐对象特征域,其中,样本账号特征域中可以包括多个样本账号特征数据,每个样本推荐对象特征域中可以包括一个样本推荐对象特征数据。将一个样本账号特征域和若干样本推荐对象特征域中的样本特征数据输入到初始对象推荐第二初始特征处理子模型中,第二初始特征处理子模型按照预设向量维度对每个特征域内的特征数据进行嵌入表示,从而得到每个特征域对应的特征向量。然后第二初始特征处理子模型将这些特征向量输入特征交叉层进行特征交叉,得到第二初始交叉特征。可选的,特征交叉层所采用的方法可以是FwFM算法以及FwFM算法的各种变种算法。第二初始交叉特征经过全连接层后进入第二初始推荐预测子模型,第二初始推荐预测子模型可以基于第二初始交叉特征进行预测,从而得到第二预测交互信息。
S105:基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练,直至初始对象推荐模型输出的预测交互信息与样本交互信息之间的差异满足预设条件,得到目标对象推荐模型。
本申请实施例中,在得到初始对象推荐模型输出的预测交互信息后,可以基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练。在模型训练过程中,预测交互信息和样本交互信息之间的差异可以用损失函数来进行表示,可选的,可以采用交叉熵(Cross Entropy)作为损失函数来确定预测交互信息和样本交互信息之间的差异。当预测交互信息和样本交互信息之间的差异小于预设值时,即将初始对象推荐模型训练收敛后,可以得到目标对象推荐模型。
S107:基于目标对象推荐模型的模型参数,确定每个初始特征域对所对应的目标交叉权重数据。
本申请实施例中,在得到目标对象推荐模型后,确定目标对象推荐模型中的模型参数,进而可以根据目标对象推荐模型中的模型参数确定出每个初始特征域对所对应的目标交叉权重数据。其中,目标交叉权重数据用于表征初始特征域对中的初始特征域进行特征交叉的交叉权重。在一些实施例中,在得到目标对象推荐模型后,也可以直接确定目标推荐模型中特征处理子模型所对应的模型参数,进而可以根据特征处理子模型所对应的模型参数得到每个初始特征域对所对应的目标交叉权重数据。
S109:基于每个初始特征域对所对应的目标交叉权重数据,对至少两个初始特征域进行调整,得到目标特征域。
本申请实施例中,在得到每个初始特征域对所对应的目标交叉权重数据后,可以将目标交叉权重数据接近的初始特征域对中的初始特征域进行合并,从而可以将合并后的初始特征域作为目标特征域。具体来说,可以选取任意两个初始特征域对作为特征域组合,然后将特征域组合中的两个初始特征域对各自对应的目标交叉权重数据进行相减并求绝对值,得到该特征域组合对应的交叉权重变化数据,如果该交叉权重变化数据小于变化阈值,则说明特征域组合中的两个初始特征域对存在可以合并的初始特征域,通过将可以合并的初始特征域进行合并,得到目标特征域。
本申请实施例中,目标对象推荐模型可以包括第一目标对象推荐模型和第二目标对象推荐模型。其中,第一目标推荐模型所对应的初始特征域为一个样本推荐对象特征域和两个或多个样本账号特征域。第二目标推荐模型所对应的初始特征域为一个样本账号特征域和两个或多个样本推荐对象特征域。同样的,基于第一目标对象推荐模型所得到的目标交叉权重数据为第一目标交叉权重数据。基于第二目标对象推荐模型所得到的目标交叉权重数据为第二目标交叉权重数据。在基于目标交叉权重数据对初始特征域进行调整时,可以按照目标交叉权重数据所对应的初始特征域对进行调整。
作为一种可选的实施方式,在初始特征域为一个样本推荐对象特征域和两个或多个样本账号特征域时,所得到的目标交叉权重数据为第一目标交叉权重数据,第一目标交叉权重数据用于表征每个第一初始特征域对中的样本推荐对象特征域与样本账号特征域的交叉权重。在基于每个初始特征域对所对应的目标交叉权重数据对初始特征域进行调整时,可以将预设数量个第一初始特征域对中的任意两个第一初始特征域对,确定为第一特征域组合。基于第一特征域组合中每个第一初始特征域对所对应的第一目标交叉权重数据,确定第一特征域组合的交叉权重变化数据。在交叉权重变化数据小于第一变化阈值的情况下,确定第一特征域组合中每个第一初始特征域对所包含的样本账号特征域。通过将第一特征域组合中每个第一初始特征域对所包含的样本账号特征域进行合并,得到目标特征域。也就是说,在得到第一目标交叉权重数据后,可以将这些交叉权重数据两两组合,并计算每个组合的交叉权重变化数据,如果交叉权重变化数据小于第一变化阈值,则可以将组合所对应的两个样本账号特征域进行合并,从而得到目标特征域。将样本账号特征域进行合并后,所得到的与样本账号特征数据相关联的特征域为第一目标特征域。作为一种示例,所有样本推荐对象特征放入一个样本推荐对象特征域,假设有M个样本账号特征数据,则这些样本账号特征数据可以拆成M个样本账号特征域。通过模型训练得到第一目标对象推荐模型后,可以得到M个样本账号特征域与一个样本推荐对象特征域的第一目标交叉权重数据V=[v1,...,vM],其中,vi表示第i个样本账号特征域与样本推荐对象特征域的交互强度。通过对向量第一目标交叉权重数据V进行分组,如果任意两第一目标交叉权重数据个vi,vj的大小接近,则将其分为一组构造成新的样本账号特征域。判定vi,vj的大小接近时需要满足:|vi-vj|<E,E即为第一变化阈值,可以是自定义的一个数,比如0.1。作为另一种示例,样本账号特征数据包括样本账号对应的账号年龄数据、账号性别数据、账号技能等级数据,这些样本账号特征数据均为经过样本账号充分授权的情况下收集得到,且收集过程符合相关法律规定。每个样本账号特征数据可以作为一个样本账号特征域,通过模型训练得到每个样本账号特征域与样本推荐对象特征域的第一目标交叉权重数据,当两个第一目标交叉权重数据接近时,比如账号年龄数据所在特征域与样本推荐对象特征域的第一目标交叉权重数据,与账号性别数据所在特征域与样本推荐对象特征域的第一目标交叉权重数据接近,则可以将账号年龄数据所在特征域与账号性别数据所在特征域合并为一个特征域,合并后得到的第一目标特征域中包括账号年龄数据和账号性别数据。而账号技能等级数据则可以单独作为第一目标特征域。通过确定第一特征域组合,并基于第一目标交叉权重数据确定每个第一特征域组合的交叉权重变化数据,从而得到对初始特征域进行调整的依据,实现了对样本账号特征域的准确划分,进而基于调整后得到的目标特征域进行推荐效果预测,可以提升预测结果的准确度。
作为另一种可选的实施方式,在初始特征域为一个样本账号特征域和两个或多个样本推荐对象特征域时,所得到的目标交叉权重数据为第二目标交叉权重数据,第二目标交叉权重数据用于表征每个第二初始特征域对中的样本账号特征域与样本推荐对象特征域的交叉权重。在基于每个初始特征域对所对应的目标交叉权重数据对初始特征域进行调整时,可以将预设数量个第二初始特征域对中的任意两个第二初始特征域对,确定为第二特征域组合。基于第二特征域组合中每个第二初始特征域对所对应的第二目标交叉权重数据,确定第二特征域组合的交叉权重变化数据。在交叉权重变化数据小于第二变化阈值的情况下,确定第二特征域组合中每个第二初始特征域对所包含的样本推荐对象特征域。通过将第二特征域组合中每个第二初始特征域对所包含的样本推荐对象特征域进行合并,得到目标特征域。也就是说,在得到第二目标交叉权重数据后,可以将这些交叉权重数据两两组合,并计算每个组合的交叉权重变化数据,如果交叉权重变化数据小于第二变化阈值,则可以将组合所对应的两个样本推荐对象特征域进行合并,从而得到目标特征域。将样本推荐对象特征域进行合并后,所得到的与样本推荐对象特征数据相关联的特征域为第二目标特征域。作为一种示例,所有样本账号特征放入一个样本账号特征域,假设有N个样本推荐对象特征数据,则这些样本推荐对象特征数据可以拆成N个样本推荐对象特征域。通过模型训练得到第二目标对象推荐模型后,可以得到N个样本推荐对象特征域与一个样本账号特征域的第二目标交叉权重数据V=[v1,...,vN],其中,vi表示第i个样本推荐对象特征域与样本账号特征域的交互强度。通过对向量第二目标交叉权重数据V进行分组,如果任意两第二目标交叉权重数据个vi,vj的大小接近,则将其分为一组构造成新的样本推荐对象特征域。判定vi,vj的大小接近时需要满足:|vi-vj|<E,E即为第二变化阈值,可以是自定义的一个数,比如0.1。作为另一种示例,样本推荐对象特征数据包括样本推荐对象对应的对象标识数据、对象类目数据、对象投放方标识数据。每个样本推荐对象特征数据可以作为一个样本推荐对象特征域,通过模型训练得到每个样本推荐对象特征域与样本账号特征域的第二目标交叉权重数据,当两个第二目标交叉权重数据接近时,比如对象标识数据所在特征域与样本账号特征域的第二目标交叉权重数据,与对象投放方标识数据所在特征域与样本账号特征域的第一目标交叉权重数据接近,则可以将对象标识数据所在特征域与对象投放方标识数据所在特征域合并为一个特征域,合并后得到的第二目标特征域中包括推荐对象年龄数据和推荐对象性别数据。而对象类目数据则可以单独作为第二目标特征域。通过确定第二特征域组合,并基于第二目标交叉权重数据确定每个第二特征域组合的交叉权重变化数据,从而得到对初始特征域进行调整的依据,实现了对样本推荐对象特征域的准确划分,进而基于调整后得到的目标特征域进行推荐效果预测,可以提升预测结果的准确度。
需要说明的是,在实际应用中,在确定目标特征域时,通常不仅需要对账号特征数据进行特征域划分,还需要对推荐对象特征数据进行特征域划分。因此,在确定特征域划分时,可以按照上述方式来分别确定第一目标特征域和第二目标特征域。确定第一目标特征域和第二目标特征域的过程可以串行处理,也可以并行处理,且第一目标特征域和第二目标特征域的确定过程可以各自独立运行。
本申请实施例中,在得到第一目标特征域和第二目标特征域后,即确定出账号特征数据所对应的特征域划分方式以及推荐对象特征数据所对应的特征域划分方式后,可以基于第一目标特征域和第二目标特征域对初始对象推荐模型进行训练,以得到预设对象推荐模型。利用预设对象推荐模型可以对待推荐目标对象推荐给目标账号的推荐效果进行预测。由于预设对象推荐模型在特征输入时,每个特征域中的特征数据所对应的交叉权重数据接近,因此不存在特征损耗,从而提高了对目标账号与待推荐目标对象之间交互信息预测的准确度。
本申请实施例还提供了一种数据处理装置,图5是根据一示例性实施例示出的一种数据处理装置框图。如图5所示,该装置可以至少包括:
获取模块201,用于获取初始对象推荐模型、样本交互信息和至少两个初始特征域;每个初始特征域中包括至少一个样本特征数据;样本特征数据为样本推荐对象特征数据或样本账号特征数据;样本推荐对象特征数据为样本推荐对象对应的特征数据;样本账号特征数据为样本账号对应的特征数据;样本账号为接收样本推荐对象的账号;样本交互信息为样本账号与样本推荐对象之间的交互信息;
处理模块203,用于将至少两个初始特征域输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;以及基于每个初始特征域对,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息;
模型训练模块205,用于基于预测交互信息和样本交互信息对初始对象推荐模型进行模型训练,直至初始对象推荐模型输出的预测交互信息与样本交互信息之间的差异满足预设条件,得到目标对象推荐模型;
目标交叉权重数据确定模块207,用于基于目标对象推荐模型的模型参数,确定每个初始特征域对所对应的目标交叉权重数据;目标交叉权重数据用于表征初始特征域对中的初始特征域进行特征交叉的交叉权重;
特征域调整模块209,用于基于每个初始特征域对所对应的目标交叉权重数据,对至少两个初始特征域进行调整,得到目标特征域。
在一些可选的实施例中,所述装置还包括:
特征集获取模块,用于获取样本推荐对象特征集和样本账号特征集;样本推荐对象特征集包括至少一个样本推荐对象特征数据;样本账号特征集包括至少一个样本账号特征数据;
初始特征域生成模块,用于基于样本推荐对象特征数据和样本账号特征数据,生成至少两个初始特征域;至少两个初始特征域用于输入至初始对象推荐模型进行组合处理,得到预设数量个初始特征域对。
在一些可选的实施例中,初始特征域生成模块包括:
样本推荐对象特征域生成子模块,用于基于样本推荐对象特征数据,生成样本推荐对象特征域;
样本账号特征域生成子模块,用于基于样本账号特征数据,生成预设数量个样本账号特征域;
初始特征域确定子模块,用于基于样本推荐对象特征域和预设数量个样本账号特征域,得到至少两个初始特征域。
在一些可选的实施例中,初始特征域生成模块包括:
样本账号特征域生成子模块,用于基于样本账号特征数据,生成样本账号特征域;
样本推荐对象特征域生成子模块,用于基于样本推荐对象特征数据,生成预设数量个样本推荐对象特征域;
初始特征域确定子模块,用于基于样本账号特征域和预设数量个样本推荐对象特征域,得到至少两个初始特征域。
在一些可选的实施例中,初始特征域对为第一初始特征域对;预测交互信息为第一预测交互信息;初始对象推荐模型包括第一初始特征处理子模型和第一初始推荐预测子模型;处理模块包括:
第一处理子模块,用于将样本推荐对象特征域中的特征数据和每个样本账号特征域中的特征数据分别输入第一初始特征处理子模型,以对样本推荐对象特征域中的特征数据进行特征嵌入处理,得到样本推荐对象特征域对应的特征向量;以及对每个样本账号特征域中的特征数据进行特征嵌入处理,得到每个样本账号特征域对应的特征向量;以及确定每个第一初始特征域对所对应的第一初始交叉权重数据;以及对所对应的特征向量和每个第一初始特征域对对应的第一初始交叉权重数据,确定第一初始交叉特征;
第一交互信息预测子模块,用于将第一初始交叉特征输入第一初始推荐预测子模型,对样本账号和样本推荐对象之间的交互信息进行预测,得到第一预测交互信息。
在一些可选的实施例中,目标交叉权重数据为第一目标交叉权重数据;第一目标交叉权重数据用于表征每个第一初始特征域对中的样本推荐对象特征域与样本账号特征域的交叉权重;特征域调整模块包括:
第一特征域组合确定子模块,用于将预设数量个第一初始特征域对中的任意两个第一初始特征域对,确定为第一特征域组合;
第一交叉权重变化数据确定子模块,用于基于第一特征域组合中每个第一初始特征域对所对应的第一目标交叉权重数据,确定第一特征域组合的交叉权重变化数据;
样本账号特征域确定子模块,用于在交叉权重变化数据小于第一变化阈值的情况下,确定第一特征域组合中每个第一初始特征域对所包含的样本账号特征域;
第一特征域合并子模块,用于将第一特征域组合中每个第一初始特征域对所包含的样本账号特征域进行合并,得到目标特征域。
在一些可选的实施例中,初始特征域对为第二初始特征域对;预测交互信息为第二预测交互信息;初始对象推荐模型包括第二初始特征处理子模型和第二初始推荐预测子模型;处理模块包括:
第二处理子模块,用于将样本账号特征域中的特征数据和每个样本推荐对象特征域中的特征数据分别输入第二初始特征处理子模型,以对样本账号特征域中的特征数据进行特征嵌入处理,得到样本账号特征域对应的特征向量;以及对每个样本推荐对象特征域中的特征数据进行特征嵌入处理,得到每个样本推荐对象特征域对应的特征向量;以及确定每个第二初始特征域对所对应的第二初始交叉权重数据;以及对所对应的特征向量和每个第二初始特征域对对应的第二初始交叉权重数据,确定第二初始交叉特征;
第二交互信息预测子模块,用于将第二初始交叉特征输入第二初始推荐预测子模型,对样本推荐对象和样本账号之间的交互信息进行预测,得到第二预测交互信息。
在一些可选的实施例中,目标交叉权重数据为第二目标交叉权重数据;第二目标交叉权重数据用于表征每个第二初始特征域对中的样本账号特征域与样本推荐对象特征域的交叉权重;特征域调整模块包括:
第二特征域组合确定子模块,用于将预设数量个第二初始特征域对中的任意两个第二初始特征域对,确定为第二特征域组合;
第二交叉权重变化数据确定子模块,用于基于第二特征域组合中每个第二初始特征域对所对应的第二目标交叉权重数据,确定第二特征域组合的交叉权重变化数据;
样本推荐对象特征域确定子模块,用于在交叉权重变化数据小于第二变化阈值的情况下,确定第二特征域组合中每个第二初始特征域对所包含的样本推荐对象特征域;
第二特征域合并子模块,用于将第二特征域组合中每个第二初始特征域对所包含的样本推荐对象特征域进行合并,得到目标特征域。
需要说明的是,本申请实施例提供的数据处理装置实施例与上述数据处理方法实施例基于相同的发明构思。
本申请实施例还提供了一种数据处理的电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述任一实施例提供的数据处理方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可设置于终端之中以保存用于实现数据处理方法实施例中一种数据处理方法的至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的数据处理方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的数据处理方法。
本申请实施例所提供的数据处理方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图6是根据一示例性实施例提供的一种数据处理方法的服务器的硬件结构框图。如图6所示,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)310(中央处理器310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器330,一个或一个以上存储应用程序323或数据322的存储介质320(例如一个或一个以上海量存储设备)。其中,存储器330和存储介质320可以是短暂存储或持久存储。存储在存储介质320的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质320通信,在服务器300上执行存储介质320中的一系列指令操作。服务器300还可以包括一个或一个以上电源360,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口340,和/或,一个或一个以上操作系统321,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器300的通信供应商提供的无线网络。在一个实例中,输入输出接口340包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口340可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器300还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
获取初始对象推荐模型、样本交互信息和至少两个初始特征域;每个所述初始特征域中包括至少一个样本特征数据;所述样本特征数据为样本推荐对象特征数据或样本账号特征数据;所述样本推荐对象特征数据为样本推荐对象对应的特征数据;所述样本账号特征数据为样本账号对应的特征数据;所述样本账号为接收所述样本推荐对象的账号;所述样本交互信息为所述样本账号与所述样本推荐对象之间的交互信息;
将至少两个所述初始特征域输入至所述初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;以及基于每个所述初始特征域对,对所述样本账号和所述样本推荐对象之间的交互信息进行预测处理,得到预测交互信息;
基于所述预测交互信息和所述样本交互信息对所述初始对象推荐模型进行模型训练,直至所述初始对象推荐模型输出的预测交互信息与所述样本交互信息之间的差异满足预设条件,得到目标对象推荐模型;
基于所述目标对象推荐模型的模型参数,确定每个所述初始特征域对所对应的目标交叉权重数据;所述目标交叉权重数据用于表征所述初始特征域对中的初始特征域进行特征交叉的交叉权重;
基于每个所述初始特征域对所对应的目标交叉权重数据,对至少两个所述初始特征域进行调整,得到目标特征域。
2.根据权利要求1所述的方法,其特征在于,在所述获取初始对象推荐模型、样本交互信息和至少两个初始特征域之前,所述方法还包括:
获取样本推荐对象特征集和样本账号特征集;所述样本推荐对象特征集包括至少一个所述样本推荐对象特征数据;所述样本账号特征集包括至少一个所述样本账号特征数据;
基于所述样本推荐对象特征数据和所述样本账号特征数据,生成至少两个所述初始特征域;至少两个所述初始特征域用于输入至所述初始对象推荐模型进行组合处理,得到预设数量个所述初始特征域对。
3.根据权利要求2所述的方法,其特征在于,所述基于所述样本推荐对象特征数据和所述样本账号特征数据,生成至少两个所述初始特征域,包括:
基于所述样本推荐对象特征数据,生成样本推荐对象特征域;
基于所述样本账号特征数据,生成预设数量个样本账号特征域;
基于所述样本推荐对象特征域和预设数量个所述样本账号特征域,得到至少两个所述初始特征域。
4.根据权利要求2所述的方法,其特征在于,所述基于所述样本推荐对象特征数据和所述样本账号特征数据,生成至少两个所述初始特征域,包括:
基于所述样本账号特征数据,生成样本账号特征域;
基于所述样本推荐对象特征数据,生成预设数量个样本推荐对象特征域;
基于所述样本账号特征域和预设数量个所述样本推荐对象特征域,得到至少两个所述初始特征域。
5.根据权利要求3所述的方法,其特征在于,所述初始特征域对为第一初始特征域对;所述预测交互信息为第一预测交互信息;所述初始对象推荐模型包括第一初始特征处理子模型和第一初始推荐预测子模型;所述基于每个所述初始特征域对,对所述样本账号和所述样本推荐对象之间的交互信息进行预测处理,得到预测交互信息,包括:
将所述样本推荐对象特征域中的特征数据和每个所述样本账号特征域中的特征数据分别输入所述第一初始特征处理子模型,以对所述样本推荐对象特征域中的特征数据进行特征嵌入处理,得到所述样本推荐对象特征域对应的特征向量;以及对每个所述样本账号特征域中的特征数据进行特征嵌入处理,得到每个所述样本账号特征域对应的特征向量;以及确定每个所述第一初始特征域对所对应的第一初始交叉权重数据;以及对所对应的特征向量和每个所述第一初始特征域对所述对应的第一初始交叉权重数据,确定第一初始交叉特征;
将所述第一初始交叉特征输入所述第一初始推荐预测子模型,以对所述样本账号和所述样本推荐对象之间的交互信息进行预测,得到所述第一预测交互信息。
6.根据权利要求5所述的方法,其特征在于,所述目标交叉权重数据为第一目标交叉权重数据;所述第一目标交叉权重数据用于表征每个所述第一初始特征域对中的样本推荐对象特征域与样本账号特征域的交叉权重;所述基于每个所述初始特征域对所对应的目标交叉权重数据,对至少两个所述初始特征域进行调整,得到目标特征域,包括:
将预设数量个所述第一初始特征域对中的任意两个第一初始特征域对,确定为第一特征域组合;
基于所述第一特征域组合中每个第一初始特征域对所对应的第一目标交叉权重数据,确定所述第一特征域组合的交叉权重变化数据;
在所述交叉权重变化数据小于第一变化阈值的情况下,确定所述第一特征域组合中每个第一初始特征域对所包含的样本账号特征域;
将所述第一特征域组合中每个第一初始特征域对所包含的样本账号特征域进行合并,得到目标特征域。
7.根据权利要求4所述的方法,其特征在于,所述初始特征域对为第二初始特征域对;所述预测交互信息为第二预测交互信息;所述初始对象推荐模型包括第二初始特征处理子模型和第二初始推荐预测子模型;所述基于每个所述初始特征域对,对所述样本账号和所述样本推荐对象之间的交互信息进行预测处理,得到预测交互信息,包括:
将所述样本账号特征域中的特征数据和每个所述样本推荐对象特征域中的特征数据分别输入所述第二初始特征处理子模型,以对所述样本账号特征域中的特征数据进行特征嵌入处理,得到所述样本账号特征域对应的特征向量;以及对每个所述样本推荐对象特征域中的特征数据进行特征嵌入处理,得到每个所述样本推荐对象特征域对应的特征向量;以及确定每个所述第二初始特征域对所对应的第二初始交叉权重数据;以及对所对应的特征向量和每个所述第二初始特征域对所述对应的第二初始交叉权重数据,确定第二初始交叉特征;
将所述第二初始交叉特征输入所述第二初始推荐预测子模型,对所述样本推荐对象和所述样本账号之间的交互信息进行预测,得到所述第二预测交互信息。
8.根据权利要求7所述的方法,其特征在于,所述目标交叉权重数据为第二目标交叉权重数据;所述第二目标交叉权重数据用于表征每个所述第二初始特征域对中的样本账号特征域与样本推荐对象特征域的交叉权重;所述基于每个所述初始特征域对所对应的目标交叉权重数据,对至少两个所述初始特征域进行调整,得到目标特征域,包括:
将预设数量个所述第二初始特征域对中的任意两个第二初始特征域对,确定为第二特征域组合;
基于所述第二特征域组合中每个第二初始特征域对所对应的第二目标交叉权重数据,确定所述第二特征域组合的交叉权重变化数据;
在所述交叉权重变化数据小于第二变化阈值的情况下,确定所述第二特征域组合中每个第二初始特征域对所包含的样本推荐对象特征域;
将所述第二特征域组合中每个第二初始特征域对所包含的样本推荐对象特征域进行合并,得到目标特征域。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取初始对象推荐模型、样本交互信息和至少两个初始特征域;每个所述初始特征域中包括至少一个样本特征数据;所述样本特征数据为样本推荐对象特征数据或样本账号特征数据;所述样本推荐对象特征数据为所述样本推荐对象对应的特征数据;所述样本账号特征数据为所述样本账号对应的特征数据;所述样本账号为接收所述样本推荐对象的账号;所述样本交互信息为所述样本账号与所述样本推荐对象之间的交互信息;
处理模块,用于将至少两个所述初始特征域输入至所述初始对象推荐模型进行组合处理,得到预设数量个初始特征域对;以及基于每个所述初始特征域对,对样本账号和样本推荐对象之间的交互信息进行预测处理,得到预测交互信息;
模型训练模块,用于基于所述预测交互信息和所述样本交互信息对所述初始对象推荐模型进行模型训练,直至所述初始对象推荐模型输出的所述预测交互信息与所述样本交互信息之间的差异满足预设条件,得到目标对象推荐模型;
目标交叉权重数据确定模块,用于基于所述目标对象推荐模型的模型参数,确定每个所述初始特征域对所对应的目标交叉权重数据;所述目标交叉权重数据用于表征所述初始特征域对中的初始特征域进行特征交叉的交叉权重;
特征域调整模块,用于基于每个所述初始特征域对所对应的目标交叉权重数据,对至少两个所述初始特征域进行调整,得到目标特征域。
10.一种数据处理的电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-8任一项所述的数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-8任一项所述的数据处理方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593691.XA CN116955798A (zh) | 2023-05-23 | 2023-05-23 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593691.XA CN116955798A (zh) | 2023-05-23 | 2023-05-23 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955798A true CN116955798A (zh) | 2023-10-27 |
Family
ID=88450140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310593691.XA Pending CN116955798A (zh) | 2023-05-23 | 2023-05-23 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955798A (zh) |
-
2023
- 2023-05-23 CN CN202310593691.XA patent/CN116955798A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902222B (zh) | 一种推荐方法及装置 | |
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN109902706B (zh) | 推荐方法及装置 | |
CN111708950B (zh) | 内容推荐方法、装置及电子设备 | |
CN110807150A (zh) | 信息处理方法及装置、电子设备和计算机可读存储介质 | |
CN110222838B (zh) | 文档排序方法、装置、电子设备及存储介质 | |
CN107169574A (zh) | 利用嵌套机器学习模型来执行预测的方法及系统 | |
CN111949886B (zh) | 一种用于信息推荐的样本数据生成方法和相关装置 | |
CN113254804A (zh) | 一种基于用户属性和行为特征的社会关系推荐方法及系统 | |
CN113569129A (zh) | 点击率预测模型处理方法、内容推荐方法、装置及设备 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN117217284A (zh) | 一种数据处理方法及其装置 | |
CN117009650A (zh) | 一种推荐方法以及装置 | |
CN112269943B (zh) | 一种信息推荐系统及方法 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN116843022A (zh) | 一种数据处理方法及相关装置 | |
CN114092162B (zh) | 推荐质量确定方法、推荐质量确定模型的训练方法及装置 | |
CN116955798A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114840759A (zh) | 一种推荐方法、装置及计算机可读存储介质 | |
Ahmed et al. | Predicting human interest: an application of artificial intelligence and uncertainty quantification | |
CN116628236B (zh) | 多媒体信息的投放方法、装置、电子设备及存储介质 | |
WO2023051678A1 (zh) | 一种推荐方法及相关装置 | |
KR102266151B1 (ko) | 인공지능 기반 투표플랫폼을 통한 소비자 선호도를 제공하는 방법 | |
JP7498248B2 (ja) | コンテンツ推薦とソートモデルトレーニング方法、装置、機器、記憶媒体及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |