CN114510638A - 信息处理方法、装置、设备、存储介质及程序产品 - Google Patents
信息处理方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN114510638A CN114510638A CN202210128942.2A CN202210128942A CN114510638A CN 114510638 A CN114510638 A CN 114510638A CN 202210128942 A CN202210128942 A CN 202210128942A CN 114510638 A CN114510638 A CN 114510638A
- Authority
- CN
- China
- Prior art keywords
- target
- sample
- information
- period
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请是关于一种信息处理方法、装置、设备、存储介质及程序产品,涉及互联网应用技术领域。该方法包括:获取各个对象在目标周期内的对象特征,以及K种目标信息在所述目标周期内的信息特征;基于对象特征以及信息特征预测所述各个对象的分类结果;基于所述各个对象的分类结果,从所述各个对象中选取至少两个目标对象;基于目标对象的对象特征,以及信息特征,对至少两个目标对象进行聚类,获得K个对象分组;分别对应所述K个对象分组对K种所述目标信息执行第一处理。上述方案可以应用于车载场景,提高了信息处理的准确性,同时还能够保证信息处理的效率。
Description
技术领域
本申请实施例涉及互联网应用技术领域,特别涉及一种信息处理方法、装置、设备、存储介质及程序产品。
背景技术
随着大数据技术以及人工智能(Artificial Intelligence,AI)技术的不断发展,目前的信息处理系统可以针对各个对象进行个性化的信息处理。
在相关技术中,对于给定的信息,推荐系统可以将各个对象的特征,以及待处理的信息的特征,输入至AI模型进行预测,以从各个对象中预测出适合该信息的目标对象,然后对应该目标对象处理上述信息。
然而,上述方案中,当待处理的信息包括多种类型的信息时,需要对应每个目标对象处理多种类型的信息,而该目标对象通常只对其中一种信息感兴趣,进而影响信息处理的准确性。
发明内容
本申请实施例提供了一种信息处理方法、装置、设备、存储介质及程序产品,可以提高信息处理的准确性。该技术方案如下:
一方面,提供了一种信息处理方法,所述方法包括:
获取各个对象在目标周期内的对象特征,以及K种目标信息在所述目标周期内的信息特征;K大于等于2,且K为整数;
基于所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;
基于所述各个对象的分类结果,从所述各个对象中选取至少两个目标对象;
基于至少两个所述目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组;
在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理。
一方面,提供了一种信息处理方法,所述方法包括:
获取各个样本对象在样本周期内的样本对象特征、K种目标信息在所述样本周期内的样本信息特征、所述各个样本对象的行为标签;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作;
基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签,训练预测模型;
基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征,训练聚类模型;
其中,所述预测模型用于基于各个对象在目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;所述聚类模型,用于基于至少两个目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组,以便在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理;至少两个所述目标对象是基于所述各个对象的分类结果,从所述各个对象中选取的。
另一方面,提供了一种信息处理装置,所述装置包括:
特征获取模块,用于获取各个对象在目标周期内的对象特征,以及K种目标信息在所述目标周期内的信息特征;K大于等于2,且K为整数;
分类模块,用于基于所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;
对象选取模块,用于基于所述各个对象的分类结果,从所述各个对象中选取至少两个目标对象;
聚类模型,用于基于至少两个所述目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组;
处理模块,用于在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理。
在一种可能的实现方式中,所述分类模块,用于,
对所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征进行特征划分,获得稀疏特征和稠密特征;
对所述稀疏特征进行降维处理,获得嵌入特征;
基于所述嵌入特征以及所述稠密特征,预测所述各个对象的分类结果。
在一种可能的实现方式中,所述分类模块,用于,
将所述稀疏特征输入预测模型中的第一模型分支,获得所述第一模型分支输出的所述嵌入特征;
将所述嵌入特征以及所述稠密特征输入所述预测模型中的第二模型分支,获得所述第二模型分支输出的所述分类结果;
其中,所述预测模型是基于各个样本对象在样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签训练获得的;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作。
在一种可能的实现方式中,所述聚类模型,用于,
基于所述嵌入特征以及所述稠密特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个所述对象分组。
在一种可能的实现方式中,所述聚类模型,用于,
将所述嵌入特征以及所述稠密特征输入聚类模型,获得所述聚类模型输出的聚类结果;
基于所述聚类结果,获取与K种所述目标信息分别对应的K个所述对象分组;
其中,所述聚类模型是基于各个样本对象在样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征训练获得的。
在一种可能的实现方式中,所述样本周期是位于所述目标周期之前的历史周期。
在一种可能的实现方式中,所述样本周期是所述目标周期的前一个历史周期。
另一方面,提供了一种信息处理装置,所述装置包括:
样本获取模块,用于获取各个样本对象在样本周期内的样本对象特征、K种目标信息在所述样本周期内的样本信息特征、所述各个样本对象的行为标签;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作;
第一训练模块,用于基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签,训练预测模型;
第二训练模块,用于基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征,训练聚类模型;
其中,所述预测模型用于基于各个对象在目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;所述聚类模型,用于基于至少两个目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组,以便在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理;至少两个所述目标对象是基于所述各个对象的分类结果,从所述各个对象中选取的。
在一种可能的实现方式中,所述第一训练模块,用于,
对所述各个样本对象在所述样本周期内的样本对象特征,以及K种所述目标信息在所述样本周期内的样本信息特征进行特征划分,获得样本稀疏特征和样本稠密特征;
将所述样本稀疏特征输入所述预测模型中的第一模型分支,获得所述第一模型分支输出的样本嵌入特征;
将所述样本嵌入特征以及所述样本稠密特征输入所述预测模型中的第二模型分支,获得所述第二模型分支输出的样本分类结果;
基于所述样本分类结果,以及所述各个样本对象的行为标签,对所述预测模型进行参数更新。
在一种可能的实现方式中,所述第二训练模块,用于,
将所述样本嵌入特征以及所述样本稠密特征输入所述聚类模型,获得所述聚类模型输出的样本聚类结果;
基于所述样本聚类结果,对所述聚类模型进行参数更新。
另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现上述的信息处理方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述的信息处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的信息处理方法。
本申请提供的技术方案可以包括以下有益效果:
获取目标周期内,各个对象的对象特征以及K种目标信息的信息特征;先基于获取到的特征预测各个对象对目标信息产生目标动作的概率;然后基于预测得到的分类结果选取至少两个目标对象,在将至少两个目标对象聚类到K种目标信息分别对应的对象分组中,后续按照对象分组对K种目标信息分别进行处理。通过上述方案,计算机设备可以从多个对象中,同时确定出与多种目标信息分别匹配的对象,从而在同时对多种信息进行处理的场景下,提高了信息处理的准确性,同时还能够保证信息处理的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1示出了本申请一示例性实施例示出的信息处理过程的示意图;
图2是根据一示例性实施例示出的一种信息处理系统的结构示意图;
图3是根据一示例性实施例示出的一种信息处理方法的流程图;
图4是根据一示例性实施例示出的一种信息处理方法的流程图;
图5是根据一示例性实施例示出的一种信息处理框架图;
图6是根据一示例性实施例示出的一种信息处理方法的流程图;
图7是根据一示例性实施例示出的一种信息处理框架图;
图8示出了本申请一示例性实施例示出的信息处理装置的方框图;
图9示出了本申请一示例性实施例示出的信息处理装置的方框图;
图10是根据一示例性实施例示出的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例提供的信息处理方法,在从多个对象中选择与指定的多种信息相匹配的对象的场景下,首先以多种信息为整体,从多个对象中筛选出候选的对象,然后再基于多种信息,对筛选出的候选对象进行聚类,从而选择出与多种信息中的每一种信息分别匹配的对象。
图1示出了本申请一示例性实施例示出的信息处理过程的示意图,如图1所示,在对目标信息进行处理的过程中,计算机设备可以至少获取以下两种信息:各个对象的对象特征110、以及K种目标信息的信息特征120。
之后,计算机设备先结合各个对象的对象特征110、K种目标信息的信息特征120,预测各个对象各自在后续的周期内,对目标信息产生目标行为的概率。
其中,上述预测出的各个对象各自在后续的周期内,对目标信息产生目标行为的概率,是以K种目标信息为整体进行预测的,也就是说,上述预测出的某一个对象产生目标行为的概率,是该对象对任意一种目标信息产生目标行为的概率。
然后,计算机设备即可以基于上述各个对象各自对目标信息产生目标行为的概率,从各个对象中筛选出至少两个目标对象。此时,尚未确定筛选出的至少两个目标对象分别对应多种目标信息中的哪一种。
在筛选出至少两个目标对象后,计算机设备将至少两个目标对象聚类为K类,得到K个对象分组,每一个对象分组对应一种目标信息,从而确定筛选出的至少两个目标对象分别对应多种目标信息中的哪一种。
在后续的周期内,计算机设备可以对应每一个对象分组,对该对象分组对应的目标信息执行第一处理。
比如,该第一处理可以包括且不限于向目标对象的终端发送目标信息或者目标信息的关联信息(比如,目标信息对应的资源,例如优惠券)等等。
比如,以上述K=2为例,计算机设备对至少两个目标对象进行聚类,得到对象分组1和对象分组2,其中,对象分组1对应目标信息1,对象分组2对应目标信息2。后续计算机设备可以向对象分组1中的目标对象的终端发送目标信息1或者目标信息1的关联信息,并向对象分组2中的目标对象的终端发送目标信息2或者目标信息2的关联信息。
其中,上述终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
图2是根据一示例性实施例示出的一种信息处理系统200的结构示意图,该信息处理系统200包括:服务器220以及若干个终端240。
服务器220包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。该服务器220用以为终端240提供后台服务;在本申请实施例中,该服务器220可以用以执行信息处理过程,比如,将获取到的目标信息发送给终端240。
终端240可以是具有信息接收功能的终端设备,比如,终端240可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。其中,终端240中可以包括具有信息接收和展示功能的应用程序,以进行信息接收和展示。可选的,上述应用程序可以是需要下载安装的应用程序,也可以是即点即用的应用程序,本申请实施例对此不作限定。
终端240与服务器220之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
为便于理解,下面首先介绍本申请各个实施例涉及到的技术相关术语:
深度网络:一种包含多层网络架构的神经网络。
Kmeans聚类:是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
Sigmoid函数:一类定义为如下形式的函数:
二分类算法:也称为逻辑回归(Logistic Regression,LR)模型,通过在线性回归模型中引入Sigmoid函数,将线性回归的不确定范围的连续输出值映射到(0,1)范围内,将线性回归模型转化为一个概率预测模型。
Deep and wide算法:集成线性分类算法和深度学习算法的算法模型,线性分类算法(wide)部分,通常使用LR等二分类线性模型,通过利用交叉特征高效的实现记忆能力,深度学习算法(Deep)部分,通常使用深度神经网络(Deep Neural Networks,DNN)模型,通过学习到的低维度稠密向量实现模型的泛化能力,Deep and wide算法平衡Wide模型和Deep模型的记忆能力和泛化能力。
Softmax算法:是逻辑回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值。
稀疏特征:特征向量中大部分的维度上的值为0,而非零的部分的维度远小于特征向量的维度(特征向量的长度),一般为标识(Identity,ID)类特征、分类标签特征、性别标签特征等。
稠密特征:与稀疏特征相对的特征,一般为连续类型的特征,例如:活跃天数、资源额度、活跃时长等。
嵌入(Embedding)特征:将离散特征转化为连续特征的一个特征表示方式。
图3是根据一示例性实施例示出的一种信息处理方法的流程图,该信息处理方法可以由计算机设备执行,该计算机设备可以实现为信息处理设备,示意性的,该计算机设备可以实现为如图1所示的服务器220。如图3所示,该信息处理方法可以包括如下步骤:
步骤310,获取各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征;K大于等于2,且K为整数。
上述目标周期可以是当前时刻所在的周期,也可以是当前时刻之后的下一个或者多个周期。
其中,上述目标周期内的对象特征,可以是目标周期开始时刻获取的,上述各个对象的特征。或者,上述目标周期内的对象特征,也可以是在目标周期的前一个周期完成后获取的,上述各个对象的特征。或者,上述目标周期内的对象特征,也可以是在目标周期完成之前获取的,上述各个对象的特征。
相应的,上述目标周期内的信息特征,可以是目标周期开始时刻获取的,上述目标信息的特征。或者,上述目标周期内的信息特征,也可以是在目标周期的前一个周期完成后获取的,上述目标信息的特征。或者,上述目标周期内的信息特征,也可以是在目标周期完成之前获取的,上述目标信息的特征。
在本申请实施例中,计算机设备可以周期性的进行目标信息的处理。
其中,计算机设备处理目标信息的各个周期的时长可以相同,或者,计算机设备处理目标信息的各个周期也可以不同。
可选的,计算机设备处理目标信息的各个周期之间可以是连续的,也可以是不连续的。
可选的,计算机设备处理目标信息的各个周期的起止时间可以是由信息处理系统的管理人员指定的。
其中,上述对象可以是用户使用的终端等对象。比如,上述各个对象可以是分别登录有不同的用户账号的终端。在通常情况下,上述各个对象可以由对应的用户账号进行标识。
步骤320,基于各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,预测各个对象的分类结果;上述分类结果用于指示对象在目标周期内对目标信息产生目标动作的概率。
在本申请实施例中,上述每个对象的分类结果可以是一个二分类结果,用于指示对象对多种目标信息中的任意目标信息产生了目标动作的概率,或者,指示对象对多种目标信息均未产生目标动作的概率。
其中,上述目标动作可以是基于用户的操作执行的动作,比如对目标信息进行详情展示、下载对应的资源、转发等等。
在一种可能的实现方式中,上述基于各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,预测各个对象的分类结果,包括:
对各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征进行特征划分,获得稀疏特征和稠密特征;对稀疏特征进行降维处理,获得嵌入特征;基于嵌入特征以及稠密特征,预测各个对象的分类结果。
上述对象特征和信息特征在很多情况下分别包含若干种特征,不同特征的稀疏程度不同,对此,在本申请实施例所示的方案中,在基于对象特征和信息特征进行分类预测时,可以将对象特征和信息特征划分为稀疏特征和稠密特征,并对其中的稀疏特征进行降维处理,得到嵌入特征,然后再基于稠密特征和嵌入特征进行预测。
步骤330,基于各个对象的分类结果,从各个对象中选取至少两个目标对象。
步骤340,基于至少两个目标对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组。
在一种可能的实现方式中,上述基于至少两个目标对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组,包括:
基于嵌入特征以及稠密特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组。
与预测过程类似,在聚类过程中也可以通过稠密特征和嵌入特征进行聚类。
步骤350,在目标周期内,分别对应K个对象分组,对K种目标信息执行第一处理。
综上所述,本申请实施例提供的信息处理方法,计算机设备可以获取目标周期内,各个对象的对象特征以及K种目标信息的信息特征;先基于获取到的特征预测各个对象对目标信息产生目标动作的概率;然后基于预测得到的分类结果选取至少两个目标对象,在将至少两个目标对象聚类到K种目标信息分别对应的对象分组中,后续按照对象分组对K种目标信息分别进行处理。通过上述方案,计算机设备可以从多个对象中,同时确定出与多种目标信息分别匹配的对象,从而在同时对多种信息进行处理的场景下,提高了信息处理的准确性,同时还能够保证信息处理的效率。
本申请上述图3所示实施例中的方案可以基于AI实现,比如,上述基于对象特征、信息特征预测各个对象的分类结果的步骤可以通过基于AI技术训练的预测模型来执行,基于对象特征、信息特征对目标对象进行聚类的步骤可以通过基于AI技术训练的聚类模型来执行。
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
图4是根据一示例性实施例示出的一种信息处理方法的流程图,该信息处理方法可以由计算机设备执行,该计算机设备可以实现为模型训练设备。如图4所示,该信息处理方法可以包括如下步骤:
步骤410,获取各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、各个样本对象的行为标签;行为标签用于指示样本对象在样本周期内是否对目标信息产生目标动作。
步骤420,基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、以及各个样本对象的行为标签,训练预测模型。
步骤430,基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征,训练聚类模型。
其中,预测模型用于基于各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,预测各个对象的分类结果;分类结果用于指示对象在目标周期内对目标信息产生目标动作的概率;聚类模型,用于基于至少两个目标对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组,以便在目标周期内,分别对应K个对象分组,对K种目标信息执行第一处理;至少两个目标对象是基于各个对象的分类结果,从各个对象中选取的。
综上所述,本申请实施例提供的信息处理方法,在模型训练过程中,获取各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、各个样本对象的行为标签;基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、以及各个样本对象的行为标签,训练预测模型;基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征,训练聚类模型。通过上述方案训练出的预测模型和聚类模型,可以从多个对象中,同时确定出与多种目标信息分别匹配的对象,从而在同时对多种信息进行处理的场景下,提高了信息处理的准确性,同时还能够保证信息处理的效率。
基于上述图3和图4所示的实施例,以上述样本周期是第T个周期(以下简称为第T期),目标周期是第T+1个周期为例,请参考图5,其是根据一示例性实施例示出的一种信息处理框架图。
如图5所示,在模型训练阶段,模型训练设备通过各个样本对象在第T期的样本对象特征51、K种目标信息在第T期的样本信息特征52、各个样本对象在第T期的行为标签53进行模型训练,得到预测模型。
在模型训练阶段,模型训练设备还通过第T期的样本对象特征51、K种目标信息在第T期的样本信息特征52进行模型训练,得到聚类模型。
在应用阶段,信息处理设备首先使用预测模型对各个对象在第T+1期的对象特征54、K种目标信息在第T+1期的信息特征55进行处理,以进行分类预测,得到分类结果56。
然后,信息处理设备根据分类结果56进行筛选,得到至少两个目标对象;再使用聚类模型对各个目标对象在第T+1期的对象特征54、K种目标信息在第T+1期的信息特征55进行处理,以将各个目标对象聚类为K个对象分组57,每个对象分组对应一种目标信息。
后续信息处理设备根据聚类结果进行信息处理,比如,将某一种目标信息发送给对应的对象分组内的目标对象对应的终端。
其中,上述模型训练设备和信息处理设备可以实现为同一个实体计算机设备,或者,上述模型训练设备和信息处理设备也可以实现为不同的实体计算机设备。
在一种可能的实现方式中,上述预测模型和聚类模型中输入的特征可以划分为稀疏特征和稠密特征,其中,稀疏特征通过预测模型中的第一模型分支进行处理,得到嵌入特征,嵌入特征和稠密特征通过预测模型中的第二模型分支进行处理,得到分类结果。
比如,在图5中,在模型训练阶段,样本对象特征51和样本信息特征52划分为样本稀疏特征和样本稠密特征;样本稀疏特征用于训练预测模型中的第一模型分支,样本稠密特征、第一模型分支输出的嵌入特征以及行为标签53用于训练预测模型中的第二模型分支。
在一种可能的应用场景中,本申请各个实施例所示的方案可以应用于车联网出行服务中的加油优惠券下载的CTR(Click-Through-Rate,点击通过率)预估场景。
在构建多种加油优惠券(比如多种面额不同的加油优惠券)下载的业务场景时,可以使用第T-1期中各个对象对出行服务的点击行为和第T+1期中各个对象对优惠券的下载行为进行交叉匹配,如果某对象在第T-1期,在出行服务页面内产生点击行为,但在第T期产生优惠券下载行为,则标记为该对象在第T期下载优惠券(比如,将该对象在第T期的对象分类标签记为1),否则标记为该对象在第T期不下载优惠券(比如,将该对象在第T期的对象分类标签记为0)。在构建训练所使用的样本,以及预测是的输入时,使用行为标签(下载/不下载标签)和第T期对象在出行服务内的特征、出行服务小程序中每个功能点的信息特征,构建优惠券下载业务场景中的训练样本和预测输入数据。
例如,第T期的分类标签可以为优惠券下载业务场景标签(即下载/不下载标签);各期的对象特征可以包括各期的对象在出行服务小程序页面的点击行为特征数据、各期的信息特征可以包括各期的出行服务各功能点的点击率、优惠券下载率、曝光量、点击量等特征数据。
在本申请实施例所示的方案中,上述预测模型可以通过深度学习(Deep andWide)算法实现,上述聚类模型可以通过固定类中心的kmeans聚类算法实现。
图6是根据一示例性实施例示出的一种信息处理方法的流程图,该信息处理方法可以由计算机设备执行,该计算机设备可以包括模型训练设备和信息处理设备。如图6所示,该信息处理方法可以包括如下步骤:
步骤601,模型训练设备获取各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、各个样本对象的行为标签。
其中,行为标签用于指示样本对象在样本周期内是否对目标信息产生目标动作。
在一种可能的实现方式中,上述样本周期是位于目标周期之前的历史周期。
比如,上述样本周期是目标周期之前的一个或者多个历史周期。
例如,上述样本周期是目标周期的前一个历史周期。
步骤602,模型训练设备基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、以及各个样本对象的行为标签,训练预测模型。
在一种可能的实现方式中,上述基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征、以及各个样本对象的行为标签,训练预测模型的过程可以包括如下几个子步骤:
S602a,对各个样本对象在样本周期内的样本对象特征,以及K种目标信息在样本周期内的样本信息特征进行特征划分,获得样本稀疏特征和样本稠密特征。
S602b,将样本稀疏特征输入预测模型中的第一模型分支,获得第一模型分支输出的样本嵌入特征。
其中,上述第一模型分支可以是深度网络分支,也可以称为预测模型中的Deep部分。
S602c,将样本嵌入特征以及样本稠密特征输入预测模型中的第二模型分支,获得第二模型分支输出的样本分类结果。
其中,上述第二模型分支可以是线性逻辑回归网络分支,也可以称为预测模型中的Wide部分。
S602d,基于样本分类结果,以及各个样本对象的行为标签,对预测模型进行参数更新。
在一种可能的实现方式中,模型训练设备可以基于样本分类结果和各个样本对象的行为标签,计算预测模型的预测损失函数值,并基于该预测损失函数值对预测模型进行更新。
其中,样本数据集预处理阶段包括训练及测试样本构建阶段,以及预测数据构建阶段。以样本周期是目标周期的前一个历史周期为例,其中,在训练及测试样本构建阶段,模型训练设备可以使用T期的对象特征、信息特征、行为标签(label=1表示下载标签,label=0表示不下载标签)构建整体的样本数据,并将整体样本数据(训练+测试)区分为稀疏特征和稠密特征。其中,稀疏特征可以用于Deep网络的训练,稠密特征和行为标签用于Wide部分的训练。
其中,模型训练设备还可以对稠密特征进行PCA(Principal ComponentAnalysis,主成分分析)去相关性处理、归一化(标准化)处理、特征离散化处理等。将处理后的稀疏特征和稠密特征及用户分类标签,并按一定比例随机切分为训练样本(比例为а)和测试样本(比例为1-а),例如,按照通用经验将样本随机切分为训练样本:测试样本=8:2(即,按8:2的比例随机切分训练样本和测试样本)。
在对上述预测模型进行训练时,将训练样本输入预测模型,并根据预测模型对训练样本输出的样本分类结果,以及训练样本中的行为标签,对预测模型进行更新。在完成一轮或者多轮更新后,将测试样本输入预测模型,并根据预测模型对测试样本输出的样本分类结果,以及测试样本中的行为标签,对预测模型进行评估。
步骤603,模型训练设备基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征,训练聚类模型。
在一种可能的实现方式中,基于各个样本对象在样本周期内的样本对象特征、K种目标信息在样本周期内的样本信息特征,训练聚类模型的步骤可以包括:
将样本嵌入特征以及样本稠密特征输入聚类模型,获得聚类模型输出的样本聚类结果;基于样本聚类结果,对聚类模型进行参数更新。
在本申请实施例中,上述聚类模型可以固定类中心Kmeans模型。
步骤604,信息处理设备获取各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征;K大于等于2,且K为整数。
同样以样本周期是目标周期的前一个历史周期为例,其中,预测数据构建阶段。使用T+1期的对象特征、以及信息特征构建用户预测数据。
其中,T期/(T+1)期的对象特征可以主要包括:性别、年龄、地域等基础属性数据;活跃天数、活跃时长、活跃功能数量、注册时间距离当前时间天数间隔等活跃属性数据;充值金额、消费金额、充值次数、充值天数、首次充值距离当前时间天数间隔等充值属性数据;功能点击、领取优惠券类型(数量、次数、价值)、使用优惠券类型(数量、价值)、过期优惠券类型(数量、价值)等优惠券属性。
步骤605,信息处理设备通过预测模型对各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征进行处理,获得预测模型输出的各个对象的分类结果。
在一种可能的实现方式中,获得预测模型输出的各个对象的分类结果的过程可以包括如下子步骤:
S605a,对各个对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征进行特征划分,获得稀疏特征和稠密特征。
在本申请实施例中,上述信息处理设备可以将预测数据区分为稀疏特征和稠密特征。其中,稠密特征可以进行PCA去相关性处理、归一化(标准化)处理、特征离散化处理等。
S605b,对稀疏特征进行降维处理,获得嵌入特征。
在一种可能的实现方式中,信息处理设备可以将稀疏特征输入预测模型中的第一模型分支,获得第一模型分支输出的嵌入特征。
在一种可能的实现方式中,上述第一模型分支可以是深度网络。
S605c,基于嵌入特征以及稠密特征,预测各个对象的分类结果。
在一种可能的实现方式中,信息处理设备可以将嵌入特征以及稠密特征输入预测模型中的第二模型分支,获得第二模型分支输出的分类结果。
在一种可能的实现方式中,上述第二模型分支可以是逻辑回归网络或者其它分类网络。
其中,上述分类结果为二分类结果,即表示每个对象对K种目标信息中的任意信息执行目标行为的概率。
步骤606,信息处理设备基于各个对象的分类结果,从各个对象中选取至少两个目标对象。
在本申请实施例中,信息处理设备可以根据各个对象的分类结果,将各个对象中,预计对K种目标信息中的任意信息执行目标行为的概率大于概率阈值的对象选取为目标对象。
可选的,信息处理设备还可以结合分类结果以及其它信息,从各个对象中选取至少两个目标对象。
比如,上述K种目标信息分别对应各自的关联资源(比如优惠券),信息处理设备可以根据各个对象的分类结果,将各个对象中,预计对K种目标信息中的任意信息执行目标行为的概率大于概率阈值的对象中的最多N个对象,选取为上述至少两个目标对象。其中,N为K种目标信息分别对应的关联资源的数量之和。
步骤607,信息处理设备通过聚类模型对至少两个目标对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征进行处理,以对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组。
在一种可能的实现方式中,上述基于至少两个目标对象在目标周期内的对象特征,以及K种目标信息在目标周期内的信息特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组的步骤可以包括:
基于嵌入特征以及稠密特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组。
在本申请实施例中,信息处理设备可以通过聚类模型对嵌入特征以及稠密特征进行处理,从而获得与K种目标信息分别对应的K个对象分组。
在一种可能的实现方式中,基于嵌入特征以及稠密特征,对至少两个目标对象进行聚类,获得与K种目标信息分别对应的K个对象分组,包括:
将嵌入特征以及稠密特征输入聚类模型,获得聚类模型输出的聚类结果;
基于聚类结果,获取与K种目标信息分别对应的K个对象分组。
在本申请实施例中,上述聚类模型的输入数据可以包括上述嵌入特征中与至少两个目标对象以及K种目标信息对应的特征,以及,上述稠密特征中与至少两个目标对象以及K种目标信息对应的特征。
在一种可能的实现方式中,K种目标信息对应K种网络资源;且K种网络资源对应不同的资源额度;上述基于聚类结果,获取与K种目标信息分别对应的K个对象分组之后,还包括:
将K个对象分组按照包含的目标对象的数量的大小顺序进行排列;将K种目标信息按照分别对应的资源额度的大小顺序进行排列;将排列后的K个对象分组与K种目标信息一一对应关联。
比如,将排列后的第一个对象分组与排列后的第一种目标信息进行关联,以此类推,获得K种目标信息与K个对象分组之间的一一对应关系。
步骤608,信息处理设备在目标周期内,分别对应K个对象分组,对K种目标信息执行第一处理。
本申请实施例仅以Deep and Wide算法模型作为预测模型,并结合聚类模型进行信息处理为例进行说明。在另一种可能的方案中,也可以使用其它分类模型作为预测模型;比如,在特征比较简单且规模较小的情况下,该预测模型可以是深度神经网络模型或者逻辑回归模型等等,在该预测模型中,可以不对输入的数据做稀疏/稠密的区分。
综上所述,本申请实施例提供的信息处理方法,计算机设备可以获取目标周期内,各个对象的对象特征以及K种目标信息的信息特征;先基于获取到的特征预测各个对象对目标信息产生目标动作的概率;然后基于预测得到的分类结果选取至少两个目标对象,在将至少两个目标对象聚类到K种目标信息分别对应的对象分组中,后续按照对象分组对K种目标信息分别进行处理。通过上述方案,计算机设备可以从多个对象中,同时确定出与多种目标信息分别匹配的对象,从而在同时对多种信息进行处理的场景下,提高了信息处理的准确性,同时还能够保证信息处理的效率。
以车联网出行服务中的加油优惠券下载的CTR预估场景为例,请参考图7,其是根据一示例性实施例示出的一种信息处理框架图。如图7所示,本申请各个实施例所示的信息处理方案,可以包括以下六个阶段:样本数据集预处理、深度学习算法训练评估阶段、固定类中心kmeans模型训练阶段、深度学习(Deep and Wide)算法预测阶段、固定类中心kmeans模型聚类阶段、分类处理阶段。
1)样本数据集预处理。
其中,样本数据集预处理阶段包括训练及测试样本构建阶段,以及预测数据构建阶段,这两个阶段的执行方式可以参考图6所示实施例中的描述,此处不再赘述。
2)深度学习(Deep and Wide)算法训练评估阶段。
在该阶段,Deep and Wide算法模型(即上述预测模型)包括两个分支,分别为DNN模型分支71(对应上述第一模型分支)以及Wide模型分支72(对应上述第二模型分支)。
在训练阶段,通过训练样本中的稀疏特征进行DNN模型分支71的训练,这里可以使用5层网络架构模型进行训练(层数越多,训练难度越大,一般采用5层网络架构)。
将DNN模型训练出来得到的embedding特征结合训练样本中的稠密特征和行为标签,使用Wide部分模型(一般使用LR模型)进行训练,通过梯度下降法得到模型权重W(其中,模型权重用于衡量特征X对Y的贡献),且对训练好的模型使用测试样本进行测试,如果测评指标(查全率、查准率等指标)达到测评效果,则保存模型和训练样本得到的概率得分、测试样本得到的概率得分。如果没有通过模型评估,则重复这一步直到模型达到评估为止。
3)固定类中心kmeans模型训练阶段。
使用步骤2)中经过DNN模型分支71学习得到的embedding特征和T期的稠密特征,传入固定类中心数K(K等于优惠券类别数,比如,优惠加油的优惠券可以分为5元、15元、25元、50元和100元这五组,即设定类别数K=5),并使用传统kmeans聚类,得到T期kmeans聚类模型73。
4)深度学习(Deep and Wide)算法预测阶段。
使用步骤1)得到的T+1期预测数据(即T+1期的对象特征以及T+1期的信息特征),先经过步骤2)训练得到的DNN模型分支71进行稀疏特征处理,处理成embedding特征后,结合T+1期预测数据中的稠密特征以及步骤2)得到的模型W,计算T+1期的预测概率(即分类结果),并将分类结果中的概率按照一定阈值(一般为0.5)进行正负样本划分(其中,正样本为对象有意愿下载优惠券,标记为1,负样本为对象没意愿下载优惠券,标记为0),对划分为1的对象标记为优惠券推荐对象(即上述目标对象),可选的,还可以控制优惠券推荐对象数量不超过优惠券数量。
5)固定类中心kmeans模型预测阶段。
将步骤4)得到的T+1期的推荐对象与T+1期预测数据(embedding+稠密特征)进行交叉匹配,得到T+1期推荐对象特征(比如,使用对象id进行交叉匹配),代入步骤3)得到的kmeans聚类模型73。从而,将推荐对象按照推荐对象特征聚类为5类,并保存5个类中心。
6)分类推荐阶段。
将步骤5)得到的5个类中心进行从小到大排序(K1<K2<K3<K4<K5),对应将优惠券按照面值分配给这5个类中心,例如:K1分配5元券、K2分配15元券、K3分配25元券、K4分配50元券和K5分配100元券,从而对每组对象进行优惠券推荐。
本申请实施例所示的方案可以应用在车联网出行服务优惠券运营分发系统中,嵌入深度聚类推荐算法,通过Deep and Wide构建CTR预估算法识别目标对象,在通过聚类算法对上述对象进行分类,并与优惠加油优惠券类别进行匹配,从而实现智能运营的目的。运营人员只需要将全量对象ID输入到优惠券运营系统中,系统自动识别目标对象,并进行优惠券个性化推荐。
本申请实施例所示的方案集成Deep and Wide深度学习分类算法和kmeans聚类方法,根据Deep and Wide分类算法筛选出推荐对象,再根据kmeans聚类将推荐对象进行聚类分组,对每组对象按照类中心大小配置相应面值的优惠券。从而,在优惠券资源有限的情况下,达到个性化推荐效果。
本申请实施例所示的方案能够解决样本数据中,只有对象整体点击下载标签数据,而没有对象具体类别的点击下载的标签数据的情况下的个性化推荐问题。解决了传统分类算法、传统度深度学习算法只能进行单纯的二分类判别问题。
本申请实施例所示的方案中传统深度学习算法对稀疏特征进行高阶特征组合,进而提升算法效果。该发明的第一阶段先使用深度学习算法对稀疏特征进行大规模模型训练得到高阶特征组合,再将该特征组合联合稠密特征和分类标签,进行模型训练和得分预测。
本申请实施例所示的方案使用深度学习网络架构,能够有效解决传统机器学习单层网络架构带来的特征组合不足、预测效果不佳的缺点。
本申请实施例所示的方案具有非常好的可扩展性,主要体现在两方面:第一,在深度学习模型阶段,可以使用FM、DeepFM、DeepCoss等模型进行结合;第二,该方法易于用于各种分类算法及个性化推荐的业务场景,例如:数字化运营、精细化运营等与分类算法相关的业务场景。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的对象特征等数据都是在充分授权的情况下获取的。
图8示出了本申请一示例性实施例示出的信息处理装置的方框图,如图8所示,该信息处理装置包括:
特征获取模块801,用于获取各个对象在目标周期内的对象特征,以及K种目标信息在所述目标周期内的信息特征;K大于等于2,且K为整数;
分类模块802,用于基于所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;
对象选取模块803,用于基于所述各个对象的分类结果,从所述各个对象中选取至少两个目标对象;
聚类模型804,用于基于至少两个所述目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组;
处理模块805,用于在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理。
在一种可能的实现方式中,所述分类模块802,用于,
对所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征进行特征划分,获得稀疏特征和稠密特征;
对所述稀疏特征进行降维处理,获得嵌入特征;
基于所述嵌入特征以及所述稠密特征,预测所述各个对象的分类结果。
在一种可能的实现方式中,所述分类模块802,用于,
将所述稀疏特征输入预测模型中的第一模型分支,获得所述第一模型分支输出的所述嵌入特征;
将所述嵌入特征以及所述稠密特征输入所述预测模型中的第二模型分支,获得所述第二模型分支输出的所述分类结果;
其中,所述预测模型是基于各个样本对象在样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签训练获得的;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作。
在一种可能的实现方式中,所述聚类模型804,用于,
基于所述嵌入特征以及所述稠密特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个所述对象分组。
在一种可能的实现方式中,所述聚类模型804,用于,
将所述嵌入特征以及所述稠密特征输入聚类模型,获得所述聚类模型输出的聚类结果;
基于所述聚类结果,获取与K种所述目标信息分别对应的K个所述对象分组;
其中,所述聚类模型是基于各个样本对象在样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征训练获得的。
在一种可能的实现方式中,所述样本周期是位于所述目标周期之前的历史周期。
在一种可能的实现方式中,所述样本周期是所述目标周期的前一个历史周期。
图9示出了本申请一示例性实施例示出的信息处理装置的方框图,如图9所示,该信息处理装置包括:
样本获取模块901,用于获取各个样本对象在样本周期内的样本对象特征、K种目标信息在所述样本周期内的样本信息特征、所述各个样本对象的行为标签;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作;
第一训练模块902,用于基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签,训练预测模型;
第二训练模块903,用于基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征,训练聚类模型;
其中,所述预测模型用于基于各个对象在目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;所述聚类模型,用于基于至少两个目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组,以便在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理;至少两个所述目标对象是基于所述各个对象的分类结果,从所述各个对象中选取的。
在一种可能的实现方式中,所述第一训练模块902,用于,
对所述各个样本对象在所述样本周期内的样本对象特征,以及K种所述目标信息在所述样本周期内的样本信息特征进行特征划分,获得样本稀疏特征和样本稠密特征;
将所述样本稀疏特征输入所述预测模型中的第一模型分支,获得所述第一模型分支输出的样本嵌入特征;
将所述样本嵌入特征以及所述样本稠密特征输入所述预测模型中的第二模型分支,获得所述第二模型分支输出的样本分类结果;
基于所述样本分类结果,以及所述各个样本对象的行为标签,对所述预测模型进行参数更新。
在一种可能的实现方式中,所述第二训练模块903,用于,
将所述样本嵌入特征以及所述样本稠密特征输入所述聚类模型,获得所述聚类模型输出的样本聚类结果;
基于所述样本聚类结果,对所述聚类模型进行参数更新。
图10示出了本申请一示例性实施例示出的计算机设备1000的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括用于存储操作系统1009、应用程序1010和其他程序模块1011的大容量存储设备1006。
所述大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1006及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1006可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1007连接到网络1008,或者说,也可以使用网络接口单元1007来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条计算机程序,所述至少一条计算机程序存储于存储器中,中央处理器1001通过执行该至少一条计算机程序来实现上述各个实施例所示的信息处理方法中的全部或部分步骤。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现上述信息处理方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品包括至少一条计算机程序,该计算机程序由处理器加载并执行上述信息处理方法的全部或部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种信息处理方法,其特征在于,所述方法包括:
获取各个对象在目标周期内的对象特征,以及K种目标信息在所述目标周期内的信息特征;K大于等于2,且K为整数;
基于所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;
基于所述各个对象的分类结果,从所述各个对象中选取至少两个目标对象;
基于至少两个所述目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组;
在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果,包括:
对所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征进行特征划分,获得稀疏特征和稠密特征;
对所述稀疏特征进行降维处理,获得嵌入特征;
基于所述嵌入特征以及所述稠密特征,预测所述各个对象的分类结果。
3.根据权利要求2所述的方法,其特征在于,
所述对所述稀疏特征进行降维处理,获得嵌入特征,包括:
将所述稀疏特征输入预测模型中的第一模型分支,获得所述第一模型分支输出的所述嵌入特征;
所述基于所述嵌入特征以及所述稠密特征,预测所述各个对象的分类结果,包括:
将所述嵌入特征以及所述稠密特征输入所述预测模型中的第二模型分支,获得所述第二模型分支输出的所述分类结果;
其中,所述预测模型是基于各个样本对象在样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签训练获得的;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作。
4.根据权利要求2所述的方法,其特征在于,所述基于至少两个所述目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组,包括:
基于所述嵌入特征以及所述稠密特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个所述对象分组。
5.根据权利要求4所述的方法,其特征在于,所述基于所述嵌入特征以及所述稠密特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个所述对象分组,包括:
将所述嵌入特征以及所述稠密特征输入聚类模型,获得所述聚类模型输出的聚类结果;
基于所述聚类结果,获取与K种所述目标信息分别对应的K个所述对象分组;
其中,所述聚类模型是基于各个样本对象在样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征训练获得的。
6.根据权利要求3或5所述的方法,其特征在于,所述样本周期是位于所述目标周期之前的历史周期。
7.根据权利要求6所述的方法,其特征在于,所述样本周期是所述目标周期的前一个历史周期。
8.一种信息处理方法,其特征在于,所述方法包括:
获取各个样本对象在样本周期内的样本对象特征、K种目标信息在所述样本周期内的样本信息特征、所述各个样本对象的行为标签;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作;
基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签,训练预测模型;
基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征,训练聚类模型;
其中,所述预测模型用于基于各个对象在目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;所述聚类模型,用于基于至少两个目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组,以便在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理;至少两个所述目标对象是基于所述各个对象的分类结果,从所述各个对象中选取的。
9.根据权利要求8所述的方法,其特征在于,所述基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签,训练预测模型,包括:
对所述各个样本对象在所述样本周期内的样本对象特征,以及K种所述目标信息在所述样本周期内的样本信息特征进行特征划分,获得样本稀疏特征和样本稠密特征;
将所述样本稀疏特征输入所述预测模型中的第一模型分支,获得所述第一模型分支输出的样本嵌入特征;
将所述样本嵌入特征以及所述样本稠密特征输入所述预测模型中的第二模型分支,获得所述第二模型分支输出的样本分类结果;
基于所述样本分类结果,以及所述各个样本对象的行为标签,对所述预测模型进行参数更新。
10.根据权利要求9所述的方法,其特征在于,所述基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征,训练聚类模型,包括:
将所述样本嵌入特征以及所述样本稠密特征输入所述聚类模型,获得所述聚类模型输出的样本聚类结果;
基于所述样本聚类结果,对所述聚类模型进行参数更新。
11.一种信息处理装置,其特征在于,所述装置包括:
特征获取模块,用于获取各个对象在目标周期内的对象特征,以及K种目标信息在所述目标周期内的信息特征;K大于等于2,且K为整数;
分类模块,用于基于所述各个对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;
对象选取模块,用于基于所述各个对象的分类结果,从所述各个对象中选取至少两个目标对象;
聚类模型,用于基于至少两个所述目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组;
处理模块,用于在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理。
12.一种信息处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取各个样本对象在样本周期内的样本对象特征、K种目标信息在所述样本周期内的样本信息特征、所述各个样本对象的行为标签;所述行为标签用于指示所述样本对象在所述样本周期内是否对所述目标信息产生所述目标动作;
第一训练模块,用于基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征、以及所述各个样本对象的行为标签,训练预测模型;
第二训练模块,用于基于所述各个样本对象在所述样本周期内的样本对象特征、K种所述目标信息在所述样本周期内的样本信息特征,训练聚类模型;
其中,所述预测模型用于基于各个对象在目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,预测所述各个对象的分类结果;所述分类结果用于指示所述对象在目标周期内对所述目标信息产生目标动作的概率;所述聚类模型,用于基于至少两个目标对象在所述目标周期内的对象特征,以及K种所述目标信息在所述目标周期内的信息特征,对至少两个所述目标对象进行聚类,获得与K种所述目标信息分别对应的K个对象分组,以便在所述目标周期内,分别对应所述K个对象分组,对K种所述目标信息执行第一处理;至少两个所述目标对象是基于所述各个对象的分类结果,从所述各个对象中选取的。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至10任一所述的信息处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的信息处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210128942.2A CN114510638A (zh) | 2022-02-11 | 2022-02-11 | 信息处理方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210128942.2A CN114510638A (zh) | 2022-02-11 | 2022-02-11 | 信息处理方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510638A true CN114510638A (zh) | 2022-05-17 |
Family
ID=81551285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210128942.2A Pending CN114510638A (zh) | 2022-02-11 | 2022-02-11 | 信息处理方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510638A (zh) |
-
2022
- 2022-02-11 CN CN202210128942.2A patent/CN114510638A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291266A (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN111966914B (zh) | 基于人工智能的内容推荐方法、装置和计算机设备 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN104933428B (zh) | 一种基于张量描述的人脸识别方法及装置 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN113761261A (zh) | 图像检索方法、装置、计算机可读介质及电子设备 | |
CN113254785B (zh) | 推荐模型训练方法、推荐方法和相关设备 | |
CN111611488A (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN112884235B (zh) | 出行推荐方法、出行推荐模型的训练方法、装置 | |
Mukunthu et al. | Practical automated machine learning on Azure: using Azure machine learning to quickly build AI solutions | |
CN114692007B (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN114417174B (zh) | 内容推荐方法、装置、设备及计算机存储介质 | |
Liu et al. | Deep learning and collaborative filtering-based methods for students’ performance prediction and course recommendation | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
CN111325578A (zh) | 预测模型的样本确定方法及装置、介质和设备 | |
CN111615178B (zh) | 识别无线网络类型及模型训练的方法、装置及电子设备 | |
CN114510638A (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
CN114596108A (zh) | 一种对象推荐方法、装置、电子设备及存储介质 | |
CN113919893B (zh) | 信息推送方法、装置、电子设备和可读介质 | |
CN117390455B (zh) | 数据处理方法和装置、存储介质及电子设备 | |
CN114417944B (zh) | 识别模型训练方法及装置、用户异常行为识别方法及装置 | |
CN114463590A (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
CN117151287A (zh) | 网络内容处理方法、模型训练方法、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |