CN110163647A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN110163647A CN110163647A CN201910192898.XA CN201910192898A CN110163647A CN 110163647 A CN110163647 A CN 110163647A CN 201910192898 A CN201910192898 A CN 201910192898A CN 110163647 A CN110163647 A CN 110163647A
- Authority
- CN
- China
- Prior art keywords
- sample
- user
- adjusted
- target
- business object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Abstract
本发明实施例公开了一种数据处理方法及装置,该方法包括:获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;将多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;通过样本调整模型确定每个第一类型样本的第一推荐参数;根据第一推荐参数确定第一类型样本中的待调整样本,将待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;将调整后的样本集合确定为训练样本数据,基于训练样本数据生成目标推荐模型。采用本发明实施例,可提高业务对象的推荐准确率。
Description
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着计算机网络的不断发展,人们关于计算机的活动也更加多种多样,比如网上购物,网络游戏,各类app(应用)的使用等。上述列举的每一类计算机活动的类别都比较繁多,而用户并不能了解到各项活动中的各项分类内容,比如网上购物有各种类别的商品,每种类别的商品针对不同的客户人群又分为不同的小类,网络游戏的种类也有益智类、格斗类、养成类,app的种类有生活类、办公类、摄像类等。所以为了满足用户日益增长的业务推荐需求,对各类业务的推荐准确率提出了更高的要求。
现有技术中,主要是对用户未关注到的负样本(没有用户行为的样本,比如点击、下载、浏览、收藏)业务进行采样作为推荐模型的训练样本,但是在实际的业务场景中,如果业务的展示位置比较隐蔽、用户的注意力比较分散等因素都会造成负样本的产生,所以通过将未观察到用户行为的业务进行采样作为负样本用作推荐模型的训练样本,会导致业务推荐不准确。
发明内容
本发明实施例提供了一种数据处理方法及装置,可以提高业务推荐的准确率。
本发明实施例一方面提供了一种数据处理方法,包括:
获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
通过样本调整模型确定每个第一类型样本的第一推荐参数;所述第一推荐参数用于表征与所述第一类型样本相关联的业务对象的推荐程度;
根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。
其中,所述通过样本调整模型确定每个第一类型样本的第一推荐参数,包括:
提取所述每个第一类型样本中的局部维度的用户特征;
根据所述每个第一类型样本中的局部维度的用户特征以及与所述每个第一类型样本相关联的每个业务对象的业务属性特征,确定所述每个第一类型样本的第一推荐参数。
其中,所述根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合,包括:
根据所述第一推荐参数确定所述每个第一类型样本的优先级,根据所述每个第一类型样本的优先级将所述每个第一类型样本进行排序;
根据调整比例从排序之后的所述第一类型样本中获取至少一个待调整样本;所述调整比例用于确定所述待调整样本的数量;
将所述待调整样本的第一类型标签调整为所述第二类型标签,得到调整后的样本集合。
其中,还包括:
基于网格集成与共享资源获取所述目标推荐模型对应的离线评估指标;
根据所述离线评估指标确定所述调整比例。
其中,还包括:
获取待检测模型;
基于所述待检测模型提取所述样本集合中的局部维度的用户特征;
根据所述样本集合中的局部维度的用户特征以及与每个用户行为属性样本相关联的每个业务对象的业务属性特征,确定所述每个用户行为属性样本的第二推荐参数;
当检测到在所述第二推荐参数中存在异常推荐参数时,执行所述通过样本调整模型确定每个第一类型样本的第一推荐参数。
其中,所述将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型,包括:
将调整后的所述样本集合输入初始推荐模型的输入层中;
提取所述调整后的样本集合中的每个第一类型样本中的所有维度的用户特征,提取所述调整后的样本集合中的每个第二类型样本中的所有维度的用户特征;
基于所述初始推荐模型,根据所述每个第一类型样本中的所有维度的用户特征与所述第一类型标签的映射关系、所述每个第二类型样本中的所有维度的用户特征与所述第二类型标签的映射关系,生成所述目标推荐模型。
其中,还包括:
记录所述目标用户基于所述多个业务对象的用户操作信息,将所述用户操作信息和所述目标用户的用户身份信息确定为所述目标用户的用户行为属性;
根据所述目标推荐模型、所述目标用户的用户行为属性、每个业务对象的业务属性特征,确定所述每个业务对象的第三推荐参数;
根据所述每个业务对象的第三推荐参数向所述目标用户推荐相匹配的业务对象。
其中,所述根据所述目标推荐模型、所述目标用户的用户行为属性、每个业务对象的业务属性特征,确定所述每个业务对象的第三推荐参数,包括:
提取所述目标用户的用户行为属性中的所有维度的用户特征;
通过所述目标推荐模型中的分类器,分别识别所述目标用户的用户行为属性中的所有维度的用户特征与所述每个业务对象的业务属性特征之间的匹配度;
根据所述每个业务对象对应的匹配度,分别确定所述每个业务对象的第三推荐参数。
本发明一方面提供了一种数据处理装置,包括:
获取模块,用于获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
样本确定模块,用于将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
参数确定模块,用于通过样本调整模型确定每个第一类型样本的第一推荐参数;所述第一推荐参数用于表征与所述第一类型样本相关联的业务对象的推荐程度;
调整模块,用于根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
训练模块,用于将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。
其中,所述参数确定模块,包括:
第一提取单元,用于提取所述每个第一类型样本中的局部维度的用户特征;
第一参数确定单元,用于根据所述每个第一类型样本中的局部维度的用户特征以及与所述每个第一类型样本相关联的每个业务对象的业务属性特征,确定所述每个第一类型样本的第一推荐参数。
其中,所述调整模块,包括:
排序单元,用于根据所述第一推荐参数确定所述每个第一类型样本的优先级,根据所述每个第一类型样本的优先级将所述每个第一类型样本进行排序;
获取单元,用于根据调整比例从排序之后的所述第一类型样本中获取至少一个待调整样本;所述调整比例用于确定所述待调整样本的数量;
调整单元,用于将所述待调整样本的第一类型标签调整为所述第二类型标签,得到调整后的样本集合。
其中,所述数据处理装置,还包括比例获取模块,所述比例获取模块用于获取针对所述第一类型样本的调整比例;所述比例获取模块包括:
指标获取单元,用于基于网格集成与共享资源获取所述目标推荐模型对应的离线评估指标;
比例确定单元,用于根据所述离线评估指标确定所述调整比例。
其中,所述数据处理装置还包括检测模块,所述检测模块用于检测所述待检测模型是否需要被重新训练;所述检测模块包括:
模型获取单元,用于获取待检测模型;
特征提取单元,用于基于所述待检测模型提取所述样本集合中的局部维度的用户特征;
第二参数确定单元,用于根据所述样本集合中的局部维度的用户特征以及与每个用户行为属性样本相关联的每个业务对象的业务属性特征,确定所述每个用户行为属性样本的第二推荐参数;
检测单元,用于当检测到在所述第二推荐参数中存在异常推荐参数时,通知参数确定模块执行所述通过样本调整模型确定每个第一类型样本的第一推荐参数。
其中,所述训练模块,包括:
输入单元,用于将调整后的所述样本集合输入初始推荐模型的输入层中;
第二提取单元,用于提取所述调整后的样本集合中的每个第一类型样本中的所有维度的用户特征,提取所述调整后的样本集合中的每个第二类型样本中的所有维度的用户特征;
训练单元,用于基于所述初始推荐模型,根据所述每个第一类型样本中的所有维度的用户特征与所述第一类型标签的映射关系、所述每个第二类型样本中的所有维度的用户特征与所述第二类型标签的映射关系,生成所述目标推荐模型。
其中,所述数据处理装置,还包括推荐模块,所述推荐模块用于根据所述目标用户基于所述多个业务对象的用户操作信息向所述目标用户推荐相匹配的业务对象;所述推荐模块包括:
记录单元,用于记录所述目标用户基于所述多个业务对象的用户操作信息,将所述用户操作信息和所述目标用户的用户身份信息确定为所述目标用户的用户行为属性;
第三参数确定单元,用于根据所述目标推荐模型、所述目标用户的用户行为属性、每个业务对象的业务属性特征,确定所述每个业务对象的第三推荐参数;
推荐单元,用于根据所述每个业务对象的第三推荐参数向所述目标用户推荐相匹配的业务对象。
其中,所述第三参数确定单元,包括:
提取子单元,用于提取所述目标用户的用户行为属性中的所有维度的用户特征;
识别子单元,用于通过所述目标推荐模型中的分类器,分别识别所述目标用户的用户行为属性中的所有维度的用户特征与所述每个业务对象的业务属性特征之间的匹配度;
确定子单元,用于根据所述每个业务对象对应的匹配度,分别确定所述每个业务对象的第三推荐参数。
本发明另一方面提供了一种数据处理装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明实施例一方面提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述一方面中的方法。
本发明实施例首先获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;通过样本调整模型确定每个第一类型样本的第一推荐参数;根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。由此可见,本发明实施例通过对异常样本进行调整,再将调整之后的样本数据对模型进行训练,可以有效提高模型的业务推荐准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理的结构示意图;
图2是本发明实施例提供的一种数据处理的场景示意图;
图3是本发明实施例提供的一种数据处理方法的流程示意图;
图4是本发明实施例提供的一种样本调整的场景示意图;
图5是本发明实施例提供的另一种数据处理方法的流程示意图;
图6是本发明实施例提供的一种特征提取的场景示意图;
图7是本发明实施例提供的另一种特征提取的场景示意图;
图8是本发明实施例提供的另一种数据处理方法的流程示意图;
图9是本发明实施例提供的一种数据处理装置的结构示意图;
图10是本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种数据处理的结构示意图。如图1所示,通过模型集合300从服务器200中获取样本用户集100对应的样本数据,所述模型集合300中可以包括样本调整模型和目标推荐模型。其中,上述样本用户集100中包括多个样本用户,每个样本用户对应在服务器200中有其对应的样本数据,所述样本数据是服务器200基于各个样本用户对应的客户端获取得到的,所述样本数据中包括样本用户对业务对象的用户操作信息相关数据以及样本用户身份信息相关数据。所述样本数据也可以称之为用户行为属性样本,因此,可以将多个用户行为属性样本构成的集合称之为样本集合。上述样本集合也可以称之为原始训练样本数据。当对上述原始训练样本数据采集完毕之后,请一并参见图2,图2是本发明实施例提供的一种数据处理的场景示意图。本发明实施例的目的主要是通过对训练样本进行纠正调整,再将调整之后的样本输入到模型进行训练,从而得到业务推荐准确率更高的模型。如图2所示,上述图1中的服务器200可以将上述原始训练样本数据输入到粗粒度模型,所述粗粒度模型也可以称之为样本调整模型,所述原始训练样本数据中包括多个用户行为属性样本(即多个样本,样本的具体数量根据实际应用场景决定,此处不作限制)。所述用户行为属性样本包括用户对推荐的每个业务对象的用户操作信息、用户的身份信息。上述用户行为属性样本包括两种,一种为用户不关注的业务对象对应的样本,该类样本可以称之为第一类型样本或者负样本,一种为用户关注或者关注过的业务对象对应的样本,该类样本可以称之为第二类型样本或者正样本。所述用户的身份信息可以包括用户的年龄层次、性别、居住地、用户身份(包括学生的身份或者工作职位的身份)、用户标签等;所述用户操作信息包括用户对业务对象的点击、下载、浏览时间等。其中,可以通过所述用户操作区分上述用户关注或者不关注的样本,可以将没有用户操作的样本视为用户不关注的样本,即针对用户不关注的样本中的业务对象未接收到用户点击、下载或者浏览的指令信息;将有用户操作的样本视为用户关注的样本,即针对用户关注的样本中的业务对象接收到用户点击、下载或者浏览的指令信息。由于实际应用场景中上述正样本相对较少,而负样本相对较多,因此一般采用负样本采样,由于负样本采样过程中,具体的业务推荐场景(比如业务推荐时间以及位置使得用户没有注意到相关业务对象)、用户意图(用户有目的性的找寻某个业务对象,使得用户直接忽略掉某些业务对象)、用户注意力等都会导致负样本的产生,所以负样本的采样很容易会不准确,因此,在对样本进行调整时,是针对有明显区别特征的负样本进行调整。将上述全部用户行为属性样本输入到上述样本调整模型,其中,可以将一个用户行为属性样本理解为一个业务对象对应有其特定的用户操作信息以及用户身份信息,通过上述样本调整模型对每个第一类型样本(即负样本)进行打分,即通过上述样本调整模型对每个第一类型样本中的每个业务对象进行打分,由于每个业务对象对应不同的用户操作或/和用户身份信息都会有不同的打分,因此,可以理解为一个分数对应于一个业务对象以及一个用户,上述打分的分数也可以称之为推荐参数。其中,对第一类型样本进行打分的样本调整模型为粗粒度的模型,即样本调整模型识别的用户特征的维度比较少(比如只选取用户操作信息和用户身份信息中的部分信息作为模型特征识别的信息),其主要是为了对样本通过打分的方式快速区分出相较于其他样本区别较大的样本。通过使用粗粒度的模型对初始训练样本进行打分可以避免模型由于过拟合对训练样本进行过度记忆,从而成功区分出“异常”负样本。通过上述对负样本的打分结果,找出分数差异较大的负样本,并将找出的分数差异较大的负样本调整为正样本。这里,只是调整了分数差异较大的负样本的样本属性,即样本属性由负样本调整至了正样本,而并未调整负样本对应的分数或者用户身份信息以及用户操作信息。将调整之后的全部负样本和正样本输入到细粒度模型进行训练,最终得到用户业务推荐的目标推荐模型,上述细粒度模型也可以称之为目标推荐模型,所述细粒度模型识别的用户特征的维度比较多(比如选取用户操作信息和用户身份信息中的全部信息作为模型特征识别的信息)。所述目标推荐模型可以在实际应用场景中,实时获取某个目标用户针对业务对象的用户操作以及对应的所述目标用户的用户身份信息,通过获取到的用户操作与用户身份信息对所述目标用户对应的每一个业务对象进行打分,根据打分结果对所述某个用户进行业务对象的推荐。比如根据打分的高低确定每个业务对象的推荐程度的强弱,实现对用户准确的业务推荐。
请参见图3,是本发明实施例提供的一种数据处理方法的流程示意图,如图3所示,所述方法可以包括:
步骤S101,获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
具体的,获取样本集合,该样本集合中包括多个业务对象相关联的多个用户行为属性样本,所述用户行为属性样本包括用户对推荐的每个业务对象的用户操作信息、用户的身份信息。所述用户行为属性样本包括两类,一类是负样本,一类是正样本,且所述负样本携带有第一类型标签,所述正样本携带有第二类型标签。
步骤S102,将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
具体的,将上述携带有第一类型标签的的负样本称之为第一类型样本,将上述携带有第二类型标签的正样本称之为第二类型样本。
步骤S103,通过样本调整模型确定每个第一类型样本的第一推荐参数;;
具体的,将上述第一类型样本输入到样本调整模型,基于所述样本调整模型确定上述第一类型样本中的每个样本对应的业务对象的第一推荐参数。上述样本调整模型具备为所述第一类型样本打分的能力,所述第一推荐参数可以是通过所述样本调整模型为上述第一类型样本中的每个样本对应的业务对象的打分分数。所述分数可以是上述样本调整模型根据输入的每个第一类型样本对应的用户操作以及用户身份信息计算得到。其中,基于所述样本调整模型提取所述用户操作以及所述用户身份信息中的部分维度的特征信息,比如所述用户身份信息中包括用户的性别、年龄层次、用户身份(包括用户的学生身份、职业身份等)、居住地等,这里只提取所述用户身份信息中的性别以及年龄层次两类特征信息,每一类特征信息占据不同的权重,即每一项特征信息对于打分的的重要程度不同,某一类特征信息的权重越大,表明该类特征信息对于打分的重要程度越高,对于向用户进行业务推荐的影响力越大。通过样本调整模型中的模型特征参数将上述提取到的部分维度的特征信息转化为模型中间特征。将所述模型中间特征与样本调整模型中每一个业务对象对应的业务属性特征进行匹配,得到每个第一类型样本的匹配度,根据预设的参数倍数,将每个第一类型样本的匹配度分别转换为每个第一类型样本对应的第一推荐参数。所述第一推荐参数表征了每个业务对象对于样本用户的推荐程度,即样本用户可能会感兴趣的概率大小。其中,上述全部类别的样本特征信息的权重的和为1,上述每个业务对象的业务属性特征包括每个业务对象适用人群的用户特征,业务本身具有的业务类型特征等。
其中,上述样本调整模型为粗粒度的模型,即样本调整模型识别的用户信息特征的维度比较少(只选取用户操作信息和用户身份信息中的部分信息作为模型特征识别的信息),其主要是为了对样本通过打分的方式快速区分出相较于其他样本区别较大的样本。所述样本调整模型可以是特征维度较少的DNN((Deep Neural Networks,深度神经网络算法)网络模型。通过使用粗粒度的模型对初始训练样本进行打分可以避免模型由于过拟合对训练样本进行过度记忆,提升样本调整模型的泛化能力,从而成功区分出“异常”负样本。
步骤S104,根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
具体的,根据所述第一推荐参数确定所述第一类型样本的待调整样本,可以根据上述样本调整模型对上述每个第一类型样本的打分结果将所述每个第一类型样本进行排序,根据调整比例,选取所述第一类型样本中分数最高的部分样本作为待调整样本。比如所述第一类型样本的数量为1000,调整比例为0.01,则选取所述第一类型样本中分数最高的10个第一类型样本作为待调整样本。将所述待调整样本携带的第一类型标签调整为第二类型标签,即将所述待调整样本作为第二类型样本进行后续处理,但是不改变上述待调整样本中的用户操作以及用户身份信息。通过上述调整操作,得到调整之后的样本集合,调整之后的样本集合中包括的负样本为初始的负样本中去掉经过调整的部分负样本,调整之后的样本集合中包括的正样本为初始的正样本加上经过调整的部分负样本。通过对部分负样本进行调整,可以排除某些负样本极度采样不准确的情况,提高样本的准确性。
请参见图4,是本发明实施例提供的一种样本调整的场景示意图。如图4所示,初始样本集合a中包括初始负样本a1(即上述第一类型样本)和初始正样本a2(即上述第二类型样本)。其中,初始负样本a1中包括负样本“Y1”、“Y2”、“Y3”、“Y4”、“Y5”,初始正样本a2中包括正样本“Y6”、“Y7”、“Y8”、“Y9”、“Y10”。将上述初始负样本a1输入到样本调整模型中,基于所述样本调整模型对每个初始负样本进行上述第一推荐参数的计算,根据上述第一推荐参数的数值大小对上述每个初始负样本进行排序,且排序为“Y5”、“Y4”、“Y3”、“Y2”、“Y1”,即“Y5”至“Y1”对应的第一推荐参数为递减的关系。这里假如根据调整比例确定在5个初始负样本a1中需要调整的负样本的数量为2,则选取上述初始负样本a1中的“Y5”、“Y4”作为待调整样本c2,上述初始负样本a1中的“Y1”、“Y2”、“Y3”为正常样本c1,将所述待调整样本c2的样本标签调整为第二类型标签,即将待调整样本c2从第一类型样本的类型调整至第二类型样本的类型。通过上述调整的操作,调整后的样本集合b中的调整后负样本b1包括样本“Y1”、“Y2”、“Y3”,调整后的样本集合b中的调整后正样本b2包括样本“Y4”、“Y5”、“Y6”、“Y7”、“Y8”、“Y9”、“Y10”。对上述初始样本集合a中的负样本进行样本调整可以避免负样本过度引用的情况。通过将调整后的样本集合b作为目标推荐模型的训练数据,可以提高目标推荐模型进行业务推荐的准确性。
步骤S105,将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;
具体的,将上述调整后的样本集合确定为训练样本数据,所述训练样本数据包括每一个业务对象携带的标签信息、对应的用户操作、用户身份信息以及对应的每个业务对象的业务属性特征信息。通过上述训练样本数据中标签与用户操作、用户身份信息以及业务对象的业务属性特征训练模型,直至模型收敛,并得到模型特有的模型特征参数,可以通过训练得到的模型特征参数将输入的样本对应的特征信息转化为模型能识别的模型特征(即模型参数),训练完成的所述初始推荐模型即是所述目标推荐模型。所述目标推荐模型可以是特征维度较多的DNN((Deep Neural Networks,深度神经网络算法)网络模型。通过本发明实施例提供的方法可以明显提升线上CVR(Conversion Rate,转化率),其中,CVR是一个衡量广告效果的指标,简而言之就是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率。
通过上述训练得到的目标推荐模型可以向目标用户推荐与其相匹配的业务对象。通过上述目标推荐模型进行业务推荐的具体过程为,在实际应用中,当系统接收到目标用户对上述每个业务对象的用户操作时,基于上述目标推荐模型记录上述目标用户对上述每个业务对象的用户操作,并获取所述目标用户的用户身份信息,通过获取到的目标用户的用户操作以及用户身份信息对应的业务对象类型,计算目标用户对应每一个业务对象的第三推荐参数,所述第三推荐参数表征了每一个业务对象对于目标用户的推荐程度,即目标用户可能会感兴趣的概率大小。上述用户操作包括点击、下载、收藏、浏览等操作。
本发明实施例首先获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;通过样本调整模型确定每个第一类型样本的第一推荐参数;根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。由此可见,本发明实施例通过对异常样本进行调整,再将调整之后的样本数据对模型进行训练,可以有效提高模型的业务推荐准确率。
请参见图5,是本发明实施例提供的另一种数据处理方法的流程示意图,如图5所示,所述方法可以包括:
步骤S201,获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
步骤S202,将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
其中,上述步骤S201和步骤S202的具体实现过程请参见图3对应的实施例中对步骤S101-S102的描述,这里不再进行赘述。
步骤S203,提取所述每个第一类型样本中的局部维度的用户特征;
具体的,提取上述每个第一类型样本中的局部维度的用户特征,即是从全部的第一类型样本对应的全部类别用户特征中选择部分类别用户特征作为后续样本调整模型的特征识别维度。比如,所述第一类型样本对应的全部类别特征信息包括用户操作对应的用户特征类别以及用户身份信息对应的用户特征类别,所述用户操作对应的用户特征类别包括点击、下载、浏览、收藏、无用户操作(即用户直接略过);所述用户身份信息对应的用户特征类别包括性别、年龄、居住地、用户身份(包括学生身份或者工作身份),提取上述用户操作中的无用户操作对应的特征类别,并将其他操作(点击、下载、浏览、收藏)视为另外一类有用户操作的特征类别,即从上述用户操作中提取两类特征类别;提取上述用户身份信息中的年龄对应的特征类别以及性别对应的特征类别,将上述从用户操作以及用户身份信息中提取的特征类别作为用于下述样本调整模型用于识别样本特征的局部维度用户特征。
请参见图6,是本发明实施例提供的一种特征提取的场景示意图。如图6所示,用户操作信息中所有维度的特征d1包括“T1”、“T2”、“T3”、“T4”、“T5”,用户身份信息中所有维度的特征d2包括“T6”、“T7”、“T8”、“T9”、“T10”,T1至T10分别表示不同维度的参数,在提取特征维度的时候,提取上述用户操作信息中局部维度的特征d3,即“T1”、“T2”,以及上述用户身份信息中局部维度的特征d4,即“T6”、“T7”,作为样本调整模型的特征匹配的维度。通过将样本中局部维度的特征信息d3与d4作为样本调整模型的特征匹配维度,可以避免模型因为过拟合导致对样本数据的过度记忆的情况,从而快速准确地区分出异常样本。
步骤S204,根据所述每个第一类型样本中的局部维度的用户特征以及与所述每个第一类型样本相关联的每个业务对象的业务属性特征,确定所述每个第一类型样本的第一推荐参数;
具体的,通过样本调整模型中的模型特征参数将上述提取到的局部维度的特征信息转化为模型中间特征,将所述模型中间特征与样本调整模型中每一个业务对象对应的业务属性特征进行匹配,得到每个第一类型样本的匹配度,所述匹配度表征了业务对象的推荐程度,根据预设的参数倍数,将每个第一类型样本的匹配度分别转化为每个第一类型样本对应的第一推荐参数。比如,当某个业务对象对应的匹配度为0.8,预设的参数倍数为100,则上述第一推荐参数为80,可以将所述第一推荐参数称之为样本调整模型的打分分数,即样本调整模型对上述某个业务对象的打分分数为80分,打分的分数用于表征该分数对应的业务对象对于其用户的推荐程度,即用户可能会喜欢的概率大小。
步骤S205,根据所述第一推荐参数确定所述每个第一类型样本的优先级,根据所述每个第一类型样本的优先级将所述每个第一类型样本进行排序;
具体的,检测上述每个业务对象对应的分数的高低,分数越高,优先级越大,按照优先级从大到小的规则,将上述得到的每个第一推荐参数进行排序。
步骤S206,基于网格集成与共享资源获取所述目标推荐模型对应的离线评估指标,根据所述离线评估指标确定所述调整比例;根据调整比例从排序之后的所述第一类型样本中获取至少一个待调整样本;所述调整比例用于确定所述待调整样本的数量;
具体的,上述调整比例与实际场景和样本数据有关,可以通过网格搜索自动调参,计算出离线实验效果最好的调整比例。其中,上述调整比例的搜索范围为0至1,通过网格计算每组调整比例对应模型的离线评估指标AUC(一种模型好坏衡量参数)、LOGLOSS(对数损失)、F-SCORE(一种统计量),通过上述离线评估指标计算当前初始样本最优的调整比例,在一般的业务场景中,最优的调整比例为0.4%时,模型取得最好的效果。其中,上述AUC可以看做随机从正负样本中选取一对正负样本,其中正样本的得分大于负样本的概率,其可以综合衡量一个预测模型的好坏。上述LOGLOSS一般用于逻辑斯谛回归和神经网络,以及一些期望极大算法的变体,可用于评估分类器的概率输出。上述F-SCORE是IR(信息检索)领域常用的一个评价标准,常用于评价分类模型的好坏。上述调整比例还与第二类型样本占整个样本集合的比重有关,需要调整第一类型样本,使得第一类型样本与第二类型样本的比重适合,避免第一类型样本的过度引用。通过调整比例是针对第一类型样本的比例,比如,当第一类型样本有1000个,那么当调整比例为0.4%时,上述待调整样本为4个。从第一类型样本中选取待调整样本时,是从排序之后的第一类型样本的第一个开始选取,选取分数最高的部分第一类型样本作为上述待调整样本。
步骤S207,将所述待调整样本的第一类型标签调整为所述第二类型标签,得到调整后的样本集合;
具体的,将上述选取作为待调整样本的第一类型样本的标签从第一类型标签调整为第二类型标签,得到调整之后的样本集合。调整之后的样本集合中包括的负样本为初始的负样本中去掉经过调整的部分负样本,调整之后的样本集合中包括的正样本为初始的正样本加上经过调整的部分负样本。
步骤S208,将调整后的所述样本集合输入初始推荐模型的输入层中;
具体的,将上述调整之后的样本集合输入到初始推荐模型的输入层中,输入的所述样本集合中包括每一个业务对象对应的用户操作、用户身份信息、每个业务对象的业务属性特征以及每个业务对象对应的标签。
步骤S209,提取所述调整后的样本集合中的每个第一类型样本中的所有维度的用户特征,提取所述调整后的样本集合中的每个第二类型样本中的所有维度的用户特征;
具体的,提取上述调整之后的样本集合中的每一个第一类型样本的所有维度的用户特征,包括每个第一类型样本对应的用户操作的用户特征、用户身份信息的用户特征以及所述每个业务对象的业务属性特征对应的适用的用户特征。提取所述调整后的样本集合中的每个第二类型样本中的所有维度的用户特征,包括每个第二类型样本对应的用户操作的用户特征、用户身份信息的用户特征以及所述每个业务对象的业务属性特征对应的适用的用户特征。通过将样本中所有维度的用户特征作为初始推荐模型的特征匹配的识别训练,可以更大限度地对每一类用户推荐与其匹配的业务对象,提高推荐的准确率。
请参见图7,是本发明实施例提供的另一种特征提取的场景示意图。如图7所示,用户操作信息中所有维度的特征d1包括“T1”、“T2”、“T3”、“T4”、“T5”,用户身份信息中所有维度的特征d2包括“T6”、“T7”、“T8”、“T9”、“T10”,T1至T10分别表示不同维度的参数,在提取特征维度的时候,提取上述用户操作信息中所有维度的特征d5,即“T1”、“T2”、“T3”、“T4”、“T5”,以及上述用户身份信息中所有维度的特征d6,即“T6”、“T7”、“T8”、“T9”、“T10”,作为初始推荐模型的特征识别训练的维度。通过将样本中所有维度的特征信息d5与d6作为初始推荐模型的训练维度,可以使目标推荐模型能够识别的特征信息类别更多,使每个目标用户与各个业务对象之间的对应关系更加精确,提高了目标推荐模型的业务推荐准确率。
步骤S210,基于所述初始推荐模型,根据所述每个第一类型样本中的所有维度的用户特征与所述第一类型标签的映射关系、所述每个第二类型样本中的所有维度的用户特征与所述第二类型标签的映射关系,生成所述目标推荐模型;
具体的,基于上述初始推荐模型,将提取到的上述第一类型样本中的所有维度的用户特征与上述第一类型标签的映射关系以及提取到的上述第二类型样本中的所有维度的用户特征与上述第二类型标签的映射关系训练上述初始推荐模型,直到训练至所述初始推荐模型收敛,并得到初始推荐模型的模型特征参数,所述模型特征参数用于将输入模型的用户特征数据转换成模型能识别的模型参数,以进行相应的特征匹配。当训练至模型收敛时,即将上述初始推荐模型训练成了所述目标推荐模型。所述目标推荐模型用于根据用户的用户行为属性向用户推荐相匹配的业务。
本发明实施例首先获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;通过样本调整模型确定每个第一类型样本的第一推荐参数;根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。由此可见,本发明实施例通过对异常样本进行调整,再将调整之后的样本数据对模型进行训练,可以有效提高模型的业务推荐准确率。
请参见图8,是本发明实施例提供的另一种数据处理方法的流程示意图,如图8所示,所述方法可以包括:
步骤S301,获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
步骤S302,将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
其中,上述步骤S201和步骤S202的具体实现过程请参见图3对应的实施例中对步骤S101-S102的描述,这里不再进行赘述。
步骤S303,获取待检测模型;
具体的,获取待检测模型,所述待检测模型可以是已经训练完成正待使用或者已经正在使用的业务推荐模型。
步骤S304,基于所述待检测模型提取所述样本集合中的局部维度的用户特征;
具体的,通过所述待检测模型提取上述样本集合中的局部维度的用户特征,即部分用户特征,此处用户特征的提取过程与上述样本调整模型提取用户特征的过程一致,具体提取过程请参见图5对应的实施例中对步骤S203的描述,这里不再进行赘述。
步骤S305,根据所述样本集合中的局部维度的用户特征以及与每个用户行为属性样本相关联的每个业务对象的业务属性特征,确定所述每个用户行为属性样本的第二推荐参数;
具体的,上述待检测模型具备计算每个样本对应的第二推荐参数的能力,根据上述提取得到的样本集合中的局部维度的用户特征以及每个业务对象的业务属性特征,计算所述每个用户行为属性样本的第二推荐参数,其中,每个第一类型样本对应于一个第二推荐参数,每个第二类型样本对应于一个第二推荐参数,所述第二推荐参数的计算过程与上述第一推荐参数的计算过程一致,具体的计算过程请参见图5所对应的实施例中对步骤S204的描述,这里不再进行赘述。
步骤S306,当检测到在所述第二推荐参数中存在异常推荐参数时,通过样本调整模型确定每个第一类型样本的第一推荐参数;
具体的,当检测到上述第二推荐参数中存在异常推荐参数时,比如某个第二推荐参数相较于其他第二推荐参数,参数的大小差异值太大,即出现了离群值,判定上述第二推荐参数中存在异常推荐参数;又比如当上述第二推荐参数中第二类型样本对应的第二推荐参数的数量与第一类型样本对应的第二推荐参数的数量占比不合理,判定上述第二推荐参数中存在异常推荐参数。当判定出上述第二推荐参数中存在异常推荐参数时,通过样本调整模型计算上述每个第一类型样本的第一推荐参数,具体请参见上述图3对应的实施例中对步骤S204的描述,这里不再进行赘述。
步骤S307,根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
步骤S308,将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;
其中,上述步骤S307和步骤S308的具体实现过程请参见图3对应的实施例中对步骤S104-S105的描述,这里不再进行赘述。
步骤S309,记录所述目标用户基于所述多个业务对象的用户操作信息,将所述用户操作信息和所述目标用户的用户身份信息确定为所述目标用户的用户行为属性;
具体的,在将上述目标推荐模型正式投入使用的过程中,当系统接收到所述目标用户针对某个业务对象的用户操作时,目标推荐模型会记录下目标用户的用户操作对应的用户操作信息,比如点击信息、下载信息、浏览信息、收藏信息、无用户操作信息等。并通过系统获取目标用户的用户身份信息,比如用户年龄、所在地、用户性别、用户身份(包括学生身份或者职业身份等)。将上述获取到的用户操作信息以及用户身份信息统称为上述目标用户的用户行为属性,作为模型区别目标用户的特征信息。
步骤S310,提取所述目标用户的用户行为属性中的所有维度的用户特征;
具体的,提取上述用户操作信息中的所有维度的用户特征,包括点击特征、下载特征、浏览特征、收藏特征、无用户操作特征5个维度的用户特征;提取上述用户身份信息中的所有维度的用户特征,包括用户年龄特征、所在地特征、用户性别特征、用户身份特征(包括学生身份或者职业身份等)4个维度的用户特征,将在上述提取到的全部维度的用户特征作为目标推荐模型的特征识别维度。
步骤S311,通过所述目标推荐模型中的分类器,分别识别所述目标用户的用户行为属性中的所有维度的用户特征与所述每个业务对象的业务属性特征之间的匹配度;
具体的,通过上述目标推荐模型中的分类器,分别识别上述提取到的目标用户的所有维度的用户特征与每个业务对象的业务属性特征之间的匹配度,所述业务属性特征包括每个业务对象适用的用户类型信息(包括用户年龄、身份、性别、所在地等)以及业务本身具有的特点(比如业务本身所属的业务类别)。其中,最基本的分类器包括决策树分类器、选择树分类器和证据分类器。首先,需要通过上述目标推荐模型将提取到的用户特征对应的特征信息通过模型训练得到的模型特征参数转化为模型能识别的模型参数,进而通过模型对所述模型参数与模型本身的特征参数进行匹配识别,得到上述匹配度。
步骤S312,根据所述每个业务对象对应的匹配度,分别确定所述每个业务对象的第三推荐参数;
具体的,根据所述每个业务对象与目标用户的用户行为属性的匹配度,以及各个用户特征对应的不同权重,计算出上述每个业务对象的第三推荐参数,所述第三推荐参数表征了每个业务对象针对目标用户的推荐程度,即预测目标用户对每个业务对象感兴趣的概率大小。
步骤S313,根据所述每个业务对象的第三推荐参数向所述目标用户推荐相匹配的业务对象;
具体的,根据上述每个业务对象的第三推荐参数向目标用户推荐相匹配的业务对象,业务对象对应的所述第三推荐参数的值越大,表明该项业务对象对于目标用户的推荐程度越大,与目标用户的匹配度越大,可以将匹配度越大的业务对象呈现在用户界面中显眼的位置,方便用户进行查看。其中,上述相匹配的业务对象可以是与目标用户的年龄、性别、身份、居住地相匹配的业务,也可以是根据记录的用户操作对应的业务对象类型对应的同类型的业务。
本发明实施例首先获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;通过样本调整模型确定每个第一类型样本的第一推荐参数;根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。由此可见,本发明实施例通过对异常样本进行调整,再将调整之后的样本数据对模型进行训练,可以有效提高模型的业务推荐准确率。
请参见图9,是本发明实施例提供的一种数据处理装置的结构示意图。如图9所示,该数据处理装置1可以包括:获取模块11、样本确定模块12、参数确定模块13、调整模块14和训练模块15;
获取模块11,用于获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
样本确定模块12,用于将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
参数确定模块13,用于通过样本调整模型确定每个第一类型样本的第一推荐参数;
调整模块14,用于根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
训练模块15,用于将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。
其中,所述获取模块11、样本确定模块12、参数确定模块13、调整模块14和训练模块15的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S105,这里不再进行赘述。
其中,所述参数确定模块13,包括第一提取单元131、第一参数确定单元132:
第一提取单元131,用于提取所述每个第一类型样本中的局部维度的用户特征;
第一参数确定单元132,用于根据所述每个第一类型样本中的局部维度的用户特征以及与所述每个第一类型样本相关联的每个业务对象的业务属性特征,确定所述每个第一类型样本的第一推荐参数。
其中,所述第一提取单元131、第一参数确定单元132的具体功能实现方式请参见图5对应的实施例中的步骤S203-步骤S204,这里不再进行赘述。
其中,所述调整模块14,包括排序单元141、获取单元142、调整单元143:
排序单元141,用于根据所述第一推荐参数确定所述每个第一类型样本的优先级,根据所述每个第一类型样本的优先级将所述每个第一类型样本进行排序;
获取单元142,用于根据调整比例从排序之后的所述第一类型样本中获取至少一个待调整样本;所述调整比例用于确定所述待调整样本的数量;
调整单元143,用于将所述待调整样本的第一类型标签调整为所述第二类型标签,得到调整后的样本集合。
其中,所述排序单元141、获取单元142、调整单元143的具体功能实现方式请参见图5对应的实施例中的步骤S205-步骤S207,这里不再进行赘述。
其中,所述数据处理装置,还包括比例获取模块16,所述比例获取模块16用于获取针对所述第一类型样本的调整比例;所述比例获取模块16包括指标获取单元161、比例确定单元162:
指标获取单元161,用于基于网格集成与共享资源获取所述目标推荐模型对应的离线评估指标;
比例确定单元162,用于根据所述离线评估指标确定所述调整比例。
其中,所述指标获取单元161、比例确定单元162的具体功能实现方式请参见图5对应的实施例中的步骤S206,这里不再进行赘述。
其中,所述数据处理装置还包括检测模块17,所述检测模块17用于检测所述待检测模型是否需要被重新训练;所述检测模块17包括模型获取单元171、特征提取单元172、第二参数确定单元173、检测单元174:
模型获取单元171,用于获取待检测模型;
特征提取单元172,用于基于所述待检测模型提取所述样本集合中的局部维度的用户特征;
第二参数确定单元173,用于根据所述样本集合中的局部维度的用户特征以及与每个用户行为属性样本相关联的每个业务对象的业务属性特征,确定所述每个用户行为属性样本的第二推荐参数;
检测单元174,用于当检测到在所述第二推荐参数中存在异常推荐参数时,通知参数确定模块13执行所述通过样本调整模型确定每个第一类型样本的第一推荐参数。
其中,所述模型获取单元171、特征提取单元172、第二参数确定单元173、检测单元174的具体功能实现方式请参见图8对应的实施例中的步骤S303-步骤S306,这里不再进行赘述。
其中,所述训练模块15,包括输入单元151、第二提取单元152、训练单元153:
输入单元151,用于将调整后的所述样本集合输入初始推荐模型的输入层中;
第二提取单元152,用于提取所述调整后的样本集合中的每个第一类型样本中的所有维度的用户特征,提取所述调整后的样本集合中的每个第二类型样本中的所有维度的用户特征;
训练单元153,用于基于所述初始推荐模型,根据所述每个第一类型样本中的所有维度的用户特征与所述第一类型标签的映射关系、所述每个第二类型样本中的所有维度的用户特征与所述第二类型标签的映射关系,生成所述目标推荐模型。
其中,所述输入单元151、第二提取单元152、训练单元153的具体功能实现方式请参见图5对应的实施例中的步骤S208-步骤S210,这里不再进行赘述。
其中,所述数据处理装置,还包括推荐模块18,所述推荐模块18用于根据所述目标用户基于所述多个业务对象的用户操作信息向所述目标用户推荐相匹配的业务对象;所述推荐模块18包括记录单元181、第三参数确定单元182、推荐单元183:
记录单元181,用于记录所述目标用户基于所述多个业务对象的用户操作信息,将所述用户操作信息和所述目标用户的用户身份信息确定为所述目标用户的用户行为属性;
第三参数确定单元182,用于根据所述目标推荐模型、所述目标用户的用户行为属性、每个业务对象的业务属性特征,确定所述每个业务对象的第三推荐参数;
推荐单元183,用于根据所述每个业务对象的第三推荐参数向所述目标用户推荐相匹配的业务对象。
其中,所述记录单元181的具体功能实现方式请参见图8对应的实施例中的步骤S309,所述第三参数确定单元182的具体功能实现方式请参见图8对应的实施例中的步骤S310-步骤S312,所述推荐单元183的具体功能实现方式请参见图8对应的实施例中的步骤S313,这里不再进行赘述。
其中,所述第三参数确定单元182,包括提取子单元1821、识别子单元1822、确定子单元1823:
提取子单元1821,用于提取所述目标用户的用户行为属性中的所有维度的用户特征;
识别子单元1822,用于通过所述目标推荐模型中的分类器,分别识别所述目标用户的用户行为属性中的所有维度的用户特征与所述每个业务对象的业务属性特征之间的匹配度;
确定子单元1823,用于根据所述每个业务对象对应的匹配度,分别确定所述每个业务对象的第三推荐参数。
其中,所述提取子单元1821、识别子单元1822、确定子单元1823的具体功能实现方式请参见图8对应的实施例中的步骤S310-步骤S313,这里不再进行赘述。
本发明实施例首先获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;通过样本调整模型确定每个第一类型样本的第一推荐参数;根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。由此可见,本发明实施例通过对异常样本进行调整,再将调整之后的样本数据对模型进行训练,可以有效提高模型的业务推荐准确率。
请参见图10,是本发明实施例提供的另一种数据处理装置的结构示意图。如图10所示,所述数据处理装置1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的数据处理装置1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3、图5和图8中任一个所对应实施例中对所述数据处理方法的描述。
应当理解,本发明实施例中所描述的数据处理装置1000可执行前文图3、图5和图8中任一个所对应实施例中对所述数据处理方法的描述,也可执行前文图9所对应实施例中对所述数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3、图5和图8中任一个所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖范围。
Claims (11)
1.一种数据处理方法,其特征在于,包括:
获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
通过样本调整模型确定每个第一类型样本的第一推荐参数;所述第一推荐参数用于表征与所述第一类型样本相关联的业务对象的推荐程度;
根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。
2.根据权利要求1所述的方法,其特征在于,所述通过样本调整模型确定每个第一类型样本的第一推荐参数,包括:
提取所述每个第一类型样本中的局部维度的用户特征;
根据所述每个第一类型样本中的局部维度的用户特征以及与所述每个第一类型样本相关联的每个业务对象的业务属性特征,确定所述每个第一类型样本的第一推荐参数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合,包括:
根据所述第一推荐参数确定所述每个第一类型样本的优先级,根据所述每个第一类型样本的优先级将所述每个第一类型样本进行排序;
根据调整比例从排序之后的所述第一类型样本中获取至少一个待调整样本;所述调整比例用于确定所述待调整样本的数量;
将所述待调整样本的第一类型标签调整为所述第二类型标签,得到调整后的样本集合。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
基于网格集成与共享资源获取所述目标推荐模型对应的离线评估指标;
根据所述离线评估指标确定所述调整比例。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取待检测模型;
基于所述待检测模型提取所述样本集合中的局部维度的用户特征;
根据所述样本集合中的局部维度的用户特征以及与每个用户行为属性样本相关联的每个业务对象的业务属性特征,确定所述每个用户行为属性样本的第二推荐参数;
当检测到在所述第二推荐参数中存在异常推荐参数时,执行所述通过样本调整模型确定每个第一类型样本的第一推荐参数。
6.根据权利要求1所述的方法,其特征在于,所述将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型,包括:
将调整后的所述样本集合输入初始推荐模型的输入层中;
提取所述调整后的样本集合中的每个第一类型样本中的所有维度的用户特征,提取所述调整后的样本集合中的每个第二类型样本中的所有维度的用户特征;
基于所述初始推荐模型,根据所述每个第一类型样本中的所有维度的用户特征与所述第一类型标签的映射关系、所述每个第二类型样本中的所有维度的用户特征与所述第二类型标签的映射关系,生成所述目标推荐模型。
7.根据权利要求1或6所述的方法,其特征在于,还包括:
记录所述目标用户基于所述多个业务对象的用户操作信息,将所述用户操作信息和所述目标用户的用户身份信息确定为所述目标用户的用户行为属性;
根据所述目标推荐模型、所述目标用户的用户行为属性、每个业务对象的业务属性特征,确定所述每个业务对象的第三推荐参数;
根据所述每个业务对象的第三推荐参数向所述目标用户推荐相匹配的业务对象。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标推荐模型、所述目标用户的用户行为属性、每个业务对象的业务属性特征,确定所述每个业务对象的第三推荐参数,包括:
提取所述目标用户的用户行为属性中的所有维度的用户特征;
通过所述目标推荐模型中的分类器,分别识别所述目标用户的用户行为属性中的所有维度的用户特征与所述每个业务对象的业务属性特征之间的匹配度;
根据所述每个业务对象对应的匹配度,分别确定所述每个业务对象的第三推荐参数。
9.一种数据处理装置,其特征在于,包括:
获取模块,用于获取样本集合;所述样本集合中包括与多个业务对象相关联的多个用户行为属性样本;
样本确定模块,用于将所述多个用户行为属性样本中具有第一类型标签的用户行为属性样本确定为第一类型样本,将所述多个用户行为属性样本中具有第二类型标签的用户行为属性样本确定为第二类型样本;
参数确定模块,用于通过样本调整模型确定每个第一类型样本的第一推荐参数;所述第一推荐参数用于表征与所述第一类型样本相关联的业务对象的推荐程度;
调整模块,用于根据所述第一推荐参数确定所述第一类型样本中的待调整样本,将所述待调整样本的第一类型标签调整为第二类型标签,得到调整后的样本集合;
训练模块,用于将调整后的所述样本集合确定为训练样本数据,基于所述训练样本数据生成目标推荐模型;所述目标推荐模型是用于通过目标用户的用户行为属性向所述目标用户推荐相匹配的业务对象。
10.一种数据处理装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-8任一项所述的方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910192898.XA CN110163647B (zh) | 2019-03-14 | 2019-03-14 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910192898.XA CN110163647B (zh) | 2019-03-14 | 2019-03-14 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163647A true CN110163647A (zh) | 2019-08-23 |
CN110163647B CN110163647B (zh) | 2023-06-27 |
Family
ID=67638907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910192898.XA Active CN110163647B (zh) | 2019-03-14 | 2019-03-14 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163647B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852778A (zh) * | 2019-09-30 | 2020-02-28 | 口口相传(北京)网络技术有限公司 | 一种针对业务对象的数据处理方法及装置 |
CN110909775A (zh) * | 2019-11-08 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置及电子设备 |
CN110990698A (zh) * | 2019-11-29 | 2020-04-10 | 珠海大横琴科技发展有限公司 | 一种推荐模型构建方法和装置 |
CN111061968A (zh) * | 2019-11-15 | 2020-04-24 | 北京三快在线科技有限公司 | 排序方法、装置、电子设备及可读存储介质 |
CN111198988A (zh) * | 2019-12-25 | 2020-05-26 | 中国平安财产保险股份有限公司 | 业务推荐方法、训练方法、装置、计算机设备和存储介质 |
CN111310025A (zh) * | 2020-01-17 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 模型训练方法、数据处理方法、装置以及相关设备 |
CN111832789A (zh) * | 2019-09-24 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 位置确定方法、模型训练方法、装置、设备和存储介质 |
CN112001366A (zh) * | 2020-09-25 | 2020-11-27 | 北京百度网讯科技有限公司 | 模型训练方法、人脸识别方法、装置、设备和介质 |
CN112445699A (zh) * | 2019-09-05 | 2021-03-05 | 北京达佳互联信息技术有限公司 | 策略匹配方法、装置、电子设备及存储介质 |
CN112699168A (zh) * | 2020-12-30 | 2021-04-23 | 陈非 | 基于互联网金融和大数据的业务推荐方法及系统 |
CN113191812A (zh) * | 2021-05-12 | 2021-07-30 | 深圳索信达数据技术有限公司 | 业务推荐方法、计算机设备及计算机可读存储介质 |
CN114766023A (zh) * | 2020-10-30 | 2022-07-19 | 京东方科技集团股份有限公司 | 数据处理方法、装置及系统、电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140095345A1 (en) * | 2012-09-28 | 2014-04-03 | International Business Machines Corporation | Data analysis method and system thereof |
CN107451894A (zh) * | 2017-08-03 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN107451597A (zh) * | 2016-06-01 | 2017-12-08 | 腾讯科技(深圳)有限公司 | 一种样本类别标签纠正方法及装置 |
CN107578332A (zh) * | 2017-09-22 | 2018-01-12 | 深圳乐信软件技术有限公司 | 一种推荐现金商品的方法、装置、设备及存储介质 |
CN108205766A (zh) * | 2016-12-19 | 2018-06-26 | 阿里巴巴集团控股有限公司 | 信息推送方法、装置及系统 |
CN109344862A (zh) * | 2018-08-21 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 正样本的获取方法、装置、计算机设备和存储介质 |
-
2019
- 2019-03-14 CN CN201910192898.XA patent/CN110163647B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140095345A1 (en) * | 2012-09-28 | 2014-04-03 | International Business Machines Corporation | Data analysis method and system thereof |
CN103714063A (zh) * | 2012-09-28 | 2014-04-09 | 国际商业机器公司 | 数据分析方法及其系统 |
CN107451597A (zh) * | 2016-06-01 | 2017-12-08 | 腾讯科技(深圳)有限公司 | 一种样本类别标签纠正方法及装置 |
CN108205766A (zh) * | 2016-12-19 | 2018-06-26 | 阿里巴巴集团控股有限公司 | 信息推送方法、装置及系统 |
CN107451894A (zh) * | 2017-08-03 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN107578332A (zh) * | 2017-09-22 | 2018-01-12 | 深圳乐信软件技术有限公司 | 一种推荐现金商品的方法、装置、设备及存储介质 |
CN109344862A (zh) * | 2018-08-21 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 正样本的获取方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
吴萌: "多尺度表达和正则化方法在图像识别中的研究与应用", 《中国优秀博士学位论文全文数据库-计算机软件及计算机应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445699A (zh) * | 2019-09-05 | 2021-03-05 | 北京达佳互联信息技术有限公司 | 策略匹配方法、装置、电子设备及存储介质 |
CN111832789A (zh) * | 2019-09-24 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 位置确定方法、模型训练方法、装置、设备和存储介质 |
CN110852778A (zh) * | 2019-09-30 | 2020-02-28 | 口口相传(北京)网络技术有限公司 | 一种针对业务对象的数据处理方法及装置 |
CN110909775A (zh) * | 2019-11-08 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置及电子设备 |
CN111061968A (zh) * | 2019-11-15 | 2020-04-24 | 北京三快在线科技有限公司 | 排序方法、装置、电子设备及可读存储介质 |
CN111061968B (zh) * | 2019-11-15 | 2023-05-30 | 北京三快在线科技有限公司 | 排序方法、装置、电子设备及可读存储介质 |
CN110990698A (zh) * | 2019-11-29 | 2020-04-10 | 珠海大横琴科技发展有限公司 | 一种推荐模型构建方法和装置 |
CN111198988A (zh) * | 2019-12-25 | 2020-05-26 | 中国平安财产保险股份有限公司 | 业务推荐方法、训练方法、装置、计算机设备和存储介质 |
CN111310025A (zh) * | 2020-01-17 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 模型训练方法、数据处理方法、装置以及相关设备 |
CN111310025B (zh) * | 2020-01-17 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 模型训练方法、数据处理方法、装置以及相关设备 |
CN112001366A (zh) * | 2020-09-25 | 2020-11-27 | 北京百度网讯科技有限公司 | 模型训练方法、人脸识别方法、装置、设备和介质 |
CN114766023A (zh) * | 2020-10-30 | 2022-07-19 | 京东方科技集团股份有限公司 | 数据处理方法、装置及系统、电子设备 |
CN114766023B (zh) * | 2020-10-30 | 2023-05-16 | 京东方科技集团股份有限公司 | 数据处理方法、装置及系统、电子设备 |
CN112699168A (zh) * | 2020-12-30 | 2021-04-23 | 陈非 | 基于互联网金融和大数据的业务推荐方法及系统 |
CN113191812A (zh) * | 2021-05-12 | 2021-07-30 | 深圳索信达数据技术有限公司 | 业务推荐方法、计算机设备及计算机可读存储介质 |
CN113191812B (zh) * | 2021-05-12 | 2024-02-02 | 深圳索信达数据技术有限公司 | 业务推荐方法、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110163647B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163647A (zh) | 一种数据处理方法及装置 | |
CN104077306B (zh) | 一种搜索引擎的结果排序方法及系统 | |
CN109902708A (zh) | 一种推荐模型训练方法及相关装置 | |
CN109189904A (zh) | 个性化搜索方法及系统 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110119877B (zh) | 一种目标员工的选取方法及设备 | |
CN111523976A (zh) | 商品推荐方法、装置、电子设备及存储介质 | |
CN107851097A (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
CN108427708A (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN108038730A (zh) | 产品相似度判断方法、装置及服务器集群 | |
US20120239596A1 (en) | Classification of stream-based data using machine learning | |
CN110490625A (zh) | 用户偏好确定方法及装置、电子设备、存储介质 | |
CN107153656A (zh) | 一种信息搜索方法和装置 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN107247728B (zh) | 文本处理方法、装置及计算机存储介质 | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
JP7409061B2 (ja) | 文書管理装置及び文書管理プログラム | |
CN109784352A (zh) | 一种评估分类模型的方法和装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN106294410A (zh) | 一种个性化信息推送时间的确定方法及确定系统 | |
CN110852785B (zh) | 用户分级方法、装置及计算机可读存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN111861679A (zh) | 一种基于人工智能的商品推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |