CN115098771A - 推荐模型更新方法、推荐模型训练方法及计算设备 - Google Patents
推荐模型更新方法、推荐模型训练方法及计算设备 Download PDFInfo
- Publication number
- CN115098771A CN115098771A CN202210648557.0A CN202210648557A CN115098771A CN 115098771 A CN115098771 A CN 115098771A CN 202210648557 A CN202210648557 A CN 202210648557A CN 115098771 A CN115098771 A CN 115098771A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- training
- user
- behavior data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 370
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012217 deletion Methods 0.000 claims abstract description 43
- 230000037430 deletion Effects 0.000 claims abstract description 43
- 230000006399 behavior Effects 0.000 claims description 449
- 239000013598 vector Substances 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000007474 system interaction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种推荐模型更新方法、推荐模型训练方法及计算设备,其中,推荐模型更新方法包括:获取数据删除请求;获取基于多个训练分组进行分别训练得到的多个推荐模型;根据数据标志,从多个训练分组中确定包括特定数据的第一训练分组;从第一训练分组中删除特定数据,得到更新分组,并利用更新分组对第一推荐模型再次进行训练;利用再次训练后的第一推荐模型和第二推荐模型,针对用户进行对象推荐。在获取到数据删除请求时,只需从第一训练分组中删除特定数据,然后利用更新分组对相应的第一推荐模型再次进行训练,根据再次训练后的第一推荐模型和其他推荐模型,针对用户进行对象推荐,提高了推荐模型更新的效率。
Description
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种推荐模型更新方法和推荐模型训练方法。
背景技术
随着互联网技术的飞速发展,整个社会都被推入“大数据”时代。不管人们是否愿意,我们的个人数据正在不经意间被搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。企业可以通过数据挖掘和机器学习从中获得大量有价值的信息。而推荐系统,在互联网服务中就是依赖于学习大量的用户数据,用户兴趣爱好的精准建模,从而提供个性化的服务。然而,随着最近一些数据隐私保护法案的推进,赋予了用户“被删除的权力”,要求系统能够消除数据所有者要求删除的数据及其带来的影响。在一些场景下,推荐系统也需要能够删除某些敏感数据以及从这些数据中学到的参数。
一般情况下,为了消除某一部分数据,最直接的方法是在推荐模型中用去除要删除数据后的训练集重新训练模型。然而在大规模显示数据下,重训模型需要巨大的计算开销。因此,亟需一种高效的推荐模型更新的方案。
发明内容
有鉴于此,本说明书实施例提供了一种推荐模型更新方法,一种推荐模型训练方法。本说明书一个或者多个实施例同时涉及一种推荐模型更新装置,一种推荐模型训练装置,一种计算设备以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种推荐模型更新方法,包括:
获取数据删除请求,其中,数据删除请求携带特定数据的数据标志;
获取多个推荐模型,其中,多个推荐模型是基于多个训练分组进行分别训练得到的,多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合;
根据数据标志,从多个训练分组中确定包括特定数据的第一训练分组,其中,第一训练分组用于训练多个推荐模型中的第一推荐模型;
从第一训练分组中删除特定数据,得到更新分组,并利用更新分组对第一推荐模型再次进行训练;
利用再次训练后的第一推荐模型和第二推荐模型,针对用户进行对象推荐,其中,第二推荐模型为多个推荐模型中除第一推荐模型以外的推荐模型。
根据本说明书实施例的第二方面,提供了一种推荐模型训练方法,包括:
获取训练数据集,其中,训练数据集包括多个用户行为数据;
根据多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;
根据多个用户行为数据集合,对训练数据集进行分组,得到多个训练分组;
针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
根据本说明书实施例的第三方面,提供了一种推荐模型更新装置,包括:
第一获取模块,被配置为获取数据删除请求,其中,数据删除请求携带特定数据的数据标志;
第二获取模块,被配置为获取多个推荐模型,其中,多个推荐模型是基于多个训练分组进行分别训练得到的,多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合;
确定模块,被配置为根据数据标志,从多个训练分组中确定包括特定数据的第一训练分组,其中,第一训练分组用于训练多个推荐模型中的第一推荐模型;
数据删除模块,被配置为从第一训练分组中删除特定数据,得到更新分组,并利用更新分组对第一推荐模型再次进行训练;
推荐模块,被配置为利用再次训练后的第一推荐模型和第二推荐模型,针对用户进行对象推荐,其中,第二推荐模型为多个推荐模型中除第一推荐模型以外的推荐模型。
根据本说明书实施例的第四方面,提供了一种推荐模型训练装置,包括:
第三获取模块,被配置为获取训练数据集,其中,训练数据集包括多个用户行为数据;
聚类模块,被配置为根据多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;
分组模块,被配置为根据多个用户行为数据集合,对训练数据集进行分组,得到多个训练分组;
训练模块,被配置为针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,该计算机可执行指令被处理器执行时实现上述推荐模型更新方法或者推荐模型训练方法。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述推荐模型更新方法或者推荐模型训练方法。
本说明书一个实施例通过获取数据删除请求;获取多个推荐模型,其中,多个推荐模型是基于多个训练分组进行分别训练得到的;根据数据标志,从多个训练分组中确定包括特定数据的第一训练分组;从第一训练分组中删除特定数据,得到更新分组,并利用更新分组对第一推荐模型再次进行训练;利用再次训练后的第一推荐模型和第二推荐模型,针对用户进行对象推荐。在获取到数据删除请求时,只需从第一训练分组中删除特定数据,然后利用更新分组对相应的第一推荐模型再次进行训练,根据再次训练后的第一推荐模型和其他推荐模型,针对用户进行对象推荐,提高了推荐模型更新的效率。
附图说明
图1a是本说明书一个实施例提供的一种应用推荐模型更新方法的系统交互流程图;
图1b是本说明书一个实施例提供的一种推荐模型更新方法的前端显示示意图;
图2是本说明书一个实施例提供的一种推荐模型更新方法的流程图;
图3是本说明书一个实施例提供的一种推荐模型更新方法的框架示意图;
图4是本说明书一个实施例提供的一种推荐模型训练方法的流程图;
图5是本说明书一个实施例提供的一种推荐模型更新装置的结构示意图;
图6是本说明书一个实施例提供的一种推荐模型训练装置的结构示意图;
图7是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
推荐系统(Recommender System):是一种信息过滤系统,手段是预测用户(user)对物品(item)的评分和偏好。
机器遗忘(Machine Unlearning):在不影响性能的情况下,删除机器学习系统中特定人员或数据点的所有痕迹。
终端:是与计算机系统相连的一种输入输出设备,通常离计算机较远。
随着互联网技术的飞速发展,整个社会都被推入“大数据”时代。不管人们是否愿意,我们的个人数据正在不经意间被搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。企业可以通过数据挖掘和机器学习从中获得大量有价值的信息。而推荐系统,在互联网服务中就是依赖于学习大量的用户数据,精准建模用户的兴趣爱好,从而提供个性化的服务。然而,随着最近一些数据隐私保护法案的推进,赋予了用户“被删除的权力”,要求系统能够消除数据所有者要求删除的数据及其带来的影响。在一些场景下,推荐系统也需要能够删除某些敏感数据以及从这些数据中学到的参数,因此,推荐模型更新的方法对用户来说非常有必要。
为了解决上述问题,本说明书提供了一种推荐模型更新方法,一种推荐模型训练方法。本说明书同时涉及一种推荐模型更新装置,一种推荐装置,一种计算设备,以及一种计算机可读存储介质。
参见图1a、图1b,图1a示出了本说明书一个实施例提供的一种应用推荐模型更新方法的系统交互流程图、图1b示出了本说明书一个实施例提供的一种推荐模型更新方法的前端显示示意图。如图1a、图1b所示,该系统包括客户端和云端服务器。
如图1a,用户通过客户端向云端服务器发起“数据删除请求”,云端服务器在获取到数据删除请求之后,基于数据删除请求确定所属训练分组,然后根据数据删除请求处理所属训练分组,基于处理后得到的更新分组,再次进行训练得到对应的推荐模型,最后基于再次训练的推荐模型与其他模型针对用户进行对象推荐。随后云端服务器利用更新的推荐模型为客户端发送推荐信息,也即云端服务器在接收到数据删除请求后,进行了数据删除、模型更新、信息推荐的操作。
如图1b示出了用户发起“数据删除请求”的一种方式,客户端的应用程序出现弹窗“是否允许读取信息”,若用户点击“否”,则将会生成“数据删除请求”,若用户点击“是”,则将不会生成“数据删除请求”。
客户端,被配置为向云端服务器发送数据删除请求,其中,数据删除请求携带特定数据的数据标志;
云端服务器,被配置为根据数据删除请求中携带的数据标志,确定特定数据所属的训练分组,其中,训练分组为对训练数据集划分得到,训练数据集包括多个用户行为数据;从所属的训练分组中删除特定数据,得到更新分组,并利用更新分组,对第一推荐模型进行再次训练;基于再次训练的第一推荐模型与第二推荐模型针对用户进行对象推荐,其中,所述第二推荐模型为所述多个推荐模型中除所述第一推荐模型以外的推荐模型;
实际应用中,云端服务器,进一步被配置为将数据删除请求后对应的推荐信息给客户端。
通过获取数据删除请求;获取基于多个训练分组进行分别训练得到的多个推荐模型;根据数据标志,从多个训练分组中确定包括特定数据的第一训练分组;从第一训练分组中删除特定数据,得到更新分组,并利用更新分组对第一推荐模型再次进行训练;利用再次训练后的第一推荐模型和第二推荐模型,针对用户进行对象推荐。在获取到数据删除请求时,只需从第一训练分组中删除特定数据,然后利用更新分组对相应的第一推荐模型再次进行训练,根据再次训练后的第一推荐模型和其他推荐模型,针对用户进行对象推荐,提高了推荐模型更新的效率。
参见图2,图2示出了本说明书一个实施例提供的一种推荐模型更新方法的流程图,具体包括以下步骤。
步骤202:根据用户标识,从用户行为日志中提取各用户对应的用户行为数据,其中,所述用户行为日志中记录了用户标识与用户行为数据的对应关系;基于所述用户行为数据,构建训练数据集。
在信息推荐场景中,会利用推荐模型向用户进行行为对象信息推荐,在推荐模型训练时,首先需要获取训练数据集,其中,所述训练数据集包括多个用户行为数据。
具体地,训练数据集是指与多个用户相关的训练数据的集合,比如,用户的基本信息、浏览记录、搜索记录等等的集合。获取训练数据集是指计算机中的推荐系统为更好地过滤信息,对用户喜好偏好的预测,从而获取到包括多个用户行为数据的训练数据的集合。
应用本说明书实施例的方案,通过获取训练数据集,所述训练数据集中包括有多个用户行为数据,之后利用获取到的训练数据集进行训练分组与推荐模型的训练,使得得到的推荐模型的准确率更高、效果更好。
具体地,用户标识是指表征用户的标识,比如,用户ID、用户身份证ID、用户姓名、用户电话号码等等。用户行为日志是指用户在使用计算机过程中产生的一系列行为信息并将其存储到日志中,比如,购物应用程序中的数据库、浏览器应用程序中的浏览记录等等。用户行为数据是指用户在浏览电子设备时机体的行为和行为发生时环境的观察报告,比如,用户1进行搜索所产生的数据、用户2编辑内容所产生的数据等等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
根据用户标识从用户行为日志中提取各用户对应的用户行为数据是指计算机根据获取到的各用户的用户标识提取各用户对应的用户行为数据,进一步地,从用户行为日志里进行提取的方式,比如,计算机直接根据用户的用户标识从购物应用程序中提取与该用户标识对应的搜索记录、购物记录等等。基于用户行为数据,构建训练数据集是指基于提取到的所有用户行为数据,构建训练数据集,用于后续进行推荐模型的训练。
示例性地,根据用户1的ID、用户2的身份证ID、用户3的姓名、用户4的电话号码,从购物应用程序中的搜索记录、购物记录的日志里提取各自用户标识对应的记录信息,并基于其构建训练数据集。
聚类是指根据多个用户行为数据的特征信息,将多个用户行为数据分成特征信息相似的对象组成的多个用户行为数据集合的过程,比如,将上述用户1与浏览新闻1、用户2浏览新闻2划分到一类或者将上述用户3与在时间段1内搜索衣服、用户4在时间段内搜索电脑划分到一类。
应用本说明书实施例的方案,根据用户标识,从用户行为日志中提取各用户对应的用户行为数据,其中,所述用户行为日志中记录了用户标识与特征信息的对应关系,并基于提取到的用户行为数据,构建训练数据集,使得提取到的用户行为数据是直接从用户行为日志里进行提取,提取到的用户行为数据显然会更加全面,后续根据所述用户行为数据训练得到的推荐模型精度也将会更高。
步骤204:根据所述多个用户行为数据的特征信息,计算各用户行为数据之间的距离,所述特征信息包括用户向量表示和行为对象向量表示。
在推荐模型应用场景中,在获取到训练数据集之后,需要根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合。
获取训练数据集,对训练数据集进行聚类,并进行推荐模型的训练,以实现对用户喜好偏好的预测,从而获取到的与多个用户相关的训练数据的集合。
具体地,特征信息是指用户与行为对象之间所产生的信息,其表征了用户与行为对象之间的特征,比如,用户1对商品A的浏览记录、支付记录、搜索记录等,用户2对网页B的搜索记录、浏览记录等,用户3对文章C的编辑记录、搜索记录浏览记录等等。
根据多个用户行为数据的特征信息,计算各用户行为数据之间的距离是指,利用多个用户行为数据的用户向量表示和行为对象向量表示分别计算多个用户行为数据之间的距离,然后将分别计算出的用户向量距离和行为对象向量距离,来得到多个用户行为数据之间的距离。
上述多个用户行为数据是根据用户标识从用户行为日志中提取出来的,然后基于多个用户行为数据的特征信息,计算得到的各用户行为数据之间的距离根据计算出来的各用户行为数据之间的距离,使用中心聚类算法,对多个用户行为数据进行聚类,从而得到具有特征相似性的多个用户行为数据集合。
用户行为数据集合是指根据多个用户行为数据的特征信息,对训练数据集进行聚类得到的具有特征信息相似的集合,比如,用户1与手机1、用户2与手机1可以作为同一用户行为数据集合中的行为数据或者用户1与电脑1、用户2与电脑2在某一时间段内浏览或者购买可以作为同一用户行为数据集合中的行为数据等等。
具体的根据所述多个用户行为数据的特征信息,计算各用户行为数据之间的距离包括如下具体步骤:
根据第一用户行为数据的用户向量表示和第二用户行为数据的用户向量表示,计算所述第一用户行为数据和所述第二用户行为数据的用户向量距离,
其中,所述第一用户行为数据和所述第二用户行为数据为任意两个不同的用户行为数据;
根据所述第一用户行为数据的行为对象向量表示和所述第二用户行为数据的行为对象向量表示,计算所述第一用户行为数据和所述第二用户行为数据的行为对象向量距离;
根据所述用户向量距离和所述行为对象向量距离,确定所述第一用户行为数据和所述第二用户行为数据之间的距离。
具体地,向量表示是指在机器学习和深度学习的编程过程中,为了提高程序的运行速度,通常将模型表达式转换为向量表达式(向量化),即利用矩阵运算思想提高运行效率。
示例性地,根据用户1与用户2、用户2与用户3的行为数据的用户向量表示计算用户1与用户2、用户2与用户3的行为数据的用户向量距离;根据用户1与用户2、用户2与用户3的行为数据的行为对象向量表示计算用户1与用户2、用户2与用户3的行为数据的行为对象向量距离;最后根据计算出的用户向量距离与行为对象向量距离确定用户1与用户2、用户2与用户3的行为数据之间的距离。
应用本说明书实施例的方案,通过第一用户行为数据与第二用户行为数据分别对应的特征信息中包括用户向量表示和行为对象向量表示,再确定第一用户行为数据与第二用户行为数据的用户向量表示与行为对象向量表示,分别计算第一用户行为数据与第二用户行为数据之间的用户向量距离与行为对象向量距离,来确定第一用户行为数据与第二用户行为数据之间的距离,如此多方面的进行聚类,使得聚类结果更加的准确与稳定。
步骤206:确定多个用户行为数据集合的中心;计算当前用户行为数据分别与各个用户行为数据集合的中心之间的距离。
在实际信息推荐场景中,推荐模型进行训练时,在获取到训练数据集,并根据训练数据集中包含的多个用户行为数据的特征信息进行各用户行为数据之间的距离的计算,然后根据所述各用户行为数据之间的距离,使用中心聚类算法,对所述多个用户行为数据进行聚类,得到多个用户行为数据集合。
具体地,先通过计算任一用户行为数据集合中的多个用户行为数据的特征信息的平均值,将该平均值确定为用户行为数据集合的中心,即聚类中心,然后计算任一当前用户行为数据分别与各个用户行为数据集合的中心之间的距离,根据各所述距离,确定当前用户行为数据所属的用户行为数据集合,并将所述当前用户行为数据划分至所属的用户行为数据集合。
示例性地,确定集合1、集合2、集合3各自对应的中心,计算用户行为数据1与集合中心1、集合中心2、集合中心3之间的距离,根据所述距离,确定集合2确定为用户行为数据1所属的用户行为数据集合,并将该用户行为数据划分至集合2中。具体可以确定距离最近的用户行为数据集合作为所属的用户行为数据集合。
需要说明的是,聚类算法有很多种,其中一种可能的实现方式中,中心聚类算法是先确定聚类的个数,然后通过计算当前聚类中用户行为数据的特征信息向量的平均值,将该平均值确定为聚类的中心,然后针对其他任一未聚类的用户行为数据,分别计算与各个聚类中心的距离,确定距离最小对应的聚类,且该聚类中包含的用户行为数据的数量未达到预设数量,则将该用户行为数据划分至所述聚类,并重新计算聚类中心。另一种可能的实现方式中,边缘聚类算法是先确定聚类的个数,然后确定各个聚类的边缘,针对其他任一未聚类的用户行为数据,分别计算与各个聚类边缘的距离,确定距离最小的聚类,且该聚类中包含的用户行为数据的数量未达到预设数量,则将该用户行为数据划分至所述聚类,并重新计算聚类边缘。以中心聚类算法为例,具体的距离计算公式如下式(1)。
上述,ai为任一类中心的向量;i为第i个用户行为数据;yuv为任一未进行聚类的用户行为数据的向量;和为ai的用户向量和行为对象向量;和为yuv预先训练好的用户向量和行为对象向量;和为对应向量和中第j维元素;和为对应向量和中第j维元素。通过公式(1)可以得到任一未进行聚类的用户行为数据与任一类中心之间的距离。
应用本说明书实施例的方案,通过确定多个用户行为数据集合的中心,并计算各个用户行为数据集合的中心分别与当前用户行为数据之间的距离,根据所述距离确定当前用户行为数据所属的用户行为数据集合。根据计算距离的方式从多个用户行为数据集合中确定出来的当前用户行为数据所属的用户行为数据集合,使得确定的聚类的结果更加的准确、严谨。
步骤208:获取各个用户行为数据集合中的用户行为数据数量;确定距离和用户行为数据数量符合预设分类条件的用户行为数据集合,作为所述当前用户行为数据所属的用户行为数据集合。
推荐模型在进行训练过程中,首先获取到训练数据集,并进行聚类得到多个用户行为数据集合,之后确定多个用户行为数据集合的中心,计算得到任一用户行为数据到各个用户行为数据集合之间的距离,根据各所述距离,确定所述当前用户行为数据所属的用户行为数据集合。
应用本说明书实施例的方案,通过确定多个用户行为数据集合的中心,并计算各个用户行为数据集合的中心分别与当前用户行为数据之间的距离,根据所述距离确定当前用户行为数据所属的用户行为数据集合。根据计算距离的方式从多个用户行为数据集合中确定出来的当前用户行为数据所属的用户行为数据集合,使得确定的聚类的结果更加的准确、严谨。
具体地,预设分类条件是指预先设置的可将当前用户行为数据聚类至所属的用户行为数据集合的条件,比如,可以受用户行为数据与用户行为数据集合的中心之间的距离和与所属用户行为数据集合中用户行为数据数量的约束。
进一步地,确定所属用户行为数据集合的过程,具体可以是:将当前用户行为数据与多个用户行为数据集合中心的距离进行从近到远的排序,确定距离最近的中心所属的用户行为数据集合,且判断该用户行为数据集合中包含的用户行为数据的数量是否达到预设数量,如果未达到,则确定该用户行为数据集合为所属的用户行为数据集合,如果达到,则按照排序判断下一个用户行为数据集合中包含的用户行为数据数量是否达到预设数量,以此类推,找到当前用户行为数据所属的用户行为数据集合。
具体地,预设数量是指预先设置的用户行为数据集合中的用户行为数据的数量,比如预设数量为10,从而当用户行为数据集合中的用户行为数据数量未达到10个时,可确定该用户行为数据集合中用户行为数据数量未达到预设数量。
示例性地,获取用户行为数据集合1、2、3的中心,计算用户行为数据1分别与集合1、2、3的中心之间的距离,计算出来的距离由近到远进行排序,用户行为数据1与集合1的中心之间的距离排第一,与集合3的中心之间的距离排第二,与集合2的中心之间的距离排第三,其中确定出与集合1的距离最近,进一步地,判断集合1中包含的用户行为数据数量是否达到预设数量,若已达到,则确定距离排第二的集合3包含的用户行为数据的数量是否达到预设数量,若未达到,则确定集合3为所属的用户行为数据集合,并将所述用户行为数据1划分至集合3。
应用本说明书实施例的方案,通过将距离与用户行为数据的数量作为判断是否符合预设分类的条件,使得确定出来的当前用户行为数据所属的用户行为数据集合更加的精确,进一步地提高了分类的准确率。
步骤210:根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组。
具体地,通过确定训练数据集中的多个用户行为数据进行距离与用户行为数据数量的确定,将训练数据集中的多个用户划分为多个用户行为数据集合,相应的根据每一个集合中所划分得到的多个用户行为数据进行分组,得到多个训练分组。
应用本说明书实施例的方案,通过先对多个用户行为数据进行划分集合,然后按照集合对训练数据集进行训练分组的划分,使得划分出来的训练分组更加的严谨,进一步地,使得训练出来的模型更加的准确。
步骤212:获取初始推荐模型;针对任一训练分组,利用该训练分组对所述初始推荐模型进行训练,得到对应的推荐模型。
在进行推荐模型训练时,首先获取到训练数据集,然后进行聚类,得到U盾讴歌用户行为数据集合,根据多个用户行为数据集合对训练数据集进行分组,得到多个训练分组,然后针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
基于用户行为日志中提取到的各用户对应的用户行为数据进行划分,得到的训练分组,并基于各训练分组进行训练,得到多个推荐模型,之后基于多个推荐模型进行行为对象的推荐。
具体地,初始推荐模型是指随机初始化的任一初始推荐模型。其中,获取随机初始化的任一初始推荐模型,针对任一划分好的训练分组,通过任一划分好的训练分组对任一初始推荐模型进行训练,从而得到该任一训练分组对应的推荐模型。
获取初始推荐模型是基于为用户推荐符合用户喜爱和偏好的信息,从而在没有任何参数的初始推荐模型中,根据用户行为数据进行训练。其中,利用训练分组对初始推荐模型进行训练是利用传统的神经网络模型的训练方法进行训练,从而得到该训练分组对应的推荐模型。
示例性地,获取初始推荐模型,针对训练分组1,利用该训练分组1对初始推荐模型进行训练,即可得到该训练分组1对应的推荐模型,其中训练分组1可以为任一训练分组。
应用本说明书实施例的方案,获取初始推荐模型;针对任一训练分组,利用该训练分组对所述初始推荐模型进行训练,得到该训练分组对应的推荐模型,使得利用各个训练分组训练得到的推荐模型之间仅具有参数上的差别,有利于后续进行模型的更新。
需要说明的是,通过预先对获取的训练数据集进行划分,得到多个训练分组,针对任一训练分组训练得到该训练分组的推荐模型,并进一步获取数据删除请求,实现了在处理数据删除请求时携带的特定数据的数据标志,为后续进行针对性的数据删除起到了提高效率的作用。
步骤214:获取数据删除请求,其中,所述数据删除请求携带特定数据的数据标志。
数据删除请求是基于用户有数据删除的需求,从而产生的,数据删除请求中携带有特定数据的数据标志。其中,特定数据是指用户有要求互联网信息管理者或者使用者删除或禁止使用的用户行为数据,比如,用户的基本信息、浏览记录、购物记录等等。数据标志是表征数据的属性特征、数据本身,比如,数据的标签、数据的名称、数据本身等等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
需要说明的是,获取数据删除请求的方式有很多种,一种可能的实现方式中,用户在终端发起数据删除请求,终端是指与计算机相连的一种输入输出设备,通常离计算机较远。另一种可能的实现方式中,可以是用户在使用初始就与计算机约定好的,设定的某一部分用户行为数据的信息为特定数据的数据标志。另一种可能的实现方式中,用户在客户端存储到某一位置,计算机自行获取的数据删除请求,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
应用本说明书实施例的方案,获取用户的数据删除请求,其中,数据删除请求中携带有用户想要删除的特定数据的数据标志,后续可基于数据标志从多个训练分组中确定所需要的训练分组并进行删除特定数据,基于删除特定数据的训练分组再次进行训练,得到再次训练后的推荐模型,提高了数据删除的效率。
步骤216:获取多个推荐模型,其中,所述多个推荐模型是基于多个训练分组进行分别训练得到的,所述多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合。
具体地,训练分组中包含有基于用户行为数据的特征信息对用户行为数据进行聚类得到的用户行为数据集合。
根据多个用户行为数据的特征信息对多个用户行为数据进行聚类,得到多个用户行为数据集合,基于多个用户行为数据集合得到多个训练分组,然后基于多个训练分组分别进行训练,即可得到多个推荐模型。
示例性地,根据用户1的浏览记录、用户2的搜索记录、用户3的购物记录、用户4的搜索记录进行聚类,得到用户1的浏览记录与用户4的搜索记录为用户行为记录集合1,用户2的搜索记录与用户3的购物记录为用户行为数据集合2,基于集合1与集合2得到训练分组1与训练分组2,基于训练分组1与训练分组2分别进行训练,得到2个对应的推荐模型。
需要说明的是,用户行为数据集合中的多个用户行为数据之间具有特征相似性。
应用本说明书实施例的方案,通过获取多个推荐模型,其中,所述多个推荐模型是由多个训练分组进行分别训练得到的,所述多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合,使得多个推荐模型均是通过根据用户行为数据的特征信息,对每一个用户行为数据进行聚类得到的训练分组训练得到,训练得到的推荐模型效果更加的好,结果会更加的准确。
步骤218:根据所述数据标志,从所述多个训练分组中确定包括所述特定数据的第一训练分组,其中,所述第一训练分组用于训练所述多个推荐模型中的第一推荐模型。
具体地,数据标志是指特定数据的数据标志,其特定数据是用户发起的数据删除请求中携带的,是用户想要删除的特定数据。从所述多个训练分组中确定出包括所述特定数据的第一训练分组,即是从多个训练分组中查找数据标志所属的训练分组,从而确定特定数据所属的训练分组为第一训练分组,而第一训练分组训练得到的是第一推荐模型。
需要说明的是,该数据标志可以是用户直接上传的数据删除请求中直接携带的,也可以是系统直接从数据中提取的数据标志。
应用本说明书实施例的方案,通过根据特定数据的数据标志从多个训练分组中确定出该特定数据所属的训练分组,以便于后续可直接从所属的训练分组中删除特定数据,并进行再次训练,使得训练可以是只针对一个训练分组进行再次训练,极大简化了训练的繁琐步骤以及庞大的成本,提高了推荐模型更新的效率。
步骤220:从所述第一训练分组中删除所述特定数据,得到更新分组,并利用所述更新分组对所述第一推荐模型再次进行训练。
具体地,从第一训练分组中删除特定数据是指从含有多个用户行为数据的集合中,将特定数据删除掉,从而得到不包含有特定数据的更新的训练分组。
从第一训练分组中删除特定数据是指从训练推荐模型的训练分组中将特定数据删除掉,使得后续训练推荐模型时,训练的数据以及训练得到的模型中不再包含有特定数据,但特定数据依然存储于计算机中。
需要说明的是,特定数据是指用户有要求互联网信息管理者或者使用者删除或禁止使用的用户相关的数据,比如,用户的基本信息、浏览记录、搜索记录等等。数据标志是表征数据的属性特征、数据本身,比如,数据的标签、数据的名称、数据本身等等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
应用本说明书实施例的方案,通过从特定数据所属的训练分组中删除特定数据,得到更新的分组,并利用更新分组对第一推荐模型再次进行训练,使得再次训练得到的推荐模型仅是删除掉了特定数据,其余数据均在,使得再次训练得到的推荐模型精度依然很高,后续的推荐结果也不会发生特别大的变化,同时使得想要删除的特定数据所属在一个用户行为数据集合中,并基于一个特定数据进行删除再次训练的过程,极大提高了推荐模型更新的效率。
步骤222:利用再次训练后的所述第一推荐模型和第二推荐模型,针对用户进行对象推荐。
具体地,第一推荐模型是与第一训练分组相对应的;第二推荐模型是与除第一训练分组以外的训练分组相对应的,训练分组都是基于训练数据集得到,故可以使用再次训练得到的第一推荐模型与第二推荐模型对用户进行对象推荐。基于删除特定数据的训练分组再次训练,得到第一推荐模型,基于所述第一推荐模型与除第一训练分组训练得到的第二推荐模型对用户进行针对性的推荐。
具体包括如下步骤:
获取特定用户的用户信息;
将所述用户信息分别输入再次训练后的所述第一推荐模型和第二推荐模型,得到各推荐模型输出的预测用户行为数据,其中,所述第二推荐模型为所述多个推荐模型中除所述第一推荐模型以外的推荐模型;
预测用户行为数据包括所述特定用户的用户向量表示和各预测行为对象的行为对象向量表示;
利用注意力机制,对所述各推荐模型输出的所述特定用户的用户向量表示和各预测行为对象的行为对象向量表示进行注意力计算,得到所述特定用户与各预测行为对象之间的关联权重;
根据所述关联权重,确定向所述特定用户推荐的特定行为对象。
具体地,特定用户是指需要针对该用户进行对象推荐的用户。用户信息是指可以表征用户的信息,比如,用户的身份标识、用户的账号信息、用户的行为数据等等。第一推荐模型是与第一训练分组相对应的;第二推荐模型是与除第一训练分组以外的训练分组相对应的。基于删除特定数据的训练分组再次训练,得到第一推荐模型,基于所述第一推荐模型与除第一训练分组训练得到的第二推荐模型对用户进行针对性的推荐。
示例性地,基于删除用户1与购买电脑的信息后的训练分组1再次训练得到的第一推荐模型,与基于训练数据集划分得到的除训练分组1以外的其他训练分组预先训练得到的第二推荐模型,基于第一推荐模型与第二推荐模型针对用户1进行对象推荐。
应用本说明书实施例的方案,利用删除掉特定数据的第一训练分组再次训练得到的第一推荐模型与基于除第一训练分组外的其他训练分组预先训练得到的第二推荐模型,并基于第一推荐模型与第二推荐模型针对用户进行对象推荐,极大提高了处理数据删除请求的效率,提高了更新推荐模型的效率,且针对用户的对象推荐精度依然很高。
获取待推荐用户的用户信息,将用户信息输入已删除特定数据,并再次训练得到的第一推荐模型与原第二推荐模型,得到各推荐模型输出的预测用户行为数据,并对预测用户行为数据进行整合,得到特定待推荐用户的特定的行为对象。
应用本说明书实施例的方案,通过获取特定用户的用户信息,并将用户信息输入至再次进行训练后的第一推荐模型与第二推荐模型,得到各个推荐模型输出的预测用户行为数据,并进行整合,来得到特定用户的特定行为对象,使得特定用户的特定行为对象是由特定用户的用户信息输入至再次进行训练后的第一推荐模型与第二推荐模型得到的,得到的结果精度很高,进一步体现了模型更新的高效率与数据删除的高效率。
具体地,向量表示是指向量表示是指在机器学习和深度学习的编程过程中,为了提高程序的运行速度,通常将模型表达式转换为向量表达式(向量化),即利用矩阵运算思想提高运行效率。关联权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性,表征关联性的重要程度。特定行为对象是指与特定用户的用户信息相关联的,根据关联权重确定出的。
需要说明的是,利用注意力机制,对所述各推荐模型输出的所述特定用户的用户向量表示和各预测行为对象的行为对象向量表示进行注意力计算,得到所述特定用户与各预测行为对象之间的关联权重,具体的计算逻辑,表示为如下公式(2)-(5)。
上述,Pi与Qi分别为用户向量表示和行为对象向量表示;Wi为转换矩阵,用于将Pi与Qi映射到同一空间中得到新的用户向量表示和行为对象向量表示bi为偏置向量。通过公式(2)可以得到将用户向量表示与行为对象向量表示映射到同一空间中的新的用户向量表示与行为对象向量表示。
上述,αi和βi为模型聚合过程中对每个推荐模型输出的用户向量表示和行为对象向量表示分配的权重,其中,矩阵W1、向量b1、向量h1、向量为用户自注意力计算过程中的参数,矩阵W2、向量b2、向量h2、向量为行为对象注意力计算过程中的参数;P和Q分别为聚合后最终的用户向量表示和行为对象向量表示;σ为神经网络激活函数,这里使用常见的ReLU激活函数。通过公式(3)-(5)可以得到聚合后最终的用户向量表示和行为对象向量表示,其中公式(3)与公式(4)均为计算过程中得到的参数。
应用本说明书实施例的方案,利用注意力机制,对个推荐模型输出的预测用户行为数据中包含的特定用户的用户向量表示和各预测行为对象的行为对象向量表示进行注意力计算,得到特定用户与各预测行为对象之间的关联权重,确定出向特定用户推荐的特定行为对象。使得最终的目标推荐对象会更符合目标用户的预期,提高了用户后续使用该推荐模型的效率。
需要说明的是,本说明书提供的推荐模型更新方法,应用于多种场景下的推荐模型更新过程,如购物场景、浏览场景,当然还可以应用于其他场景下,本说明书中对推荐模型更新方法的应用场景不进行限定。
参见图3,图3示出了本说明书的一个实施例提供的一种推荐模型更新方法的框架示意图。
图3中“原始训练数据”是指步骤202中的根据用户标识,从用户行为日志中提取各用户对应的用户行为数据,其中,所述用户行为日志中记录了用户标识与用户行为数据的对应关系;基于所述用户行为数据,构建训练数据集;“平衡数据区分”指的是步骤204至步骤218;“删除”指的是步骤220;S1至Sk指的是根据原始训练数据划分出来的K个用户行为数据集合;M1至Mk指的是根据K个训练分组训练出来的对应的K个推荐模型;“基于注意力的自适应聚合”是指步骤222;“预测”是指将基于注意力的自适应聚合结果进行汇总,得到最终的新题推荐结果。
图4示出了根据本说明书一个实施例提供的一种推荐模型训练方法的流程图,具体包括以下步骤。
步骤402:获取训练数据集,其中,所述训练数据集包括多个用户行为数据。
步骤404:根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合。
步骤406:根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组。
步骤408:针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
具体地,训练数据集是指与多个用户相关的训练数据的集合,比如,用户的基本信息、浏览记录、搜索记录等等的集合。用户行为数据是指用户在浏览电子设备时机体的行为和行为发生时环境的观察报告,比如,用户1进行搜索所产生的数据、用户2编辑内容所产生的数据等等。特征信息是指用户与行为对象之间所产生的信息,其表征了用户与行为对象之间的特征,比如,用户1对商品A的浏览记录、支付记录、搜索记录等,用户2对网页B的搜索记录、浏览记录等,用户3对文章C的编辑记录、搜索记录浏览记录等等。用户行为数据集合是指根据多个用户行为数据的特征信息,对训练数据集进行聚类得到的具有特征信息相似的集合,比如,用户1与手机1、用户2与手机1可以作为同一用户行为数据集合中的行为数据或者用户1与电脑1、用户2与电脑2在某一时间段内浏览或者购买可以作为同一用户行为数据集合中的行为数据等等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
获取训练数据集是指计算机中的推荐系统为更好地过滤信息,对用户喜好偏好的预测,从而获取到的与多个用户相关的训练数据的集合。对多个用户行为数据进行聚类是指根据多个用户行为数据的特征信息的相似性进行聚类。推荐模型是根据用户行为数据集合利用传统的神经网络模型的训练方法训练得到的。
示例性地,获取用户的5个浏览记录、5个搜索记录的集合,根据用户的5个浏览记录的特征信息、5个搜索记录的特征信息,进行聚类,得到3个用户行为数据集合,根据3个用户行为数据集合,对用户的5个浏览记录、5个搜索记录的集合进行分组,得到3个训练分组,对3个训练分组,分别进行训练,得到3个对应的推荐模型。
应用本说明书实施例的方案,通过获取训练数据集,其中训练数据集中包括多个用户行为数据,根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合,并对训练数据集进行分组,得到多个训练分组,针对任一训练分组,利用该训练分组进行训练得到对应的推荐模型。使得训练得到的推荐模型是基于对训练数据集进行划分得到的训练分组进行训练得到,推荐模型的效果更好,精度更高。
与上述推荐模型更新方法实施例相对应,本说明书还提供了推荐模型更新装置实施例,图5示出了本说明书一个实施例提供的一种推荐模型更新装置的结构示意图。如图5所示,该装置包括:
第一获取模块502,被配置为获取数据删除请求,其中,所述数据删除请求携带特定数据的数据标志;
第二获取模块504,被配置为获取多个推荐模型,其中,所述多个推荐模型是基于多个训练分组进行分别训练得到的,所述多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合;
确定模块506,被配置为根据所述数据标志,从所述多个训练分组中确定包括所述特定数据的第一训练分组,其中,所述第一训练分组用于训练所述多个推荐模型中的第一推荐模型;
数据删除模块508,被配置为从所述第一训练分组中删除所述特定数据,得到更新分组,并利用所述更新分组对所述第一推荐模型再次进行训练。
推荐模块510,被配置为利用再次训练后的所述第一推荐模型和第二推荐模型,针对用户进行对象推荐,其中,所述第二推荐模型为所述多个推荐模型中除所述第一推荐模型以外的推荐模型。
可选地,该装置还包括:
训练分组划分模块,被配置为获取训练数据集,其中,所述训练数据集包括多个用户行为数据;根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组;针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
可选地,训练分组划分模块,进一步被配置为根据用户标识,从用户行为日志中提取各用户对应的用户行为数据,其中,所述用户行为日志中记录了用户标识与用户行为数据的对应关系;基于所述用户行为数据,构建训练数据集。
可选地,训练分组划分模块,进一步被配置为根据所述多个用户行为数据的特征信息,计算各用户行为数据之间的距离;根据所述各用户行为数据之间的距离,使用中心聚类方法,对所述多个用户行为数据进行聚类,得到多个用户行为数据集合。
可选地,训练分组划分模块,进一步被配置为根据第一用户行为数据的用户向量表示和第二用户行为数据的用户向量表示,计算所述第一用户行为数据和所述第二用户行为数据的用户向量距离,其中,所述第一用户行为数据和所述第二用户行为数据为任意两个不同的用户行为数据;根据所述第一用户行为数据的行为对象向量表示和所述第二用户行为数据的行为对象向量表示,计算所述第一用户行为数据和所述第二用户行为数据的行为对象向量距离;根据所述用户向量距离和所述行为对象向量距离,确定所述第一用户行为数据和所述第二用户行为数据之间的距离。
可选地,训练分组划分模块,进一步被配置为确定多个用户行为数据集合的中心;计算当前用户行为数据分别与各个用户行为数据集合的中心之间的距离;根据各所述距离,确定所述当前用户行为数据所属的用户行为数据集合。
可选地,训练分组划分模块,进一步被配置为获取各个用户行为数据集合中的用户行为数据数量;所述根据各所述距离,确定所述当前用户行为数据所属的用户行为数据集合,包括:确定距离和用户行为数据数量符合预设分类条件的用户行为数据集合,作为所述当前用户行为数据所属的用户行为数据集合。
可选地,训练分组划分模块,进一步被配置为获取初始推荐模型;针对任一训练分组,利用该训练分组对所述初始推荐模型进行训练,得到对应的推荐模型。
推荐模型510,进一步被配置为获取特定用户的用户信息;将所述用户信息分别输入再次训练后的所述第一推荐模型和第二推荐模型,得到各推荐模型输出的预测用户行为数据;对所述各推荐模型输出的预测用户行为数据进行整合,得到向所述特定用户推荐的特定行为对象。
推荐模型510,进一步被配置为所述对所述各推荐模型输出的预测用户行为数据进行整合,得到向所述特定用户推荐的特定行为对象,包括:利用注意力机制,对所述各推荐模型输出的所述特定用户的用户向量表示和各预测行为对象的行为对象向量表示进行注意力计算,得到所述特定用户与各预测行为对象之间的关联权重;根据所述关联权重,确定向所述特定用户推荐的特定行为对象。
应用本说明书实施例的方案,通过获取数据删除请求;获取多个推荐模型,其中,多个推荐模型是基于多个训练分组进行分别训练得到的;根据数据标志,从多个训练分组中确定包括特定数据的第一训练分组;从第一训练分组中删除特定数据,得到更新分组,并利用更新分组对第一推荐模型再次进行训练;利用再次训练后的第一推荐模型和第二推荐模型,针对用户进行对象推荐。在获取到数据删除请求时,只需从第一训练分组中删除特定数据,然后利用更新分组对相应的第一推荐模型再次进行训练,根据再次训练后的第一推荐模型和其他推荐模型,针对用户进行对象推荐,提高了推荐模型更新的效率。
上述为本实施例的一种推荐模型更新装置的示意性方案。需要说明的是,该推荐模型更新装置的技术方案与上述的推荐模型更新方法的技术方案属于同一构思,推荐模型更新装置的技术方案未详细描述的细节内容,均可以参见上述推荐模型更新方法的技术方案的描述。
与上述推荐模型训练方法实施例相对应,本说明书还提供了推荐模型训练装置实施例,图6示出了本说明书一个实施例提供的一种推荐模型训练装置的结构示意图。如图6所示,该装置包括:
第三获取模块602,被配置为获取训练数据集,其中,所述训练数据集包括多个用户行为数据;
聚类模块604,被配置为根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;
分组模块606,被配置为根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组;
训练模块608,被配置为针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
应用本说明书实施例的方案,通过获取训练数据集,其中训练数据集中包括多个用户行为数据,根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合,并对训练数据集进行分组,得到多个训练分组,针对任一训练分组,利用该训练分组进行训练得到对应的推荐模型。使得训练得到的推荐模型是基于对训练数据集进行划分得到的训练分组进行训练得到,推荐模型的效果更好,精度更高。
上述为本实施例的一种推荐模型训练装置的示意性方案。需要说明的是,该推荐模型训练装置的技术方案与上述的推荐模型训练方法的技术方案属于同一构思,推荐模型训练装置的技术方案未详细描述的细节内容,均可以参见上述推荐模型训练方法的技术方案的描述。
图7示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述推荐模型更新方法的步骤:
获取数据删除请求,其中,所述数据删除请求携带特定数据的数据标志;
获取多个推荐模型,其中,所述多个推荐模型是基于多个训练分组进行分别训练得到的,所述多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合;
根据所述数据标志,从所述多个训练分组中确定包括所述特定数据的第一训练分组,其中,所述第一训练分组用于训练所述多个推荐模型中的第一推荐模型;
从所述第一训练分组中删除所述特定数据,得到更新分组,并利用所述更新分组对所述第一推荐模型再次进行训练;
利用再次训练后的所述第一推荐模型和第二推荐模型,针对用户进行对象推荐,其中,所述第二推荐模型为所述多个推荐模型中除所述第一推荐模型以外的推荐模型。当获取到数据删除请求时,只需将对应的推荐模型进行再次训练,然后根据再次训练得到的推荐模型与其他推荐模型,即可针对用户进行对象推荐,进一步提高了数据删除的效率。
另一方面,处理器720用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述推荐模型训练方法的步骤:
获取训练数据集,其中,所述训练数据集包括多个用户行为数据;
根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;
根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组;
针对任一训练分组,利用该训练分组训练得到对应的推荐模型。使得目标用户可以快速得到自己感兴趣的推荐信息,提高了用户的使用体验。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的推荐模型更新方法与推荐模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述推荐模型更新方法与推荐模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述推荐模型更新方法与推荐模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的推荐模型更新方法与推荐模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述推荐模型更新方法与推荐模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述推荐模型更新方法与推荐模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的推荐模型更新方法与推荐模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述推荐模型更新方法与推荐模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种推荐模型更新方法,包括:
获取数据删除请求,其中,所述数据删除请求携带特定数据的数据标志;
获取多个推荐模型,其中,所述多个推荐模型是基于多个训练分组进行分别训练得到的,所述多个训练分组中的每一个包括基于用户行为数据的特征信息聚类得到的用户行为数据集合;
根据所述数据标志,从所述多个训练分组中确定包括所述特定数据的第一训练分组,其中,所述第一训练分组用于训练所述多个推荐模型中的第一推荐模型;
从所述第一训练分组中删除所述特定数据,得到更新分组,并利用所述更新分组对所述第一推荐模型再次进行训练;
利用再次训练后的所述第一推荐模型和第二推荐模型,针对用户进行对象推荐,其中,所述第二推荐模型为所述多个推荐模型中除所述第一推荐模型以外的推荐模型。
2.根据权利要求1所述的方法,在所述获取数据删除请求之前,还包括:
获取训练数据集,其中,所述训练数据集包括多个用户行为数据;
根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;
根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组;
针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
3.根据权利要求2所述的方法,所述获取训练数据集,包括:
根据用户标识,从用户行为日志中提取各用户对应的用户行为数据,其中,所述用户行为日志中记录了用户标识与用户行为数据的对应关系;
基于所述用户行为数据,构建训练数据集。
4.根据所述权利要求2或3所述的方法,所述根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合,包括:
根据所述多个用户行为数据的特征信息,计算各用户行为数据之间的距离;
根据所述各用户行为数据之间的距离,使用中心聚类方法,对所述多个用户行为数据进行聚类,得到多个用户行为数据集合。
5.根据权利要求4所述的方法,所述特征信息包括用户向量表示和行为对象向量表示;
所述根据所述多个用户行为数据的特征信息,计算各用户行为数据之间的距离,包括:
根据第一用户行为数据的用户向量表示和第二用户行为数据的用户向量表示,计算所述第一用户行为数据和所述第二用户行为数据的用户向量距离,
其中,所述第一用户行为数据和所述第二用户行为数据为任意两个不同的用户行为数据;
根据所述第一用户行为数据的行为对象向量表示和所述第二用户行为数据的行为对象向量表示,计算所述第一用户行为数据和所述第二用户行为数据的行为对象向量距离;
根据所述用户向量距离和所述行为对象向量距离,确定所述第一用户行为数据和所述第二用户行为数据之间的距离。
6.根据权利要求4所述的方法,所述根据所述各用户行为数据之间的距离,使用中心聚类方法,对所述多个用户行为数据进行聚类,得到多个用户行为数据集合,包括:
确定多个用户行为数据集合的中心;
计算当前用户行为数据分别与各个用户行为数据集合的中心之间的距离;
根据各所述距离,确定所述当前用户行为数据所属的用户行为数据集合。
7.根据权利要求6所述的方法,在所述根据各所述距离,确定所述当前用户行为数据所属的用户行为数据集合之前,还包括:
获取各个用户行为数据集合中的用户行为数据数量;
所述根据各所述距离,确定所述当前用户行为数据所属的用户行为数据集合,包括:
确定距离和用户行为数据数量符合预设分类条件的用户行为数据集合,作为所述当前用户行为数据所属的用户行为数据集合。
8.根据权利要求2所述的方法,所述针对任一训练分组,利用该训练分组训练得到对应的推荐模型,包括:
获取初始推荐模型;
针对任一训练分组,利用该训练分组对所述初始推荐模型进行训练,得到对应的推荐模型。
9.根据权利要求1所述的方法,所述利用再次训练后的所述第一推荐模型和第二推荐模型,针对用户进行对象推荐,包括:
获取特定用户的用户信息;
将所述用户信息分别输入再次训练后的所述第一推荐模型和第二推荐模型,得到各推荐模型输出的预测用户行为数据;
对所述各推荐模型输出的预测用户行为数据进行整合,得到向所述特定用户推荐的特定行为对象。
10.根据权利要求9所述的方法,所述预测用户行为数据包括所述特定用户的用户向量表示和各预测行为对象的行为对象向量表示;
所述对所述各推荐模型输出的预测用户行为数据进行整合,得到向所述特定用户推荐的特定行为对象,包括:
利用注意力机制,对所述各推荐模型输出的所述特定用户的用户向量表示和各预测行为对象的行为对象向量表示进行注意力计算,得到所述特定用户与各预测行为对象之间的关联权重;
根据所述关联权重,确定向所述特定用户推荐的特定行为对象。
11.一种推荐模型训练方法,包括:
获取训练数据集,其中,所述训练数据集包括多个用户行为数据;
根据所述多个用户行为数据的特征信息,聚类得到多个用户行为数据集合;
根据所述多个用户行为数据集合,对所述训练数据集进行分组,得到多个训练分组;
针对任一训练分组,利用该训练分组训练得到对应的推荐模型。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1-10中任意一项所述的推荐模型更新方法或者权利要求11所述的推荐模型训练方法。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1-10中任意一项所述的推荐模型更新方法或者权利要求11所述的推荐模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210648557.0A CN115098771A (zh) | 2022-06-09 | 2022-06-09 | 推荐模型更新方法、推荐模型训练方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210648557.0A CN115098771A (zh) | 2022-06-09 | 2022-06-09 | 推荐模型更新方法、推荐模型训练方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115098771A true CN115098771A (zh) | 2022-09-23 |
Family
ID=83288780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210648557.0A Pending CN115098771A (zh) | 2022-06-09 | 2022-06-09 | 推荐模型更新方法、推荐模型训练方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115098771A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501978A (zh) * | 2023-06-28 | 2023-07-28 | 杭州金智塔科技有限公司 | 基于隐私保护机器遗忘算法的推荐模型生成方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650806A (zh) * | 2016-12-16 | 2017-05-10 | 北京大学深圳研究生院 | 一种用于行人检测的协同式深度网络模型方法 |
CN109688110A (zh) * | 2018-11-22 | 2019-04-26 | 顺丰科技有限公司 | Dga域名检测模型构建方法、装置、服务器及存储介质 |
CN109815992A (zh) * | 2018-12-30 | 2019-05-28 | 中国电子科技集团公司信息科学研究院 | 一种支持向量机并行加速训练方法及系统 |
US20200034482A1 (en) * | 2018-07-26 | 2020-01-30 | International Business Machines Corporation | Verifying and correcting training data for text classification |
CN110866605A (zh) * | 2018-08-27 | 2020-03-06 | 北京京东尚科信息技术有限公司 | 数据模型训练方法、装置、电子设备及可读介质 |
CN111767982A (zh) * | 2020-05-20 | 2020-10-13 | 北京大米科技有限公司 | 用户转换预测模型的训练方法、装置、存储介质以及电子设备 |
KR20200119393A (ko) * | 2019-03-27 | 2020-10-20 | 주식회사 단비아이엔씨 | 챗봇을 위한 학습 데이터 추천 장치 및 방법 |
CN111914936A (zh) * | 2020-08-05 | 2020-11-10 | 平安科技(深圳)有限公司 | 语料数据的数据特征增强方法、装置及计算机设备 |
CN112487278A (zh) * | 2019-09-11 | 2021-03-12 | 华为技术有限公司 | 推荐模型的训练方法、预测选择概率的方法及装置 |
CN112669096A (zh) * | 2021-03-16 | 2021-04-16 | 蚂蚁智信(杭州)信息技术有限公司 | 对象推荐模型训练方法以及装置 |
CN113177630A (zh) * | 2021-04-13 | 2021-07-27 | 中国科学院信息工程研究所 | 一种针对深度学习模型的数据记忆消除方法和装置 |
CN113538079A (zh) * | 2020-04-17 | 2021-10-22 | 北京金山数字娱乐科技有限公司 | 一种推荐模型的训练方法及装置、一种推荐方法及装置 |
CN113688421A (zh) * | 2021-08-26 | 2021-11-23 | 杭州金智塔科技有限公司 | 基于隐私保护的预测模型更新方法及装置 |
CN113988313A (zh) * | 2021-11-02 | 2022-01-28 | 支付宝(杭州)信息技术有限公司 | 用户数据的删除方法、装置和电子设备 |
-
2022
- 2022-06-09 CN CN202210648557.0A patent/CN115098771A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650806A (zh) * | 2016-12-16 | 2017-05-10 | 北京大学深圳研究生院 | 一种用于行人检测的协同式深度网络模型方法 |
US20200034482A1 (en) * | 2018-07-26 | 2020-01-30 | International Business Machines Corporation | Verifying and correcting training data for text classification |
CN110866605A (zh) * | 2018-08-27 | 2020-03-06 | 北京京东尚科信息技术有限公司 | 数据模型训练方法、装置、电子设备及可读介质 |
CN109688110A (zh) * | 2018-11-22 | 2019-04-26 | 顺丰科技有限公司 | Dga域名检测模型构建方法、装置、服务器及存储介质 |
CN109815992A (zh) * | 2018-12-30 | 2019-05-28 | 中国电子科技集团公司信息科学研究院 | 一种支持向量机并行加速训练方法及系统 |
KR20200119393A (ko) * | 2019-03-27 | 2020-10-20 | 주식회사 단비아이엔씨 | 챗봇을 위한 학습 데이터 추천 장치 및 방법 |
CN112487278A (zh) * | 2019-09-11 | 2021-03-12 | 华为技术有限公司 | 推荐模型的训练方法、预测选择概率的方法及装置 |
CN113538079A (zh) * | 2020-04-17 | 2021-10-22 | 北京金山数字娱乐科技有限公司 | 一种推荐模型的训练方法及装置、一种推荐方法及装置 |
CN111767982A (zh) * | 2020-05-20 | 2020-10-13 | 北京大米科技有限公司 | 用户转换预测模型的训练方法、装置、存储介质以及电子设备 |
CN111914936A (zh) * | 2020-08-05 | 2020-11-10 | 平安科技(深圳)有限公司 | 语料数据的数据特征增强方法、装置及计算机设备 |
CN112669096A (zh) * | 2021-03-16 | 2021-04-16 | 蚂蚁智信(杭州)信息技术有限公司 | 对象推荐模型训练方法以及装置 |
CN113177630A (zh) * | 2021-04-13 | 2021-07-27 | 中国科学院信息工程研究所 | 一种针对深度学习模型的数据记忆消除方法和装置 |
CN113688421A (zh) * | 2021-08-26 | 2021-11-23 | 杭州金智塔科技有限公司 | 基于隐私保护的预测模型更新方法及装置 |
CN113988313A (zh) * | 2021-11-02 | 2022-01-28 | 支付宝(杭州)信息技术有限公司 | 用户数据的删除方法、装置和电子设备 |
Non-Patent Citations (3)
Title |
---|
杨兴雨;李华平;张宇波;: "基于聚类和随机森林的协同过滤推荐算法", 计算机工程与应用, no. 16, 15 August 2018 (2018-08-15) * |
王治锋;毛启容;詹永照;: "基于特征分组的多核融合在线自适应识别算法", 小型微型计算机系统, no. 03, 15 March 2013 (2013-03-15) * |
白宁;: "基于并行计算的支持向量机加速算法", 计算机光盘软件与应用, no. 16, 15 August 2013 (2013-08-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501978A (zh) * | 2023-06-28 | 2023-07-28 | 杭州金智塔科技有限公司 | 基于隐私保护机器遗忘算法的推荐模型生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN105468742B (zh) | 恶意订单识别方法及装置 | |
Zamani et al. | Situational context for ranking in personal search | |
WO2020007138A1 (zh) | 一种事件识别的方法、模型训练的方法、设备及存储介质 | |
CN111966914B (zh) | 基于人工智能的内容推荐方法、装置和计算机设备 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN111881343A (zh) | 信息推送方法、装置、电子设备及计算机可读存储介质 | |
CN109471978B (zh) | 一种电子资源推荐方法及装置 | |
CN112307762B (zh) | 搜索结果的排序方法及装置、存储介质、电子装置 | |
CN110033342A (zh) | 一种推荐模型的训练方法及装置、一种推荐方法及装置 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN110727864B (zh) | 一种基于手机App安装列表的用户画像方法 | |
CN111078858A (zh) | 文章搜索方法、装置及电子设备 | |
CN111538818A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN117726884B (zh) | 对象类别识别模型的训练方法、对象类别识别方法及装置 | |
CN115098771A (zh) | 推荐模型更新方法、推荐模型训练方法及计算设备 | |
CN110059172A (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN112464106B (zh) | 对象推荐方法及装置 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN114358807A (zh) | 基于可预测用户特征属性的用户画像方法及系统 | |
KR101910424B1 (ko) | 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN114048294B (zh) | 相似人群扩展模型训练方法、相似人群扩展方法和装置 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN113688421A (zh) | 基于隐私保护的预测模型更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |