CN112989182A - 信息处理方法、装置、信息处理设备及存储介质 - Google Patents
信息处理方法、装置、信息处理设备及存储介质 Download PDFInfo
- Publication number
- CN112989182A CN112989182A CN202110138340.0A CN202110138340A CN112989182A CN 112989182 A CN112989182 A CN 112989182A CN 202110138340 A CN202110138340 A CN 202110138340A CN 112989182 A CN112989182 A CN 112989182A
- Authority
- CN
- China
- Prior art keywords
- category
- target
- user
- categories
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 113
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000013145 classification model Methods 0.000 claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims description 73
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 90
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000006399 behavior Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 210000003771 C cell Anatomy 0.000 description 1
- 210000004128 D cell Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 235000021022 fresh fruits Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息处理方法、装置、信息处理设备及存储介质,该方法包括:获取用户的用户画像属性以及与用户具有关联关系的关联类别集合,该关联类别集合对应N个类别层级,N是大于1的整数;调用特征提取模型对用户画像属性和关联类别集合进行处理,得到基础特征集合,该基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;调用N个分类模型分别对N个基础特征进行预测处理,得到用户在每个类别层级下的推荐类别;输出用户在每个类别层级下的推荐类别。通过采用特征提取模型+N个分类模型对用户画像属性以及与关联类别集合进行处理,可以精准确定用户在N个类别层级下的推荐类别。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法、一种信息处理装置、一种信息处理设备及一种计算机存储介质。
背景技术
随着互联网技术的快速发展,在互联网中可以传播多种多样的信息。由于信息的数量较多,若是直接将信息展示给用户,用户难以从中查找到感兴趣的信息。因此可以为用户个性化的推荐感兴趣的信息。例如,在电商领域中,可以个性化的为用户推荐感兴趣的商品类别。
现有方案中,可以通过内积的方式建立用户画像属性和待推荐类别之间的关联关系。然而,当待推荐类别处于多个类别层级时,现有的技术方案无法准确确定用户对应的推荐类别。因此,如何精准确定多个类别层级下的推荐类别是信息处理技术中的一个重要研究课题。
发明内容
本发明实施例提供了一种信息处理方法、装置、信息处理设备及存储介质,通过采用特征提取模型+N个分类模型对用户画像属性以及与关联类别集合处理,可以精准确定用户在N个类别层级下的推荐类别。
一方面,本发明实施例提供了一种信息处理方法,该信息处理方法包括:
获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出所述用户在每个类别层级下的推荐类别。
另一方面,本发明实施例提供了一种信息处理装置,该信息处理装置包括:
获取单元,用于获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
处理单元,用于调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
预测单元,用于调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出单元,用于输出所述用户在每个类别层级下的推荐类别。
再一方面,本发明实施例提供了一种信息处理设备,该信息处理设备包括输入接口、输出接口,该信息处理设备还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出所述用户在每个类别层级下的推荐类别。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出所述用户在每个类别层级下的推荐类别。
本发明实施例在确定N个类别层级下的推荐类别时,可以利用特征提取模型对用户画像属性和关联类别集合进行处理,得到对应于N个类别层级的N个基础特征,然后再分别调用N个分类模型对这N个基础特征进行预测处理,确定用户在N个类别层级下的推荐类别。利用了特征提取模型+N个分类模型的方式同时对多个类别层级下的类别进行深度建模,可以确定该用户在N个类别层级下的推荐类别。并且在对特征提取模型和N个分类模型进行训练时,将第二训练类别集合中的第二训练类别进行处理时构造了多层级类别的树状结构,保留了N个类别层级之间的结构化信息。从而,可以精准确定N个类别层级下的推荐类别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息处理系统的系统架构示意图;
图2是本发明实施例提供的一种推送页面的示意图;
图3是本发明实施例提供的一种信息处理方法的流程示意图;
图4是本发明实施例提供的一种树状结构的多层级类别的示意图;
图5是本发明实施例提供的一种基于用户画像属性及关联类别集合提取出基础特征集合的过程示意图;
图6是本发明实施例提供的另一种信息处理方法的流程示意图;
图7是本发明实施例提供的一种区块链的结构示意图;
图8是本发明实施例提供的另一种信息处理方法的流程示意图;
图9是本发明实施例提供的一种分类模型对基础特征进行处理的流程示意图;
图10是本发明实施例提供的另一种树状结构的多层级类别的示意图;
图11是本发明实施例提供的一种信息处理装置的结构示意图;
图12是本发明实施例提供的一种信息处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,本发明实施例基于人工智能技术中的深度学习提出了一种信息处理方法,使得信息处理设备可通过深度学习算法构建特征提取模型和N个分类模型。为了精确预估用户在N个类别层级下的推荐类别。在本发明实施例中,信息处理设备可以获取用户画像属性以及与用户具有关联关系的关联类别集合,通过该特征提取模型获取与该用户对应的基础特征集合(即N个类别层级对应的N个基础特征),然后再分别调用N个分类模型对这N个基础特征进行预测处理,确定该用户在每个类别层级下的推荐类别。基于一个特征提取模型同时获得与N个类别层级对应的N个基础特征,可以保留多个类别层级之间的关联关系,从而使得在调用N个分类模型对N个基础特征进行预测处理时,得到的该用户在每个类别层级下的推荐类别更准确。
在一个实施例中,该信息处理方法可应用在如图1所示的信息处理系统中,如图1所示,该信息处理系统可至少包括:信息处理设备11和终端设备12。其中,该信息处理设备11可以是如图1所示的服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network,CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器,等等。其中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器可以为区块链上的节点。其中,该信息处理设备11还可以是终端设备,该终端设备可以包括但不限于:智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机,等等。
其中,该信息处理方法的应用场景广泛。例如,该信息处理方法可以应用在电商领域中。上述的信息处理系统中的信息处理设备11为服务器,终端设备12为购物平台用户对应的终端设备。具体的,信息处理设备11可以根据用户在购物平台的历史行为数据(如浏览商品、加购商品、购买商品等等)生成与用户有关联关系的关联类别集合以及用户画像属性,并根据用户的用户画像属性以及关联类别集合推断出用户对所有购物类别的兴趣度,从而可以基于每个购物类别的兴趣度从所有购物类别中筛选出兴趣度较高的若干个购物类别作为推荐类别,并将推荐类别关联的兴趣卖场通过购物平台对应的公众号推送至终端设备12。如图2所示,示出了一种推送页面的示意图,如图2所示,推荐类别可以包括A鞋子201、休闲男鞋202、B汽车203、男士羽绒204、C手机205、D手机206、男士卫衣207、E手表208等。这八个推荐类别可以分别链接至8个兴趣卖场。
又例如,该信息处理方法还可以应用在短视频领域中。具体的,信息处理设备11可以根据用户在短视频平台的历史行为数据(如浏览视频、转发视频、收藏视频等等)生成与用户有关联关系的关联类别集合以及用户画像属性,并根据用户的用户画像属性以及关联类别集合推断出用户对所有短视频类别的兴趣度,从而可以基于每个短视频类别的兴趣度从所有短视频类别中筛选出兴趣度较高的若干个短视频类别作为推荐类别,并将推荐类别关联的视频通过短视频平台推送至终端设备12。
再例如,该信息处理方法也可以应用在新闻资讯领域中。具体的,信息处理设备11可以根据用户在新闻资讯平台的历史行为数据(如浏览文本、收藏文本、转发文本等等)生成与用户有关联关系的关联类别集合以及用户画像属性,并根据用户的用户画像属性以及关联类别集合推断出用户对所有新闻类别的兴趣度,从而可以基于每个新闻类别的兴趣度从所有新闻类别中筛选出兴趣度较高的若干个新闻类别作为推荐类别,并将推荐类别关联的新闻通过新闻资讯平台推送至终端设备12。
请参见图3,是本发明实施例提出的一种信息处理方法的流程示意图。如图3所示,该信息处理方法包括步骤S301-S304:
S301,获取用户的用户画像属性以及与该用户具有关联关系的关联类别集合;关联类别集合对应N个类别层级,N是大于1的整数。
本发明实施例中所提及的类别还可以被称为标签(tag),用于指示用户在某个场景下的类目。例如在新闻场景中,类别可以是指新闻类型,如时事类、财经类等等;又例如在购物场景中,类别是指商品品类,例如服饰、水果生鲜等等。相应的,用户在某个场景的下推荐类别,也可以被称作兴趣类目、兴趣标签等等。
其中,用户画像属性可以包括基础画像和/或类别画像。其中,基础画像包括但不限于以下一种或多种:性别、年龄和职业。其中,类别画像可以包括与用户有关联的文本类别,例如,在公众号中与用户有行为交互的文本类别;又例如,在新闻资讯中与用户有行为交互的文本类别等等。
其中,类别集合对应N个类别层级,每个类别层级中包括至少一个类别。N是大于1的整数,例如N可以为2,3,5等等。例如,在购物的场景中,类别集合对应3个类别层级。当类别集合中包括3个类别层级时,该类别集合可以表示为“a-b-c”这种结构,其中,a可以表示一级类别,b可以表示二级类别,c可以表示三级类别,且一级类别的层级高于二级类别和三级类别的层级,二级类别的层级高于三级类别的层级。一级类别可以关联多个二级类别,二级类别可以关联多个三级类别,也就是说高层级的类别可以关联有多个低层级的类别。例如,在购物场景下,“美妆”为一级类别,而该“美妆”对应的多个二级类别可以包括“面部彩妆”、“防晒”和“卸妆洁面”等。
其中,关联类别集合是指历史与用户有行为交互的类别集合,该关联类别集合为目标类别集合的子集,关联类别集合中的关联类别的数量小于或等于目标类别集合中的目标类别的数量。其中,该目标类别集合中包括本发明对应的所有目标类别(也可以称为候选类别)。为便于数据处理,可以先过滤掉低频特征得到目标类别集合。例如,在购物场景中,目标类别集合中可以包括40个一级类别,200个二级类别,600个三级类别。
其中,关联类别是指与用户有行为交互的目标类别。例如,在购物的场景中,若用户点击浏览了一个目标类别下的商品,则该目标类别为关联类别集合中的关联类别。若用户将一个目标类别下的商品加入购物车,则该目标类别为关联类别集合中的关联类别。若用户购买了一个目标类别下的商品,则该目标类别为关联类别集合中的关联类别。在一个实施例中,信息处理设备可以采集预设时间段内与用户有行为交互的关联类别得到关联类别集合。需要明白的是,该关联类别集合与类别集合对应,关联类别集合也对应N个类别层级。其中,预设时间段可以是可变的时间段,如2021年11月18日-2021年2月18日,距离当天最近的九十天,或者距离当月最近的三个月。
S302,调用特征提取模型对用户画像属性和关联类别集合进行处理,得到基础特征集合,该基础特征集合包括N个基础特征,每个基础特征对应一个类别层级。
具体的,信息处理设备可以根据用户画像属性构造用户特征向量,以及根据关联类别集合对应的N个类别层级下的各个关联类别构造关联向量。然后根据该用户特征向量以及关联向量确定中间向量,并调用特征提取模型对中间向量进行处理,得到基础特征集合。
在一个实施例中,信息处理设备可以根据用户画像属性中的基础画像和/或类别画像构造用户特征向量。其中,信息处理设备可以采用编码方法对基础画像进行编码处理得到第一子用户特征向量。其中,该编码方法可以是独热编码(One-Hot编码)等。其中,可选的,信息处理设备可以直接采用独热编码对类别画像进行编码处理得到第二子用户特征向量。可选的,信息处理设备也可以根据类别画像中的一个文本类别每天被浏览的次数进行编码处理得到第二子用户特征向量。在得到第一子用户特征向量以及第二子用户特征向量后,可以将第一子用户特征向量与该第二子用户特征向量进行拼接得到用户特征向量。
在一个实施例中,信息处理设备可以基于目标类别的嵌入矩阵对关联类别集合对应的N个类别层级下的各个关联类别进行处理得到关联向量。具体的,信息处理设备可以利用嵌入查询从目标类别的嵌入矩阵查找到每个关联类别对应的关联子向量,然后将每个关联类别对应的关联子向量进行拼接得到关联向量。其中,该嵌入矩阵为稀疏特征的嵌入矩阵,用于将稀疏特征转化为稠密特征,即嵌入矩阵中的嵌入向量具有稠密特征。
上面详细描述了如何构造用户特征向量和关联向量,接下来将详细描述信息处理设备根据用户特征向量以及关联向量得到基础特征集合的过程。
请参考图4,图4示出了一种基于用户画像属性及关联类别集合提取基础特征得到基础特征集合的过程示意图。如图4所示,在得到用户特征向量和关联向量之后,可以通过第一级联层将用户特征向量和关联向量进行拼接得到拼接向量,然后基于交叉特征算法(例如FM算法)对该拼接向量进行处理得到交叉向量。接着通过第二级联层将该交叉向量与拼接向量进行拼接得到中间向量。最后再调用特征提取模型对中间向量进行处理,得到基础特征集合,该基础特征集合包括N个基础特征,每个基础特征对应一个类别层级。
其中,该特征提取模型可以是谷歌在2018年提出的多专家网络模型(Multi-gateMixture-of-Experts,MMOE)。MMOE中的每个专家网络模型用于独立的任务,在多任务学习场景中取得了显著效果。在本发明实施例中,MMOE中包括三个专家网络模型,如图4中所示的专家网络模型1,专家网络模型2和专家网络模型3。并且,在MMOE中为每个类别层级设置了不同的Gate,可以利用共享的三个专家网络获得N个类别层级对应的基础特征。如图4中所示,利用Gate1获得一个类别层级对应的基础特征1,利用Gate2获得另一个类别层级对应的基础特征2和利用Gate3获得再一个类别层级对应的基础特征3,也就是说,可以利用N个Gate获得N个类别层级对应的基础特征。
S303,调用N个分类模型分别对N个基础特征进行预测处理,得到用户在每个类别层级下的推荐类别。
在一个实施例中,信息处理设备可以调用N个分类模型分别对N个基础特征进行预测处理,得到用户在目标类别集合中的每个类别层级下的目标类别的排序分数(也可以称为预估分),然后根据每个类别层级下的目标类别的排序分数的排序结果确定每个类别层级下的推荐类别。例如,目标类别集合中包括40个一级类别,200个二级类别,600个三级类别。可以调用一级类别对应的分类模型对一级类别对应的基础特征进行预测处理,确定40个一级类别对应的排序分数,并根据40个一级类别的排序分数将排序分数位于topM的一级类别作为一级类别下的推荐类别。调用二级类别对应的分类模型对二级类别对应的基础特征进行预测处理,确定200个二级类别对应的排序分数,并根据200个二级类别的排序分数将排序分数位于topL的二级类别作为二级类别下的推荐类别。调用三级类别对应的分类模型对三级类别对应的基础特征进行预测处理,确定600个三级类别对应的排序分数,并根据600个三级类别的排序分数将排序分数位于topQ的三级类别作为三级类别下的推荐类别。
S304,输出用户在每个类别层级下的推荐类别。
在本发明实施例中,基于深度学习算法中的批次训练对特征提取模型和N个分类模型进行训练,可以同时预测N个类别层级下的推荐类别。
其中,信息处理设备可以将种子用户的用户画像属性以及与种子用户对应的训练类别集合作为训练样本。进一步的,可以随机抽取90%的训练样本作为训练集,10%作为验证集。其中,种子用户是指数据较完整的用户,例如,种子用户在每天都对多个类别有行为交互。
其中,信息处理设备可以将第一时间段内与种子用户具有关联关系的关联类别作为训练时的第一训练类别集合,以及将第二时间段内与种子用户具有关联关系的关联类别的历史分数确定训练时的目标类别集合的“真实分数”。当目标类别集合中的目标类别a在第二时间段与种子用户有交互,那么可以计算目标类别a的“真实分数”,目标类别a作为训练时的正样本;当目标类别集合中的目标类别b在第二时间段与种子用户没有交互,那么无法计算目标类别b的“真实分数”,目标类别b的“真实分数”为预设值,目标类别b作为训练时的负样本。为了描述方便,可以将训练时的目标类别集合称为第二训练类别集合,若第二训练类别集合中的一个第二训练类别在第二时间段内存在用户交互,则可以计算得到该第二训练类别的历史分数,即该目标类别的真实分数;若第二训练类别集合中的一个第二训练类别在第二时间段内与用户不存在交互,则该第二训练类别的历史分数为预设值,也就是说该目标类别的真实分数为预设值。
其中,第二时间段晚于第一时间段。例如,可以将距离当天之前的第180天至距离当天之前的第91天作为第一时间段,将距离当天之前的第90天至当天作为第二时间段;又例如,将2020年10月1日至2020年10月31日作为第一时间段,将2020年11月1日至2020年11月30日作为第二时间段。
在一个实施例中,针对训练过程,可以将多个种子用户(例如种子用户A、种子用户B和种子用户C)的用户画像属性和各个种子用户对应的第一训练类别集合(即第一训练类别集合作为关联类别集合)输入到特征提取模型中,特征提取模型获得每个种子用户对应的N个基础特征(例如种子用户A的一级类别对应的基础特征、种子用户A的二级类别对应的基础特征、种子用户A的三级类别对应的基础特征;种子用户B的一级类别对应的基础特征、种子用户B的二级类别对应的基础特征、种子用户B的三级类别对应的基础特征;种子用户C的一级类别对应的基础特征、种子用户C的二级类别对应的基础特征、种子用户C的三级类别对应的基础特征)。再分别将多个种子用户在每个类别层级对应的基础特征输入到分类模型中(例如将种子用户A的一级类别对应的基础特征、种子用户B的一级类别对应的基础特征和种子用户C的一级类别对应的基础特征输入到一级类别对应的分类模型;将种子用户A的二级类别对应的基础特征、种子用户B的二级类别对应的基础特征和种子用户C的二级类别对应的基础特征输入到二级类别对应的分类模型;将种子用户A的三级类别对应的基础特征、种子用户B的三级类别对应的基础特征和种子用户C的三级类别对应的基础特征输入到三级类别对应的分类模型),得到每个种子用户在目标类别集合中每个目标类别的预测分数,并将每个种子用户在目标类别集合中的每个目标类别的预测分数与根据第二训练类别集合计算得到历史分数作比较(即将每个目标类别的预测分数与每个目标类别的真实分数作比较),根据比较结果反向更新特征提取模型和N个分类模型。多次迭代更新后,当特征提取模型和N个分类模型收敛时,得到训练完成的特征提取模型和N个分类模型。
下面详细描述如何计算第二训练类别集合中的第二训练类别的历史分数。
其中,信息处理设备可以根据用户行为数据确定第二训练类别集合中各个第二训练类别的历史分数。具体的,针对第二训练类别集合中的训练类别A,信息处理设备可以先统计第二时间段内的任意一天内在训练类别A中的行为交互(例如,用户点击了该训练类别A下的商品、用户将该训练类别A下的商品加入购物车、用户购买了该训练类别A下的商品等等),并根据各个行为交互对应的预设值计算得到训练类别A在这一天对应的初始值。例如,假设,用户点击训练类别A下的商品的预设值为1,用户将训练类别A下的商品加入购物车为的预设值为3,用户购买训练类别A下的商品的预设值为6。那么,若在任意一天内用户点击了训练类别A下的商品1和商品2,用户购买了训练类别A下的商品3,那么可以计算得到训练类别A在这一天的初始值为1+1+6=8。若在任意一天内用户点击了训练类别A下的商品1并将训练类别A下的商品1加入购物车,用户购买了训练类别A下的商品2,那么可以计算得到训练类别A在这一天的初始值为3+6=9。由于任意一天距离当天的时间越久远,训练类别A在任意一天的分数对推荐类别的影响越小,所以,在得到训练类别A在这一天的初始值后,可以对初始值进行时间衰减得到训练类别A在这一天的历史值。最后,将训练类别A在预设时间段内每一天的历史值相加得到该训练类别A的历史分数。
其中,第二训练类别集合也对应N个类别层级,且第二训练类别集合中的第二训练类别对应于K个类别领域,K为正整数。每个类别领域下属的第二训练类别对应一个多层级类别的树状结构。如前文所述的在购物的场景中,目标类别集合包括40个一级类别,200个二级类别,600个三级类别。因为第二训练类别集合就是训练时的目标类别集合,所以,第二训练类别集合中也包括40个一级类别,200个二级类别,600个三级类别。那么可以设置该第二训练类别集合对应于40个类别领域,每个类别领域下属的第二训练类别对应一个多层级类别的树状结构,即可构建40棵树,且每棵树中至少包括一个一级类别,可能包括一个或多个二级类别,可能包括一个或多个三级类别。
针对一个类别领域下属的第二训练类别构建的树,为了保持N个类别层级之间的结构化关系,在一个多层级类别的树状结构中,高层级的第二训练类别可以关联多个低层级的第二训练类别,高层级的第二训练类别的历史分数为该第二训练类别的各个子类别的历史分数之和。请参见图5,图5示例性的示出了由第二训练类别构建的一个多层级类别的树状结构。在图5中,用矩形框表示第二训练类别,矩形框内的数字表示该第二训练类别的历史分数;如图5所示,该类别领域中包括3个类别层级,一级类别511;二级类别521和二级类别522;三级类别531,三级类别532,三级类别533,三级类别534和三级类别535。其中,三级类别531的历史分数为3,三级类别532的历史分数为2,且三级类别531和三级类别532为二级类别521的子类别,那么二级类别521的历史分数应该为2+3=5。三级类别533的历史分数为5,三级类别534的历史分数为2,三级类别535的历史分数为1,且三级类别533、三级类别534和三级类别535为二级类别522的子类别,那么二级类别522的历史分数应该为5+2+1=8。
在一个实施例中,信息处理设备可以通过剪枝策略减少类别集合中的类别,降低训练时的信息处理的维度,提升信息处理的速率。那么信息处理设备可以隐藏一些低层级的类别。如图5所示,当剪枝策略表现在第二训练类别集合中时,信息处理设备可以隐藏三级类别535。由于二级类别522的历史分数是基于三级类别533、三级类别534和三级类别535的历史分数计算得到的。在三级类别535被隐藏时,二级类别522中仍然保留有三级类别535的特征,从而使得本发明在提升信息处理速率的同时可以保持长尾特征的覆盖。
在一个实施例中,由于第二训练类别的历史分数分布的范围较广,例如可能覆盖0.1到1000的数据范围,无法直接进行建模与回归处理,所以需将第二训练类别的历史分数进行分桶离散化,以桶编号加余量(residual value)的方式来表示。假设第二训练类别的历史分数为6,一共有三个桶[0,2],[2,10],[10,20],那么该第二训练类别的历史分数位于第二个桶,桶编号可以为1(其中,第一个桶的桶编号为0),余量为:(6-2)/(10-2)=0.5。所以该第二训练类别对应的历史分数可以表示为(1,0.5)。
本发明实施例在确定N个类别层级下的推荐类别时,可以利用特征提取模型对用户画像属性和关联类别集合进行处理,得到对应于N个类别层级的N个基础特征,然后再分别调用N个分类模型对这N个基础特征进行预测处理,确定用户在N个类别层级下的推荐类别。利用了特征提取模型+N个分类模型的方式同时对多个类别层级下的类别进行深度建模,可以确定该用户在N个类别层级下的推荐类别。并且在对特征提取模型和N个分类模型进行训练时,将第二训练类别集合中的第二训练类别进行处理时构造了多层级类别的树状结构,保留了N个类别层级之间的结构化信息。从而,可以精准确定N个类别层级下的推荐类别。
参见上述图3所示的方法实施例的相关描述可知,图3所示的信息处理方法可以分别调用N个分类模型对基础特征集合中的N个基础特征进行预测处理,确定用户在N个类别层级下的推荐类别。为了便于展示推荐类别下对应的推荐对象,可以利用区块链技术,将用户在N个类别层级下的推荐类别写入区块链中,以用于确定推荐类别下的目标推荐对象。具体的,本发明实施例提供了另一种信息处理方法,该方法包括步骤S601-S603:
S601,从区块链中获取用户的用户画像属性以及与用户具有关联关系的关联类别集合。
S602,调用特征提取模型对用户画像属性和关联类别集合进行处理,得到基础特征集合,并调用N个分类模型分别对N个基础特征进行预测处理,得到用户在每个类别层级下的推荐类别。
其中,步骤S601和S602的具体实施方式可参考图3相关实施例的描述,这里不再赘述。
S603,输出该用户在每个类别层级下的推荐类别,并将用户在每个类别层级下的推荐类别封装为区块以及将该区块存储至区块链上。
其中,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证数据不可篡改和不可伪造的分布式账本。多个独立的分布式节点保存相同的记录。区块链技术实现了去中心化,成为了可信的数字资产存储、转移和交易的基石。
以图7所示的区块链的结构示意图为例,在将用户每个类别层级下的推荐类别写入区块链时,可以将用户在每个类别层级下的推荐类别封装为区块,并添加在已有区块链的末端,通过共识算法保证每个节点新添加的区块是完全相同的。每个区块内记录了若干个推荐类别,同时包含了前一个区块的哈希(hash)值,所有区块就是通过这种方式保存前一个区块中的hash值,按顺序相连,组成了区块链。区块链中下一个区块的区块头中会存储前一个区块的哈希值,当前一个区块中的推荐类别发生变化时,本区块的哈希值也会随之改变,因此上传至区块链中的推荐类别难以被篡改,提高了数据的可靠性。
在一个实施例中,信息处理设备可以获取区块链中的推荐类别对应的各个待推荐对象,并获取各个待推荐对象对应的媒体资源信息(例如推广费等);然后根据各个待推荐对象对应的媒体资源信息确定目标推荐对象,并将目标推荐对象发送至用户对应的终端设备。
本发明实施例提出的信息处理方法可以将用户在每个类别层级下的推荐类别上传至区块链,使得区块链中的推荐类别难以被篡改,提高了数据的可靠性。并且在后续的时间段内,可以无需预测该用户在每个类别层级下的推荐类别,可以直接在区块链中获取该用户在每个类别层级下的推荐类别,并根据媒体资源信息确定目标推荐对象。提升时效性以及准确性。
参见上述图3所示的方法实施例的相关描述可知,图3所示的信息处理方法可以分别调用N个分类模型对基础特征集合中的N个基础特征进行预测处理,确定用户在N个类别层级下的推荐类别。为了更清晰的阐述本发明实施例,下面将详细描述目标分类模型对目标基础特征进行预测处理,确定目标基础特征对应的目标类别层级下的推荐类别的流程。其中,目标分类模型是N个分类模型中的任一分类模型,目标基础特征是N个基础特征中与目标分类模型对应的基础特征,目标类别层级是目标基础特征对应的类别层级。请参见图8,图8示出了本发明实施例提供的另一种信息处理方法的流程示意图。如图8所示,该信息处理方法包括步骤S801-S804:
S801,调用目标分类模型对目标基础特征进行预测处理,得到用户在目标类别层级下多个目标参考类别的排序分数,多个目标参考类别对应K个类别领域,每个类别领域下属的目标参考类别对应一个多层级类别的树状结构,K是正整数。
在一个实施例中,该目标分类模型包括粗分类模型和细分类模型。信息处理设备可以根据目标基础特征与关联类别集合确定特征矩阵,然后调用粗分类模型确定特征矩阵的召回信息,并调用细分类模型确定目标类别层级下多个目标参考类别的参考分数;最后根据召回信息以及目标类别层级下的多个目标参考类别的参考分数得到用户在目标类别层级下多个目标参考类别的排序分数。
首先,先描述信息处理设备根据目标基础特征与关联类别集合确定特征矩阵的过程。为了从目标基础特征中提取各个目标参考类别对应的特征,信息处理设备可以对目标基础特征进行扩展(expansion)处理(例如全连接操作处理)得到第一子特征矩阵。请参见图9,为了更直观的描述本发明实施例,图9示出了一种分类模型对基础特征进行处理的流程示意图。如图9所示,针对目标基础特征Xb,信息处理设备可以利用参数(Xb,Xb*T)对目标基础特征Xb进行扩展处理,并对扩展处理后的矩阵进行重塑(reshape)得到第一子特征矩阵(T,Xb),如图9中区域910中的白色部分,第一子特征矩阵(T,Xb)用于表示一个目标类别层级下的T个目标参考类别对应的特征。例如,在购物场景中,当目标分类模型为一级类别对应的分类模型时,第一子特征矩阵用于表示40个一级类别的对应的特征。当目标分类模型为二级类别对应的分类模型时,第一子特征矩阵用于表示200个二级类别的对应的特征。当目标分类模型为三级类别对应的分类模型时,第一子特征矩阵用于表示600个三级类别的对应的特征。
在一个实施例中,为了充分利用关联类别集合中的数据,信息处理设备可以基于注意力机制(group attention)对关联类别集合进行处理得到第二子特征矩阵。具体的,信息处理设备可以从嵌入矩阵中利用嵌入查询(embedding lookup)查找到关联类别集合中每个关联类别对应的关联子向量。然后将嵌入矩阵中的每个嵌入向量(embedding tensor)作为注意力机制的query,将每个关联类别对应的关联子向量作为注意力机制的key和value,计算得到各个目标参考类别对应的特征的attention权重。例如,如图9所示,假设嵌入矩阵中包括T个目标参考类别对应的嵌入向量,且每个嵌入向量的长度为Xe。若根据关联类别集合中的关联类别利用嵌入查询确定了Nh个嵌入向量,即得到如图9中所示的矩阵(Xe,Nh)。接着,获取嵌入矩阵(Xe,T)中的任意一个嵌入向量,如图9中的嵌入向量921,然后分别计算该嵌入向量921与矩阵(Xe,Nh)中的每个嵌入向量的内积,得到矩阵(Xe,Nh)中的每个嵌入向量的权重参数。基于该矩阵(Xe,Nh)中的每个嵌入向量的权重参数对矩阵(Xe,Nh)中的每个嵌入向量加权求和得到嵌入矩阵中的嵌入向量921对应的第二子特征向量922。重复上述对嵌入矩阵中的任意一个嵌入向量的处理步骤,得到嵌入矩阵中每个嵌入向量对应的第二子特征向量,将多个第二子特征向量进行拼接得到第二子特征矩阵,如图9中区域910中的灰色部分,该第二子特征矩阵中的第二子特征向量用于表征每个目标参考类别对应的特征的attention权重。
在一个实施例中,为了充分利用关联类别集合中关联类别,信息处理设备还可以利用指示器(indicator)将关联类别集合中的关联类别映射为系数为0/1的序列,长度为T,该序列也可以称为第三子特征矩阵,如图9中区域910中的黑色部分。具体的,信息处理设备获取关联集合中的目标关联类别,将该目标关联类别与目标类别层级中的每个目标参考类别进行命中匹配,若命中匹配成功,则在序列中将目标参考类别对应的系数置1,将匹配失败的目标参考类别对应的系数置0。其中,目标关联类别为关联类别集合中的任意一个关联类别。
信息处理设备可以将上述得到的第一子特征矩阵、第二子特征矩阵和第三子特征矩阵进行拼接得到特征矩阵910。接下来将描述调用粗分类模型确定特征矩阵的召回信息,以及调用细分类模型确定目标类别层级下多个目标参考类别的参考分数,并根据召回信息以及目标类别层级下的多个目标参考类别的参考分数得到用户在所述目标类别层级下多个目标参考类别的排序分数的过程。
其中,粗分类模型可以是一个二分类模型,如图9所示,该二分类模型930可以包括多层神经网络(Multi-Layer Perceptron,MLP)层、全连接(Fully Connected,FC)层以及分类器(Softmax)。该粗分类模型用于对特征矩阵进行处理,确定该特征矩阵对应的召回信息,该召回信息中包括该特征矩阵对应的各个目标参考类别为正例的概率和/或该特征矩阵对应的各个目标参考类别为负例的概率。
其中,细分类模型包括一个多分类模型和一个回归模型。如图9所示,该多分类模型940可以包括多层神经网络层、全连接层以及分类器;回归模型950也可以包括多层神经网络层、全连接层以及分类器;其中,多分类模型940和回归模型950可以共用一个多层神经网络层。具体的,可以利用细分类模型中的多分类模型940确定桶编号,并利用细分类模型中的回归模型950确定余量,然后再基于分桶离散化的逆运算根据桶编号和余量确定目标参考类别的参考分数。
其中,辅助参考类别是多个目标参考类别中的任一目标参考类别。下面阐述根据召回信息以及辅助参考类别的参考分数确定目标类别层级下的辅助参考类别的排序分数的过程:若召回信息指示辅助参考类别为正例的概率小于或等于预设阈值(例如0.2),则将辅助参考类别的排序分数设置为参考值(例如0);若召回信息指示辅助参考类别为正例的概率大于预设阈值,则将辅助参考类别的参考分数作为辅助参考类别的排序分数。
其中,需要明白,为了减轻负样本的作用,减轻细分类模型的任务处理量,在对细分类模型进行训练时,需要对粗分类模型的训练样本进行样本均衡。可以利用所有训练样本中的部分样本用于训练细分类模型。具体的,可以假定训练样本中存在30%的正样本,可以从训练样本中采样得到30%的正样本,将这30%的正样本用于训练细分类模型。
S802,计算同一多层级类别的树状结构中的目标参考类别对应的父类别的排序分数与同一多层级类别的树状结构的目标参考类别的排序分数之和的差值。
与第二训练类别集合中的第二训练类别相似,目标类别层级下的多个目标参考类别也对应K个类别领域,每个类别领域下属的目标参考类别对应一个多层级类别的树状结构,K是正整数。
由前述可知,信息处理设备调用一个特征提取模型获得N个类别层级对应的基础特征在信息处理过程中保留了N个类别层级之间的结构化关系。因此,即使将一些隐藏参考类别被隐藏起来,也可以根据同一多层级类别的树状结构中高层级的目标参考类别的排序分数与低层级的目标参考类别的排序分数还原隐藏参考类别。如图10所示,该多层级类别的树状结构中包括3个类别层级,灰色的实线矩形框用于表示目标参考类别,灰色的实线矩形框内的数字为该目标参考类别的排序分数;灰色的虚线矩形框用于表示隐藏参考类别,灰色的虚线矩形框内的数字为隐藏参考类别的排序分数。一级类别1011;二级类别1021和二级类别1022;三级类别1031和三级类别1032。一级类别1011为二级类别1021和二级类别1022的父类别。二级类别1022为三级类别1031和三级类别1032的父类别。二级类别1022的排序分数为13,三级类别1031的排序分数为6,三级类别1032的排序分数为4,那么可以计算得到该多层级类别的树状结构中的二级类别1022的排序分数与三级类别1031和三级类别1032的排序分数之和的差值为:13-6-4=3。那么可以确定这一个多层级类别的树状结构对应的类别领域下的三级类别的隐藏参考类别的排序分数为3。
S803,根据K个类别领域的差值分别确定K个类别领域下的隐藏参考类别的排序分数。
重复S802的步骤,分别计算得到K个类别领域的差值。然后根据K个类别领域的差值分别确定K个类别领域下的隐藏参考类别的排序分数。
S804,将K个类别领域下的隐藏参考类别的排序分数和K个类别领域下的目标参考类别的排序分数进行排序,得到目标类别层级下的目标类别的排序结果;根据目标类别层级下的目标类别的排序结果确定用户在目标类别层级下的推荐类别。
进一步的,为了验证本发明实施例所提出的信息处理方法的有益效果,将本发明实施例方法与Listwise ranking算法以及One stage算法做对比实验。其中,Listwiseranking算法由微软在2007年提出的排序算法,核心是为列表项(item list)建立概率模型,使得排序正确定的列表的概率值最大。为了控制排序分数的数量级,可以使用L2正则,系数为0.01。One stage算法即在本发明实施例的基础上去除了粗分类模型。
为了公平公正,三个算法的模型结构大体一致。需要明白,本发明实施例的分类模型中包括粗分类模型和细分类模型。对三个算法的模型在训练样本10万以上的验证集中进行验证(训练样本中90%为训练集,10%为验证集),主要评估三个算法模型对应的分数误差(DEV)以及top10的召回率(HIT)。其中分数误差是N个类别层级中的目标类别的排序分数与真实分数之间的误差绝对值的平均值。其中,top10的召回率是指N个类别层级中排序分数为top10的类别(即推荐类别)中真实正例的比例的平均值。实验结果可如表1所示:
分数误差 | top10的召回率 | |
Listwise ranking | 0.494 | 0.2867 |
One stage | 0.622 | 0.2876 |
Two stage(本发明) | 0.46 | 0.2954 |
由表1可知,本发明所示的算法在分数误差低于Listwise ranking算法和Onestage算法,且top10的召回率高于Listwise ranking算法和One stage算法,在这两项指标上均优于Listwise ranking算法和One stage算法,在保留了88%以上真实正例的情况下,减少了70%的真实负例,在有效预测正例的排序分数的同时抑制了负例的排序分数,可以提升召回率。
本发明实施例的分类模型在确定目标类别层级下的推荐类别时,分类模型中包括了粗分类模型和细分类模型,粗分类模型与细分类模型实现了解耦,有助于多任务学习,从而基于粗分类模型确定的召回信息和基于细分类模型确定的参考分数得到的排序分数的方法可以提高预测排序分数的准确性以及提高推荐类别的召回率。除此之外,信息处理设备可以通过多层级类别的树状结构中的结构关系确定隐藏参考类别的排序分数,可以近似推断具有长尾特征的目标类别的排序分数,可以进一步提升对目标类别的排序分数的预测的准确性。
基于上述信息处理方法实施例的描述,本发明实施例还公开了一种信息处理装置,所述信息处理装置可以是运行于上述所提及的信息处理设备中的一个计算机程序(包括程序代码)。该信息处理装置可以执行图3、图6或图8所示的方法。请参见图11,所述信息处理装置可以运行如下单元:
获取单元1101,用于获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
处理单元1102,用于调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
预测单元1103,用于调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出单元1104,用于输出所述用户在每个类别层级下的推荐类别
在一种实施方式中,目标分类模型是N个分类模型中的任一分类模型,目标基础特征是N个基础特征中与所述目标分类模型对应的基础特征,目标层级类别是目标基础特征对应的类别层级;
预测单元1103调用所述目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下的推荐类别的流程,包括:
调用所述目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下多个目标参考类别的排序分数,多个目标参考类别对应K个类别领域,每个类别领域下属的参考类别对应一个多层级类别的树状结构,K是正整数;
计算同一多层级类别的树状结构中的目标参考类别对应的父类别的排序分数与同一多层级类别的树状结构的目标参考类别的排序分数之和的差值;
根据K个类别领域的差值以及K个类别领域下的目标参考类别的排序分数确定所述用户在所述目标类别层级下的推荐类别。
再一种实施方式中,预测单元1103根据K个类别领域的差值以及K个类别领域下的目标参考类别的排序分数确定所述用户在所述目标类别层级下的推荐类别,包括:
根据K个类别领域的差值分别确定K个类别领域下的隐藏参考类别的排序分数;
将K个类别领域下的隐藏参考类别的排序分数和K个类别领域下的目标参考类别的排序分数进行排序,得到所述目标类别层级下的排序结果;
根据所述目标类别层级下的排序结果确定所述用户在所述目标类别层级下的推荐类别。
再一种实施方式中,目标分类模型包括粗分类模型和细分类模型;
预测单元1103调用目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下多个目标参考类别的排序分数,包括:
根据所述目标基础特征与所述关联类别集合确定特征矩阵;
调用所述粗分类模型确定所述特征矩阵的召回信息,并调用所述细分类模型确定所述目标类别层级下多个目标参考类别的参考分数;
根据所述召回信息以及所述目标类别层级下的多个目标参考类别的参考分数得到所述用户在所述目标类别层级下多个目标参考类别的排序分数。
再一种实施方式中,辅助参考类别是多个目标参考类别中的任一目标参考类别;预测单元1103根据所述召回信息以及所述辅助参考类别的参考分数确定所述目标类别层级下的辅助参考类别的排序分数,包括:
若所述召回信息指示所述辅助参考类别为正例的概率小于或等于预设阈值,则将所述辅助参考类别的排序分数设置为参考值;
若所述召回信息指示所述辅助参考类别为正例的概率大于所述预设阈值,则将所述辅助参考类别的参考分数作为所述辅助参考类别的排序分数。
再一种实施方式中,处理单元1102调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,包括:
根据所述用户画像属性构造用户特征向量,以及根据所述关联类别集合对应的N个类别层级下的各个关联类别构造关联向量;
根据所述用户特征向量以及所述关联向量确定中间向量;
调用特征提取模型对所述中间向量进行处理,得到基础特征集合。
再一种实施方式中,输出单元1104输出所述用户在每个类别层级下的推荐类别之后,所述输出单元1104还用于:
获取所述推荐类别对应的各个待推荐对象,以及获取所述各个待推荐对象对应的媒体资源信息;
根据所述各个待推荐对象对应的媒体资源信息确定目标推荐对象,并将所述目标推荐对象发送至所述用户对应的终端设备。
再一种实施方式中,所述用户画像属性和所述关联类别集合是从区块链上获取的;输出单元1104还用于将所述用户在每个类别层级下的推荐类别封装为区块;将所述区块存储至区块链上。
根据本发明的一个实施例,图3、图6或图8所示的方法所涉及的各个步骤均可以是由图11所示的信息处理装置中的各个单元执行的。例如,图3所示的步骤S301由图11中所示的获取单元1101来执行,步骤S302由图11中所示的处理单元1102来执行,步骤S303由图11中所示的预测单元1103来执行,步骤S304由图11中所示的输出单元1104来执行。又如,图6所示的步骤S601由图11中所示的获取单元1101来执行,步骤S602由图11中所示的处理单元1102来执行,步骤S603由图11中所示的输出单元1104来执行。再如,图8所示的步骤S801、步骤S802、步骤S803和步骤S804由图11中所示的预测单元1103来执行。
根据本发明的另一个实施例,图11所示的信息处理装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其他实施例中,基于信息处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过包括中央处理单元(Central ProcessingUnit,CPU),随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图3、图6或图8中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11所示的信息处理装置,以及来实现本发明实施例的信息处理方法。所述的计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述信息处理设备中,并在其中运行。
本发明实施例在确定N个类别层级下的推荐类别时,可以利用特征提取模型对用户画像属性和关联类别集合进行处理,得到对应于N个类别层级的N个基础特征,然后再分别调用N个分类模型对这N个基础特征进行预测处理,确定用户在N个类别层级下的推荐类别。利用了特征提取模型+N个分类模型的方式同时对多个类别层级下的类别进行深度建模,可以确定该用户在N个类别层级下的推荐类别。并且在对特征提取模型和N个分类模型进行训练时,将第二训练类别集合中的第二训练类别进行处理时构造了多层级类别的树状结构,保留了N个类别层级之间的结构化信息。从而,可以精准确定N个类别层级下的推荐类别。
基于上述信息处理方法实施例的描述,本发明实施例还公开了一种信息处理设备。请参见图12,该信息处理设备至少包括处理器1201、输入接口1202、输出接口1203以及计算机存储介质1204可通过总线或其他方式连接。
所述计算机存储介质1204是信息处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质1204既可以包括信息处理设备的内置存储介质,当然也可以包括信息处理设备支持的扩展存储介质。计算机存储介质1204提供存储空间,该存储空间存储了信息处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(Central Processing Unit,CPU),是信息处理设备的核心以及控制中心,适于被实现一条或多条指令,具体加载并执行一条或多条指令从而实现相应的方法流程或功能。
在一个实施例中,可由处理器1201加载并执行计算机存储介质1204中存放的一条或多条指令,以实现执行如图3、图6或图8中所示的相应方法所涉及的各步骤,具体实现中,计算机存储介质1204中的一条或多条指令由处理器1201加载并执行以下步骤:
获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出所述用户在每个类别层级下的推荐类别
在一种实施方式中,目标分类模型是N个分类模型中的任一分类模型,目标基础特征是N个基础特征中与所述目标分类模型对应的基础特征,目标层级类别是目标基础特征对应的类别层级;
处理器1201调用所述目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下的推荐类别的流程,包括:
调用所述目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下多个目标参考类别的排序分数,多个目标参考类别对应K个类别领域,每个类别领域下属的参考类别对应一个多层级类别的树状结构,K是正整数;
计算同一多层级类别的树状结构中的目标参考类别对应的父类别的排序分数与同一多层级类别的树状结构的目标参考类别的排序分数之和的差值;
根据K个类别领域的差值以及K个类别领域下的目标参考类别的排序分数确定所述用户在所述目标类别层级下的推荐类别。
再一种实施方式中,处理器1201根据K个类别领域的差值以及K个类别领域下的目标参考类别的排序分数确定所述用户在所述目标类别层级下的推荐类别,包括:
根据K个类别领域的差值分别确定K个类别领域下的隐藏参考类别的排序分数;
将K个类别领域下的隐藏参考类别的排序分数和K个类别领域下的目标参考类别的排序分数进行排序,得到所述目标类别层级下的排序结果;
根据所述目标类别层级下的排序结果确定所述用户在所述目标类别层级下的推荐类别。
再一种实施方式中,目标分类模型包括粗分类模型和细分类模型;
处理器1201调用目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下多个目标参考类别的排序分数,包括:
根据所述目标基础特征与所述关联类别集合确定特征矩阵;
调用所述粗分类模型确定所述特征矩阵的召回信息,并调用所述细分类模型确定所述目标类别层级下多个目标参考类别的参考分数;
根据所述召回信息以及所述目标类别层级下的多个目标参考类别的参考分数得到所述用户在所述目标类别层级下多个目标参考类别的排序分数。
再一种实施方式中,辅助参考类别是多个目标参考类别中的任一目标参考类别;处理器1201根据所述召回信息以及所述辅助参考类别的参考分数确定所述目标类别层级下的辅助参考类别的排序分数,包括:
若所述召回信息指示所述辅助参考类别为正例的概率小于或等于预设阈值,则将所述辅助参考类别的排序分数设置为参考值;
若所述召回信息指示所述辅助参考类别为正例的概率大于所述预设阈值,则将所述辅助参考类别的参考分数作为所述辅助参考类别的排序分数。
再一种实施方式中,处理器1201调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,包括:
根据所述用户画像属性构造用户特征向量,以及根据所述关联类别集合对应的N个类别层级下的各个关联类别构造关联向量;
根据所述用户特征向量以及所述关联向量确定中间向量;
调用特征提取模型对所述中间向量进行处理,得到基础特征集合。
再一种实施方式中,处理器1201输出所述用户在每个类别层级下的推荐类别之后,所述处理器1201还用于:
获取所述推荐类别对应的各个待推荐对象,以及获取所述各个待推荐对象对应的媒体资源信息;
根据所述各个待推荐对象对应的媒体资源信息确定目标推荐对象,并将所述目标推荐对象发送至所述用户对应的终端设备。
再一种实施方式中,所述用户画像属性和所述关联类别集合是从区块链上获取的;处理器1201还用于将所述用户在每个类别层级下的推荐类别封装为区块;将所述区块存储至区块链上。
本发明实施例在确定N个类别层级下的推荐类别时,可以利用特征提取模型对用户画像属性和关联类别集合进行处理,得到对应于N个类别层级的N个基础特征,然后再分别调用N个分类模型对这N个基础特征进行预测处理,确定用户在N个类别层级下的推荐类别。利用了特征提取模型+N个分类模型的方式同时对多个类别层级下的类别进行深度建模,可以确定该用户在N个类别层级下的推荐类别。并且在对特征提取模型和N个分类模型进行训练时,将第二训练类别集合中的第二训练类别进行处理时构造了多层级类别的树状结构,保留了N个类别层级之间的结构化信息。从而,可以精准确定N个类别层级下的推荐类别。
需要说明的是,本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。信息处理设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该信息处理设备执行上述信息处理方法实施例图3、图6或图8中所执行的步骤。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出所述用户在每个类别层级下的推荐类别。
2.如权利要求1所述的方法,其特征在于,目标分类模型是N个分类模型中的任一分类模型,目标基础特征是N个基础特征中与所述目标分类模型对应的基础特征,目标类别层级是目标基础特征对应的类别层级;
调用所述目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下的推荐类别的流程,包括:
调用所述目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下多个目标参考类别的排序分数,多个目标参考类别对应K个类别领域,每个类别领域下属的目标参考类别对应一个多层级类别的树状结构,K是正整数;
计算同一多层级类别的树状结构中的目标参考类别对应的父类别的排序分数与同一多层级类别的树状结构的目标参考类别的排序分数之和的差值;
根据K个类别领域的差值以及K个类别领域下的目标参考类别的排序分数确定所述用户在所述目标类别层级下的推荐类别。
3.如权利要求2所述的方法,其特征在于,所述根据K个类别领域的差值以及K个类别领域下的目标参考类别的排序分数确定所述用户在所述目标类别层级下的推荐类别,包括:
根据K个类别领域的差值分别确定K个类别领域下的隐藏参考类别的排序分数;
将K个类别领域下的隐藏参考类别的排序分数和K个类别领域下的目标参考类别的排序分数进行排序,得到所述目标类别层级下的排序结果;
根据所述目标类别层级下的排序结果确定所述用户在所述目标类别层级下的推荐类别。
4.如权利要求2所述的方法,其特征在于,所述目标分类模型包括粗分类模型和细分类模型;
所述调用目标分类模型对所述目标基础特征进行预测处理,得到所述用户在所述目标类别层级下多个目标参考类别的排序分数,包括:
根据所述目标基础特征与所述关联类别集合确定特征矩阵;
调用所述粗分类模型确定所述特征矩阵的召回信息,并调用所述细分类模型确定所述目标类别层级下多个目标参考类别的参考分数;
根据所述召回信息以及所述目标类别层级下的多个目标参考类别的参考分数得到所述用户在所述目标类别层级下多个目标参考类别的排序分数。
5.如权利要求4所述的方法,其特征在于,辅助参考类别是多个目标参考类别中的任一目标参考类别;
根据所述召回信息以及所述辅助参考类别的参考分数确定所述目标类别层级下的辅助参考类别的排序分数,包括:
若所述召回信息指示所述辅助参考类别为正例的概率小于或等于预设阈值,则将所述辅助参考类别的排序分数设置为参考值;
若所述召回信息指示所述辅助参考类别为正例的概率大于所述预设阈值,则将所述辅助参考类别的参考分数作为所述辅助参考类别的排序分数。
6.如权利要求1所述的方法,其特征在于,所述调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,包括:
根据所述用户画像属性构造用户特征向量,以及根据所述关联类别集合对应的N个类别层级下的各个关联类别构造关联向量;
根据所述用户特征向量以及所述关联向量确定中间向量;
调用特征提取模型对所述中间向量进行处理,得到基础特征集合。
7.如权利要求1所述的方法,其特征在于,所述输出所述用户在每个类别层级下的推荐类别之后,所述方法还包括:
获取所述推荐类别对应的各个待推荐对象,以及获取所述各个待推荐对象对应的媒体资源信息;
根据所述各个待推荐对象对应的媒体资源信息确定目标推荐对象,并将所述目标推荐对象发送至所述用户对应的终端设备。
8.根据权利要求1所述的方法,其特征在于,所述用户画像属性和所述关联类别集合是从区块链上获取的;
所述方法还包括:
将所述用户在每个类别层级下的推荐类别封装为区块;
将所述区块存储至区块链上。
9.一种信息处理装置,其特征在于,包括:
获取单元,用于获取用户的用户画像属性以及与所述用户具有关联关系的关联类别集合,所述关联类别集合对应N个类别层级,N是大于1的整数;
处理单元,用于调用特征提取模型对所述用户画像属性和所述关联类别集合进行处理,得到基础特征集合,所述基础特征集合包括N个基础特征,每个基础特征对应一个类别层级;
预测单元,用于调用N个分类模型分别对N个基础特征进行预测处理,得到所述用户在每个类别层级下的推荐类别;
输出单元,用于输出所述用户在每个类别层级下的推荐类别。
10.一种信息处理设备,包括输入接口、输出接口,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任意一项所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138340.0A CN112989182B (zh) | 2021-02-01 | 2021-02-01 | 信息处理方法、装置、信息处理设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138340.0A CN112989182B (zh) | 2021-02-01 | 2021-02-01 | 信息处理方法、装置、信息处理设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989182A true CN112989182A (zh) | 2021-06-18 |
CN112989182B CN112989182B (zh) | 2023-12-12 |
Family
ID=76345994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110138340.0A Active CN112989182B (zh) | 2021-02-01 | 2021-02-01 | 信息处理方法、装置、信息处理设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989182B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284359A (zh) * | 2021-07-22 | 2021-08-20 | 腾讯科技(深圳)有限公司 | 车位推荐方法、装置、设备及计算机可读存储介质 |
CN114297150A (zh) * | 2021-11-19 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 媒体文件处理方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150052002A1 (en) * | 2013-08-15 | 2015-02-19 | Barnesandnoble.Com Llc | Systems and methods for programatically classifying text using topic classification |
US20190065606A1 (en) * | 2017-08-28 | 2019-02-28 | Facebook, Inc. | Systems and methods for automated page category recommendation |
CN110110233A (zh) * | 2019-05-09 | 2019-08-09 | 网易传媒科技(北京)有限公司 | 信息处理方法、装置、介质和计算设备 |
CN110245874A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于机器学习和知识推理的决策融合方法 |
CN111310037A (zh) * | 2020-02-05 | 2020-06-19 | 广东三维家信息科技有限公司 | 家居素材的推荐方法、装置及电子设备 |
CN112035747A (zh) * | 2020-09-03 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 信息推荐方法及装置 |
-
2021
- 2021-02-01 CN CN202110138340.0A patent/CN112989182B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150052002A1 (en) * | 2013-08-15 | 2015-02-19 | Barnesandnoble.Com Llc | Systems and methods for programatically classifying text using topic classification |
US20190065606A1 (en) * | 2017-08-28 | 2019-02-28 | Facebook, Inc. | Systems and methods for automated page category recommendation |
CN110245874A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于机器学习和知识推理的决策融合方法 |
CN110110233A (zh) * | 2019-05-09 | 2019-08-09 | 网易传媒科技(北京)有限公司 | 信息处理方法、装置、介质和计算设备 |
CN111310037A (zh) * | 2020-02-05 | 2020-06-19 | 广东三维家信息科技有限公司 | 家居素材的推荐方法、装置及电子设备 |
CN112035747A (zh) * | 2020-09-03 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 信息推荐方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284359A (zh) * | 2021-07-22 | 2021-08-20 | 腾讯科技(深圳)有限公司 | 车位推荐方法、装置、设备及计算机可读存储介质 |
CN114297150A (zh) * | 2021-11-19 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 媒体文件处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112989182B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992710B (zh) | 点击率预估方法、系统、介质和计算设备 | |
CN111784455A (zh) | 一种物品推荐方法及推荐设备 | |
CN112270547A (zh) | 基于特征构造的金融风险评估方法、装置和电子设备 | |
CN111008335B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
CN112989169B (zh) | 目标对象识别方法、信息推荐方法、装置、设备及介质 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN113158554B (zh) | 模型优化方法、装置、计算机设备及存储介质 | |
CN112989182B (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
US20240177006A1 (en) | Data processing method and apparatus, program product, computer device, and medium | |
CN111310025B (zh) | 模型训练方法、数据处理方法、装置以及相关设备 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN116821516B (zh) | 资源推荐方法、装置、设备及存储介质 | |
CN113656699A (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN115329183A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN111552827A (zh) | 标注方法和装置、行为意愿预测模型训练方法和装置 | |
Tran et al. | Improvement graph convolution collaborative filtering with weighted addition input | |
CN116628236B (zh) | 多媒体信息的投放方法、装置、电子设备及存储介质 | |
CN117786234B (zh) | 一种基于两阶段对比学习的多模态资源推荐方法 | |
US20220398433A1 (en) | Efficient Cross-Platform Serving of Deep Neural Networks for Low Latency Applications | |
CN116484105B (zh) | 业务处理方法、装置及计算机设备、存储介质、程序产品 | |
CN117251820A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117009556A (zh) | 一种基于评估模型的内容推荐方法及相关装置 | |
CN117743673A (zh) | 资源召回方法 | |
CN116975422A (zh) | 推送信息处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40045974 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |