CN111047360A - 一种基于视觉画像的数据处理方法及系统 - Google Patents

一种基于视觉画像的数据处理方法及系统 Download PDF

Info

Publication number
CN111047360A
CN111047360A CN201911294265.6A CN201911294265A CN111047360A CN 111047360 A CN111047360 A CN 111047360A CN 201911294265 A CN201911294265 A CN 201911294265A CN 111047360 A CN111047360 A CN 111047360A
Authority
CN
China
Prior art keywords
items
item
vector
historical operation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911294265.6A
Other languages
English (en)
Other versions
CN111047360B (zh
Inventor
陈阔
白旭栩
李林
刘志超
于靓环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201911294265.6A priority Critical patent/CN111047360B/zh
Publication of CN111047360A publication Critical patent/CN111047360A/zh
Application granted granted Critical
Publication of CN111047360B publication Critical patent/CN111047360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于视觉画像的数据处理方法及系统,根据用户信息,获取用户的视觉画像向量;确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的K个项目向量对应的第一项目;获取通过其它预设方式确定的与用户信息相关的M个第二项目;对K个第一项目和M个第二项目进行筛选,获取N个第三项目;将N个第三项目反馈给用户。本方案中,预先构建用户的视觉画像向量,利用向量之间的相似度,获取与视觉画像向量相似度最大的K个项目向量对应的第一项目,以及获取通过其它方式确定的M个第二项目。对K个第一项目和M个第二项目进行筛选,将得到的N个第三项目反馈给用户。充分利用行为数据中的视觉信息,准确表达用户的兴趣爱好。

Description

一种基于视觉画像的数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于视觉画像的数据处理方法及系统。
背景技术
随着互联网技术的发展,越来越多的互联网产品会构建用户对应的用户画像,以表达用户的兴趣爱好。
目前构建用户画像的方式为:收集用户的行为数据,根据行为数据中的文本构建语义用户画像。但是随着5G和人工智能(Artificial Intelligence,AI)等领域的发展,视觉特征的应用越来越广泛。仅根据行为数据中的文本构建语义用户画像,会忽略承载行为数据中的大量关键信息的视觉信息,也就是说语义用户画像无法准确表达用户的兴趣爱好。
发明内容
有鉴于此,本发明实施例提供一种基于视觉画像的数据处理方法及系统,以解决现有构建用户画像的方式无法准确表达用户的兴趣爱好的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种基于视觉画像的数据处理方法,所述方法包括:
根据用户信息,获取用户的视觉画像向量,所述视觉画像向量为预先基于所述用户的行为数据构建的;
确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的K个所述项目向量对应的第一项目,所述项目向量为将对应项目的图像转换成向量得到;
获取通过其它预设方式确定的与所述用户信息相关的M个第二项目;
对K个所述第一项目和M个所述第二项目进行筛选,获取N个第三项目;
将N个所述第三项目反馈给所述用户;
其中,K,M和N为正整数。
优选的,预先基于所述用户的行为数据构建所述视觉画像向量的过程,包括:
获取在预设时间段内所述用户操作过的多个历史操作项目;
对多个所述历史操作项目分类,获取一个以上的历史操作项目类别;
获取每个所述历史操作项目对应的历史操作项目向量;
针对每一所述历史操作项目类别,对所述历史操作项目类别对应的历史操作项目向量进行加权求和,获取所述历史操作项目类别对应的视觉画像向量。
优选的,所述对K个所述第一项目和M个所述第二项目进行筛选,获取N个第三项目,包括:
确定K个所述第一项目中每个所述第一项目的点击率;
确定M个所述第二项目中每个所述第二项目的点击率;
获取K个所述第一项目和M个所述第二项目中点击率最高的N个第三项目。
优选的,所述确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的K个所述项目向量对应的第一项目,包括:
针对每一所述历史操作项目类别对应的视觉画像向量,确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的X个所述项目向量对应的第一项目;
累积每个所述历史操作项目类别对应的X个所述第一项目,获取K个所述第一项目。
优选的,将项目的图像转换成向量得到对应项目向量的过程,包括:
确定项目是否为视频;
若所述项目不是视频,将所述项目的图像转换成项目向量;
若所述项目是视频,提取所述视频中的关键帧图像;
将所述关键帧图像转换成所述项目向量。
优选的,获取预设的项目向量的过程,包括:
获取多个项目,并将每个所述项目的图像转换成对应的项目向量。
本发明实施例第二方面公开一种基于视觉画像的数据处理系统,所述系统包括:
第一获取单元,用于根据用户信息,获取用户的视觉画像向量,所述视觉画像向量为预先基于所述用户的行为数据构建的;
处理单元,用于确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的K个所述项目向量对应的第一项目,所述项目向量为将对应项目的图像转换成向量得到;
第二获取单元,用于获取通过其它预设方式确定的与所述用户信息相关的M个第二项目;
筛选单元,用于对K个所述第一项目和M个所述第二项目进行筛选,获取N个第三项目;
反馈单元,用于将N个所述第三项目反馈给所述用户;
其中,K,M和N为正整数。
优选的,所述第一获取单元包括:
第一获取模块,用于获取在预设时间段内所述用户操作过的多个历史操作项目;
分类模块,用于对多个所述历史操作项目分类,获取一个以上的历史操作项目类别;
第二获取模块,用于获取每个所述历史操作项目对应的历史操作项目向量;
处理模块,用于针对每一所述历史操作项目类别,对所述历史操作项目类别对应的历史操作项目向量进行加权求和,获取所述历史操作项目类别对应的视觉画像向量。
优选的,所述筛选单元包括:
第一确定模块,用于确定K个所述第一项目中每个所述第一项目的点击率;
第二确定模块,用于确定M个所述第二项目中每个所述第二项目的点击率;
筛选模块,用于获取K个所述第一项目和M个所述第二项目中点击率最高的N个第三项目。
优选的,所述处理单元具体用于:针对每一历史操作项目类别对应的视觉画像向量,确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的X个项目向量对应的第一项目。累积每个历史操作项目类别对应的X个第一项目,获取K个第一项目。
基于上述本发明实施例提供的一种基于视觉画像的数据处理方法及系统,该方法为:根据用户信息,获取用户的视觉画像向量;确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的K个项目向量对应的第一项目;获取通过其它预设方式确定的与用户信息相关的M个第二项目;对K个第一项目和M个第二项目进行筛选,获取N个第三项目;将N个第三项目反馈给用户。本方案中,预先构建用户的视觉画像向量,利用向量之间的相似度,获取与视觉画像向量相似度最大的K个项目向量对应的第一项目,以及获取通过其它方式确定的M个第二项目。对K个第一项目和M个第二项目进行筛选,将得到的N个第三项目反馈给用户。充分利用行为数据中的视觉信息,准确表达用户的兴趣爱好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于视觉画像的数据处理方法的流程图;
图2为本发明实施例提供的构建视觉画像向量的流程图;
图3为本发明实施例提供的将项目转换成项目向量的流程图;
图4为本发明实施例提供的一种基于视觉画像的数据处理系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前构建用户画像的方式为仅根据行为数据中的文本构建语义用户画像。但是随着视觉特征的应用越来越广泛,行为数据中的视觉信息承载大量关键信息,仅根据文本构建语义用户画像会忽略视觉信息,从而无法准确表达用户的兴趣爱好。
因此,本发明实施例提供一种基于视觉画像的数据处理方法及系统,预先根据用户的行为数据构建视觉画像向量,利用向量之间的相似度,获取与视觉画像向量相似度最大的K个项目向量对应的第一项目,以及获取通过其它方式确定的M个第二项目。对K个第一项目和M个第二项目进行筛选,将得到的N个第三项目反馈给用户。充分利用视觉信息,以提高表达用户的兴趣爱好的准确性。
参见图1,示出了本发明实施例提供的一种基于视觉画像的数据处理方法的流程图,该数据处理方法包括以下步骤:
步骤S101:根据用户信息,获取用户的视觉画像向量。
需要说明的是,预先基于用户的行为数据中的视觉信息,构建该用户对应的视觉画像向量。
进一步需要说明的是,当本发明实施例涉及的内容应用于不同领域时,需针对每一领域构建用户对应的视觉画像向量。也就是说,根据用户在一领域中的行为数据,构建用户在该领域中对应的视觉画像向量。
可以理解的是,用户的视觉画像向量并不是固定不变的,而是按照预设周期更新该用户的视觉画像向量,例如每隔一个小时更新一次用户的视觉画像向量。也就是说,每次在更新用户的视觉画像向量时,收集该用户在最近预设时间段内的行为数据,基于该行为数据中的视觉信息,构建该用户对应的视觉画像向量。
在具体实现步骤S101的过程中,接收用户的查询请求,获取用户的用户信息。根据用户信息,获取该用户对应的视觉画像向量。
步骤S102:确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的K个项目向量对应的第一项目。
需要说明的是,K为正整数,本发明实施例中涉及的项目是一个泛称,在不同领域中项目指代的内容不同。
例如:在信息流推荐领域中,项目指代新闻。在电商领域中,项目指代商品。在广告领域中,项目指代广告。
预先通过不同渠道收集多个项目,在将收集得到的多个项目存储至数据库时需要将该项目转换成对应的项目向量,具体转换方式为:将项目的图像转换成向量得到该项目对应的项目向量,将项目向量存储至数据库中,并建立每个项目和对应项目向量的索引关系。
例如:利用Annoy建立每个项目和对应项目向量的索引关系。需要说明的是,Annoy是Spotify开源的高维空间求近似最近邻的库。在本发明实施例中对于如何建立索引关系和数据库的选取不做具体限定。
可以理解的是,不同类型的项目对应的图像不同,比如:项目为新闻,则图像为新闻内容中的图片。项目为商品,则图像为商品中的商品图。
在具体实现步骤S102的过程中,由前述内容可知,预先构建项目和项目向量的索引关系。确定每个预设的项目向量与视觉画像向量的相似度,利用项目和项目向量的索引关系,获取相似度最大的K个项目向量对应的第一项目。
步骤S103:获取通过其它预设方式确定的与用户信息相关的M个第二项目。
在具体实现步骤S103的过程中,为保证向用户推荐的内容更加贴近用户的兴趣爱好,通常采用多种方式获取与用户信息相关的项目。其中一种方式即为上述步骤S101和步骤S102中所涉及的内容,同时还需获取通过其它预设方式确定的与用户信息相关的M个第二项目。
例如:通过content-based策略,根据用户的兴趣标签确定与用户信息相关的多个第二项目。又例如:通过协同过滤策略确定与用户信息相关的多个第二项目。
可以理解的是,上述的其它预设方式可以是多种获取第二项目的方式,在本发明实施例中对于其它预设方式的内容不做具体限定。
步骤S104:对K个第一项目和M个第二项目进行筛选,获取N个第三项目。
在具体实现步骤S104的过程中,根据项目的点击率(Click-Through-Rate,CTR)的高低,对K个第一项目和M个第二项目进行筛选,获取N个第三项目。
具体筛选过程为:确定K个第一项目中每个第一项目的点击率,确定M个第二项目中每个第二项目的点击率。也就是说,总共确定K+M个项目中每个项目的点击率,从K+M个项目中选择点击率最高的N个第三项目,即获取K个第一项目和M个第二项目中点击率最高的N个第三项目。
可以理解的是,上述在对K个第一项目和M个第二项目进行筛选的过程中,是以每个项目的点击率的高低为标准进行筛选。相应的,也可使用其它筛选规则对上述K个第一项目和M个第二项目进行筛选,在本发明实施例中对于筛选规则不做具体限定。
需要说明的是,上述涉及到的各个项目的点击率为利用CTR模块预估得到的点击率,也就是说,将K个第一项目和M个第二项目中各个项目的项目信息作为CTR模块的项目侧特征,同时将用户信息作为CTR模块的用户侧特征,利用CTR模块预测针对该用户的K个第一项目和M个第二项目中各个项目的点击率。
可以理解的是,上述利用CTR模块预估得到的各个项目的点击率是针对于每一用户的,预估得到的点击率与用户信息具有对应关系。也就是说,对于同一项目,CTR模块利用不同用户信息预估得到的点击率不同。
步骤S105:将N个第三项目反馈给用户。
在具体实现步骤S105的过程中,根据上述步骤S104中的内容,可以理解的是,根据点击率的高低筛选得到N个第三项目,即该N个第三项目已经按照点击率的高低排序好了,将N个第三项目反馈给用户。
需要说明的是,将上述步骤S101至步骤S104中获取的N个第三项目存储至数据库中,当接收到用户发送的请求时,从数据库中获取N个第三项目并反馈给该用户,减少用户从请求到获取所反馈的N个第三项目的时间。
也就是说,在用户发送请求之前,获取并存储N个第三项目。当用户发送请求时,可直接将N个第三项目反馈给该用户,提高用户的使用体验。
在本发明实施例中,预先利用用户行为数据中的视觉信息,构建该用户对应的视觉画像向量,利用向量之间的相似度,获取与视觉画像向量相似度最大的K个项目向量对应的第一项目,以及获取通过其它方式确定的M个第二项目。对K个第一项目和M个第二项目进行筛选,将得到的N个第三项目反馈给用户。充分利用行为数据中的视觉信息,准确表达用户的兴趣爱好。
上述本发明实施例图1步骤S101中涉及的构建视觉画像向量的过程,参见图2,示出了本发明实施例提供的构建视觉画像向量的流程图,包括以下步骤:
步骤S201:获取在预设时间段内用户操作过的多个历史操作项目。
在具体实现步骤S201的过程中,获取在预设时间段内的该用户的行为数据,从该行为数据中获取用户操作过的多个历史操作项目。
需要说明的是,行为数据包括但不仅限于:该用户的历史点击数据和历史浏览数据。也就是说,从该行为数据中可以获取该用户在预设时间段内操作过的项目,在预设时间段内操作过的项目即为上述历史操作项目。
例如:对于信息流推荐领域,获取在预设时间段内用户点击过的新闻。对于电商领域,获取在预设时间段内用户点击过的商品。
步骤S202:对多个历史操作项目分类,获取一个以上的历史操作项目类别。
需要说明的是,对于同一领域的项目,各个项目可能属于不同类别,也就是说步骤S201中获取的多个历史操作项目中的各个项目可能都属于同一类别,也可能属于不同类别。
例如:对于信息流推荐领域,该领域下的项目可按新闻属性进行分类,项目的类别包括但不仅限于体育新闻、时尚新闻和科技新闻等。
在具体实现步骤S202的过程中,对多个历史操作项目分类,获取一个以上的历史操作项目类别。
步骤S203:获取每个历史操作项目对应的历史操作项目向量。
由上述本发明实施例图1中的内容可知,预先建立每个项目和对应项目向量的索引关系。在具体实现步骤S203的过程中,利用预先建立的索引关系,查询每个历史操作项目对应的向量,获取每个历史操作项目对应的历史操作项目向量。
步骤S204:针对每一历史操作项目类别,对历史操作项目类别对应的历史操作项目向量进行加权求和,获取历史操作项目类别对应的视觉画像向量。
需要说明的是,每一历史操作项目类别包含一个以上属于该类别的历史操作项目。在具体实现步骤S204的过程中,针对每一历史操作项目类别,对历史操作项目类别所对应的历史操作项目向量进行加权求和,获取历史操作项目类别对应的视觉画像向量。
例如:假设历史操作项目类别包含三个历史操作项目,也就是该历史操作项目类别对应三个历史操作项目向量,分别为v1、v2和v3。v1对应的权重为w1,v2对应的权重为w2,v3对应的权重为w3。该历史操作项目类别对应的视觉画像向量为v1*w1+v2*w2+v3*w3。w1、w2和w3可取平均值,即w1、w2和w3均为0.333。相应的,w1、w2和w3也可按照实际需求分别进行设置。
可以理解的是,对于每个历史操作项目类别,构建该历史操作项目类别对应的视觉画像向量。也就是说,每个历史操作项目类别对应一个视觉画像向量。
例如:在信息流推荐领域中,假设用户在预设时间段内的行为数据包含6个历史操作项目,按照新闻属性进行类别划分后,其中2个历史操作项目为体育新闻,2个历史操作项目为娱乐新闻,2个历史操作项目为美食新闻。也就是说在预设时间段内的行为数据对应3个历史操作项目类别,即体育类、娱乐类和美食类。
对2个体育新闻对应的历史操作项目向量进行加权求和,得到体育类对应的视觉画像向量。对2个娱乐新闻对应的历史操作项目向量进行加权求和,得到娱乐类对应的视觉画像向量。对2个美食新闻对应的历史操作项目向量进行加权求和,得到美食类对应的视觉画像向量。
结合步骤S204中的内容,上述本发明实施例图1步骤S102中涉及的获取K个第一项目的过程为:
对于每个历史操作项目类别对应的视觉画像向量,确定每个预设的项目向量与该视觉画像向量的相似度,获取相似度最大的X个项目向量对应的第一项目。累积每个历史操作项目类别对应的X个第一项目,获取K个第一项目。
例如:假设用户在预设时间段内的行为数据包含3个历史操作项目类别,利用每个历史操作项目类别对应的视觉画像向量,获取X个第一项目。也就是说,每个视觉画像向量获取X个第一项目,总共获取3X个第一项目,即K=3X。
在本发明实施例中,获取用户在预设时间段内的行为数据,并对行为数据中的多个历史操作项目进行分类,一个以上的历史操作项目类别。对每个历史操作项目类别对应的历史操作项目向量进行加权求和,获取历史操作项目类别对应的视觉画像向量。将利用视觉画像向量得到的N个第三项目反馈给用户,提高表达用户的兴趣爱好的准确性。
上述本发明实施例图1步骤S101中涉及的将各个项目转换成对应的项目向量的过程,参见图3,示出了本发明实施例提供的将项目转换成项目向量的流程图,包括以下步骤:
步骤S301:确定项目是否为视频,若项目不是视频,执行步骤S302,若项目为视频,执行步骤S303。
在具体实现步骤S301的过程中,项目的形式可能为视频,也就是说,如果项目不是视频,则直接将该项目中的图像转换成对应的项目向量。如果项目是视频,则先提取视频中的关键帧图像,再将关键帧图像转换成项目向量。
步骤S302:将项目的图像转换成项目向量。
在具体实现步骤S302的过程中,预先基于样本数据训练神经网络模型,得到用于提取图像特征的特征提取模型。利用特征提取模型,提取项目中的图像的特征,将项目中的图像转换成对应项目向量。
例如:基于样本数据训练RESNET网络,训练好的RESNET网络的输入为图像,训练好的RESNET网络的输出为向量表示。
步骤S303:提取视频中的关键帧图像。
步骤S304:将关键帧图像转换成项目向量。
在具体实现步骤S304的过程中,将关键帧图像转换成项目向量的过程,可参见步骤S302的内容。
在本发明实施例中,利用预先训练的特征提取模型,将视频中的关键帧图像或项目中的图像转换成对应的项目向量。根据转换得到的项目向量与用户的视觉画像向量之间的相似度,确定反馈给用户的N个第三项目,充分利用不同数据中的视觉信息,准确表达用户的兴趣爱好。
与上述本发明实施例提供的一种基于视觉画像的数据处理方法相对应,参见图4,本发明实施例还提供了一种基于视觉画像的数据处理系统的结构框图,该数据处理系统包括:第一获取单元401、处理单元402、第二获取单元403、筛选单元404和反馈单元405;
第一获取单元401,用于根据用户信息,获取用户的视觉画像向量,视觉画像向量为预先基于用户的行为数据构建的。
处理单元402,用于确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的K个项目向量对应的第一项目,项目向量为将对应项目的图像转换成向量得到。
在具体实现中,处理单元402具体用于:针对每一历史操作项目类别对应的视觉画像向量,确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的X个项目向量对应的第一项目。累积每个历史操作项目类别对应的X个第一项目,获取K个第一项目。
在获取预设的项目向量的过程中,处理单元402具体用于:获取多个项目,并将每个项目的图像转换成对应的项目向量。
第二获取单元403,用于获取通过其它预设方式确定的与用户信息相关的M个第二项目。
筛选单元404,用于对K个第一项目和M个第二项目进行筛选,获取N个第三项目。
反馈单元405,用于将N个第三项目反馈给用户。
其中,K,M和N为正整数。
在本发明实施例中,预先利用用户行为数据中的视觉信息,构建该用户对应的视觉画像向量,利用向量之间的相似度,获取与视觉画像向量相似度最大的K个项目向量对应的第一项目,以及获取通过其它方式确定的M个第二项目。对K个第一项目和M个第二项目进行筛选,将得到的N个第三项目反馈给用户。充分利用行为数据中的视觉信息,准确表达用户的兴趣爱好。
优选的,结合图4示出的内容,第一获取单元401包括:第一获取模块、分类模块、第二获取模块和处理模块。各个模块的执行原理如下:
第一获取模块,用于获取在预设时间段内用户操作过的多个历史操作项目。
分类模块,用于对多个历史操作项目分类,获取一个以上的历史操作项目类别。
第二获取模块,用于获取每个历史操作项目对应的历史操作项目向量。
处理模块,用于针对每一历史操作项目类别,对历史操作项目类别对应的历史操作项目向量进行加权求和,获取历史操作项目类别对应的视觉画像向量。
在本发明实施例中,获取用户在预设时间段内的行为数据,并对行为数据中的多个历史操作项目进行分类,一个以上的历史操作项目类别。对每个历史操作项目类别对应的历史操作项目向量进行加权求和,获取历史操作项目类别对应的视觉画像向量。将利用视觉画像向量得到的N个第三项目反馈给用户,提高表达用户的兴趣爱好的准确性。
优选的,结合图4示出的内容,筛选单元404包括:第一确定模块、第二确定模块和筛选模块,各个模块的执行原理如下:
第一确定模块,用于确定K个第一项目中每个第一项目的点击率。
第二确定模块,用于确定M个第二项目中每个第二项目的点击率。
筛选模块,用于获取K个第一项目和M个第二项目中点击率最高的N个第三项目。
优选的,结合图4示出的内容,处理单元402包括:确定模块、第一转换模块、提取模块和第二转换模块,各个模块的执行原理如下:
确定模块,用于确定项目是否为视频。若项目不是视频,执行第一转换模块,若项目是视频,执行提取模块。
第一转换模块,用于将项目的图像转换成项目向量。
提取模块,用于提取视频中的关键帧图像。
第二转换模块,用于将关键帧图像转换成项目向量。
在本发明实施例中,利用预先训练的特征提取模型,将视频中的关键帧图像或项目中的图像转换成对应的项目向量。根据转换得到的项目向量与用户的视觉画像向量之间的相似度,确定反馈给用户的N个第三项目,充分利用不同数据中的视觉信息,准确表达用户的兴趣爱好。
综上所述,本发明实施例提供一种基于视觉画像的数据处理方法及系统,该方法为:根据用户信息,获取用户的视觉画像向量;确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的K个项目向量对应的第一项目;获取通过其它预设方式确定的与用户信息相关的M个第二项目;对K个第一项目和M个第二项目进行筛选,获取N个第三项目;将N个第三项目反馈给用户。本方案中,预先构建用户的视觉画像向量,利用向量之间的相似度,获取与视觉画像向量相似度最大的K个项目向量对应的第一项目,以及获取通过其它方式确定的M个第二项目。对K个第一项目和M个第二项目进行筛选,将得到的N个第三项目反馈给用户。充分利用行为数据中的视觉信息,准确表达用户的兴趣爱好。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于视觉画像的数据处理方法,其特征在于,所述方法包括:
根据用户信息,获取用户的视觉画像向量,所述视觉画像向量为预先基于所述用户的行为数据构建的;
确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的K个所述项目向量对应的第一项目,所述项目向量为将对应项目的图像转换成向量得到;
获取通过其它预设方式确定的与所述用户信息相关的M个第二项目;
对K个所述第一项目和M个所述第二项目进行筛选,获取N个第三项目;
将N个所述第三项目反馈给所述用户;
其中,K,M和N为正整数。
2.根据权利要求1所述的方法,其特征在于,预先基于所述用户的行为数据构建所述视觉画像向量的过程,包括:
获取在预设时间段内所述用户操作过的多个历史操作项目;
对多个所述历史操作项目分类,获取一个以上的历史操作项目类别;
获取每个所述历史操作项目对应的历史操作项目向量;
针对每一所述历史操作项目类别,对所述历史操作项目类别对应的历史操作项目向量进行加权求和,获取所述历史操作项目类别对应的视觉画像向量。
3.根据权利要求1所述的方法,其特征在于,所述对K个所述第一项目和M个所述第二项目进行筛选,获取N个第三项目,包括:
确定K个所述第一项目中每个所述第一项目的点击率;
确定M个所述第二项目中每个所述第二项目的点击率;
获取K个所述第一项目和M个所述第二项目中点击率最高的N个第三项目。
4.根据权利要求2所述的方法,其特征在于,所述确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的K个所述项目向量对应的第一项目,包括:
针对每一所述历史操作项目类别对应的视觉画像向量,确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的X个所述项目向量对应的第一项目;
累积每个所述历史操作项目类别对应的X个所述第一项目,获取K个所述第一项目。
5.根据权利要求1所述的方法,其特征在于,将项目的图像转换成向量得到对应项目向量的过程,包括:
确定项目是否为视频;
若所述项目不是视频,将所述项目的图像转换成项目向量;
若所述项目是视频,提取所述视频中的关键帧图像;
将所述关键帧图像转换成所述项目向量。
6.根据权利要求1至5中任一所述的方法,其特征在于,获取预设的项目向量的过程,包括:
获取多个项目,并将每个所述项目的图像转换成对应的项目向量。
7.一种基于视觉画像的数据处理系统,其特征在于,所述系统包括:
第一获取单元,用于根据用户信息,获取用户的视觉画像向量,所述视觉画像向量为预先基于所述用户的行为数据构建的;
处理单元,用于确定每个预设的项目向量与所述视觉画像向量的相似度,获取相似度最大的K个所述项目向量对应的第一项目,所述项目向量为将对应项目的图像转换成向量得到;
第二获取单元,用于获取通过其它预设方式确定的与所述用户信息相关的M个第二项目;
筛选单元,用于对K个所述第一项目和M个所述第二项目进行筛选,获取N个第三项目;
反馈单元,用于将N个所述第三项目反馈给所述用户;
其中,K,M和N为正整数。
8.根据权利要求7所述的系统,其特征在于,所述第一获取单元包括:
第一获取模块,用于获取在预设时间段内所述用户操作过的多个历史操作项目;
分类模块,用于对多个所述历史操作项目分类,获取一个以上的历史操作项目类别;
第二获取模块,用于获取每个所述历史操作项目对应的历史操作项目向量;
处理模块,用于针对每一所述历史操作项目类别,对所述历史操作项目类别对应的历史操作项目向量进行加权求和,获取所述历史操作项目类别对应的视觉画像向量。
9.根据权利要求7所述的系统,其特征在于,所述筛选单元包括:
第一确定模块,用于确定K个所述第一项目中每个所述第一项目的点击率;
第二确定模块,用于确定M个所述第二项目中每个所述第二项目的点击率;
筛选模块,用于获取K个所述第一项目和M个所述第二项目中点击率最高的N个第三项目。
10.根据权利7所述的系统,其特征在于,所述处理单元具体用于:针对每一历史操作项目类别对应的视觉画像向量,确定每个预设的项目向量与视觉画像向量的相似度,获取相似度最大的X个项目向量对应的第一项目。累积每个历史操作项目类别对应的X个第一项目,获取K个第一项目。
CN201911294265.6A 2019-12-16 2019-12-16 一种基于视觉画像的数据处理方法及系统 Active CN111047360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911294265.6A CN111047360B (zh) 2019-12-16 2019-12-16 一种基于视觉画像的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911294265.6A CN111047360B (zh) 2019-12-16 2019-12-16 一种基于视觉画像的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111047360A true CN111047360A (zh) 2020-04-21
CN111047360B CN111047360B (zh) 2024-04-09

Family

ID=70236907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911294265.6A Active CN111047360B (zh) 2019-12-16 2019-12-16 一种基于视觉画像的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111047360B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678672A (zh) * 2013-12-25 2014-03-26 北京中兴通软件科技股份有限公司 一种信息推荐方法
WO2017181612A1 (zh) * 2016-04-18 2017-10-26 乐视控股(北京)有限公司 个性化视频推荐方法及装置
CN108090162A (zh) * 2017-12-13 2018-05-29 北京百度网讯科技有限公司 基于人工智能的信息推送方法和装置
CN109857935A (zh) * 2019-01-24 2019-06-07 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN110008376A (zh) * 2019-03-22 2019-07-12 广州新视展投资咨询有限公司 用户画像向量生成方法及装置
CN110096614A (zh) * 2019-04-12 2019-08-06 腾讯科技(深圳)有限公司 信息推荐方法及装置、电子设备
CN110135952A (zh) * 2019-05-16 2019-08-16 深圳市梦网百科信息技术有限公司 一种基于品类相似度的商品推荐方法和系统
CN110175264A (zh) * 2019-04-23 2019-08-27 深圳市傲天科技股份有限公司 视频用户画像的构建方法、服务器及计算机可读存储介质
CN110309405A (zh) * 2018-03-08 2019-10-08 腾讯科技(深圳)有限公司 一种项目推荐方法、装置及存储介质
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678672A (zh) * 2013-12-25 2014-03-26 北京中兴通软件科技股份有限公司 一种信息推荐方法
WO2017181612A1 (zh) * 2016-04-18 2017-10-26 乐视控股(北京)有限公司 个性化视频推荐方法及装置
CN108090162A (zh) * 2017-12-13 2018-05-29 北京百度网讯科技有限公司 基于人工智能的信息推送方法和装置
CN110309405A (zh) * 2018-03-08 2019-10-08 腾讯科技(深圳)有限公司 一种项目推荐方法、装置及存储介质
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems
CN109857935A (zh) * 2019-01-24 2019-06-07 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN110008376A (zh) * 2019-03-22 2019-07-12 广州新视展投资咨询有限公司 用户画像向量生成方法及装置
CN110096614A (zh) * 2019-04-12 2019-08-06 腾讯科技(深圳)有限公司 信息推荐方法及装置、电子设备
CN110175264A (zh) * 2019-04-23 2019-08-27 深圳市傲天科技股份有限公司 视频用户画像的构建方法、服务器及计算机可读存储介质
CN110135952A (zh) * 2019-05-16 2019-08-16 深圳市梦网百科信息技术有限公司 一种基于品类相似度的商品推荐方法和系统

Also Published As

Publication number Publication date
CN111047360B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN104573054B (zh) 一种信息推送方法和设备
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
CN101840410B (zh) 学习装置和方法、信息处理装置和方法以及程序
WO2017071251A1 (zh) 信息推送方法和装置
US20120323725A1 (en) Systems and methods for supplementing content-based attributes with collaborative rating attributes for recommending or filtering items
US8472728B1 (en) System and method for identifying and characterizing content within electronic files using example sets
CN103248705B (zh) 服务器、客户端及视频处理方法
CN104182449A (zh) 基于用户兴趣建模的个性化视频推荐系统和方法
CN108446964B (zh) 一种基于移动流量dpi数据的用户推荐方法
CN106227786A (zh) 用于推送信息的方法和装置
CN104246748A (zh) 用于确定情境的系统和方法
CN108230007A (zh) 一种用户意图的识别方法、装置、电子设备及存储介质
CN110598120A (zh) 基于行为数据的理财推荐方法及装置、设备
CN112052387A (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN113806588A (zh) 搜索视频的方法和装置
Tous et al. Automated curation of brand-related social media images with deep learning
CN111310025B (zh) 模型训练方法、数据处理方法、装置以及相关设备
CN112528164A (zh) 一种用户协同过滤召回方法及装置
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN111047360B (zh) 一种基于视觉画像的数据处理方法及系统
CN107256251B (zh) 一种应用软件搜索方法、装置及服务器
CN115640454A (zh) 一种产品推荐方法、系统、电子设备及存储介质
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
CN112258285A (zh) 一种内容推荐方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant