CN116051192A - 处理数据的方法和装置 - Google Patents

处理数据的方法和装置 Download PDF

Info

Publication number
CN116051192A
CN116051192A CN202111260131.XA CN202111260131A CN116051192A CN 116051192 A CN116051192 A CN 116051192A CN 202111260131 A CN202111260131 A CN 202111260131A CN 116051192 A CN116051192 A CN 116051192A
Authority
CN
China
Prior art keywords
data
recommendation
recommended
representative
recommendation data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111260131.XA
Other languages
English (en)
Inventor
李亦程
郑灿
陈朋瑶
王雪彬
谢振宇
严荣
牛文昊
鲁京墨
齐行君
徐雯倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111260131.XA priority Critical patent/CN116051192A/zh
Publication of CN116051192A publication Critical patent/CN116051192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种处理数据的方法及装置、终端设备、计算机可读存储介质以及计算机程序产品。本公开的各个方面,改进了推荐数据在数据链路中的聚合环节,并结合了智能生成推荐数据的分类标签,生成了低重复度的、多维度的待展示信息,解决了现有的处理推荐数据的方案中的展示的信息重复度高、指标单一的技术问题。

Description

处理数据的方法和装置
技术领域
本公开涉及互联网技术领域以及多媒体技术领域,并且更具体地,涉及一种处理数据的方法及装置、终端设备、计算机可读存储介质以及计算机程序产品。
背景技术
随着互联网的发展,数据量日益增长,用户在各类应用上看到推荐信息(例如,广告)的可能性越来越大,同时广告主也需要从各种广告创意/广告模板中找到适配自己产品的广告。
然而,各类应用中展示的信息中存在大量的重复数据。例如,针对广告主在广告创意搜索平台上查找适配自己产品的广告创意的场景,由于广告主在投放广告的过程中,存在不同程度的复制行为,如直接复制广告、广告元素中少量内容变化等,直接抓取广告的投放信息的广告创意搜索平台上往往会展示大量重复或相似度极高的广告创意。又例如,针对向用户推送广告的场景,由于展示广告信息的应用往往根据单一指标(例如曝光量)来向用户展示广告,因此用户也往往会被多次推送相似度极高的广告,导致用户体验不高。
因此,需要对现有的处理推荐数据的方案进行改进,以解决现有的各类应用中展示的信息重复度高、指标单一的问题。
发明内容
为了解决上述问题,本公开提供了一种处理数据的方法及装置、终端设备、计算机可读存储介质以及计算机程序产品。
根据本公开实施例的一个方面,提供了一种处理数据的方法,包括:将推荐数据集中的多个推荐数据按照推荐数据间的相似度进行聚合,以生成多个推荐数据特征标识符,其中每个推荐数据特征标识符用于标识彼此之间相似度高于阈值的多个推荐数据;基于每个推荐数据特征标识符对应的多个推荐数据的日志信息,从所述多个推荐数据中选择所述推荐数据特征标识符对应的代表推荐数据,以生成代表推荐数据集,所述代表推荐数据集包括全部或部分推荐数据特征标识符对应的代表推荐数据;基于所述代表推荐数据集中的每个代表推荐数据的推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签,所述分类标签为业务标签树中的叶子节点对应的业务标签,所述业务标签树包括以业务标签标识的多个父节点和多个叶子节点,并且所述多个父节点和多个叶子节点具有树形层级关系;以及基于各个代表推荐数据对应的多个分类标签,生成待展示信息。
根据本公开实施例的一个方面,提供了一种终端设备,所述终端设备包括一个或多个处理器、一个或多个存储器、显示屏幕、发送器、接收器,其中,所述发送器被配置为发送推荐数据查询请求,所述推荐数据查询请求中包括用于查找推荐数据的标签信息,所述标签信息包括至少一个业务标签;所述接收器被配置为接收待展示信息,所述待展示信息包括与所述标签信息对应的多个代表推荐数据的信息;所述处理器被配置为处理所述待展示信息,并渲染显示界面;所述显示屏幕被配置为显示所述显示界面,所述显示界面显示所述标签信息对应的多个代表推荐数据的图片,所述多个代表推荐数据互不相似。
根据本公开实施例的一个方面,提供了一种处理推荐数据的装置,包括:一个或多个处理器;以及一个或多个存储器,其中所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行如上述的方法。
根据本公开实施例的另一方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如本公开上述各个方面中任一项所述的方法。
根据本公开实施例的另一方面,提供了一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如本公开上述各个方面中任一项所述的方法。
本公开上述各个方面,改进了推荐数据在数据链路中的聚合环节,并结合了智能生成推荐数据的分类标签,生成了低重复度的、多维度的待展示信息,解决了现有的处理推荐数据的方案中的展示的信息重复度高、指标单一的技术问题。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开实施例的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出了根据本公开实施例的应用场景的示意图。
图2示出了一种传统的广告创意展示的示例界面。
图3示出了根据本公开实施例的处理数据的方法的流程图。
图4示出了根据本公开实施例的处理数据的方法的示意图。
图5示出了根据本公开实施例的生成推荐数据特征标识符的方案的示意图。
图6示出了根据本公开实施例的选择代表推荐数据的方案的示意图。
图7示出了根据本公开实施例的生成代表推荐数据的推荐数据表示向量的方案的示意图。
图8示出了根据本公开实施例的业务标签树的示意图。
图9示出了根据本公开实施例的终端展示界面的示意图。
图10示出了根据本公开实施例的终端展示界面的又一示意图。
图11示出了根据本公开实施例的示例性计算设备的架构的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的实施例可以是基于人工智能(Artificial intelligence,AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如,对于本公开的实施例而言,其能够以类似于人类判断在海量的推荐数据(例如广告数据)中筛掉重复度高的推荐数据并判断推荐数据的分类标签。人工智能通过研究各种智能机器的设计原理与实现方法,使本公开实施例具有理解用户行为,并推理和处理用户喜好的功能。人工智能技术涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、自然语言处理和机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
此外本公开的实施例还涉及云计算技术。云计算(cloud computing)是一种计算模式,它将计算任务分布(例如,计算多种方案中的每种方案的用户偏好)在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
本公开提供了一种处理数据的方法及装置、终端设备、计算机可读存储介质以及计算机程序产品,其改进了推荐数据在数据链路中的聚合环节,并结合了智能生成推荐数据的分类标签,生成了低重复度的、多维度的待展示信息,解决了现有的处理推荐数据的方案中的展示的信息重复度高、指标单一的技术问题。
首先参照图1描述根据本公开实施例的处理数据的方法以及相应的装置等的应用场景。图1示出了根据本公开实施例的应用场景100的示意图,其中示意性地示出了服务器110和多个终端120。
根据本公开实施例的处理数据的方法以及相应的装置等可以搭载在服务器110上,以确定待展示信息。这里的服务器110可以是用于确定待展示的广告的独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、定位服务以及大数据和人工智能平台等基础云计算服务的云服务器,本公开实施例对此不作具体限制。多个终端120中的每个终端可以是诸如台式计算机等的固定终端,诸如智能手机、平板电脑、便携式计算机、手持设备、个人数字助理、智能可穿戴设备、车载终端等具有网络功能的移动终端,或者它们的任意组合,本公开实施例对此不作具体限制。
可选地,图1中的多个终端120中的一个或多个可以作为发出用户访问请求的终端。该终端可以被普通用户使用,也可以被广告主使用。广告主(advertisers)通常是通过广告投放平台来辅助自身投放其推出的产品相关的广告,从而达到通过曝光大量的广告来吸引用户关注相应产品的目的。
针对向广告主推送广告或广告创意的场景,用户访问请求可以是一种推荐数据查询请求,其指示广告主查询与其想推广的产品相关的广告创意。服务器110响应于该页面访问请求将向终端120反馈广告主请求的页面。该页面上通常包括一个或多个广告和/或广告创意。针对向用户推送广告的场景,用户访问请求可以是一种页面访问(page view,PV)请求,其指示用户对某个页面的一次访问。服务器110响应于该页面访问请求将向终端120反馈用户请求的页面。该页面上通常包括一个或多个广告位,用于展示广告。
例如,推荐信息(例如广告)可以是以图片、文字、视频或者其任意组合的方式的信息,其用于展示与产品相关的信息。作为一个示例,广告可以是某个视频开头、中间和结尾的贴片广告。贴片广告包括多种形式。通常视频开头的贴片广告被称为前贴片广告,一般90s,每15s一个广告,每个广告是一个贴片。又例如,假设用户访问请求指示请求打开某个软件应用(APP),广告位则可以是闪屏广告,其为APP打开时出现的广告。本公开的实施例并不限制广告的形式。
例如,推荐创意信息(例如广告创意)可以是以图片、文字、视频或者其任意组合的方式的信息,其用于体现广告主推广产品的广告构思。作为一个示例,广告创意可以是一种用于生成广告的模板,广告主将其推广的产品信息填入该广告创意,便能基于该广告创意生成与该产品对应的推荐数据。
以下针对向广告主推送广告创意的场景,详细描述以广告主在利用终端120浏览广告创意时,终端120上可能展示的信息。具体地,参见图2,其示出了一种传统的广告创意展示的示例界面,其展示了针对职业教育产品的广告创意排行榜作为推荐创意数据排行榜的一个示例。
传统的推荐创意数据排行榜(例如,广告创意排行榜)方案通常是利用推荐数据对应的推荐数据标识符(或者推荐创意数据标识符)为查询主键来构建推荐创意数据排行榜展示所使用的数据链路。推荐数据标识符的一个示例是广告标识符,推荐创意数据标识符的一个示例是广告创意标识符。以下以广告数据/广告创意数据作为推荐数据的一个示例进行描述,本领域技术人员应当理解本公开并不以此为限。
例如,服务器110首先基于推荐数据标识符或推荐创意数据标识符对广告投放日志数据进行清洗、提取和聚合,获取投放效果较好的推荐数据标识符列表或推荐创意数据标识符列表。然后再通过推荐数据标识符或推荐创意数据标识符来关联推荐数据库,获取推荐数据标识符或推荐创意数据标识符对应的标题(例如,图2所示的“成为一辈子的遗憾,XX教育打卡第一天”、“同学同学别走呀”、“我身边有很多朋友”)、视频数据、图片数据(例如,图2所示的黑色背景图片、斜线背景图片和竖直线背景图片、白色背景图片)等等基础数据,最后完成(广告创意)排行榜的数据链路建设与界面查询、展示。
虽然传统的(广告创意)排行榜方案设计简单易懂,但是正如图2所示,其展示的广告创意和广告存在大量的重复。例如,相同/相似背景图片广告创意和广告的重复度较高。
这是因为广告主在投放广告的过程中,存在不同程度的复制行为,如直接复制广告、广告元素中少量内容变化等,而复制行为会导致推荐数据标识符/推荐创意数据标识符的新建,不同的推荐数据标识符/推荐创意数据标识符可能对应相似的数据。因此利用推荐数据标识符/推荐创意数据标识符为查询主键来建立(广告创意)排行榜的方式存在着以下劣势:①无法识别相似广告/广告创意,导致(广告创意)排行榜可能会大量的重复推荐/重复推送;②数据聚合链路中只从基础推荐数据源中关联基础数据,最后也简单呈现广告/广告创意。
为此,本公开对当前的推荐数据在数据链路中的聚合环节进行了进一步的改进,并结合了智能生成推荐数据的分类标签,生成了低重复度的、多维度的待展示信息,解决了现有的处理推荐数据的方案中的展示的信息重复度高、指标单一的技术问题。
下面参照图3至图10描述根据本公开实施例的推荐数据处理数据的方法。其中,图3示出了根据本公开实施例的推荐数据处理数据的方法300的流程图。图4示出了根据本公开实施例的推荐数据处理数据的方法300的示意图。
参见图4,根据本公开实施例的推荐数据处理数据的方法300相比于传统的推荐数据处理数据的方法涉及到了更多的数据源。例如,这些数据源包括以下各项中的一项或多项:①日志数据源,其包括广告在投放后的曝光、点击、转化、播放等日志数据;②推荐数据特征标识符集,其包括根据方法300生成的多个推荐数据特征标识符;③分类标签数据源,其包括根据业务标签树而对应产生的多个分类标签;④业务数据源,其包括各个分类标签关联的数据;⑤基础推荐数据源,其例如包括图片数据和视频数据;⑥行业细节数据源,其包括广告创意涉及的细分行业相关的数据;⑦排行榜数据源,其包括与上述的(广告创意)排行榜相关的数据;⑧排行榜细节数据源,其包括与上述的(广告创意)排行榜相关的更细节的数据;等等。本公开对方法300所涉及的数据链路上可能涉及数据源并不进行限制。
如图3所示,根据本公开实施例的推荐数据处理数据的方法300示例性地包括步骤S310至步骤S340,本公开并不以此为限。方法300中的全部或部分步骤可以在服务器110在线时实时执行,以在尽量短的时间响应用户访问请求。方法300中的部分步骤(例如计算推荐数据表示向量步骤)也可以在服务器离线时执行,以避免占用过多的网络带宽。本公开对此不进行限制。
首先,参见图3,在步骤S310中,将推荐数据集中的多个推荐数据按照推荐数据间的相似度进行聚合,以生成多个推荐数据特征标识符。例如,每个推荐数据特征标识符对应于相似的多个推荐数据,也即每个推荐数据特征标识符用于标识彼此之间相似度高于阈值的多个推荐数据。
例如,推荐数据特征标识符又可以被称为“广告指纹”,具有相同的推荐数据特征标识符的推荐数据相似。作为一个示例,每个推荐数据特征标识符可以用于标识彼此之间相似度高于阈值的多个推荐数据。由此,步骤S310可以被简称为广告指纹计算步骤。
例如,推荐数据间的相似度可以通过多种方式进行计算。例如,如图2所示,具有相似标题或文本信息的推荐数据的相似度较高,因此可以基于推荐数据的标题或文本信息计算推荐数据间的相似度。例如,如果标题文字完全相同则相似度为1,存在一个不同的文字的标题的相似度为0.9,完全不同的标题的相似度为0等等。又例如,具有相似背景图片的推荐数据的相似度较高,因此可以基于推荐数据的背景图片来计算推荐数据之间的相似度。例如可以通过统计各个背景图片中每个像素之间的差异来计算推荐数据之间的相似度。本公开不对相似度的计算方案进行限制。
例如,在一些示例中,上述的阈值可以是预设固定值,例如可以将相似度高于0.9的两个推荐数据判定为相似。例如,在另一些示例中,上述的阈值可以是动态设定的阈值。例如在下述的K均值聚类的方式中,只要得到了紧凑且独立的簇既可以认定簇内的推荐数据相似度高于阈值。在该示例中,不同簇内的两个推荐数据的最低相似度可能不同。也即不同簇的阈值是根据算法动态设定的,其可能相同也可能不同。本公开不对阈值的设定进行限制。
又例如,步骤S310还可以通过K均值聚类的方案来聚合相似的多个推荐数据。K均值聚类是很典型的基于距离的聚类算法,采用推荐数据间的相似度作为评价指标,即认为两个推荐数据的相似度越大,其属于同一个簇的可能性就越大。K均值聚类把得到紧凑且独立的簇作为最终目标。K均值聚类的工作原理是,输入聚类个数k,以及包含n个数据对象的数据库,最终会输出满足方差最小标准的k个聚类。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。具体处理过程如下:首先从n个推荐数据任意选择k个推荐数据作为初始聚类中心;而对于所剩下其它推荐数据,则根据它们与这些聚类中心的相似度,分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有推荐数据的均值);不断重复这一过程直到标准测度函数开始收敛为止。例如,可以采用均方差作为标准测度函数。当然本公开还可以采用其他的聚类方案,本公开并不以此为限。
例如,推荐数据特征标识符的计算可以至少部分地基于上述提及的各种数据源。例如,还可以利用神经网络模型来对上述的各种数据源中的数据进行处理以计算确定各个推荐数据的推荐数据特征标识符。随着机器学习的发展,可以使用各种神经网络模型来完成推荐数据特征标识符的计算,例如可以采用深度神经网络(DNN)模型、因子分解机(FM)模型等等。这些神经网络模型可以被实现为无环图,其中神经元布置在不同的层中。通常,神经网络模型包括输入层和输出层,输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点,并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式,本公开对此不作限制。作为一个示例,推荐数据特征标识符可以为上述神经网络模型的输出。当然,也可以不利用神经网络模型来计算上述的推荐数据特征标识符。
又例如,针对包括图片数据或视频数据的推荐数据,步骤S310还可以包括:基于所述推荐数据集中的各个推荐数据对应的图像数据,计算各个推荐数据对应的推荐数据特征标识符,以使得具有相同的推荐数据特征标识符的推荐数据相似。其中,所述推荐数据集中的各个推荐数据对应的图像数据包括以下各项中的至少一项:所述各个推荐数据的图片数据、所述各个推荐数据的视频数据的关键帧对应的图片数据、或所述各个推荐数据的视频数据的封面图片数据。
作为一个示例,针对包括图片数据或视频数据的推荐数据,可以采用各种图片相似度算法来计算各个推荐数据对应的推荐数据特征标识符。在该示例中,如果两个推荐数据均对应相同的推荐数据特征标识符,则说明二者的相似度高于阈值。
例如,图片相似度算法例如是aHash、dHash和pHash中的一种或多种。其中,aHash又叫平均哈希算法,其在计算推荐数据特征标识符的过程中将用到像素均值。aHash算法包括以下步骤:尺寸缩减、灰度化处理、像素均值计算、哈希值计算、相似度计算等。dHash又叫差异哈希算法,在计算推荐数据特征标识符的过程中,通过左右两个像素大小的比较,得到推荐数据特征标识符。dHash算法包括以下步骤:尺寸缩减、灰度化处理、像素差异值计算、相似度计算等。pHash又称为感知哈希算法,其利用了离散余弦变换(DCT)得到了推荐数据特征标识符。例如,如果两个推荐数据利用上述的图片相似度算法得到了相同的推荐数据特征标识符,即可以认定二者的相似度为1,反之则可以认定二者的相似度为0。在这样的情况下,上述的阈值可以是大于零小于1的任意值。本公开对此不进行限制。
例如,参考图5来进一步说明利用pHash来计算推荐数据特征标识符的方案。图5以推荐创意数据标识符来标识推荐数据为例来进行说明,本领域技术人员应当理解本公开并不以此为限。
如图5所示,作为示例,结合图4,服务器110可以从基础推荐数据源中查找到推荐数据对应的图像数据。例如,广告的图像数据可以包括广告的图片数据。其中,图片数据可以是图片的URL链接,其指向任意格式的图片的网络存储地址;图片数据还可以是图片本身(例如.jpeg或.png格式的图片),其可以是海报、展示图片等等。例如,广告的图像数据还可以包括视频数据的关键帧对应的图片数据。视频数据的关键帧对应的图片数据是指用于表示视频的关键状态的帧对应的图片。例如,在Flash动画格式的视频数据中,为表现运动或图像变化,至少前后要给出两个不同的关键状态,而中间状态的变化和衔接状态可以自动完成。其中,前后两个不同的关键状态对应的帧图像都可以作为视频数据的关键帧对应的图片数据。例如,广告的图像数据还可以包括视频数据的封面图片数据。封面图片数据可以是能够代表该视频数据的内容的任意图片的数据。例如,其可以是视频数据中任意视频帧。视频帧是指影像动画中最小单位的单幅影像画面。其中,一帧的视频帧就是一副静止的画面,连续的帧就形成动画,如FLASH动画或MOV动画等。此外,封面图片数据还可以是根据视频数据利用神经网络智能生成的图片,其为视频数据中的各个视频帧的组合。本公开对此不进行限制。
在从基础推荐数据源中查找到推荐数据对应的图像数据的情况下,步骤S310还可选地包括:将所述各个推荐数据对应的图像数据从像素域转换到频率域,以获取所述各个推荐数据对应的频域图像数据;基于所述各个推荐数据对应的频域图像数据,计算低频区域的频域图像数据的均值;以及基于所述低频区域的频域图像数据的均值,计算所述低频区域的频域图像数据对应的二值化序列,并将所述二值化序列作为所述推荐数据特征标识符。
如图5所示,在将所述各个推荐数据对应的图像数据从像素域转换到频率域之前,为进一步减少服务器的计算量,可以将图像数据的尺寸进行缩减。例如,可以将上述的各种图片数据将原始图片转换为32*32维图片。然后将该32*32维图片中的色彩信息进行简化,仅保留图片中的灰度信息。由此,32*32维图片中的每个像素可以用最小值为0最大值为255的整数进行表示。由此,服务器的计算复杂度可以被进一步降低。
然后,服务器可以利用DCT变换将所述各个推荐数据对应的图像数据从像素域转换到频率域,以获取所述各个推荐数据对应的频域图像数据。DCT变换是一种特殊的傅立叶变换,其能够将图片从像素域变换为频率域以形成一个DCT矩阵。DCT矩阵从左上角到右下角代表越来越高频率的系数,也即DCT矩阵中越靠近左上角的值表示低频系数,越靠近右下角的值表示高频系数,越高频的系数表示图片数据中越细节的部分。为进一步降低服务器的计算复杂度,可以仅保留左上角8*8的矩阵作为上述各个推荐数据对应的频域图像数据。左上角8*8的矩阵为上述的低频区域的频域图像数据的一个示例。本公开并不以此为限。
接着,服务器可以通过计算左上角8*8的矩阵中64个值的均值作为所述低频区域的频域图像数据的均值。然后,服务器可以遍历左上角8*8的矩阵中64个值,将大于等于所述低频区域的频域图像数据的均值的值取1,小于所述低频区域的频域图像数据的均值的值取0,以形成64位的二值化序列。这64个比特即为推荐数据特征标识符(广告指纹)。
本领域技术人员应当理解图5仅示出得到推荐数据标识符(或推荐创意数据标识符)和推荐数据特征标识符的映射关系的一种示例,本公开并不以此为限。
接着,在步骤S320中,基于每个推荐数据特征标识符对应的多个推荐数据的日志信息,从所述多个推荐数据中选择所述推荐数据特征标识符对应的代表推荐数据,以生成代表推荐数据集,所述代表推荐数据集包括全部或部分推荐数据特征标识符对应的代表推荐数据。
通过步骤S310,服务器已经知晓推荐数据特征标识符将对应多个推荐数据标识符,而这些推荐数据标识符都对应于相似的广告创意/广告。因此,可以根据上述的日志数据源来对这些推荐数据标识符进行进一步的筛选,以选择出能够代表这些广告/广告创意的代表推荐数据。
以图6为例来进一步说明选择代表推荐数据的方案。如图6所示,示例性地,推荐数据特征标识符1可以对应于N个推荐创意数据标识符。作为一个示例,利用pHASH算法计算这N个推荐创意数据标识符对应的推荐数据,均能够得到相同的64位的二值化序列。接着,结合图4,服务器110可以从日志数据源中查找到这N个推荐创意数据标识符对应的推荐数据的日志信息。例如,所述每个推荐数据特征标识符对应的多个推荐数据的日志信息包括以下各项中的至少一项或多项:曝光量、点击量、转换量、播放量、完播率和推广类型。作为一个示例,图6中选择了曝光量最高的广告创意作为代表推荐数据。本公开并不以此为限。
接着,如图6所示,服务器可以以推荐数据特征标识符为主键,将推荐数据特征标识符、推荐创意数据标识符以及日志信息进行合并(例如利用SQL数据库的Join指令),以生成排行表原始数据表。利用所述推荐数据特征标识符作为查询主键,根据所述排行表原始数据表,可以获取到该推荐数据特征标识符对应的多项信息,例如,行业标识符、细分行业标识标识符、推荐创意数据标识符、有效曝光量、有效点击量、转换量、播放量、完播率和推广类型等中的一项或多项。本公开并不以此为限。
又例如,通过图6所示的步骤,已经能够得到264个推荐数据特征标识符以及这些推荐数据特征标识符对应的代表推荐数据。作为一个示例,可以将这264个推荐数据特征标识符对应的代表推荐数据全部添加至代表推荐数据集。
作为另一示例,可以根据业务的需求,仅将这264个推荐数据特征标识符对应的代表推荐数据部分添加至代表推荐数据集。例如,可以基于各个推荐数据特征标识符对应的代表推荐数据的日志信息,对各个代表推荐数据进行排序;以及基于排序后的各个代表推荐数据,生成所述代表推荐数据集,所述代表推荐数据集包括全部或部分推荐数据特征标识符对应的代表推荐数据。例如,根据上述的排行表原始数据表,可以仅选择每个二级行业下过去7/15/30天内点击率排名占前25%的代表推荐数据作为代表推荐数据集。本公开并不以此为限。
接着,在步骤S330中,基于所述代表推荐数据集中的每个代表推荐数据的推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签,所述分类标签为业务标签树中的叶子节点对应的业务标签,所述业务标签树包括以业务标签标识的多个父节点和多个叶子节点,并且所述多个父节点和多个叶子节点具有树形层级关系。
例如,上述的排行表原始数据表已经涵盖了推荐数据特征标识符的曝光量、点击量、转化量、播放量、完播率、推广类型等日志数据源中涵盖的数据。可选地,结合图4,还可以进一步地利用业务数据源中的业务信息来确定各个代表推荐数据的推荐数据表示向量,并进一步确定所述代表推荐数据对应的多个分类标签。也即,步骤S330中,可以获取所述代表推荐数据对应的业务信息,所述业务信息包括以下各项中的至少一项:图片数据链接、图片数据标识符、图片数据格式、图片数据尺寸、图片数据生成方式、视频数据链接、视频数据标识符、视频数据格式、视频数据尺寸、视频数据生成方式、视频数据时长、推荐数据标题、推荐数据审核状态等等。可选地,在获取所述代表推荐数据对应的业务信息的过程中,还可以进一步考虑到实际的广告模型和不同流量上的数据分布,本公开并不以此为限。
例如,结合图4,图片表可以存储图片数据格式、图片数据尺寸、图片数据生成方式等信息;视频表可以存储视频数据标识符、视频数据格式、视频数据尺寸、视频数据生成方式、视频数据时长等信息;创意表可以存储推荐数据标题、推荐数据审核状态等信息;创意素材关联表可以存储广告创意与其使用的各种素材之间的关联等信息;例如,素材表可以存储广告创意使用的素材的信息,例如广告模板等等。本公开对此不进行限制。
接着,基于所述代表推荐数据对应的日志信息和业务信息,确定所述代表推荐数据的推荐数据表示向量,并基于所述推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签。
以图7为例来进一步说明生成代表推荐数据的推荐数据表示向量的方案。例如,可以根据来自上述的日志数据源、基础推荐数据源和/或业务数据源中的各种数据(例如,视频数据、音频数据、文本数据、图片数据中的一项或多项)来生成推荐数据表示向量。文本数据包括上述日志数据和/或业务数据以数值或文本表示的各项数据,例如:曝光量、点击量、转化量、播放量、完播率、推广类型、图片数据链接、图片数据标识符、图片数据格式、图片数据尺寸、图片数据生成方式、视频数据链接、视频数据标识符、视频数据格式、视频数据尺寸、视频数据生成方式、视频数据时长、推荐数据标题、推荐数据审核状态等等。
推荐数据表示向量可以是一种多模态深度表示向量。其中,模态(modality)可以指示信息的来源或者形式。例如,对于代表推荐数据而言,该代表推荐数据的视频信息、音频信息、文本信息、图片信息等都可以被称为一种模态。不同的模态具有不同的统计特性,蕴含着不同的信息。例如,画面信息通常表示为像素的数值,而文字信息通常表示为离散的词句。因此,为了更好的表征代表推荐数据的特征,服务器可以分别从代表推荐数据的画面信息、音频信息、文字信息中提取不同的特征信息,并将这些特征信息进行融合(fusion)和关联分析。
作为一个示例,上述的视频数据、音频数据、文本数据、图片数据可能是互补且冗余的。服务器可以采用各种方式来将该代表推荐数据的特征信息进行进一步的处理,以得到能够表征该代表推荐数据的推荐数据表示向量(例如,该代表推荐数据的多模态深度表示向量)。通常,将多个模态的数据所蕴含的特征信息数值化为实值向量的过程被称为多模态表示。
多模态表示可以包括多模态融合表示和多模态深度表示。其中,将不同模态的特征整合成(例如简单拼接)单个向量的过程可以被称为多模态融合表示,整合而成的单个向量可以被称为多模态融合表示向量。对多模态融合表示向量进行进一步分析而获得的向量可以被称为多模态深度表示向量。例如,可以利用神经网络模型将多模态融合表示向量进一步抽象为更高层次的向量,该特征向量也被称为多模态深度表示向量。多模态深度表示向量可以是多维浮点数向量,如128位浮点型向量,本公开对多模态深度表示向量的具体表征方式并不做限制。
例如,参考图7,在获取到所述代表推荐数据对应的视频数据、音频数据、文本数据、图片数据中的一项或多项之后,便可以基于所述视频数据、音频数据、文本数据、图片数据中的一项或多项,分别确定所述代表推荐数据对应的视频特征、音频特征、文本特征、图片特征中的一项或多项;以及基于所述视频特征、音频特征、文本特征、图片特征中的一项或多项,确定所述代表推荐数据的推荐数据表示向量,并基于所述推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签。
例如,可以利用神经网络模型来确定所述代表推荐数据对应的视频特征。作为一个示例,该神经网络模型可以是inception模型。Inception深度神经网络模型是卷积神经网络图片分类模型。服务器利用在图像网络(ImageNet)数据集上预训练好的Inception模型参数,给定输入图像(例如,视频数据的关键帧对应的图片数据、或所述各个推荐数据的视频数据的封面图片数据),获得对应图像的深度神经网络特征,该特征根据网络中的参数以及其中的卷积和非线性激活函数等最后的视频特征输出。可以理解的是,在实际应用中除了可以使用Inception模型以外,还可以使用其他类型的深度神经网络模型,比如残差网络(Residual Networks,ResNets)、Inception-V3/V4深度神经网络模型或者双通道网络结构(Dual Path Network,DPN),此处仅为一个示意,本公开并不以此为限。
上述的音频数据是指以各种形式被捕捉的声音并将其转换为以数字文件形式存储的声音数据。例如,可以利用神经网络模型来确定所述代表推荐数据对应的音频特征。作为一个示例,该神经网络模型可以是VGGish模型或FRANK模型。VGGish模型是基于VGG(Visual Geometry Group,视觉几何组)卷积神经网络的音频信号分类模型。可选地,VGGish模型的模型参数可以根据AudioSet数据集(一种公用的数据集)进行预训练。与图像特征提取同理,对于T帧的音频信号进行特征提取后,可以得到每帧音频信号的音频特征,然后将各帧音频信号的音频特征进行组合即可得到上述的音频特征。可选地,通过FBANK模型提取出的音频特征数据又称为FBANK语音特征数据。FBANK模型可以以类似于人耳对其听到的声音进行处理的方式来提取音频特征。FBANK模型通过对已分帧的语音数据进行傅里叶变换、能量谱计算和Mel滤波等操作,可以获取能够表征每一帧语音数据的数组(也被称为FBank特征向量)。该数组即为FBANK音频特征数据。此处仅为一个示例,本公开并不以此为限。
例如,可以利用神经网络模型来确定所述代表推荐数据对应的文本特征。作为一个示例,该神经网络模型可以是bert模型、Text CNN模型或Transformer模型。其中,Bert模型又称为双向编码器表示(Bert,Bidirectional Encoder Representations fromTransformers)模型。Bert由多层双向的Transformer连接而成,一般可以是12层或者24层等。Bert可以是通过预训练加微调得到的,Bert模型的训练过程可以充分利用上下文的信息,使模型具有更强的表达能力。在完成对模型的预训练后,还可以针对特定的任务对模型进行微调。微调(fine-tune)是深度学习领域中常用的迁移学习技术,通过微调可以使模型更好地适用于特定场景下的语言知识。可选的,若该时序模型为Bert,文本数据可以通过开源的Bert接口,获得Bert的向量化表示。Text CNN模型又称为文本卷积神经网络模型。文本卷积神经网络模型可以将文本数据中的各个词向量通过卷积层和池化层转化为一个固定维度的文本特征(向量)。Transformer模型则采用自注意力模型和前馈神经网络来将文本数据中的各个词向量转换成文本特征(向量)。此处仅为一个示例,本公开并不以此为限。
作为一个示例,图片特征可以使用上述的推荐数据特征标识符来表示。接着,作为一个示例可以使用nextvlad模型(局部聚合描述符向量,NextVector of LocalAggregated Descriptors)来进行多模态融合,最终构建上述的推荐数据表示向量。nextvlad,是一种聚类的特征聚合方法,可以把多种特征向量聚合成一个推荐数据表示向量。nextvlad的主要是把所述视频特征、音频特征、文本特征、图片特征中的一项或多项进行聚类,用每个特征到聚类中心的距离来表示某个代表推荐数据的推荐数据表示向量,其中,聚类中心是通过对下述的推荐数据分类模型不断训练得到的最优值。
推荐数据分类模型可以是以代表推荐数据的推荐数据表示向量作为输入,以预测分类标签作为输出的神经网络模型。可选地,推荐数据分类模型的训练包括获取人工标记的一个或多个推荐数据的分类标签;利用一个或多个推荐数据和分类标签训练推荐数据分类模型。可选地,分类标签可以包括大于400个标签。作为一个示例,这些分类标签可以作为图8所示业务标签树中的叶子节点对应的业务标签。由此,推荐数据分类模型可以基于所述推荐数据表示向量与所述业务标签树中的多个叶子节点的业务标签相匹配的概率,确定所述代表推荐数据对应的多个分类标签。
例如,业务标签树是一种抽象数据类型(ADT)或是实现这种抽象数据类型的数据结构,用来模拟具有树状结构性质的业务标签集合。业务标签树是由n(n>0)个有限节点组成一个具有层次关系的集合。参考图8,业务标签树看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。业务标签树具有以下的特点:①每个节点都只有有限个子节点或无子节点;②没有父节点的节点称为根节点;③每一个非根节点有且只有一个父节点;④除了根节点外,每个子节点可以分为多个不相交的子树;⑤业务标签树里没有环路(cycle)。
继续参考图8,所述业务标签树包括以业务标签标识的多个父节点和多个叶子节点,并且所述多个父节点和多个叶子节点具有树形层级关系。所述业务标签树的二级节点包括拍摄方式业务标签、营销卖点业务标签和视频场景业务标签中的至少一项。例如,视频场景指示在推荐数据中包括视频的情况下播放该视频的设备,其包括电脑屏幕、人行道广告牌、手机屏幕等等。视频场景的子节点包括呈现形式、呈现风格、叙事风格等等。例如,呈现形式的子节点包括情景剧、BGM、游戏界面、红包、游戏原生、推广页等等。例如,呈现风格的子节点包括悬疑、中景、特写、现代、轻快、激动等等。例如,叙事风格的子节点包括背景交代、疑问悬念、附加赠礼、产品展示、金币/红包奖励、服务优势、品牌抢话、行动指引等等。作为一个示例,呈现形式、呈现风格和叙事风格的子节点均可以作为叶子节点。例如,如图8所示,业务标签树将所有业务标签根据业务特点分类,而无需对每类标签单独设计标签存储结构。所述业务标签树的深度不限并且容易扩展。本公开对此不进行限制。
在步骤S340中,基于各个代表推荐数据对应的多个分类标签,生成待展示信息。
例如,针对向广告主推送广告创意的场景,服务器可以从终端中接收推荐数据查询请求,该推荐数据查询请求中包括广告主期待投放的产品对应的标签信息。接着,服务器将基于推荐数据查询请求中的标签信息以及所述各个代表推荐数据对应的多个分类标签,生成所述待展示信息。其中,所述标签信息包括至少一个业务标签,所述待展示信息包括与所述至少一个业务标签对应的多个代表推荐数据的信息。
例如,参考图9,其示出了广告主的终端上呈现的界面,其用终端界面的形式展示了服务器生成的待展示信息。在图9中,黑底白字标识该选项被选中,白底黑字标识该选项未被选中。如图9所示,广告主提交的推荐数据查询请求中的标签信息中包括分类标签:教育标签、英语标签和行动标签等206项。这些分类标签的父节点为营销卖点。广告主提交的推荐数据查询请求中的标签信息还包括分类标签:校园、幼儿园、和高效等106项。这些分类标签的父节点为视频场景。
可选地,广告主提交的推荐数据查询请求中的标签信息可能仅包括业务标签树中的父节点的业务标签的标识符,也可以仅包括业务标签树中的叶子节点的业务标签的标识符,也可以包括业务标签树中的父节点和叶子节点的业务标签的标识符的组合。对此,步骤S340可以进一步包括:在所述至少一个业务标签是所述业务标签树中的父节点的业务标签的情况下,确定所述业务标签树中的父节点对应的叶子节点的业务标签;基于所述叶子节点的业务标签,查询其的分类标签与所述业务标签相匹配的多个代表推荐数据,以生成所述待展示信息;在所述至少一个标签对应于所述业务标签树中的叶子节点的情况下,基于所述叶子节点的业务标签,查询其的分类标签与所述业务标签相匹配的多个代表推荐数据,以生成所述待展示信息。
例如,继续参考图8,广告主提交的推荐数据查询请求可以包括营销卖点的子节点-教育业务标签(以业务标签1标识)和叶子节点的情景剧业务标签(以业务标签4标识)。作为一个示例,推荐数据查询请求中的Query表达式的伪代码可以是(业务标签1AND业务标签4)。
然而,虽然分类标签仅对应于业务标签树中的叶子节点的信息,但是根据叶子节点的信息可以反推出其父节点对应的业务标签,或者可以根据父节点中的信息可以推导出叶子节点对应的业务标签。例如,Query表达式的伪代码(业务标签1AND业务标签4)可以被转化为((业务标签2OR业务标签3)AND业务标签4)。假设图9中的灰色节点(业务标签2、业务标签3和业务标签4)为某个广告/广告创意关联的分类标签,该广告/广告创意可以通过上述的Query表达式的伪代码(业务标签1AND业务标签4)查询得到,即使该广告/广告创意对应分类标签中并不包括业务标签1。
更进一步地,参考图9,还可以基于所述多个代表推荐数据对应的业务信息和日志信息,对所述多个代表推荐数据进行聚合或排序;基于聚合或排序后的多个代表推荐数据,生成所述待展示信息。例如,在图9所示的终端界面上可以显示按照最近七天按照曝光量排序的广告/广告创意,由左至右,由上至下,广告/广告创意的曝光量逐渐降低。
此外,回到图4,为进一步地加快服务器根据推荐数据查询请求查询广告/广告创意的速度,可以采用以下方式优化上述代表推荐数据及其对应的分类标签的存储方案。经过步骤S310至步骤S330,服务器已经获取了以推荐数据特征标识符为查询主键、以数据日期为分区、以日志信息排序、具备分类标签的代表推荐数据集。代表推荐数据集可以被存储于hive数据库中。可选地,代表推荐数据集还可以根据日志信息中的受众的性别、年龄、区域、兴趣等维度进行进一步聚合,以得到排行榜数据和排行榜细节数据。这些数据可以按日进行全量更新。接着,可以通过数据同步任务将上述数据从hive数据库导出到mysql数据库DB中,作为创意排行榜服务的数据存储。对于高频使用的排行榜数据,为了缩短查询的响应时间、支持广告创意多维属性的搜索,本公开还可以将排行榜数据进行数据异构,将其每日轮询导出到ES(Elasticsearch)数据库中,以利用Elasticsearch的全文搜索能力进行广告创意的多维度搜索与查询。
由此本公开的实施例改进了推荐数据在数据链路中的聚合环节,并结合了智能生成推荐数据的分类标签,生成了低重复度的、多维度的待展示信息,解决了现有的处理推荐数据的方案中的展示的信息重复度高、指标单一的技术问题。
对应地,本公开的实施例还公开了一种终端设备,其可以与图1中的服务器进行交互,以显示如图9和图10所示的界面。所述终端设备包括一个或多个处理器、一个或多个存储器、显示屏幕、发送器、接收器,其中,所述发送器被配置为发送推荐数据查询请求,所述推荐数据查询请求中包括用于查找推荐数据的标签信息,所述标签信息包括至少一个业务标签;所述接收器被配置为接收待展示信息,所述待展示信息包括与所述标签信息对应的多个代表推荐数据的信息;所述处理器被配置为处理所述待展示信息,并渲染显示界面;所述显示屏幕被配置为显示所述显示界面,所述显示界面显示所述标签信息对应的多个代表推荐数据的图片,所述多个代表推荐数据互不相似。
可选地,正如图9所示,在所述至少一个业务标签是业务标签树中的父节点的业务标签的情况下,所述显示界面显示的多个代表推荐数据的图片与所述业务标签树中的父节点对应的叶子节点的业务标签相对应;在所述至少一个标签对应于所述业务标签树中的叶子节点的情况下,所述显示界面显示的多个代表推荐数据的图片与所述业务标签树中的叶子节点的业务标签相对应。如何使得显示界面显示上述多个代表推荐数据的图片已经进行了详细描述,本公开在此不再赘述。
可选地,为进一步保证所述多个代表推荐数据互不相似,可以采用步骤S310-S330所示的方法生成推荐数据特征标识符和分类标签。由此,所述显示界面能够显示所述标签信息对应的互不相似的多个代表推荐数据的图片。也即所述多个代表推荐数据中的每个代表推荐数据均具有与所述代表推荐数据对应的推荐数据特征标识符,且所述多个代表推荐数据中的每个代表推荐数据对应的推荐数据特征标识符互不相同。
更进一步地,所述显示界面包括筛选标签按钮,所述筛选标签按钮在被触发的情况下,所述处理器生成推荐数据查询请求,所述推荐数据查询请求包括与所述筛选标签按钮对应的标签信息。例如,不同的筛选标签按钮可以对应于不同的筛选项维度。筛选项维度既可以包括所属行业、投放版位、素材类型、视频时长、商品广告类目、推广目标等基础标签,也可以包括拍摄方式、营销卖点、视频场景等的标签组合。由此,在图9所示的(广告创意)排行榜页面上,广告主可以精细化地参考细分领域的广告创意。
如图9所示,所述显示界面包括展示画布(Canvas),所述展示画布被配置为显示所述标签信息对应的多个代表推荐数据的图片。进一步地点击代表推荐数据的图片可以显示图10所示的界面。图10所示的界面为单广告创意详情展示界面,其展示画布仅展示单个代表推荐数据的图片。图10所示的界面还包括标签展示框,其展示所述代表推荐数据对应的多个分类标签。图10所示的界面还包括详情框,其显示所述代表推荐数据对应的日志信息或业务信息。本领域技术人员应当理解图9和图10仅为示意性页面,显示界面还可以有其它的形式和布局,本公开并不以此为限。
可见,相比于传统的图2中所示的页面,不论是图9还是图10中显示的排行榜均具有推广不重复推荐数据的能力,并且支持按照标签组合进行广告创意的智能优选与分类查询。
根据本公开的另一方面,本公开还提供了一种处理推荐数据的装置(该装置例如是服务器),包括:一个或多个处理器;以及一个或多个存储器,其中所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行上述的方法。
本公开用推荐数据中的图片数据作为pHash指纹算法的输入,得到唯一广告指纹,以广告指纹作为查询主键来建立广告投放系统/广告创意筛选系统,由此,解决了传统创意排行榜中广告创意易重复的痛点。
更进一步地,本公开还基于创意的视频,音频,文本等多模态信息,提取特征进行广告创意的标签配置与标签树构建,使得创意排行榜具有依据拍摄方式、营销卖点、视频场景等标签组合分类的能力。
根据本公开的另一方面,本公开还提供了一种计算设备,其可以用作终端设备或服务器。如图11所示,计算设备1100可以包括总线1110、一个或多个CPU 1120、只读存储器(ROM)1130、随机存取存储器(RAM)1140、连接到网络的通信端口1150、输入/输出组件1160、硬盘1170等。计算设备1100中的存储设备,例如ROM 1130或硬盘1170可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1100还可以包括用户界面1180。当然,图11所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图11示出的计算设备中的一个或多个组件。
本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的推荐信息处理方法以及推荐信息排序方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
根据本公开的实施例,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序包括计算机可读指令,该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令,处理器执行该计算机可读指令,使得该计算机设备执行上述各个实施例中描述的方法。
根据本公开实施例的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如本公开上述各个方面中任一项所述的方法。
根据本公开实施例的另一方面,还提供了一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如本公开上述各个方面中任一项所述的方法。
由此,根据本公开上述各个方面改进了推荐数据在数据链路中的聚合环节,并结合了智能生成推荐数据的分类标签,生成了低重复度的、多维度的待展示信息,解决了现有的处理推荐数据的方案中的展示的信息重复度高、指标单一的技术问题。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
此外,本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作叠加到这些过程中,或从这些过程移除某一步或数步操作。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本公开进行了详细说明,但对于本领域技术人员而言,显然,本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本公开而言并非具有任何限制性的意义。

Claims (18)

1.一种处理数据的方法,包括:
将推荐数据集中的多个推荐数据按照推荐数据间的相似度进行聚合,以生成多个推荐数据特征标识符,其中每个推荐数据特征标识符用于标识彼此之间相似度高于阈值的多个推荐数据;
基于每个推荐数据特征标识符对应的多个推荐数据的日志信息,从所述多个推荐数据中选择所述推荐数据特征标识符对应的代表推荐数据,以生成代表推荐数据集,所述代表推荐数据集包括全部或部分推荐数据特征标识符对应的代表推荐数据;
基于所述代表推荐数据集中的每个代表推荐数据的推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签,所述分类标签为业务标签树中的叶子节点对应的业务标签,所述业务标签树包括以业务标签标识的多个父节点和多个叶子节点,并且所述多个父节点和多个叶子节点具有树形层级关系;以及
基于各个代表推荐数据对应的多个分类标签,生成待展示信息。
2.如权利要求1所述的方法,其中,所述将推荐数据集中的多个推荐数据按照推荐数据间的相似度进行聚合还包括:
基于所述推荐数据集中的各个推荐数据对应的图像数据,计算各个推荐数据对应的推荐数据特征标识符,以使得具有相同的推荐数据特征标识符的推荐数据相似;
其中,所述推荐数据集中的各个推荐数据对应的图像数据包括以下各项中的至少一项:所述各个推荐数据的图片数据、所述各个推荐数据的视频数据的关键帧对应的图片数据、或所述各个推荐数据的视频数据的封面图片数据。
3.如权利要求2所述的方法,其中,所述计算各个推荐数据对应的推荐数据特征标识符,还包括:
将所述各个推荐数据对应的图像数据从像素域转换到频率域,以获取所述各个推荐数据对应的频域图像数据;
基于所述各个推荐数据对应的频域图像数据,计算低频区域的频域图像数据的均值;以及
基于所述低频区域的频域图像数据的均值,计算所述低频区域的频域图像数据对应的二值化序列,并将所述二值化序列作为所述推荐数据特征标识符。
4.如权利要求1所述的方法,其中,所述基于所述代表推荐数据集中的每个代表推荐数据的推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签还包括:
获取所述代表推荐数据对应的视频数据、音频数据、文本数据、图片数据中的一项或多项;
基于所述视频数据、音频数据、文本数据、图片数据中的一项或多项,分别确定所述代表推荐数据对应的视频特征、音频特征、文本特征、图片特征中的一项或多项;以及
基于所述视频特征、音频特征、文本特征、图片特征中的一项或多项,确定所述代表推荐数据的推荐数据表示向量,并基于所述推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签。
5.如权利要求1所述的方法,其中,所述确定所述代表推荐数据对应的多个分类标签还包括:
获取所述业务标签树,所述业务标签树的二级节点包括拍摄方式业务标签、营销卖点业务标签和视频场景业务标签中的至少一项,以及
基于所述推荐数据表示向量与所述业务标签树中的多个叶子节点的业务标签相匹配的概率,确定所述代表推荐数据对应的多个分类标签。
6.如权利要求1所述的方法,其中,所述每个推荐数据特征标识符对应的多个推荐数据的日志信息包括以下各项中的至少一项或多项:曝光量、点击量、转换量、播放量、完播率和推广类型。
7.如权利要求1所述的方法,其中,所述生成代表推荐数据集还包括:
基于各个推荐数据特征标识符对应的代表推荐数据的日志信息,对各个代表推荐数据进行排序;以及
基于排序后的各个代表推荐数据,生成所述代表推荐数据集,所述代表推荐数据集包括全部或部分推荐数据特征标识符对应的代表推荐数据。
8.如权利要求1所述的方法,其中,所述基于所述代表推荐数据集中的每个代表推荐数据的推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签还包括:
获取所述代表推荐数据对应的业务信息,所述业务信息包括以下各项中的至少一项:图片数据链接、图片数据标识符、图片数据格式、图片数据尺寸、图片数据生成方式、视频数据链接、视频数据标识符、视频数据格式、视频数据尺寸、视频数据生成方式、视频数据时长、推荐数据标题、推荐数据审核状态;以及
基于所述代表推荐数据对应的日志信息和业务信息,确定所述代表推荐数据的推荐数据表示向量,并基于所述推荐数据表示向量,确定所述代表推荐数据对应的多个分类标签。
9.如权利要求1所述的方法,其中,所述基于各个代表推荐数据对应的多个分类标签生成待展示信息还包括:
基于推荐数据查询请求中的标签信息以及所述各个代表推荐数据对应的多个分类标签,生成所述待展示信息;
其中,所述标签信息包括至少一个业务标签,所述待展示信息包括与所述至少一个业务标签对应的多个代表推荐数据的信息。
10.如权利要求9所述的方法,其中,所述基于推荐数据查询请求中的标签信息以及所述各个代表推荐数据对应的多个分类标签,生成所述待展示信息还包括:
在所述至少一个业务标签是所述业务标签树中的父节点的业务标签的情况下,
确定所述业务标签树中的父节点对应的叶子节点的业务标签;
基于所述叶子节点的业务标签,查询其的分类标签与所述业务标签相匹配的多个代表推荐数据,以生成所述待展示信息;
在所述至少一个标签对应于所述业务标签树中的叶子节点的情况下,
基于所述叶子节点的业务标签,查询其的分类标签与所述业务标签相匹配的多个代表推荐数据,以生成所述待展示信息。
11.如权利要求1所述的方法,其中,所述基于推荐数据查询请求中的标签信息以及所述各个代表推荐数据对应的多个分类标签,生成所述待展示信息还包括:
基于所述多个代表推荐数据对应的业务信息和日志信息,对所述多个代表推荐数据进行聚合或排序;
基于聚合或排序后的多个代表推荐数据,生成所述待展示信息。
12.一种终端设备,所述终端设备包括一个或多个处理器、一个或多个存储器、显示屏幕、发送器、接收器,其中,
所述发送器被配置为发送推荐数据查询请求,所述推荐数据查询请求中包括用于查找推荐数据的标签信息,所述标签信息包括至少一个业务标签;
所述接收器被配置为接收待展示信息,所述待展示信息包括与所述标签信息对应的多个代表推荐数据的信息;
所述处理器被配置为处理所述待展示信息,并渲染显示界面;
所述显示屏幕被配置为显示所述显示界面,所述显示界面显示所述标签信息对应的多个代表推荐数据的图片,所述多个代表推荐数据互不相似。
13.如权利要求12所述的终端设备,其中,
在所述至少一个业务标签是业务标签树中的父节点的业务标签的情况下,所述显示界面显示的多个代表推荐数据的图片与所述业务标签树中的父节点对应的叶子节点的业务标签相对应;
在所述至少一个标签对应于所述业务标签树中的叶子节点的情况下,所述显示界面显示的多个代表推荐数据的图片与所述业务标签树中的叶子节点的业务标签相对应。
14.如权利要求12所述的终端设备,其中,所述多个代表推荐数据中的每个代表推荐数据均具有与所述代表推荐数据对应的推荐数据特征标识符,且所述多个代表推荐数据中的每个代表推荐数据对应的推荐数据特征标识符互不相同。
15.如权利要求12所述的终端设备,其中,所述显示界面包括筛选标签按钮和展示画布,
所述筛选标签按钮在被触发的情况下,所述处理器生成推荐数据查询请求,所述推荐数据查询请求包括与所述筛选标签按钮对应的标签信息;
所述展示画布被配置为显示所述标签信息对应的多个代表推荐数据的图片。
16.一种处理推荐数据的装置,包括:
一个或多个处理器;以及
一个或多个存储器,其中所述存储器中存储有计算机可读代码,所述计算机可读代码在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行如权利要求1-11中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如权利要求1-11中任一项所述的方法。
18.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如权利要求1-11中任一项所述的方法。
CN202111260131.XA 2021-10-28 2021-10-28 处理数据的方法和装置 Pending CN116051192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111260131.XA CN116051192A (zh) 2021-10-28 2021-10-28 处理数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111260131.XA CN116051192A (zh) 2021-10-28 2021-10-28 处理数据的方法和装置

Publications (1)

Publication Number Publication Date
CN116051192A true CN116051192A (zh) 2023-05-02

Family

ID=86118680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111260131.XA Pending CN116051192A (zh) 2021-10-28 2021-10-28 处理数据的方法和装置

Country Status (1)

Country Link
CN (1) CN116051192A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610869A (zh) * 2023-07-13 2023-08-18 支付宝(杭州)信息技术有限公司 推荐内容管理方法及装置、电子设备及存储介质
CN117033641A (zh) * 2023-10-07 2023-11-10 江苏微皓智能科技有限公司 一种大型预训练语言模型的网络结构优化微调方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610869A (zh) * 2023-07-13 2023-08-18 支付宝(杭州)信息技术有限公司 推荐内容管理方法及装置、电子设备及存储介质
CN116610869B (zh) * 2023-07-13 2023-10-13 支付宝(杭州)信息技术有限公司 推荐内容管理方法及装置、电子设备及存储介质
CN117033641A (zh) * 2023-10-07 2023-11-10 江苏微皓智能科技有限公司 一种大型预训练语言模型的网络结构优化微调方法

Similar Documents

Publication Publication Date Title
US11893514B2 (en) Contextual-based method and system for identifying and revealing selected objects from video
TWI753035B (zh) 視訊資料的推薦方法、裝置和伺服器
US11580869B2 (en) Computer-implemented interfaces for identifying and revealing selected objects from video
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN110737783B (zh) 一种推荐多媒体内容的方法、装置及计算设备
US20220198516A1 (en) Data recommendation method and apparatus, computer device, and storage medium
CN113158023B (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
WO2019113977A1 (zh) 文章处理方法、装置、服务器及存储介质
CN101346718A (zh) 用于向用户提供选定内容项的方法
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
WO2021155691A1 (zh) 用户画像生成方法、装置、存储介质及设备
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
CN116051192A (zh) 处理数据的方法和装置
CN112052387A (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN116894711A (zh) 商品推荐理由生成方法及其装置、电子设备
CN112364184A (zh) 多媒体数据的排序方法、装置、服务器及存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
JP5367872B2 (ja) 選択されたコンテンツアイテムをユーザーに提供する方法
Matsumoto et al. Music video recommendation based on link prediction considering local and global structures of a network
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN112069412A (zh) 信息推荐方法、装置、计算机设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
JP6310529B1 (ja) 検索装置、検索方法および検索プログラム
CN115114519A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination