CN117150110A - 媒资内容召回方法、装置、存储介质及电子设备 - Google Patents

媒资内容召回方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117150110A
CN117150110A CN202210944194.5A CN202210944194A CN117150110A CN 117150110 A CN117150110 A CN 117150110A CN 202210944194 A CN202210944194 A CN 202210944194A CN 117150110 A CN117150110 A CN 117150110A
Authority
CN
China
Prior art keywords
content
media asset
media
asset content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210944194.5A
Other languages
English (en)
Inventor
向垄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN202210944194.5A priority Critical patent/CN117150110A/zh
Publication of CN117150110A publication Critical patent/CN117150110A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种媒资内容召回方法、装置、存储介质及电子设备,涉及互联网技术领域,该方法包括:基于媒资内容集中媒资内容的预定特征进行媒资内容分类,得到每个媒资内容的类别信息;获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。本申请可以实现对于有缺失媒资内容及新产生媒资内容的有效冷启动召回。

Description

媒资内容召回方法、装置、存储介质及电子设备
技术领域
本申请涉及互联网技术领域,具体涉及一种媒资内容召回方法、装置、存储介质及电子设备。
背景技术
常规互联网搜索通常会进行媒资内容推荐服务,媒资内容推荐服务存在媒资内容的冷启动召回的场景,当前,常规冷启动召回一般是通过统计热点媒资内容直接返回给用户,常规冷启动召回对于有缺失媒资内容通常是难以有效召回,对于这些有缺失媒资内容通常直接舍弃不进行召回,对于新产生媒资内容也会造成有相关性但缺失的媒资内容没有得到有效召回。
因此,目前,对于有缺失媒资内容及新产生媒资内容的冷启动召回,存在不能有效进行冷启动召回的问题。
发明内容
本申请实施例提供一种方案,可以实现对于有缺失媒资内容及新产生媒资内容的有效冷启动召回。
本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种媒资内容召回方法,包括:基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
在本申请的一些实施例中,所述基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息,包括:基于媒资内容集中媒资内容的预定特征进行聚类处理,得到多个媒资内容簇,每个所述媒资内容簇对应一个类别信息;根据每个所述媒资内容所属的媒资内容簇,得到每个所述媒资内容的类别信息。
在本申请的一些实施例中,在所述基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类之前,所述方法还包括:获取所述媒资内容集中每个所述媒资内容的来源信息以及媒资内容描述信息;将每个所述媒资内容的来源信息及媒资内容描述信息的组合,作为所述媒资内容集中每个所述媒资内容的预定特征。
在本申请的一些实施例中,所述来源信息为来源频道信息,所述媒资内容描述信息包括预设媒资内容标签或图像表示信息。
在本申请的一些实施例中,所述浏览轨迹序列为按照浏览顺序串联的至少一个媒资内容的标识;所述将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,包括:在各所述浏览轨迹序列中的每个标识之前插入所述标识对应的媒资内容的类别信息,得到各所述浏览轨迹序列对应的扩充轨迹序列。
在本申请的一些实施例中,在所述对所述扩充轨迹序列进行信息掩码建模,得到各所述媒资内容的媒资内容特征向量之后,所述方法还包括:基于新增召回媒资内容的媒资内容相关特征进行媒资内容分类,得到所述新增召回媒资内容的类别信息,所述新增召回媒资内容包括有缺失媒资内容和新产生媒资内容;基于所述新增召回媒资内容的类别信息及所述新增召回媒资内容的标识生成新增召回媒资内容序列;对所述新增召回媒资内容序列进行信息掩码编码处理,得到所述新增召回媒资内容的媒资内容相关特征向量;计算所述媒资内容相关特征向量与所述媒资内容集中媒资内容的媒资内容特征向量的相似度;根据所述相似度对所述新增召回媒资内容进行冷启动召回。
在本申请的一些实施例中,所述对所述至少一个扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,包括:对所述至少一个扩充轨迹序列,使用预训练语言模型进行掩码训练得到各所述媒资内容的类别信息对应的类别描述向量;将所述类别描述向量作为所述媒资内容特征向量。
根据本申请的一个实施例,一种媒资内容召回装置,所述装置包括:分类模块,用于基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;获取模块,用于获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;组合模块,用于将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;编码模块,用于对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
根据本申请的另一实施例,一种存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
根据本申请的另一实施例,一种电子设备可以包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行本申请实施例所述的方法。
本申请实施例中,基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
以这种方式,可以对媒资内容集中媒资内容实现具有个性化及相关性的表征,得到每个媒资内容对应的媒资内容特征向量,基于这些媒资内容特征向量可以对有缺失媒资内容和新产生媒资内容进行有效地关联,进而,实现对于有缺失媒资内容及新产生媒资内容的有效冷启动召回。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请的一个实施例的媒资内容召回方法的流程图。
图2示出了根据本申请的一个实施例的序列与类别信息组合的示意图。
图3示出了根据本申请的一个实施例的信息掩码编码的示意图。
图4示出了根据本申请的一个实施例的媒资内容召回装置的框图。
图5示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示意性示出了根据本申请的一个实施例的媒资内容召回方法的流程图。该媒资内容召回方法的执行主体可以是任意的设备,例如服务器或终端。
如图1所示,该媒资内容召回方法可以包括步骤S110至步骤S140。
步骤S110,基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;步骤S120,获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;步骤S130,将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;步骤S140,对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
媒资内容集可以是收集的某个平台中的一批量媒资内容,媒资内容可以是文章、视频等媒资内容。预定特征可以是媒资内容的相关媒资内容特征,例如,预定特征可以包括媒资内容的来源信息以及媒资内容描述信息。
利用媒资内容集中每个媒资内容的预定特征进行内容分类,可以得到每个媒资内容的类别信息。一种方式中,可以利用媒资内容集中每个媒资内容的预定特征进行媒资内容聚类,而得到每个媒资内容的类别信息;可选地,另一种方式中,可以将预定特征输入预先训练的分类模型进行分类处理,得到每个媒资内容的类别信息。
根据用户对媒资内容集中媒资内容的浏览行为,可以获得每个用户对应的浏览轨迹序列。进而,针对媒资内容集中媒资内容,可以根据至少一个用户的浏览行为获得至少一个浏览轨迹序列。一种方式中,浏览轨迹序列可以是按照将用户浏览的媒资内容的标识(即媒资内容id)按照媒资内容浏览顺序串联而获得。可选地,另一种方式中,浏览轨迹序列可以是按照将用户浏览的媒资内容的标识(即媒资内容id)按照媒资内容的预定权重串联而获得。其中,每个浏览轨迹序列可以是截断的预定时长(例如一天)内的浏览轨迹序列。
将各浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息,例如,一个浏览轨迹序列为A,另一个浏览轨迹序列为B,将A可以与A对应的关联类别信息A1组合,将B可以与B对应的关联类别信息B1组合,进而,得到各浏览轨迹序列对应的扩充轨迹序列。一种方式中,可以在各浏览轨迹序列中的每个标识之前插入标识对应的媒资内容的类别信息,得到各浏览轨迹序列对应的扩充轨迹序列;可选地,另一种方式中,可以将各浏览轨迹序列与关联类别信息直接串联,得到各浏览轨迹序列对应的扩充轨迹序列。
最后,对扩充轨迹序列进行信息掩码编码处理,可以分别将每个媒资内容对应的信息掩码处理后,更加序列中其他未掩码地媒资内容对应信息进行编码,得到被掩码的媒资内容的媒资内容特征向量,进而,得到各媒资内容的媒资内容特征向量,该媒资内容特征向量可以对应媒资内容实现个性化及相关性的表征。基于这些媒资内容特征向量对有缺失媒资内容和新产生媒资内容可以进行有效冷启动召回。
以这种方式,基于步骤S110至步骤S140,可以对媒资内容集中媒资内容实现具有个性化及相关性的表征,得到每个媒资内容对应的媒资内容特征向量,基于这些媒资内容特征向量可以对有缺失媒资内容和新产生媒资内容进行有效地关联,进而,实现对于有缺失媒资内容及新产生媒资内容的有效冷启动召回。
下面描述图1实施例中进行媒资内容召回时,所进行各步骤进一步的具体可选实施例。
一种实施例中,步骤S110,基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息,包括:基于媒资内容集中媒资内容的预定特征进行聚类处理,得到多个媒资内容簇,每个所述媒资内容簇对应一个类别信息;根据每个所述媒资内容所属的媒资内容簇,得到每个所述媒资内容的类别信息。
该实施例下,对媒资内容集中媒资内容,基于媒资内容集中媒资内容的预定特征进行聚类处理,可以得到多个媒资内容簇,每个媒资内容簇中包括至少一个媒资内容,每个媒资内容簇对应一个类别信息。根据每个媒资内容所属的媒资内容簇,即可得到每个媒资内容的类别信息。通过聚类的方式可以利用媒资内容之间的相关性进行分类,通过该方式得到的类别信息相较于其他方式,可以用于在后续步骤获得具有更强相关性表现的媒资内容特征向量。其中,可以基于K-means聚类算法、系统聚类算法及DBSCAN算法等基于媒资内容集中媒资内容的预定特征进行聚类处理。
一种实施例中,在步骤S110,基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类之前,所还包括:获取所述媒资内容集中每个所述媒资内容的来源信息以及媒资内容描述信息;将每个所述媒资内容的来源信息及媒资内容描述信息的组合,作为所述媒资内容集中每个所述媒资内容的预定特征。
来源信息可以媒资内容对应的来源的信息,例如来源的名称或编码等。其中,来源例如来源频道信息、平台或地区等。媒资内容描述信息即可以描述媒资内容的信息,媒资内容描述信息例如预设媒资内容标签、媒资内容中图像的图像表示信息、媒资内容的摘要、媒资内容的大小等信息。将媒资内容的来源信息及媒资内容描述信息的组合作为预定特征,可以对媒资内容进行有效分类,特别地,可以基于聚类的方式进行基于媒资内容相关性的有效分类。
一种实施例中,所述来源信息为来源频道信息,所述媒资内容描述信息包括预设媒资内容标签或图像表示信息。其中,预设媒资内容标签为每个媒资内容由相关用户预先标定的标签,每个媒资内容可以具有多个标签,预定媒资内容标签可以从多个标签中选择的预定数目(例如3个)个标签。图像表示信息可以是图像的色彩信息,一个示例中,图像表示信息为图像的3个hsv色彩表示,另一个示例中,图像表示信息为图像的划分范围扩增成6类的hsv色彩表示。来源频道信息可以是媒资内容对应的电视频道或节目频道等频道信息。
一种实施例中,所述浏览轨迹序列为按照浏览顺序串联的至少一个媒资内容的标识;所述将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,包括:在各所述浏览轨迹序列中的每个标识之前插入所述标识对应的媒资内容的类别信息,得到各所述浏览轨迹序列对应的扩充轨迹序列。
参阅图2,一个浏览轨迹序列中包括按照浏览顺序串联的至少一个媒资内容的标识id1、id2及id3,在该所览轨迹序列中的每个标识(id1、id2及id3)之前插入标识对应的媒资内容的类别信息(id1的聚类K1、id2的聚类K2及id3的聚类K3)得到扩充轨迹序列:id1的聚类K1、id1、id2的聚类K2、id2、id3的聚类K3及id3。依次,可以各浏览轨迹序列对应的扩充轨迹序列。以这种方式得到的扩充轨迹序列相较于其他方式,可以用于在后续步骤中通过信息掩码编码生成更优秀地媒资内容特征向量。
一种实施例中,在所述对所述扩充轨迹序列进行信息掩码建模,得到各所述媒资内容的媒资内容特征向量之后,所述方法还包括:基于新增召回媒资内容的媒资内容相关特征进行媒资内容分类,得到所述新增召回媒资内容的类别信息,所述新增召回媒资内容包括有缺失媒资内容和新产生媒资内容;基于所述新增召回媒资内容的类别信息及所述新增召回媒资内容的标识生成新增召回媒资内容序列;对所述新增召回媒资内容序列进行信息掩码编码处理,得到所述新增召回媒资内容的媒资内容相关特征向量;计算所述媒资内容相关特征向量与所述媒资内容集中媒资内容的媒资内容特征向量的相似度;根据所述相似度对所述新增召回媒资内容进行冷启动召回。
新增召回媒资内容即媒资内容集中没有的媒资内容,新增召回媒资内容可以包括有缺失媒资内容和新产生媒资内容。基于新增召回媒资内容的媒资内容相关特征进行媒资内容分类,一种方式中,可以利用新增召回媒资内容的媒资内容相关特征进行媒资内容聚类,而得到每个新增召回媒资内容的类别信息;可选地,另一种方式中,可以将媒资内容相关特征输入预先训练的分类模型进行分类处理,得到每个新增召回媒资内容的类别信息。
将新增召回媒资内容的类别信息及新增召回媒资内容的标识组合,可以生成新增召回媒资内容序列。组合的方式,一种方式中,可以在各新增召回媒资内容中的标识之前插入新增召回媒资内容的类别信息然后串联,得到新增召回媒资内容序列;可选地,另一种方式中,可以将新增召回媒资内容的类别信息的序列与及新增召回媒资内容的标识直接串联,得到新增召回媒资内容序列。其中,每个新增召回媒资内容序列的长度可以根据实际情况指定。
然后,对新增召回媒资内容序列可以进行信息掩码编码处理,得到新增召回媒资内容的媒资内容相关特征向量。通过欧氏距离等相似度计算方式,可以计算媒资内容相关特征向量与媒资内容集中媒资内容的媒资内容特征向量的相似度。
根据相似度即可以对新增召回媒资内容进行冷启动召回,例如,统计媒资内容热点,将媒资内容热点下的热点媒资内容推送给用户,热点媒资内容即可以包括相似的新增召回媒资内容及媒资内容集中媒资内容。
一种实施例中,所述对所述至少一个扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,包括:对所述至少一个扩充轨迹序列,使用预训练语言模型进行掩码训练得到各所述媒资内容的类别信息对应的类别描述向量;将所述类别描述向量作为所述媒资内容特征向量。
使用预训练语言模型(BERT)进行掩码训练(MLM掩码训练)得到各媒资内容的类别信息对应的类别描述向量,该类别描述向量具有良好的个性化及相关性表现。参阅图3,对扩充轨迹序列:id1的聚类K1、id1、id2的聚类K2、id2、id3的聚类K3及id3,使用预训练语言模型(BERT)进行掩码训练(MLM掩码训练)时,对id1掩码处理后可以基于序列中序列信息训练(MLM掩码训练)得到id1的标识特征向量,对id3的聚类K3掩码处理后可以基于序列中序列信息训练(MLM掩码训练)得到id3的聚类K3的类别描述向量。
将媒资内容的类别信息对应的类别描述向量作为媒资内容的媒资内容特征向量,申请人发现可以对有缺失媒资内容和新产生媒资内容进行极为有效的冷启动召回。
一种实施例中,所述对所述至少一个扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,包括:
确定每个所述媒资内容对应的扩充轨迹序列;将每个所述媒资内容在对应的所述扩充轨迹序列中的媒资内容节点信息隐藏处理,得到每个所述媒资内容对应的隐藏后轨迹序列;将每个所述媒资内容对应的隐藏后轨迹序列进行特征提取处理,得到每个所述媒资内容的媒资内容特征向量。
根据每个媒资内容的标识所在的扩充轨迹序列,可以确定媒资内容对应的扩充轨迹序列。将每个媒资内容在对应的所述扩充轨迹序列中的媒资内容节点信息隐藏处理,得到每个媒资内容对应的隐藏后轨迹序列,例如,针对媒资内容id1,在扩充轨迹序列:id1的聚类K1、id1、id2的聚类K2、id2、id3的聚类K3及id3中,隐藏id1的聚类K1及id1,得到媒资内容id1对应的隐藏后轨迹序列id2的聚类K2、id2、id3的聚类K3及id3。最后,可以基于特征提取网络对隐藏后轨迹序列进行特征提取处理,得到每个所述媒资内容的媒资内容特征向量。
为便于更好的实施本申请实施例提供的媒资内容召回方法,本申请实施例还提供一种基于上述媒资内容召回方法的媒资内容召回装置。其中名词的含义与上述媒资内容召回方法中相同,具体实现细节可以参考方法实施例中的说明。图4示出了根据本申请的一个实施例的媒资内容召回装置的框图。
如图4所示,媒资内容召回装置200中可以包括分类模块210、获取模块220、组合模块230以及编码模块240。
分类模块,用于基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;获取模块,用于获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;组合模块,用于将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;编码模块,用于对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
在本申请的一些实施例中,所述分类模块,用于:基于媒资内容集中媒资内容的预定特征进行聚类处理,得到多个媒资内容簇,每个所述媒资内容簇对应一个类别信息;根据每个所述媒资内容所属的媒资内容簇,得到每个所述媒资内容的类别信息。
在本申请的一些实施例中,所述装置还包括收集模块,用于:获取所述媒资内容集中每个所述媒资内容的来源信息以及媒资内容描述信息;将每个所述媒资内容的来源信息及媒资内容描述信息的组合,作为所述媒资内容集中每个所述媒资内容的预定特征。
在本申请的一些实施例中,所述来源信息为来源频道信息,所述媒资内容描述信息包括预设媒资内容标签或图像表示信息。
在本申请的一些实施例中,所述浏览轨迹序列为按照浏览顺序串联的至少一个媒资内容的标识;所述组合模块,用于:在各所述浏览轨迹序列中的每个标识之前插入所述标识对应的媒资内容的类别信息,得到各所述浏览轨迹序列对应的扩充轨迹序列。
在本申请的一些实施例中,所述装置还包括召回模块,用于:基于新增召回媒资内容的媒资内容相关特征进行媒资内容分类,得到所述新增召回媒资内容的类别信息,所述新增召回媒资内容包括有缺失媒资内容和新产生媒资内容;基于所述新增召回媒资内容的类别信息及所述新增召回媒资内容的标识生成新增召回媒资内容序列;对所述新增召回媒资内容序列进行信息掩码编码处理,得到所述新增召回媒资内容的媒资内容相关特征向量;计算所述媒资内容相关特征向量与所述媒资内容集中媒资内容的媒资内容特征向量的相似度;根据所述相似度对所述新增召回媒资内容进行冷启动召回。
在本申请的一些实施例中,所述编码模块,用于:对所述至少一个扩充轨迹序列,使用预训练语言模型进行掩码训练得到各所述媒资内容的类别信息对应的类别描述向量;将所述类别描述向量作为所述媒资内容特征向量。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图5所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器301是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器301可包括一个或多个处理核心;优选的,处理器301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。
存储器302可用于存储软件程序以及模块,处理器301通过运行存储在存储器302的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器302还可以包括存储器控制器,以提供处理器301对存储器302的访问。
电子设备还包括给各个部件供电的电源303,优选的,电源303可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元304,该输入单元304可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器301会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器302中,并由处理器301来运行存储在存储器302中的计算机程序,从而实现本申请前述实施例中各种功能,如处理器301可以执行下述步骤:
基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
在本申请的一些实施例中,所述基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息,包括:基于媒资内容集中媒资内容的预定特征进行聚类处理,得到多个媒资内容簇,每个所述媒资内容簇对应一个类别信息;根据每个所述媒资内容所属的媒资内容簇,得到每个所述媒资内容的类别信息。
在本申请的一些实施例中,在所述基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类之前,所述方法还包括:获取所述媒资内容集中每个所述媒资内容的来源信息以及媒资内容描述信息;将每个所述媒资内容的来源信息及媒资内容描述信息的组合,作为所述媒资内容集中每个所述媒资内容的预定特征。
在本申请的一些实施例中,所述来源信息为来源频道信息,所述媒资内容描述信息包括预设媒资内容标签或图像表示信息。
在本申请的一些实施例中,所述浏览轨迹序列为按照浏览顺序串联的至少一个媒资内容的标识;所述将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,包括:在各所述浏览轨迹序列中的每个标识之前插入所述标识对应的媒资内容的类别信息,得到各所述浏览轨迹序列对应的扩充轨迹序列。
在本申请的一些实施例中,在所述对所述至少一个扩充轨迹序列进行信息掩码建模,得到各所述媒资内容的媒资内容特征向量之后,所述方法还包括:基于新增召回媒资内容的媒资内容相关特征进行媒资内容分类,得到所述新增召回媒资内容的类别信息,所述新增召回媒资内容包括有缺失媒资内容和新产生媒资内容;基于所述新增召回媒资内容的类别信息及所述新增召回媒资内容的标识生成新增召回媒资内容序列;对所述新增召回媒资内容序列进行信息掩码编码处理,得到所述新增召回媒资内容的媒资内容相关特征向量;计算所述媒资内容相关特征向量与所述媒资内容集中媒资内容的媒资内容特征向量的相似度;根据所述相似度对所述新增召回媒资内容进行冷启动召回。
在本申请的一些实施例中,所述对所述至少一个扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,包括:对所述至少一个扩充轨迹序列,使用预训练语言模型进行掩码训练得到各所述媒资内容的类别信息对应的类别描述向量;将所述类别描述向量作为所述媒资内容特征向量。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。

Claims (10)

1.一种媒资内容召回方法,其特征在于,包括:
基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;
获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;
将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;
对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
2.根据权利要求1所述的方法,其特征在于,所述基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息,包括:
基于媒资内容集中媒资内容的预定特征进行聚类处理,得到多个媒资内容簇,每个所述媒资内容簇对应一个类别信息;
根据每个所述媒资内容所属的媒资内容簇,得到每个所述媒资内容的类别信息。
3.根据权利要求1所述的方法,其特征在于,在所述基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类之前,所述方法还包括:
获取所述媒资内容集中每个所述媒资内容的来源信息以及媒资内容描述信息;
将每个所述媒资内容的来源信息及媒资内容描述信息的组合,作为所述媒资内容集中每个所述媒资内容的预定特征。
4.根据权利要求3所述的方法,其特征在于,所述来源信息为来源频道信息,所述媒资内容描述信息包括预设媒资内容标签或图像表示信息。
5.根据权利要求1所述的方法,其特征在于,所述浏览轨迹序列为按照浏览顺序串联的至少一个媒资内容的标识;
所述将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,包括:
在各所述浏览轨迹序列中的每个标识之前插入所述标识对应的媒资内容的类别信息,得到各所述浏览轨迹序列对应的扩充轨迹序列。
6.根据权利要求1所述的方法,其特征在于,在所述对所述扩充轨迹序列进行信息掩码建模,得到各所述媒资内容的媒资内容特征向量之后,所述方法还包括:
基于新增召回媒资内容的媒资内容相关特征进行媒资内容分类,得到所述新增召回媒资内容的类别信息,所述新增召回媒资内容包括有缺失媒资内容和新产生媒资内容;
基于所述新增召回媒资内容的类别信息及所述新增召回媒资内容的标识生成新增召回媒资内容序列;
对所述新增召回媒资内容序列进行信息掩码编码处理,得到所述新增召回媒资内容的媒资内容相关特征向量;
计算所述媒资内容相关特征向量与所述媒资内容集中媒资内容的媒资内容特征向量的相似度;
根据所述相似度对所述新增召回媒资内容进行冷启动召回。
7.根据权利要求1所述的方法,其特征在于,所述对所述至少一个扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,包括:
对所述至少一个扩充轨迹序列,使用预训练语言模型进行掩码训练得到各所述媒资内容的类别信息对应的类别描述向量;
将所述类别描述向量作为所述媒资内容特征向量。
8.一种媒资内容召回装置,其特征在于,包括:
分类模块,用于基于预先收集的媒资内容集中媒资内容的预定特征进行内容分类,得到每个媒资内容的类别信息;
获取模块,用于获取所述媒资内容集中媒资内容的至少一个浏览轨迹序列;
组合模块,用于将各所述浏览轨迹序列与关联类别信息分别组合,得到至少一个扩充轨迹序列,所述关联类别信息为各浏览轨迹序列对应的媒资内容的类别信息;
编码模块,用于对所述扩充轨迹序列进行信息掩码编码处理,得到各所述媒资内容的媒资内容特征向量,所述媒资内容特征向量用于有缺失媒资内容和新产生媒资内容进行冷启动召回。
9.一种存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行权利要求1至7任一项所述的方法。
CN202210944194.5A 2022-08-05 2022-08-05 媒资内容召回方法、装置、存储介质及电子设备 Pending CN117150110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210944194.5A CN117150110A (zh) 2022-08-05 2022-08-05 媒资内容召回方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210944194.5A CN117150110A (zh) 2022-08-05 2022-08-05 媒资内容召回方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117150110A true CN117150110A (zh) 2023-12-01

Family

ID=88906835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210944194.5A Pending CN117150110A (zh) 2022-08-05 2022-08-05 媒资内容召回方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117150110A (zh)

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109508391B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN112732949B (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
CN108170845B (zh) 多媒体数据处理方法、装置及存储介质
US9740695B2 (en) Method for enriching a multimedia content, and corresponding device
CN111507400B (zh) 应用分类方法、装置、电子设备以及存储介质
CN110018845A (zh) 元数据版本对比方法及装置
CN113360803A (zh) 基于用户行为的数据缓存方法、装置、设备及存储介质
CN110096605B (zh) 图像处理方法及装置、电子设备、存储介质
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN109857859B (zh) 新闻信息的处理方法、装置、设备以及存储介质
CN110209895B (zh) 向量检索方法、装置和设备
CN116775826A (zh) 智能问答方法、装置、电子设备及存储介质
CN117150110A (zh) 媒资内容召回方法、装置、存储介质及电子设备
CN113965806B (zh) 视频推荐方法、装置和计算机可读存储介质
CN113420097B (zh) 一种数据分析方法、装置、存储介质及服务器
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
CN116955763A (zh) 内容推荐方法、装置、计算机设备及计算机可读存储介质
CN113810737B (zh) 一种视频处理方法、装置、电子设备和存储介质
CN108009233B (zh) 一种图像还原方法、装置、计算机设备及存储介质
CN117725303B (zh) 内容查询方法、装置和计算机可读存储介质
CN111143582A (zh) 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN117874215A (zh) 文本摘要抽取方法、装置、存储介质、电子设备及产品
CN116186233A (zh) 训练数据生成方法及装置、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination