CN113326385B - 目标多媒体资源的获取方法、装置、电子设备和存储介质 - Google Patents

目标多媒体资源的获取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113326385B
CN113326385B CN202110889060.3A CN202110889060A CN113326385B CN 113326385 B CN113326385 B CN 113326385B CN 202110889060 A CN202110889060 A CN 202110889060A CN 113326385 B CN113326385 B CN 113326385B
Authority
CN
China
Prior art keywords
subject
target
multimedia resource
topic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110889060.3A
Other languages
English (en)
Other versions
CN113326385A (zh
Inventor
王庆全
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110889060.3A priority Critical patent/CN113326385B/zh
Publication of CN113326385A publication Critical patent/CN113326385A/zh
Application granted granted Critical
Publication of CN113326385B publication Critical patent/CN113326385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种目标多媒体资源的获取方法、装置、电子设备和存储介质,该方法可以获取预设主题的初始主题词集,对初始主题词集中的主题词进行筛选,从初始主题词集中删除与预设主题非相关的主题词,得到预设主题的目标主题词集。基于目标主题词集,对待处理多媒体资源进行主题匹配,可以得到预设主题对应的目标多媒体资源。该方法通过对初始主题词集中的主题词进行进一步的筛选,提高主题词与预设主题间的一致性,从而在基于目标主题词集对待处理多媒体资源进行主题匹配时,提高预设主题与目标多媒体资源的相关性,提高了主题匹配的准确性。

Description

目标多媒体资源的获取方法、装置、电子设备和存储介质
技术领域
本公开涉及数据处理技术领域 ,尤其涉及目标多媒体资源的获取方法、装置、电子设备及存储介质。
背景技术
在用户推荐的场景下,通常需要根据用户上传多媒体资源时填写的描述、封面文字等信息或多媒体资源内容信息,确定多媒体资源对应的主题,从而根据主题有针对性的生成推送信息进行多媒体资源的推送。
相关技术中,主题匹配采用的主题词集包含无意义的词汇,使得在基于主题词集确定匹配的多媒体资源时预设主题和多媒体资源的相关度低,从而导致多媒体资源的匹配结果准确性低。
发明内容
本公开提供目标多媒体资源的获取方法、装置、电子设备及存储介质,以至少解决相关技术中预设主题和多媒体资源的相关度低,多媒体资源的匹配结果准确性低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种目标多媒体资源的获取方法,所述方法包括:
获取预设主题的初始主题词集;
对所述初始主题词集中的主题词进行筛选,得到所述预设主题的目标主题词集,所述目标主题词集为从所述初始主题词集中删除与所述预设主题非相关的主题词后得到的主题词集;
基于所述目标主题词集,对待处理多媒体资源进行主题匹配,得到所述预设主题对应的目标多媒体资源。
作为一个可选的实施例,所述对所述初始主题词集中的主题词进行筛选,得到所述预设主题的目标主题词集包括:
确定所述初始主题词集中每个主题词对应的至少一个分类验证结果,所述分类验证结果为衡量所述主题词与所述预设主题间的相关程度的指标;
基于所述至少一个分类验证结果,对所述初始主题词集中的主题词进行筛选,得到所述目标主题词集。
作为一个可选的实施例,所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果,所述基于所述至少一个分类验证结果,对所述初始主题词集中的主题词进行筛选,得到所述目标主题词集包括:
从所述每次主题词筛选对应的分类验证结果中确定目标分类验证结果,所述所述每次主题词筛选对应的分类验证结果为每次主题词筛选对应的当前主题词集中,每个主题词对应的分类验证结果,所述当前主题词集为基于每次主题词筛选的上一次主题词筛选的筛选结果得到的主题词集;
从所述初始主题词集中删除所述目标分类验证结果对应的主题词,得到目标相关主题词集;
在所述目标相关主题词集中的主题词数目小于等于预设数目,或所述目标相关主题词集中每个主题词对应的分类验证结果达到预设收敛阈值的情况下,将所述目标相关主题词集作为所述目标主题词集。
作为一个可选的实施例,在所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果的情况下,所述确定所述初始主题词集中每个主题词对应的至少一个分类验证结果包括:
获取每次主题词筛选对应的当前主题词集;
对所述当前主题词集中的每个主题词执行遍历步骤,得到所述当前主题词集中每个主题词对应的分类验证结果;
所述遍历步骤包括:
确定当前遍历到的主题词与其他主题词间的第一相关度,所述其他主题词为所述当前主题词集中除当前遍历到的主题词以外的主题词;
确定所述其他主题词间的第二相关度;
根据所述第一相关度和所述第二相关度,得到所述当前遍历到的主题词对应的分类验证结果。
作为一个可选的实施例,所述基于所述目标主题词集,对待处理多媒体资源进行主题匹配,得到所述目标主题词集的主题对应的目标多媒体资源包括:
基于所述目标主题词集中的主题词,在所述待处理多媒体资源中确定主题关联多媒体资源;
对所述预设主题和所述主题关联多媒体资源进行匹配,得到所述主题关联多媒体资源对应的主题匹配结果;
根据所述主题匹配结果,从所述主题关联多媒体资源中得到所述目标多媒体资源。
作为一个可选的实施例,所述主题匹配结果包括主题相似度,所述对所述预设主题和所述主题关联多媒体资源进行匹配,得到所述主题关联多媒体资源的主题匹配结果,得到每个多媒体资源的主题匹配结果包括:
获取所述目标主题词集对应的主题特征信息;
获取所述主题关联多媒体资源对应的资源特征信息;
确定所述主题特征信息和所述资源特征信息间的主题相似度。
作为一个可选的实施例,所述基于所述目标主题词集中的主题词,在所述待处理多媒体资源中确定主题关联多媒体资源包括:
获取所述目标主题词集中的主题词对应的第一频率,所述第一频率表征每个主题词在所述待处理多媒体资源中每个多媒体资源中出现的频率;
获取所述目标主题词集中的主题词对应的第二频率,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
根据所述第一频率和所述第二频率,确定所述每个多媒体资源和所述每个主题词间的相关度权重;
根据所述相关度权重,对所述每个多媒体资源和所述每个主题词间的主题词相关度进行加权求和,得到所述每个多媒体资源和所述目标主题词集间的主题关联度;
根据所述主题关联度,从所述待处理多媒体资源中得到所述主题关联多媒体资源。
作为一个可选的实施例,所述获取所述目标主题词集对应的主题特征信息包括:
获取所述目标主题词集中每个主题词的词特征信息;
根据所述目标主题词集中的主题词对应的第二频率,确定每个主题词的特征权重,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
根据所述每个主题词的特征权重,对所述每个主题词的词特征信息进行加权求和,得到所述主题特征信息。
作为一个可选的实施例,所述主题关联多媒体资源包括多个多媒体资源,所述获取所述主题关联多媒体资源对应的资源特征信息包括:
获取每个多媒体资源对应的初始资源特征信息;
确定与每个多媒体资源的关联主题词;
根据每个关联主题词对应的第三频率和所述关联主题词,确定每个多媒体资源的特征权重,所述第三频率表征每个关联主题词在所述待处理多媒体资源中出现的频率;
基于所述每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,得到所述资源特征信息。
作为一个可选的实施例,所述方法还包括:
获取历史时间段内的多个多媒体资源;
获取与所述目标主题词集中每个主题词分别匹配的搜索词对应的多媒体资源搜索结果;
将所述历史时间段内的多个多媒体资源和所述多媒体资源搜索结果作为所述待处理多媒体资源。
作为一个可选的实施例,所述方法还包括:
获取所述目标多媒体资源的多媒体资源质量信息;
比对所述多媒体资源质量信息和预设的多媒体资源质量指标,得到质量比对结果;
根据所述质量比对结果,对所述目标多媒体资源进行筛选,得到筛选后多媒体资源集。
根据本公开实施例的第二方面,提供一种多媒体资源的推荐方法,所述方法包括:
响应于所述目标对象对应的多媒体资源推荐指令,从多个预设主题中确定目标主题;
获取所述目标主题对应的多媒体资源集,所述目标主题对应的多媒体资源集为基于上述所述的目标多媒体资源的获取方法得到的多媒体资源集;
向所述目标对象推荐所述目标主题对应的多媒体资源集。
根据本公开实施例的第三方面,提供一种目标多媒体资源的获取装置,所述装置包括:
初始主题词集获取模块,被配置为执行获取预设主题的初始主题词集;
主题词筛选模块,被配置为执行对所述初始主题词集中的主题词进行筛选,得到所述预设主题的目标主题词集,所述目标主题词集为从所述初始主题词集中删除与所述预设主题非相关的主题词后得到的主题词集;
目标多媒体资源获取模块,被配置为执行基于所述目标主题词集,对待处理多媒体资源进行主题匹配,得到所述预设主题对应的目标多媒体资源。
作为一个可选的实施例,所述主题词筛选模块包括:
分类验证结果获取单元,被配置为执行确定所述初始主题词集中每个主题词对应的至少一个分类验证结果,所述分类验证结果为衡量所述主题词与所述预设主题间的相关程度的指标;
主题词筛选单元,被配置为执行基于所述至少一个分类验证结果,对所述初始主题词集中的主题词进行筛选,得到所述目标主题词集。
作为一个可选的实施例,所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果,所述主题词筛选单元包括:
目标分类验证结果确定单元,被配置为执行从所述每次主题词筛选对应的分类验证结果中确定目标分类验证结果,所述每次主题词筛选对应的分类验证结果为每次主题词筛选对应的当前主题词集中,每个主题词对应的分类验证结果,所述当前主题词集为基于每次主题词筛选的上一次主题词筛选的筛选结果得到的主题词集;
目标相关主题词集获取单元,被配置为珍惜从所述初始主题词集中删除所述目标分类验证结果对应的主题词,得到目标相关主题词集;
目标主题词集确定单元,被配置为执行在所述目标相关主题词集中的主题词数目小于等于预设数目,或所述目标相关主题词集中每个主题词对应的分类验证结果达到预设收敛阈值的情况下,将所述目标相关主题词集作为所述目标主题词集。
作为一个可选的实施例,在所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果的情况下,所述分类验证结果获取单元包括:
当前主题词集获取单元,被配置为执行获取每次主题词筛选对应的当前主题词集;
主题词遍历单元,被配置为执行对所述当前主题词集中的每个主题词执行遍历步骤,得到所述当前主题词集中每个主题词对应的分类验证结果;
所述主题词遍历单元包括:
第一相关度确定单元,被配置为执行确定当前遍历到的主题词与其他主题词间的第一相关度,所述其他主题词为所述当前主题词集中除当前遍历到的主题词以外的主题词;
第二相关度确定单元,被配置为执行确定所述其他主题词间的第二相关度;
分类验证结果确定单元,被配置为执行根据所述第一相关度和所述第二相关度,得到所述当前遍历到的主题词对应的分类验证结果。
作为一个可选的实施例,所述目标多媒体资源获取模块包括:
关联匹配单元,被配置为执行基于所述目标主题词集中的主题词,在所述待处理多媒体资源中确定主题关联多媒体资源;
主题匹配单元,被配置为执行对所述预设主题和所述主题关联多媒体资源进行匹配,得到所述主题关联多媒体资源对应的主题匹配结果;
目标多媒体资源获取单元,被配置为执行根据所述主题匹配结果,从所述主题关联多媒体资源中得到所述目标多媒体资源。
作为一个可选的实施例,所述主题匹配结果包括主题相似度,所述主题匹配单元包括:
主题特征信息获取单元,被配置为执行获取所述目标主题词集对应的主题特征信息;
资源特征信息获取单元,被配置为执行获取所述主题关联多媒体资源对应的资源特征信息;
主题相似度确定单元,被配置为执行确定所述主题特征信息和所述资源特征信息间的主题相似度。
作为一个可选的实施例,所述关联匹配单元包括:
第一频率获取单元,被配置为执行获取所述目标主题词集中的主题词对应的第一频率,所述第一频率表征每个主题词在所述待处理多媒体资源中每个多媒体资源中出现的频率;
第二频率获取单元,被配置为执行获取所述目标主题词集中的主题词对应的第二频率,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
相关度权重确定单元,被配置为执行根据所述第一频率和所述第二频率,确定所述每个多媒体资源和所述每个主题词间的相关度权重;
主题关联度获取单元,被配置为执行根据所述相关度权重,对所述每个多媒体资源和所述每个主题词间的主题词相关度进行加权求和,得到所述每个多媒体资源和所述目标主题词集间的主题关联度;
关联资源获取单元,被配置为执行根据所述主题关联度,从所述待处理多媒体资源中得到所述主题关联多媒体资源。
作为一个可选的实施例,所述主题特征信息获取单元包括:
词特征信息获取单元,被配置为执行获取所述目标主题词集中每个主题词的词特征信息;
词特征权重获取单元,被配置为执行根据所述目标主题词集中的主题词对应的第二频率,确定每个主题词的特征权重,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
加权求和单元,被配置为执行根据所述每个主题词的特征权重,对所述每个主题词的词特征信息进行加权求和,得到所述主题特征信息。
作为一个可选的实施例,所述主题关联多媒体资源包括多个多媒体资源,所述资源特征信息获取单元包括:
初始特征信息获取单元,被配置为执行获取每个多媒体资源对应的初始资源特征信息;
关联主题词获取单元,被配置为执行确定与每个多媒体资源的关联主题词;
资源特征权重获取单元,被配置为执行根据每个关联主题词对应的第三频率和所述关联主题词,确定每个多媒体资源的特征权重,所述第三频率表征每个关联主题词在所述待处理多媒体资源中出现的频率;
特征加权单元,被配置为执行基于所述每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,得到所述资源特征信息。
作为一个可选的实施例,所述装置还包括:
历史资源获取模块,被配置为执行获取历史时间段内的多个多媒体资源;
搜索结果获取模块,被配置为执行获取与所述目标主题词集中每个主题词分别匹配的搜索词对应的多媒体资源搜索结果;
待处理多媒体资源获取模块,被配置为执行将所述历史时间段内的多个多媒体资源和所述多媒体资源搜索结果作为所述待处理多媒体资源。
作为一个可选的实施例,所述装置还包括:
质量信息获取模块,被配置为执行获取所述目标多媒体资源的多媒体资源质量信息;
比对模块,被配置为执行比对所述多媒体资源质量信息和预设的多媒体资源质量指标,得到质量比对结果;
多媒体资源集筛选模块,被配置为执行根据所述质量比对结果,对所述目标多媒体资源进行筛选,得到筛选后多媒体资源集。
根据本公开实施例的第四方面,提供一种多媒体资源的推荐装置,所述装置包括:
目标主题确定模块,被配置为执行响应于所述目标对象对应的多媒体资源推荐指令,从多个预设主题中确定目标主题;
多媒体资源集获取模块,被配置为执行获取所述目标主题对应的多媒体资源集,所述目标主题对应的多媒体资源集为基于上述所述的目标多媒体资源的获取方法得到的多媒体资源集;
资源推荐模块,被配置为执行向所述目标对象推荐所述目标主题对应的多媒体资源集。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述所述的目标多媒体资源的获取方法或上述所述的一种多媒体资源的推荐方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述所述的目标多媒体资源的获取方法或上述所述的一种多媒体资源的推荐方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述所述的目标多媒体资源的获取方法或上述所述的一种多媒体资源的推荐方法。
本公开的实施例提供的技术方案至少带来以下有益效果:该方法可以获取预设主题的初始主题词集,对初始主题词集中的主题词进行筛选,从初始主题词集中删除与预设主题非相关的主题词,得到预设主题的目标主题词集。基于目标主题词集,对待处理多媒体资源进行主题匹配,可以得到预设主题对应的目标多媒体资源。该方法通过对初始主题词集中的主题词进行进一步的筛选,提高主题词与预设主题间的一致性,并提高了目标主题词集和预设主题间的适配性,从而在基于目标主题词集对待处理多媒体资源进行主题匹配时,得到与预设主题间相关度更高的目标多媒体资源,提高了主题匹配的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种目标多媒体资源的获取方法的应用场景示意图。
图2是根据一示例性实施例示出的一种目标多媒体资源的获取方法的流程图。
图3是根据一示例性实施例示出的一种目标多媒体资源的获取方法中进行主题词筛选的流程图。
图4是根据一示例性实施例示出的一种目标多媒体资源的获取方法中得到每次主题词筛选对应的分类验证结果的流程图。
图5是根据一示例性实施例示出的一种目标多媒体资源的获取方法中对多个预设主题对应的初始主题词集进行主题词筛选的示意图。
图6是根据一示例性实施例示出的一种目标多媒体资源的获取方法中对待处理多媒体资源进行主题匹配的流程图。
图7是根据一示例性实施例示出的一种目标多媒体资源的获取方法中确定主题关联多媒体资源的流程图。
图8是根据一示例性实施例示出的一种目标多媒体资源的获取方法中得到每个多媒体资源的主题匹配结果的流程图。
图9是根据一示例性实施例示出的一种目标多媒体资源的获取方法中获取目标主题词集对应的主题特征信息的流程图。
图10是根据一示例性实施例示出的一种目标多媒体资源的获取方法中获取主题关联多媒体资源对应的资源特征信息的流程图。
图11是根据一示例性实施例示出的一种目标多媒体资源的获取方法中基于目标主题词集对待处理视频进行匹配的示意图。
图12是根据一示例性实施例示出的一种多媒体资源的推荐方法的流程图。
图13是根据一示例性实施例示出的一种目标多媒体资源的获取装置的框图。
图14是根据一示例性实施例示出的一种多媒体资源的推荐装置的框图。
图15是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种目标多媒体资源的获取方法的应用场景示意图,该应用场景包括服务器110和客户端120。在服务器110中对预设主题对应的初始主题词集进行主题词筛选,得到目标主题词集,并基于目标主题词集,从待处理多媒体资源集中得到与预设主题匹配的目标多媒体资源。根据客户端120发送的推荐请求或服务器110的主动向客户端120进行推荐的推荐业务,服务器110向客户端120发送推荐请求或推荐业务的目标主题对应的多媒体资源。
在本公开实施例中,服务器110可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器110可以包括有网络通信单元、处理器和存储器等等。具体的,服务器110可以对预设主题对应的初始主题词集进行主题词筛选,得到目标主题词集,并基于目标主题词集,从待处理多媒体资源集中得到与预设主题匹配的目标多媒体资源。
在本公开实施例中,客户端120包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。客户端120包括UI(User Interface,用户界面)层,客户端120通过UI层对外提供目标主题对应的多媒体资源的展示,另外,基于API(ApplicationProgramming Interface,应用程序接口)将接收服务器110发送的目标主题对应的多媒体资源。
图2是根据一示例性实施例示出的一种目标多媒体资源的获取方法的流程图,如图2所示,该方法用于服务器中,包括以下步骤。
S210.获取预设主题的初始主题词集;
作为一个可选的实施例,基于预设的主题模型,获取预设主题的初始主题词集。主题模型可以为通过狄利克雷先验、document-topic分布、topic-word分布等一系列统计学方法刻画多媒体资源对应的文本的生成过程,从而学习多媒体资源对应的主题的模型。多媒体资源可以包括视频、文本或图像。预设主题表征多个多媒体资源对应的同一主题,该预设主题可以基于初始主题词集中的一系列主题词进行描述,即符合预设主题的多媒体资源中初始主题词集中的主题词的出现概率高。
S220.对初始主题词集中的主题词进行筛选,得到预设主题的目标主题词集,目标主题词集为从初始主题词集中删除与预设主题非相关的主题词后得到的主题词集;
作为一个可选的实施例,对初始主题词集中的主题词进行筛选,可以将初始主题词集中与预设主题强相关的主题词筛选出来,并将初始主题词集中与预设主题词非相关的主题词删除,从而得到目标主题词集。
作为一个可选的实施例,对初始主题词集中的主题词进行筛选,得到预设主题的目标主题词集包括:
确定初始主题词集中每个主题词对应的至少一个分类验证结果,分类验证结果为衡量主题词与预设主题间的相关程度的指标;
基于至少一个分类验证结果,对初始主题词集中的主题词进行筛选,得到目标主题词集。
作为一个可选的实施例,对初始主题词集中的主题词进行筛选时,可以进行多次筛选。每一次主题词筛选时,可以得到每个主题词在本次主题词筛选时对应的分类验证结果,若主题词在第一次主题词筛选时就被确定与预设主题不相关,从初始主题词集中删除,则该主题词对应的分类验证结果只有一个。若主题词未在第一次主题词筛选时就被确定为非相关主题词,则从第二次主题词筛选开始,该主题词在每一次主题词筛选时均对应一个分类验证结果,直到该主题词被删除或主题词筛选结束,此时该主题词对应的分类验证结果有多个,因此初始主题词集中每个主题词对应至少一个分类验证结果。
作为一个可选的实施例,该分类验证结果可以为轮廓系数,轮廓系数可以在内聚度和分离度两种因素上评价分类的优劣,因此可以确定每个主题词与其他主题词分为一类时的分类正确,还是每个主题词与其他主题词不分为一类时的分类正确,从而确定每个主题词与预设主题间的相关程度。
作为一个可选的实施例,在每一次主题词筛选时,根据每一次主题词筛选对应的分类验证结果,确定与其他主题词不能分为一类的待删除的主题词,经过多次主题词筛选,可以得到多个待删除的主题词,从初始主题词集中删除这些待删除的主题词,可以得到目标主题词集。目标主题词集中的主题词均为与预设主题相关度高的主题词。
基于分类验证结果,对主题词进行筛选,验证主题词是否与预设主题相关,可以得到与预设主题相关度高的主题词,提高了目标主题词集中主题词与预设主题间的相关度,从而提高了目标主题词集与预设主题间的适配性。
作为一个可选的实施例,至少一次分类验证结果包括每次主题词筛选对应的分类验证结果,请参见图3,基于至少一个分类验证结果,对初始主题词集中的主题词进行筛选,得到目标主题词集包括:
S310.从当前获取的分类验证结果中确定目标分类验证结果,当前获取的分类验证结果为每次主题词筛选对应的当前主题词集中,每个主题词对应的分类验证结果,当前主题词集为基于每次主题词筛选的上一次主题词筛选的筛选结果得到的主题词集;
S320.从初始主题词集中删除目标分类验证结果对应的主题词,得到目标相关主题词集;
S330.在目标相关主题词集中的主题词数目小于等于预设数目,或目标相关主题词集中每个主题词对应的分类验证结果达到预设收敛阈值的情况下,将目标相关主题词集作为目标主题词集;
作为一个可选的实施例,在进行主题词筛选时,可以基于贪心算法进行多次主题词筛选。根据每一次主题词筛选对应的当前主题词集,均可以获取该当前主题词集中每个主题词对应的分类验证结果,即得到当前获取的分类验证结果。确定当前获取的分类验证结果中的最大值,将该最大值作为目标分类验证结果,并从当前主题词集中删除目标分类验证结果对应的主题词,可以得到目标相关主题词集。在目标相关主题词集中的主题词小于等于预设数目或目标相关主题词集对应的分类验证结果达到预设收敛阈值的情况下,可以将目标相关主题词集确定为目标主题词集。
作为一个可选的实施例,在初始主题词集中,包括主题词A、主题词B、主题词C、主题词D和主题词E五个主题词,在第一次主题词筛选时,将初始主题词集作为当前主题词集,当前获取的分类验证结果包括主题词A对应的分类验证结果,主题词B对应的分类验证结果,主题词C对应的分类验证结果,主题词D对应的分类验证结果和主题词E对应的分类验证结果,对这五个分类验证结果进行比对,若主题词C对应的分类验证结果为这五个分类验证结果中的最大值,则将主题词C对应的分类验证结果作为目标分类验证结果,从初始主题词集中删除主题词C,得到目标相关主题词集,若此时主题词A对应的分类验证结果,主题词B对应的分类验证结果,主题词D对应的分类验证结果和主题词E对应的分类验证结果达到预设收敛阈值,则可以将目标相关主题词集作为目标主题词集。
作为一个可选的实施例,基于每次主题词筛选的上一次主题词筛选的筛选结果,可以确定本次主题词筛选对应的当前主题词集,在目标相关主题词集中的主题词数目大于预设数目,且目标相关主题词集对应的分类验证结果未达到预设收敛阈值的情况下,即在目标相关主题词集均不满足预设数目和预设收敛阈值中任一一个条件的情况下,可以将目标相关主题词集作为当前主题词集。在进行多次主题词筛选后,目标相关主题词集均满足预设数目和预设收敛阈值中任一一个条件,则可以将目标相关主题词集作为目标主题词集。
在进行多次主题词筛选时,重复获取当前主题词集中主题词对应的分类验证结果,得到当前获取的分类验证结果,并从当前获取的分类验证结果中确定目标分类验证结果,从初始主题词集中删除目标分类验证结果对应的主题词,得到目标相关主题词集的步骤,再确定此时得到的目标相关主题词集中的主题词数目是否小于等于预设数目或目标相关主题词集对应的分类验证结果是否达到预设收敛阈值,如仍然不满足这两个条件中的任一一个条件,可以再次重复上述步骤,直到目标相关主题词集中的主题词数目小于等于预设数目,或目标相关主题词集对应的分类验证结果达到预设收敛阈值为止,将目标相关主题词集作为目标主题词集。
目标相关主题词集中的主题词数目小于等于预设数目说明删除了部分与预设主题不相关的主题词,目标相关主题词集对应的分类验证结果达到预设收敛阈值说明目标相关主题词集中的主题词均属于同一分类,即均与预设主题相关,因此可以根据这两个条件判断是否可以将目标相关主题词集作为目标主题词集。
作为一个可选的实施例,在初始主题词集中,包括主题词A、主题词B、主题词C、主题词D和主题词E五个主题词,在第一次主题词筛选时,将初始主题词集作为当前主题词集,当前获取的分类验证结果包括主题词A对应的分类验证结果,主题词B对应的分类验证结果,主题词C对应的分类验证结果,主题词D对应的分类验证结果和主题词E对应的分类验证结果,对这五个分类验证结果进行比对,若主题词C对应的分类验证结果为这五个分类验证结果中的最大值,则将主题词C对应的分类验证结果作为目标分类验证结果,从初始主题词集中删除主题词C,得到目标相关主题词集。
若此时预设数目为3个主题词,则将该目标相关主题词集作为当前主题词集,进行第二次主题词筛选,当前获取的分类验证结果包括主题词A对应的分类验证结果,主题词B对应的分类验证结果,主题词D对应的分类验证结果和主题词E对应的分类验证结果,对这四个分类验证结果进行比对,若主题词A对应的分类验证结果为这四个分类验证结果中的最大值,则将主题词A对应的分类验证结果作为目标分类验证结果,从第二次主题词筛选对应的当前主题词集中删除主题词A,得到目标相关主题词集,此时目标相关主题词集中的主题词满足数目为3的条件,则将该目标相关主题词集作为目标主题词集。
在目标相关主题词集中的主题词数目小于等于预设数目,或目标相关主题词集中主题词对应的分类验证结果达到预设收敛阈值的情况下,输出目标主题词集,通过缩减主题词的数目,或者确定目标相关主题词集中的主题词均可以分为同一类,可以提高主题词筛选的准确性,删除与预设主题相关度较低的主题词,并进一步提高了目标主题词集与预设主题词间的适配性。
作为一个可选的实施例,请参见图4,在至少一次分类验证结果包括每次主题词筛选对应的分类验证结果的情况下,确定初始主题词集中每个主题词对应的至少一个分类验证结果包括:
S410.获取每次主题词筛选对应的当前主题词集;
S420.对当前主题词集中的每个主题词执行遍历步骤,得到当前主题词集中每个主题词对应的分类验证结果;
遍历步骤包括:
S4201.确定当前遍历到的主题词与其他主题词间的第一相关度,其他主题词为当前主题词集中除当前遍历到的主题词以外的主题词;
S4202.确定其他主题词间的第二相关度;
S4203.根据第一相关度和第二相关度,得到当前遍历到的主题词对应的分类验证结果。
作为一个可选的实施例,获取每次主题词筛选对应的当前主题词集时,在第一次主题词筛选时,将初始主题词集作为当前主题词集,若在第一次主题词筛选之后,第一次主题词筛选对应的目标相关主题词集中,主题词数目大于预设数目,或该第一次主题词筛选对应的目标相关主题词集对应的分类验证结果未达到预设阈值的情况下,将该目标相关主题词集作为当前主题词集,再进行一次主题词筛选。
作为一个可选的实施例,在每一次主题词筛选中,确定当前主题词集中主题词对应的分类验证结果时,可以对当前主题词集中的主题词进行遍历,确定当前遍历到的主题词与其他主题词中每个主题词间的相关度,将这些相关度进行平均,可以得到第一相关度从而确定当前遍历到的主题词与其他主题词间的分离度。
确定其他主题词中两两主题词间的相关度,对这些相关度进行平均,可以得到第二相关度,从而确定其他主题词之间的内聚度。根据第一相关度和第二相关度,确定是当前遍历到的主题词更适合单独分为一类,还是当前遍历到的主题词更适合与其他主题词分为一类,从而得到当前遍历到的主题词对应的分类验证结果。在遍历到同一当前主题词集中的其他主题词时,均采用同样的方式计算第一相关度和第二相关度,得到此时遍历到的其他主题词对应的分类验证结果,直到得到当前主题词集中每个主题词对应的分类验证结果,此时结束遍历。
作为一个可选的实施例,第一相关度和第二相关度均可以为余弦相似度的平均值。在进行余弦相似度的计算时,可以先将主题词转换为词嵌入向量,再对词嵌入向量进行余弦相似度的计算。词嵌入向量可以基于word2vec模型得到。
在第一相关度和第二相关度均可以为余弦相似度的平均值的情况下,将第一相关度转换为第一距离,将第二相关度转换为第二距离。根据第一距离和第二距离,计算当前遍历到的主题词对应的轮廓系数。轮廓系数可以在内聚度和分离度两种因素上评价分类的优劣。因此轮廓系数可以作为分类验证结果。具体的计算公式如下:
Figure 246151DEST_PATH_IMAGE001
其中,
Figure 60523DEST_PATH_IMAGE002
表示主题词j的轮廓系数,
Figure 571401DEST_PATH_IMAGE003
表示分离度,也就是第一距离,
Figure 838435DEST_PATH_IMAGE004
表示内聚度,也就是第二距离。
Figure 975018DEST_PATH_IMAGE005
表征相关主题词集,
Figure 830847DEST_PATH_IMAGE006
表征非相关主题词集。
轮廓系数越大说明分类越合理,而分类合理说明将轮廓系数最大值对应主题词与其他主题词分开是一个正确的分类,即该主题词应该被删除,因此,将从每个主题词对应的轮廓系数中选择轮廓系数最大的值,从当前主题词集中将轮廓系数最大的值对应的主题词删除,可以得到目标相关主题词集。
作为一个可选的实施例,将每一次主题词筛选对应的当前主题词集分为相关主题词集和非相关主题词集。将初始主题词集作为当前主题词集,对当前主题词集中的主题词进行遍历,将当前遍历到的主题词增加到非相关主题词集中。将当前主题词集中的除当前遍历到的主题词以外的其他主题词增加到相关主题词集中。
计算非相关主题词集的主题词和相关主题词集中的主题词之间的第一相关度,计算相关主题词集内两两主题词间的第二相关度根据第一相关度和第二相关度,计算得到当前遍历到的主题词对应的分类验证结果,之后进行下一个主题词对应的分类验证结果的计算,如此重复多次,直到遍历完当前主题词集中的全部主题词为止。
获取每个当前主题词集中每个主题词对应的轮廓系数,基于轮廓系数,可以根据每个主题词与其他主题词的分离度和其他主题词间的内聚度,确定每个主题词与其他主题词是否可以分为两类,提高了分类验证结果的准确性,并进一步提高了主题词筛选的准确性。
作为一个可选的实施例,请参见图5,如图5所示为对多个预设主题对应的初始主题词集进行主题词筛选的示意图。获取每个预设主题对应的初始主题词集,将初始主题词集作为当前主题词集,对当前主题词集中的主题词进行遍历,将当前遍历到的主题词分到非相关主题词集中,将当前主题词集中的其他主题词分到相关主题词集。将初始主题词集中的每个主题词转换为词特征信息,基于词特征信息,计算非相关主题词集的主题词和相关主题词集的主题词间的第一距离,计算相关主题词集内两两主题词间的第二距离。根据第一距离和第二距离,计算当前遍历到的主题词主题词对应的轮廓系数,并在遍历结束时,得到每个主题词对应的轮廓系数。从当前主题词集中删除轮廓系数为最大值的主题词,得到目标相关主题词集。在目标相关主题词集中的主题词数目大于预设数目,或目标相关主题词集对应的分类验证结果未达到预设收敛阈值的情况下,将目标相关主题词集作为当前主题词集,重复对当前主题词集中的主题词进行遍历,得到当前主题词集中的主题词对应的轮廓系数,并从当前主题词集中删除轮廓系数最大值对应的主题词,得到目标相关主题词集的步骤,直到目标相关主题词集中的主题词数目小于等于预设数目,或目标相关主题词集对应的分类验证结果达到预设收敛阈值,可以将目标相关主题词集确定为该预设主题对应的目标主题词集。之后,对每个预设主题对应的初始主题词集均按照上述步骤进行处理,可以得到每个预设主题对应的目标主题词集。
假设其他主题词分到相关主题词集中,而当前遍历到的主题词分到非相关主题词集中,通过计算当前遍历到的主题词对应的轮廓系数,根据每个主题词对应的轮廓系数,获取轮廓系数最大值对应的主题词,即该主题词分到非相关主题词集的分类方式为正确分类,说明该主题词应该作为非相关的主题词,可以从当前主题词集中删除该主题词,可以减少初始主题词集中的非相关主题词,提高了目标主题词集与预设主题间的相关度,从而提高了目标主题词集与预设主题间的适配性。
S230.基于目标主题词集,对待处理多媒体资源进行主题匹配,得到预设主题对应的目标多媒体资源。
作为一个可选的实施例,对待处理多媒体资源和目标主题词集中的主题词进行不同匹配精度的两次主题匹配,可以得到预设主题对应的目标多媒体资源。
作为一个可选的实施例,请参见图6,基于目标主题词集,对待处理多媒体资源进行主题匹配,得到目标主题词集的主题对应的目标多媒体资源包括:
S610.基于目标主题词集中的主题词,在待处理多媒体资源中确定主题关联多媒体资源;
S620.对预设主题和主题关联多媒体资源进行匹配,得到主题关联多媒体资源对应的主题匹配结果;
S630.根据主题匹配结果,从主题关联多媒体资源中得到目标多媒体资源。
作为一个可选的实施例,在基于目标主题词集中的主题词,对待处理多媒体资源进行第一次匹配时,可以得到与目标主题词集的预设主题关联的多媒体资源,即主题关联多媒体资源。在基于目标主题词集中的主题词,对待处理多媒体资源进行第二次匹配时,可以得到与目标主题词集的预设主题匹配的多媒体资源,即目标多媒体资源。
作为一个可选的实施例,在第一次主题匹配时,可以基于目标主题词集,在待处理多媒体资源中进行多媒体资源的搜索,在进行搜索时计算每个主题词和每个多媒体资源间的主题词相关度及相关度权重,得到目标主题词集和每个多媒体资源间的主题关联度。根据主题关联度,从待处理多媒体资源中选择主题关联多媒体资源。
作为一个可选的实施例,在第二次主题匹配时,可以对目标主题词集对应的预设主题和主题关联多媒体资源间进行语义特征匹配,即计算目标主题词集对应的预设主题和主题关联多媒体资源间的主题相似度,根据主题相似度,从主题关联多媒体资源中选择目标多媒体资源。第一次主题匹配为相关度匹配,第二次主题匹配为特征匹配,第二次主题匹配的匹配精度大于第一次主题匹配的匹配精度。
作为一个可选的实施例,可以基于多个预设主题对应的目标主题词集,从待处理多媒体资源中确定每个预设主题对应的主题关联多媒体资源,并对每个预设主题和对应的主题关联多媒体资源进行匹配,得到每个预设主题对应的主题匹配结果。根据主题匹配结果,从主题关联多媒体资源中可以得到预设主题对应的目标多媒体资源。
执行两次不同匹配精度的主题匹配,在第一次匹配的时候确定与预设主题关联的多媒体资源,在第二次匹配的时候确定与预设主题匹配的多媒体资源,可以根据预设主题,逐步缩小范围,对目标多媒体资源进行筛选,从而可以避免在一次匹配的情况下,导致的筛选成本较高或遗漏目标多媒体资源的问题,提高了主题匹配的准确性。
作为一个可选的实施例,请参见图7,基于目标主题词集中的主题词,在待处理多媒体资源中确定主题关联多媒体资源包括:
S710.获取目标主题词集中的主题词对应的第一频率,第一频率表征每个主题词在待处理多媒体资源中每个多媒体资源中出现的频率;
S720.获取目标主题词集中的主题词对应的第二频率,第二频率表征每个主题词在待处理多媒体资源中出现的频率;
S730.根据第一频率和第二频率,确定每个多媒体资源和每个主题词间的相关度权重;
S740.根据相关度权重,对每个多媒体资源和每个主题词间的主题词相关度进行加权求和,得到每个多媒体资源和目标主题词集间的主题关联度;
S650.根据主题关联度,从待处理多媒体资源中得到主题关联多媒体资源。
作为一个可选的实施例,基于预设的相似度算法,可以对目标主题词集中的主题词和待处理多媒体资源进行第一次主题匹配。相似度算法可以为BM25算法,基于BM25算法可以在基于主题词确定主题关联多媒体资源时增加词频-逆文档频率(term frequency–inverse document frequency,TF-IDF)作为相关度权重。
目标主题词集中的主题词对应的第一频率可以为词频,也就是每个主题词在待处理多媒体资源中每个多媒体资源中出现的频率。目标主题词集中主题词对应的第二频率可以为逆文档频率,也就是每个主题词在待处理多媒体资源中出现的频率。基于每个主题词在待处理多媒体资源中进行查询,可以得到每个主题词匹配的多媒体资源,在每个主题词匹配的多媒体资源中均包含该主题词。根据每个主题词匹配的多媒体资源中出现该主题词的数目,得到每个主题词的第一频率。根据待处理多媒体资源中多媒体资源的数目和每个主题词匹配的多媒体资源的数目,可以确定每个主题词的第二频率。
根据第一频率和第二频率,计算每个主题词和每个多媒体资源间的相关度权重。并在计算目标主题词集和每个多媒体资源的主题关联度时,基于相关度权重,对每个主题词和每个多媒体资源间的主题词相关度进行加权求和,得到每个多媒体资源和目标主题词集间的主题关联度。
按照主题关联度的大小,从大到小进行排序,得到待处理多媒体资源序列,从待处理多媒体资源序列中获取前预设数目个多媒体资源作为主题关联多媒体资源,或获取主题关联度大于预设主题词相关度阈值的多媒体资源为主题关联多媒体资源。
作为一个可选的实施例,可以部署搜索引擎,并根据预设的相似度算法,对搜索引擎进行配置。例如部署开源的搜索引擎,根据预设的BM25算法,对ElasticSearch搜索引擎进行配置。将待处理多媒体资源插入到搜索引擎中,建立待处理多媒体资源的索引,将目标主题词集作为搜索信息(query),在搜索引擎中进行多媒体资源的搜索,得到按照主题关联度进行排序的待处理多媒体资源序列,从待处理多媒体资源序列中获取前预设数目个多媒体资源作为主题关联多媒体资源。
通过对目标主题词集和待处理多媒体资源进行关联匹配,可以基于主题词和多媒体资源间的关联程度,对待处理多媒体资源进行粗筛,得到每个预设主题对应的主题关联多媒体资源,可以通过粗筛选缩小目标多媒体资源对应的范围,便于后续对每个预设主题对应的目标多媒体资源进行筛选,减少了主题匹配的筛选成本,在后续主题筛选的步骤中便可以提高主题筛选的精确度,进一步提高了主题匹配的准确性。
作为一个可选的实施例,请参见图8,主题匹配结果包括主题相似度,对预设主题和主题关联多媒体资源进行匹配,得到主题关联多媒体资源的主题匹配结果,得到每个多媒体资源的主题匹配结果包括:
S810.获取目标主题词集对应的主题特征信息;
S820.获取主题关联多媒体资源对应的资源特征信息;
S830.确定主题特征信息和资源特征信息间的主题相似度。
作为一个可选的实施例,对目标主题词集中主题词的词特征信息进行相加求和,得到目标主题词集对应的主题特征信息。词特征信息可以为词嵌入向量,通过向量求和的方式,计算得到主题特征信息。在相加求和得到主题特征信息时,可以对每个词特征信息进行加权求和,得到主题特征信息。
计算主题关联多媒体资源中每个多媒体资源的资源嵌入向量,将资源嵌入向量作为主题关联多媒体资源对应的资源特征信息。在计算资源特征信息时,还可以将资源嵌入向量作为初始资源特征信息,对每个初始资源特征信息进行加权,得到资源特征信息。
计算主题特征信息和每个多媒体资源的资源特征信息间的特征相似度,可以得到主题相似度。按照主题相似度的大小,从大到小进行排序,得到主题关联多媒体资源序列,从主题关联多媒体资源序列中获取前预设数目个多媒体资源作为目标多媒体资源,或获取主题相似度大于预设主题相似度阈值的多媒体资源为目标多媒体资源。
主题相似度可以为余弦相似度,在为余弦相似度时,由于余弦相似度越大表征目标主题词集和主题关联多媒体资源间的相似度越低,因此按照余弦相似度的大小,从小到大进行排序,得到主题关联多媒体资源序列,从主题关联多媒体资源序列中获取前预设数目个多媒体资源作为目标多媒体资源,或获取余弦相似度小于预设余弦相似度阈值的多媒体资源为目标多媒体资源。
通过对主题特征信息和资源特征信息进行匹配,可以基于预设主题和多媒体资源间的特征,对主题关联多媒体资源进行高精度的特征筛选,提高了主题筛选的精确度,从而可以提高主题匹配的准确性。
作为一个可选的实施例,请参见图9,获取目标主题词集对应的主题特征信息包括:
S910.获取目标主题词集中每个主题词的词特征信息;
S920.根据目标主题词集中的主题词对应的第二频率,确定每个主题词的特征权重,第二频率表征每个主题词在待处理多媒体资源中出现的频率;
S930.根据每个主题词的特征权重,对每个主题词的词特征信息进行加权求和,得到主题特征信息。
作为一个可选的实施例,目标主题词集中的主题词对应的第二频率可以为逆文档频率,该第二频率与在第一次匹配过程中使用的第二频率相同,即根据待处理多媒体资源中多媒体资源的数目和具有某一主题词的多媒体资源的数目,可以确定该主题词的第二频率。
计算目标主题词集中每个主题词的词特征信息,词特征信息可以为词嵌入向量。根据第二频率,对目标主题词集对应的多个词特征信息进行加权求和,可以得到目标主题词集对应的主题特征信息。
对每个词特征信息进行加权,可以通过特征权重描述多媒体资源与目标主题词集对应的预设主题间的相关程度,在进行主题匹配时,通过多媒体资源与预设主题间的相关度,得到更有可能与预设主题匹配的多媒体资源,从而可以提高主题匹配的有效性。
作为一个可选的实施例,请参见图10,主题关联多媒体资源包括多个多媒体资源,获取主题关联多媒体资源对应的资源特征信息包括:
S1010.获取每个多媒体资源对应的初始资源特征信息;
S1020.确定与每个多媒体资源的关联主题词;
S1030.根据每个关联主题词对应的第三频率,确定每个多媒体资源的特征权重,第三频率表征每个关联主题词在待处理多媒体资源中出现的频率;
S1040.基于每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,得到资源特征信息。
作为一个可选的实施例,每个关联主题词对应的第三频率可以为逆文档频率。确定与每个多媒体资源的关联主题词,将每个关联主题词对应的第二频率作为每个关联主题词对应的第三频率,即该第三频率同样与在第一次匹配过程中使用的第二频率相同。
计算每个多媒体资源的关联主题词对应的第三频率的和值,可以将第三频率的和值作为对应的多媒体资源的特征权重。
计算每个多媒体资源对应的资源嵌入向量,将资源嵌入向量作为每个多媒体资源对应的初始资源特征信息。基于每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,可以得到资源特征信息。
对每个多媒体资源进行加权,可以通过特征权重描述多媒体资源与目标主题词集对应的预设主题间的相关程度,在进行主题匹配时,通过多媒体资源与预设主题间的相关度,得到更有可能与预设主题匹配的多媒体资源,从而可以提高主题匹配的有效性。
作为一个可选的实施例,该方法还包括:
获取历史时间段内的多个多媒体资源;
获取与目标主题词集中每个主题词分别匹配的搜索词对应的多媒体资源搜索结果;
将历史时间段内的多个多媒体资源和多媒体资源搜索结果作为待处理多媒体资源。
作为一个可选的实施例,从历史时间段内获取的多媒体资源中选择部分多媒体资源,并通过多媒体资源搜索结果对这部分多媒体资源进行扩充,可以得到待处理多媒体资源。
在得到目标主题词集后,将目标主题词集中的每个主题词和用户搜索时使用的搜索词进行匹配,获取与主题词匹配的搜索词对应的多媒体资源搜索结果。用户搜索时使用的搜索词和多媒体资源搜索结果可以从搜索日志中得到。
通过多媒体资源搜索结果,对历史时间段内获取的多媒体资源进行扩充,可以将潜在的多媒体资源增加到待处理多媒体资源中,扩展了主题匹配的范围,避免遗漏目标多媒体资源,从而提高了主题匹配的全面性。
作为一个可选的实施例,该方法还包括:
获取目标多媒体资源的多媒体资源质量信息;
比对多媒体资源质量信息和预设的多媒体资源质量指标,得到质量比对结果;
根据质量比对结果,对目标多媒体资源进行筛选,得到筛选后多媒体资源集。
作为一个可选的实施例,预设的多媒体资源质量指标可以包括资源数量阈值、资源日龄阈值或资源消费阈值等不同指标中的一个或多个。多媒体资源质量信息可以包括多媒体资源的数目、多媒体资源的日龄数据或多媒体资源的消费数据等不同质量信息中的一个或多个。目标多媒体资源可以包括同一预设主题对应的多个多媒体资源。
获取目标多媒体资源中的多媒体资源的数目,将多媒体资源的数目和资源数量阈值进行比对,筛选出多媒体资源的数目大于资源数量阈值的目标多媒体资源,可以过滤掉多媒体资源的数目小于预设数目的目标多媒体资源。
获取目标多媒体资源中的多媒体资源的日龄数据,将多媒体资源的日龄数据和资源日龄阈值进行比对,筛选出多媒体资源的日龄小于资源日龄阈值的目标多媒体资源,日龄数据可以反映多媒体资源的发布时间,可以过滤掉多媒体资源的发布时间大于预设时间的目标多媒体资源。
获取目标多媒体资源中的多媒体资源的消费数据,将多媒体资源的消费数据和资源日龄阈值进行比对,筛选出多媒体资源的消费数据大于资源消费数据阈值的目标多媒体资源,消费数据可以反映多媒体资源的热度,可以过滤掉多媒体资源的热度小于预设热度的目标多媒体资源。
作为一个可选的实施例,在得到筛选后多媒体资源集后,可以根据预设主题在筛选后多媒体资源集中多媒体资源中增加对应的主题标签,基于主题标签可以进行主题推荐、确定新用户对应的消费主题标签或更新用户的历史消费中的主题标签,从而基于用户画像进行多媒体资源的推荐。
基于预设的多媒体资源质量指标,对目标多媒体资源进行质量检测,可以得到符合多媒体资源质量指标的目标多媒体资源,即对目标多媒体资源进行筛选,从而提高了目标多媒体资源的质量和可用性,在后续应用目标多媒体资源时,避免将质量较差的目标多媒体资源发送给用户,提高了用户体验。
作为一个可选的实施例,在待处理多媒体资源为视频的情况下,请参见图11,如图11所示为基于目标主题词集对待处理视频进行匹配的示意图。将历史时间内获取的视频作为原始视频池,将基于目标主题词集从搜索日志中获取的视频作为搜索视频池,原始视频池和搜索视频池构成候选视频池。基于每个预设主题对应的目标主题词集,从候选视频池中的视频中确定每个预设主题对应的主题关联视频,将每个预设主题对应的主题关联视频存储到粗召视频池中,在确定主题关联视频的过程中,可以基于词频-逆文档频率,对目标主题词集中的每个主题词增加相关度权重。基于目标主题词集中每个主题词的词嵌入向量,计算每个预设主题与对应的主题关联视频间的余弦相似度,根据余弦相似度,得到每个预设主题匹配的目标视频,将每个预设主题对应的目标视频存储到精排视频池中。对每个预设主题匹配的目标视频进行质量检测,可以得到主题视频集。
图12是根据一示例性实施例示出的一种多媒体资源的推荐方法,请参见图12,该方法包括:
S1210.响应于目标对象对应的多媒体资源推荐指令,从多个预设主题中确定目标主题;
S1220.获取目标主题对应的多媒体资源集,目标主题对应的多媒体资源集为基于上述的目标多媒体资源的获取方法得到的多媒体资源集;
S1230.向目标对象推荐目标主题对应的多媒体资源集。
作为一个可选的实施例,多媒体资源推荐指令可以为基于用户输入的多媒体资源搜索信息转换得到的多媒体资源推荐指令,也可以为基于用户的画像信息生成的多媒体资源推荐指令。将预设主题与用户输入的多媒体资源搜索信息或用户的画像信息进行比对,确定与多媒体资源搜索信息或画像信息匹配的目标主题。
获取目标主题对应的多媒体资源集,目标主题对应的多媒体资源集为基于上述的目标多媒体资源的获取方法中的主题词提纯步骤和多媒体资源匹配步骤得到的多媒体资源集。
目标对象可以为用户,在向目标用户推荐目标主题对应的多媒体资源集时,可以将目标主题对应的多媒体资源集作为搜索结果返回,也可以在用户界面上根据目标主题展示对应的多媒体资源集,例如在短视频推荐中的垂类合集应用场景中,通过异形卡片的方式进行展示,或在发现页上联动目标主题对应的多媒体资源集。
在进行多媒体资源推荐时,通过目标多媒体资源的获取方法可以得到与目标主题间的相关度更高的主题词集,从而得到得到与目标主题间的相关度更高的多媒体资源集,从而可以向用户推荐该相关性更高的多媒体资源集,提高了多媒体资源推荐的准确性。
本公开提出了一种目标多媒体资源的获取方法,该方法可以获取预设主题的初始主题词集,对初始主题词集中的主题词进行筛选,从初始主题词集中删除与预设主题非相关的主题词,得到预设主题的目标主题词集。基于目标主题词集,对待处理多媒体资源进行主题匹配,可以得到预设主题对应的目标多媒体资源。该方法通过对初始主题词集中的主题词进行进一步的筛选,提高主题词与预设主题间的一致性,并提高了目标主题词集和预设主题间的适配性,从而在基于目标主题词集对待处理多媒体资源进行主题匹配时,得到与预设主题间相关度更高的目标多媒体资源,提高了主题匹配的准确性。
图13是根据一示例性实施例示出的一种目标多媒体资源的获取装置的框图。参照图13,该装置包括:
初始主题词集获取模块1310,被配置为执行获取预设主题的初始主题词集;
主题词筛选模块1320,被配置为执行对初始主题词集中的主题词进行筛选,得到预设主题的目标主题词集,目标主题词集为从初始主题词集中删除与预设主题非相关的主题词后得到的主题词集;
目标多媒体资源获取模块1330,被配置为执行基于目标主题词集,对待处理多媒体资源进行主题匹配,得到预设主题对应的目标多媒体资源。
作为一个可选的实施例,主题词筛选模块1320包括:
分类验证结果获取单元,被配置为执行确定初始主题词集中每个主题词对应的至少一个分类验证结果,分类验证结果为衡量主题词与预设主题间的相关程度的指标;
主题词筛选单元,被配置为执行基于至少一个分类验证结果,对初始主题词集中的主题词进行筛选,得到目标主题词集。
作为一个可选的实施例,至少一个分类验证结果包括每次主题词筛选对应的分类验证结果,主题词筛选单元包括:
目标分类验证结果确定单元,被配置为执行从每次主题词筛选对应的分类验证结果中确定目标分类验证结果,每次主题词筛选对应的分类验证结果为每次主题词筛选对应的当前主题词集中,每个主题词对应的分类验证结果,当前主题词集为基于每次主题词筛选的上一次主题词筛选的筛选结果得到的主题词集;
目标相关主题词集获取单元,被配置为珍惜从初始主题词集中删除目标分类验证结果对应的主题词,得到目标相关主题词集;
目标主题词集确定单元,被配置为执行在目标相关主题词集中的主题词数目小于等于预设数目,或目标相关主题词集中每个主题词对应的分类验证结果达到预设收敛阈值的情况下,将目标相关主题词集作为目标主题词集。
作为一个可选的实施例,在至少一个分类验证结果包括每次主题词筛选对应的分类验证结果的情况下,分类验证结果获取单元包括:
当前主题词集获取单元,被配置为执行获取每次主题词筛选对应的当前主题词集;
主题词遍历单元,被配置为执行对当前主题词集中的每个主题词执行遍历步骤,得到当前主题词集中每个主题词对应的分类验证结果;
主题词遍历单元包括:
第一相关度确定单元,被配置为执行确定当前遍历到的主题词与其他主题词间的第一相关度,其他主题词为当前主题词集中除当前遍历到的主题词以外的主题词;
第二相关度确定单元,被配置为执行确定其他主题词间的第二相关度;
分类验证结果确定单元,被配置为执行根据第一相关度和第二相关度,得到当前遍历到的主题词对应的分类验证结果。
作为一个可选的实施例,目标多媒体资源获取模块包括:
关联匹配单元,被配置为执行基于目标主题词集中的主题词,在待处理多媒体资源中确定主题关联多媒体资源;
主题匹配单元,被配置为执行对预设主题和主题关联多媒体资源进行匹配,得到主题关联多媒体资源对应的主题匹配结果;
目标多媒体资源获取单元,被配置为执行根据主题匹配结果,从主题关联多媒体资源中得到目标多媒体资源。
作为一个可选的实施例,主题匹配结果包括主题相似度,主题匹配单元包括:
主题特征信息获取单元,被配置为执行获取目标主题词集对应的主题特征信息;
资源特征信息获取单元,被配置为执行获取主题关联多媒体资源对应的资源特征信息;
主题相似度确定单元,被配置为执行确定主题特征信息和资源特征信息间的主题相似度。
作为一个可选的实施例,关联匹配单元包括:
第一频率获取单元,被配置为执行获取目标主题词集中的主题词对应的第一频率,第一频率表征每个主题词在待处理多媒体资源中每个多媒体资源中出现的频率;
第二频率获取单元,被配置为执行获取目标主题词集中的主题词对应的第二频率,第二频率表征每个主题词在待处理多媒体资源中出现的频率;
相关度权重确定单元,被配置为执行根据第一频率和第二频率,确定每个多媒体资源和每个主题词间的相关度权重;
主题关联度获取单元,被配置为执行根据相关度权重,对每个多媒体资源和每个主题词间的主题词相关度进行加权求和,得到每个多媒体资源和目标主题词集间的主题关联度;
关联资源获取单元,被配置为执行根据主题关联度,从待处理多媒体资源中得到主题关联多媒体资源。
作为一个可选的实施例,主题特征信息获取单元包括:
词特征信息获取单元,被配置为执行获取目标主题词集中每个主题词的词特征信息;
词特征权重获取单元,被配置为执行根据目标主题词集中的主题词对应的第二频率,确定每个主题词的特征权重,第二频率表征每个主题词在待处理多媒体资源中出现的频率;
加权求和单元,被配置为执行根据每个主题词的特征权重,对每个主题词的词特征信息进行加权求和,得到主题特征信息。
作为一个可选的实施例,主题关联多媒体资源包括多个多媒体资源,资源特征信息获取单元包括:
初始特征信息获取单元,被配置为执行获取每个多媒体资源对应的初始资源特征信息;
关联主题词获取单元,被配置为执行确定与每个多媒体资源的关联主题词;
资源特征权重获取单元,被配置为执行根据每个关联主题词对应的第三频率和关联主题词,确定每个多媒体资源的特征权重,第三频率表征每个关联主题词在待处理多媒体资源中出现的频率;
特征加权单元,被配置为执行基于每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,得到资源特征信息。
作为一个可选的实施例,装置还包括:
历史资源获取模块,被配置为执行获取历史时间段内的多个多媒体资源;
搜索结果获取模块,被配置为执行获取与目标主题词集中每个主题词分别匹配的搜索词对应的多媒体资源搜索结果;
待处理多媒体资源获取模块,被配置为执行将历史时间段内的多个多媒体资源和多媒体资源搜索结果作为待处理多媒体资源。
作为一个可选的实施例,装置还包括:
质量信息获取模块,被配置为执行获取目标多媒体资源的多媒体资源质量信息;
比对模块,被配置为执行比对多媒体资源质量信息和预设的多媒体资源质量指标,得到质量比对结果;
多媒体资源集筛选模块,被配置为执行根据质量比对结果,对目标多媒体资源进行筛选,得到筛选后多媒体资源集。
图14是根据一示例性实施例示出的一种多媒体资源的推荐装置的框图。参照图14,该装置包括:
目标主题确定模块1410,被配置为执行响应于目标对象对应的多媒体资源推荐指令,从多个预设主题中确定目标主题;
多媒体资源集获取模块1420,被配置为执行获取目标主题对应的多媒体资源集,目标主题对应的多媒体资源集为基于上述目标多媒体资源的获取方法得到的多媒体资源集;
资源推荐模块1430,被配置为执行向目标对象推荐目标主题对应的多媒体资源集。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图15是根据一示例性实施例示出的一种用于目标多媒体资源的获取的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图15所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标多媒体资源的获取方法或上述所述的一种多媒体资源的推荐方法。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1504,上述指令可由电子设备1500的处理器1520执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述的目标多媒体资源的获取方法或上述的一种多媒体资源的推荐方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (24)

1.一种目标多媒体资源的获取方法,其特征在于,所述方法包括:
基于预设的主题模型,获取预设主题的初始主题词集;
确定所述初始主题词集中每个主题词对应的至少一个分类验证结果,所述分类验证结果为衡量所述主题词与所述预设主题间的相关程度的指标;
基于所述至少一个分类验证结果,对所述初始主题词集中的主题词进行筛选,得到所述目标主题词集,所述目标主题词集为从所述初始主题词集中删除与所述预设主题非相关的主题词后得到的主题词集;
基于所述目标主题词集,对待处理多媒体资源进行主题匹配,得到所述预设主题对应的目标多媒体资源。
2.根据权利要求1所述的目标多媒体资源的获取方法,其特征在于,所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果,所述基于所述至少一个分类验证结果,对所述初始主题词集中的主题词进行筛选,得到所述目标主题词集包括:
从所述每次主题词筛选对应的分类验证结果中确定目标分类验证结果,所述每次主题词筛选对应的分类验证结果为每次主题词筛选对应的当前主题词集中,每个主题词对应的分类验证结果,所述当前主题词集为基于每次主题词筛选的上一次主题词筛选的筛选结果得到的主题词集;
从所述初始主题词集中删除所述目标分类验证结果对应的主题词,得到目标相关主题词集;
在所述目标相关主题词集中的主题词数目小于等于预设数目,或所述目标相关主题词集中每个主题词对应的分类验证结果达到预设收敛阈值的情况下,将所述目标相关主题词集作为所述目标主题词集。
3.根据权利要求1或2所述的目标多媒体资源的获取方法,其特征在于,在所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果的情况下,所述确定所述初始主题词集中每个主题词对应的至少一个分类验证结果包括:
获取每次主题词筛选对应的当前主题词集;
对所述当前主题词集中的每个主题词执行遍历步骤,得到所述当前主题词集中每个主题词对应的分类验证结果;
所述遍历步骤包括:
确定当前遍历到的主题词与其他主题词间的第一相关度,所述其他主题词为所述当前主题词集中除当前遍历到的主题词以外的主题词;
确定所述其他主题词间的第二相关度;
根据所述第一相关度和所述第二相关度,得到所述当前遍历到的主题词对应的分类验证结果。
4.根据权利要求1所述的目标多媒体资源的获取方法,其特征在于,所述基于所述目标主题词集,对待处理多媒体资源进行主题匹配,得到所述目标主题词集的主题对应的目标多媒体资源包括:
基于所述目标主题词集中的主题词,在所述待处理多媒体资源中确定主题关联多媒体资源;
对所述预设主题和所述主题关联多媒体资源进行匹配,得到所述主题关联多媒体资源对应的主题匹配结果;
根据所述主题匹配结果,从所述主题关联多媒体资源中得到所述目标多媒体资源。
5.根据权利要求4所述的目标多媒体资源的获取方法,其特征在于,所述主题匹配结果包括主题相似度,所述对所述预设主题和所述主题关联多媒体资源进行匹配,得到所述主题关联多媒体资源的主题匹配结果,得到每个多媒体资源的主题匹配结果包括:
获取所述目标主题词集对应的主题特征信息;
获取所述主题关联多媒体资源对应的资源特征信息;
确定所述主题特征信息和所述资源特征信息间的主题相似度。
6.根据权利要求4所述的目标多媒体资源的获取方法,其特征在于,所述基于所述目标主题词集中的主题词,在所述待处理多媒体资源中确定主题关联多媒体资源包括:
获取所述目标主题词集中的主题词对应的第一频率,所述第一频率表征每个主题词在所述待处理多媒体资源中每个多媒体资源中出现的频率;
获取所述目标主题词集中的主题词对应的第二频率,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
根据所述第一频率和所述第二频率,确定所述每个多媒体资源和所述每个主题词间的相关度权重;
根据所述相关度权重,对所述每个多媒体资源和所述每个主题词间的主题词相关度进行加权求和,得到所述每个多媒体资源和所述目标主题词集间的主题关联度;
根据所述主题关联度,从所述待处理多媒体资源中得到所述主题关联多媒体资源。
7.根据权利要求5所述的目标多媒体资源的获取方法,其特征在于,所述获取所述目标主题词集对应的主题特征信息包括:
获取所述目标主题词集中每个主题词的词特征信息;
根据所述目标主题词集中的主题词对应的第二频率,确定每个主题词的特征权重,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
根据所述每个主题词的特征权重,对所述每个主题词的词特征信息进行加权求和,得到所述主题特征信息。
8.根据权利要求5所述的目标多媒体资源的获取方法,其特征在于,所述主题关联多媒体资源包括多个多媒体资源,所述获取所述主题关联多媒体资源对应的资源特征信息包括:
获取每个多媒体资源对应的初始资源特征信息;
确定与每个多媒体资源的关联主题词;
根据每个关联主题词对应的第三频率和所述关联主题词,确定每个多媒体资源的特征权重,所述第三频率表征每个关联主题词在所述待处理多媒体资源中出现的频率;
基于所述每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,得到所述资源特征信息。
9.根据权利要求1所述的目标多媒体资源的获取方法,其特征在于,所述方法还包括:
获取历史时间段内的多个多媒体资源;
获取与所述目标主题词集中每个主题词分别匹配的搜索词对应的多媒体资源搜索结果;
将所述历史时间段内的多个多媒体资源和所述多媒体资源搜索结果作为所述待处理多媒体资源。
10.根据权利要求1所述的目标多媒体资源的获取方法,其特征在于,所述方法还包括:
获取所述目标多媒体资源的多媒体资源质量信息;
比对所述多媒体资源质量信息和预设的多媒体资源质量指标,得到质量比对结果;
根据所述质量比对结果,对所述目标多媒体资源进行筛选,得到筛选后多媒体资源集。
11.一种多媒体资源的推荐方法,其特征在于,所述方法包括:
响应于所述目标对象对应的多媒体资源推荐指令,从多个预设主题中确定目标主题;
获取所述目标主题对应的多媒体资源集,所述目标主题对应的多媒体资源集为基于权利要求1到10任一项所述的目标多媒体资源的获取方法得到的多媒体资源集;
向所述目标对象推荐所述目标主题对应的多媒体资源集。
12.一种目标多媒体资源的获取装置,其特征在于,所述装置包括:
初始主题词集获取模块,被配置为执行基于预设的主题模型,获取预设主题的初始主题词集;
主题词筛选模块包括:
分类验证结果获取单元,被配置为执行确定所述初始主题词集中每个主题词对应的至少一个分类验证结果,所述分类验证结果为衡量所述主题词与所述预设主题间的相关程度的指标;
主题词筛选单元,被配置为执行基于所述至少一个分类验证结果,对所述初始主题词集中的主题词进行筛选,得到所述目标主题词集,所述目标主题词集为从所述初始主题词集中删除与所述预设主题非相关的主题词后得到的主题词集;
目标多媒体资源获取模块,被配置为执行基于所述目标主题词集,对待处理多媒体资源进行主题匹配,得到所述预设主题对应的目标多媒体资源。
13.根据权利要求12所述的目标多媒体资源的获取装置,其特征在于,所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果,所述主题词筛选单元包括:
目标分类验证结果确定单元,被配置为执行从所述每次主题词筛选对应的分类验证结果中确定目标分类验证结果,所述每次主题词筛选对应的分类验证结果为每次主题词筛选对应的当前主题词集中,每个主题词对应的分类验证结果,所述当前主题词集为基于每次主题词筛选的上一次主题词筛选的筛选结果得到的主题词集;
目标相关主题词集获取单元,被配置为珍惜从所述初始主题词集中删除所述目标分类验证结果对应的主题词,得到目标相关主题词集;
目标主题词集确定单元,被配置为执行在所述目标相关主题词集中的主题词数目小于等于预设数目,或所述目标相关主题词集中每个主题词对应的分类验证结果达到预设收敛阈值的情况下,将所述目标相关主题词集作为所述目标主题词集。
14.根据权利要求12或13所述的目标多媒体资源的获取装置,其特征在于,在所述至少一个分类验证结果包括每次主题词筛选对应的分类验证结果的情况下,所述分类验证结果获取单元包括:
当前主题词集获取单元,被配置为执行获取每次主题词筛选对应的当前主题词集;
主题词遍历单元,被配置为执行对所述当前主题词集中的每个主题词执行遍历步骤,得到所述当前主题词集中每个主题词对应的分类验证结果;
所述主题词遍历单元包括:
第一相关度确定单元,被配置为执行确定当前遍历到的主题词与其他主题词间的第一相关度,所述其他主题词为所述当前主题词集中除当前遍历到的主题词以外的主题词;
第二相关度确定单元,被配置为执行确定所述其他主题词间的第二相关度;
分类验证结果确定单元,被配置为执行根据所述第一相关度和所述第二相关度,得到所述当前遍历到的主题词对应的分类验证结果。
15.根据权利要求12所述的目标多媒体资源的获取装置,其特征在于,所述目标多媒体资源获取模块包括:
关联匹配单元,被配置为执行基于所述目标主题词集中的主题词,在所述待处理多媒体资源中确定主题关联多媒体资源;
主题匹配单元,被配置为执行对所述预设主题和所述主题关联多媒体资源进行匹配,得到所述主题关联多媒体资源对应的主题匹配结果;
目标多媒体资源获取单元,被配置为执行根据所述主题匹配结果,从所述主题关联多媒体资源中得到所述目标多媒体资源。
16.根据权利要求15所述的目标多媒体资源的获取装置,其特征在于,所述主题匹配结果包括主题相似度,所述主题匹配单元包括:
主题特征信息获取单元,被配置为执行获取所述目标主题词集对应的主题特征信息;
资源特征信息获取单元,被配置为执行获取所述主题关联多媒体资源对应的资源特征信息;
主题相似度确定单元,被配置为执行确定所述主题特征信息和所述资源特征信息间的主题相似度。
17.根据权利要求15所述的目标多媒体资源的获取装置,其特征在于,所述关联匹配单元包括:
第一频率获取单元,被配置为执行获取所述目标主题词集中的主题词对应的第一频率,所述第一频率表征每个主题词在所述待处理多媒体资源中每个多媒体资源中出现的频率;
第二频率获取单元,被配置为执行获取所述目标主题词集中的主题词对应的第二频率,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
相关度权重确定单元,被配置为执行根据所述第一频率和所述第二频率,确定所述每个多媒体资源和所述每个主题词间的相关度权重;
主题关联度获取单元,被配置为执行根据所述相关度权重,对所述每个多媒体资源和所述每个主题词间的主题词相关度进行加权求和,得到所述每个多媒体资源和所述目标主题词集间的主题关联度;
关联资源获取单元,被配置为执行根据所述主题关联度,从所述待处理多媒体资源中得到所述主题关联多媒体资源。
18.根据权利要求16所述的目标多媒体资源的获取装置,其特征在于,所述主题特征信息获取单元包括:
词特征信息获取单元,被配置为执行获取所述目标主题词集中每个主题词的词特征信息;
词特征权重获取单元,被配置为执行根据所述目标主题词集中的主题词对应的第二频率,确定每个主题词的特征权重,所述第二频率表征每个主题词在所述待处理多媒体资源中出现的频率;
加权求和单元,被配置为执行根据所述每个主题词的特征权重,对所述每个主题词的词特征信息进行加权求和,得到所述主题特征信息。
19.根据权利要求16所述的目标多媒体资源的获取装置,其特征在于,所述主题关联多媒体资源包括多个多媒体资源,所述资源特征信息获取单元包括:
初始特征信息获取单元,被配置为执行获取每个多媒体资源对应的初始资源特征信息;
关联主题词获取单元,被配置为执行确定与每个多媒体资源的关联主题词;
资源特征权重获取单元,被配置为执行根据每个关联主题词对应的第三频率和所述关联主题词,确定每个多媒体资源的特征权重,所述第三频率表征每个关联主题词在所述待处理多媒体资源中出现的频率;
特征加权单元,被配置为执行基于所述每个多媒体资源的特征权重,对每个多媒体资源对应的初始资源特征信息进行加权,得到所述资源特征信息。
20.根据权利要求12所述的目标多媒体资源的获取装置,其特征在于,所述装置还包括:
历史资源获取模块,被配置为执行获取历史时间段内的多个多媒体资源;
搜索结果获取模块,被配置为执行获取与所述目标主题词集中每个主题词分别匹配的搜索词对应的多媒体资源搜索结果;
待处理多媒体资源获取模块,被配置为执行将所述历史时间段内的多个多媒体资源和所述多媒体资源搜索结果作为所述待处理多媒体资源。
21.根据权利要求12所述的目标多媒体资源的获取装置,其特征在于,所述装置还包括:
质量信息获取模块,被配置为执行获取所述目标多媒体资源的多媒体资源质量信息;
比对模块,被配置为执行比对所述多媒体资源质量信息和预设的多媒体资源质量指标,得到质量比对结果;
多媒体资源集筛选模块,被配置为执行根据所述质量比对结果,对所述目标多媒体资源进行筛选,得到筛选后多媒体资源集。
22.一种目标多媒体资源的推荐装置,其特征在于,所述装置包括:
目标主题确定模块,被配置为执行响应于所述目标对象对应的多媒体资源推荐指令,从多个预设主题中确定目标主题;
多媒体资源集获取模块,被配置为执行获取所述目标主题对应的多媒体资源集,所述目标主题对应的多媒体资源集为基于权利要求1到10任一项所述的目标多媒体资源的获取方法得到的多媒体资源集;
资源推荐模块,被配置为执行向所述目标对象推荐所述目标主题对应的多媒体资源集。
23.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至10中任一项所述的目标多媒体资源的获取方法或权利要求11所述的一种多媒体资源的推荐方法。
24.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至10中任一项所述的目标多媒体资源的获取方法或权利要求11所述的一种多媒体资源的推荐方法。
CN202110889060.3A 2021-08-04 2021-08-04 目标多媒体资源的获取方法、装置、电子设备和存储介质 Active CN113326385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110889060.3A CN113326385B (zh) 2021-08-04 2021-08-04 目标多媒体资源的获取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110889060.3A CN113326385B (zh) 2021-08-04 2021-08-04 目标多媒体资源的获取方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113326385A CN113326385A (zh) 2021-08-31
CN113326385B true CN113326385B (zh) 2021-12-07

Family

ID=77427038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110889060.3A Active CN113326385B (zh) 2021-08-04 2021-08-04 目标多媒体资源的获取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113326385B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815310A (zh) * 2016-12-20 2017-06-09 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN108009293A (zh) * 2017-12-26 2018-05-08 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108090042A (zh) * 2016-11-23 2018-05-29 北京京东尚科信息技术有限公司 用于识别文本主题的方法和装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110046339A (zh) * 2018-12-24 2019-07-23 北京字节跳动网络技术有限公司 确定文档主题的方法、装置、存储介质及电子设备
CN110555154A (zh) * 2019-08-30 2019-12-10 北京科技大学 一种面向主题的信息检索方法
CN112015928A (zh) * 2020-08-26 2020-12-01 北京达佳互联信息技术有限公司 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN112100396A (zh) * 2020-08-28 2020-12-18 泰康保险集团股份有限公司 一种数据处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN109299315B (zh) * 2018-09-03 2023-03-28 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090042A (zh) * 2016-11-23 2018-05-29 北京京东尚科信息技术有限公司 用于识别文本主题的方法和装置
CN106815310A (zh) * 2016-12-20 2017-06-09 华南师范大学 一种对海量文档集的层次聚类方法及系统
CN108009293A (zh) * 2017-12-26 2018-05-08 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110046339A (zh) * 2018-12-24 2019-07-23 北京字节跳动网络技术有限公司 确定文档主题的方法、装置、存储介质及电子设备
CN110555154A (zh) * 2019-08-30 2019-12-10 北京科技大学 一种面向主题的信息检索方法
CN112015928A (zh) * 2020-08-26 2020-12-01 北京达佳互联信息技术有限公司 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN112100396A (zh) * 2020-08-28 2020-12-18 泰康保险集团股份有限公司 一种数据处理方法和装置

Also Published As

Publication number Publication date
CN113326385A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN106326391B (zh) 多媒体资源推荐方法及装置
US11172040B2 (en) Method and apparatus for pushing information
CN111008321B (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN110348362B (zh) 标签生成、视频处理方法、装置、电子设备及存储介质
KR20160064447A (ko) 협력적 필터링의 예측 선호도를 이용한 처음 사용자에 대한 추천 제공 방법
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
JP2014533868A (ja) 画像検索
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN112100504B (zh) 内容推荐方法、装置、电子设备及存储介质
CN111159563B (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
US9176993B2 (en) Efficiently identifying images, videos, songs or documents most relevant to the user using binary search trees on attributes for guiding relevance feedback
CN114741581A (zh) 一种图像分类方法、装置、计算机设备及介质
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN110110206B (zh) 物品间关系挖掘及推荐方法、装置、计算设备、存储介质
CN113326385B (zh) 目标多媒体资源的获取方法、装置、电子设备和存储介质
CN108304453B (zh) 一种视频相关搜索词的确定方法及装置
CN115618121A (zh) 个性化资讯推荐方法、装置、设备及存储介质
CN114625876A (zh) 作者特征模型的生成方法、作者信息处理方法和装置
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
CN113536138A (zh) 一种网络资源推荐方法、装置、电子设备及可读存储介质
JP7174551B2 (ja) 推定装置、推定方法及び推定プログラム
CN111860870A (zh) 交互行为确定模型的训练方法、装置、设备及介质
CN111814051A (zh) 一种资源类型确定方法及装置
CN117389514B (zh) 一种融合终端微应用开发需求分类方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant