CN109885726A - 一种生成视频元信息的方法和装置 - Google Patents

一种生成视频元信息的方法和装置 Download PDF

Info

Publication number
CN109885726A
CN109885726A CN201910151658.5A CN201910151658A CN109885726A CN 109885726 A CN109885726 A CN 109885726A CN 201910151658 A CN201910151658 A CN 201910151658A CN 109885726 A CN109885726 A CN 109885726A
Authority
CN
China
Prior art keywords
search
target
words
video
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910151658.5A
Other languages
English (en)
Other versions
CN109885726B (zh
Inventor
叶澄灿
陈英傑
王天畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910151658.5A priority Critical patent/CN109885726B/zh
Publication of CN109885726A publication Critical patent/CN109885726A/zh
Application granted granted Critical
Publication of CN109885726B publication Critical patent/CN109885726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种生成视频元信息的方法和装置,该方法包括:首先,基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;然后,根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;最后,基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。由此可见,基于搜索日志与目标视频相关的搜索词,采用预设过滤策略进行过滤,可以自动挖掘其中较为准确描述目标视频的搜索词作为目标视频元信息,该方案代替人工补充视频元信息的方式,简单、便捷、快速补充完善目标视频元信息,使得目标视频元信息较为完整、准确,从而优化后续视频搜索的召回效果,提升用户视频搜索的体验感受。

Description

一种生成视频元信息的方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种生成视频元信息的方法和装置。
背景技术
随着科学技术的快速发展,视频数量大幅度增长,视频质量大幅度提高,在日常生活或者工作中浏览观看视频越来越普遍,用户通过可通过视频获取信息或休闲娱乐。其中,视频的一种重要获得方式是视频搜索,具体是利用视频搜索引擎基于视频的元信息进行搜索召回,而常见的视频标题、视频描述、视频标签等均可作为视频的元信息。
目前,存储用于搜索召回的视频大多是由用户上传、全网抓取等方式得到的,通常大部分视频的元信息不完整、不准确,造成基于视频的元信息搜索召回这些视频的效果较差。现有技术中,通常是人工基于视频内容等信息对视频的元信息进行补充。
但是,发明人经过研究发现,采用人工补充视频元信息的方式,人工补充难度较大、操作较复杂、效率较缓慢,且不能确保人工补充后的视频元信息完整、准确,导致后续视频搜索的召回效果并不稳定,用户视频搜索的体验感受较差。
发明内容
本申请所要解决的技术问题是,提供一种生成视频元信息的方法和装置,代替人工补充视频元信息的方式,简单、便捷、快速补充完善目标视频元信息,使得目标视频元信息较为完整、准确,从而优化后续视频搜索的召回效果,提升用户视频搜索的体验感受。
第一方面,本申请实施例提供了一种生成视频元信息的方法,该方法包括:
基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;
根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;
基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。
可选的,所述基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合,包括:
基于所述搜索日志中目标视频与各个搜索词的点击关系,获得所述各个搜索词对应所述目标视频的点击次数;
选取所述各个搜索词中对应所述目标视频的点击次数大于第一点击次数阈值的搜索词,确定所述目标视频对应的搜索词集合。
可选的,所述预设过滤策略包括点击率阈值过滤策略和/或屏蔽词过滤策略和/或专名实体命中过滤策略。
可选的,若所述预设过滤策略包括点击率阈值过滤策略,所述根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合,包括:
基于所述目标视频与所述搜索词集合中各个搜索词的点击关系和展示关系,获得所述搜索词集合中各个搜索词对应所述目标视频的点击率;
过滤所述搜索词集合中对应所述目标视频的点击率小于点击率阈值的搜索词,获得目标搜索词集合。
可选的,若所述预设过滤策略包括屏蔽词过滤策略,所述根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合,包括:
过滤所述搜索词集合中包括所述预设屏蔽词的搜索词,获得目标搜索词集合。
可选的,若所述预设过滤策略包括专名实体命中过滤策略,所述根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合,包括:
确定所述目标视频的视频标题包括的第一专名实体、所述第一专名实体对应白名单实体以及所述搜索词集合中各个搜索词包括的第二专名实体;
基于所述第二专名实体与所述第一专名实体和所述第一专名实体对应白名单实体的重合数量,过滤所述搜索词集合中各个搜索词获得目标搜索词集合。
可选的,所述第一专名实体对应白名单实体的生成步骤包括:
基于所述搜索日志中用户与各个专名实体的搜索关系,获得搜索所述各个专名实体的用户数量,所述专名实体包括第一专名实体和至少一个其他专名实体;
根据搜索所述各个专名实体的用户数量,获得所述第一专名实体与各个所述其他专名实体的协同过滤相关度;
从所述至少一个其他专名实体中选取所述协同过滤相关度大于协同过滤相关度阈值的其他专名实体生成所述第一专名实体的白名单实体。
可选的,若所述目标视频的视频标题包括人名实体,所述第一专名实体为第一人名实体,所述第二专名实体至少包括第二人名实体;若所述目标视频的视频标题包括剧名实体,所述第一专名实体为第一剧名实体,所述第二专名实体至少包括第二剧名实体。
可选的,所述基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息,包括:
确定所述目标搜索词集合中各个目标搜索词对应所述目标视频的点击次数;
基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息。
可选的,所述基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息,包括:
基于所述各个目标搜索词对应所述目标视频的点击次数,按照从大到小顺序排序所述目标搜索词集合中各个目标搜索词;
选取排序后的前N个目标搜索词,生成所述目标视频的元信息,所述N为小于所述目标搜索词集合中目标搜索词数量的正整数。
可选的,所述基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息,具体为:
从所述各个目标搜索词中选取对应所述目标视频的点击次数大于第二点击次数阈值的目标搜索词,生成所述目标视频的元信息,所述第二点击次数阈值大于所述第一点击次数阈值。
第二方面,本申请实施例提供了一种生成视频元信息的装置,该装置包括:
确定单元,用于基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;
获得单元,用于根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;
生成单元,用于基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,首先,基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;然后,根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;最后,基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。由此可见,基于搜索日志与目标视频相关的搜索词,采用预设过滤策略进行过滤,可以自动挖掘其中较为准确描述目标视频的搜索词作为目标视频元信息,该方案代替人工补充视频元信息的方式,简单、便捷、快速补充完善目标视频元信息,使得目标视频元信息较为完整、准确,从而优化后续视频搜索的召回效果,提升用户视频搜索的体验感受。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种生成视频元信息的方法的流程示意图;
图3为本申请实施例提供的一种生成视频元信息的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,日常生活或者工作中搜索召回视频获取信息或休闲娱乐越来越普遍。一般的,存储用于搜索召回的视频大多是由用户上传、全网抓取等方式得到的,通常大部分视频的元信息不完整、不准确,造成基于视频的元信息搜索召回这些视频的效果较差。例如,通常大部分视频的元信息不包括原有信息对应的同义词、英文词,用户使用同义词或英文词进行视频搜索时,无法搜索召回相应的视频;比如《中国新说唱》视频的元信息不包括“中国有嘻哈”和“the rap of china”,用户使用“中国有嘻哈”或“the rap of china”进行视频搜索无法搜索召《中国新说唱》视频。
现有技术中,通常是人工基于视频内容等信息对视频的元信息进行补充。但是,发明人经过研究发现,采用人工补充视频元信息的方式,人工补充难度较大、操作较复杂、效率较缓慢,且不能确保人工补充后的视频元信息完整、准确,导致后续视频搜索的召回效果并不稳定,用户视频搜索的体验感受较差。
为了解决这一问题,在本申请实施例中,首先,基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;然后,根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;最后,基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。由此可见,基于搜索日志与目标视频相关的搜索词,采用预设过滤策略进行过滤,可以自动挖掘其中较为准确描述目标视频的搜索词作为目标视频元信息,该方案代替人工补充视频元信息的方式,简单、便捷、快速补充完善目标视频元信息,使得目标视频元信息较为完整、准确,从而优化后续视频搜索的召回效果,提升用户视频搜索的体验感受。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中。该场景包括处理器101、数据库服务器102和用户终端系统103。多个用户利用用户终端系统103中的用户终端进行视频搜索操作,在数据库服务器102记录搜索日志。处理器101从数据库服务器102获得搜索日志,处理器101基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合。处理器101根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合。处理器101基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。处理器101将所述目标视频对应所述目标视频的元信息存储至所述数据库服务器102。
可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由处理器101执行,但是,本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中生成视频元信息的方法和装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种生成视频元信息的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合。
可以理解的是,为了自动挖掘较为准确描述目标视频的元信息,首先应该获得描述目标视频的词语,描述目标视频的词语具体可以是基于历史搜索操作得到的搜索日志中对应目标视频的搜索词,综合记为搜索词集合。其中,搜索日志中对应目标视频的搜索词是基于搜索日志记载的目标视频与各个搜索词的点击关系确定出的。
需要说明的是,搜索日志中各个搜索词与目标视频之间可能是点击关系,也可能是展示关系,其中,与目标视频具有点击关系的搜索词相较于与目标视频具有展示关系的搜索词描述目标视频更为准确。由于不同搜索词对应目标视频的点击次数很可能不同,对应目标视频的点击次数越多的搜索词描述目标视频越准确,则可以设定一个点击次数阈值,用于筛选出对应目标视频的点击次数越多的搜索词。因此,在本申请实施例的一些实施方式中,所述步骤201例如可以包括以下步骤:
步骤A:基于所述搜索日志中目标视频与各个搜索词的点击关系,获得所述各个搜索词对应所述目标视频的点击次数;
步骤B:选取所述各个搜索词中对应所述目标视频的点击次数大于第一点击次数阈值的搜索词,确定所述目标视频对应的搜索词集合。
步骤202:根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合。
可以理解的是,虽然步骤201获得的搜索词集合中各个搜索词与目标视频具有点击关系,但是,其中有些搜索词用于描述目标视频可能不够准确,不能直接将搜索词集合中各个搜索词作为目标视频的元信息,则需要对搜索词集合中各个搜索词进行过滤,以得到其中描述目标视频较为准确的搜索词形成目标搜索词集合。
需要说明的是,搜索词对应目标视频的点击率、搜索词是否包括某些屏蔽词以及搜索词是否命中与目标视频相关的专名实体可以代表搜索词描述目标视频、作为目标视频的元信息的准确率,则可以设定点击率阈值过滤策略、屏蔽词过滤策略和专名实体命中过滤策略用于过滤搜索词集合中描述目标视频不够准确的搜索词,具体地可以采用上述三种过滤策略中的任意一种或多种。因此,在本申请实施例的一些实施方式中,所述预设过滤策略包括点击率阈值过滤策略和/或屏蔽词过滤策略和/或专名实体命中过滤策略。
需要说明的是,搜索词对应目标视频的点击率是指该搜索词对应目标视频的点击次数与该搜索词对应目标视频的展示次数的比值,搜索词对应目标视频的点击率越高描述目标视频越准确。由于搜索词集合中各个搜索词对应目标视频的点击率不同,则可以设定一个点击率阈值,用于过滤各个搜索词中对应目标视频的点击率较低的搜索词。因此,在本申请实施例的一些实施方式中,若所述预设过滤策略包括点击率阈值过滤策略,所述步骤202例如可以包括以下步骤:
步骤C:基于所述目标视频与所述搜索词集合中各个搜索词的点击关系和展示关系,获得所述搜索词集合中各个搜索词对应所述目标视频的点击率;
步骤D:过滤所述搜索词集合中对应所述目标视频的点击率小于点击率阈值的搜索词,获得目标搜索词集合。
需要说明的是,由于某些通用词汇比如“电影”、“电视剧”和“直播”等不适合作为描述视频的元信息,例如,当将“A电影”作为描述A视频的元信息,用户输入“电影”即可搜索召回得到A视频,但是用户可能并不是要搜索A视频。则需要将一些通用词汇等作为预设屏蔽词,将各个搜索词中包括预设屏蔽词的搜索词过滤掉。因此,在本申请实施例的一些实施方式中,若所述预设过滤策略包括屏蔽词过滤策略,所述步骤202例如可以为:过滤所述搜索词集合中包括所述预设屏蔽词的搜索词,获得目标搜索词集合。
需要说明的是,通常视频标题包括专名实体,当目标视频的视频标题包括专名实体时,对于包括专名实体的搜索词而言,搜索词包括的专名实体与目标视频的视频标题包括的专名实体以及对应的白名单实体的重合数量,决定了搜索词作为描述目标视频的元信息的准确率,其中,将目标视频的视频标题包括专名实体作为第一专名实体,将搜索词包括的专名实体作为第二专名实体,白名单实体是指搜索日志中与第一专名实体相似度较高的实体,称为第一专名实体对应白名单实体。因此,在本申请实施例的一些实施方式中,若所述预设过滤策略包括专名实体命中过滤策略,所述步骤202例如可以包括以下步骤:
步骤E:确定所述目标视频的视频标题包括的第一专名实体、所述第一专名实体对应白名单实体以及所述搜索词集合中各个搜索词包括的第二专名实体;
步骤F:基于所述第二专名实体与所述第一专名实体和所述第一专名实体对应白名单实体的重合数量,过滤所述搜索词集合中各个搜索词获得目标搜索词集合。其中,需要说明的是,第一专名实体对应白名单实体是基于搜索日志获得的第一专名实体与至少一个其他专名实体中各个其他专名实体之间的协同过滤相关度,筛选至少一个其他专名实体中各个其他专名实体得到的,其中,任意第一专名实体与其他专名实体之间的协同过滤相关度是基于搜索第一专名实体的用户数量、搜索其他专名实体的用户数量和同时搜索第一专名实体和其他专名实体的用户数量计算获得的。因此,在本申请实施例的一些实施方式中,所述第一专名实体对应白名单实体的生成步骤例如可以包括以下步骤:
步骤G:基于所述搜索日志中用户与各个专名实体的搜索关系,获得搜索所述各个专名实体的用户数量,所述专名实体包括第一专名实体和至少一个其他专名实体。
步骤H:根据搜索所述各个专名实体的用户数量,获得所述第一专名实体与各个所述其他专名实体的协同过滤相关度。
需要说明的是,协同过滤相关度计算公式如下所示:
其中,i,j表示不同的专名实体;wij表示搜索i和j的协同过滤相关度;Ni表示搜索i的用户数量;Nj表示搜索j的用户数量;Ni∩Nj表示同时搜索i和j的用户数量。步骤I:从所述至少一个其他专名实体中选取所述协同过滤相关度大于协同过滤相关度阈值的其他专名实体生成所述第一专名实体的白名单实体。
例如,第一专名实体为“中国有嘻哈”,则第一专名实体“中国有嘻哈”对应白名单实体的生成步骤具体为:首先,基于搜索日志中用户与第一专名实体和其他专名实体的搜索关系,获得搜索第一专名实体“中国有嘻哈”的用户数量和搜索各个其他专名实体的用户数量;然后,基于上述获得的用户数量,采用协同过滤相关度计算公式,计算获得第一专名实体“中国有嘻哈”与各个所述其他专名实体的协同过滤相关度;最后,从各个其他专名实体中选取协同过滤相关度大于协同过滤相关度阈值的其他专名实体生成第一专名实体的白名单实体,比如第一专名实体“中国有嘻哈”分别与其他专名实体“中国新说唱”、“吴亦凡”的协同过滤相关度大于协同过滤相关度阈值,则将上述其他专名实体“中国新说唱”和“吴亦凡”生成第一专名实体“中国有嘻哈”的白名单实体。
还需要说明的是,对于视频而言常见的专名实体一般是人名实体和剧名实体,视频标题通常也会包括人名实体或剧名实体等,则对于目标视频,在本申请实施例的一些实施方式中,若所述目标视频的视频标题包括人名实体,所述第一专名实体为第一人名实体,所述第二专名实体至少包括第二人名实体;若所述目标视频的视频标题包括剧名实体,所述第一专名实体为第一剧名实体,所述第二专名实体至少包括第二剧名实体。
基于上述说明,对应于步骤E-步骤F,例如可以如下所示:
若目标视频的视频标题包括的第一专名实体为第一人名实体,第一人名实体的数量至少为2,若搜索词包括的第二人名实体的数量至少为2,则第二人名实体与第一人名实体和第一人名实体对应白名单实体的重合数量至少为2,否则过滤该搜索词;若搜索词包括的第二人名实体的数量为1,过滤该搜索词;若搜索词包括的第二人名实体的数量为0,但包括的剧名实体的数量至少为1,则该剧名实体与第一人名实体和第一人名实体对应白名单实体的重合数量至少为1,否则过滤该搜索词;
例如,目标视频的视频标题为《张杰谢娜婚礼》,其包括的第一人名实体为“张杰”和“谢娜”,假设第一人名实体对应白名单实体为“快乐大本营”;搜索词“张杰谢娜何炅”包括的第二人名实体的数量为3,第二人名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为2,保留该搜索词,搜索词“张杰郑凯”包括的第二人名实体的数量为2,第二人名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为1,过滤该搜索词;搜索词“何炅”包括的第二人名实体的数量为1,过滤该搜索词;搜索词“快乐大本营花絮”包括的剧名实体的数量为0,但包括的剧名实体的数量为1,该剧名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为1,保留该搜索词;搜索词“妻子的浪漫旅行”包括的第二人名实体的数量为0,但包括的剧名实体的数量为1,该剧名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为0,过滤该搜索词。
若目标视频的视频标题包括的第一专名实体为第一人名实体,第一人名实体的数量为1,若搜索词包括的第二人名实体的数量至少为2,过滤该搜索词;若搜索词包括的第二人名实体的数量为1,则第二人名实体与第一人名实体和第一人名实体对应白名单实体的重合数量至少为1,否则过滤该搜索词;若搜索词包括的第二人名实体的数量为0,但包括的剧名实体的数量至少为1,则该剧名实体与第一人名实体和第一人名实体对应白名单实体的重合数量至少为1,否则过滤该搜索词;
例如,目标视频的视频标题为《张杰选秀》,其包括的第一人名实体为“张杰”,假设第一人名实体对应白名单实体为“快乐男声”和“谢娜”;搜索词“张杰谢娜”包括的第二人名实体的数量为2,过滤该搜索词;搜索词“张杰唱歌”包括的第二人名实体的数量为1,第二人名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为1,保留该搜索词;搜索词“何炅”包括的第二人名实体的数量为1,第二人名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为0,过滤该搜索词;搜索词“快乐男声集锦”包括的第二人名实体的数量为0,但包括的剧名实体的数量为1,该剧名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为1,保留该搜索词;搜索词“我型我秀”包括的第二人名实体的数量为0,但包括的剧名实体的数量为1,该剧名实体与第一人名实体和第一人名实体对应白名单实体的重合数量为0,过滤该搜索词。
若目标视频的视频标题包括的第一专名实体为第一剧名实体,第一剧名实体的数量至少为1,若搜索词包括的第二剧名实体的数量至少为2,过滤该搜索词;若搜索词包括的第二剧名实体的数量为1,则第二剧名实体与第一剧名实体和第一剧名实体对应白名单实体的重合数量至少为1,否则过滤该搜索词;若搜索词包括的第二剧名实体的数量为0,但包括的人名实体的数量至少为2,过滤该搜索词;
例如,目标视频的视频标题为《快乐大本营》,其包括的第一剧名实体为“快乐大本营”,假设第一剧名实体对应白名单实体为“何炅”;搜索词“快乐大本营武林风”包括的第二剧名实体的数量为2,过滤该搜索词,搜索词“快乐大本营何炅”包括的第二剧名实体的数量为1,第二剧名实体与第一剧名实体和第一剧名实体对应白名单实体的重合数量为2,保留该搜索词;搜索词“快乐男声”包括的第二剧名实体的数量为1,第二剧名实体与第一剧名实体和第一剧名实体对应白名单实体的重合数量为0,过滤该搜索词;搜索词“谢娜张杰”包括的第二人名实体的数量为0,但包括的人名实体的数量为2,过滤该搜索词。
步骤203:基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。
可以理解的是,步骤202获得的目标搜索词集合所包括的搜索词相比于预设过滤策略过滤的搜索词描述目标视频更加准确的搜索词,记为目标搜索词,基于该目标搜索词集合中各个目标搜索词,可以得到目标视频的元信息,既可以将其部分目标搜索词作为目标视频的元信息,也可以将各个目标搜索词均作为目标视频的元信息。
需要说明的是,基于上述步骤201的说明同理可知,目标搜索词集合中不同目标搜索词对应目标视频的点击次数很可能不同,对应目标视频的点击次数越多的目标搜索词描述目标视频越准确,则可以首先明确目标搜索词集合中各个目标搜索词对应目标视频的点击次数,基于各个目标搜索词对应目标视频的点击次数对各个目标搜索词进行筛选,以便从各个目标搜索词中选出对应目标视频的点击次数较多的部分目标搜索词。因此,在本申请实施例的一些实施方式中,所述步骤203例如可以包括以下步骤:
步骤J:确定所述目标搜索词集合中各个目标搜索词对应所述目标视频的点击次数;
步骤K:基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息。
需要说明的是,在本申请实施例的一些实施方式中,基于各个目标搜索词对应目标视频的点击次数,选取目标搜索词集合中各个目标搜索词生成目标视频的元信息至少可以采用以下两种实施方式:
第一种实施方式中,在步骤J确定各个目标搜索词对应目标视频的点击次数后,首先可以采用从大到小的方式对各个目标搜索词进行排序,然后,选取排序后的各个目标搜索词中的前几个目标搜索词作为目标视频的元信息。因此,所述步骤K例如可以包括以下步骤:
步骤K1:基于所述各个目标搜索词对应所述目标视频的点击次数,按照从大到小顺序排序所述目标搜索词集合中各个目标搜索词;
步骤K2:选取排序后的前N个目标搜索词,生成所述目标视频的元信息,所述N为小于所述目标搜索词集合中目标搜索词数量的正整数。
第二种实施方式中,可以再次设定一个点击次数阈值,用于筛选出对应目标视频的点击次数较多的目标搜索词,该点击次数阈值大于步骤201说明中的点击次数阈值,则在步骤J确定各个目标搜索词对应目标视频的点击次数后,与第二点击次数阈值进行比较,从各个目标搜索词中筛选出对应目标视频的点击次数较多的目标搜索词作为目标视频的元信息。因此,在本申请实施例的一些实施方式中,所述步骤K例如具体可以为:从所述各个目标搜索词中选取对应所述目标视频的点击次数大于第二点击次数阈值的目标搜索词,生成所述目标视频的元信息,所述第二点击次数阈值大于所述第一点击次数阈值。
通过本实施例提供的各种实施方式,首先,基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;然后,根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;最后,基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。由此可见,基于搜索日志与目标视频相关的搜索词,采用预设过滤策略进行过滤,可以自动挖掘其中较为准确描述目标视频的搜索词作为目标视频元信息,该方案代替人工补充视频元信息的方式,简单、便捷、快速补充完善目标视频元信息,使得目标视频元信息较为完整、准确,从而优化后续视频搜索的召回效果,提升用户视频搜索的体验感受。
示例性装置
参见图3,示出了本申请实施例中一种生成视频元信息的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
确定单元301,用于基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;
获得单元302,用于根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;
生成单元303,用于基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。
可选的,所述确定单元301包括:
第一获得子单元,用于基于所述搜索日志中目标视频与各个搜索词的点击关系,获得所述各个搜索词对应所述目标视频的点击次数;
第一确定子单元,用于选取所述各个搜索词中对应所述目标视频的点击次数大于第一点击次数阈值的搜索词,确定所述目标视频对应的搜索词集合。
可选的,所述预设过滤策略包括点击率阈值过滤策略和/或屏蔽词过滤策略和/或专名实体命中过滤策略。
可选的,若所述预设过滤策略包括点击率阈值过滤策略,所述获得单元302包括:
第二获得子单元,用于基于所述目标视频与所述搜索词集合中各个搜索词的点击关系和展示关系,获得所述搜索词集合中各个搜索词对应所述目标视频的点击率;
第三获得子单元,用于过滤所述搜索词集合中对应所述目标视频的点击率小于点击率阈值的搜索词,获得目标搜索词集合。
可选的,若所述预设过滤策略包括屏蔽词过滤策略,所述获得单元302用于:
过滤所述搜索词集合中包括所述预设屏蔽词的搜索词,获得目标搜索词集合。
可选的,若所述预设过滤策略包括专名实体命中过滤策略,所述获得单元302包括:
第二确定子单元,用于确定所述目标视频的视频标题包括的第一专名实体、所述第一专名实体对应白名单实体以及所述搜索词集合中各个搜索词包括的第二专名实体;
第四获得子单元,用于基于所述第二专名实体与所述第一专名实体和所述第一专名专名实体对应白名单实体的重合数量,过滤所述搜索词集合中各个搜索词获得目标搜索词集合。
可选的,所述第一专名实体对应白名单实体的生成单元包括:
第五获得子单元,用于基于所述搜索日志中用户与各个专名实体的搜索关系,获得搜索所述各个专名实体的用户数量,所述专名实体包括第一专名实体和至少一个其他专名实体;
第六获得子单元,用于根据搜索所述各个专名实体的用户数量,获得所述第一专名实体与各个所述其他专名实体的协同过滤相关度;
第一生成子单元,用于从所述至少一个其他专名实体中选取所述协同过滤相关度大于协同过滤相关度阈值的其他专名实体生成所述第一专名实体的白名单实体。
可选的,若所述目标视频的视频标题包括人名实体,所述第一专名实体为第一人名实体,所述第二专名实体至少包括第二人名实体;若所述目标视频的视频标题包括剧名实体,所述第一专名实体为第一剧名实体,所述第二专名实体至少包括第二剧名实体。
可选的,所述生成单元303包括:
第三确定子单元,用于确定所述目标搜索词集合中各个目标搜索词对应所述目标视频的点击次数;
第二生成子单元,用于基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息。
可选的,所述第二生成子单元包括:
排序模块,用于基于所述各个目标搜索词对应所述目标视频的点击次数,按照从大到小顺序排序所述目标搜索词集合中各个目标搜索词;
生成模块,用于选取排序后的前N个目标搜索词,生成所述目标视频的元信息,所述N为小于所述目标搜索词集合中目标搜索词数量的正整数。
可选的,所述第二生成子单元具体用于:
从所述各个目标搜索词中选取对应所述目标视频的点击次数大于第二点击次数阈值的目标搜索词,生成所述目标视频的元信息,所述第二点击次数阈值大于所述第一点击次数阈值。
通过本实施例提供的各种实施方式,首先,基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;然后,根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;最后,基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。由此可见,基于搜索日志与目标视频相关的搜索词,采用预设过滤策略进行过滤,可以自动挖掘其中较为准确描述目标视频的搜索词作为目标视频元信息,该方案代替人工补充视频元信息的方式,简单、便捷、快速补充完善目标视频元信息,使得目标视频元信息较为完整、准确,从而优化后续视频搜索的召回效果,提升用户视频搜索的体验感受。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (12)

1.一种生成视频元信息的方法,其特征在于,包括:
基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;
根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;
基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。
2.根据权利要求1所述的方法,其特征在于,所述基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合,包括:
基于所述搜索日志中目标视频与各个搜索词的点击关系,获得所述各个搜索词对应所述目标视频的点击次数;
选取所述各个搜索词中对应所述目标视频的点击次数大于第一点击次数阈值的搜索词,确定所述目标视频对应的搜索词集合。
3.根据权利要求1所述的方法,其特征在于,所述预设过滤策略包括点击率阈值过滤策略和/或屏蔽词过滤策略和/或专名实体命中过滤策略。
4.根据权利要求3所述的方法,其特征在于,若所述预设过滤策略包括点击率阈值过滤策略,所述根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合,包括:
基于所述目标视频与所述搜索词集合中各个搜索词的点击关系和展示关系,获得所述搜索词集合中各个搜索词对应所述目标视频的点击率;
过滤所述搜索词集合中对应所述目标视频的点击率小于点击率阈值的搜索词,获得目标搜索词集合。
5.根据权利要求3所述的方法,其特征在于,若所述预设过滤策略包括屏蔽词过滤策略,所述根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合,包括:
过滤所述搜索词集合中包括所述预设屏蔽词的搜索词,获得目标搜索词集合。
6.根据权利要求3所述的方法,其特征在于,若所述预设过滤策略包括专名实体命中过滤策略,所述根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合,包括:
确定所述目标视频的视频标题包括的第一专名实体、所述第一专名实体对应白名单实体以及所述搜索词集合中各个搜索词包括的第二专名实体;
基于所述第二专名实体与所述第一专名实体和所述第一专名实体对应白名单实体的重合数量,过滤所述搜索词集合中各个搜索词获得目标搜索词集合。
7.根据权利要求6所述的方法,其特征在于,所述第一专名实体对应白名单实体的生成步骤包括:
基于所述搜索日志中用户与各个专名实体的搜索关系,获得搜索所述各个专名实体的用户数量,所述专名实体包括第一专名实体和至少一个其他专名实体;
根据搜索所述各个专名实体的用户数量,获得所述第一专名实体与各个所述其他专名实体的协同过滤相关度;
从所述至少一个其他专名实体中选取所述协同过滤相关度大于协同过滤相关度阈值的其他专名实体生成所述第一专名实体的白名单实体。
8.根据权利要求6-7任一项所述的方法,其特征在于,若所述目标视频的视频标题包括人名实体,所述第一专名实体为第一人名实体,所述第二专名实体至少包括第二人名实体;若所述目标视频的视频标题包括剧名实体,所述第一专名实体为第一剧名实体,所述第二专名实体至少包括第二剧名实体。
9.根据权利要求2所述的方法,其特征在于,所述基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息,包括:
确定所述目标搜索词集合中各个目标搜索词对应所述目标视频的点击次数;
基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息。
10.根据权利要求9所述的方法,其特征在于,所述基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息,包括:
基于所述各个目标搜索词对应所述目标视频的点击次数,按照从大到小顺序排序所述目标搜索词集合中各个目标搜索词;
选取排序后的前N个目标搜索词,生成所述目标视频的元信息,所述N为小于所述目标搜索词集合中目标搜索词数量的正整数。
11.根据权利要求9所述的方法,其特征在于,所述基于所述各个目标搜索词对应所述目标视频的点击次数,选取所述目标搜索词集合中各个目标搜索词生成所述目标视频的元信息,具体为:
从所述各个目标搜索词中选取对应所述目标视频的点击次数大于第二点击次数阈值的目标搜索词,生成所述目标视频的元信息,所述第二点击次数阈值大于所述第一点击次数阈值。
12.一种生成视频元信息的装置,其特征在于,包括:
确定单元,用于基于搜索日志中目标视频与各个搜索词的点击关系,确定所述目标视频对应的搜索词集合;
获得单元,用于根据预设过滤策略过滤所述搜索词集合中各个搜索词,获得目标搜索词集合;
生成单元,用于基于所述目标搜索词集合中各个目标搜索词,生成所述目标视频的元信息。
CN201910151658.5A 2019-02-28 2019-02-28 一种生成视频元信息的方法和装置 Active CN109885726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910151658.5A CN109885726B (zh) 2019-02-28 2019-02-28 一种生成视频元信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910151658.5A CN109885726B (zh) 2019-02-28 2019-02-28 一种生成视频元信息的方法和装置

Publications (2)

Publication Number Publication Date
CN109885726A true CN109885726A (zh) 2019-06-14
CN109885726B CN109885726B (zh) 2021-11-26

Family

ID=66930059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910151658.5A Active CN109885726B (zh) 2019-02-28 2019-02-28 一种生成视频元信息的方法和装置

Country Status (1)

Country Link
CN (1) CN109885726B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767796A (zh) * 2020-05-29 2020-10-13 北京奇艺世纪科技有限公司 一种视频关联方法、装置、服务器和可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items
US8473489B1 (en) * 2011-09-27 2013-06-25 Google Inc. Identifying entities using search results
CN104994424A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN106339404A (zh) * 2016-06-30 2017-01-18 北京奇艺世纪科技有限公司 一种搜索词识别方法及装置
CN106919575A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 应用程序搜索方法及装置
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
US10007645B2 (en) * 2012-07-25 2018-06-26 Google Llc Modifying the presentation of a content item
CN108304453A (zh) * 2017-12-18 2018-07-20 北京奇艺世纪科技有限公司 一种视频相关搜索词的确定方法及装置
CN108464007A (zh) * 2016-04-13 2018-08-28 谷歌有限责任公司 视频元数据关联推荐

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412442B1 (en) * 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items
US8473489B1 (en) * 2011-09-27 2013-06-25 Google Inc. Identifying entities using search results
US10007645B2 (en) * 2012-07-25 2018-06-26 Google Llc Modifying the presentation of a content item
CN104994424A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN106919575A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 应用程序搜索方法及装置
CN108464007A (zh) * 2016-04-13 2018-08-28 谷歌有限责任公司 视频元数据关联推荐
CN106339404A (zh) * 2016-06-30 2017-01-18 北京奇艺世纪科技有限公司 一种搜索词识别方法及装置
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN108304453A (zh) * 2017-12-18 2018-07-20 北京奇艺世纪科技有限公司 一种视频相关搜索词的确定方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
俞国红: "《搜索引擎优化》", 30 June 2017, 北京理工大学出版社 *
黄建平 等: "《跨境电子商务知识》", 31 August 2018, 海峡文艺出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767796A (zh) * 2020-05-29 2020-10-13 北京奇艺世纪科技有限公司 一种视频关联方法、装置、服务器和可读存储介质
CN111767796B (zh) * 2020-05-29 2023-12-15 北京奇艺世纪科技有限公司 一种视频关联方法、装置、服务器和可读存储介质

Also Published As

Publication number Publication date
CN109885726B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US9715731B2 (en) Selecting a high valence representative image
US20100082653A1 (en) Event media search
US10324899B2 (en) Methods for characterizing content item groups
US9659278B2 (en) Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content
US8156132B1 (en) Systems for comparing image fingerprints
Obrador et al. Supporting personal photo storytelling for social albums
US8463000B1 (en) Content identification based on a search of a fingerprint database
CN110457504B (zh) 数字资产搜索技术
CN112088370A (zh) 数字资产搜索用户界面
Liu et al. Finding media illustrating events
CN108595660A (zh) 多媒体资源的标签信息生成方法、装置、存储介质及设备
EP2953085A1 (en) Web document enhancement
CN109918539A (zh) 一种基于用户点击行为的音、视频互相检索方法
CN108959394A (zh) 聚类的搜索结果
Rudinac et al. Learning crowdsourced user preferences for visual summarization of image collections
CN104008180B (zh) 结构化数据与图片的关联方法与关联装置
EP2688001A1 (en) System and method, in particular for context-based object retrieval in a social networking system
US20150356191A1 (en) Web document enhancement
CN103955480B (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
Demarty et al. Predicting interestingness of visual content
CN109885726A (zh) 一种生成视频元信息的方法和装置
Kuzovkin et al. Image selection in photo albums
CN107657269A (zh) 一种用于训练图片提纯模型的方法和装置
JP2006228059A (ja) ポインタの位置情報を利用するプレゼンテーションコンテンツ検索システムおよびその方法、ならびにコンピュータ読み取り可能な記録媒体
Nowak et al. Photo summary: automated selection of representative photos from a digital collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant