CN108304453A - 一种视频相关搜索词的确定方法及装置 - Google Patents

一种视频相关搜索词的确定方法及装置 Download PDF

Info

Publication number
CN108304453A
CN108304453A CN201711366296.9A CN201711366296A CN108304453A CN 108304453 A CN108304453 A CN 108304453A CN 201711366296 A CN201711366296 A CN 201711366296A CN 108304453 A CN108304453 A CN 108304453A
Authority
CN
China
Prior art keywords
video
search word
relevant search
label
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711366296.9A
Other languages
English (en)
Other versions
CN108304453B (zh
Inventor
叶澄灿
陈英傑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711366296.9A priority Critical patent/CN108304453B/zh
Publication of CN108304453A publication Critical patent/CN108304453A/zh
Application granted granted Critical
Publication of CN108304453B publication Critical patent/CN108304453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种视频相关搜索词的确定方法及装置,所述方法包括:确定与每个视频的点击相关搜索词;确定所述每个视频的标签相关搜索词;对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。本发明实施例中,将视频和搜索词归一化的同维度、同空间,方便计算视频的点击相关搜索词;然后,将提取视频的标签,计算该标签对应的相关搜索词,并将该搜索词作为视频标签相关搜索词,视频相关搜索词会随着标签对应搜索词的变化而变化,具有较高的灵活性和可扩展性,从而解决了现有技术中不能在视频网站上提供视频维度的相关搜索词的服务,提高了用户视频搜索的体验。

Description

一种视频相关搜索词的确定方法及装置
技术领域
本发明涉及终端搜索技术领域,特别是涉及一种视频相关搜索词的确定方法及装置。
背景技术
随着网上视频数量和用户对视频搜索引擎使用程度的增加,视频搜索引擎已经成为用户获取视频信息和休闲娱乐的重要方式,视频搜索服务也成为了视频网站的重要组成部分。
现有搜索服务入口主要是通过搜索框的默认搜索词,或者通过搜索结果页的相关搜索模块或热门搜索词模块等进行搜素服务的,这些主要是通过对用户(历史、当前)搜索词维度的扩展来实现的。但是,现有视频搜索领域没有单个视频维度的相关搜索词生产策略,也没有单个视频维度的搜索服务入口,从而降低了用户的视频维度搜索服务的体验。因此,如何在视频网站上提供视频维度的相关搜索词的服务,是目前有待解决的技术问题
发明内容
本发明实施例所要解决的技术问题是提供一种视频相关搜索词的确定方法,以解决现有技术中不能在视频网站上提供视频维度的相关搜索词的服务,导致用户视频搜索体验降低的技术问题。
相应的,本发明实施例还提供了一种视频相关搜索词的确定装置,用以保证上述方法的实现及应用。
为了解决上述问题,,本发明是通过如下技术方案实现的:
第一方面提供一种视频相关搜索词的确定方法,所述方法包括:
确定与每个视频的点击相关搜索词;
确定所述每个视频的标签相关搜索词;
对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。
可选的,所述确定与每个视频的点击相关搜索词,包括:
计算用户点击数据中的每个搜索词和对应视频的表达向量;
根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;
按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数;
对所述每个视频的候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。
可选的,所述确定所述每个视频的标签相关搜索词包括:
提取所述每个视频的文本信息,作为每个视频的标签;
获取每个标签对应的相关搜索词;
根据每个视频的标签与对应的相关搜索词,生成对应视频的标签相关搜索词。
可选的,所述获取每个标签对应的相关搜索词包括:
遍历每个视频在线的直播数据得到直播数据的分类标签;将所述直播数据的分类标签作为对应标签的相关搜索词,或者将直播数据的分类标签加直播作为对应标签的相关搜索词;或者将直播数据的分类标签加主播名称作为对应标签的相关搜索词;
或者
遍历每个视频过去预设段时间内搜索量激增的搜索词,将所述搜索量激增的搜索词作为对应标签的相关搜索词。
可选的,所述根据所述每个视频的标签与对应的相关搜索词生成对应视频的标签相关搜索词包括:
确定所述每个视频的标签与对应的相关搜索词的并集;
将所述并集作为对应视频的标签相关搜索词。
可选的,所述对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词包括:
对每个视频的点击相关搜索词和标签相关搜索词进行得分排序;
将得分排序前M个所述点击相关搜索词和标签相关搜索词的并集作为视频相关搜索词,其中M为大于1的整数。
第二方面提供一种视频相关搜索词的确定装置,所述装置包括:
第一确定单元,用于确定与每个视频的点击相关搜索词;
第二确定单元,用于确定所述每个视频的标签相关搜索词;
融合单元,用于对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。
可选的,所述第一确定单元包括:
第一计算单元,用于计算每个搜索词和对应视频的表达向量;
第二计算单元,用于根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;
第一提取单元,用于按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数;
聚类单元,用于对所述每个视频的候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。
可选的,所述第二确定单元包括:
第二提取单元,用于提取所述每个视频的文本信息,作为每个视频的标签;
获取单元,用于获取所述每个标签对应的相关搜索词;
生成单元,用于根据所述标签和对应相关搜索词生成对应视频的标签相关搜索词。
可选的,所述获取单元包括:第一遍历单元和第一确定子单元;和/或第二遍历单元和第二确定子单元,其中,
所述第一遍历单元,用于遍历每个视频在线的直播数据,得到直播数据的分类标签;
所述第一确定子单元,用于将所述遍历单元得到的所述直播数据的分类标签作为对应标签的相关搜索词,或者将直播数据的分类标签加直播作为对应标签的相关搜索词;或者将直播数据的分类标签加主播名称作为对应标签的相关搜索词;
所述第二遍历单元,用于遍历每个视频过去预设时间内搜索量激增的搜索词;
第二确定子单元,用于将搜索量激增的所述搜索词作为对应标签的相关搜索词。
可选的,所述生成单元包括:
查找单元,用于根据每个视频的标签,查找对应的相关搜索词;
第三确定子单元,用于将查找单元查找到的所有相关搜索词的并集作为标签相关搜索词。
可选的,所述融合单元包括:
排序单元,用于对每个视频的点击相关搜索词和标签相关搜索词进行得分排序;
第四确定子单元,用于将得分排序前M个所述点击相关搜索词和标签相关搜索词的并集作为视频相关搜索词,其中M为大于1的整数。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中,通过确定与每个视频的点击相关搜索词,以及确定每个视频的标签相关搜索词。然后,将确定每个视频的标签相关搜索词和对应的标签相关搜索词进行融合,得到每个视频的视频相关搜索词。也就是说,本发明实施例中,将视频和搜索词归一化的同维度、同空间,方便计算视频的点击相关搜索词;然后,将提取视频的标签,计算该标签对应的相关搜索词,并将该搜索词作为视频标签相关搜索词,视频相关搜索词会随着标签对应搜索词的变化而变化,具有较高的灵活性和可扩展性,从而解决了现有技术中不能在视频网站上提供视频维度的相关搜索词的服务,提高了用户视频搜索的体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1是本发明实施例提供的一种视频相关搜索词的确定方法的流程图;
图2是本发明实施例提供的一种确定与每个视频的点击相关搜索词的流程图;
图3是本发明实施例提供的一种确定每个视频的标签相关搜索词的流程图;
图4是本发明实施例提供的一种构造搜索词和对应视频之间的点击二部图的示意图;
图5是本发明实施例提供的一种视频相关搜索词的确定装置的结构示意图;
图6是本发明实施例提供的第一确定单元的结构示意图;
图7是本发明实施例提供的第二确定单元的结构示意图;
图8是本发明实施例提供的一种融合单元的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
请参阅图1,为本发明实施例提供的一种视频相关搜索词的确定方法的流程图;所述方法可以包括:
步骤101:确定与每个视频的点击相关搜索词;
该步骤中,网站服务器先搜集用户点击数据,并计算用户点击数据中的每个搜索词和对应视频的表达向量,比如,某用户搜索了“王者荣耀”,点击了名为“王者荣耀解说”的视频,”王者荣耀”和“王者荣耀解说”即是这里提到的搜索词和对应视频。然后,根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;然后,按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数,对每个视频的候选搜索词进行聚类,得到对应的聚类中心;最后,选取每个视频的聚类中心作为对应视频的点击相关搜索词。也就是说,该实施例中,可以对每一个搜索词及每一个视频计算表达向量,且两者的表达向量是同维度、同空间的,进而可以直接计算搜索词及视频之间的相关度。对于每一个视频,选取与其相关度较高的一些搜索词,作为每个视频的候选搜索词,并将这些候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。其具体的实现过程详见图2。
步骤102:确定每个视频的标签相关搜索词;
该步骤中,网站服务器先提取每个视频的文本信息,作为每个视频的标签;然后,计算每个标签对应的相关搜索词;最后,根据每个视频的标签与对应的相关搜索词,生成对应视频的标签相关搜索词。也就是说,该步骤中,网站服务器通过提取每个视频的文本信息(如标题、数据类型等),获得每个视频的标签(如“吴亦凡”,“中国有嘻哈”等标签)。然后,计算标签对应的搜索词(如直播数据,热点事件数据等),将标签对应的搜索词作为标签相关搜索词。其具体的实现过程详见图3。
步骤101和步骤102在实际应用时没有时间上的先后顺序。
步骤103:对每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。
该步骤中,网站服务器对每个视频的点击相关搜索词和标签相关搜索词进行排序,并按其得分排序(从高到低)截取(或提取)得分较高的前M个搜索词,并将前M个搜索词的并集作为每个视频的视频相关搜索词,其中M为大于1的数。
本发明实施例中,通过确定与每个视频的点击相关搜索词,以及确定每个视频的标签相关搜索词。然后,将确定每个视频的标签相关搜索词和对应的标签相关搜索词进行融合,得到每个视频的视频相关搜索词。也就是说,本发明实施例中,先将视频和搜索词转换成同维度、同空间,方便计算视频的点击相关搜索词;然后,再提取视频的标签,计算该标签对应的相关搜索词,并将该搜索词作为视频标签相关搜索词,视频相关搜索词会随着标签对应搜索词的变化而变化,具有较高的灵活性和可扩展性,从而解决了现有技术中不能在视频网站上提供视频维度的相关搜索词的服务,提高了用户视频搜索的体验。
还请参阅图2,为本发明实施例提供的一种确定与每个视频的点击相关搜索词的流程图;具体包括:
步骤201:计算用户点击数据中的每个搜索词和对应视频的表达向量;
该步骤中,网站服务器按照全局用户点击数据(即达到预定阈值的用户点击数据)先构造每个搜索词和对应视频之间的点击二部图,对所有搜索词进行分词,得到分词结果和权重;将所述分词结果和权重作为搜索词的初始表达向量进行多次迭代计算,得到每个视频和对应搜索词的表达向量。
需要说明的是,理论上全网每个视频或者每个搜索词都可以计算表达向量,具有可实现性。本实施例中,为了性能的考虑,仅计算搜索量、点击量达到一定阈值的视频、搜索词的表达向量。
该步骤中,网站服务器首先按照全局用户点击数据构建每个搜索词和对应的视频之间的点击二部图,其示意图如图4所示,图4为本发明实施例提供的一种构造搜索词和对应视频之间的点击二部图的示意图,其中,图4中的q为构建的搜索词,d为对应的视频。
其次,网站服务器对所有搜索词进行分词,得到分词结果和权重;
比如:通过调用接口对“王者荣耀天琪解说”进行分词,其得到的分词结果和对应的权重分别为“王者荣耀:0.7”,“天琪:0.2”,“解说:0.1”。
再次,网站服务器将所述分词结果和权重作为搜索词的初始表达向量进行多次迭代计算,得到每个视频和对应搜索词的表达向量。也就是说,点击二部图左侧的点是搜索词,右侧的点是视频,将左右的点连接起来的线是点击关系。每个点用表达向量来表示。
其中,经过迭代后,视频的表达向量为
其中,是视频dj第n轮迭代的表达向量,是搜索词qi第(n-1)轮迭代的表达向量,Ci,j是搜索词qi和视频dj之间的点击次数。
由上述公式可知,假设是搜索词qi的第(n-1)轮迭代的表达向量,Ci,j是搜索词qi和视频dj之间的点击次数,是视频dj第n轮迭代的表达向量。则视频dj的表达向量是与其有点击关系的搜索词的表达向量的加权平均向量。并用与其有点击关系的搜索词的表达向量的模之和做为归一化参数,对视频的表达向量进行归一化,使其向量的模为1。
经过反向迭代后,搜索词的表达向量为
其中,是搜索词qi第n轮迭代的表达向量,是视频dj第n轮迭代的表达向量,Ci,j是搜索词qi和视频dj之间的点击次数。
由上述公式可知,是视频dj第n轮迭代的表达向量,Ci,j是搜索词qi和视频dj之间的点击次数,是搜索词qi第n轮迭代的表达向量。则搜搜词qi的表达向量是与其有点击关系的视频的表达向量的加权平均向量。并用与其有点击关系的视频的表达向量的模之和做为归一化参数,对搜索词的表达向量进行归一化,使其向量的模为1。
该实施例中,初始向量不需要迭代,得到搜索词的初始向量Q后,迭代一轮得到视频的表达向量D(参看上述公式),继续迭代得到搜索词的表达向量Q(参看上述公式),再迭代一轮得到新的视频的表达向量D,如此循环。
该实施例中,可以选取多轮(比如选3次等)迭代后的结果作为视频、搜索词的表达向量。当然,在该实施例中,其迭代次数还可以是2至10之间的任何数,本实施例不作限制。
该步骤中,通过上述方法,对搜索词和视频这两个不同维度的实体,生成了相同维度、相同空间的表达向量,以方便步骤202计算搜索词和视频之间的相关度。
从直观感觉来看,搜索词和视频显然是不同维度的事物。通过上述算法,将视频、搜索词转化为相同维度的表达向量。举个例子,比如搜索词“王者荣耀”的表达向量可能为{a:0.2,b:0.7,c:0.1},视频”王者荣耀嗨氏解说”的表达向量可能为{a:0.1,b:0.5,c:0.4},这样就将两个文本转化为3维的表达向量。
步骤202:根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;
该步骤中,由于视频和搜索词之间的表达向量是同维度、同空间的,此处,可以用余弦距离(cosine similarity)作为视频和搜索词之间的相关度,其余弦距离的计算公式为:
在该公式中,A为视频的表达向量,B为搜索词的表达向量。
步骤203:按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数;
对于每一个视频,提取或者截取相关度较高的一些搜索词,比如,提取前N(比如100)个搜索词等,将提取的这些搜索词作为候选搜索词。需要说明的是,本实施例中的N并不限于100,具体可以是50至200之间的任意数字,本实施例不作限制。
步骤204:对所述每个视频的候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。
该实施例中,由于点击相关搜索词的应用场景是作为搜索服务的入口,因此各点击相关搜索词之间的文本相关性应较小,即点击相关搜索词的多样性比较高。故,需要对候选搜索词进行文本聚类,选取各聚类中心作为最终的点击相关搜索词。
该步骤中,采用谱聚类(spectral clustering)方法对候选搜索词进行文本聚类。其具体的过程为:
1)对步骤203中提取的候选搜索词,进行分词,以分词结果的权重作为其表达向量;计算两两候选搜索词之间的余弦距离,生成相似度矩阵W,其中wi,j是候选搜索词i和j的相似度,相似度矩阵是对称矩阵。
2)根据相似度矩阵计算度矩阵D,其计算公式为:度矩阵是对角矩阵。wi,j是候选搜索词i和j的相似度。
3)根据相似矩阵和度矩阵计算拉普拉斯矩阵L,其计算公式为:
L=D-W,其中,W为相似度矩阵,D为度矩阵。
4)对拉普拉斯L矩阵进行特征分解,选取特征值最小的n个特征向量组成特征矩阵F。其中,n值根据经验设定,比如n取10,但并不限于此,n还可以取2至20之间的任意数。
5)对特征矩阵F进行k-means聚类,选取各聚类中心对应的搜索词作为最终的点击相关搜索词。
其中k-means聚类的过程主要通过下述三步实现,即
第一步是为待聚类的点寻找聚类中心
第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去;
第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心;
反复执行第二步和第三步,直到聚类中心不再进行大范围移动或者聚类次数达到要求为止。
该实施例中,k-means聚类的过程对于本领域技术人员来说,已是熟知技术,在此不再赘述。
还请参阅图3,为本发明实施例提供一种确定每个视频的标签相关搜索词的流程图,具体包括:
步骤301:提取每个视频的文本信息,作为每个视频的标签;
该步骤中,具体可以提取每个视频的标题、描述和/或演员的文本信息,作为对应视频的标签。
比如,标题为”获《中国有嘻哈》冠军后,PG One这样评价欧阳靖”的视频,可提取的标签为“中国有嘻哈”、“欧阳靖”、“pg one”、”冠军”等。
也可以是提取文本中的专名、人名信息作为标签。比如标题为”王者荣耀嗨氏解说”的视频,可以提取的标签为“王者荣耀”、“嗨氏”。
步骤302:获取每个标签对应的相关搜索词;
本实施例中以两类数据作为标签的相关搜索词,但并不限于此:
第一类,以直播数据作为相关搜索词,具体为:
遍历每个视频在线的直播数据得到直播数据的分类标签;将所述直播数据的分类标签作为对应标签的相关搜索词,或者将直播数据的分类标签加直播作为对应标签的相关搜索词,比如“王者荣耀直播”等;或者将直播数据的分类标签加主播名称作为对应标签的相关搜索词,比如“王者荣耀嗨氏”等。
第二类,以热点事件数据作为相关搜索词,具体为:
遍历每个视频过去预设段时间内(比如过去几个小时等)搜索量激增的搜索词,将所述搜索量激增的搜索词作为对应标签的相关搜索词。
步骤303:根据每个视频的标签与对应的相关搜索词生成对应视频的标签相关搜索词。
该步骤中,确定每个视频的标签与对应的相关搜索词的并集;将所述并集作为对应视频的标签相关搜索词。
本发明实施例中,将视频和搜索词归一化的同维度、同空间的表达向量,方便的计算视频和搜索词之间的相关度,并将相关度高的搜索词作为点击相关搜索词,将标签对应的相关搜索词来源扩大到直播数据和热点事件数据,随着标签对应的相关搜索词变化而变化,具有较高的灵活性和可扩展性。因此,本发明实施例中的视频签相关搜索词作为一个视频维度的搜索入口,提升了用户使用搜索服务的兴趣,提高用户搜索体验的满意度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
还请参阅图5,为本发明实施例提供的一种视频相关搜索词的确定装置的结构示意图,所述装置包括:第一确定单元51,第二确定单元52和融合单元53,其中,
第一确定单元51,用于确定与每个视频的点击相关搜索词;
第二确定单元52,用于确定每个视频的标签相关搜索词;
融合单元53,用于对每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述第一确定单元51包括:第一计算单元61,第二计算单元62,第一提取单元63和文本聚类单元64,其结构示意图如图6所示,图6为本发明实施例提供的第一确定单元的结构示意图,其中,
第一计算单元61,用于计算每个搜索词和对应视频的表达向量;
第二计算单元62,用于根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;
第一提取单元63,用于按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数;
文本聚类单元64,用于对所述每个视频的候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述第二确定单元52包括:第二提取单元71,获取单元72和生成单元73,其结构示意图如图7所示,图7为本发明实施例提供的第二确定单元的结构示意图,其中,
第二提取单元71,用于提取所述每个视频的文本信息,作为每个视频的标签;具体用于提取每个视频的标题、描述和/或演员的文本信息,作为对应视频的标签。
获取单元72,用于获取所述每个标签对应的相关搜索词;
生成单元73,用于根据所述标签和对应相关搜索词生成对应视频的标签相关搜索词。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述获取单元72包括:第一遍历单元和第一确定子单元;和/或第二遍历单元和第二确定子单元(图中未示),其中,
所述第一遍历单元,用于遍历每个视频在线的直播数据,得到直播数据的分类标签;
所述第一确定子单元,用于将所述遍历单元得到的所述直播数据的分类标签作为对应标签的相关搜索词,或者将直播数据的分类标签加直播作为对应标签的相关搜索词;或者将直播数据的分类标签加主播名称作为对应标签的相关搜索词;
所述第二遍历单元,用于遍历每个视频过去预设时间内搜索量激增的搜索词;
第二确定子单元,用于将搜索量激增的所述搜索词作为对应标签的相关搜索词。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述生成单元73包括:查找单元和第三确定子单元(图中未示),其中,
查找单元,用于根据每个视频的标签,查找对应的相关搜索词;
第三确定子单元,用于将查找单元查找到的所有相关搜索词的并集作为标签相关搜索词。
可选的,在另一实施例中,该实施例在上述实施例的基础上,所述融合单元53包括:排序单元81和第四确定子单元82,其结构示意图如图8所示,图8为本发明实施例提供的一种融合单元的结构示意图,其中,
排序单元81,用于对每个视频的点击相关搜索词和标签相关搜索词进行得分排序;
第四确定子单元82,用于将得分排序前M个所述点击相关搜索词和标签相关搜索词的并集作为视频相关搜索词,其中M为大于1的整数。
可选的,本发明实施例提供的一种视频相关搜索词的确定装置,可以集成在网站服务器或后台服务器中,也可以独立部署,本实施例不作限制,
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例中,通过确定与每个视频的点击相关搜索词,以及确定每个视频的标签相关搜索词。然后,将确定每个视频的标签相关搜索词和对应的标签相关搜索词进行融合,得到每个视频的视频相关搜索词。也就是说,本发明实施例中,将视频和搜索词归一化的同维度、同空间,方便计算视频的点击相关搜索词;然后,将提取视频的标签,计算该标签对应的相关搜索词,并将该搜索词作为视频标签相关搜索词,视频相关搜索词会随着标签对应搜索词的变化而变化,具有较高的灵活性和可扩展性,从而解决了现有技术中不能在视频网站上提供视频维度的相关搜索词的服务,提高了用户视频搜索的体验。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种视频相关搜索词的确定方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种视频相关搜索词的确定方法,其特征在于,包括:
确定与每个视频的点击相关搜索词;
确定所述每个视频的标签相关搜索词;
对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。
2.根据权利要求1所述的方法,其特征在于,所述确定与每个视频的点击相关搜索词,包括:
计算用户点击数据中的每个搜索词和对应视频的表达向量;
根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;
按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数;
对所述每个视频的候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。
3.根据权利要求1所述的方法,其特征在于,所述确定所述每个视频的标签相关搜索词包括:
提取所述每个视频的文本信息,作为每个视频的标签;
获取每个标签对应的相关搜索词;
根据每个视频的标签与对应的相关搜索词,生成对应视频的标签相关搜索词。
4.根据权利要求3所述的方法,其特征在于,所述获取每个标签对应的相关搜索词包括:
遍历每个视频在线的直播数据得到直播数据的分类标签;将所述直播数据的分类标签作为对应标签的相关搜索词,或者将直播数据的分类标签加直播作为对应标签的相关搜索词;或者将直播数据的分类标签加主播名称作为对应标签的相关搜索词;
或者
遍历每个视频过去预设段时间内搜索量激增的搜索词,将所述搜索量激增的搜索词作为对应标签的相关搜索词。
5.根据权利要求3所述的方法,其特征在于,所述根据所述每个视频的标签与对应的相关搜索词生成对应视频的标签相关搜索词包括:
确定所述每个视频的标签与对应的相关搜索词的并集;
将所述并集作为对应视频的标签相关搜索词。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词包括:
对每个视频的点击相关搜索词和标签相关搜索词进行得分排序;
将得分排序前M个所述点击相关搜索词和标签相关搜索词的并集作为视频相关搜索词,其中M为大于1的整数。
7.一种视频相关搜索词的确定装置,其特征在于,包括:
第一确定单元,用于确定与每个视频的点击相关搜索词;
第二确定单元,用于确定所述每个视频的标签相关搜索词;
融合单元,用于对所述每个视频的所述点击相关搜索词和标签相关搜索词进行融合,得到每个视频的视频相关搜索词。
8.根据权利要求7所述的装置,其特征在于,所述第一确定单元包括:
第一计算单元,用于计算每个搜索词和对应视频的表达向量;
第二计算单元,用于根据所述每个搜索词和对应视频的表达向量,计算每个视频与所有搜索词的相关度;
第一提取单元,用于按照每个视频的相关度从高到低提取前N个搜索词,作为每个视频的候选搜索词,其中,N为大于1的整数;
聚类单元,用于对所述每个视频的候选搜索词进行文本聚类,选取聚类中心作为对应视频的点击相关搜索词。
9.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
第二提取单元,用于提取所述每个视频的文本信息,作为每个视频的标签;
获取单元,用于获取所述每个标签对应的相关搜索词;
生成单元,用于根据所述标签和对应相关搜索词生成对应视频的标签相关搜索词。
10.根据权利要求9所述的装置,其特征在于,所述获取单元包括:第一遍历单元和第一确定子单元;和/或第二遍历单元和第二确定子单元,其中,
所述第一遍历单元,用于遍历每个视频在线的直播数据,得到直播数据的分类标签;
所述第一确定子单元,用于将所述遍历单元得到的所述直播数据的分类标签作为对应标签的相关搜索词,或者将直播数据的分类标签加直播作为对应标签的相关搜索词;或者将直播数据的分类标签加主播名称作为对应标签的相关搜索词;
所述第二遍历单元,用于遍历每个视频过去预设时间内搜索量激增的搜索词;
第二确定子单元,用于将搜索量激增的所述搜索词作为对应标签的相关搜索词。
11.根据权利要求9所述的装置,其特征在于,所述生成单元包括:
查找单元,用于根据每个视频的标签,查找对应的相关搜索词;
第三确定子单元,用于将查找单元查找到的所有相关搜索词的并集作为标签相关搜索词。
12.根据权利要求7至11任一项所述的装置,其特征在于,所述融合单元包括:
排序单元,用于对每个视频的点击相关搜索词和标签相关搜索词进行得分排序;
第四确定子单元,用于将得分排序前M个所述点击相关搜索词和标签相关搜索词的并集作为视频相关搜索词,其中M为大于1的整数。
CN201711366296.9A 2017-12-18 2017-12-18 一种视频相关搜索词的确定方法及装置 Active CN108304453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711366296.9A CN108304453B (zh) 2017-12-18 2017-12-18 一种视频相关搜索词的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711366296.9A CN108304453B (zh) 2017-12-18 2017-12-18 一种视频相关搜索词的确定方法及装置

Publications (2)

Publication Number Publication Date
CN108304453A true CN108304453A (zh) 2018-07-20
CN108304453B CN108304453B (zh) 2021-07-06

Family

ID=62870132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711366296.9A Active CN108304453B (zh) 2017-12-18 2017-12-18 一种视频相关搜索词的确定方法及装置

Country Status (1)

Country Link
CN (1) CN108304453B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885726A (zh) * 2019-02-28 2019-06-14 北京奇艺世纪科技有限公司 一种生成视频元信息的方法和装置
CN111858684A (zh) * 2020-07-03 2020-10-30 京华信息科技股份有限公司 一种基于用户查看和收录提升检索精准度的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608123A (zh) * 2015-12-15 2016-05-25 合一网络技术(北京)有限公司 确定搜索词权重的方法和装置
CN106227793A (zh) * 2016-07-20 2016-12-14 合网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN106407280A (zh) * 2016-08-26 2017-02-15 合网络技术(北京)有限公司 查询目标匹配方法及装置
CN106445963A (zh) * 2015-08-10 2017-02-22 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
CN106570046A (zh) * 2016-03-02 2017-04-19 合网络技术(北京)有限公司 一种基于用户操作行为推荐相关搜索数据的方法及装置
US20170289619A1 (en) * 2016-03-29 2017-10-05 Samsung Electronics Co., Ltd. Method for positioning video, terminal apparatus and cloud server

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445963A (zh) * 2015-08-10 2017-02-22 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
CN105608123A (zh) * 2015-12-15 2016-05-25 合一网络技术(北京)有限公司 确定搜索词权重的方法和装置
CN106570046A (zh) * 2016-03-02 2017-04-19 合网络技术(北京)有限公司 一种基于用户操作行为推荐相关搜索数据的方法及装置
US20170289619A1 (en) * 2016-03-29 2017-10-05 Samsung Electronics Co., Ltd. Method for positioning video, terminal apparatus and cloud server
CN106227793A (zh) * 2016-07-20 2016-12-14 合网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN106407280A (zh) * 2016-08-26 2017-02-15 合网络技术(北京)有限公司 查询目标匹配方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885726A (zh) * 2019-02-28 2019-06-14 北京奇艺世纪科技有限公司 一种生成视频元信息的方法和装置
CN109885726B (zh) * 2019-02-28 2021-11-26 北京奇艺世纪科技有限公司 一种生成视频元信息的方法和装置
CN111858684A (zh) * 2020-07-03 2020-10-30 京华信息科技股份有限公司 一种基于用户查看和收录提升检索精准度的方法及系统

Also Published As

Publication number Publication date
CN108304453B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
Kordopatis-Zilos et al. Near-duplicate video retrieval by aggregating intermediate cnn layers
US20210191509A1 (en) Information recommendation method, device and storage medium
CN105653700A (zh) 视频检索方法及系统
CN104751354B (zh) 一种广告人群筛选方法
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
Mei et al. Patch based video summarization with block sparse representation
Zhou et al. Online video recommendation in sharing community
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN104077415A (zh) 搜索方法及装置
CN106096028A (zh) 基于图像识别的文物索引方法及装置
Zhang et al. Guided attention in cnns for occluded pedestrian detection and re-identification
Panda et al. Nyström approximated temporally constrained multisimilarity spectral clustering approach for movie scene detection
CN111460290A (zh) 信息的推荐方法、装置、设备和存储介质
Soltanian et al. Hierarchical concept score postprocessing and concept-wise normalization in CNN-based video event recognition
Broadwell et al. Comparative K-Pop Choreography Analysis through Deep-Learning Pose Estimation across a Large Video Corpus.
Zhang et al. Large‐scale video retrieval via deep local convolutional features
CN108304453A (zh) 一种视频相关搜索词的确定方法及装置
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
Xu et al. Towards annotating media contents through social diffusion analysis
Yang et al. Large scale video data analysis based on spark
Lin et al. Association rule mining with a correlation-based interestingness measure for video semantic concept detection
Mallick et al. Video retrieval using salient foreground region of motion vector based extracted keyframes and spatial pyramid matching
Ng et al. VRAG: Region attention graphs for content-based video retrieval
Lv et al. Efficient large scale near-duplicate video detection base on spark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant