CN111382620B - 视频标签添加方法、计算机存储介质和电子设备 - Google Patents
视频标签添加方法、计算机存储介质和电子设备 Download PDFInfo
- Publication number
- CN111382620B CN111382620B CN201811628075.9A CN201811628075A CN111382620B CN 111382620 B CN111382620 B CN 111382620B CN 201811628075 A CN201811628075 A CN 201811628075A CN 111382620 B CN111382620 B CN 111382620B
- Authority
- CN
- China
- Prior art keywords
- video
- sample
- key frame
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 128
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 402
- 238000012545 processing Methods 0.000 claims description 30
- 238000013139 quantization Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000010845 search algorithm Methods 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 5
- 239000000047 product Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了视频标签添加方法、视频播放方法、视频搜索方法、视频推送方法、服务器、终端设备、计算机存储介质、以及电子设备。所述视频标签添加方法,包括:获取视频集合中的每个视频的关键帧画面的特征向量,视频的关键帧画面的特征向量作为样本向量,全部样本向量构成样本向量集;获取与标签对应的样本图片的特征向量作为目标向量;从样本向量集中查找出与目标向量相似的样本向量;将与查找出的样本向量对应的视频添加上标签。
Description
技术领域
本发明涉及视频处理技术领域,更具体地,涉及视频标签添加方法、视频播放方法、视频搜索方法、视频推送方法、服务器、终端设备、计算机存储介质、以及电子设备。
背景技术
随着互联网技术的发展,越来越多的用户通过视频的方式获取自己感兴趣的内容,给视频打上标签已成为了视频分发的重要手段。通过给视频添加标签,可以标识出视频中的内容特征,便于用户做出选择。
现有技术中,为视频添加标签的方案,都是采用固定标签库的方式:在标签库中预先设置多个标签,令视频库中的每个视频遍历这些标签,以确定可以为每个视频打上哪些标签。具体来说,现有的添加视频标签的方法是基于深度学习的方式,用全部标签对应的样本物体图片对识别模型进行训练,训练好识别模型以后,将待添加标签的视频逐一输入到识别模型中,从而为待添加标签的视频逐一打上与其对应的一个或多个标签。当标签库扩充新标签时,需要增加新标签的样本物体图片对识别模型进行重新训练,训练完成后,利用新的识别模型重复前述对各个视频打标签的过程,从而为每个视频重新添加标签。而视频库中的视频通常是海量的,有时可达上亿个视频,对视频库中的全部视频重新打标一次往往要耗费数月的时间,操作非常不灵活,也浪费算力。可见,现有技术中采用的视频标签添加技术,在增加新标签后需要花费大量时间对原有视频重新打标,不利于扩展新标签。
因此,需要提出一种新的视频标签添加方案,能够更快速地为视频添加标签,以便于解决现有技术中存在的问题。
发明内容
本发明实施例的目标在于提供一种新的视频标签添加方案,更快速地为视频添加标签。
根据本发明的第一方面,提供了一种视频标签添加方法,包括以下步骤:
获取视频集合中的视频的关键帧画面的特征向量,所述视频的关键帧画面的特征向量作为样本向量,所述样本向量构成样本向量集;
获取与所述标签对应的样本图片的特征向量作为目标向量;
从所述样本向量集中查找出与所述目标向量相似的样本向量;
将与查找出的所述样本向量对应的视频添加上所述标签。
可选地或优选地,所述从所述样本向量集中查找出与所述目标向量相似的样本向量,包括:
基于最近邻检索算法从所述样本向量集中查找出与所述目标向量相似的样本向量。
可选地或优选地,所述获取视频的关键帧画面的特征向量,包括:
对所述视频进行镜头切分,得到至少一个镜头;
将每个所述镜头的第一帧画面作为关键帧画面;
提取每个所述关键帧画面的特征向量。
可选地或优选地,所述获取视频的关键帧画面的特征向量,包括:
对所述关键帧画面提取高维特征向量;以及,
对所述关键帧画面的高维特征向量做降维处理。
可选地或优选地,所述获取视频的关键帧画面的特征向量,包括:
利用神经网络模型或者基于尺度不变特征变聚类算法的词袋模型提取所述关键帧画面的特征向量。
可选地或优选地,所述获取与所述标签对应的样本图片的特征向量,包括:
对所述样本图片提取高维特征向量;以及,
对所样本图片的高维特征向量做降维处理。
可选地或优选地,所述获取与所述标签对应的样本图片的特征向量,包括:
利用神经网络模型或者基于尺度不变特征变聚类算法的词袋模型提取与所述标签对应的样本图片的特征向量。
可选地或优选地,所述最近邻检索算法包括:基于K-d树的近邻检索算法或者基于乘积量化的近邻检索算法。
可选地或优选地,所述基于最近邻检索算法从所述样本向量集中查找出与所述目标向量相似的样本向量,包括:
通过对所述样本向量集中的样本向量进行乘积量化处理建立所述样本向量集的数据索引;
通过对所述目标向量进行乘积量化处理将所述目标向量量化到所述数据索引中,以获取所述样本向量集中的样本向量与所述目标向量的距离;
将与所述目标向量的距离小于预设阈值的样本向量确定为与所述目标向量相似的样本向量。
根据本发明的第二方面,提供了一种视频播放方法,包括以下步骤:
接收终端设备发送的对第一视频的播放请求;
将所述第一视频及其标签一起发送给所述终端设备;
其中,所述第一视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中查找出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述第一视频属于所述视频库。
根据本发明的第二方面,提供了一种视频播放方法,包括以下步骤:
向服务器发送对第一视频的播放请求;
从服务器接收所述第一视频,所述第一视频附加有标签;
其中,所述第一视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中查找出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述第一视频属于所述视频库。
根据本发明的第三方面,提供了一种视频搜索方法,包括以下步骤:
接收终端设备发送的视频搜索请求,所述视频搜索请求中包括要搜索的视频的标签;
根据所述标签在视频库中进行搜索,将搜索到的视频下发给终端设备;
其中,所述搜索到的视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中搜索出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合。
根据本发明的第三方面,提供了一种视频搜索方法,包括以下步骤:
向服务器发送视频搜索请求,所述视频搜索请求中包括要搜索的视频的标签;
接收服务器在视频库中根据所述标签搜索到的视频;
其中,所述搜索到的视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中搜索出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合。
根据本发明的第四方面,提供了一种视频推送方法,包括以下步骤:
获取用户浏览过的视频的标签;
根据所述标签在视频库中进行搜索,将搜索到的视频推送给终端设备;
其中,所述搜索到的视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中搜索出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合。
根据本发明的第五方面,提供了一种存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现上述任一项所述的方法。
根据本发明的第六方面,提供了一种电子设备,包括:
存储器,所述存储器存储有可执行指令,
处理器,所述可执行指令被所述处理器执行时,实现上述任一项所述的方法。
根据本发明的第七方面,提供了一种服务器,包括:
存储器,所述存储器存储有可执行指令,
处理器,所述可执行指令被所述处理器执行时,实现上述方法。
根据本发明的第八方面,提供了一种终端设备,包括:
存储器,所述存储器存储有可执行指令,
处理器,所述可执行指令被所述处理器执行时,实现上述方法。
本实施例中的视频标签添加方法,将视频标签的添加转化为寻找与目标向量相似的样本向量的问题,通过查找方式查找出与目标向量相似的样本向量,从而快速实现视频标签的添加。尤其在标签库中扩充了新标签时,本实施例中的方法能够迅速将新标签添加给对应的视频,在处理速度上相比于现有技术具有非常显著的优势。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1示出了本公开实施例提供的视频标签添加系统的结构示意图。
图2示出了本公开实施例提供的视频标签添加方法的流程图。
图3示出了本公开实施例提供的获取视频的关键帧画面的特征向量的方法的流程图。
图4示出了本公开实施例提供的获取视频的关键帧画面的特征向量的方法的流程图。
图5示出了本公开实施例提供的查找与目标向量相似的样本向量的方法的流程图。
图6示出了本公开实施例提供的电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<视频标签添加系统、方法、计算机存储介质、电子设备、服务器>
<视频标签添加系统>
如图1所示,本公开实施例提供的视频标签添加系统1000包括视频库服务器1100-1和视频管理服务器1100-2。视频库服务器1100-1和视频管理服务器1100-2例如都具有如图中所示的服务器1100的结构。
针对上述的服务器1100,可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。上述的服务器1100例如可以是刀片服务器等。处理器1100可以是专用的服务器处理器,也可以是满足性能要求的台式机处理器、移动版处理器等,在此不做限定。服务器可以是各种类型的,例如但不限于新闻服务器,邮件服务器,消息服务器,广告服务器,文件服务器,应用服务器,交互服务器,数据库服务器,或代理服务器。在一些实施例中,每个服务器可以包括硬件,软件,或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。
在一个例子中,服务器1100可以是一台计算机。服务器1100可以如图1所示,包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150和输入装置1160。尽管服务器1100也可以包括扬声器、麦克风等等,但是,这些部件与本发明无关,故在此省略。其中,处理器1110例如可以是中央处理器CPU、微处理器MCU等。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括串行总线接口、并行总线接口、USB接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏。输入装置1160例如可以包括触摸屏、键盘等。
尽管在图1中示出了服务器1100的多个装置,但是,本发明实施例可以仅涉及其中的部分装置。
视频库服务器1100-1用于存储视频库,也就是视频集合,并且可以将视频数据传输给视频管理服务器1100-2。视频管理服务器1100-2可以接收由视频库服务器1100-1发送的视频数据,并且可以为视频添加标签。
在另一个实施例中,视频标签添加系统1000包括的视频库服务器1100-1和视频管理服务器1100-2也可以集成在一台整体的服务器中。
图1所示的视频标签添加系统1000仅是解释性的,并且决不是为了要限制本发明、其应用或用途。
<视频标签添加方法>
本实施例公开一种视频标签添加方法,可以由上述的视频管理服务器1100-2实施。如图2所示,本实施例的视频标签添加方法包括以下步骤S2100-S2400:
步骤S2100、获取视频集合中的每个视频的关键帧画面的特征向量,视频的关键帧画面的特征向量作为样本向量,全部样本向量构成样本向量集。
视频集合是多个待添加标签的视频组成的集合。对于视频库来说,视频库中的全部视频可以构成一个视频集合。视频集合中的视频通常数量巨大,例如达到上亿个视频。
视频的关键帧画面可以是能够反映视频的代表性内容。通过提取视频的关键帧,可以把视频数据转化成更容易处理的图像数据,同时也可以保留视频的主要内容。
关键帧画面的特征向量由关键帧画面的特征参数组成,能够反映关键帧画面的特征。通过提取特征向量,能够将图像转化成计算机能够处理的数据。
获取关键帧画面的特征向量时,可以利用深度学习的神经网络模型来提取,也可以通过自动编码器来提取,还可以通过传统机器学习方案中的尺度不变特征变聚类算法(Scale-invariant feature transform,SIFT)聚类后通过词袋模型获取。
视频的关键帧画面的特征向量作为样本向量,全部样本向量构成样本向量集。样本向量集中向量的数量通常是巨大的。即使对于一个10分钟的短视频,关键帧画面也往往超过200帧画面,每个关键帧画面对应有一个多维的特征向量,那么对于视频集合中上亿个视频,就会形成海量的特征向量数据。
步骤S2200、获取与标签对应的样本图片的特征向量作为目标向量。
在本实施例中,标签是文本形式的。一个标签可以具有多个与之内容匹配的图片,这里称之为样本图片。从样本图片同样可以提取出特征向量。
在一个例子中,可以由人来根据标签收集对应的样本图片,也可以由计算机去收集标签对应的样本图片,例如由计算机通过训练好的识别模型去收集样本图片。
步骤S2300、从样本向量集中查找出与目标向量相似的样本向量。
在一个实施例中,可以基于最近邻检索算法从样本向量集中查找出与目标向量相似的样本向量。在其它实施例中,也可以采用其它查找算法从样本向量集中查找出与目标向量相似的样本向量。
本公开实施例面对样本向量集的海量的特征向量数据,为了提升检索效率,采用最近邻检索算法从样本向量集中查找出与目标向量相似的样本向量。
最近邻检索是根据数据的相似性,从数据库中寻找与目标数据相似的项目,而这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。
本实施例中的最近邻检索算法可以包括经典的最近邻检索(Nearst-Neighbors,NN)算法,也可以包括近似最近邻检索(Approximate Nearest Neighbors,ANN)算法。近似最近邻检索的核心思想是搜索可能是近邻的数据项而不再只局限于返回最可能的项目,在牺牲可接受范围内的精度的情况下提高检索效率。
最近邻检索算法的思想中,其中一类是基于改善检索结构以提升检索效率的方法,主要方法大多基于树形结构,例如经典的K-d树算法、R树算法、M树算法等。另一类是主要基于对数据本身的处理以提升检索效率的方法,包括哈希算法、矢量量化方法等,其中,矢量量化方法的代表是乘积量化。
基于最近邻检索算法,可以较为快速地从样本向量集中查找出与目标向量相似的样本向量。
步骤S2400、将与查找出的样本向量对应的视频添加上标签。
由于查找出的样本向量与目标向量相似,说明查找出的样本向量对应的视频中包含了与标签对应的样本图片类似的内容,因此可以给这些视频添加上标签。
本实施例中的视频标签添加方法,将视频标签的添加转化为寻找与目标向量相似的样本向量的问题,通过查找方式查找出与目标向量相似的样本向量,从而快速实现视频标签的添加。尤其在标签库中扩充了新标签时,本实施例中的方法能够迅速将新标签添加给对应的视频,在处理速度上相比于现有技术具有非常显著的优势。
本实施例中的视频标签添加方法,将视频标签的添加转化为寻找与目标向量相似的样本向量的问题,借助最近邻检索算法快速查找出与目标向量相似的样本向量,提升了视频标签的添加速度。
可选地或优选地,参考图3所示,本实施例中获取视频的关键帧画面的特征向量过程包括以下步骤S3100-S3300:
步骤S3100、对视频进行切分,得到至少一个镜头。
镜头是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的前期拍摄中,镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和。在后期编辑时,镜头是两个剪辑点间的一组画面。在完成片中,一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段。
对于本实施例而言,镜头是指由摄像机连续拍摄的一组内在相关的连续帧,通常用来表示在时空上连续的一组运动。
帧是影像动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头。一帧就是一副静止的画面,连续的帧就形成动态影像,如电视图像等。
镜头切分即检测镜头的边界,然后将视频从检测到的边界处分隔开,形成一个个独立的镜头。镜头与镜头之间一般有很清楚的边界,称为边界帧。则镜头切分的主要任务就是把这些边界帧从构成视频文件的所有帧中检测出来,例如通过使用计算机来顺序的检测视频文件的每一帧,判断其是否为镜头边界帧,这项工作亦称为镜头边界检测。
一段视频经过镜头切分后会得到一个或多个镜头。
本公开实施例提供的视频镜头切分方法,可以为基于场景分割的镜头切分方法,例如基于直方图的镜头切分方法。本公开实施例提供的视频镜头切分方法,还可以为基于运动的镜头切分方法,或者基于轮廓的镜头切分方法。本公开实施例提供的视频镜头切分方法,还可以采用基于聚类或者决策树的视频镜头切分方法。在本实施例中,采用pyscenedetect开源软件进行镜头切分。
步骤S3200、将每个镜头的第一帧画面作为关键帧画面。
每个镜头中都包含了能代表对应镜头的关键帧画面。关键帧画面是指,在镜头的各个帧中,相对更加能够体现镜头主要内容的帧画面。也就是说,利用关键帧画面可以简洁地表达镜头。例如,在动画领域,关键帧画面是二维动画中的原画,指角色或者物体运动或变化中的关键动作所处的那一帧。
在本发明实施例中,提取关键帧画面的目的在于,关键帧画面可以表达出镜头乃至视频的主要内容,利用从关键帧画面中提取的特征向量(例如颜色、纹理和形状等特征向量)为是否要为视频添加标签提供依据。
一个镜头可以有一个或多个关键帧画面,这取决于镜头内容的复杂程度。
在本实施例中,可以将每个镜头的第一帧画面作为关键帧画面。通常来说,当一个新的镜头开始时,其第一帧画面相对更加能够体现该镜头的主要内容。
在本公开实施例中,可以采用基于帧平均的算法确定关键帧画面,包括像素帧平均法或直方图帧平均法。两者具有相同的基本思想,不同的只是选取的衡量平均值的特征。像素帧平均法是取镜头中所有帧的某位置上的像素值求其平均来作为比较的标准,将镜头中此位置像素值最为接近平均值的帧,作为该镜头的关键帧画面。直方图帧平均法则是选取镜头中所有帧直图的平均值作为标准,将直方图最接近平均值的帧作为该镜头的关键帧画面。该算法虽然计算简单,所选取的帧也能最大程度上接近平均值,但是对一个镜头只选取一个关键帧画面,不能够全面的描述其内容,尤其是对内容变化较大的镜头。
在其它实施例中,对于每个镜头,可以动态进行关键帧提取,不是依据当前镜头的长短而依据当前镜头的变化剧烈程度进行关键帧提取,当前镜头变化越剧烈时,则应该提取越多的关键帧,即便当前镜头并不长。相反,即便是一段很长的镜头,如果画面基本没变,也应该提取较少的关键帧。当选取多幅关键帧画面时,用于关键帧画面选取的准则是优先考虑关键帧画面之间的不相似性,即以帧之间相似度作为衡量依据,每次寻找关键帧画面都保证各关键帧画面之间具有最小相似度,以使关键帧画面带有最大信息量。
在另一实施例中,可以利用python opencv软件来提取视频关键帧。
经过上述过程,可以得到能够代表视频主要内容的关键帧画面,便于后续步骤的进行。
步骤S3300、提取每个关键帧画面的特征向量。
通过上述过程完成了对视频的预先处理,将视频文件最终转化成了计算机能够处理的向量数据,便于后续步骤进行。
可选地或优选地,参考图4所示,步骤S3300进一步包括以下步骤S4100和S4200:
步骤S4100、对关键帧画面提取高维特征向量。
步骤S4200、对关键帧画面的高维特征向量做降维处理。
对关键帧画面提取特征向量也就是特征提取问题。特征识别在图像的识别与检索等工作中起到了决定性的作用。图像处理与计算机视觉中的特征提取包含多个层次的提取方式以及特征形态,主要可以将其分为两个层次,即低层次特征提取和高层次特征提取。低层次的特征提取旨在描述图像的主要内容结构,高层次的特征提取关心的是如何利用各种方法挖掘出图像隐含的代数特征。
高层次特征提取可以分成两类,一类是是以信号处理方法为基础,另一类是以学习方法为基础。以信号处理方法为基础的特征提取算法采用了一些经典的变换,例如,傅里叶变换,小波变换等。以学习方法为基础的特征提取算法主要是对已有数据进行降维,将原始数据从高维空间经过线性或者非线性映射到低维特征空间,所获得的降维后的数据极大地反映出原始数据的本质特征,典型的学习算法有主成分分析(PCA,PrincipalComponentsAnalysis)、线性判别分析、局部保持映射、核主成分分析等。
本实施例中采用的是以学习方法为基础的特征提取算法,具体来说,对于每个关键帧画面,先利用已有的VGG16深度网络的倒数第二层提取得到高维特征向量。高维特征向量的维度例如是上万维。再利用PCA方法将高维特征向量做降维处理以得到低维特征向量,例如降维到128维。将低维特征向量应用在后续步骤S2300中,可以降低计算量,提升检索速度。
需要说明的是,上述从关键帧画面中提取特征向量的方法同样也可以应用于从样本图片中提取特征向量。
参考图5所示,在步骤S2300中,利用基于乘积量化(Product Quantization,PQ)的最近邻检索算法从样本向量集中查找出与目标向量相似的样本向量,包括以下步骤S5100-5300:
步骤S5100、通过对样本向量集中的样本向量进行乘积量化处理建立样本向量集的数据索引。
乘积量化方法是向量量化方法中比较典型的一种。乘积量化方法的主要思想是将维度较高的特征向量划分为多个维度较低的子特征向量,然后在子特征向量空间中对子特征向量进行量化,进一步通过这些子特征向量的量化结果的笛卡尔乘积得到原始向量的量化结果(码本),最后,原始向量可以用该码本对应的编码表示。
在一个例子中,经过步骤S4200后得到的样本向量的维度是128维,这样的样本向量的数量是巨大的,例如有一亿个,这一亿个样本向量构成了样本向量集。
根据乘积量化方法,将样本向量的128维空间切分为维度相同的多个子空间,例如切分成8个16维的子空间,分别为子空间X1、X2……X8。对于样本向量集中的一个样本向量A,将其切分8个16维的子向量A1、A2……A8,其中子向量A1、A2……A8与8个子空间X1、X2……X8一一对应。对样本向量集中的其他样本向量均按同样的方法进行切分。每个子空间的全部子向量的集合形成了该子空间的子向量集。对子空间X1的子向量集的子向量进行量化处理,得到子空间X1的码本和子空间X1的子向量集的每个子向量在子空间X1的码本中的编码。对其它子空间进行同样的处理,最后得到每个子空间的码本和该子空间的子向量集的每个子向量在该子空间的码本中的编码。
子空间X1、X2……X8的码本的笛卡尔乘积,形成了样本向量空间的码本。子向量A1、A2……A8在8个子空间的编码共同组成了样本向量A的编码。根据样本向量空间的码本和每个样本向量的编码可以建立样本向量集的数据索引。
步骤S5200、通过对目标向量进行乘积量化处理将目标向量量化到数据索引中,以获取样本向量集中的样本向量与目标向量的距离。
继续参照步骤S5100中的例子,对目标向量同样进行乘积量化处理,最终获取目标向量在相同码本中的编码,也就是将目标向量量化到了数据索引中。
将目标向量量化到了数据索引中后,可以根据数据索引方便地确定目标向量与样本向量的距离。
步骤S5300、将与目标向量的距离小于预设阈值的样本向量确定为与目标向量相似的样本向量。
在本实施例中,将目标向量与样本向量的距离作为相似度的评价指标,将与目标向量的距离小于预设阈值的样本向量确定为与目标向量相似的样本向量,从而查找出与目标向量相似的样本向量。
采用乘积量化的方法查找与目标向量相似的样本向量,可以大大提升查找速度并减小内存消耗。
<计算机存储介质>
本实施例提供一种计算机存储介质,存储有可执行指令,可执行指令被执行时,实现以下方法,包括:
获取视频集合中的每个视频的关键帧画面的特征向量,视频的关键帧画面的特征向量作为样本向量,全部样本向量构成样本向量集;
获取与标签对应的样本图片的特征向量作为目标向量;
从样本向量集中查找出与目标向量相似的样本向量;
将与查找出的样本向量对应的视频添加上标签。
具体地,前述视频标签添加方法的实施例可用于解释本实施例中的计算机存储介质,本计算机存储介质的实施例中不再赘述。
<电子设备>
本实施例提供一种电子设备,如图6中所示,电子设备6100包括:
存储器6120,存储器6120存储有可执行指令,
处理器6110,可执行指令被处理器6110执行时,实现以下方法,包括:
获取视频集合中的每个视频的关键帧画面的特征向量,视频的关键帧画面的特征向量作为样本向量,全部样本向量构成样本向量集;
获取与标签对应的样本图片的特征向量作为目标向量;
从样本向量集中查找出与目标向量相似的样本向量;
将与查找出的样本向量对应的视频添加上标签。
具体地,前述视频标签添加方法的实施例可用于解释本实施例中的电子设备,本电子设备的实施例中不再赘述。
电子设备6100还可以包括接口装置6130、通信装置6140、显示装置6150和输入装置6160。
<服务器>
本发明实施例提供了一种可用于为视频添加标签的服务器,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述任一项的视频标签添加方法。
可用于为视频添加标签的服务器例如是上述的视频管理服务器1100-2。
前述视频标签添加方法的实施例可用于解释本实施例中的服务器,本服务器的实施例中不再赘述。
<视频播放方法、服务器、终端设备、计算机存储介质、电子设备>
本发明实施例提供了一种视频播放方法。本发明实施例的视频播放方法可以由前述视频管理服务器1100-2实施。
本发明实施例提供的视频播放方法,包括以下步骤:
接收终端设备发送的对第一视频的播放请求;
将第一视频及其标签一起发送给终端设备;
其中,第一视频的关键帧画面的特征向量属于第一特征向量集,第一特征向量集对应的视频具有标签;
第一特征向量集是从第二特征向量集中查找出的与标签对应的样本图片的特征向量相似的特征向量构成的集合,第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,第一视频属于视频库。
从上述内容可以看出,第一视频的标签可以是通过前述任一项视频标签添加方法添加上的。
本发明实施例提供了一种服务器,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频播放方法。
本发明实施例提供了一种计算机存储介质,存储有可执行指令,可执行指令被处理器执行时,实现上述视频播放方法。
本发明实施例提供了一种电子设备,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频播放方法。
本发明实施例提供了一种视频播放方法,可以由终端设备实施,包括以下步骤:
向服务器发送对第一视频的播放请求;
从服务器接收第一视频,第一视频附加有标签;
其中,第一视频的关键帧画面的特征向量属于第一特征向量集,第一特征向量集对应的视频具有标签;
第一特征向量集是从第二特征向量集中查找出的与标签对应的样本图片的特征向量相似的特征向量构成的集合,第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述第一视频属于所述视频库。
从上述内容可以看出,第一视频的标签可以是通过前述任一项视频标签添加方法添加上的。
本发明实施例提供了一种终端设备,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频播放方法。终端设备可以例如是手机、台式机、平板电脑、笔记本电脑等。
<视频搜索方法、服务器、终端设备、计算机存储介质、电子设备>
本发明实施例提供了一种视频搜索方法。本发明实施例的视频搜索方法可以由前述视频管理服务器1100-2实施。
本发明实施例的视频搜索方法,包括以下步骤:
接收终端设备发送的视频搜索请求,视频搜索请求中包括要搜索的视频的标签;
根据标签在视频库中进行搜索,将搜索到的视频下发给终端设备;
其中,搜索到的视频的关键帧画面的特征向量属于第一特征向量集,第一特征向量集对应的视频具有标签;
第一特征向量集是从第二特征向量集中搜索出的与标签对应的样本图片的特征向量相似的特征向量构成的集合,第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合。
从上述内容可以看出,视频的标签可以是通过前述任一项视频标签添加方法添加上的。
本发明实施例提供了一种服务器,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频搜索方法。
本发明实施例提供了一种计算机存储介质,存储有可执行指令,可执行指令被处理器执行时,实现上述视频搜索方法。
本发明实施例提供了一种电子设备,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频搜索方法。
本发明实施例提供一种视频搜索方法,可以由终端设备实施,包括以下步骤:
向服务器发送视频搜索请求,视频搜索请求中包括要搜索的视频的标签;
接收服务器在视频库中根据标签搜索到的视频;
其中,搜索到的视频的关键帧画面的特征向量属于第一特征向量集,第一特征向量集对应的视频具有标签;
第一特征向量集是从第二特征向量集中搜索出的与标签对应的样本图片的特征向量相似的特征向量构成的集合,第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合。
从上述内容可以看出,视频的标签可以是通过前述任一项视频标签添加方法添加上的。
本发明实施例提供了一种终端设备,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频搜索方法。终端设备可以例如是手机、台式机、平板电脑、笔记本电脑等。
<视频推送方法、服务器、计算机存储介质、电子设备>
本发明实施例提供了一种视频推送方法。本发明实施例的视频推送方法可以由前述视频管理服务器1100-2实施。
本发明实施例提供的视频推送方法,包括以下步骤:
获取用户浏览过的视频的标签;
根据标签在视频库中进行搜索,将搜索到的视频推送给终端设备;
其中,搜索到的视频的关键帧画面的特征向量属于第一特征向量集,第一特征向量集对应的视频具有标签;
第一特征向量集是从第二特征向量集中搜索出的与标签对应的样本图片的特征向量相似的特征向量构成的集合,第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合。
从上述内容可以看出,视频的标签可以是通过前述任一项视频标签添加方法添加上的。
本发明实施例提供了一种服务器,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频推送方法。
本发明实施例提供了一种计算机存储介质,存储有可执行指令,可执行指令被处理器执行时,实现上述视频推送方法。
本发明实施例提供了一种电子设备,包括:存储器,存储器存储有可执行指令;处理器,可执行指令被处理器执行时,实现上述视频推送方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (16)
1.一种视频标签添加方法,包括以下步骤:
获取视频的关键帧画面的特征向量;所述获取视频的关键帧画面的特征向量,包括:对视频集合中的视频进行镜头切分,得到至少一个镜头;将每个所述镜头的第一帧画面作为关键帧画面;对每个所述关键帧画面提取高维特征向量,以及对所述关键帧画面的高维特征向量做降维处理以得到特征向量,其中,所述特征向量作为样本向量,所述样本向量构成样本向量集;
获取与所述标签对应的样本图片的特征向量作为目标向量;
从所述样本向量集中查找出与所述目标向量相似的样本向量;
将与查找出的所述样本向量对应的视频添加上所述标签。
2.根据权利要求1所述的方法,其中,所述从所述样本向量集中查找出与所述目标向量相似的样本向量,包括:
基于最近邻检索算法从所述样本向量集中查找出与所述目标向量相似的样本向量。
3.根据权利要求1所述的方法,其中,所述获取视频的关键帧画面的特征向量,包括:
利用神经网络模型或者基于尺度不变特征变聚类算法的词袋模型提取所述关键帧画面的特征向量。
4.根据权利要求1所述的方法,其中,所述获取与所述标签对应的样本图片的特征向量,包括:
对所述样本图片提取高维特征向量;以及,
对所样本图片的高维特征向量做降维处理。
5.根据权利要求1所述的方法,其中,所述获取与所述标签对应的样本图片的特征向量,包括:
利用神经网络模型或者基于尺度不变特征变聚类算法的词袋模型提取与所述标签对应的样本图片的特征向量。
6.根据权利要求2所述的方法,其中,所述最近邻检索算法包括:基于K-d树的近邻检索算法或者基于乘积量化的近邻检索算法。
7.根据权利要求2所述的方法,其中,所述基于最近邻检索算法从所述样本向量集中查找出与所述目标向量相似的样本向量,包括:
通过对所述样本向量集中的样本向量进行乘积量化处理建立所述样本向量集的数据索引;
通过对所述目标向量进行乘积量化处理将所述目标向量量化到所述数据索引中,以获取所述样本向量集中的样本向量与所述目标向量的距离;
将与所述目标向量的距离小于预设阈值的样本向量确定为与所述目标向量相似的样本向量。
8.一种视频播放方法,包括以下步骤:
接收终端设备发送的对第一视频的播放请求;
将所述第一视频及其标签一起发送给所述终端设备;
其中,所述第一视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中查找出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述视频库中的视频的关键帧画面的特征向量是对每个所述关键帧画面提取高维特征向量后所做降维处理得到的,所述视频库中的视频的关键帧画面是每个镜头的第一帧画面,所述镜头是对视频库中的视频进行镜头切分得到的,所述第一视频属于所述视频库。
9.一种视频播放方法,包括以下步骤:
向服务器发送对第一视频的播放请求;
从服务器接收所述第一视频,所述第一视频附加有标签;
其中,所述第一视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中查找出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述视频库中的视频的关键帧画面的特征向量是对每个所述关键帧画面提取高维特征向量后所做降维处理得到的,所述视频库中的视频的关键帧画面是每个镜头的第一帧画面,所述镜头是对视频库中的视频进行镜头切分得到的,所述第一视频属于所述视频库。
10.一种视频搜索方法,包括以下步骤:
接收终端设备发送的视频搜索请求,所述视频搜索请求中包括要搜索的视频的标签;
根据所述标签在视频库中进行搜索,将搜索到的视频下发给终端设备;
其中,所述搜索到的视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中搜索出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述视频库中的视频的关键帧画面的特征向量是对每个所述关键帧画面提取高维特征向量后所做降维处理得到的,所述视频库中的视频的关键帧画面是每个镜头的第一帧画面,所述镜头是对视频库中的视频进行镜头切分得到的。
11.一种视频搜索方法,包括以下步骤:
向服务器发送视频搜索请求,所述视频搜索请求中包括要搜索的视频的标签;
接收服务器在视频库中根据所述标签搜索到的视频;
其中,所述搜索到的视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中搜索出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述视频库中的视频的关键帧画面的特征向量是对每个所述关键帧画面提取高维特征向量后所做降维处理得到的,所述视频库中的视频的关键帧画面是每个镜头的第一帧画面,所述镜头是对视频库中的视频进行镜头切分得到的。
12.一种视频推送方法,包括以下步骤:
获取用户浏览过的视频的标签;
根据所述标签在视频库中进行搜索,将搜索到的视频推送给终端设备;
其中,所述搜索到的视频的关键帧画面的特征向量属于第一特征向量集,所述第一特征向量集对应的视频具有所述标签;
所述第一特征向量集是从第二特征向量集中搜索出的与所述标签对应的样本图片的特征向量相似的特征向量构成的集合,所述第二特征向量集是视频库中的视频的关键帧画面的特征向量构成的集合,所述视频库中的视频的关键帧画面的特征向量是对每个所述关键帧画面提取高维特征向量后所做降维处理得到的,所述视频库中的视频的关键帧画面是每个镜头的第一帧画面,所述镜头是对视频库中的视频进行镜头切分得到的。
13.一种计算机存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现权利要求1-12任一项所述的方法。
14.一种电子设备,包括:
存储器,所述存储器存储有可执行指令,
处理器,所述可执行指令被所述处理器执行时,实现权利要求1-12任一项所述的方法。
15.一种服务器,包括:
存储器,所述存储器存储有可执行指令,
处理器,所述可执行指令被所述处理器执行时,实现权利要求1-8、10、12任一项所述的方法。
16.一种终端设备,包括:
存储器,所述存储器存储有可执行指令,
处理器,所述可执行指令被所述处理器执行时,实现权利要求9或11所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811628075.9A CN111382620B (zh) | 2018-12-28 | 2018-12-28 | 视频标签添加方法、计算机存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811628075.9A CN111382620B (zh) | 2018-12-28 | 2018-12-28 | 视频标签添加方法、计算机存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382620A CN111382620A (zh) | 2020-07-07 |
CN111382620B true CN111382620B (zh) | 2023-06-09 |
Family
ID=71216397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811628075.9A Active CN111382620B (zh) | 2018-12-28 | 2018-12-28 | 视频标签添加方法、计算机存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382620B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113395584B (zh) * | 2020-10-10 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、装置、设备以及介质 |
CN112163122B (zh) * | 2020-10-30 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 确定目标视频的标签的方法、装置、计算设备及存储介质 |
CN113301448A (zh) * | 2020-11-09 | 2021-08-24 | 众源科技(广东)股份有限公司 | 一种智能ar网关 |
CN113613065B (zh) * | 2021-08-02 | 2022-09-09 | 北京百度网讯科技有限公司 | 视频编辑方法、装置、电子设备以及存储介质 |
CN114168789A (zh) * | 2021-12-16 | 2022-03-11 | 广州歌神信息科技有限公司 | 歌曲标签扩充方法及其装置、设备、介质、产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617233A (zh) * | 2013-11-26 | 2014-03-05 | 烟台中科网络技术研究所 | 一种基于语义内容多层表示的重复视频检测方法与装置 |
CN105100894A (zh) * | 2014-08-26 | 2015-11-25 | Tcl集团股份有限公司 | 面部自动标注方法及系统 |
CN106919652A (zh) * | 2017-01-20 | 2017-07-04 | 东北石油大学 | 基于多源多视角直推式学习的短视频自动标注方法与系统 |
WO2017114388A1 (zh) * | 2015-12-30 | 2017-07-06 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN107704525A (zh) * | 2017-09-04 | 2018-02-16 | 优酷网络技术(北京)有限公司 | 视频搜索方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8983192B2 (en) * | 2011-11-04 | 2015-03-17 | Google Inc. | High-confidence labeling of video volumes in a video sharing service |
-
2018
- 2018-12-28 CN CN201811628075.9A patent/CN111382620B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617233A (zh) * | 2013-11-26 | 2014-03-05 | 烟台中科网络技术研究所 | 一种基于语义内容多层表示的重复视频检测方法与装置 |
CN105100894A (zh) * | 2014-08-26 | 2015-11-25 | Tcl集团股份有限公司 | 面部自动标注方法及系统 |
WO2017114388A1 (zh) * | 2015-12-30 | 2017-07-06 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN106919652A (zh) * | 2017-01-20 | 2017-07-04 | 东北石油大学 | 基于多源多视角直推式学习的短视频自动标注方法与系统 |
CN107704525A (zh) * | 2017-09-04 | 2018-02-16 | 优酷网络技术(北京)有限公司 | 视频搜索方法和装置 |
Non-Patent Citations (1)
Title |
---|
冀中等."基于超图排序算法的视频摘要".《电子学报》.2017,(第5期),第1035-1043页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111382620A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382620B (zh) | 视频标签添加方法、计算机存储介质和电子设备 | |
US11132555B2 (en) | Video detection method, server and storage medium | |
CN109815364B (zh) | 一种海量视频特征提取、存储和检索方法及系统 | |
US20190108242A1 (en) | Search method and processing device | |
CN102549603B (zh) | 基于相关性的图像选择 | |
US9355330B2 (en) | In-video product annotation with web information mining | |
Ayed et al. | MapReduce based text detection in big data natural scene videos | |
CN106294798A (zh) | 一种基于缩略图的图像分享方法和终端 | |
US10489681B2 (en) | Method of clustering digital images, corresponding system, apparatus and computer program product | |
CN111090763A (zh) | 一种图片自动标签方法及装置 | |
CN113806588A (zh) | 搜索视频的方法和装置 | |
US20170091240A1 (en) | Fast orthogonal projection | |
Chen et al. | A hybrid mobile visual search system with compact global signatures | |
Zhai et al. | Chinese image text recognition with BLSTM-CTC: a segmentation-free method | |
Meena et al. | Architecture for software as a service (SaaS) model of CBIR on hybrid cloud of microsoft azure | |
CN104778272B (zh) | 一种基于区域挖掘和空间编码的图像位置估计方法 | |
Chivadshetti et al. | Content based video retrieval using integrated feature extraction and personalization of results | |
CN107609104B (zh) | 根据视频图像素材查找相关视频的方法和系统 | |
Orhei et al. | CBIR for urban building using A-KAZE features | |
CN111178409B (zh) | 基于大数据矩阵稳定性分析的图像匹配与识别系统 | |
KR20150101846A (ko) | 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
CN115618873A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
Vadivukarassi et al. | A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset | |
Zhang et al. | Transmitting informative components of fisher codes for mobile visual search | |
CN116150428B (zh) | 视频标签获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240613 Address after: Room 201, No. 9 Fengxiang East Street, Yangsong Town, Huairou District, Beijing Patentee after: Youku Culture Technology (Beijing) Co.,Ltd. Country or region after: China Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Patentee before: ALIBABA GROUP HOLDING Ltd. Country or region before: Cayman Islands |
|
TR01 | Transfer of patent right |