CN110134829B

CN110134829B - 视频定位方法和装置、存储介质及电子装置

Info

Publication number: CN110134829B
Application number: CN201910351116.2A
Authority: CN
Inventors: 李祖桐; 阳赵阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-12-07
Anticipated expiration: 2039-04-28
Also published as: CN110134829A

Abstract

本发明公开了一种视频定位方法和装置、存储介质及电子装置。其中，该方法包括：从待定位视频中获取目标图像特征信息和目标音频特征信息；使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。本发明解决了相关技术中的视频定位方法存在定位成本高、定位准确度低的问题的技术问题。

Description

视频定位方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频定位方法和装置、存储介质及电子装置。

背景技术

目前，通常采用人工标注或文本标题定位的方式定位出待定位的一段视频的视频出处(例如，所属的原剧名，所属电视剧的原集数)。

对于人工标注的方式，通过人工查看用户新上传的视频，标注员仅能凭印象去原始视频中一一查看，从而定位出视频出处。采用上述方式，对于用户新上传视频无法做到实时定位，且人工成本高，定位效率低。对于文本标题定位的方式，通过匹配视频标题进行定位。由于视频标题是由上传者在上传视频时输入的，存在视频标题描述不准确或者错误描述(故意或者非故意)的情况。采用上述方式，视频定位准确率低。

可见，相关技术中的视频定位方法，存在定位成本高，定位准确度低的问题。

发明内容

本发明实施例提供一种视频定位方法和装置、存储介质及电子装置，以至少解决相关技术中的视频定位方法存在定位成本高、定位准确度低的问题的技术问题。

根据本发明实施例的一个方面，提供了一种视频定位方法，包括：从待定位视频中获取目标图像特征信息和目标音频特征信息；使用所述目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，所述第一备选视频的图像特征信息与所述目标图像特征信息相匹配；使用所述目标音频特征信息，从所述第一视频集合中定位出第二备选视频，其中，所述第二备选视频的音频特征信息与所述目标音频特征信息相匹配；在所述第一备选视频和所述第二备选视频为不同视频的情况下，根据所述第一备选视频与所述待定位视频之间的目标相似度，从所述第一备选视频和所述第二备选视频中确定出与所述待定位视频匹配的目标视频。

根据本发明实施例的另一方面，还提供了一种视频定位装置，包括：第一获取单元，用于从待定位视频中获取出目标图像特征信息和目标音频特征信息；第一定位单元，用于使用所述目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，所述第一备选视频的图像特征信息与所述目标图像特征信息相匹配；第二定位单元，用于使用所述目标音频特征信息，从所述第一视频集合中定位出第二备选视频，其中，所述第二备选视频的音频特征信息与所述目标音频特征信息相匹配；确定单元，用于在所述第一备选视频和所述第二备选视频为不同视频的情况下，根据所述第一备选视频与所述待定位视频之间的目标相似度，从所述第一备选视频和所述第二备选视频中确定出与所述待定位视频匹配的目标视频。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质存储有计算机程序，上述计算机程序被设置为运行时执行上述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的方法。

在本发明实施例中，采用基于视频的图像特征和音频特征进行视频定位的方式，通过从待定位视频中获取目标图像特征信息和目标音频特征信息；使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频，由于基于视频的图像特征和音频特征分别进行视频定位，并对定位结果进行融合，不需要人工参与，且定位结果准确度高，从而实现了降低视频定位成本，提高视频定位准确度的技术效果，进而解决了相关技术中的视频定位方法存在定位成本高、定位准确度低的问题的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频定位方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的视频定位方法的流程示意图；

图3是根据本发明实施例的一种视频定位方法的示意图；

图4是根据本发明实施例的另一种视频定位方法的示意图；

图5是根据本发明实施例的另一种可选的视频定位方法的流程示意图；

图6是根据本发明实施例的又一种可选的视频定位方法的流程示意图；

图7是根据本发明实施例的又一种可选的视频定位方法的流程示意图；

图8是根据本发明实施例的又一种可选的视频定位方法的流程示意图；

图9是根据本发明实施例的一种可选的视频定位装置的结构示意图；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明实施例中，提供了一种上述视频定位方法的实施例。作为一种可选的实施方式，该视频定位方法可以但不限于应用于如图1所示的应用环境中。

如图1所示，终端102(可以安装有目标应用的客户端)通过网络104与服务器106相连。终端102上运行有客户端，该客户端可以使用目标帐号登录，并通过网络104向服务器106上传待定位视频。

服务器106接收到待定位视频之后，根据配置信息，确定需要对待定位视频进行定位。服务器106从待定位视频中获取目标图像特征信息和目标音频特征信息；使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。

可选地，在本实施例中，上述终端可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机、及用于运行对战游戏的硬件设备。上述网络可以包括但不限于以下至少之一：有线网络和/或无线网络，上述有线网络可以包括但不限于以下至少之一：广域网、城域网、局域网。上述无线网络可以包括但不限于：蓝牙、WIFI及其他实现无线通信的网络，上述服务器可以包括但不限于：目标应用的后台服务器，和/或，用于对目标对话任务执行情况进行评测的服务器。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例的一方面，提供了一种视频定位方法，该视频定位方法可以应用于如图1所示的终端102中，如图2所示，该方法包括：

S202，从待定位视频中获取目标图像特征信息和目标音频特征信息；

S204，使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；

S206，使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；

S208，在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。

可选地，在本实施例中，上述视频定位方法可以但不限于应用于：视频应用的服务器(视频媒体平台的服务器)，例如，在视频应用中，以视频搜视频，类似于以图搜图、以图搜视频(如图3所示)，用户上传待定位视频，服务器借用定位结果，可以搜索出原始视频作品，并向用户返回原视视频作品；视频推荐，根据用户点击的某个剧的短视频，可按剧情的时间顺序推送给用户相关内容(如图4所示)，定位的过程可以是在该短视频被上传时执行的。此外，还可以应用于其他与视频有关的场景中，例如，视频版权保护。上述仅是一种示例，本实施例中不限于上述应用场景。

例如，用户看到一段感兴趣的短视频，但是不确定该短视频的出处，可以将该短视频通过目标应用上传服务器。服务器定位出该短视频的出处为某电影，并将定位出的该电影的观看链接推送给该用户。

又例如，目标应用的用户A上传了一段短视频，服务器接收到上传的短视频之后，定位出该短视频属于某电视剧第2集第5分钟至第5分半钟，并将定位结果保存，在检测到用户B点击了该短视频之后，根据保存的定位结果，以短视频的形式向用户B推送该电视剧第2集第5分半钟之后的剧情(可以按照剧情的先后进行推送)。

再例如，假设对于某综艺节目，目标应用没有播放版权，而如果有用户将上述综艺节目的视频上传到目标应用上，此时，目标应用的其他用户可以在目标应用上观看上述综艺节目。然而，目标应用实际上并没有上述综艺节目的版权。使用上述视频定位方法，可以筛选出这样无版权的视频，通过设置上传视频审核机制，不允许无版权的视频在目标应用中公开，从而可以有效避免版权纠纷。

下面结合图2对本发明实施例中的视频定位方法进行说明。

在步骤S202中，从待定位视频中获取目标图像特征信息和目标音频特征信息。

服务器(视频定位服务器)可以接收使用目标帐号登录的客户端上传的待定位视频，或者，由其他服务器发送的待定位视频。待定位视频可以单个发送，也可以批量发送。

上述待定位视频可以是与视频定位请求一起发送的：服务器接收到视频定位请求，该视频定位请求中携带有待定位视频，该视频定位请求用于请求定位出待定位视频的出处(请求定位出包含待定位视频的目标视频，或者，请求从第一视频集合中定位与待定位视频匹配的目标视频)。

服务器还可以根据配置信息(例如，配置的任务列表)，从存储有待定位视频的存储设备中主动获取待定位视频，以定位出包含待定位视频的目标视频，或者，从第一视频集合中定位与待定位视频匹配的目标视频

在获取到待定位视频之后，服务器可以从待定位视频中获取目标图像特征信息和目标音频特征信息。

上述目标图像特征信息可以是待定位视频中所包含的全部视频帧的图像特征信息，可以是待定位视频中所包含的部分视频帧的图像特征信息，上述图像特征信息可以是视频帧的图像特征向量。

作为一种可选的实施方式，获取待定位视频的目标图像特征信息可以包括：获取与待定位视频中所包含的全部视频帧中的每一个视频帧的图像特征向量。

可以抽取出待定位视频的所有帧，计算每一帧(视频帧，一个视频帧可以为一张图像)的图像特征向量。

作为另一种可选的实施方式，获取待定位视频的目标图像特征信息可以包括：获取与待定位视频中的部分视频帧的图像特征向量。

待定位视频中的部分视频帧可以通过多种方式获取，可以按照第一步长(例如，1s，0.5s)从待定位视频中抽取视频帧的方式获取部分视频帧，也可以按照每m秒随机抽取n个视频帧的方式获取部分视频帧，其中，m和n均为大于或者等于1的正整数。

可选地，可以按照第一步长从待定位视频中抽取出目标视频帧。抽取的起点可以为待定位视频的第i帧，其中，i为大于或者等于1，且小于或者等于第一步长乘以待定位视频中每秒包含的视频帧的数目。

例如，待定位视频的视频长度为10s，1s包含24帧。如果以1s为步长(每秒抽取一帧)从待定位视频中抽取目标视频帧，抽取的起点为第1s的第5帧，则抽取的目标视频帧有10个，分别为：第1s的第5帧、第2s的第5帧……第10s的第5帧。如果以0.5s为步长(每秒抽取两帧)从待定位视频中抽取目标视频帧，抽取的起点为第1s的第5帧，则抽取的目标视频帧有20个，分别为：第1s的第5帧、第1s的第17帧、第2s的第5帧、第2s的第17帧……第10s的第5帧、第10s的第17帧。

可选地，可以使用滑动窗口(窗口大小和滑动步长可以相同，均为m秒)在待定位视频上滑动，每次滑动从位于该滑动窗口的视频帧中随机抽取n个视频帧作为视频帧，其中，n为大于或者等于1的正整数。

例如，待定位视频的视频长度为10s，1s包含24帧。按照每一秒(滑动窗口的窗口大小和滑动步长为1s)随机抽取1个视频帧的方式逐秒抽取目标视频帧，则抽取的目标视频帧有10个，可以为：第1s的第3帧、第2s的第10帧、第3s的第18帧、第4s的第12帧、第5s的第20帧、第6s的第8帧、第7s的第11帧、第8s的第21帧、第9s的第17帧和第10s的第9帧。

又例如，待定位视频的视频长度为10s，1s包含24帧。按照每半秒(滑动窗口的窗口大小和滑动步长为0.5s)随机抽取2个视频帧的方式抽取目标视频帧，则抽取的目标视频帧有40个。

获取视频帧的图像特征向量的方式可以是：将视频帧输入到第一转换模型，该第一转换模型是预先训练好的，第一转换模型的输入可以是图像，输出是与输入图像的对应的图像特征向量。每个输入的图像，转换为一个与其对应的图像特征向量。

例如，第一转换模型可以是VGG16(一种16层CNN网络，其中，CNN又称卷积神经网络，包括卷积层和池化层，是一种前馈神经网络，人工神经元可以响应周围单元)中，将待处理图像作为VGG16的输入，取VGG16倒数第二层的1000维向量，作为用于表示该待处理图像的图像特征向量。

在抽取出部分视频帧之后，可以使用第一转换模型，使用第一转换模型，将抽取出的部分视频帧转换为用于表示抽取出的部分视频帧的图像特征向量，其中，抽取出的部分视频帧和转换后的图像特征向量之间具有一一对应关系。

可选地，在本实施例中，从待定位视频中获取目标图像特征信息可以包括：按照第一步长，从待定位视频中抽取出多个目标视频帧；使用第一转换模型，将多个目标视频帧转换为用于表示多个目标视频帧的多个目标图像特征向量，其中，多个目标视频帧和多个目标图像特征向量之间具有一一对应关系，目标图像特征信息包括多个目标图像特征向量。

例如，在得到待定位视频的目标视频帧之后，可以将目标视频帧中的各目标视频帧输入到VGG16中，取倒数第二层的1000维向量，得到用于表示各目标视频帧的目标图像特征向量。得到的与各目标视频帧对应的各目标图像特征向量，可以作为待定位视频的CV(Computer Vision，计算机视觉)特征。

上述目标音频特征信息可以是将待定位视频的作为一个整体确定出的音频特征信息，也可以根据从待定位视频中获取的多个音频片段确定出的音频特征信息，上述音频特征信息可以是音频片段的音频特征向量。

根据每个待定位视频的具体长度，可以从待定位视频中截取出不小于预定数目(例如，10段，可以根据需要设定)的长度为预定长度(例如，8s，可以根据需要设定)的均匀分布于待定位视频的音频片段(音轨片段)，进而抽取每个音频片段的音频特征。在抽取每个音频片段的音频特征时，可以将各音频片段输入到第二转换模型中，由第二转化模型将每个音频片段分别转换为对应的音频特征向量。

例如，可以根据每个音频的具体长度，截取出不少于10段长度为8s均匀分布于原音频的片段，并抽取各片段的音轨特征。

可选地，在本实施例中，从待定位视频中获取目标音频特征信息包括：使用目标窗口从待定位视频中抽取出多个目标音频片段；使用第二转换模型，将多个目标音频片段转换为用于表示多个目标音频片段的多个目标音频特征向量，其中，多个目标音频片段和多个目标音频特征向量之间具有一一对应关系，目标音频特征信息包括多个目标音频特征向量。

使用目标窗口从待定位视频中抽取多个目标音频片段的方式可以是：根据待定位视频的时间长度，确定抽取的目标音频片段的个数；以待定位视频的时间长度除以目标音频片段的个数得到的值作为滑动步长，使用目标窗口在待定位视频(的音轨)上进行滑动，得到多个目标音频片段。

滑动步长还可以按照以下方式确定滑动步长：(待定位视频的时间长度-窗口大小)/(目标音频片段的个数-1)，或，(待定位视频的时间长度-窗口大小)/(目标音频片段的个数-1)向下取整，等等。

例如，待定位视频的时长为5分钟，目标窗口大小为8s，抽取10段音频片段。目标窗口的滑动步长可以为：30秒(计算方式为5*60s/10)。目标窗口的滑动方式可以有多种，例如，目标窗口从0s(目标窗口位于0s～8s)的位置开始正向滑动，目标窗口从22s(目标窗口位于22s～30s)的位置开始反向滑动。或者，从0～22s之间的任意位置开始滑动。

又例如，待定位视频的时长为1分钟，目标窗口大小为8s，抽取10段音频片段。目标窗口的滑动步长可以为：5秒(计算方式为：(60-8)/(10-1)向下取整)，目标窗口的滑动方式可以有为：目标窗口从0s(目标窗口位于0s～8s)的位置开始正向滑动，也可以是从52s(目标窗口位于52s～60s)的位置反向滑动。

在获取到多个目标音频片段之后，可以使用第二转换模型将多个目标音频片段转化为用于多个目标音频片段的多个目标音频片段目标音频特征向量。多个目标音频片段可以依次输入到第二转换模型，由第二转换模型将输入的音频片段转换为对应的音频特征向量。

例如，对于获取的各目标音频片段，第二转换模型的转换原理可以是：利用传统算子对输入的个目标音频片段进行傅里叶变换，在变换后的频域中共6个频段分析能量特征，提取出共2080维的结构化特征，作为与各目标音频片段对应的目标音频特征向量。

在步骤S204中，使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配。

使用目标图像特征信息，从第一视频集合中定位出第一备选视频可以包括：使用与多个目标视频帧对应的多个目标图像特征向量，从第一视频集合中定位出第一备选视频。

从第一视频集合中定位第一备选视频依据的可以是：目标图像特征信息与第一视频集合中的各第一视频的图像特征信息之间的相似关系，例如，基于多个目标图像特征向量和与各第一视频对应的多个图像特征向量之间的向量相似度。

在从第一视频集合中定位出第一备选视频之前，可以构建出第一视频集合：获取多个第一视频，各第一视频可以包括：多个视频帧。

在获取到多个第一视频之后，可以采用与前述从待定位视频中抽取目标视频帧相同的方式从各第一视频中抽取出视频帧作为候选视频帧，并使用第一转换模型将各候选视频帧转换为候选图像特征向量。

为提高定位第一备选视频的效率，可以预先获取与从各第一视频中抽取出的多个候选视频帧对应的多个候选图像特征向量(每个第一视频中抽抽取多个候选视频帧，每个候选视频帧对应于一个候选图像特征向量)，并使用获取的多个候选图像特征向量建立第一特征向量库(一种离线库)。可以使用faiss(Facebook AI Similarity Search)为第一特征向量库建立索引，以方便后续相似检索。其中，faiss是一种相似性搜索的类库，能够从多媒体文件中搜索出相似的条目，可以用于相似的视频向量相似搜索。

例如，首先获取需要建库(离线库)的视频原始资源(多个第一视频，待建库视频)，对于所有待建库视频，按一秒抽一帧的方式，从原始视频中获取帧(候选视频帧)，将图片输入到VGG16中，取倒数第二层的1000维向量作为图像特征(候选图像特征向量)，并利用faiss对其建索引。

可选地，在本实施例中，在得到多个目标图像特征向量之后，可以根据多个目标图像特征向量中的每个目标音频特征向量与上述多个候选图像特征向量之间的向量相似度，从多个候选视频帧中为与多个目标视频帧中的每个目标视频帧分别获取对应的多个第一视频帧。

上述获取多个第一视频帧可以是通过请求faiss实现的。获取的多个第一视频帧的数目可以预先设定(例如，60个)。

例如，对于抽取待定位视频的CV特征(目标图像特征向量)，可以使用faiss快速召回相似的库中向量，召回的可以是相似的库中向量，相似的库中向量对应的索引，相似的库中向量对应的视频帧的标识等。

可选地，在本实施例中，在获取到与每个目标视频帧分别获取对应的多个第一视频帧之后，可以根据多个第一视频帧与每个目标视频帧的相似关系，以及多个第一视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频。

多个第一视频帧与每个目标视频帧的相似关系可以根据多个第一视频帧与每个目标视频帧的向量相似度确定。多个第一视频帧与多个第一视频之间的对应关系可以是多个第一视频帧与多个第一视频的属于关系(各第一视频帧属于哪个第一视频是可以确定的)。

在获取到与每个目标视频帧分别获取对应的多个第一视频帧之后，可以根据第一视频帧的连续性(可以是不同目标视频帧对应的第一视频帧之间的连续性，及连续区间内的相似度平均值是否大于设定的阈值)来确定定位的第一备选视频，还可以确定定位的第一备选视频中的备选视频区间。

例如，从待定位视频中抽取的目标视频帧的数目为10个，获取的每个目标视频帧对应多个第一视频帧的数目为60个，分别计算各目标视频帧的图像特征向量与各第一视频帧的精确cosine相似度(10×60个相似度)，并保留相似度大于0.8(0.8为经验值，可以根据实际情况更改)的前20个相似度结果。对于计算的相似性结果，取1.0/(s/0.25+0.05)作为得分(得分用于表示相似关系)，其中，s为(1-cosine相似度)，则保留的结果的得分所属的区间为(20/17,20]。

将所有得分映射到一个连续的数组中，数组长度是离线库(包括第一特征向量库)中所有帧(所有候选视频帧)的个数。每一个位置的数值是所有待检索帧(候选视频帧)与离线库的得分之和。计算所有得分的平均值。遍历数组中的所有的位置。如果该位置前面5个点中至少4个小于0.5*平均值，后面n个点的值，至少有0.8*n的点大于0.5平均值，则定位为开始点，其中，n的取值是待定位视频的长度。反转数组，重复遍历一次，再找到新的“开始点”作为结束点。遍历所有开始点和结束点的组合。若开始点到结束点的长度在0.8n～1.2n之间则为备选输出区间，区间的得分为该区间内的所有得分的平均值。

可选地，为了提高定位的准确性，可以使用文本定位结果对图像定位结果进行优化。获取文本定位结果的方式可以是：获取与待定位视频对应的文本信息；使用与待定位视频对应的文本信息，从第一视频集合中获取第二视频集合，其中，与第二视频集合中的每个第二视频对应的文本信息均和与待定位视频对应的文本信息相匹配。

上述文本信息可以包括以下至少之一：标题信息，标签信息。使用与待定位视频对应的文本信息，从第一视频集合中获取第二视频集合的方式可以是：使用第三转换模型，将与待定位视频对应的文本信息转换为用于表示与待定位视频对应的文本信息的第一文本特征向量；使用第一文本特征向量，从第一视频集合中定位出第二视频集合，其中，第二视频集合包括多个第二视频，用于表示与多个第二视频对应的多个文本信息的多个第二文本特征向量均与第一文本特征向量匹配。

可以预先获取各第一视频的文本信息，并使用第三转换模型(例如，fasttext)转化为对应的文本特征向量，并保存在第三特征向量库中(一种离线库)。使用第一文本特征向量在第三特征向量库中搜索，得到匹配的多个第二文本特征向量，进而确定出第二视频集合。

例如，对于在离线库中的作品名字，可以从具有该作品描述信息的网站中提取的方式或者人工输入的方式得到作品标题，作品别名，演员人名等信息，然后通过fasttext(预先通过视频的title和tag信息分类训练好fastte)提取向量表征。对于用户上传的短视频，可以通过同一个fasttext(参数相同)对用户上传的title和短视频的tag提取一个向量表征，并使用用户上传的信息的表征和离线库比对，计算cosine距离，获得距离最相近的10个作品名称，作为文本召回结果(文本召回结果可以是第二视频集合)。

在确定出第二视频集合之后，可以使用第二视频集合对与每个目标视频帧对应的多个第一视频帧进行过滤，过滤掉与每个目标视频帧对应的多个第一视频帧不属于第二视频帧集合中的任一第二视频的部分，得到多个第二视频帧。

在得到多个第二视频帧之后，可以根据多个第二视频帧与每个目标视频帧的相似关系，以及多个第二视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频，以及待定位视频在第一备选视频中的位置。

定位第一备选视频以及待定位视频在第一备选视频中的位置与前述使用多个第一视频帧定位第一备选视频(以及待定位视频在第一备选视频中的位置)的方式类似，在此不做赘述。

在步骤S206中，使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配。

使用目标音频特征信息，从第一视频集合中定位出第二备选视频可以包括：使用与多个目标音频片段对应的多个目标音频特征向量，从第一视频集合中定位出第二备选视频。

从第一视频集合中定位第二备选视频依据的可以是：目标音频特征信息与第一视频集合中的各第一视频的音频特征信息之间的相似关系，例如，基于多个目标音频特征向量和与各第一视频对应的多个音频特征向量之间的向量相似度。

在从第一视频集合中定位出第一备选视频之前，可以构建出第一视频集合：获取多个第一视频，各第一视频可以包括：多个音频片段(多个音频片段可以是从各第一视频中获取的)。

在获取到多个第一视频之后，可以采用与前述从待定位视频中获取目标音频片段类似的方式从各第一视频中抽取出多个音频片段作为候选音频片段，并使用第二转换模型将各候选音频片段转换为对应的候选音频特征向量。

获取候选音频片段与前述获取目标音频片段的区别在于：获取目标音频片段的滑动步长可以根据待定位视频的长度确定，获取候选音频片段可以为预先设定的值(例如，0.3s)。

为提高定位第一备选视频的效率，可以预先获取与从各第一视频中抽取出的多个候选音频片段对应的多个候选音频特征向量(每个第一视频中抽抽取多个候选音频片段，每个候选音频片段对应于一个候选音频特征向量)，并使用获取的多个候选音频特征向量建立第二特征向量库(一种离线库)。可以使用faiss为第二特征向量库建立索引，以方便后续相似检索。

例如，首先获取需要建库(离线库)的视频原始资源(多个第一视频，待建库视频)，对于所有待建库视频，使用窗口大小为8s、滑动步长为300ms的滑动窗口在待建库视频上滑动，从原始视频中获取候选音频片段，利用传统算子对输入的个目标音频片段进行傅里叶变换，在变换后的频域中共6个频段分析能量特征，提取出共2080维的结构化特征，作为与各目标音频片段对应的目标音频特征向量，并利用faiss对其建索引。

可选地，在本实施例中，在得到多个目标音频特征向量之后，可以根据多个目标音频特征向量中的每个目标音频特征向量与上述多个候选音频特征向量之间的向量相似度，从多个候选音频片段中为与多个目标音频片段中的每个目标音频片段分别获取对应的多个第一音频片段。

上述获取多个第一音频片段可以是通过请求faiss实现的。获取的多个第一音频片段的数目可以预先设定(例如，60个)。

例如，对于抽取的待定位视频的音轨特征(目标音频特征向量)，可以使用faiss快速召回相似的库中向量，召回的可以是相似的库中向量，相似的库中向量对应的索引，相似的库中向量对应的音频片段的标识等。

可选地，在本实施例中，在获取到与每个目标音频片段分别获取对应的多个第一音频片段之后，可以根据多个第一音频片段与每个目标音频片段的相似关系，以及多个第一音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频。

多个第一音频片段与每个目标音频片段的相似关系可以根据多个第一音频片段与每个目标音频片段的向量相似度确定。多个第一音频片段与多个第一视频之间的对应关系可以是多个第一音频片段与多个第一视频的属于关系(各第一音频片段属于哪个第一视频是可以确定的)。

在获取到与每个目标音频片段分别获取对应的多个第一音频片段之后，可以根据每个目标音频片段和与其对应的多个第一音频片段中的每个第一音频片段的相似度的大小顺序，选取出最相似的一定数量的第二音频片段，并基于选取出的第二音频片段与多个第二视频之间的属于关系，来确定定位的第二备选视频，还可以确定定位的第二备选视频中的备选视频区间。

例如，对于与每个目标音频片段分别获取对应的多个第一音频片段，可以分别取相似度前3的第一音频片段(top3的结果)。以作品为单位进行投票，top3中的每一条特征所对应的作品出处都将获得1票，每个音频共有3票。累计所有得票，并计算有得票的作品的得票率，将得票率最高的作品作为最终的作品定位结果。若该作品的得票率大于50％，则召回该作品，否则不召回。对于召回的作品，以第一个top1匹配结果为该作品的片段的匹配结果，找出该片段在作品中的位置，减去该片段在在线视频中的位置，最终得到在线视频(待定位视频)的准确定位结果。

可选地，为了提高定位的准确性，可以使用文本定位结果对音频定位结果进行优化。获取文本定位结果的方式可以是：获取与待定位视频对应的文本信息；使用与待定位视频对应的文本信息，从第一视频集合中获取第二视频集合，其中，与第二视频集合中的每个第二视频对应的文本信息均和与待定位视频对应的文本信息相匹配。

可以预先获取各第一视频的文本信息，并使用第三转换模型转化为对应的文本特征向量，并保存在第三特征向量库中。使用第一文本特征向量在第三特征向量库中搜索，得到匹配的多个第二文本特征向量，进而确定出第二视频集合。

在确定出第二视频集合之后，可以使用第二视频集合对与每个目标音频片段对应的多个第一音频片段进行过滤，过滤掉与每个目标音频片段对应的多个第一音频片段不属于第二音频片段集合中的任一第二视频的部分，得到多个第二音频片段。

在得到多个第二音频片段之后，可以根据多个第二音频片段与每个目标音频片段的相似关系，以及多个第二音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频，以及待定位视频在第二备选视频中的位置。

定位第二备选视频以及待定位视频在第二备选视频中的位置与前述使用多个第一音频片段定位第二备选视频(以及待定位视频在第一备选视频中的位置)的方式类似，在此不做赘述。

在精准定位的场景下，在定位出第一备选视频的同时，可以定位出第一备选视频中与待定位视频对应的第一备选视频片段，定位第一备选视频片段的过程可以是在定位第一备选视频的过程中执行的(例如，前述备选输出区间对应于第一备选视频片段)，也可以是在定位出第一备选视频之后执行的(例如，在定位出第一备选视频之后，使用待定微视频在第一备选视频中直接定位出第一备选视频片段)。

在定位出第二备选视频的同时，可以定位出第二备选视频中与待定位视频对应的第二备选视频片段，定位第二备选视频片段的过程可以是在定位第二备选视频的过程中执行的(例如，前述以第一个top1匹配结果进行精准定位的方式)，也可以是在定位出第一备选视频之后执行的(例如，在定位出第二备选视频之后，使用待定微视频在第二备选视频中直接定位出第二备选视频片段)。

定位第一备选视频片段和第二备选视频片段的方式可以根据需要进行设定，本实施例中对此不作具体限定。

在步骤S208中，在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。

定位出第一备选视频和第二备选视频之后，可以根据第一备选视频和第二备选视频，确定与待定位视频匹配的目标视频。

作为一种可选的实施方式，在第一备选视频和第二备选视频为相同视频的情况下，可以将第一备选视频确定为与待定位视频匹配的目标视频。

可选地，在第一备选视频和第二备选视频为相同视频的情况下，可以进一步判断第一视频片段与第二视频片段是否相同或者近似相同，在第一视频片段与第二视频片段相同或者近似相同的情况下，将第一备选视频确定为与待定位视频匹配的目标视频，并定位出待定位视频在目标视频中的位置。

在第一视频片段与第二视频片段不相同或者不近似相同的情况下，将第一备选视频确定为与待定位视频匹配的目标视频，并根据第一备选视频片段(获取第二备选视频片段)与待定位视频的向量相似度(图像特征向量，也可以是音频特征向量)，从第一备选视频片段和第二备选视频片段中确定出与待定位视频匹配的目标视频片段。

作为一种可选的实施方式，在第一备选视频和第二备选视频为不同视频的情况下，可以根据第一备选视频(或者第二备选视频)与待定位视频之间的目标相似度(图像特征向量或者音频特征向量之间的向量相似度)，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。

可选地，在本实施例中，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频包括：在目标相似度大于或者等于相似度阈值的情况下，确定第一备选视频为与待定位视频匹配的目标视频；在目标相似度小于相似度阈值的情况下，确定第二备选视频为与待定位视频匹配的目标视频。

可选地，在第一备选视频和第二备选视频为不同视频的情况下，可以目标视频为第一备选视频和第二备选视频，而不进行选择操作。在必要时由定位结果的接收方进行判断。

在确定出目标视频之后，可以将目标视频和待定位视频在目标视频中的精准定位信息以链接的方式推送给客户端(可以应用于视频搜视频的场景)，或者，保存在服务器中(对应保存待定位视频与目标视频的匹配关系，或者，对应保存待定位视频与目标视频的匹配关系，以及待定位视频在目标视频中的精准定位信息)(可以应用于短视频推荐或者版权保护的场景)。

通过本发明实施例，通过从待定位视频中获取目标图像特征信息和目标音频特征信息；使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频，解决了相关技术中的视频定位方法存在定位成本高、定位准确度低的问题的技术问题，降低了视频定位的成本，提高了视频定位的准确度。

作为一种可选的技术方案，从待定位视频中获取目标图像特征信息包括：

S1，按照第一步长，从待定位视频中抽取出多个目标视频帧；

S2，使用第一转换模型，将多个目标视频帧转换为用于表示多个目标视频帧的多个目标图像特征向量，其中，多个目标视频帧和多个目标图像特征向量之间具有一一对应关系，目标图像特征信息包括多个目标图像特征向量。

通过本发明实施例，通过按照第一步长，从待定位视频中抽取出多个目标视频帧，并将与多个目标视频帧对应的多个目标图像特征向量作为目标图像特征信息进行视频定位，减小了计算的复杂度，提高了视频定位的效率。

作为一种可选的技术方案，使用目标图像特征信息，从第一视频集合中定位出第一备选视频包括：

S1，根据多个目标图像特征向量中的每个目标音频特征向量与用于表示多个候选视频帧的多个候选图像特征向量之间的向量相似度，从多个候选视频帧中为与多个目标视频帧中的每个目标视频帧分别获取对应的多个第一视频帧，其中，多个候选视频帧包括使用第一步长从第一视频集合中的多个第一视频中抽取出的视频帧，多个候选图像特征向量预先存储的第一特征向量库中；

S2，根据多个第一视频帧与每个目标视频帧的相似关系，以及多个第一视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频。

通过本发明实施例，使用第一步长从第一视频集合中的多个第一视频中抽取出多个候选视频帧，并将与多个候选视频帧对应的多个候选图像特征向量预先存储的第一特征向量库中，可以快速的从特征向量库中召回相似向量，提高视频定位的效率。

作为一种可选的技术方案，在根据多个第一视频帧与每个目标视频帧的相似关系，以及多个第一视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频之前，上述方法还包括：

S1，获取与待定位视频对应的文本信息；使用与待定位视频对应的文本信息，从第一视频集合中获取第二视频集合，其中，与第二视频集合中的每个第二视频对应的文本信息均和与待定位视频对应的文本信息相匹配；

S2，从多个第一视频帧中获取多个第二视频帧，其中，多个第二视频帧中的每个第二视频帧均属于第二视频集合中的一个第二视频；

根据多个第一视频帧与每个目标视频帧的相似关系，以及多个第一视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频包括：

S3，根据多个第二视频帧与每个目标视频帧的相似关系，以及多个第二视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频，以及待定位视频在第一备选视频中的位置。

通过本发明实施例，通过使用文本召回作品集(第二视频集合)对CV召回结果(多个第一视频帧)进行过滤，避免了“噪声”图像对视频定位结果的影响，提高了视频定位的准确性。

作为一种可选的技术方案，从待定位视频中获取目标音频特征信息包括：

S1，使用目标窗口从待定位视频中抽取出多个目标音频片段；

S2，使用第二转换模型，将多个目标音频片段转换为用于表示多个目标音频片段的多个目标音频特征向量，其中，多个目标音频片段和多个目标音频特征向量之间具有一一对应关系，目标音频特征信息包括多个目标音频特征向量。

通过本发明实施例，通过使用目标窗口从待定位视频中抽取出多个目标音频片段，并将与多个目标视频片段对应的多个目标音频特征向量作为目标音频特征信息进行视频定位，便于音频特征信息的统一化表示，提高了视频定位的效率。

作为一种可选的技术方案，使用目标音频特征信息，从第一视频集合中定位出第二备选视频包括：

S1，根据多个目标音频特征向量中的每个目标音频特征向量与用于表示多个候选音频片段的多个候选音频特征向量之间的向量相似度，从多个候选音频片段中为与多个目标音频片段中的每个目标音频片段分别获取对应的多个第一音频片段，其中，多个候选音频片段包括使用目标窗口，按照第二步长从第一视频集合中的多个第一视频中抽取出的音频片段，多个候选音频特征向量预先存储的第二特征向量库中；

S2，根据多个第一音频片段与每个目标音频片段的相似关系，以及多个第一音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频。

通过本发明实施例，使用目标窗口按照第二步长从第一视频集合中的多个第一视频中抽取出多个候选音频片段，并将与多个候选音频片段对应的多个候选音频特征向量预先存储的第二特征向量库中，可以快速的从特征向量库中召回相似向量，提高视频定位的效率。

作为一种可选的技术方案，在根据多个第一音频片段与每个目标音频片段的相似关系，以及多个第一音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频之前，上述方法还包括：

S2，从多个第一音频片段中获取多个第二音频片段，其中，多个第二音频片段中的每个第二音频片段均属于第二视频集合中的一个第二视频；

根据多个第一音频片段与每个目标音频片段的相似关系，以及多个第一音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频包括：

S3，根据多个第二音频片段与每个目标音频片段的相似关系，以及多个第二音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频，以及待定位视频在第二备选视频中的位置。

通过本发明实施例，使用文本召回作品集(第二视频集合)对音频召回结果(多个第一音频判断)进行过滤，避免了“噪声”音频片段对视频定位结果的影响，提高了视频定位的准确性。

作为一种可选的技术方案，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频包括：

S1，在目标相似度大于或者等于相似度阈值的情况下，确定第一备选视频为与待定位视频匹配的目标视频；

S1，在目标相似度小于相似度阈值的情况下，确定第二备选视频为与待定位视频匹配的目标视频。

通过本发明实施例，根据目标相似度与相似度阈值的关系，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频，可以在第一备选视频和第二备选视频为不同视频时快速确定出目标视频，提高视频定位的效率。

下面结合具体示例对本发明实施例中的视频定位方法进行说明。本示例中的视频定位方法可以应用于视频推荐场景，通过融合三个模态(文本模态、CV模态和音频模态)的特征，综合定位结果进行快速定位，可以精准定位视频出处和时间。

对于文本模态，执行文本标题定位，通过视频标题和影视库作品名字计算相似度，定位原始作品名称。然而，使用视频标题定位，最多只能定位到短视频属于什么作品，无法定位时间区间，且标题党，无关标题等带来的准召影响很大。

对于CV模态，执行CV关键帧定位，抽取视频的所有帧，计算每一张图片的特征，然后与原始作品按同样方式抽取出来的帧对比相似度。然而，短视频太模糊，用户自己添加片头片尾等会带来召回下降。

对于音频模态，执行音频定位，计算一定区间内的音频特征，然后和按同样方式计算出来的原始作品的音频特征对比相似度。然而，声音采样率不同、存在背景噪音、变速变音等情况也会带来准召问题。

不仅如此，CV模态和音频模态，在计算上存在大量的开销，对于每一个待检测的视频(待定位视频)，往往都需要对离线计算的库进行全库向量的匹配，而全库向量匹配又是一个非常耗时的操作。在在线服务中，这是难以接受的。

本示例中的视频定位方法包括两个阶段：离线建库阶段，在线服务阶段。

在离线建库阶段，可以下载了诸多影视作品，如琅琊榜电视剧全集，复仇者联盟电影等。对于每一个作品，分别对CV特征和音频特征进行特征抽取建库。对于CV特征，可以采用预先训练好的VGG-16网络进行特征抽取，抽取出1000维的特征。对于音频特征，可以采用传统算子，首先对音频进行傅里叶变换，然后在频域部分抽取出共2080维的结构化音频特征。

在线阶段，可以实时监测用户上传的视频数据。分别抽取CV特征和音频特征。使用faiss快速召回相似的库中向量。对召回的相似向量取topN，并根据topN是否连续，及连续区间内的相似度平均值是否大于阈值来确定定位的原始剧名和时间区间。

对于CV特征，可以采用一秒抽取一帧作为关键帧的方式抽取，在保证准确率和召回率的同时，大大降低了在线阶段计算相似帧的计算量。

上述离线建库阶段和在线服务阶段分别对应于以下两个流程：离线流程和在线流程。在离线流程中，先使用faiss在离线计算的原始CV和音频向量库上建立索引，减少查询离线库的时间消耗。在在线流程中，对于每一个输入的视频，先计算标题和原始库中作品的相似度，召回topN的作品，作为文本模态的输出。然后对输入视频每一秒抽取一个关键帧，利用关键帧在faiss的索引上查找相似帧，作为CV模态的输出。对于音频模态。我们每30毫秒抽取一个8秒长度的声音特征。同样去匹配faiss索引中的相似特征召回作品名和区间。最后结合三者的信息，输出最后精确的区间。

下面分别对两个流程进行说明。

在离线流程中，利用faiss视频资源进行CV和音频的特征建库(建立离线库)。如图5所示，该离线流程包括以下步骤：

S502，资源获取。

获取需要建库的原始视频资源，该原始视频资源可以包括：视频画面、与视频画面对应的音频和该原始视频资源的标题信息。

S504，抽取关键帧。

对于所有待建库视频(原始视频资源)，可以按一秒抽一帧(也可以是一秒抽多帧，或者多秒抽一帧)的方式，从原始视频中获取关键帧(候选视频帧)。

S506，计算帧特征。

在得到原始视频的关键帧之后，可以将关键帧(关键帧的视频图像)输入到VGG16中，取倒数第二层的1000维向量，得到用于表示各关键帧的图像特征向量。

需要说明的是，VGG16仅为提取关键帧的图像特征向量的一种可选的模型，其他可以用于提取图像特征向量的模型，均可用于关键帧的图像特征向量的获取。

S508，抽取音轨。

在获取到原始视频的原始音轨后，选定窗口大小为8秒、滑动步长300毫秒的滑动窗口，从原始音轨中抽取音轨特征(候选音频片段)。

S510，计算音频特征。

对于每一个8秒的窗口，利用传统算子对其进行傅里叶变换，在变换后的频域中共6个频段分析能量特征，最后提取出共2080维的结构化特征，作为该音频片段的音频特征向量(候选音频特征向量)。

S512，faiss建库。

对于CV和音轨的结果，利用faiss对其建索引，方便后续相似检索。

此外，对于在离线库中的原始视频的作品名，可以从例如百度百科上等具有原始视频描述信息的网站中提取出原始视频的作品标题、作品别名、演员人名等信息，然后通过fasttext提取向量表征，得到原始视频的文本向量表征。

在在线流程中，服务器可以实时监测用户上传的视频数据；分别抽取用户上传的视频数据的CV特征和音频特征；使用faiss快速召回相似的库中向量。对召回的相似向量取topN(前N个)，并根据topN是否连续，及连续区间内的相似度平均值是否大于阈值来确定定位的原始剧名和时间区间。如图6所示，该在线流程包括以下步骤：

S602，接收用户上传的视频。

用户上传视频，服务器接收到用户所上传的视频内容将用户上传的视频作为待检索视频(待定位视频)。

S604，获取文本召回作品集。

在接收到用户上传的视频之后，可以获取待检索视频的文本模态的召回作品集：计算待检索视频的title(标题，由用户在上传时输入)和库里原有的作品名的相似度；召回一些作品集，作为后续CV和音频的搜索空间(参考空间)。

可选地，可以通过上述fasttext对用户上传的title和短视频的tag(由后台根据用户的titile或者短视频的内容为短视频打的标签)提取一个向量表征，得到待检索视频的文本向量表征。

计算待检索视频的文本向量表征与各原始视频的文本向量表征的cosine距离，获得与待检索视频距离的文本向量表征最相近的10个作品名称，作为文本召回结果(文本召回作品集)。

S606，CV能力定位。

计算待检索视频的CV特征，召回topN，过滤不在文本召回作品集的召回结果。

进行CV能力定位的方式可以如图7所示，CV能力定位可以包括以下步骤：

S1，抽取关键帧。

对于在线视频，按一秒抽一帧的方式抽取关键帧(目标视频帧)。

S2，VGG16抽取特征。

将抽取的关键帧(视频图片)输入到VGG16中，抽取倒数第二层的1000维向量作为各关键帧的图像特征向量(目标图像向量)。

S3，请求faiss。

使用计算出来的各关键帧的图像特征，请求faiss，召回top60(相似的60个特征)。

S4，过滤文本结果。

对于所有关键帧的faiss召回的结果，可以过滤不在文本召回作品集中的结果。

S5，计算精确相似度。

获取离线库中的原始特征(候选视频帧的候选图像特征向量)。计算搜索帧(当前的目标视频帧)和过滤后的faiss结果(第二视频帧)的精确cosine相似度。并保留相似度大于0.8(此处的0.8为经验值，可以根据用户实际情况更改该阈值)的top20结果(相似度大于0.8且个数不超过20个)。

对于计算并保留的相似性结果，取1.0/(s/0.25+0.05)作为得分，其中s为1-cosine相似度。

S6，搜索连续区间。

计算好待检索帧和所有faiss过滤后的结果的得分后，将所有得分映射到一个连续的数组中，数组长度是离线库中所有帧的个数。对于数组中的每一个位置，该位置的数值是所有待检索帧与离线库的得分之和，计算所有得分的平均值。

遍历数组中的所有的位置。如果当前位置前面5个点中至少4个小于0.5*平均值，后面n个点的值，至少有0.8*n的点大于0.5平均值，则定位当前位置为开始点，其中n的取值是待检索视频的长度。反转数组，重复遍历一次，再找到新的“开始点”作为结束点。

遍历所有开始点和结束点的组合。如果开始点到结束点的长度在0.8n～1.2n之间则为备选输出区间，区间的得分为该区间内的所有得分的平均值，其中n为待检索视频的长度。

S7，输出。

搜索得到备选输出区间之后，将该备选输出区间作为定位结果输出。

输出的备选输出区间以及该备选输出区间所属的作品名称，为CV能力定位的结果。

S608，音频能力定位。

抽取待检索视频的音频特征，召回topN，过滤不在文本召回作品集的召回结果。

进行音频能力定位的方式可以如图8所示，音频能力定位可以包括以下步骤：

S1，抽取音频。

根据每个音频的具体长度，截取出不少于10段长度为8s均匀分布于原音频的片段，抽取音轨特征(目标音频片段)。

S2，计算特征。

对每一个8秒的音频片段利用传统算子对其进行傅里叶变换，在变换后的频域中共6个频段分析能量特征，最后提取出共2080维的结构化特征，作为该音频片段的音频特征向量(目标音频特征向量)。

S3，请求faiss。

对于得到的各音频片段的音频特征向量请求faiss，分别获取top20的结果(相似的20个特征)。

S4，过滤文本结果。

过滤掉faiss召回的top20中，不在文本召回作品集中的结果。

S5，计算精确相似度。

获取原始的特征，从faiss召回的top20中计算精确top3相似的结果。

S6，定位区间。

对于得到top3的结果以作品为单位进行投票，top3中的每一条特征所对应的作品出处都将获得1票，每个音频共有3票。累计所有得票，并计算有得票的作品的得票率，将得票率最高的作品作为最终的作品定位结果。若该作品的得票率大于50％，则召回该作品，否则不召回。对于召回的作品，以第一个top1匹配结果为该作品的片段的匹配结果，找出该片段在作品中的位置，减去该片段在在线视频中的位置，最终得到在线视频的准确定位结果。

S7，输出。

输出上述得到的准确定位结果，作为音频能力定位的结果。

S610，融合结果。

对于CV和音频能力召回作品名字相同的结果(CV能力召回的结果和音频能力召回的结果均为一个)，直接输出CV定位结果。

对于结果不同的情况，如果CV召回的分数低于3分，使用音频的召回结果较为准确(此处的3分，是视频片段和原始出处片段的相似得分，可以用户根据自己的实际需求调整阈值)，高于3分使用CV的结果。

对于仅视频有结果的情况，返回视频定位的结果。对于仅音频有结果的情况。仅输出音频定位的8秒区间作为定位结果。其他情况返回空，视为定位失败。

S612，输出。

输出定位结果为Jason格式插入数据库，用于后续推荐场景。

通过本示例的上述技术方案，使用faiss建立索引，大大减少了相似检索的时间，使在线服务称为可能，整套流程，从抽取特征到定位结果输出，时间消耗在秒级。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种用于实施上述视频定位方法的视频定位装置。如图9所示，该装置包括：

(1)第一获取单元902，用于从待定位视频中获取出目标图像特征信息和目标音频特征信息；

(2)第一定位单元904，用于使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；

(3)第二定位单元906，用于使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；

(4)确定单元908，用于在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。

可选地，在本实施例中，上述视频定位装置可以但不限于视频应用的服务器中(视频媒体平台的服务器)，例如，在视频应用中，以视频搜视频，视频推荐。此外，还可以应用于其他与视频有关的场景中，例如，视频版权保护。上述仅是一种示例，本实施例中不限于上述应用场景。

可选地，在本实施例中，第一获取单元902可以用于执行上述步骤S202，第一定位单元904可以用于执行上述步骤S204，第二定位单元906可以用于执行上述步骤S206，确定单元908可以用于执行上述步骤S208。

作为一种可选的技术方案，第一获取单元902包括：

(1)第一抽取模块，用于按照第一步长，从待定位视频中抽取出多个目标视频帧；

(2)第一转换模块，用于使用第一转换模型，将多个目标视频帧转换为用于表示多个目标视频帧的多个目标图像特征向量，其中，多个目标视频帧和多个目标图像特征向量之间具有一一对应关系，目标图像特征信息包括多个目标图像特征向量。

作为一种可选的技术方案，第一定位单元904包括：

(1)第一获取模块，用于根据多个目标图像特征向量中的每个目标音频特征向量与用于表示多个候选视频帧的多个候选图像特征向量之间的向量相似度，从多个候选视频帧中为与多个目标视频帧中的每个目标视频帧分别获取对应的多个第一视频帧，其中，多个候选视频帧包括使用第一步长从第一视频集合中的多个第一视频中抽取出的视频帧，多个候选图像特征向量预先存储的第一特征向量库中；

(2)第一定位模块，用于根据多个第一视频帧与每个目标视频帧的相似关系，以及多个第一视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频。

作为一种可选的技术方案，上述装置还包括：第二获取单元和第三获取单元，第一定位模块还包括：第一定位子模块，其中，

(1)第二获取单元，用于在根据多个第一视频帧与每个目标视频帧的相似关系，以及多个第一视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频之前，获取与待定位视频对应的文本信息；使用与待定位视频对应的文本信息，从第一视频集合中获取第二视频集合，其中，与第二视频集合中的每个第二视频对应的文本信息均和与待定位视频对应的文本信息相匹配；

(2)第三获取单元，用于从多个第一视频帧中获取多个第二视频帧，其中，多个第二视频帧中的每个第二视频帧均属于第二视频集合中的一个第二视频；

(3)第一定位子模块，用于根据多个第二视频帧与每个目标视频帧的相似关系，以及多个第二视频帧与多个第一视频之间的对应关系，从第一视频集合中定位出第一备选视频，以及待定位视频在第一备选视频中的位置。

作为一种可选的技术方案，第一获取单元902包括：

(1)第二抽取模块，用于使用目标窗口从待定位视频中抽取出多个目标音频片段；

(2)第二转换模块，用于使用第二转换模型，将多个目标音频片段转换为用于表示多个目标音频片段的多个目标音频特征向量，其中，多个目标音频片段和多个目标音频特征向量之间具有一一对应关系，目标音频特征信息包括多个目标音频特征向量。

作为一种可选的技术方案，第二定位单元906包括：

(1)第二获取模块，用于根据多个目标音频特征向量中的每个目标音频特征向量与用于表示多个候选音频片段的多个候选音频特征向量之间的向量相似度，从多个候选音频片段中为与多个目标音频片段中的每个目标音频片段分别获取对应的多个第一音频片段，其中，多个候选音频片段包括使用目标窗口，按照第二步长从第一视频集合中的多个第一视频中抽取出的音频片段，多个候选音频特征向量预先存储的第二特征向量库中；

(1)第二定位模块，用于根据多个第一音频片段与每个目标音频片段的相似关系，以及多个第一音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频。

作为一种可选的技术方案，上述装置还包括：第二获取单元和第三获取单元，第二定位模块还包括：第二定位子模块，其中，

(3)第二定位子模块，用于根据多个第二音频片段与每个目标音频片段的相似关系，以及多个第二音频片段与多个第一视频之间的对应关系，从第一视频集合中定位出第二备选视频，以及待定位视频在第二备选视频中的位置。

根据本发明实施例，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以位于网络中的网络设备。上述网络设备可以是服务器或者终端。上述存储介质被设置为存储有用于执行上述视频定位方法的程序代码。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，从待定位视频中获取目标图像特征信息和目标音频特征信息；

S2，使用目标图像特征信息，从第一视频集合中定位出第一备选视频，其中，第一备选视频的图像特征信息与目标图像特征信息相匹配；

S3，使用目标音频特征信息，从第一视频集合中定位出第二备选视频，其中，第二备选视频的音频特征信息与目标音频特征信息相匹配；

S4，在第一备选视频和第二备选视频为不同视频的情况下，根据第一备选视频与待定位视频之间的目标相似度，从第一备选视频和第二备选视频中确定出与待定位视频匹配的目标视频。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取器)、磁盘或光盘等。

根据本发明实施例，还提供了一种用于实施上述视频定位方法的电子装置，可选地，在本实施例中，上述电子装置可以位于网络中的网络设备。如图10所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、以及传输装置1006。该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是服务器。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

其中，存储器1004可用于存储软件程序以及模块，如本发明实施例中的视频定位方法对应的程序指令/模块，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频定位方法。存储器1004可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至处理器1002。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个NIC(NetworkInterface Controller，网络适配器)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为RF(Radio Frequency，射频)模块，其用于通过无线方式与互联网进行通讯。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频定位方法，其特征在于，包括：

获取待定位视频的目标文本特征信息；使用所述目标文本特征信息，从所述待定位视频中定位出的召回作品集，其中，所述召回作品集中包括多个参考视频，所述参考视频的文本特征信息与第一视频集合中的视频的文本特征信息相匹配；

从待定位视频中获取目标图像特征信息和目标音频特征信息；使用所述目标图像特征信息，从第一视频集合中定位出第一候选视频，其中，所述第一候选视频的图像特征信息与所述目标图像特征信息相匹配；将所述第一候选视频中不在所述召回作品集的视频进行过滤，得到第一备选视频；

使用所述目标音频特征信息，从所述第一视频集合中定位出第二候选视频，其中，所述第二候选视频的音频特征信息与所述目标音频特征信息相匹配；将所述第二候选视频中不在所述召回作品集的视频进行过滤，得到第二备选视频；

在所述第一备选视频和所述第二备选视频为不同视频的情况下，根据所述第一备选视频与所述待定位视频之间的目标相似度，从所述第一备选视频和所述第二备选视频中确定出与所述待定位视频匹配的目标视频；

其中，根据所述第一备选视频与所述待定位视频之间的所述目标相似度，从所述第一备选视频和所述第二备选视频中确定出与所述待定位视频匹配的所述目标视频包括：在所述目标相似度大于或者等于相似度阈值的情况下，确定所述第一备选视频为与所述待定位视频匹配的所述目标视频；在所述目标相似度小于相似度阈值的情况下，确定所述第二备选视频为与所述待定位视频匹配的所述目标视频。

2.根据权利要求1所述的方法，其特征在于，从所述待定位视频中获取所述目标图像特征信息包括：

按照第一步长，从所述待定位视频中抽取出多个目标视频帧；

使用第一转换模型，将所述多个目标视频帧转换为用于表示所述多个目标视频帧的多个目标图像特征向量，其中，所述多个目标视频帧和所述多个目标图像特征向量之间具有一一对应关系，所述目标图像特征信息包括所述多个目标图像特征向量。

3.根据权利要求2所述的方法，其特征在于，使用所述目标图像特征信息，从第一视频集合中定位出第一候选视频包括：

根据所述多个目标图像特征向量中的每个目标音频特征向量与用于表示多个候选视频帧的多个候选图像特征向量之间的向量相似度，从所述多个候选视频帧中为与所述多个目标视频帧中的每个目标视频帧分别获取对应的多个第一视频帧，其中，所述多个候选视频帧包括使用所述第一步长从所述第一视频集合中的多个第一视频中抽取出的视频帧，所述多个候选图像特征向量预先存储的第一特征向量库中；

根据所述多个第一视频帧与所述每个目标视频帧的相似关系，以及所述多个第一视频帧与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第一候选视频。

4.根据权利要求3所述的方法，其特征在于，

在根据所述多个第一视频帧与所述每个目标视频帧的相似关系，以及所述多个第一视频帧与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第一候选视频之前，所述方法还包括：获取与所述待定位视频对应的文本信息；使用与所述待定位视频对应的文本信息，从所述第一视频集合中获取第二视频集合，其中，与所述第二视频集合中的每个第二视频对应的文本信息均和与所述待定位视频对应的文本信息相匹配；从所述多个第一视频帧中获取多个第二视频帧，其中，所述多个第二视频帧中的每个第二视频帧均属于所述第二视频集合中的一个第二视频；

根据所述多个第一视频帧与所述每个目标视频帧的相似关系，以及所述多个第一视频帧与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第一候选视频包括：根据所述多个第二视频帧与所述每个目标视频帧的相似关系，以及所述多个第二视频帧与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第一候选视频，以及所述待定位视频在所述第一候选视频中的位置。

5.根据权利要求1所述的方法，其特征在于，从所述待定位视频中获取所述目标音频特征信息包括：

使用目标窗口从所述待定位视频中抽取出多个目标音频片段；

使用第二转换模型，将所述多个目标音频片段转换为用于表示所述多个目标音频片段的多个目标音频特征向量，其中，所述多个目标音频片段和所述多个目标音频特征向量之间具有一一对应关系，所述目标音频特征信息包括所述多个目标音频特征向量。

6.根据权利要求5所述的方法，其特征在于，使用所述目标音频特征信息，从所述第一视频集合中定位出所述第二候选视频包括：

根据所述多个目标音频特征向量中的每个目标音频特征向量与用于表示多个候选音频片段的多个候选音频特征向量之间的向量相似度，从所述多个候选音频片段中为与所述多个目标音频片段中的每个目标音频片段分别获取对应的多个第一音频片段，其中，所述多个候选音频片段包括使用所述目标窗口，按照第二步长从所述第一视频集合中的多个第一视频中抽取出的音频片段，所述多个候选音频特征向量预先存储的第二特征向量库中；

根据所述多个第一音频片段与所述每个目标音频片段的相似关系，以及所述多个第一音频片段与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第二候选视频。

7.根据权利要求6所述的方法，其特征在于，

在根据所述多个第一音频片段与所述每个目标音频片段的相似关系，以及所述多个第一音频片段与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第二候选视频之前，所述方法还包括：获取与所述待定位视频对应的文本信息；使用与所述待定位视频对应的文本信息，从所述第一视频集合中获取第二视频集合，其中，与所述第二视频集合中的每个第二视频对应的文本信息均和与所述待定位视频对应的文本信息相匹配；从所述多个第一音频片段中获取多个第二音频片段，其中，所述多个第二音频片段中的每个第二音频片段均属于所述第二视频集合中的一个第二视频；

根据所述多个第一音频片段与所述每个目标音频片段的相似关系，以及所述多个第一音频片段与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第二候选视频包括：根据所述多个第二音频片段与所述每个目标音频片段的相似关系，以及所述多个第二音频片段与所述多个第一视频之间的对应关系，从所述第一视频集合中定位出所述第二候选视频，以及所述待定位视频在所述第二候选视频中的位置。

8.一种视频定位装置，其特征在于，包括：

所述装置，用于获取待定位视频的目标文本特征信息；使用所述目标文本特征信息，从所述待定位视频中定位出的召回作品集，其中，所述召回作品集中包括多个参考视频，所述参考视频的文本特征信息与第一视频集合中的视频的文本特征信息相匹配；

第一获取单元，用于从待定位视频中获取出目标图像特征信息和目标音频特征信息；

第一定位单元，用于使用所述目标图像特征信息，从第一视频集合中定位出第一候选视频，其中，所述第一候选视频的图像特征信息与所述目标图像特征信息相匹配；将所述第一候选视频中不在所述召回作品集的视频进行过滤，得到第一备选视频；

第二定位单元，用于使用所述目标音频特征信息，从所述第一视频集合中定位出第二候选视频，其中，所述第二候选视频的音频特征信息与所述目标音频特征信息相匹配；将所述第二候选视频中不在所述召回作品集的视频进行过滤，得到第二备选视频；

确定单元，用于在所述第一备选视频和所述第二备选视频为不同视频的情况下，根据所述第一备选视频与所述待定位视频之间的目标相似度，从所述第一备选视频和所述第二备选视频中确定出与所述待定位视频匹配的目标视频；

其中，所述确定单元包括：确定模块，用于在所述目标相似度大于或者等于相似度阈值的情况下，确定所述第一备选视频为与所述待定位视频匹配的所述目标视频；在所述目标相似度小于相似度阈值的情况下，确定所述第二备选视频为与所述待定位视频匹配的所述目标视频。

9.根据权利要求8所述的装置，其特征在于，所述第一获取单元包括：

第一抽取模块，用于按照第一步长，从所述待定位视频中抽取出多个目标视频帧；

第一转换模块，用于使用第一转换模型，将所述多个目标视频帧转换为用于表示所述多个目标视频帧的多个目标图像特征向量，其中，所述多个目标视频帧和所述多个目标图像特征向量之间具有一一对应关系，所述目标图像特征信息包括所述多个目标图像特征向量。

10.根据权利要求8所述的装置，其特征在于，所述第一获取单元包括：

第二抽取模块，用于使用目标窗口从所述待定位视频中抽取出多个目标音频片段；

第二转换模块，用于使用第二转换模型，将所述多个目标音频片段转换为用于表示所述多个目标音频片段的多个目标音频特征向量，其中，所述多个目标音频片段和所述多个目标音频特征向量之间具有一一对应关系，所述目标音频特征信息包括所述多个目标音频特征向量。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取与所述待定位视频对应的文本信息；

第三获取单元，用于使用与所述待定位视频对应的文本信息，从所述第一视频集合中获取第二视频集合，其中，与所述第二视频集合中的每个第二视频对应的文本信息均和与所述待定位视频对应的文本信息相匹配。

12.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。