CN113642451B

CN113642451B - 确定视频的匹配性的方法、装置、设备及可读记录介质

Info

Publication number: CN113642451B
Application number: CN202110913152.0A
Authority: CN
Inventors: 戴书文; 钱成; 赵鹏英
Original assignee: Ruiting Network Technology Shanghai Co ltd
Current assignee: Ruiting Network Technology Shanghai Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2022-05-17
Anticipated expiration: 2041-08-10
Also published as: CN113642451A

Abstract

本公开提供了确定视频的匹配性的方法、装置、设备及可读记录介质。该方法包括：获取关于目标对象的第一视频以及与所述第一视频中的每一帧图像对应的设备方位信息；从所述第一视频中获取第一数量的第一图像；基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的虚拟现实VR全景图中获取第一数量的第二图像；生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合；以及基于所述相似度集合确定所述第一视频与所述目标对象的匹配性。该方法可基于VR全景图中的图像与视频中的图像之间的相似度来确定视频是否与真实的实体场景匹配，提高了确定视频的匹配性的效率并且降低了成本。

Description

确定视频的匹配性的方法、装置、设备及可读记录介质

技术领域

本公开涉及数据处理领域，更具体地，涉及一种确定视频的匹配性的方法、装置、设备及可读记录介质。

背景技术

随着技术的不断发展，用户可以利用具有摄像功能的设备(例如，智能手机、个人数字助手、平板计算机、照相机、摄像机等)拍摄各种实体场景的视频，并将该视频上传到供应商的服务器中。这极大地方便了其他用户通过服务器获取其感兴趣的视频。然而，在一些情况下，存在不良用户出于各种目的上传虚假视频欺骗其他用户的行为(例如，用户声称上传的是场景A的视频，但是实际上传的是场景B的视频)，为了避免其他用户被虚假的视频误导，需要对这些视频进行验证，以确定视频是否与真实的实体场景匹配。目前通常是由工作人员到视频拍摄的地点进行现场勘查。

然而，这样的方式已经无法满足目前的需要。在当前网络发达的情况下，随着用户上传的视频越来越多，由于人工检查的效率低下，使得其他的用户不能及时地获取到被确定为与真实的实体场景匹配的视频，导致用户体验不佳。此外，人工检查还会耗费大量的人力、物力，极大地增加了确定视频与真实的实体场景的匹配性的成本。

因此，需要一种新的确定视频的匹配性的方法用来解决上述问题。

发明内容

针对上述问题，本公开提供了一种确定视频的匹配性的方法、装置、电子设备及存储介质，该方法可以在无需人工检验的情况下快速准确地确定视频是否与真实的实体场景匹配，提高了确定视频的匹配性的效率并且降低了成本。

根据本公开的一方面提供了一种确定视频的匹配性方法，包括：获取关于目标对象的第一视频以及与所述第一视频中的每一帧图像对应的设备方位信息；从所述第一视频中获取第一数量的第一图像；基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的虚拟现实(Virtual Reality，VR)全景图中获取第一数量的第二图像；生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合；以及基于所述相似度集合确定所述第一视频与所述目标对象的匹配性。

根据本公开的一些实施例，其中，所述设备方位信息包括拍摄第一视频的设备的位置信息和角度信息。

根据本公开的一些实施例，其中，从所述第一视频中获取第一数量的第一图像，包括：按照预定义抽帧方式从所述第一视频中获取第一数量的第一图像。

根据本公开的一些实施例，其中，所述预定义抽帧方式为每隔预定数量的帧抽取一帧图像。

根据本公开的一些实施例，其中，基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的VR全景图中获取第一数量的第二图像，包括：基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，计算所述VR全景图中与所述设备方位信息对应的旋转中心参数和旋转角度参数，以及基于所述旋转中心参数和所述旋转角度参数，从所述VR全景图中获取第一数量的第二图像。

根据本公开的一些实施例，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，还包括对所述第一图像和/或对应于所述第一图像的所述第二图像进行缩放处理，使得所述第一图像与对应于所述第一图像的所述第二图像具有相同的像素尺寸。

根据本公开的一些实施例，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，还包括：对所述第一图像和所述第二图像进行灰度处理，使得所述第一图像和所述第二图像转换为单通道灰度图像。

根据本公开的一些实施例，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，包括：计算所述第一数量的第一图像中每个第一图像的第一图像指纹；计算所述第一数量的第二图像中每个第二图像的第二图像指纹；根据所述每个第一图像的第一图像指纹和对应于所述每个第一图像的所述第二图像的第二图像指纹，计算所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度；基于计算的所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

根据本公开的一些实施例，其中，计算第一图像指纹包括：遍历所述第一图像的每个像素以获得每个像素的像素值；计算所述第一图像的像素均值；当一个像素的像素值大于或等于所述第一图像的像素均值时，确定所述一个像素的哈希值为1，以及当所述一个像素的像素值小于所述第一图像的像素均值时，确定所述一个像素的哈希值为0；根据每个像素的哈希值确定所述第一图像的第一图像指纹。计算第二图像指纹包括：遍历所述第二图像的每个像素以获得每个像素的像素值；计算所述第二图像的像素均值；当一个像素的像素值大于或等于所述第二图像的像素均值时，确定所述一个像素的哈希值为1，以及当所述一个像素的像素值小于所述第二图像的像素均值时，确定所述一个像素的哈希值为0；根据每个像素的哈希值确定所述第二图像的第二图像指纹。

根据本公开的一些实施例，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，包括：检测所述第一数量的第一图像中每个第一图像的特征点和所述第一数量的第二图像中每个第二图像的特征点；确定所述每个第一图像的特征点与对应于所述每个第一图像的所述第二图像的特征点之间的匹配关系；根据所述每个第一图像的特征点与对应于所述每个第一图像的所述第二图像的特征点之间的匹配关系，计算所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度；基于计算的所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

根据本公开的一些实施例，其中，基于所述相似度集合确定所述第一视频与所述目标对象的匹配性，包括：基于所述相似度集合，确定指示所述第一视频与所述目标对象的匹配性的相似度值；当所述相似度值大于或等于预定阈值时，确定所述第一视频与所述目标对象匹配；以及当所述相似度值小于所述预定阈值时，确定所述第一视频与所述目标对象不匹配。

根据本公开的一些实施例，所述相似度值为所述相似度集合中的多个相似度的中位数或均值。

根据本公开的一些实施例，所述目标对象为实体场景的内部空间和/或外部空间。

根据本公开的另一方面，还提供了一种确定视频的匹配性的装置，包括：视频与信息获取单元，被配置为获取关于目标对象的第一视频以及与所述第一视频中的每一帧图像对应的设备方位信息；第一图像获取单元，被配置为从所述第一视频中获取第一数量的第一图像；第二图像获取单元，被配置为基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的VR全景图中获取第一数量的第二图像；相似度集合生成单元，被配置为生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合；以及匹配性确定单元，被配置为基于所述相似度集合确定所述第一视频与所述目标对象的匹配性。

根据本公开的一些实施例，其中，所述第一图像获取单元被配置为：按照预定义抽帧方式从所述第一视频中获取第一数量的第一图像。

根据本公开的一些实施例，其中，所述第二图像获取单元被配置为：基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，计算所述VR全景图中与所述设备方位信息对应的旋转中心参数和旋转角度参数，以及基于所述旋转中心参数和所述旋转角度参数，从所述VR全景图中获取第一数量的第二图像。

根据本公开的一些实施例，其中，所述相似度集合生成单元还包括：缩放处理模块，被配置为对所述第一图像和/或对应于所述第一图像的所述第二图像进行缩放处理，使得所述第一图像与对应于所述第一图像的所述第二图像具有相同的像素尺寸。

根据本公开的一些实施例，其中，所述相似度集合生成单元还包括：灰度处理模块，被配置为对所述第一图像和所述第二图像进行灰度处理，使得所述第一图像和所述第二图像转换为单通道灰度图像。

根据本公开的一些实施例，其中，所述相似度集合生成单元还包括图像指纹计算模块，被配置为：计算所述第一数量的第一图像中每个第一图像的第一图像指纹；计算所述第一数量的第二图像中每个第二图像的第二图像指纹。所述相似度集合生成单元被配置为：根据所述每个第一图像的第一图像指纹和对应于所述每个第一图像的所述所述第二图像的第二图像指纹，计算所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度；基于计算的所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

根据本公开的一些实施例，其中，所述图像指纹计算模块被配置为：遍历所述第一图像的每个像素以获得每个像素的像素值；计算所述第一图像的像素均值；当一个像素的像素值大于或等于所述第一图像的像素均值时，确定所述一个像素的哈希值为1，以及当所述一个像素的像素值小于所述第一图像的像素均值时，确定所述一个像素的哈希值为0；根据每个像素的哈希值确定所述第一图像的图像指纹；以及遍历所述第二图像的每个像素以获得每个像素的像素值；计算所述第二图像的像素均值；当一个像素的像素值大于或等于所述第二图像的像素均值时，确定所述一个像素的哈希值为1，以及当所述一个像素的像素值小于所述第二图像的像素均值时，确定所述一个像素的哈希值为0；根据每个像素的哈希值确定所述第二图像的第二图像指纹。

根据本公开的一些实施例，其中，相似度集合生成单元被配置为：检测所述第一数量的第一图像中每个第一图像的特征点和所述第一数量的第二图像中每个第二图像的特征点；确定所述每个第一图像的特征点与对应于所述每个第一图像的所述第二图像的特征点之间的匹配关系；根据所述每个第一图像的特征点与对应于所述每个第一图像的所述第二图像的特征点之间的匹配关系，计算所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度；基于计算的所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

根据本公开的一些实施例，其中，所述匹配性确定单元被配置为：基于所述相似度集合，确定指示所述第一视频与所述目标对象的匹配性的相似度值；当所述相似度值大于或等于预定阈值时，确定所述第一视频与所述目标对象匹配；以及当所述相似度值小于预定阈值时，确定所述第一视频与所述目标对象不匹配。

根据本公开的一些实施例，其中，所述相似度值为所述相似度集合中的多个相似度的中位数或均值。

根据本公开的一些实施例，其中，所述目标对象为实体场景的内部空间和/或外部空间。

根据本公开的另一方面，还提供了一种电子设备，包括：处理器；以及

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器执行时，实现上述确定视频的匹配性的方法。

根据本公开的另一方面，还提供了一种非暂时性计算机可读存储介质，存储有计算机可读指令，其中，当所述计算机可读指令在由处理器执行时，实现上述确定视频的匹配性的方法。

本公开实施例提供了一种确定视频的匹配性的方法、装置、电子设备以及计算机可读存储介质。

因此，根据本公开实施例的方法，通过利用拍摄视频的设备的方位信息，从VR全景图中获取与该视频中的图像相对应的图像，基于获取视频中的图像与从VR全景图中获取的图像之间的相似度的集合来确定视频是否与真实的实体场景匹配，从而确定了视频的匹配性。这样，极大的提高了确定视频与真实的实体场景匹配的效率，使得用户可以尽快获得与真实的实体场景匹配的视频，改善了用户的体验，同时这也避免了需要人工实地检验的问题，降低了确定视频的匹配性的成本。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本公开的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本公开的一些实施例的确定视频的匹配性的方法的流程图；

图2示出了根据本公开的一些实施例的确定视频的匹配性的另一方法的流程图；

图3示出了根据本公开的一些实施例的生成第一数量的第一图像与第一数量的第二图像之间的相似度集合的过程的流程图；

图4示出了根据本公开的一些实施例的生成第一数量的第一图像与第一数量的第二图像之间的相似度集合的另一过程的流程图；

图5示出了根据本公开的一些实施例的确定视频的匹配性的装置的框图；

图6示出了根据本公开的一些实施例的确定视频的匹配性的另一装置的框图；

图7示出了根据本公开的一些实施例的确定视频的匹配性的另一装置的框图；

图8示出了根据本公开的一些实施例的电子设备800的框图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步。

在本公开的说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本公开限制于此。因此，单数形式可以包括复数形式，并且复数形式也可以包括单数形式，除非上下文另有明确说明。

随着技术的发展，用户经常会利用设备拍摄其所处场景的视频，并将该视频上传于网络或通过APP上传至供应商的服务器，以便其他用户能够通过该视频获知该场景中的相关信息。然而，经常存在一些不良用户出于某些目的上传与实体场景不符的虚假视频或者对拍摄的视频进行篡改使其与实体场景不符，从而达到欺骗其他用户的目的。为了解决这一问题，通常需要人员到拍摄视频的实体场景处确认视频与实体场景的匹配性，这极大地降低了检验的效率以及增加了成本，同时由于到实体场景确认视频的匹配性通常需要消耗大量的时间，因此想要即时获知场景信息的用户可能需要等待较长的时间，这也给用户带来了极差的体验感。

发明人通过研究发现，VR技术中的VR全景图可以以二维图像的方式描述实体场景的三维场景信息。如果能通过实体场景中已知的VR全景图来确认用户拍摄的视频是否与真实的实体场景匹配，则可以确定视频的匹配性，从而解决上述技术问题。因此，本公开提供了一种确定视频的匹配性的方法。

下面将参照附图对上述本公开提供的确定视频的匹配性的方法进行详细的说明。

图1示出了根据本公开的一些实施例的确定视频的匹配性的方法的流程图。

如图1所示，首先，在步骤S110，获取关于目标对象的第一视频以及与第一视频中的每一帧图像对应的设备方位信息。

在一个示例中，目标对象可以是实体场景的内部空间和/或外部空间。实体场景可以是能够使用设备进行视频拍摄的任何现实中存在的实体场景。例如，实体场景的内部空间可以是建筑物中的住宅、办公室等的内部空间，也可以是交通工具等的内部空间。此外，实体场景的外部空间可以是室外花园、街道、自然景观等。

在一个示例中，设备方位信息包括拍摄第一视频的设备的位置信息和角度信息。设备方位信息中的位置信息可以表示设备当前所处的实际位置，实际位置可以通过能够利用全球定位系统(GPS)、北斗系统以及其他定位系统的元件(例如，芯片、传感器等)来获得。设备方位信息中的角度信息可以是设备的当前角速度信息，也可以是经角速度计算得到的表示设备或设备的镜头当前方向的信息，其中角速度信息可以通过陀螺仪传感器来获得。优选地，还可以利用GPS芯片、陀螺仪传感器、加速度传感器以及设备内置和/或外置的其他传感器中的一个或多个获得的信息来计算位置信息，使得位置信息更加精确。优选地，还可以利用陀螺仪传感器、加速度传感器以及设备内置和/或外置的其他传感器中的一个或多个获得的信息来计算角度信息，使得角度信息更加精确。此外，设备方位信息还可以是能够转换为旋转中心参数和旋转角度参数的任何其他信息，其中，旋转中心参数和旋转角度参数可以用于从VR图像中获取图像。

在一个示例中，当使用设备拍摄第一视频时，该设备可以根据当前录制的帧率，以相同频率记录设备当前的设备方位信息。例如，设备可以将设备方位信息嵌入到视频当中以记录该信息。此外，设备还可以将设备方位信息存储在本地文件(例如，文本文件)中以记录该信息。

在一个示例中，设备可以是任何类型的便携式设备，如智能手机、相机、平板电脑、笔记本电脑等。在一个示例中，视频的格式可以是AVI、MPEG、RMVB、MKV等当前的视频编码格式或者是未来的其他视频编码格式。此外，设备上还可以设置有与拍摄视频相关的应用程序(application，APP)。在一个示例中，可以经由网络直接获取设备拍摄的视频以及记录的设备方位信息。在另一个示例中，可以从存储有视频和设备方位信息的服务器中获取视频，该视频可以通过应用程序对应的设备经由网络传输至该服务器中。在一个示例中，网络可以是有线网络和/或无线网络。例如，有线网络可以采用双绞线、同轴电缆或光纤传输等方式进行数据传输，无线网络可以采用3G/4G/5G等移动通信网络、蓝牙、Zigbee或者WiFi等方式进行数据传输。

接着，在步骤S120，从第一视频中获取第一数量的第一图像。通过将连续的视频帧转换为单独的图像，使得其可以用于下面描述的后续步骤中。

在一个示例中，第一数量的图像可以是第一视频中全部数量的图像的子集。也就是说，第一数量的第一图像可以包括第一视频中的全部图像，也可以包括第一视频中的部分图像。例如，第一视频包含100帧图像，可以获取其中的80帧图像作为第一图像。

根据本公开的实施例，可以按照预定义抽帧方式从第一视频中获取第一数量的第一图像。根据本公开的实施例，预定义抽帧方式可以为每隔预定数量的帧抽取一帧图像。例如，可以每隔50帧或者其他数量的帧抽取一帧图像以获得第一数量的第一图像(第一数量的第一图像可以包括第一视频的第一帧，或不包括第一视频的第一帧)。通过从第一视频中仅提取一定数量帧的图像，可以减少待处理的数据量，从而提高确定视频匹配性的速度。

在一个示例中，还可以对第一视频或第一数量的第一图像进行预处理，以去除无效的帧或图像，从而提高后续处理中计算相似度的速度以及避免影响相似度计算的准确性。例如，无效的帧或图像可以是图像数据不完整或已损坏的帧或图像，或者是不具有对应设备方位信息的帧或图像。

然后，在步骤S130，基于与第一数量的第一图像中的每个图像对应的设备方位信息，从目标对象的VR全景图中获取第一数量的第二图像。在此种情况下，第一数量的第一图像中的每个图像与第一数量的第二图像中的一个对应图像具有对应关系。

在一个示例中，目标对象的VR全景图可以是目标对象的全景图像(即，六面体图像)，其包含关于目标对象的三维场景信息。通常情况下目标对象的VR全景图是已知的并且可以被确定为是关于目标对象的真实的全景图像。因此，可以基于目标对象的全景图是可信的来确认视频是否与真实的实体场景匹配。

根据本公开的实施例，可以基于与第一数量的第一图像中的每个图像对应的设备方位信息，计算VR全景图中与设备方位信息对应的旋转中心参数和旋转角度参数，以及基于旋转中心参数和旋转角度参数，从VR全景图中获取第一数量的第二图像。

具体地，例如，根据100个第一图像中与每一个图像对应的设备方位信息中的位置信息和角度信息，可以计算出拍摄设备在拍摄第一视频时镜头的100组位置以及角度。然后将这些位置和角度转换为100组旋转中心参数和旋转角度参数。基于每一组旋转中心参数和旋转角度参数即可从VR全景图中获取与之对应的一个第二图像。因此，基于与100个第一图像对应的设备方位信息可以从VR全景图中获取对应的100个第二图像。例如，一组第一图像包括A、B、C三个第一图像，基于步骤130所述的方法，可以从VR全景图中获取一组的第二图像，该组第二图像包括分别与A、B、C三个第一图像对应的A’、B’、C’三个第二图像。

接着，在步骤S140，生成第一数量的第一图像与第一数量的第二图像之间的相似度集合。

在一些示例中，可以计算第一数量的第一图像中的每个图像与第一数量的第二图像中的对应于每个第一图像的第二图像之间的相似度，并且基于此生成相似度集合。例如，如上所述，可以计算一组第一图像中A、B、C三个第一图像分别与一组第二图像中A’、B’、C’三个第二图像之间的相似度。

生成第一数量的第一图像与第一数量的第二图像之间的相似度集合的具体过程，将在下文详细描述。

最后，在步骤S150，基于相似度集合确定第一视频与目标对象的匹配性。也就是说，基于相似度集合可以确定视频与真实的实体场景是否匹配，从而确定了视频的匹配性。

根据本公开的实施例，可以基于相似度集合，确定指示第一视频与目标视频的匹配性的相似度值；当相似度值大于或等于预定阈值时，确定第一视频与目标对象匹配；以及当相似度值小于预定阈值时，确定第一视频与目标对象不匹配。

在一个示例中，可以根据不同的需求(例如，对视频的可靠性的要求)设定不同的预定阈值(例如，70％、80％、90％等)。例如，当对视频的匹配性要求较高时，可以将预定阈值设为90％。例如，当视频清晰度过低，影响视频与VR全景图之间的相似度确定时，可以将预定阈值设为70％。

根据本公开的实施例，相似度值可以为相似度集合中的多个相似度的中位数或均值。例如，如果相似度集合中包含100个相似度，那么可以以全部100个相似度的中位数作为相似度值；也可以在去除相似度集合中部分被确定为有误的值之后，以剩余的相似度(例如，剩余80个)的中位数作为相似度值。

以上结合图1详细描述了确定视频的匹配性的方法。由上述详细描述的内容可知，本公开可以基于来自关于目标对象的待确认的第一视频中的第一图像与来自VR全景图中的第二图像之间的相似度集合来确认视频的匹配性，由于根据第一图像的设备方位信息可以准确地获取VR全景图中与第一图像对应的图像，并且VR全景图是可靠的，所以通过这方式可以在无需人工确认的情况下，快速、准确地确认视频与真实的实体场景是否匹配。

图2是根据本公开的一些实施例的确定视频的匹配性的另一方法的流程图。由于图2中所示的方法中部分步骤与图1中所示的方法相同，并且以相同的参考标记对相同的步骤进行了标记，因此不再赘述。

如图2所示，本公开所述的确认视频的匹配性的方法还可以包括以下步骤，在步骤S210，可以对第一图像和/或对应于第一图像的第二图像进行缩放处理，使得第一图像与对应于第一图像的第二图像具有相同的像素尺寸。

在一个示例中，可以根据预设的像素尺寸或者自适应地对图像进行缩放处理。

在一个示例中，可以对第一图像中的一个图像与第二图像中的对应图像进行缩放，使得二者具有相同的第一像素尺寸；而对第一图像中的另一图像与第二图像中的对应图像进行缩放，使得二者具有相同的第二像素尺寸，其中第一像素尺寸可以与第二像素尺寸不同。例如，当第一图像中的一个图像具有16×16像素尺寸，而第二图像中的对应图像具有16×8的像素尺寸时，可以将二者的像素尺寸缩放为16×8；与此同时，第一图像中的另一图像具有16×16像素尺寸，而第二图像中的对应图像具有8×8像素尺寸，则可以将二者的像素尺寸缩放为8×8而非16×8。

作为另一个示例，可以对第一图像和第二图像中的所有图像进行缩放处理，使得所有图像具有相同的像素尺寸。例如，在第一图像具有16×16像素尺寸，而第二图像具有16×8像素尺寸的情况下，可以将图像统一缩放为8×8像素尺寸。通过对图像进行缩放处理，使得图像具有相同的像素尺寸，以便用于后续计算图像之间的相似度。

应当注意的是，尽管以上仅是缩小图像的示例，但是可以例如以插值的方法对图像进行放大，使其具有较大的像素尺寸。

继续参考图2，根据本公开的实施例，在步骤S220，可以对第一图像和第二图像进行灰度处理，使得第一图像和第二图像转换为单通道灰度图像。通过对图像进行灰度处理，使图像仅保留灰度信息，从而减小了描述图像的数据大小。而较小的数据可以提高计算图像之间的相似度的速度。

应当注意的是，图2中所示出的两个步骤S210和S220的顺序仅是说明性的，步骤S210和S220的顺序可以互换，即先对图像进行灰度处理，然后进行缩放处理。步骤S210和S220也可以同时进行，即并行进行对图像的灰度处理和缩放处理。另外，本公开所述的方法也可以仅包含步骤S210或步骤S220中的一个。此外，通常情况下，步骤S210和S220是在步骤S130与步骤S140之间完成的。然而，在一些情况下，也可以在步骤S120完成后先执行步骤S210和S220中对第一图像处理的部分，然后在步骤S130完成后执行步骤S210和S220中对第二图像处理的部分。

下面将参考图3和图4对计算第一图像中的每个图像与第二图像中的对应图像之间的相似度的具体过程进行详细描述。

如图3所示，根据本公开的实施例，生成第一数量的第一图像与第一数量的第二图像之间的相似度集合可以包括以下步骤：

步骤S310，计算第一数量的第一图像中每个第一图像的第一图像指纹。根据本公开的实施例，计算第一图像指纹可以包括：遍历第一图像的每个像素以获得每个像素的像素值；计算第一图像的像素均值；当一个像素的像素值大于或等于第一图像的像素均值时，确定该像素的哈希值为1，以及当该像素的像素值小于第一像素的像素均值时，确定该像素的哈希值为0；根据每个像素的哈希值确定第一图像的第一图像指纹。

例如，对于尺寸为8×8的图像(即，具有64个像素的图像)，可以将其视为8×8的矩阵M；首先遍历图像的像素矩阵M以获得矩阵M中的每个像素的值，其中以M(i,j)表示像素；然后计算矩阵M中64个像素的像素值的平均值a；当矩阵中第i行第j列像素M(i,j)>a时，则其哈希值为1，如果M(i,j)<a，则哈希值为0；最终可以得到其中元素值为0或1的8×8矩阵N，可以将矩阵N直接作为图像指纹，也可以将矩阵N转换为一维数组，并将其作为图像指纹。

步骤S320，计算第一数量的第二图像中每个第二图像的第二图像指纹。与步骤S310中计算第一图像指纹的方法类似，根据本公开的实施例，计算第二图像指纹可以包括：遍历第二图像的每个像素以获得每个像素的像素值；计算第二图像的像素均值；当一个像素的像素值大于或等于第二图像的像素均值时，确定该像素的哈希值为1，以及当该像素的像素值小于第二图像的像素均值时，确定该像素的哈希值为0；根据每个像素的哈希值确定第二图像的第二图像指纹。

应当注意的是，在一些情况下，与上述的示例不同的是，也可以先计算图像的像素均值，然后遍历图像的每个像素以获得每个像素的像素值。此外，步骤S310和步骤S320的顺序可以互换，也可以并行执行步骤S310和步骤S320。

步骤S330，根据每个第一图像的第一图像指纹和对应于每个第一图像的第二图像的第二图像指纹，计算每个第一图像与对应于每个第一图像的第二图像之间的相似度。

在一个示例中，可以根据两个图像之间的图像指纹的距离(例如，汉明(Hamming)距离、曼哈顿(Manhattan)距离、契比雪夫(Chebyshev)距离、马氏(Mahalanobis)距离等)，计算图像之间的相似度。

步骤S340，基于计算的每个第一图像与对应于每个第一图像的第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。例如，通过步骤S330获得了100个第一图像与对应的第二图像之间的相似度，可以以这100个相似度作为相似度集合中的元素来生成相似度集合。

如图4所示，根据本公开的另一实施例，生成第一数量的第一图像与第一数量的第二图像之间的相似度集合的过程可以包括以下步骤：

步骤S410，检测第一数量的第一图像中每个第一图像的特征点和第一数量的第二图像中每个第二图像的特征点。在一个示例中，可以使用尺度不变特征变换(SIFT)算法来检测图像的特征点。

例如，对于每一个图像而言，可以首先对图像进行高斯滤波；然后对滤波后的图像进行高斯差分处理；利用高斯差分后的图像特征信息确定图像的特征点，并且生成描述该特征点的描述子。作为示例，还可以使用SURF、ORB等算法来检测图像的特征点。

步骤S420，确定每个第一图像的特征点与对应于每个第一图像的第二图像的特征点之间的匹配关系。在一个示例中，可以通过暴力匹配方法(Brute-Force Matcher)来计算第一图像中一个特征点的描述子与对应图像中其他所有特征点的描述子的距离，然后对得到的距离进行排序，其中距离最近的两个特征点为匹配点。

步骤S430，根据每个第一图像的特征点与对应于每个第一图像的第二图像的特征点之间的匹配关系，计算每个第一图像与对应于每个第一图像的第二图像之间的相似度。在一个示例中，在执行步骤S420的过程中或者在步骤S420之后，为了去除错误的匹配关系，还可以采用随机采样一致性(RANSAC)方法通过利用匹配点来计算两个图像之间的单应矩阵，然后利用重投影误差来判定该匹配是否为正确的匹配关系，从而可以去除错误的匹配关系以提高步骤S430计算相似度的准确性。

步骤S440，基于计算的每个第一图像与对应于每个第一图像的第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

在一个示例中，还可以通过其他机器学习算法(例如，VGG等)计算第一图像中每个第一图像与第二图像中对应于每个第一图像的第二图像的相似度，从而生成第一数量的第一图像与第一数量的第二图像之间的相似度集合。

以上结合图2至图4详细描述了确定视频的匹配性的方法中的其他实施例。由上述详细描述的内容可知，通过对图像进行灰度处理和缩放处理可以提高相似度计算的速度，从而提高了确定视频匹配性的速度。此外，通过计算图像之间的图像指纹和/或特征匹配关系，可以准确地获得第一视频中的图像与VR全景图中的第二图片的相似度，从而提高了确定视频匹配性的准确度。

本公开除了提供上述确定视频的匹配性的方法，还提供了确定视频的匹配性的装置，接下来将结合图5对此进行详细描述。

图5是根据本发明的一些实施例的确定视频的匹配性的装置的框图。如图5所示，本公开所述的确定视频的匹配性的装置可以包括视频与信息获取单元510、第一图像获取单元520、第二图像获取单元530、相似度集合生成单元540以及匹配性确定单元550。

根据本公开的实施例，视频与信息获取单元510可以被配置为获取关于目标对象的第一视频以及与第一视频中的每一帧图像对应的设备方位信息。

根据本公开的实施例，设备方位信息包括拍摄第一视频的设备的位置信息和角度信息。

根据本公开的实施例，目标对象可以为实体场景的内部空间和/或外部空间。

根据本公开的实施例，第一图像获取单元520可以被配置为从第一视频中获取第一数量的第一图像。

在一个示例中，第一图像获取单元520可以被配置为按照预定义抽帧方式从第一视频中获取第一数量的第一图像。在一个示例中，预定义抽帧方式可以为每隔预定数量的帧抽取一帧图像。

根据本公开的实施例，第二图像获取单元530可以被配置为基于与第一数量的第一图像中的每个图像对应的设备方位信息，从目标对象的虚拟现实VR全景图中获取第一数量的第二图像。

在一个示例中，第二图像获取单元530可以被配置为基于与第一数量的第一图像中的每个图像对应的设备方位信息，计算VR全景图中与设备方位信息对应的旋转中心参数和旋转角度参数，以及基于旋转中心参数和旋转角度参数，从VR全景图中获取第一数量的第二图像。

根据本公开的实施例，相似度集合生成单元540可以被配置为被配置为生成第一数量的第一图像与第一数量的第二图像之间的相似度集合。

根据本公开的实施例，匹配性确定单元550可以被配置为基于相似度集合确定第一视频与目标对象的匹配性。

在一个示例中，匹配性确定单元被配置为基于相似度集合，确定指示第一视频与目标对象的匹配性的相似度值；当相似度值大于或等于预定阈值时，确定第一视频与目标对象匹配；以及当相似度值小于预定阈值时，确定第一视频与目标对象不匹配。

根据本公开的实施例，相似度值为相似度集合中的多个相似度的中位数或均值。

图6为根据本发明的一些实施例的确定视频的匹配性的另一装置的框图。由于图6中的部分组件与图5中的组件一致，因此以相同的参考标记对相同的组件进行标记并且不在图6中赘述。

如图6所示，根据本公开的实施例，相似度集合生成单元540还可以包括缩放处理模块610，其可以被配置为对第一图像和/或对应于第一图像的第二图像进行缩放处理，使得第一图像与对应于第一图像的第二图像具有相同的像素尺寸。

继续参考图6，根据本公开的实施例，附加地或替代地，相似度集合生成单元540还可以包括灰度处理模块620，其被配置为对第一图像和第二图像进行灰度处理，使得第一图像和第二图像转换为单通道灰度图像。

图7为根据本发明的一些实施例的确定视频的匹配性的另一装置的框图。由于图7中的部分组件与图5和图6中的组件一致，因此以相同的参考标记对相同的组件进行标记并且不在图7中赘述。

如图7所示，在一个示例中，相似度集合生成单元540还可以被配置为检测第一数量的第一图像中每个第一图像的特征点和第一数量的第二图像中每个第二图像的特征点；确定每个第一图像的特征点与对应于每个第一图像的第二图像的特征点之间的匹配关系；根据每个第一图像的特征点与对应于每个第一图像的第二图像的特征点之间的匹配关系，计算每个第一图像与对应于每个第一图像的第二图像之间的相似度；基于计算的每个第一图像与对应于每个第一图像的第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

在另一个示例中，相似度集合生成单元540还可以包括图像指纹计算模块710，其被配置为计算第一数量的第一图像中每个第一图像的第一图像指纹；计算第一数量的第二图像中每个第二图像的第二图像指纹。此外，相似度集合生成单元540可以被配置为根据每个第一图像的第一图像指纹和对应于每个第一图像的第二图像的第二图像指纹，计算每个第一图像与对应于每个第一图像的第二图像之间的相似度；基于计算的每个第一图像与对应于每个第一图像的第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

在一个示例中，图像指纹计算模块710可以被配置为遍历第一图像的每个像素以获得每个像素的像素值；计算第一图像的像素均值；当一个像素的像素值大于或等于第一图像的像素均值时，确定该像素的哈希值为1，以及当该像素的像素值小于第一图像的像素均值时，确定该像素的哈希值为0；根据每个像素的哈希值确定第一图像的第一图像指纹；以及计算第一数量的第二图像中对应图像的图像指纹包括：遍历第二图像的每个像素以获得每个像素的像素值；计算第二图像的像素均值；当一个像素的像素值大于或等于第二图像的像素均值时，确定该像素的哈希值为1，以及当该像素的像素值小于第二图像的像素均值时，确定该像素的哈希值为0；根据每个像素的哈希值确定第二图像的第二图像指纹。

附加地，图7中所示的确定视频的匹配性的装置还可以包括如图6中所示的缩放处理模块610和灰度处理模块620。

关于图5至图7所示的确定视频的匹配性的装置的一些具体细节还可以参考图1至图4中所示的确定视频的匹配性的方法的内容。

图8示出了根据本公开的一些实施例的电子设备800的结构图。

参见图8，电子设备800可以包括处理器801和存储器802。处理器801和存储器802都可以通过总线803相连。电子设备800可以是任何类型的便携式设备(如智能相机、智能手机、平板电脑等)也可以是任何类型的固定设备(如台式计算机、服务器等)。

处理器801可以根据存储在存储器802中的程序执行各种动作和处理。具体地，处理器801可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

存储器802存储有计算机可执行指令，在计算机可执行指令被处理器801执行时实现上述确定视频的匹配性的方法。存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

此外，根据本公开的确定视频的匹配性的方法可被记录在计算机可读记录介质中。具体地，根据本公开，可提供一种存储有计算机可执行指令的计算机可读记录介质，当所述计算机可执行指令被处理器执行时，可促使处理器执行如上所述的确定视频的匹配性的方法。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可以由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其它图像表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1.一种确定视频的匹配性的方法，包括：

获取由设备拍摄的关于目标对象的第一视频以及所述设备在拍摄所述第一视频中的每一帧图像时对应记录的当前的设备方位信息；

从所述第一视频中获取第一数量的第一图像；

基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的虚拟现实VR全景图中获取第一数量的第二图像；

生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合；以及

基于所述相似度集合确定所述第一视频与所述目标对象的匹配性。

2.根据权利要求1所述的方法，其中，所述设备方位信息包括拍摄第一视频的设备的位置信息和角度信息。

3.根据权利要求1所述的方法，其中，从所述第一视频中获取第一数量的第一图像，包括：

按照预定义抽帧方式从所述第一视频中获取第一数量的第一图像。

4.根据权利要求3所述的方法，其中，所述预定义抽帧方式为每隔预定数量的帧抽取一帧图像。

5.根据权利要求1所述的方法，其中，基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的VR全景图中获取第一数量的第二图像，包括：

基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，计算所述VR全景图中与所述设备方位信息对应的旋转中心参数和旋转角度参数，以及

基于所述旋转中心参数和所述旋转角度参数，从所述VR全景图中获取第一数量的第二图像。

6.根据权利要求1所述的方法，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，还包括：

对所述第一图像和/或对应于所述第一图像的所述第二图像进行缩放处理，使得所述第一图像与对应于所述第一图像的所述第二图像具有相同的像素尺寸。

7.根据权利要求1所述的方法，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，还包括：

对所述第一图像和所述第二图像进行灰度处理，使得所述第一图像和所述第二图像转换为单通道灰度图像。

8.根据权利要求1至7中任一项所述的方法，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，包括：

计算所述第一数量的第一图像中每个第一图像的第一图像指纹；

计算所述第一数量的第二图像中每个第二图像的第二图像指纹；

根据所述每个第一图像的第一图像指纹和对应于所述每个第一图像的所述第二图像的第二图像指纹，计算所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度；

基于计算的所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度，生成包括第一数量的相似度的相似度集合。

9.根据权利要求8所述的方法，其中，计算第一图像指纹包括：

遍历所述第一图像的每个像素以获得每个像素的像素值；

计算所述第一图像的像素均值；当一个像素的像素值大于或等于所述第一图像的像素均值时，确定所述一个像素的哈希值为1，以及当所述一个像素的像素值小于所述第一图像的像素均值时，确定所述一个像素的哈希值为0；

根据每个像素的哈希值确定所述第一图像的第一图像指纹；以及

计算第二图像指纹包括：

遍历所述第二图像的每个像素以获得每个像素的像素值；

计算所述第二图像的像素均值；

当一个像素的像素值大于或等于所述第二图像的像素均值时，确定所述一个像素的哈希值为1，以及当所述一个像素的像素值小于所述第二图像的像素均值时，确定所述一个像素的哈希值为0；

根据每个像素的哈希值确定所述第二图像的第二图像指纹。

10.根据权利要求1至7中任一项所述的方法，其中，生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合，包括：

检测所述第一数量的第一图像中每个第一图像的特征点和所述第一数量的第二图像中每个第二图像的特征点；

确定所述每个第一图像的特征点与对应于所述每个第一图像的所述第二图像的特征点之间的匹配关系；

根据所述每个第一图像的特征点与对应于所述每个第一图像的所述第二图像的特征点之间的匹配关系，计算所述每个第一图像与对应于所述每个第一图像的所述第二图像之间的相似度；

11.根据权利要求1所述的方法，其中，基于所述相似度集合确定所述第一视频与所述目标对象的匹配性，包括：

基于所述相似度集合，确定指示所述第一视频与所述目标对象的匹配性的相似度值；

当所述相似度值大于或等于预定阈值时，确定所述第一视频与所述目标对象匹配；以及

当所述相似度值小于所述预定阈值时，确定所述第一视频与所述目标对象不匹配。

12.根据权利要求11所述的方法，其中，所述相似度值为所述相似度集合中的多个相似度的中位数或均值。

13.根据权利要求1所述的方法，其中，所述目标对象为实体场景的内部空间和/或外部空间。

14.一种确定视频的匹配性的装置，包括：

视频与信息获取单元，被配置为获取由设备拍摄的关于目标对象的第一视频以及所述设备在拍摄所述第一视频中的每一帧图像时对应记录的当前的设备方位信息；

第一图像获取单元，被配置为从所述第一视频中获取第一数量的第一图像；

第二图像获取单元，被配置为基于与所述第一数量的第一图像中的每个图像对应的设备方位信息，从所述目标对象的虚拟现实VR全景图中获取第一数量的第二图像；

相似度集合生成单元，被配置为生成所述第一数量的第一图像与所述第一数量的第二图像之间的相似度集合；以及

匹配性确定单元，被配置为基于所述相似度集合确定所述第一视频与所述目标对象的匹配性。

15.一种电子设备，包括：

处理器；以及

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器执行时，实现权利要求1-13中任一项所述的确定视频的匹配性的方法。

16.一种非暂时性计算机可读存储介质，存储有计算机可读指令，其中，当所述计算机可读指令在由处理器执行时，实现权利要求1-13中任一项所述的确定视频的匹配性的方法。