CN112565800B

CN112565800B - 一种视频定位方法、装置、设备、系统及存储介质

Info

Publication number: CN112565800B
Application number: CN202011376735.6A
Authority: CN
Inventors: 昝晓飞; 杨安宁
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-02-28
Anticipated expiration: 2040-11-30
Also published as: CN112565800A

Abstract

本公开关于一种视频定位方法、装置、设备、系统及存储介质，涉及计算机领域。本公开实施例至少解决相关技术中，网络直播中定位处理延时大的问题。该方法包括：获取第一数据包；第一数据包包括编码后的视频数据以及第一位置数据；视频数据包括第一图像帧，第一位置数据用于反映第一图像帧对应的初始位置；解析第一数据包，获取初始位置；基于初始位置，从兴趣点数据库中确定多个候选兴趣点；候选兴趣点的位置与初始位置之间的距离小于或等于第一阈值；基于第一图像帧与多个候选兴趣点之间的匹配结果，确定第一图像帧对应的目标位置。本公开应用于网络直播平台。

Description

一种视频定位方法、装置、设备、系统及存储介质

技术领域

本公开涉及计算机领域，尤其涉及一种视频定位方法、装置、设备、系统及存储介质。

背景技术

目前，视觉定位技术的应用越来越广泛，以网络直播中的实时定位为例，网络直播平台通常采用视觉定位方法确定主播终端所在的位置。具体的，主播终端获取直播视频中的图像的特征点，并将获取到的特征点发送至网络直播平台的服务器。后续，服务器根据接收到的特征点，通过在服务器的数据库中进行检索、匹配，以确定上述特征点所对应的位置。进一步的，服务器将确定得到的位置发送至主播终端以及直播观看者的终端。

但是，上述视觉定位方法的处理延时较大，可能会导致出现定位响应不及时，定位结果具有跳跃性的情况。

发明内容

本公开提供一种视频定位方法、装置、设备、系统及存储介质，以至少解决相关技术中，视觉定位技术处理延时大的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频定位方法，包括：获取第一数据包；第一数据包包括编码后的视频数据以及第一位置数据；视频数据包括第一图像帧，第一位置数据用于反映第一图像帧对应的初始位置；解析第一数据包，获取初始位置；基于初始位置，从兴趣点数据库中确定多个候选兴趣点；候选兴趣点的位置与初始位置之间的距离小于或等于第一阈值；基于第一图像帧与多个候选兴趣点之间的匹配结果，确定第一图像帧对应的目标位置。

在一些实施例中，上述“获取第一数据包”，包括：接收来自发送终端的第一数据包；第一数据包为发送终端根据视频数据以及视频数据中的图像帧对应的初始位置生成的。

在一些实施例中，上述“第一位置数据”包括对第一图像帧对应的初始位置编码后的数据；上述“解析第一数据包，获取初始位置”，包括：解析第一数据包，以获取第一位置数据，并对第一位置数据解码，以获取初始位置。

在一些实施例中，上述“兴趣点数据库”包括多个兴趣点、多个兴趣点的位置以及多个兴趣点对应的多个特征点，多个特征点包括多个兴趣点中每个兴趣点对应的至少一个图像帧的特征点；上述“基于初始位置，从兴趣点数据库中确定多个候选兴趣点”，包括：从兴趣点数据库中获取多个兴趣点中每个兴趣点的位置，并确定每个兴趣点的位置与初始位置之间的距离；基于多个距离存在小于或等于第一阈值，确定候选兴趣点；基于多个距离大于第一阈值，确定视频定位失败。

在一些实施例中，上述“基于第一图像帧与多个候选兴趣点之间的匹配结果，确定第一图像帧对应的目标位置”，包括：获取第一图像帧的特征点，以及从兴趣点数据库中获取多个候选兴趣点对应的多个特征点；基于获取到的第一图像帧的特征点与多个候选兴趣点对应的多个特征点之间的相似度，确定第一图像帧对应的目标位置。

在一些实施例中，上述“基于获取到的第一图像帧的特征点与多个候选特征点之间的相似度，确定第一图像帧对应的目标位置”，包括：确定第一图像帧的特征点与多个候选特征点中每个候选特征点之间的相似度；从确定出的相似度中，确定数值最大的相似度为目标相似度；在目标相似度大于或等于第二阈值的情况下，确定目标相似度对应的候选兴趣点的位置为第一图像帧对应的目标位置；在目标相似度小于第二阈值的情况下，确定视频定位失败。

在一些实施例中，上述“兴趣点数据库”还包括多个兴趣点对应的多个位姿信息，多个位姿信息包括多个兴趣点中每个兴趣点对应的至少一个图像帧的位姿信息；上述视频定位方法还包括：在目标相似度大于或等于第二阈值的情况下，从兴趣点数据库中获取目标相似度对应的目标特征点以及目标特征点对应的位姿信息；根据目标特征点、目标相似度对应的位姿信息以及第一图像帧的特征点，确定第一图像帧的位姿信息。

在一些实施例中，上述“视频定位方法”还包括：根据第一图像帧的特征点、第一图像帧对应的目标位置以及第一图像帧的位姿信息，更新兴趣点数据库。

根据本公开实施例的第二方面，提供一种视频定位装置，包括获取单元、解析单元以及确定单元；获取单元，用于获取第一数据包；第一数据包包括编码后的视频数据以及第一位置数据；视频数据包括第一图像帧，第一位置数据用于反映第一图像帧对应的初始位置；解析单元，用于解析获取单元获取到的第一数据包，获取初始位置；确定单元，用于基于解析单元获取到的初始位置，从兴趣点数据库中确定多个候选兴趣点；候选兴趣点的位置与初始位置之间的距离小于或等于第一阈值；确定单元，还用于基于第一图像帧与多个候选兴趣点之间的匹配结果，确定第一图像帧对应的目标位置。

在一些实施例中，上述“获取单元”，具体用于：接收来自发送终端的第一数据包；第一数据包为发送终端根据视频数据以及视频数据中的图像帧对应的初始位置生成的。

在一些实施例中，上述“第一位置数据”包括对第一图像帧对应的初始位置编码后的数据；上述“解析单元”，具体用于：解析第一数据包，以获取第一位置数据，并对第一位置数据解码，以获取初始位置。

在一些实施例中，上述“兴趣点数据库”包括多个兴趣点、多个兴趣点的位置以及多个兴趣点对应的多个特征点，多个特征点包括多个兴趣点中每个兴趣点对应的至少一个图像帧的特征点；上述“确定单元”，具体用于：从兴趣点数据库中获取多个兴趣点中每个兴趣点的位置，并确定每个兴趣点的位置与初始位置之间的距离；基于多个距离存在小于或等于第一阈值，确定候选兴趣点；基于多个距离大于第一阈值，确定视频定位失败。

在一些实施例中，上述“确定单元”，具体还用于：获取第一图像帧的特征点，以及从兴趣点数据库中获取多个候选特征点；基于获取到的第一图像帧的特征点与多个候选特征点之间的相似度，确定第一图像帧对应的目标位置。

在一些实施例中，上述“确定单元”，具体还用于：确定第一图像帧的特征点与多个候选特征点中每个候选特征点之间的相似度；从确定出的相似度中，确定数值最大的相似度为目标相似度；在目标相似度大于或等于第二阈值的情况下，确定目标相似度对应的候选兴趣点的位置为第一图像帧对应的目标位置；在目标相似度小于第二阈值的情况下，确定视频定位失败。

在一些实施例中，上述“兴趣点数据库”还包括多个兴趣点对应的多个位姿信息，多个位姿信息包括多个兴趣点中每个兴趣点对应的至少一个图像帧的位姿信息；获取单元，还用于在目标相似度大于或等于第二阈值的情况下，从兴趣点数据库中获取目标相似度对应的目标特征点以及目标特征点对应的位姿信息；确定单元，还用于根据目标特征点、获取单元获取到的目标相似度对应的位姿信息以及第一图像帧的特征点，确定第一图像帧的位姿信息。

在一些实施例中，上述“视频定位装置”还包括更新单元；更新单元，用于根据第一图像帧的特征点、第一图像帧对应的目标位置以及第一图像帧的位姿信息，更新兴趣点数据库。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器、用于存储处理器可执行的指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所提供的视频定位方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括指令，当指令由处理器执行时，使得处理器执行如第一方面提供的视频定位方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括指令，当指令由处理器执行时，使得处理器执行如第一方面提供的视频定位方法。

根据本公开实施例的第六方面，提供一种视频定位系统，包括服务器、发送终端以及接收终端；其中，服务器用于执行如第一方面的视频定位方法。

本公开提供的技术方案至少带来以下有益效果：采用实时通信(real-timecommunication，RTC，包括视频采集、视频编码、编码码流传输、编码码流解码)传输视频数据的过程中，服务器直接根据接收到的第一数据包中的第一位置数据，确定多个候选兴趣点，并最终基于第一图像帧与多个候选兴趣点的匹配结果，调整发送终端的位置，与现有技术相比，能够节约视觉定位的处理延时，确保实时定位的平滑性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种网络直播平台结构示意图；

图2是根据一示例性实施例示出的一种视频定位方法的流程示意图之一；

图3是根据一示例性实施例示出的一种视频定位方法的流程示意图之二；

图4是根据一示例性实施例示出的一种视频定位方法的流程示意图之三；

图5是根据一示例性实施例示出的一种视频定位方法的流程示意图之四；

图6是根据一示例性实施例示出的一种视频定位方法的流程示意图之五；

图7是根据一示例性实施例示出的一种视频定位装置的结构示意图；

图8是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

本公开实施例提供的视频定位方法可以适用于视频定位系统。图1示出了该视频定位系统的一种结构示意图。如图1所示，视频定位系统10用于对拍摄视频数据的终端实时定位。视频定位系统10包括服务器11以及至少一个终端(图1仅示例性的示出了一个发送终端12以及接收终端13，在实际应用过程中，可以有任意数量的发送终端以及接收终端)。服务器11与多个终端连接，其中服务器11与任意一个终端之间可以采用有线方式连接，也可以采用无线方式连接，本公开实施例对此不作限定。

发送终端12可以配置有摄像装置，或者与摄像装置连接，以通过摄像装置获取视频数据。发送终端12中还包括定位模块，用于获取发送终端的初始位置。发送终端12还用于将获取到的视频数据以及初始位置进行编码、封装等处理，并向服务器11发送处理得到的数据包。

服务器11主要用于实现本公开实施例提供的视频定位方法，接收发送终端的数据包，并根据数据包中的视频帧以及发送终端的初始位置，确定发送终端的目标位置，并向接收终端发送发送终端的目标位置。

在不同的应用场景中，发送终端12可以与接收终端13为同一设备，例如在增强现实(Augmented Reality，AR)定位系统、导航系统或自动驾驶系统中，服务器11在确定发送终端12的目标位置之后，将发送终端12的目标位置返回至发送终端12。在另一种示例性的场景下，发送终端12与接收终端13也可以为不同的设备，例如在视频直播系统中，发送终端12可以为主播账户的终端，接收终端13可以为观众账户的终端，服务器11在确定主播账户的终端的目标位置之后，将确定到的目标位置发送至观众账户的终端。

在一些实施例中，上述服务器11可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

示例性的，上述发送终端12以及接收终端13可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如手机、平板电脑、掌上电脑、个人计算机(Personal Computer，PC)、可穿戴设备、智能电视等。

本公开实施例还提供了一种视频定位装置，用于执行本公开实施例提供的视频定位方法，视频定位装置可以为上述服务器11，也可以为上述服务器11的一个内部模块，也可以为与服务器11相对独立且进行数据交互的设备，本公开对此不作具体限定。

以下本公开实施例针对服务器11与视频定位装置为同一设备的情形下，以服务器为例对本公开实施例提供的视频定位方法进行描述。

图2是根据一示例性实施例示出的一种视频定位方法的流程示意图。在一些实施例中，上述视频定位方法可以应用到如图1所示的服务器中或者其他类似设备。

S201、服务器11获取第一数据包。

其中，第一数据包包括编码后的视频数据以及第一位置数据。视频数据包括第一图像帧，第一位置数据用于反映第一图像帧对应的初始位置。

需要说明的，第一数据包中包括多个图像帧以及多个图像帧对应的多个第一位置数据。第一图像帧为多个图像帧中的任意一个图像帧。一个第一位置数据对应于一个图像帧。

本公开实施例中，为了能够获取第一数据包，如图3所示，本公开实施例提供的S201具体包括S2011。

S2011、服务器11接收来自发送终端12的第一数据包。

其中，第一数据包为发送终端根据视频数据以及视频数据中的图像帧对应的初始位置生成的。

作为一种可能的实现方式，服务器11接收发送终端生成并发送的第一数据包。

以下示出了一种发送终端12生成第一数据包并向服务器11发送第一数据包的具体示例：

发送终端12通过摄像装置获取视频数据，并采用第一编码方式对获取到的视频数据进行编码，以得到编码后的视频数据。同时，发送终端还通过定位模块获取摄像装置执行拍摄动作时的初始位置，并根据获取到的初始位置确定第一位置数据。进一步的，发送终端利用预设协议，将编码后的视频数据以及每一个图像帧对应的第一位置数据进行封装，以得到第一数据包。

其中，发送终端可以按照预设的频率获取视频数据。编码后的视频数据包括多个图像帧。示例性的，在不同的应用场景中，上述视频数据可以为AR定位系统的终端拍摄的视频数据，也可以为导航系统的终端拍摄的视频数据，还可以为主播账户的终端实时直播的视频数据。

需要说明的，第一编码方式可以由视频定位系统的运维人员预先在发送终端的直播软件中进行设置，对视频数据进行编码的具体实施方式可以参照现有技术，此处不再进行赘述。上述预设的频率可以由视频定位系统的运维人员预先在发送终端12中进行设置。预设协议可以由运维人员在发送终端12中设定。发送终端12的定位模块可以通过卫星定位、网络地址信息、基站信息或者三角定位算法，确定发送终端的初始位置。发送终端12的初始位置，具体可以为大地坐标系中的坐标值，也可以为地理信息系统(geographicinformation system，GIS)中的位置信息。

示例性的，编码后的视频数据具体可以为H264格式，也可以为H265格式，本公开提供的实施例在具体实施时不作限定。用于封装第一数据包的预设协议可以为用户数据报协议(user datagram protocol，UDP)。

需要说明的，上述UDP为实时通信(Real-time Communications，RTC)中的封装协议，用于进行数据的封装、传输。

进一步的，发送终端12采用上述预设协议的传输方式，向服务器11发送第一数据包。

相应的，服务器11采用上述预设协议的传输方式，接收发送终端12发送的第一数据包。

以下示出了发送终端12根据获取到的初始位置确定第一位置数据的两种具体示例：

在第一种情况下，发送终端12可以确定获取到的初始位置为与图像帧对应的第一位置数据。

在第二种情况下，发送终端12还可以采用第二编码方式，对获取得到的初始位置编码，以得到与图像帧对应的第一位置数据。

需要说明的，第二编码方式可以由运维人员预先在发送终端中预先设置。

示例性的，在采用第二编码方式对初始位置编码的情况下，发送终端可以将每一个图像帧对应的初始位置转换为对象简谱(java script object notation,JS)格式，并将转后得到的JS格式数据通过二进制流编码的方式，生成补充增强信息(SupplementalEnhancement Information，SEI)帧格式的第一位置数据。

需要说明的，在第一位置数据为SEI帧格式的情况下，发送终端12在封装第一数据包时，可以将SEI帧格式的第一位置数据设置于第一图像帧对应的关键帧之前。

其中，第一图像帧对应的关键帧，为在编码后的视频数据中，第一图像帧之前的第一个关键帧。

S202、服务器11解析第一数据包，获取初始位置。

在一些实施例中，服务器11采用上述预设协议解封装第一数据包，以获取编码后的视频数据以及多个第一位置数据。

进一步的，服务器11采用第一解码方式，解析编码后的视频数据，以得到第一图像帧。

需要说明的，第一解码方式与第一编码方式对应，可以由运维人员预先在服务器11中设定。

同时，服务器11从多个第一位置数据中确定第一图像帧对应的第一位置数据，并根据第一图像帧对应的第一位置数据确定第一图像帧对应的初始位置。

在上述第一种情况下，服务器11可以确定第一图像帧对应的第一位置数据为第一图像帧对应的初始位置。

在一些实施例中，在上述第一位置数据包括对第一图像帧对应的初始位置编码后的数据的情况下，为了能够获取第一图像帧对应的初始位置，如图3所示，本公开实施例中的S202，包括下述S2021-S2022。

S2021、服务器11解析第一数据包，以获取第一位置数据。

此步骤中解析第一数据包的具体实施方式可以参照本公开实施例S202中的描述，此处不再赘述。

S2022、服务器11对第一位置数据解码，以获取初始位置。

在一些实施例中，服务器11可以采用第二解码方式，对第一图像帧对应的第一位置数据解码，以得到第一图像帧对应的初始位置。

需要说明的，第二解码方式与第二编码方式对应，可以由运维人员预先在服务器11中设置。

S203、服务器11基于初始位置，从兴趣点数据库中确定多个候选兴趣点。

其中，候选兴趣点的位置与初始位置之间的距离小于或等于第一阈值。兴趣点数据库中包括多个兴趣点、多个兴趣点的位置以及多个兴趣点对应的多个特征点。多个特征点包括多个兴趣点中每一个兴趣对应的至少一个图像帧的特征点。

需要说明的，第一阈值可以由运维人员预先在服务器11中设置。

在一些实施例中，兴趣点数据库可以为信息点(point of information，POI)数据库，用于反映上述兴趣点(建筑物、景色、街道等)在地理信息系统中的各项信息(包括位置、图像帧的特征点、图像帧的拍摄角度、图像帧的位姿信息等)。一个兴趣点对应有一个位置、至少一个图像帧的特征点、至少一个图像帧的拍摄角度以及至少一个图像帧的位姿信息。

本公开实施例中，为了确定多个候选兴趣点，如图4所示，本公开实施例提供的S203具体包括下述S2031-S2034。

S2031、服务器11从兴趣点数据库中获取多个兴趣点中每个兴趣点的位置。

S2032、服务器11确定每个兴趣点的位置与初始位置之间的距离。

在一些实施例中，服务器11根据第一图像帧对应的初始位置与每个兴趣点的位置之间的距离。

S2033、服务器11基于多个距离存在小于或等于第一阈值，确定候选兴趣点。

在一些实施例中，服务器11基于确定到的多个距离，确定每个距离是否小于或等于第一阈值。进一步的，若确定到的多个距离中存在小于或等于第一阈值，则服务器11确定小于或等于第一阈值的距离对应的兴趣点为候选兴趣点。

S2034、服务器11基于多个距离大于第一阈值，确定视频定位失败。

在一些实施例中，服务器11基于确定到的多个距离，确定多个距离是否均大于第一阈值。进一步的，若确定得到的多个距离中每个距离均大于第一阈值，则服务器11确定视频定位失败。

可以理解的，确定到的多个距离中每个距离均大于第一阈值，则表明兴趣点数据库的多个兴趣点中不存在候选兴趣点，则服务器11进一步确定视频定位失败。

在一些实施例中，服务器11在确定视频定位失败之后，可以丢弃第一数据包。

在一些实施例中，服务器11在确定视频定位失败之后，还可以将第一图像帧对应的初始位置作为第一图像帧的目标位置，以进行后续的处理。

S204、服务器11基于第一图像帧与多个候选兴趣点之间的匹配结果，确定第一图像帧对应的目标位置。

在一些实施例中，服务器11确定多个候选兴趣点中每个候选兴趣点对应的至少一个图像帧，并基于第一图像帧与确定到的每个候选兴趣点对应的至少一个图像帧之间的匹配结果，确定第一图像帧对应的目标位置。

进一步的，本公开提供的技术方案还带来以下有益效果：服务器11利用RTC实时通信中的到第一数据包，能够节约视频定位的处理延时，确保实时定位的平滑性。

进一步的，本公开提供的技术方案还带来以下有益效果：服务器通过解封装、解码等方式，将第一位置数据进行解码，以能够得到任意一个图像帧对应的初始位置。

进一步的，本公开提供的技术方案还带来以下有益效果：服务器11能够从兴趣点数据库中确定得到多个候选兴趣点，缩小与第一图像帧匹配的范围，可以减少服务器的计算压力。

在一些实施例中，为了能够确定第一图像帧对应的目标位置，如图3所示，本公开实施例提供的S204，包括下述S2041-S2043。

S2041、服务器11获取第一图像帧的特征点。

在一些实施例中，服务器11从第一数据包中获取第一图像帧之后，对第一图像帧进行预设处理，以得到第一图像帧的特征点。

需要说明的，预设处理可以包括提取第一图像帧所包括的像素点，进行离散余弦变换(discrete cosine transform，DCT)转换等处理流程，此步骤的具体实施方式，可以参照现有技术，此处不再进行赘述。

S2042、服务器11从兴趣点数据库中获取多个候选兴趣点对应的多个特征点。

在一些实施例中，服务器11根据每个候选兴趣点的标识，从兴趣点数据库中获取多个候选兴趣点对应的多个特征点。

S2043、服务器11基于获取到的第一图像帧的特征点与多个候选兴趣点对应的多个特征点之间的相似度，确定第一图像帧对应的目标位置。

在一些实施例中，服务器11确定第一图像帧的特征点与多个候选兴趣点对应的多个特征点之间的相似度，并基于确定到的相似度，确定第一图像帧对应的目标位置。

此步骤的具体实施方式，可以参照本公开的下述描述，此处不再赘述。

本公开提供的技术方案至少带来以下有益效果：服务器利用兴趣点数据库中多个候选兴趣点中每个兴趣点对应的至少一个图像帧的特征点与第一图像帧的特征点之间的相似度，能够从兴趣点数据库所包括的多个兴趣点的位置中中确定第一图像帧对应的目标位置。

在一些实施例中，为了能够基于特征点之间的相似度，确定第一图像帧对应的目标位置，结合图3，如图5所示，本公开实施例提供的S2043，具体包括下述S301-S305。

S301、服务器11确定第一图像帧的特征点与多个候选特征点中每个候选特征点之间的相似度。

服务器11计算任意两个图像帧的特征点之间的相似度的实现方式，具体可以参照现有技术，此处不再进行赘述。

S302、服务器11从确定出的相似度中，确定数值最大的相似度为目标相似度。

在一些实施例中，服务器11在计算得到多个相似度之后，根据每一个相似度的数值大小，从多个相似度中确定目标相似度。

S303、服务器11判断目标相似度是否大于或等于第二阈值。

需要说明的，第二阈值可以由运维人员预先在服务器11中设置。

S304、服务器11在目标相似度大于或等于第二阈值的情况下，确定目标相似度对应的候选兴趣点的位置为第一图像帧对应的目标位置。

在一些实施例中，服务器11在确定目标相似度大于或等于第二阈值的情况下，确定目标相似度对应的目标特征点，并进一步的根据目标特征点，从兴趣点数据库中的多个候选兴趣点中确定目标特征点对应的目标兴趣点，并进一步的获取目标兴趣点的位置并确定目标兴趣点的位置为第一图像帧对应的目标位置。

S305、服务器11在目标相似度小于第二阈值的情况下，确定视频定位失败。

可以理解的，目标相似度小于第二阈值，表明在多个候选兴趣点对应的多个特征点中不存在与第一图像帧的特征点相似度较高的目标特征点，则服务器确定视频定位失败。

本公开提供的技术方案至少带来以下有益效果：服务器对计算到的相似度进一步的限定，能够保证第一图像帧的目标位置的准确性。

在一些实施例中，本公开实施例提供的兴趣点数据库还包括多个兴趣点对应的多个位姿信息，多个位姿信息包括多个兴趣点中每个兴趣点对应的至少一个图像帧的位姿信息。如图6所示，本公开实施例提供的视频定位方法，在上述S303之后，还包括下述S401-S402。

S401、服务器11在目标相似度大于或等于第二阈值的情况下，从兴趣点数据库中获取目标相似度对应的目标特征点以及目标特征点对应的位姿信息。

在一些实施例中，服务器11在确定目标特征点之后，获取目标特征点对应的图像帧的标识，并根据目标特征点对应的图像帧的标识，从兴趣点数据库中查询目标特征点对应的位姿信息。

S402、服务器11根据目标特征点、目标相似度对应的位姿信息以及第一图像帧的特征点，确定第一图像帧的位姿信息。

在一些实施例中，服务器11确定目标相似度对应的特征点与第一图像帧的特征点之间的比例关系，并利用上述比例关系，确定目标相似度对应的位姿信息与第一图像帧的位姿信息之间的比例关系。

进一步的，服务器11可以根据目标相似度对应的位姿信息，以及目标相似度对应的位姿信息与第一图像帧的位姿信息之间的比例关系，确定第一图像帧的位姿信息。

需要说明的，此步骤的具体实施方式，可以参照现有技术，此处不再进行赘述。

上述实施例提供的技术方案至少具有以下有益效果：服务器在确定每一个图像帧的目标位置之后，可以根据任意一个图像帧的目标位置，从兴趣点数据库中确定该任意一个图像帧对应的位姿信息。

在一些实施例中，本公开实施例提供的视频定位方法，还包括下述S501。

S501、服务器11根据第一图像帧的特征点、第一图像帧对应的目标位置以及第一图像帧的位姿信息，更新兴趣点数据库。

在一些实施例中，服务器11将第一图像帧、第一图像帧的特征点、第一图像帧的位姿信息，更新至目标兴趣点对应的至少一个图像帧中。

上述实施例提供的技术方案至少具有以下有益效果：服务器将每一个图像帧、每一个图像帧对应的特征点以及每一个图像帧的位姿信息，更新至兴趣点数据库中，能够保证兴趣点数据库中数据的及时性，以使得后续确定其他图像帧的目标位置以及位姿信息时，保证了确定结果的准确性。

在一些实施例中，本公开实施例提供的视频定位方法，在S204之后，还包括下述S601-S604。

S601、服务器11生成第二数据包。

其中，第二数据包包括编码后的视频数据以及第二位置数据，第二位置数据用于反映上述第一图像帧对应的目标位置。

在一些实施例中，服务器11利用上述第二编码方式，对第一图像帧对应的目标位置编码，以得到第一图像帧对应的第二位置数据。进一步的，服务器11利用预设协议，封装编码后的视频数据以及编码后的第二位置数据，以生成第二数据包。

在一些实施例中，服务器11还可以确定第一图像帧对应的目标位置为第一图像帧对应的第二位置数据，并利用预设协议，封装编码后的视频数据以及第二位置数据，以生成第二数据包。

S602、服务器11向接收终端13发送第二数据包。

需要说明的，服务器11与接收终端13之间的传输协议，与服务器11与发送终端12之间的传输协议相同。

相应的，接收终端13接收服务器11发送的第二数据包。

S603、接收终端13解析第二数据包，以获取编码后的视频数据以及第一图像帧对应的目标位置。

此步骤的具体实现方式，可以参照本公开实施例的上述描述，此处不再进行赘述。二者的不同之处在于执行主体不同。

S604、接收终端13在显示第一图像帧时，显示第一图像帧对应的目标位置。

上述实施例提供的技术方案至少具有以下有益效果：服务器11生成第二数据包并将第二数据包发送至接收终端13，能够通过编码、解码的方式(实时通信)使接收终端13快速确定任意一个图像帧的目标位置，并显示每一个图像帧的目标位置。

另外，本公开提供的一种视频定位装置，用于执行本公开实施例提供的视频定位方法，参照图7所示，该视频定位装置70包括获取单元701、解析单元702以及确定单元703。

获取单元701，用于获取第一数据包。第一数据包包括编码后的视频数据以及第一位置数据。视频数据包括第一图像帧，第一位置数据用于反映第一图像帧对应的初始位置。例如，如图2所示，获取单元701可以用于执行S201。

解析单元702，用于解析获取单元701获取到的第一数据包，获取初始位置。例如，如图3所示，解析单元702可以用于执行S202。

确定单元703，用于基于解析单元702获取到的初始位置，从兴趣点数据库中确定多个候选兴趣点。候选兴趣点的位置与初始位置之间的距离小于或等于第一阈值。例如，如图2所示，确定单元703可以用于执行S203。

确定单元703，还用于基于第一图像帧与多个候选兴趣点之间的匹配结果，确定第一图像帧对应的目标位置。例如，如图2所示，确定单元703可以用于执行S204。

在一些实施例中，如图7所示，本公开实施例提供的获取单元701，具体用于：

接收来自发送终端的第一数据包。第一数据包为发送终端根据视频数据以及视频数据中的图像帧对应的初始位置生成的。例如，如图3所示，获取单元701可以用于执行S2011。

在一些实施例中，如图7所示，本公开实施例提供的第一位置数据包括对第一图像帧对应的初始位置编码后的数据。解析单元702，具体用于：

解析第一数据包，以获取第一位置数据，并对第一位置数据解码，以获取初始位置。例如，如图3所示，解析单元702可以用于执行S2021-S2022。

在一些实施例中，本公开实施例提供的兴趣点数据库包括多个兴趣点、多个兴趣点的位置以及多个兴趣点对应的多个特征点，多个特征点包括多个兴趣点中每个兴趣点对应的至少一个图像帧的特征点。如图7所示，本公开实施例提供的确定单元703，具体用于：

从兴趣点数据库中获取多个兴趣点中每个兴趣点的位置，并确定每个兴趣点的位置与初始位置之间的距离。例如，如图4所示，确定单元703可以用于执行S2031-S2032。

基于多个距离存在小于或等于第一阈值，确定候选兴趣点。例如，如图4所示，确定单元703可以用于执行S2033。

基于多个距离大于第一阈值，确定视频定位失败。例如，如图4所示，确定单元703可以用于执行S2034。

在一些实施例中，如图7所示，本公开实施例提供的确定单元703，具体还用于：

获取第一图像帧的特征点，以及从兴趣点数据库中获取多个候选特征点。例如，如图3所示，确定单元703可以用于执行S2041。

基于获取到的第一图像帧的特征点与多个候选特征点之间的相似度，确定第一图像帧对应的目标位置。例如，如图3所示，确定单元703可以用于执行S2043。

确定第一图像帧的特征点与多个候选特征点中每个候选特征点之间的相似度。例如，如图5所示，确定单元703可以用于执行S301。

从确定出的相似度中，确定数值最大的相似度为目标相似度。例如，如图5所示，确定单元703可以用于执行S302。

在目标相似度大于或等于第二阈值的情况下，确定目标相似度对应的候选兴趣点的位置为第一图像帧对应的目标位置。例如，如图5所示，确定单元703可以用于执行S304。

在目标相似度小于第二阈值的情况下，确定视频定位失败。例如，如图5所示，确定单元703可以用于执行S305。

在一些实施例中，如图7所示，本公开实施例提供的兴趣点数据库还包括多个兴趣点对应的多个位姿信息，多个位姿信息包括多个兴趣点中每个兴趣点对应的至少一个图像帧的位姿信息。

获取单元701，还用于在目标相似度大于或等于第二阈值的情况下，从兴趣点数据库中获取目标相似度对应的目标特征点以及目标特征点对应的位姿信息。例如，如图6所示，确定单元703可以用于执行S401。

确定单元703，还用于根据目标特征点、获取单元701获取到的目标相似度对应的位姿信息以及第一图像帧的特征点，确定第一图像帧的位姿信息。例如，如图6所示，确定单元703可以用于执行S402。

在一些实施例中，如图7所示，本公开实施例提供的视频定位装置70还包括更新单元704。

更新单元704，用于根据第一图像帧的特征点、第一图像帧对应的目标位置以及第一图像帧的位姿信息，更新兴趣点数据库。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是本公开提供的一种服务器的结构示意图。如图8，该服务器80可以包括至少一个处理器801以及用于存储处理器可执行指令的存储器803。其中，处理器801被配置为执行存储器803中的指令，以实现上述实施例中的视频定位方法。

另外，服务器80还可以包括通信总线802以及至少一个通信接口804。

处理器801可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线802可包括一通路，在上述组件之间传送信息。

通信接口804，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器803可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器801相连接。存储器也可以和处理器801集成在一起。

其中，存储器803用于存储执行本公开方案的指令，并由处理器801来控制执行。处理器801用于执行存储器803中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器801可以包括一个或多个CPU，例如图8中的CPU0和CPU1。

在具体实现中，作为一种实施例，服务器80可以包括多个处理器，例如图8中的处理器801和处理器807。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，服务器80还可以包括输出设备805和输入设备806。输出设备805和处理器801通信，可以以多种方式来显示信息。例如，输出设备805可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备806和处理器801通信，可以以多种方式接受用户的输入。例如，输入设备806可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图8中示出的结构并不构成对服务器80的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

同时，本公开提供的发送终端以及接收终端的硬件的结构示意图也可参照上述图8中服务器80的描述，此处不再进行赘述。不同之处在于发送终端包括的处理器用于执行发送终端在上述实施例中执行的步骤，接收终端包括的处理器用于执行接收终端在上述实施例中执行的步骤。

另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的视频定位方法。

另外，本公开还提供一种计算机程序产品，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的视频定位方法。

另外，本公开还提供一种视频定位系统，包括服务器以及至少一个终端。其中，服务器用于执行上述服务器所执行的视频定位方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种视频定位方法，应用于服务器，其特征在于，所述方法应用于直播场景，所述方法包括：

获取第一数据包；所述第一数据包包括基于实时通信RTC编码后的视频数据以及第一位置数据；所述视频数据包括第一图像帧，所述第一位置数据用于反映所述第一图像帧对应的初始位置；在所述第一位置数据为补充增强信息SEI帧格式的情况下，所述第一位置数据设置于所述第一图像帧对应的关键帧之前，所述第一图像帧对应的关键帧为在编码后的视频数据中，所述第一图像帧之前的第一个关键帧；

基于所述RTC，解析所述第一数据包，获取所述初始位置；

基于所述初始位置，从兴趣点数据库中确定多个候选兴趣点；所述候选兴趣点的位置与所述初始位置之间的距离小于或等于第一阈值；

基于所述第一图像帧与所述多个候选兴趣点之间的匹配结果，确定所述第一图像帧对应的目标位置。

2.根据权利要求1所述的视频定位方法，其特征在于，所述获取第一数据包，包括：

接收来自发送终端的所述第一数据包；所述第一数据包为所述发送终端根据所述视频数据以及所述视频数据中的图像帧对应的初始位置生成的。

3.根据权利要求1所述的视频定位方法，其特征在于，所述第一位置数据包括对所述第一图像帧对应的初始位置编码后的数据；所述解析所述第一数据包，获取所述初始位置，包括：

解析所述第一数据包，以获取所述第一位置数据，并对所述第一位置数据解码，以获取所述初始位置。

4.根据权利要求1所述的视频定位方法，其特征在于，所述兴趣点数据库包括多个兴趣点、所述多个兴趣点的位置以及所述多个兴趣点对应的多个特征点，所述多个特征点包括所述多个兴趣点中每个兴趣点对应的至少一个图像帧的特征点；所述基于所述初始位置，从兴趣点数据库中确定多个候选兴趣点，包括：

从所述兴趣点数据库中获取所述多个兴趣点中每个兴趣点的位置，并确定所述每个兴趣点的位置与所述初始位置之间的距离；

基于多个所述距离存在小于或等于所述第一阈值，确定所述候选兴趣点；

基于多个所述距离大于所述第一阈值，确定视频定位失败。

5.根据权利要求4所述的视频定位方法，其特征在于，所述基于所述第一图像帧与所述多个候选兴趣点之间的匹配结果，确定所述第一图像帧对应的目标位置，包括：

获取所述第一图像帧的特征点，以及从所述兴趣点数据库中获取所述多个候选兴趣点对应的多个候选特征点；

基于获取到的所述第一图像帧的特征点与所述多个候选兴趣点对应的多个候选特征点之间的相似度，确定所述第一图像帧对应的目标位置。

6.根据权利要求5所述的视频定位方法，其特征在于，基于获取到的所述第一图像帧的特征点与所述多个候选特征点之间的相似度，确定所述第一图像帧对应的目标位置，包括：

确定所述第一图像帧的特征点与所述多个候选特征点中每个候选特征点之间的相似度；

从确定出的相似度中，确定数值最大的相似度为目标相似度；

在所述目标相似度大于或等于第二阈值的情况下，确定所述目标相似度对应的候选兴趣点的位置为所述第一图像帧对应的目标位置；

在所述目标相似度小于所述第二阈值的情况下，确定视频定位失败。

7.根据权利要求6所述的视频定位方法，其特征在于，所述兴趣点数据库还包括所述多个兴趣点对应的多个位姿信息，所述多个位姿信息包括所述多个兴趣点中每个兴趣点对应的至少一个图像帧的位姿信息；所述方法还包括：

在所述目标相似度大于或等于所述第二阈值的情况下，从所述兴趣点数据库中获取所述目标相似度对应的目标特征点以及所述目标特征点对应的位姿信息；

根据所述目标特征点、所述目标相似度对应的位姿信息以及所述第一图像帧的特征点，确定所述第一图像帧的位姿信息。

8.根据权利要求7所述的视频定位方法，其特征在于，所述方法还包括：

根据所述第一图像帧的特征点、所述第一图像帧对应的目标位置以及所述第一图像帧的位姿信息，更新所述兴趣点数据库。

9.一种视频定位装置，其特征在于，应用于直播场景，所述视频定位装置包括获取单元、解析单元以及确定单元；

所述获取单元，用于获取第一数据包；所述第一数据包包括基于实时通信RTC编码后的视频数据以及第一位置数据；所述视频数据包括第一图像帧，所述第一位置数据用于反映所述第一图像帧对应的初始位置；在所述第一位置数据为补充增强信息SEI帧格式的情况下，所述第一位置数据设置于所述第一图像帧对应的关键帧之前，所述第一图像帧对应的关键帧为在编码后的视频数据中，所述第一图像帧之前的第一个关键帧；

所述解析单元，用于基于所述RTC解析所述获取单元获取到的所述第一数据包，获取所述初始位置；

所述确定单元，用于基于所述解析单元获取到的所述初始位置，从兴趣点数据库中确定多个候选兴趣点；所述候选兴趣点的位置与所述初始位置之间的距离小于或等于第一阈值；

所述确定单元，还用于基于所述第一图像帧与所述多个候选兴趣点之间的匹配结果，确定所述第一图像帧对应的目标位置。

10.根据权利要求9所述的视频定位装置，其特征在于，所述获取单元，具体用于：

11.根据权利要求9所述的视频定位装置，其特征在于，所述第一位置数据包括对所述第一图像帧对应的初始位置编码后的数据；所述解析单元，具体用于：

12.根据权利要求9所述的视频定位装置，其特征在于，所述兴趣点数据库包括多个兴趣点、所述多个兴趣点的位置以及所述多个兴趣点对应的多个特征点，所述多个特征点包括所述多个兴趣点中每个兴趣点对应的至少一个图像帧的特征点；所述确定单元，具体用于：

基于多个所述距离大于所述第一阈值，确定视频定位失败。

13.根据权利要求12所述的视频定位装置，其特征在于，所述确定单元，具体还用于：

基于获取到的所述第一图像帧的特征点与所述多个候选特征点之间的相似度，确定所述第一图像帧对应的目标位置。

14.根据权利要求13所述的视频定位装置，其特征在于，所述确定单元，具体还用于：

在所述目标相似度小于所述第二阈值的情况下，确定所述初始位置为所述第一图像帧对应的目标位置；

15.根据权利要求14所述的视频定位装置，其特征在于，所述兴趣点数据库还包括所述多个兴趣点对应的多个位姿信息，所述多个位姿信息包括所述多个兴趣点中每个兴趣点对应的至少一个图像帧的位姿信息；

所述获取单元，还用于在所述目标相似度大于或等于所述第二阈值的情况下，从所述兴趣点数据库中获取所述目标相似度对应的目标特征点以及所述目标特征点对应的位姿信息；

所述确定单元，还用于根据所述目标特征点、所述获取单元获取到的所述目标相似度对应的位姿信息以及所述第一图像帧的特征点，确定所述第一图像帧的位姿信息。

16.根据权利要求15所述的视频定位装置，其特征在于，所述视频定位装置还包括更新单元；

所述更新单元，用于根据所述第一图像帧的特征点、所述第一图像帧对应的目标位置以及所述第一图像帧的位姿信息，更新所述兴趣点数据库。

17.一种服务器，其特征在于，包括：处理器、用于存储所述处理器可执行的指令的存储器；其中，所述处理器被配置为执行指令，以实现如权利要求1-8任一项所述的视频定位方法。

18.一种计算机可读存储介质，其特征在于，包括指令，当所述指令由处理器执行时，使得所述处理器执行如权利要求1-8中任一项所述的视频定位方法。

19.一种视频定位系统，其特征在于，包括服务器以及至少一个终端；其中，所述服务器用于执行如权利要求1-8中任一项所述的视频定位方法。