CN112417208A

CN112417208A - 目标搜索方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN112417208A
Application number: CN202011312237.5A
Authority: CN
Inventors: 张柳清; 李国洪; 高菲; 余永佳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20
Also published as: CN112417208B

Abstract

根据本公开的示例实施例，提供了一种目标搜索方法、装置、电子设备和计算机可读存储介质，可以用于视觉搜索领域中。目标搜索方法包括：确定视频流中的搜索目标；基于视频流，确定搜索目标在三维坐标系中的三维坐标集合；确定与搜索目标相关联的搜索结果；以及基于三维坐标集合，在视频流中与搜索目标相关联地显示搜索结果。利用上述方法，可以实现搜索结果紧贴搜索目标表面、搜索结果呈现“近大远小”的效果。此外，搜索结果可以拥有固定的物理方向朝向，从而使得当视频采集设备移动时，搜索结果的物理朝向不随着视频采集设备的移动而发生改变。同时，可以通过移动来查看被遮挡的其它搜索结果。

Description

目标搜索方法、装置、电子设备和计算机可读存储介质

技术领域

本公开涉及计算机技术，并且更具体地，涉及目标搜索方法、装置、电子设备和计算机可读存储介质，可以应用于视觉搜索领域中。

背景技术

视觉搜索是一种以图像、视频等视觉内容作为搜索输入源，利用视觉识别相关技术，将输入的视觉内容识别检索，并返回相关图像、文字等多种形态结果的技术。随着视觉识别技术的不断发展，越来越多的用户在移动终端上通过视觉搜索技术，来满足感知周边物体的搜索需求。目前市场上的以帮助用户感知周边世界的视觉搜索产品中，大多数以云端单帧图像搜索为主，这类视觉搜索形态包括以下几个关键环节：用户手动点击拍照，软件将图像上传云端，云端将结果返回告知用户。如果搜索结果不满足用户需求，用户还需再次重新操作，此类搜索产品存在用户操作次数多、连续搜索效率低等问题。目前市场上也提供实时视觉搜索的装置和方法，该装置将图像搜索升级为视频搜索，可以支持对实时视频流中的多个目标进行连续搜索识别。

发明内容

根据本公开的实施例，提供了一种目标搜索方法、装置、电子设备和计算机可读存储介质。

在本公开的第一方面中，提供了一种目标搜索方法，包括确定视频流中的搜索目标；基于视频流，确定搜索目标在三维坐标系中的三维坐标集合；确定与搜索目标相关联的搜索结果；以及基于三维坐标集合，在视频流中与搜索目标相关联地显示搜索结果。

在本公开的第二方面中，提供了一种目标搜索装置，包括：搜索目标确定模块，被配置为确定视频流中的搜索目标；三维坐标集合确定模块，被配置为基于视频流，确定搜索目标在三维坐标系中的三维坐标集合；搜索结果确定模块，被配置为确定与搜索目标相关联的搜索结果；以及显示模块，被配置为基于三维坐标集合，在视频流中与搜索目标相关联地显示搜索结果。

在本公开的第三方面中，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第一方面的方法。

利用根据本申请的技术，可以实现搜索结果紧贴搜索目标表面、搜索结果呈现“近大远小”的效果，并且搜索结果可以拥有固定的物理方向朝向，从而使得当视频采集设备移动时，搜索结果的物理朝向不随着视频采集设备的移动而发生改变。此外，本公开实施例的技术方案可以支持通过移动视频采集设备来查看被搜索目标或者搜索结果遮挡的其它搜索结果。因此，本公开实施例的技术方案可以提升用户对搜索目标的实时交互效率，从而可以提高用户体验。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在本公开示例性实施例中，相同的参考标号通常代表相同部件。应当理解，附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了可以在其中实现本公开的某些实施例中的目标搜索方法的目标搜索环境100的示意性框图；

图2示出了根据本公开实施例的目标搜索方法200的流程图；

图3示出了根据本公开实施例的视频流显示示例300的示意性框图；

图4示出了根据本公开实施例的视频流显示示例400的示意性框图；

图5示出了根据本公开的实施例的目标搜索装置500的示意性框图；以及

图6示出了根据本公开实施例的电子设备600的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上在背景技术中所描述的，目前市场上可以提供一些云端单帧图像搜索和实时视觉搜索的技术。然而，现有的实时视觉搜索技术仍然存在一些不足，其原因在于，在实时视觉搜索中，有三个环节较为关键：目标检测、目标跟踪以及搜索结果显示。在现有的实时视觉搜索技术中，采用深度学习来实现的对目标的二维检测以及对视觉目标的二维跟踪技术不具备探测目标距离用户相机的距离的功能，因此在搜索显示环节中，仅能将目标结果进行二维化，并且贴合在搜索目标上显示。因此，当搜索结果贴合在屏幕上的搜索目标上时，用户会体验到搜索结果“悬浮”在搜索目标上，其中贴合不够真实和自然。此外，由于贴合时无法知晓搜索目标距离用户的距离，因此当用户拍摄的画面内同时有多个搜索结果时，无法根据搜索目标的远近来对搜索结果进行侧重排序和显示。再者，不同距离的搜索结果拼叠在一起，也会降低了用户在使用视觉搜索时的用户体验。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种目标搜索方案。这种方案通过将针对搜索目标的搜索混合现实(MR)化，来实现对搜索目标在视频流中的深度的实时感知，从而达到将搜索结果三维化呈现目的。

混合现实技术是指在虚拟世界、现实世界和用户之间搭起一个交互反馈信息的桥梁，从而增强用户体验的真实感。混合现实技术的关键点在于与现实世界进行交互和信息的及时获取，因此它的实现需要在一个能与现实世界各事物相互交互的环境中。

本公开的实施例提出的目标搜索方案主要通过从获取采集的视频流中的搜索目标与该视频流的采集位置之间的距离出发来实现，该视频流的采集位置也可以是采集该视频流的视频采集设备的位置。根据本公开的实施例，视频流的采集位置可以是指采集视频流的视频采集设备的位置，该视频采集设备可以例如是移动电话、个人数字助理、相机等设备。视频流中的搜索目标与该视频流的采集位置之间的距离在本公开中也可以被称为搜索目标在视频流中的深度。

图1示出了可以在其中实现本公开的某些实施例中的目标搜索方法的目标搜索环境100的示意性框图，目标搜索环境100可以是云环境。如图1中所示，目标搜索环境100包括计算设备110、视频采集对象120、视频采集设备130以及搜索数据库140。在目标搜索环境100中，由视频采集设备130针对视频采集对象120进行视频采集121。计算设备110可以分别与视频采集设备130以及搜索数据库140进行数据传输131以及数据传输141。

应当理解，目标搜索环境100仅仅是示例性而不是限制性的，并且其是可扩展的，其中可以包括更多的计算设备110、更多的视频采集对象120、更多的视频采集设备130以及更多的搜索数据库140，从而使得可以满足更多用户同时利用更多的视频采集设备130和更多的计算设备110、针对更多的视频采集对象120来进行目标搜索的需求。

根据本公开的实施例，在目标搜索环境100中，视频采集121是以视频流的形式被视频采集设备130所采集到，视频采集设备130可以包括移动电话、个人数字助理、相机等设备。在数据传输131中，视频采集设备130可以向计算设备110发送未经处理或经初步处理的视频流，对视频流的初步处理可以包括对视频流进行编码以使得可以更容易或经济地传输视频流。

计算设备110可以在由视频采集设备130发送的视频流中确定搜索目标，并且可以基于视频流来确定搜索目标在三维坐标系中的三维坐标集合。根据本公开的一些实施例，前述三维坐标系可以将视频流的采集位置作为三维坐标系的原点。根据本公开的另一些实施例，前述三维坐标系可以将确定的搜索目标中在视频流中的深度最大或者最小的搜索目标作为三维坐标系的原点。根据本公开的又一些实施例，前述三维坐标系可以将视频流范围中或者范围外的空间中的任一点作为三维坐标系的原点。

当计算设备110在由视频采集设备130发送的视频流中确定了搜索目标之后，计算设备110可以在数据传输141中向搜索数据库140传输针对搜索目标的搜索请求。搜索数据库140可以在数据传输141中向计算设备110传输回搜索结果。根据本公开的实施例，搜索结果可以包括图片、文本、视频、以及图文混排卡片等形式。

而后，在数据传输131中，计算设备110可以向视频采集设备130发送添加了搜索结果的视频流，也可以向视频采集设备130发送搜索结果以及应当在视频流中添加搜索结果的位置。

在图1中所示的目标搜索环境100中，数据传输131以及数据传输141可以通过网络来进行。根据本公开的一些实施例，计算设备110和搜索数据库140可以被整合在一起，作为具有独立数据搜索能力的计算设备，此时在目标搜索环境100中可以不包括数据传输141。根据本公开的另一些实施例，计算设备110和视频采集设备130可以被整合在一起，作为具有视频采集能力的计算设备，此时在目标搜索环境100中可以不包括数据传输131。根据本公开的又一些实施例，计算设备110、视频采集设备130和140可以被整合在一起，作为具有独立数据搜索能力和视频采集能力的计算设备，此时在目标搜索环境100中可以不包括数据传输131和数据传输141。

图2示出了根据本公开的实施例的目标搜索方法200的流程图。具体而言，目标搜索方法200可以由图1中所示的目标搜索环境100中的计算设备110来执行。应当理解的是，目标搜索方法200还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框202，计算设备110确定视频流中的搜索目标。根据本公开的实施例，视频流可以是由视频采集设备130针对视频采集对象所采集、并且发送给计算设备110的视频流，也可以是由具有视频采集能力的计算设备110采集的视频流，还可以是计算设备110通过例如网络传输或者存储介质传输等任何其他方式获得的视频流。

图3示出了根据本公开实施例的视频流显示示例300的示意性框图。应当理解，视频流显示示例300可以仅表示视频流中的一帧图像。如图3中所示，视频流显示示例300中包括三个对象、分别是冰箱310、桌子320以及闹钟330。根据本公开的一些实施例，计算设备110可以将冰箱310、桌子320以及闹钟330均确定为搜索目标。根据本公开的另一些实施例，计算设备110也可以将没有任何遮挡的冰箱310和闹钟330确定为搜索目标。

在框204，计算设备110确定搜索目标在三维坐标系中的三维坐标集合。根据本公开的实施例，计算设备110可以使用同步定位与地图构建(Simultaneous localizationand mapping，SLAM)系统，来确定搜索目标在三维坐标系中的三维坐标集合。

如图3中所示，在视频流显示示例300中，冰箱310是距离视频流的采集位置最接近的搜索目标，桌子320是距离视频流的采集位置稍远的搜索目标，闹钟330在桌子320上。在这一示例实施例中，由于桌子320相对于闹钟330所占的空间较大，因此桌子320与视频流的采集位置的最近的距离，例如最近端，小于闹钟330与视频流的采集位置的最近的距离，并且桌子320与视频流的采集位置的最远的距离，例如最远端，大于闹钟330与视频流的采集位置的最远的距离，因此既可以按照桌子320与视频流的采集位置的最近的距离来认为桌子320相对于闹钟330而言距离视频流的采集位置更近，也可以按照桌子320与视频流的采集位置的最远的距离来认为桌子320相对于闹钟330而言距离视频流的采集位置更远。此外，也可以按照桌子320和闹钟330的中心点位置来确定桌子320和闹钟330距离视频流的采集位置的远近。在这一示例实施例中，以认为桌子320相对于闹钟330而言距离视频流的采集位置更近为例进行描述。

根据本公开的实施例，三维坐标系可以将视频流的采集位置作为原点，可以将确定的搜索目标中在视频流中的深度最大或者最小的搜索目标作为原点，也可以将视频流范围中或者范围外的空间中的任一点作为原点。无论采取哪种方式，可以理解由于冰箱310、桌子320以及闹钟330在视频流中的深度不同，因此它们所具有的三维坐标集合均是不同的。

在框206，计算设备110确定与在框204所确定的搜索目标相关联的搜索结果。根据本公开的实施例，计算设备110可以利用搜索数据库140来进行搜索，以确定与搜索目标相关联的搜索结果。此外，如果计算设备110具有独立数据搜索能力，则计算设备110也可以直接确定与搜索目标相关联的搜索结果。计算设备110在框206所确定的搜索结果可以包括图片、文本、视频、以及图文混排卡片等形式。

在框208，计算设备110基于搜索目标在三维坐标系中的三维坐标集合，在视频流中与搜索目标相关联地显示搜索结果。根据本公开的实施例，在视频流中与搜索目标相关联地显示搜索结果可以包括在视频流中，按照搜索目标在视频流中的深度，在搜索目标上显示搜索结果。此外，计算设备110在视频流中与搜索目标相关联地显示搜索结果可以包括由计算设备110向视频采集设备130发送添加了搜索结果的视频流以供视频采集设备130显示，可以包括由计算设备110向视频采集设备130发送搜索结果以及应当在视频流中添加搜索结果的位置以供视频采集设备在视频流中的适当位置添加搜索结果以用于显示，也可以包括由具有视频显示能力的计算设备110自己显示添加了搜索结果的视频流。

根据本公开的实施例，计算设备110可以将搜索结果转换成用户界面组件，并且通过基于搜索目标在三维坐标系中的三维坐标集合，在视频流中与搜索目标相关联地显示转换成用户界面组件来显示搜索结果。在这一实施例中，用户界面组件可以包括图片组件、文本组件、视频组件、以及图文混排卡片组件等各种组件中的任一种。

图4示出了根据本公开实施例的视频流显示示例400的示意性框图。如图4中所示，在视频流中的冰箱310、桌子320以及闹钟330的表面上分别显示有搜索结果411、搜索结果421和搜索结果431。搜索结果411是针对冰箱310的搜索结果，搜索结果421是针对桌子320的搜索结果，并且搜索结果431是针对闹钟330的搜索结果。根据本公开的实施例，搜索结果411、搜索结果421和搜索结果431可以是透明的或者不透明的。

在视频流显示示例400中，由于冰箱310、桌子320以及闹钟330在视频流中具有不同的深度，因此搜索结果411、搜索结果421和搜索结果431在视频流中同样具有不同的深度，并且搜索结果411、搜索结果421和搜索结果431在视频流中具有的深度分别与冰箱310、桌子320以及闹钟330在视频流中具有的深度对应，从而使得搜索结果411、搜索结果421和搜索结果431以紧密贴合在冰箱310、桌子320以及闹钟330上的形式被显示。

如图4中所示，在视频流显示示例400中，分别包括冰箱310、桌子320以及闹钟330等多个搜索目标，并且包括搜索结果411、搜索结果421和搜索结果431等多个搜索结果，冰箱310、桌子320以及闹钟330分别与各自的三维坐标集合以及搜索结果411、搜索结果421和搜索结果431中的一个搜索结果相关联。在这种情况中，可以通过默认设置来确定要显示相关联的搜索结果的搜索目标的数目。

根据本公开的实施例，计算设备110可以基于视频流，确定视频流的采集位置在三维坐标系中的三维坐标。而后，计算设备110可以确定与多个搜索目标相关联的多个三维坐标集合与视频流的采集位置在三维坐标系中的三维坐标之间的多个距离。随后，计算设备110可以按照多个距离从小到大的顺序，来确定预定数目的三维坐标集合。例如，如果三维坐标集合的预定数目为两个，则计算设备可以确定在视频流中深度最小和次小的冰箱310以及桌子320的三维坐标集合，而并不考虑在视频流中深度最大的闹钟330的三维坐标集合。而后，计算设备110可以在包括冰箱310、桌子320以及闹钟330的搜索结果中，确定冰箱310以及桌子320作为要显示搜索结果的搜索目标。而后，计算设备110基于确定的与冰箱310以及桌子320相关联的三维坐标集合，在视频流中与冰箱310以及桌子320相关联地显示与它们相关联的搜索结果，而不显示与闹钟330相关联的搜索结果。

根据本公开的一些实施例，在框204中确定的搜索目标在三维坐标系中的三维坐标集合还可以与搜索目标的尺寸相关联。在这些实施例中，在显示搜索结果时，计算设备110可以基于三维坐标集合，在视频流中与搜索目标的尺寸相关联地显示搜索结果。例如，参见图4，在视频流显示示例400中，与冰箱310相关联的三维坐标集合可以指示冰箱310的尺寸，例如长、宽和高。此时，计算设备110可以基于冰箱310的尺寸来显示搜索结果。如图4中所示，由于冰箱310相对于桌子320和闹钟330而言尺寸更大，计算设备110可以将与冰箱310相关联的搜索结果411相对于与桌子320和闹钟330相关联的搜索结果421和搜索结果431而言显示的更大，并且可以控制搜索结果411的尺寸不超过冰箱310的尺寸范围，从而不仅可以更清晰地显示搜索结果411，也可以避免搜索结果411遮挡其他搜索结果或者其他搜索目标。

根据本公开的另一些实施例，在框204中确定的搜索目标在三维坐标系中的三维坐标集合还可以与搜索目标的形状相关联。在这些实施例中，在显示搜索结果时，计算设备110可以基于三维坐标集合，在视频流中与搜索目标的形状相关联地显示搜索结果。例如，参见图4，在视频流显示示例400中，与闹钟330相关联的三维坐标集合可以指示闹钟330的形状，例如圆形。此时，计算设备110可以基于闹钟330的形状来显示搜索结果。如图4中所示，由于闹钟330的形状是圆形，因此计算设备110可以将与闹钟330相关联的搜索结果431显示为圆形，从而不仅可以更直观和清晰地通过显示搜索结果431来体现搜索目标闹钟330的形状，也可以避免搜索结果431遮挡其他搜索结果或者其他搜索目标。

根据本公开的又一些实施例，在框204中确定的搜索目标在三维坐标系中的三维坐标集合还可以与搜索目标相对于视频流的采集位置的角度相关联。在这些实施例中，在显示搜索结果时，计算设备110可以基于三维坐标集合，在视频流中与搜索目标相对于视频流的采集位置的角度相关联地显示搜索结果。例如，参见图4，在视频流显示示例400中，与桌子320相关联的三维坐标集合可以指示桌子320相对于视频流的采集位置的角度，例如桌子320的桌面并不是正对着视频采集设备，而是与视频采集设备成一定角度。此时，计算设备110可以基于桌子320相对于视频流的采集位置的角度来显示搜索结果。如图4中所示，由于桌子320相对于视频流的采集位置的角度使得桌子320的桌面与视频采集设备成一定角度，因此计算设备110可以将与桌子320相关联的搜索结果421呈现为与桌面与视频采集设备所成的角度相同的角度，从而不仅可以更直观和清晰地通过显示搜索结果421来体现搜索目标桌子320相对于视频流的采集位置的角度，也可以避免搜索结果421遮挡其他搜索结果或者其他搜索目标。

应当理解，由于视频采集设备可以移动，因此随着视频采集设备的移动，视频流中的各个搜索目标与视频采集设备之间的距离、在视频流中的大小、形状和相对于视频流的采集位置的角度均可能发生变化。根据本公开的实施例，由于计算设备110可以基于搜索目标在三维坐标系中的三维坐标集合，在视频流中持续地与搜索目标相关联地显示搜索结果，因此计算设备110可以不断调整根据在视频流中的深度要显示哪些搜索结果，所显示的搜索结果的尺寸、形状以及角度等。

目标搜索方法200还包括在图2中以虚线框的形式示出的可选框208。在可选框208，计算设备110响应于搜索目标移出视频流的图像显示范围，继续相对于视频流而记录搜索目标在三维坐标系中的三维坐标集合。

根据本公开的实施例，由于视频采集设备可以移动，因此有可能导致之前持续拍摄到的搜索目标被移除视频流的图像显示范围。此时，由于计算设备110已经获取了搜索目标在三维坐标系中的三维坐标集合，因此尽管视频采集设备没有继续直接拍摄到搜索目标，计算设备110也可以通过视频流所拍摄到的持续视频的变化来确定搜索目标在三维坐标系中的三维坐标集合。因此，计算设备可以继续相对于视频流而记录搜索目标在三维坐标系中的三维坐标集合，从而使得当搜索目标移回视频流的图像显示范围时，可以直接基于记录的三维坐标集合来相对于搜索目标来显示与搜索目标相关联的搜索结果。

由于计算设备110即使在搜索目标移出视频流的图像显示范围时，也可以继续相对于视频流而记录搜索目标在三维坐标系中的三维坐标集合，因此即使在视频流中的搜索目标由于移动而导致与其相关联的搜索结果被其他搜索目标或者与其他搜索目标相关联的搜索结果遮挡时，也可以容易地通过移动视频采集设备绕过导致遮挡的搜索目标或者变换观察角度来使得可以同时观察多个搜索目标来避免此类遮挡。

以下以一个具体示例来进一步详细描述目标搜索方法200。

在这一具体示例中，对于iOS平台，计算设备110可以在ARKit组件内实现同步定位与地图构建系统；对于Android平台，计算设备110可以在ARCore组件内实现系统，因此计算设备110可直接使用相应平台中的ARKit组件或者ARCore组件。此时，计算设备110可以首先将ARKit组件或者ARCore组件初始化，并且将通过视频流所检测到的搜索目标的二维图像位置结果作为ARKit组件或者ARCore组件的输入，而后通过对应的hitTest组件或者hitResult组件来获取该搜索目标在三维坐标系中的三维坐标集合。

而后，计算设备110可以利用ARKit组件或者ARCore组件来持续跟踪和更新与该搜索目标相关联的三维坐标集合，并且可以输出与该搜索目标相关联的三维坐标集合。

接着，计算设备110可以根据搜索结果、与该搜索目标相关联的三维坐标集合以及该搜索目标在视频流中的深度等进行排序，并且取预定数目的搜索结果以用于显示。

最后，计算设备110可以将上述搜索结果渲染成用户界面组件，将与该搜索目标相关联的三维坐标集合投影到视频流中的二维坐标以用于显示。当同时显示多个搜索目标时，所显示的与多个搜索目标相关联的多个用户界面组件的大小可以与多个搜索目标在视频流中的深度成反比，搜索目标在视频流中的深度值越小，相关联的用户界面组件就可以越大。

因此，通过执行与框202、框204、框206、框208和框210对应的步骤，可以提升用户对搜索目标的实时交互效率，从而可以提高用户体验。

以上参考图1至图4描述了可以在其中实现本公开的某些实施例中的目标搜索方法的目标搜索环境100以及根据本公开的实施例的目标搜索方法200的相关内容。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施方式的正常实施产生影响。

上文已经参见图1至图4描述了根据本公开的实施方式的目标搜索方法200的细节。在下文中，将参见图5描述目标搜索装置中的各个模块。

图5是根据本公开实施例的目标搜索装置500的示意性框图。如图5所示，目标搜索装置500可以包括：搜索目标确定模块510，被配置为确定视频流中的搜索目标；三维坐标集合确定模块520，被配置为基于所述视频流，确定所述搜索目标在三维坐标系中的三维坐标集合；搜索结果确定模块530，被配置为确定与所述搜索目标相关联的搜索结果；以及显示模块540，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标相关联地显示所述搜索结果。

在某些实施例中，其中所述三维坐标集合确定模块520包括：第一三维坐标集合确定模块(未示出)，被配置为使用同步定位与地图构建系统，确定所述搜索目标的所述三维坐标集合。

在某些实施例中，其中所述搜索目标包括多个搜索目标，所述三维坐标集合包括分别与所述多个搜索目标相关联的多个三维坐标集合，所述搜索结果包括分别与所述多个搜索目标和所述多个三维坐标集合相关联的多个搜索结果，所述目标搜索装置500还包括：三维坐标确定模块(未示出)，被配置为基于所述视频流，确定所述视频流的采集位置在所述三维坐标系中的三维坐标；距离确定模块(未示出)，被配置为确定所述多个三维坐标集合与所述三维坐标之间的多个距离；第二三维坐标集合确定模块(未示出)，被配置为按照所述多个距离从小到大的顺序，确定预定数目的三维坐标集合；以及第一搜索目标确定模块(未示出)，被配置为在所述多个搜索结果中，确定与所述预定数目的三维坐标集合相关联的所述预定数目的搜索目标。

在某些实施例中，其中所述显示模块540包括：第一显示模块(未示出)，被配置为基于所述预定数目的三维坐标集合，在所述视频流中与所述预定数目的搜索目标相关联地显示与所述预定数目的搜索目标相关联的所述预定数目的搜索结果。

在某些实施例中，所述目标搜索装置500还包括：搜索结果转换模块(未示出)，被配置为将所述搜索结果转换成用户界面组件；并且所述显示模块540包括：第二显示模块(未示出)，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标相关联地显示所述用户界面组件。

在某些实施例中，其中所述用户界面组件包括以下至少一项：图片；文本；视频；以及图文混排卡片。

在某些实施例中，其中所述三维坐标集合与所述搜索目标的尺寸相关联，并且其中所述显示模块540包括：第三显示模块(未示出)，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标的所述尺寸相关联地显示所述搜索结果。

在某些实施例中，其中所述三维坐标集合与所述搜索目标的形状相关联，并且其中所述显示模块540包括：第四显示模块(未示出)，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标的所述形状相关联地显示所述搜索结果。

在某些实施例中，其中所述三维坐标集合与所述搜索目标相对于所述视频流的所述采集位置的角度相关联，并且其中所述显示模块540包括：第五显示模块(未示出)，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标相对于所述视频流的所述采集位置的所述角度相关联地显示所述搜索结果。

在某些实施例中，所述目标搜索装置500还包括可选的三维坐标集合记录模块550(在图5中用虚线框示出)，被配置为响应于所述搜索目标移出所述视频流的图像显示范围，继续相对于所述视频流而记录所述搜索目标在所述三维坐标系中的所述三维坐标集合。

根据本公开的实施例，本公开还提供了一种电子设备和一种计算机可读存储介质。

通过以上参考图1至图5的描述，根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如，利用上述技术方案，可以实现搜索结果紧贴搜索目标表面、搜索结果呈现“近大远小”的效果，并且搜索结果可以拥有固定的物理方向朝向，从而使得当视频采集设备移动时，搜索结果的物理朝向不随着视频采集设备的移动而发生改变。此外，利用上述技术方案，可以支持通过移动视频采集设备来查看被搜索目标或者搜索结果遮挡的其它搜索结果。因此，利用上述技术方案可以提升用户对搜索目标的实时交互效率，从而可以提高用户体验。

图6示出了根据本公开实施例的电子设备600的示意性框图。例如，如图1所示的计算设备110和如图5所示的目标搜索装置500可以由电子设备600来实施。电子设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备600还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，该电子设备600包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备600内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备600，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的目标搜索方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的目标搜索方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的目标搜索方法对应的程序指令/模块(例如，图5所示的搜索目标确定模块510、三维坐标集合确定模块520、搜索结果确定模块530、显示模块540以及三维坐标集合记录模块550)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标搜索方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备600的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至电子设备600。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备600还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与电子设备600的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也被称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本公开实施例的技术方案，通过将针对搜索目标的搜索混合现实化，来实现对搜索目标在视频流中的深度的实时感知，从而达到将搜索结果三维化呈现目的。因此，本公开实施例的技术方案可以实现搜索结果紧贴搜索目标表面、搜索结果呈现“近大远小”的效果，并且搜索结果可以拥有固定的物理方向朝向，从而使得当视频采集设备移动时，搜索结果的物理朝向不随着视频采集设备的移动而发生改变。此外，本公开实施例的技术方案可以支持通过移动视频采集设备来查看被搜索目标或者搜索结果遮挡的其它搜索结果。因此，本公开实施例的技术方案可以提升用户对搜索目标的实时交互效率，从而可以提高用户体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标搜索方法，包括：

确定视频流中的搜索目标；

基于所述视频流，确定所述搜索目标在三维坐标系中的三维坐标集合；

确定与所述搜索目标相关联的搜索结果；以及

基于所述三维坐标集合，在所述视频流中与所述搜索目标相关联地显示所述搜索结果。

2.根据权利要求1所述的方法，其中确定所述搜索目标在三维坐标系中的三维坐标集合包括：

使用同步定位与地图构建系统，确定所述搜索目标的所述三维坐标集合。

3.根据权利要求1所述的方法，其中所述搜索目标包括多个搜索目标，所述三维坐标集合包括分别与所述多个搜索目标相关联的多个三维坐标集合，所述搜索结果包括分别与所述多个搜索目标和所述多个三维坐标集合相关联的多个搜索结果，所述方法还包括：

基于所述视频流，确定所述视频流的采集位置在所述三维坐标系中的三维坐标；

确定所述多个三维坐标集合与所述三维坐标之间的多个距离；

按照所述多个距离从小到大的顺序，确定预定数目的三维坐标集合；以及

在所述多个搜索结果中，确定与所述预定数目的三维坐标集合相关联的所述预定数目的搜索目标。

4.根据权利要求3所述的方法，其中显示所述搜索结果包括：

基于所述预定数目的三维坐标集合，在所述视频流中与所述预定数目的搜索目标相关联地显示与所述预定数目的搜索目标相关联的所述预定数目的搜索结果。

5.根据权利要求1所述的方法，还包括：

将所述搜索结果转换成用户界面组件；并且

显示所述搜索结果包括：

基于所述三维坐标集合，在所述视频流中与所述搜索目标相关联地显示所述用户界面组件。

6.根据权利要求5所述的方法，其中所述用户界面组件包括以下至少一项：

图片；

文本；

视频；以及

图文混排卡片。

7.根据权利要求1所述的方法，其中所述三维坐标集合与所述搜索目标的尺寸相关联，并且其中显示所述搜索结果包括：

基于所述三维坐标集合，在所述视频流中与所述搜索目标的所述尺寸相关联地显示所述搜索结果。

8.根据权利要求1所述的方法，其中所述三维坐标集合与所述搜索目标的形状相关联，并且其中显示所述搜索结果包括：

基于所述三维坐标集合，在所述视频流中与所述搜索目标的所述形状相关联地显示所述搜索结果。

9.根据权利要求1所述的方法，其中所述三维坐标集合与所述搜索目标相对于所述视频流的所述采集位置的角度相关联，并且其中显示所述搜索结果包括：

基于所述三维坐标集合，在所述视频流中与所述搜索目标相对于所述视频流的所述采集位置的所述角度相关联地显示所述搜索结果。

10.根据权利要求1所述的方法，还包括：

响应于所述搜索目标移出所述视频流的图像显示范围，继续相对于所述视频流而记录所述搜索目标在所述三维坐标系中的所述三维坐标集合。

11.一种目标搜索装置，包括：

搜索目标确定模块，被配置为确定视频流中的搜索目标；

三维坐标集合确定模块，被配置为基于所述视频流，确定所述搜索目标在三维坐标系中的三维坐标集合；

搜索结果确定模块，被配置为确定与所述搜索目标相关联的搜索结果；以及

显示模块，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标相关联地显示所述搜索结果。

12.根据权利要求11所述的装置，其中所述三维坐标集合确定模块包括：

第一三维坐标集合确定模块，被配置为使用同步定位与地图构建系统，确定所述搜索目标的所述三维坐标集合。

13.根据权利要求11所述的装置，其中所述搜索目标包括多个搜索目标，所述三维坐标集合包括分别与所述多个搜索目标相关联的多个三维坐标集合，所述搜索结果包括分别与所述多个搜索目标和所述多个三维坐标集合相关联的多个搜索结果，所述装置还包括：

三维坐标确定模块，被配置为基于所述视频流，确定所述视频流的采集位置在所述三维坐标系中的三维坐标；

距离确定模块，被配置为确定所述多个三维坐标集合与所述三维坐标之间的多个距离；

第二三维坐标集合确定模块，被配置为按照所述多个距离从小到大的顺序，确定预定数目的三维坐标集合；以及

第一搜索目标确定模块，被配置为在所述多个搜索结果中，确定与所述预定数目的三维坐标集合相关联的所述预定数目的搜索目标。

14.根据权利要求13所述的装置，其中所述显示模块包括：

第一显示模块，被配置为基于所述预定数目的三维坐标集合，在所述视频流中与所述预定数目的搜索目标相关联地显示与所述预定数目的搜索目标相关联的所述预定数目的搜索结果。

15.根据权利要求11所述的装置，还包括：

搜索结果转换模块，被配置为将所述搜索结果转换成用户界面组件；并且

所述显示模块包括：

第二显示模块，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标相关联地显示所述用户界面组件。

16.根据权利要求15所述的装置，其中所述用户界面组件包括以下至少一项：

图片；

文本；

视频；以及

图文混排卡片。

17.根据权利要求11所述的装置，其中所述三维坐标集合与所述搜索目标的尺寸相关联，并且其中所述显示模块包括：

第三显示模块，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标的所述尺寸相关联地显示所述搜索结果。

18.根据权利要求11所述的装置，其中所述三维坐标集合与所述搜索目标的形状相关联，并且其中所述显示模块包括：

第四显示模块，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标的所述形状相关联地显示所述搜索结果。

19.根据权利要求11所述的装置，其中所述三维坐标集合与所述搜索目标相对于所述视频流的所述采集位置的角度相关联，并且其中所述显示模块包括：

第五显示模块，被配置为基于所述三维坐标集合，在所述视频流中与所述搜索目标相对于所述视频流的所述采集位置的所述角度相关联地显示所述搜索结果。

20.根据权利要求11所述的装置，还包括：

三维坐标集合记录模块，被配置为响应于所述搜索目标移出所述视频流的图像显示范围，继续相对于所述视频流而记录所述搜索目标在所述三维坐标系中的所述三维坐标集合。

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。