CN111860370A

CN111860370A - 语义标注方法、装置和系统

Info

Publication number: CN111860370A
Application number: CN202010724336.8A
Authority: CN
Inventors: 周晓巍; 赵洪城; 孙佳明; 黄子敬
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd; Zhejiang Sensetime Technology Development Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-30

Abstract

本说明书实施例提供一种语义标注方法、装置和系统，通过前端将三维场景的场景视频序列发送至服务器，由服务器进行场景重建，得到重建后的三维场景的描述信息，再由前端根据重建后的三维场景的描述信息在本地生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

Description

语义标注方法、装置和系统

技术领域

本公开涉及计算机视觉技术领域，尤其涉及语义标注方法、装置和系统。

背景技术

语义标注用于解决场景中的每个点属于哪个目标的问题，例如，对于室内场景，通过语义标注来确定场景中的每个点所属的类别为桌子、椅子、电脑等等。传统的语义标注方式在针对三维场景进行标注时，标注准确率较低。

发明内容

本公开提供一种语义标注方法、装置和系统。

根据本公开实施例的第一方面，提供一种语义标注方法，应用于服务器，所述方法包括：获取前端发送的三维场景的场景视频序列；根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息；将所述三维场景的描述信息发送至所述前端，以获取所述前端返回的所述三维场景的语义标注结果，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，所述场景视频序列中的每一帧图像包括所述三维场景的R通道图像、G通道图像、B通道图像和深度图像。

在一些实施例中，所述根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息，包括：根据所述场景视频序列对所述三维场景进行场景重建，得到所述三维场景对应的多个网格；分别获取所述多个网格中每个网格的描述信息，其中，所述三维场景的描述信息中包括所述每个网格的描述信息。

在一些实施例中，所述方法还包括：获取所述三维场景中每个点的语义标签；在得到所述三维场景对应的多个网格之后，根据所述多个网格中每个网格中各个点的语义标签，生成所述每个网格的语义标签；其中，每个网格包括所述三维场景中的至少一个点；将所述每个网格的语义标签发送至所述前端，以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。

在一些实施例中，所述方法还包括：在将所述三维场景的描述信息发送至所述前端之后，获取所述前端返回的所述语义标注结果；将所述语义标注结果投影到所述场景视频序列的每一帧图像上。

在一些实施例中，所述前端的数量为多个。

在一些实施例中，所述方法还包括：分别获取多个所述前端中每个前端的语义标注结果；根据所述每个前端的语义标注结果对应的场景，对所述每个前端的语义标注结果进行保存。

根据本公开实施例的第二方面，提供一种语义标注方法，应用于前端，所述方法包括：将三维场景的场景视频序列发送至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建；接收所述服务器进行场景重建后返回的所述三维场景的描述信息；根据所述三维场景的描述信息生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，重建后的所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息；所述三维场景的语义标注结果基于以下方式获取：根据所述多个网格中每个网格的描述信息，对所述多个网格进行聚合，得到至少一个聚合网格，所述至少一个聚合网格中的每个聚合网格对应所述三维场景中的一个对象；对所述至少一个聚合网格中的每个聚合网格进行语义标注，得到所述三维场景的语义标注结果。

在一些实施例中，所述方法还包括：对所述语义标注结果中至少一个第一语义标注结果进行隐藏；和/或对已被隐藏的至少一个第一语义标注结果进行显示。

在一些实施例中，所述对所述语义标注结果中至少一个第一语义标注结果进行隐藏，包括：生成所述至少一个第一语义标注结果中每个第一语义标注结果的一组切面，其中，一个第一语义标注结果的一组切面将该第一语义标注结果包裹在内；通过所述每个第一语义标注结果的一组切面，对所述每个第一语义标注结果进行隐藏。

在一些实施例中，所述对所述至少一个聚合网格中的每个聚合网格进行语义标注，包括：接收对所述至少一个聚合网格中的每个聚合网格的选择指令；根据所述每个聚合网格对应的选择指令，生成所述每个聚合网格的包围框，一个聚合网格的包围框中包括该聚合网格中的各个点，所述包围框为包围盒或者凸包；对所述每个聚合网格的包围框中的点进行语义标注。

在一些实施例中，所述根据所述三维场景的描述信息生成所述三维场景由第一线程执行；所述三维场景的语义标注结果由第二线程获取；其中，所述第一线程不同于所述第二线程。

在一些实施例中，所述前端为网页。

根据本公开实施例的第三方面，提供一种语义标注装置，应用于服务器，所述装置包括：第一获取模块，用于获取前端发送的三维场景的场景视频序列；重建模块，用于根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息；第一发送模块，用于将所述三维场景的描述信息发送至所述前端，以获取所述前端返回的所述三维场景的语义标注结果，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，所述第一发送模块包括：重建单元，用于根据所述场景视频序列对所述三维场景进行场景重建，得到所述三维场景对应的多个网格；获取单元，用于分别获取所述多个网格中每个网格的描述信息，其中，所述三维场景的描述信息中包括所述每个网格的描述信息。

在一些实施例中，所述装置还包括：第二获取模块，用于获取所述三维场景中每个点的语义标签；生成模块，用于在得到所述三维场景对应的多个网格之后，根据所述多个网格中每个网格中各个点的语义标签，生成所述每个网格的语义标签；其中，每个网格包括所述三维场景中的至少一个点；第三发送模块，用于将所述每个网格的语义标签发送至所述前端，以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。

在一些实施例中，所述装置还包括：第三获取模块，用于在将所述三维场景的描述信息发送至所述前端之后，获取所述前端返回的所述语义标注结果；投影模块，用于将所述语义标注结果投影到所述场景视频序列的每一帧图像上。

在一些实施例中，所述前端的数量为多个。

在一些实施例中，所述装置还包括：第四获取模块，用于分别获取多个所述前端中每个前端的语义标注结果；保存模块，用于根据所述每个前端的语义标注结果对应的场景，对所述每个前端的语义标注结果进行保存。

根据本公开实施例的第四方面，提供一种语义标注装置，应用于前端，所述装置包括：第二发送模块，用于将三维场景的场景视频序列发送至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建；接收模块，用于接收所述服务器返回的所述三维场景的描述信息；返回模块，用于根据所述三维场景的描述信息生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，重建后的所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息；所述返回模块包括：聚合单元，用于根据所述多个网格中每个网格的描述信息，对所述多个网格进行聚合，得到至少一个聚合网格，所述至少一个聚合网格中的每个聚合网格对应所述三维场景中的一个对象；标注单元，用于对所述至少一个聚合网格中的每个聚合网格进行语义标注，得到所述三维场景的语义标注结果。

在一些实施例中，所述装置还包括：隐藏模块，用于对所述语义标注结果中至少一个第一语义标注结果进行隐藏；和/或显示模块，用于对已被隐藏的至少一个第一语义标注结果进行显示。

在一些实施例中，所述隐藏模块包括：生成单元，用于生成所述至少一个第一语义标注结果中每个第一语义标注结果的一组切面，其中，一个第一语义标注结果的一组切面将该第一语义标注结果包裹在内；隐藏单元，用于通过所述每个第一语义标注结果的一组切面，对所述每个第一语义标注结果进行隐藏。

在一些实施例中，所述标注单元包括：接收子单元，用于接收对所述至少一个聚合网格中的每个聚合网格的选择指令；生成子单元，用于根据所述每个聚合网格对应的选择指令，生成所述每个聚合网格的包围框，一个聚合网格的包围框中包括该聚合网格中的各个点，所述包围框为包围盒或者凸包；标注子单元，用于对所述每个聚合网格的包围框中的点进行语义标注。

在一些实施例中，所述根据所述三维场景的描述信息在本地生成所述三维场景由第一线程执行；所述三维场景的语义标注结果由第二线程获取；其中，所述第一线程不同于所述第二线程。

在一些实施例中，所述前端为网页。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第六方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

根据本公开实施例的第七方面，提供一种语义标注系统，所述语义标注系统包括：至少一个前端；以及服务器；所述至少一个前端中的每个前端用于将三维场景的场景视频序列发送至所述至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建，接收所述服务器进行场景重建后返回的所述三维场景的描述信息，根据所述服务器返回的所述三维场景的描述信息，生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到；所述服务器用于根据至少一个前端中的每个前端发送的场景视频序列，对所述每个前端对应的三维场景进行场景重建，获取所述每个前端对应的三维场景的描述信息。

本公开实施例通过前端将三维场景的场景视频序列发送至服务器，由服务器进行场景重建，得到重建后的三维场景的描述信息，再由前端根据重建后的三维场景的描述信息在本地生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到，通过准确重建出三维场景，再基于重建后的三维场景的描述信息进行语义标注，从而提高了标注准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的语义标注方法的流程图。

图2是本公开实施例的服务器的处理流程示意图。

图3是本公开另一些实施例的语义标注方法的流程图。

图4是本公开实施例的标注界面的示意图。

图5A至图5C是本公开实施例的标注过程的示意图。

图6是本公开实施例的操作指南的示意图。

图7是本公开实施例的语义标注测装置的框图。

图8是本公开另一些实施例的语义标注测装置的框图。

图9是本公开实施例的计算机设备的示意图。

图10是本公开实施例的语义标注系统的示意图。

图11是本公开实施例的语义标注系统的交互图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

随着科技的发展，人工智能受到越来越广泛的应用。计算机视觉是人工智能中的一个重要环节，而对场景进行语义标注则对计算机视觉有着重要意义。语义标注用于解决场景中的每个点属于哪个目标的问题。目前，语义标注在地理信息系统、无人车驾驶、医疗影像分析、机器人等多个领域中有着广泛的需求和应用。例如，在地理信息系统领域，通过语义标注能够自动识别道路，河流，庄稼，建筑物等。在无人驾驶领域，通过语义标注能够使车辆自动避让行人和障碍物。在智能医疗领域，语义标注主要应用有肿瘤图像标注，龋齿诊断等。

然而，传统的语义标注方式大多是针对二维图像进行语义标注，缺乏对三维场景语义标注的支持。而实际生产和生活中对三维语义标注的数据集又有着不小的需求。

基于此，本公开实施例提供一种语义标注方法，应用于服务器，如图1所示，所述方法可包括：

步骤101：获取前端发送的三维场景的场景视频序列；

步骤102：根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息；

步骤103：将所述三维场景的描述信息发送至所述前端，以获取所述前端返回的所述三维场景的语义标注结果，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在步骤101中，基于所述场景视频序列，可以获取所述三维场景中各个点的颜色信息和位置信息。在一些实施例中，所述场景视频序列中的每一帧图像包括所述三维场景的R通道图像、G通道图像、B通道图像和深度图像。其中，所述R通道图像、G通道图像和B通道图像用于确定所述三维场景中各个点的颜色信息，所述深度图像用于确定所述三维场景中各个点的位置信息。

在步骤102中，可以根据所述场景视频序列确定所述三维场景中各个点的颜色信息和位置信息，从而对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息。具体来说，可以根据所述场景视频序列对所述三维场景进行场景重建，得到所述三维场景对应的多个网格；分别获取所述多个网格中每个网格的描述信息，其中，所述三维场景的描述信息中包括所述每个网格的描述信息。其中，对所述三维场景进行场景重建，可以得到整个三维场景的多个场景网格，然后，可以对每个场景网格进行预标注，得到所述三维场景对应的多个网格。每个场景网格可以预标注为一个或多个网格，通过这种方式，可以提高标注准确性。

所述每个网格的描述信息中可以包括构成所述每个网格的点的位置信息、颜色信息，还可以包括构成所述每个网格的点的法向量信息和纹理信息中的至少一者。服务器可以根据上述描述信息生成一个json文件，所述json文件中可包括多个数组，每个数组用于表示一个网格的描述信息，所述数组中的不同元素分别表示所述位置信息、颜色信息、法向量信息和纹理信息。在标注平面(例如为地面、天花板等)，通过采用所述法向量信息，有助于确定平面的朝向；通过采用纹理信息，可以使场景呈现更多的细节，从而使场景更加真实，有助于对场景进行语义标注。在实际应用中，所述描述信息中还可以根据实际需要包括其他信息，此处不再赘述。

在步骤103中，可以将所述三维场景的描述信息发送至所述前端，由前端基于所述三维场景的描述信息自动对所述三维场景执行语义标注，得到所述三维场景的语义标注结果，也可以由用户在前端基于所述三维场景的描述信息对所述三维场景进行语义标注，得到所述三维场景的语义标注结果。如果步骤102中获取的是每个网格的描述信息，则本步骤中可以将所述每个网格的描述信息发送至前端。前端可以根据所述描述信息，在本地生成所述三维场景。

在一些实施例中，为了使标注结果更加准确，服务器还可以获取所述三维场景中每个点的语义标签，所述每个点的语义标签用于对所述每个点的语义进行预测；在得到所述三维场景对应的多个网格之后，根据所述多个网格中每个网格中各个点的语义标签，生成所述每个网格的语义标签；将所述每个网格的语义标签发送至所述前端，以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。所述校正结果可以由前端自动对所述语义标注结果进行校正得到，也可以由用户在所述前端对所述语义标注结果执行校正操作得到。

其中，所述语义标签可以携带在所述描述信息中，与所述描述信息一同发送至前端，也可以先发送描述信息，再发送语义标签。在一些实施例中，服务器可以将重建后的所述三维场景输入预先训练的神经网络，获取所述神经网络输出的所述三维场景中每个点的语义标签。通过神经网络输出所述三维场景中每个点的语义标签，能够获得较高的准确性。

前端在得到所述语义标注结果之后，可以将所述语义标注结果返回至服务器。服务器可以对所述语义标注结果进行保存，以便在前端对未标注完成的三维场景继续进行语义标注。所述语义标注结果中可以包括所述三维场景中已标注的对象，以及所述三维场景中未标注的对象。

进一步地，前端还可以从服务器导出最近一次标注的结果。具体来说，服务器可以接收多个所述前端中第一前端发送的导出指令；响应于所述导出指令，将已保存的所述第一前端的语义标注结果发送至所述第一前端进行显示。第一前端在导出所述最近一次标注的结果之后，可以对最近一次标注的结果进行继续标注。

在一些实施例中，服务器还可以将所述三维场景的语义标注结果投影到二维平面上。具体来说，服务器还可以在将所述三维场景的描述信息发送至所述前端之后，获取所述前端返回的所述语义标注结果；将所述语义标注结果投影到所述场景视频序列的每一帧图像上，从而得到在二维平面上的标注结果。在投影时，可以根据采集所述场景视频序列的图像采集装置的内参和外参，确定所述图像采集装置的单应性矩阵，然后根据所述单应性矩阵对所述语义标注结果进行投影。

在实际应用中，上述前端可以是网页。传统的标注工具大多是客户端软件，需要用户在部署节点上配置相关环境，使用成本比较高。本公开实施例采用基于网页的标注工具，使得标注工具更加便捷，并且支持多人在线标注，可以提高标注速度。

在一些实施例中，所述前端的数量可以是多个。具体来说，服务器可以分别获取多个前端发送的三维场景的场景视频序列，根据每个前端发送的场景视频序列，对所述每个前端的三维场景进行场景重建，得到每个前端的重建后的三维场景的描述信息。然后，将每个前端对应的描述信息发送给所述每个前端，以在所述每个前端得到所述每个前端的三维场景的语义标注结果。

举例来说，假设前端的数量为2，则服务器可以获取前端1发送的场景视频序列1，根据所述场景视频序列1对所述前端1的三维场景1进行场景重建，得到三维场景1的描述信息，将所述三维场景1的描述信息发送至所述前端1，以在所述前端1生成所述三维场景1的语义标注结果，其中，所述三维场景1的语义标注结果根据所述三维场景1的描述信息生成。同理，服务器还可以获取前端2发送的场景视频序列2，然后按照同样的方式得到所述前端2的三维场景2的描述信息，以在所述前端2生成所述三维场景2的语义标注结果。上述例子仅为示例性说明，在实际应用中，前端的数量不限于此，前端数量大于2时的标注方式与上述例子类似，此处不再赘述。

在前端数量为多个的情况下，不同的前端可以同时对同一场景进行语义标注，也可以对不同场景进行语义标注。例如，前端1和前端2可以同时对三维场景1进行语义标注，同一时间，前端3可以对三维场景2进行语义标注。每个前端可以分别将各自的语义标注结果发送至服务器，每个前端返回的语义标注结果中可以携带所述前端的标识信息，用于服务器确定各个对各个三维场景进行语义标注的分别是哪个前端。在前端数量为多个的情况下，服务器可以根据每个前端的标识信息向每个前端返回已保存的标注结果，以使前端导出标注结果，并继续对场景进行语义标注。

在一些实施例中，服务器还可以将一个前端的标注结果返回给对同一场景进行语义标注的另一个前端，以使所述另一个前端刷新标注结果。具体来说，服务器可以接收多个所述前端中第一前端发送的刷新指令；响应于所述刷新指令，获取多个所述前端中至少一个第二前端的已保存的第二语义标注结果；将所述至少一个第二前端的第二语义标注结果发送至所述第一前端，以使所述第一前端根据所述第二语义标注结果，对本地显示的第一语义结果进行刷新。其中，所述第一前端和第二前端所标注的为同一三维场景。在一些实施例中，每个前端返回的语义标注结果中可以携带所述前端所标注的三维场景的标识信息，用于服务器确定各个前端所标注的场景。服务器在接收到第一前端的刷新指令的情况下，可以根据各个三维场景的标识信息，确定已保存的语义标注结果中，与所述第一前端标注同一场景的第二前端的第二语义标注结果。

如图2所示，是本公开实施例的服务器的具体处理流程的示意图。在本实施例中，首先服务器获取RGB-D视频序列，即，每帧图像中均包括R通道图像、G通道图像、B通道图像和深度图像的视频序列，根据RGB-D视频序列进行场景重建，然后对重建的场景进行场景预标注，得到多个网格及其描述信息。该描述信息可以输出至数据库(例如，MongoDB数据库)进行存储，以供前端导出并在前端生成语义标注结果。

如图3所示，本公开实施例还提供一种语义标注方法，应用于前端，所述方法可包括：

步骤301：将三维场景的场景视频序列发送至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建；

步骤302：接收所述服务器进行场景重建后返回的所述三维场景的描述信息；

步骤303：根据所述三维场景的描述信息生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息，例如，包括构成每个网格的点的位置信息和颜色信息；又例如，还可以包括构成每个网格的点的法向量信息和纹理信息。前端可以根据所述多个网格中每个网格的描述信息，对所述多个网格进行聚合，得到至少一个聚合网格，所述至少一个聚合网格中的每个聚合网格对应所述三维场景中的一个对象；对所述至少一个聚合网格中的每个聚合网格进行语义标注，得到所述三维场景的语义标注结果。例如，网格1至网格5对应的对象均为桌子，网格6至网格10对应的对象均为椅子，则将网格1至网格5合并为一个聚合网格，将网格6至网格10合并成另一个聚合网格。

通过对聚合网格上色的方式，使同样颜色的聚合网格形成一个对象(例如，人、动物或者物品)的语义标注。在语义标注过程中，可以产生每个物体的与三维坐标轴平行的三维框，用当前标注的聚合网格对应的三维框来快速对选中的聚合网格进行上色。

在一些实施例中，所述方法还包括：对所述语义标注结果中至少一个第一语义标注结果进行隐藏。通过隐藏已标注的语义标注结果，能够减少已标注的语义标注结果对未标注的网格的遮挡，有助于确认未标注的网格的边缘细节。具体来说，可以生成所述至少一个第一语义标注结果中每个第一语义标注结果的一组切面；通过所述每个第一语义标注结果的一组切面，对所述每个第一语义标注结果进行隐藏。切面是没有颜色的，在场景中不显示，它的作用是遮挡住这面背后的所有物体，只显示切面前方的物体。其中，一个第一语义标注结果的一组切面将该第一语义标注结果包裹在内，例如，可以在一个第一语义标注结果的前、后、左、右、上、下各生成一个切面，上述六个切面构成一个长方体，将所述第一语义标注结果包裹在内。长方体外部的物体被隐藏，只有内部可见。使用切面来隐藏当前不想看到的内容，能够减少一些遮挡的情况。

在一些实施例中，所述方法还包括：对已被隐藏的至少一个第一语义标注结果进行显示。通过对被隐藏的至少一个第一语义标注结果进行显示，有助于对标注的总体情况进行观察和修改。

在标注时，前端还可以通过计算聚合网格的凸包或包围盒，自动对凸包或包围盒内的网格进行语义标注，以加快标注速度。具体来说，前端可以接收对所述至少一个聚合网格中的每个聚合网格的选择指令；根据所述每个聚合网格对应的选择指令，生成所述每个聚合网格的包围框；对所述每个聚合网格的包围框中的点进行语义标注。其中，一个聚合网格的包围框中包括该聚合网格中的各个点，所述包围框为包围盒或者凸包。

包围盒是用来近似地代替复杂的几何对象，比该几何对象体积稍大且特性简单的几何体。凸包即用于近似一个几何对象的轮廓的凸多边形。在不同的情况下，可以灵活地选择采用包围盒或者凸包来进行语义标注。凸包比包围盒更加紧密，所形成的包围空间更加接近于包围对象的形状。一般来说，在被标注对象于其他物体相邻较近时，为了避免将其他物体错误地标注，可以使用凸包；而在被标注物体相对比较独立的时候，可以使用包围盒。在实际应用中，除了根据被标注对象之间的距离来选择采用包围盒或者凸包，还可以根据其他条件来选择，此处不再赘述。

在一些实施例中，还可以记录标注过程中的操作历史，使得用户在操作不当时能够及时撤销或者重做。具体来说，可以对标注过程中每次操作的操作结果进行缓存，并在接收到用户发送的撤销指令的情况下，调用上一次缓存的操作结果并显示。

本公开实施例的前端的基本界面如图4所示，包括类别栏、操作子界面、菜单栏和选项栏。类别栏用于管理标注的类别信息，例如，可以添加或删除标注对象的类别，以及设置标注对象的标签等。操作子界面包括三维场景模型，所述三维场景模型中包括多个网格，在该界面进行操作，可以生成聚合网格，以及对聚合网格进行语义标注。菜单栏包括用于保存标注结果的“保存”选项、用于导出标注结果的“提交”选项、用于查看操作指南的“帮助”选项，以及用于查看上一任务或者下一任务的选项等。选项栏用于设置标注过程中用到的参数，例如，背景颜色、包围盒形状等。上述界面仅为示例性说明，并非用于限制本公开，除了以上各个部分之外，根据实际需要，前端的界面上还可以包括其他部分，例如，切换显示语言为中文或者英文等，此处不再赘述。

在进行语义标注时，用户可以在上述类别栏中选择则标注的类别，然后选中操作子界面上的聚合网格，即可对选中的聚合网格进行语义标注。选中的方式可以是鼠标点击的输入方式，或者鼠标点击与快捷键的组合输入方式等，例如，可以按住Ctrl并点击操作子界面上的聚合网格来对其进行语义标注。进一步地，还可以对已标注的聚合网格取消标注。例如，可以按住Shift+Ctrl再点击已标注的聚合网格来对其取消标注。

如图5A所示，选中标注对象后，前端可以自动生成该对象的包围盒或者凸包。进一步地，还可以选择包围盒形状以获取不同的包围大小，从而改变标注的范围。如图5B所示，标注后的对象被填充了某种颜色，该颜色可以是预先指定的，也可以是随机选择的。如图5C所示，在对其他对象进行语义标注时，可以隐藏已标注对象，仅显示待标注对象，从而避免已标注对象对未标注对象的遮挡，也能使操作界面看起来更加简洁。

为了提高标注效率，可以预先设置快捷键来对应标注过程中的各种操作。如图6所示，可以调用操作指南以获取各种操作对应的快捷键。例如，按G键可以自动对凸包或者包围盒内的网格进行语义标注，按M键可以变换标注场景，按C键可以隐藏或者显示选中的已标注对象，按X键可以隐藏或者显示所有已标注对象，按ENTER键可以取消选择等。

在一些实施例中，所述根据所述三维场景的描述信息在本地生成所述三维场景由第一线程执行；所述三维场景的语义标注结果由第二线程获取；其中，所述第一线程不同于所述第二线程。使用不同的线程进行场景加载和语义标注结果获取，能够防止加载大型场景时页面发生卡顿甚至崩溃，使加载过程更加流畅。

本公开实施例的前端可以是网页。传统的标注工具大多是客户端软件，本公开实施例采用基于网页的标注工具，带来了跨平台的极大便利性，无需安装即可使用，并且支持多人在线标注。

本公开实施例具有以下优点：

(1)解决了传统的语义标注工具仅能对二维图像进行语义标注的缺陷，实现了对三维场景的语义标注，且标注准确性较高。

(2)基于网页开发，不依赖于平台和安装环境，拥有很好的便捷性，免去了安装成本。并且该工具能够支持多人在线标注，并在退出前保存标注进度。

(3)有很好的拓展能力，能够方便地根据需要来增加相应的功能。

(4)可以根据用户的选择计算一个标签内所有物体的凸包或者包围盒，然后自动将凸包或者包围盒内所有的物体标记上相同的标签，提高了易用性和标注速度。

(5)能够通过隐藏已标注的物体来检查标注是否完整，解决了场景复杂时视线遮挡的问题。

(6)使用多线程渐进式加载场景，防止加载大型场景时页面发生卡顿甚至崩溃，使加载过程更加流畅，提高了用户体验。

(7)添加了多语言支持，以及比较详细的操作指南，使操作更简单，不懂原理的用户也可以方便地使用。

(8)能够记录操作历史，使用户在操作不当时可以轻松地回退或者重做之前的操作。

(9)该标注工具代码结构清晰，具有很强的扩展性，方便添加新的功能。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图7所示，本公开还提供一种装置，所述装置包括：

第一获取模块701，用于获取前端发送的三维场景的场景视频序列；

重建模块702，用于根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息；

第一发送模块703，用于将所述三维场景的描述信息发送至所述前端，以获取所述前端返回的所述三维场景的语义标注结果，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，所述前端的数量为多个。

如图8所示，本公开还提供一种装置，所述装置包括：

第二发送模块801，用于将三维场景的场景视频序列发送至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建；

接收模块802，用于接收所述服务器返回的所述三维场景的描述信息；

返回模块803，用于根据所述三维场景的描述信息生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

在一些实施例中，所述前端为网页。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应地，本公开实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

图9示出了本说明书实施例所提供的一种更为具体的计算机设备硬件结构示意图，该设备可以包括：处理器901、存储器902、输入/输出接口903、通信接口904和总线905。其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

处理器901可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器902可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行。

输入/输出接口903用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口904用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线905包括一通路，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器901、存储器902、输入/输出接口903、通信接口904以及总线905，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开实施例还提供一种语义标注系统，如图10所示，所述语义标注系统可包括：

至少一个前端1001；以及服务器1002；

所述至少一个前端1001中的每个前端用于将三维场景的场景视频序列发送至所述至服务器1002，以使所述服务器1002根据所述场景视频序列对所述三维场景进行场景重建，接收所述服务器1002进行场景重建后返回的所述三维场景的描述信息，根据所述服务器1002返回的所述三维场景的描述信息，生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器1002，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到；

所述服务器1002用于根据至少一个前端1001中的每个前端发送的场景视频序列，对所述每个前端对应的三维场景进行场景重建，获取所述每个前端对应的重建后的三维场景的描述信息。

图中示出了前端数量为n的情况，其中，n为正整数。例如，n可以是1，也可以是2或者2以上的整数。本公开实施例中的每个前端均可以是网页。通过基于网页设计，能够满足多用户同时在线操作，提高了标注效率。

由于每个前端1001与服务器1002的交互方式类似，参见图11，此处仅以其中一个前端为例，对二者的交互方式进行说明。

在步骤1101中，前端1001向服务器1002发送视频序列。

在步骤1102中，服务器1002根据视频序列进行场景重建，得到场景中多个网格的描述信息。

在步骤1103中，服务器1002将所述描述信息发送至前端1001。

在步骤1104中，前端1001根据所述描述信息对所述多个网格进行网格聚合，得到每个对象对应的聚合网格。

在步骤1105中，前端1001自动对每个聚合网格进行语义标注，或者由用户在前端对每个聚合网格进行语义标注，每个聚合网格可标注成不同的颜色。

在步骤1106中，前端1001将语义标注结果返回给服务器1002。

在步骤1107中，服务器1002对前端1001返回的语义标注结果进行保存。

本公开实施例中前端1001的具体实施例详见前述应用于前端的方法实施例，本公开实施例中服务器1002的具体实施例详见前述应用于服务器的方法实施例，此处不再赘述。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种语义标注方法，其特征在于，应用于服务器，所述方法包括：

获取前端发送的三维场景的场景视频序列；

根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息；

将所述三维场景的描述信息发送至所述前端，以获取所述前端返回的所述三维场景的语义标注结果，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

2.根据权利要求1所述的方法，其特征在于，所述场景视频序列中的每一帧图像包括所述三维场景的R通道图像、G通道图像、B通道图像和深度图像。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息，包括：

根据所述场景视频序列对所述三维场景进行场景重建，得到所述三维场景对应的多个网格；

分别获取所述多个网格中每个网格的描述信息，其中，所述三维场景的描述信息中包括所述每个网格的描述信息。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述三维场景中每个点的语义标签；

在得到所述三维场景对应的多个网格之后，根据所述多个网格中每个网格中各个点的语义标签，生成所述每个网格的语义标签；其中，每个网格包括所述三维场景中的至少一个点；

将所述每个网格的语义标签发送至所述前端，以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

在将所述三维场景的描述信息发送至所述前端之后，获取所述前端返回的所述语义标注结果；

将所述语义标注结果投影到所述场景视频序列的每一帧图像上。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述前端的数量为多个；所述方法还包括：

分别获取多个所述前端中每个前端的语义标注结果；

根据所述每个前端的语义标注结果对应的场景，对所述每个前端的语义标注结果进行保存。

7.一种语义标注方法，其特征在于，应用于前端，所述方法包括：

将三维场景的场景视频序列发送至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建；

接收所述服务器进行场景重建后返回的所述三维场景的描述信息；

根据所述三维场景的描述信息生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

8.根据权利要求7所述的方法，其特征在于，所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息；

所述三维场景的语义标注结果基于以下方式获取：

根据所述多个网格中每个网格的描述信息，对所述多个网格进行聚合，得到至少一个聚合网格，所述至少一个聚合网格中的每个聚合网格对应所述三维场景中的一个对象；

对所述至少一个聚合网格中的每个聚合网格进行语义标注，得到所述三维场景的语义标注结果。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

对所述语义标注结果中至少一个第一语义标注结果进行隐藏；和/或

对已被隐藏的至少一个第一语义标注结果进行显示。

10.根据权利要求9所述的方法，其特征在于，所述对所述语义标注结果中至少一个第一语义标注结果进行隐藏，包括：

生成所述至少一个第一语义标注结果中每个第一语义标注结果的一组切面，其中，一个第一语义标注结果的一组切面将该第一语义标注结果包裹在内；

通过所述每个第一语义标注结果的一组切面，对所述每个第一语义标注结果进行隐藏。

11.根据权利要求8至10任意一项所述的方法，其特征在于，所述对所述至少一个聚合网格中的每个聚合网格进行语义标注，包括：

接收对所述至少一个聚合网格中的每个聚合网格的选择指令；

根据所述每个聚合网格对应的选择指令，生成所述每个聚合网格的包围框，一个聚合网格的包围框中包括该聚合网格中的各个点，所述包围框为包围盒或者凸包；

对所述每个聚合网格的包围框中的点进行语义标注。

12.根据权利要求7至11任意一项所述的方法，其特征在于，所述根据所述三维场景的描述信息生成所述三维场景由第一线程执行；

所述三维场景的语义标注结果由第二线程获取；

其中，所述第一线程不同于所述第二线程。

13.根据权利要求7至12任意一项所述的方法，其特征在于，所述前端为网页。

14.一种语义标注装置，其特征在于，应用于服务器，所述装置包括：

第一获取模块，用于获取前端发送的三维场景的场景视频序列；

重建模块，用于根据所述场景视频序列对所述三维场景进行场景重建，得到重建后的所述三维场景的描述信息；

第一发送模块，用于将所述三维场景的描述信息发送至所述前端，以获取所述前端返回的所述三维场景的语义标注结果，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

15.一种语义标注装置，其特征在于，应用于前端，所述装置包括：

第二发送模块，用于将三维场景的场景视频序列发送至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建；

接收模块，用于接收所述服务器进行场景重建后返回的所述三维场景的描述信息；

返回模块，用于根据所述三维场景的描述信息生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至13任意一项所述的方法。

17.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至13任意一项所述的方法。

18.一种语义标注系统，其特征在于，所述语义标注系统包括：

至少一个前端；以及服务器；

所述至少一个前端中的每个前端用于将三维场景的场景视频序列发送至所述至服务器，以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建，接收所述服务器进行场景重建后返回的所述三维场景的描述信息，根据所述服务器返回的所述三维场景的描述信息，生成所述三维场景，并将所述三维场景的语义标注结果返回至所述服务器，其中，所述三维场景的语义标注结果基于所述三维场景的描述信息得到；

所述服务器用于根据至少一个前端中的每个前端发送的场景视频序列，对所述每个前端对应的三维场景进行场景重建，获取所述每个前端对应的三维场景的描述信息。