CN115810062A

CN115810062A - 场景图生成方法、装置及设备

Info

Publication number: CN115810062A
Application number: CN202211679890.4A
Authority: CN
Inventors: 龙宇星; 惠彬原; 黄非; 王小捷; 李永彬
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-17

Abstract

本申请提供一种场景图生成方法、装置及设备。本申请的方法，通过获取场景图像的内容描述文本，从所述内容描述文本中抽取出所述场景图像中的物体的视觉属性和物体间的方位关系；构建所述物体对应的图节点，将所述物体的视觉属性存储为对应图节点的属性信息；根据所述物体间的方位关系，构建所述物体对应图节点间表示方位关系的边，得到所述场景图像的场景图，通过文本抽取的方式获取场景图像中物体的视觉属性及方位关系，可以大大缩减物体及物体间关系信息抽取所耗费的计算资源和时间，从而大大提高了场景图像的场景图的生成效率。

Description

场景图生成方法、装置及设备

技术领域

本申请涉及计算机技术，尤其涉及一种场景图生成方法、装置及设备。

背景技术

场景图作为一种安排场景内对象的数据结构，将图像信息抽象为语义关系清晰明确的图结构。在图文匹配和多模态对话等一系列任务中，用场景图替代原始场景图像可以缩小多模态输入之间的差异，进而将多模态任务简化为图推断任务。这样一方面减轻了多模态信息融合的计算消耗便于轻量化部署，另一方面通过排除噪声信息提升了模型性能。

目前获取场景图像的场景图的方法，主要是人工标注和利用物体关系检测网络从场景图像中识别物体信息。其中人工标注耗时费力，成本高且效率低，而利用物体关系检测网络，需要先检测场景图像中的物体，然后对物体间的关系进行多分类预测，需要耗费大量计算资源、效率低。

发明内容

本申请提供一种场景图生成方法、装置及设备，用以解决场景图生成效率低的问题。

第一方面，本申请提供一种场景图生成方法，包括：

获取待展示的场景图像的内容描述文本；

从所述内容描述文本中抽取出所述场景图像中的物体的视觉属性和物体间的方位关系；

构建所述物体对应的图节点，将所述物体的视觉属性存储为对应图节点的属性信息；

根据所述物体间的方位关系，构建所述物体对应图节点间表示方位关系的边，得到所述场景图像的场景图。

第二方面，本申请提供一种场景图生成方法，包括：

获取待展示的虚拟现实购物场景对应的历史对话文本；

从所述历史对话文本中，抽取出所述虚拟现实购物场景中的商品物体和背景物体的视觉属性，以及物体间的方位关系；

分别构建所述商品物体和背景物体对应的图节点，并在所述图节点的属性信息中存储对应物体的视觉属性；

根据任意两个物体间的方位关系，构建任意两个物体对应图节点间表示方位关系的边，得到所述虚拟现实购物场景的场景图。

第三方面，本申请提供一种场景图生成装置，包括：

场景描述获取模块，用于获取待展示的场景图像的内容描述文本；

第一场景信息抽取模块，用于从所述内容描述文本中抽取出所述场景图像中的物体的视觉属性和物体间的方位关系；

第一场景图构建模块，用于构建所述物体对应的图节点，将所述物体的视觉属性存储为对应图节点的属性信息；根据所述物体间的方位关系，构建所述物体对应图节点间表示方位关系的边，得到所述场景图像的场景图。

第四方面，本申请提供一种场景图生成装置，包括：

场景相关对话历史获取模块，用于获取待展示的虚拟现实购物场景对应的历史对话文本；

第二场景信息抽取模块，用于从所述历史对话文本中，抽取出所述虚拟现实购物场景中的商品物体和背景物体的视觉属性，以及物体间的方位关系；

第二场景图构建模块，用于分别构建所述商品物体和背景物体对应的图节点，并在所述图节点的属性信息中存储对应物体的视觉属性；根据任意两个物体间的方位关系，构建任意两个物体对应图节点间表示方位关系的边，得到所述虚拟现实购物场景的场景图。

第五方面，本申请提供一种服务器，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现上述第一方面或第二方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述第一方面或第二方面所述的方法。

本申请提供的场景图生成方法、装置及设备，通过获取场景图像的内容描述文本，从所述内容描述文本中抽取出所述场景图像中的物体的视觉属性和物体间的方位关系；构建所述物体对应的图节点，将所述物体的视觉属性存储为对应图节点的属性信息；根据所述物体间的方位关系，构建所述物体对应图节点间表示方位关系的边，得到所述场景图像的场景图，通过文本抽取的方式获取场景图像中物体的视觉属性及方位关系，可以大大缩减物体及物体关系信息抽取所耗费的计算资源和时间，从而大大提高了场景图像的场景图的生成效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一种示例性的系统架构图；

图2为本申请一示例性实施例提供的场景图生成方法流程图；

图3为本申请一示例性实施例提供的场景图生成方法流程图；

图4为本申请一示例性实施例提供的基于内容描述文本构建场景图的示例图；

图5为本申请一示例性实施例提供的基于场景图的人机对话方法流程图；

图6为本申请一示例性实施例提供的虚拟现实购物场景的场景图生成方法流程图；

图7为本申请一示例性实施例提供的虚拟现实购物的人机对话方法的流程图；

图8为本申请一示例性实施例提供的场景图生成方法的应用示意图；

图9为本申请一示例性实施例提供的场景图生成装置的结构示意图；

图10为本申请另一示例性实施例提供的场景图生成装置的结构示意图；

图11为本申请一示例实施例提供的服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

场景图(Scene Graph)：是一种安排场景内对象的图(Graph)数据结构。

场景图像(Scene Image)：是指采集的场景的图像数据。

多模态对话：基于图像、历史对话数据和用户当前的问题，生成自然语言回答。

正则化表达式：一种根据字符串匹配模式抽取文本信息的方法。

目前利用物体关系检测网络来获取场景图像的场景图的方法，需要先通过物体检测模型识别场景图像中的物体，然后再对物体间的关系进行多分类预测，最后通过“物体-关系-物体”的三元组生成场景图。这种两阶段的方案存在错误累积的问题。例如，如果第一阶段中物体检测模型未能识别到场景图像中的某一物体，那么第二阶段与之相关的物体关系就无从推断，这将导致最终预测的场景图完全缺失所有包含该物体的关系，大幅度偏离正确结果。除此之外，两阶段的处理无法并行进行，只有先完成物体检测后，才能在此基础上分类预测物体间的关系，耗费大量的时间和计算资源，效率低。在要求瞬时响应的任务中，这种两阶段的方案显然难以胜任。

针对现有技术中获取场景图像的场景图的效率低的问题，本申请提供一种场景图生成方法，通过获取场景图像的内容描述文本，从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系；构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息；根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图，通过文本抽取的方式获取场景图像中物体的视觉属性及方位关系，可以大大缩减物体及物体关系信息抽取所耗费的计算资源和时间，从而大大提高了场景图像的场景图的生成效率。

图1为本申请所适用的一种示例性的系统架构图，如图1所示，该系统架构具体可包括服务器以及终端。

其中，服务器具体可为部署在云端的服务器集群，或者部署在本地的计算设备。

终端具体可为具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、物联网设备等。

该服务器存储有多个待向用户展示的场景图像，以及场景图像相关的内容描述文本，该服务器在执行预设的运算逻辑时，基于内容描述文本生成场景图像的场景图。该服务器还可以向终端提供场景图像，以使终端将场景图像展示给用户。用户可以通过终端查看场景图像，并通过终端调整观看的视角。通过与服务器的通信交互，终端可将根据用户当前的视角发送至服务器。服务器根据用户当前的视角，获取与视角相匹配的目标场景图像，并将目标场景图像通过终端进行展示。用户可以通过终端提出针对目标场景图像的问题，终端将问题发送至服务器。服务器根据接收到的问题，获取目标场景图像对应的目标场景图，根据目标场景图生成问题的答复信息，并向终端输出答复信息。终端将接收到的答复信息进行展示，使得用户可以获取到答复信息。

一种示例应用场景中，可以应用于多模态的人机对话系统，例如虚拟现实购物系统。服务器存储有预先采集的多个不同视角的虚拟现实购物场景图像，在虚拟现实购物系统运行过程中，系统的服务器可以向用户使用的终端提供虚拟现实购物场景图像，以使终端将虚拟现实购物场景图像展示给用户。用户可以查看虚拟现实购物场景图像，并通过终端调整观看的视角，以实现虚拟现实购物功能。通过与服务器的通信交互，终端可将根据用户当前的视角发送至服务器。服务器根据用户当前的视角，获取与视角相匹配的目标虚拟现实购物场景图像，并将目标虚拟现实购物场景图像通过终端进行展示。用户可以通过终端提出针对当前目标虚拟现实购物场景图像的问题，例如询问某一位置处的商品是否有货、是否有其他颜色等等。终端将用户的问题发送至服务器。服务器根据接收到的问题，获取问题的答复信息，并向终端输出答复信息。终端将接收到的答复信息进行展示，使得用户可以接收到答复信息。其中，服务器获取的问题的答复信息，可以是人工生成的答复信息、或者可以是系统根据答复策略自动生成的答复信息。在构建目标虚拟现实购物场景图像对应的目标场景图之后，服务器还可以根据目标场景图自动生成问题的答复信息。

在虚拟现实购物系统的使用过程中，会产生各个虚拟现实购物场景图像对应的对话数据，可以获取到对应对话文本。场景图像对应的对话文本含有大量高质量的关于场景中物体的描述，这些描述不仅包括物体的视觉属性，还含有物体之间的语义关系。也即，场景图像对应的对话文本是场景图像的内容描述文本。该服务器可以根据每个场景图像对应的对话文本从对话文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系，并构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息；根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图。

另一种示例应用场景中，可以应用于室内导航系统。服务器存储有预先采集的室内场所中多个不同位置处不同视角的室内场景图像。相关人员可以对所采集的室内场景图像的内容进行描述，得到内容描述数据(如语音数据、文本数据等)，根据内容描述数据可以获取室内场景图像的内容描述文本。该服务器可以根据每个室内场景图像的内容描述文本，从内容描述文本中抽取出室内场景图像中的物体的视觉属性和物体间的方位关系，并构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息；根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到室内场景图像的场景图。

在室内导航系统运行过程中，系统的服务器可以向用户使用的终端提供室内场景图像，以使终端将室内场景图像展示给用户。用户可以查看室内场景图像，并通过终端调整观看的视角。通过与服务器的通信交互，终端可将根据用户当前的视角发送至服务器。服务器根据用户当前的视角和用户当前位置，获取与视角和当前位置相匹配的目标室内场景图像，并将目标室内场景图像通过终端进行展示，以实现室内导航功能。用户可以通过终端提出问题，例如，询问某一目标物体在什么地方等等。终端将用户的问题发送至服务器。服务器根据接收到的问题，根据室内场景图像的场景图，生成问题的答复信息，并向终端输出答复信息。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的场景图生成方法流程图。本实施例的执行主体为上述提及的服务器。如图2所示，本实施例的方法具体步骤如下：

步骤S201、获取待展示的场景图像的内容描述文本。

其中，待展示的场景图像是指所应用于的系统(如虚拟现实购物系统等多模态人机对话系统、室内导航系统等)中，需要向用户展示的各个场景的图像数据，通常是预先在一个或者多个不同位置处采集的现实场景中不同视角的图像数据，或者是基于现实场景中不同视角的场景所构建的虚拟场景图像。

场景图像的内容描述文本是指包含场景图像中物体的描述内容的文本信息，具体描述了场景图像中物体的视觉属性，以及物体间的方位关系等信息。另外，在有些应用领域中，场景图像的内容描述文本还可以包含场景中物体间的动作(或交互)关系。

该步骤中，可以直接获取用于描述场景图像内的内容描述文本，或者还可以通过获取描述场景图像内容的语音数据，将语音数据转换为文本信息得到场景图像的内容描述文本，或者还可以通过其他方式获取到包含场景图像的内容描述信息的文本信息，此处不做具体限定。

例如，在虚拟现实购物系统中，场景图像可以是从实际购物商场/商店等卖场采集的真实的场景图像，或者是根据实际购物商场/商店等卖场的场景所构建的虚拟场景图像，无论是真实场景图像还是虚拟场景图像，都可以包含不同视角的多个场景图像。通过向用户展示各个场景图像，使得用户可以浏览场景图像中的商品，以实现购物的功能。在虚拟现实购物系统中，场景图像的内容描述文本可以为关于场景图像的历史对话文本。

例如，在室内导航系统中，场景图像可以是室内导航系统中展示给用户的任意场景的图像，如，可以是在室内场所中多个不同位置点处，从多个不同视角采集的场景图像；还可以是基于多个不同视角采集的场景图像拼接后的全景图像。在室内导航系统中，可以获取预先为各个场景图像配置的内容描述文本；或者可以获取预先录制的描述场景图像内物体及物体间关系的语音信息，将语音信息转换为文本信息，即可得到场景图像的内容描述文本。

步骤S202、从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系。

本实施例中，物体的视觉属性是指通过视觉可以感知的物体属性，例如，物体的长、宽、方向、大小、形状、弯曲度、颜色(如色调、强度)、空间位置等等。非视觉属性如味道、温度等。

在获取到各个场景图像的内容描述文本之后，从内容描述文本中抽取出场景图像中的物体的视觉属性，以及物体间的方位关系。

具体地，可以根据具体应用系统中，使用预先设置的正则表达式，从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系。

可选地，还可以使用基于文本的命名实体识别和信息提取等方式，从内容描述文本中抽取出物体对应实体的信息及实体间的关系；或者，该步骤还可以采用其他现有的文本信息抽取的方法实现，此处不做具体。

步骤S203、构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息。

在抽取出场景图像中物体的视觉属性之后，构建每一物体对应的图节点，不同的物体对应不同图节点，每一图节点指代一个物体。并在图节点的属性信息中存储对应物体的视觉属性。

步骤S204、根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图。

在构建物体对应的图节点之后，根据物体间的方位关系，构建图节点间表示方位关系的边。两个物体的图节点之间具有表示方位关系的边，表示这两个物体在场景中具有明确的方位关系，边的属性即为方位关系的类型。

场景图中的边表示边的两个图节点对应的物体之间的方位关系，例如，一个物体在另一物体的左侧、一个物体在另一物体的顶部等等。

需要说明的是，对于任一物体，先构建该物体对应的图节点，再根据该物体与其他物体间的方位关系构建场景图中的边。从场景图构建的整体流程来看，可以并行地构建图节点和边，而无需等待构建所有物体对应图节点之后再构建所有的边，可以在一定程度上提高场景图构建的效率。

本实施例中，通过获取场景图像的内容描述文本，从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系；构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息；根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图，通过文本抽取的方式获取场景图像中物体的视觉属性及方位关系，可以大大缩减物体及物体关系信息抽取所耗费的计算资源和时间，从而大大提高了场景图像的场景图的生成效率。

图3为本申请一示例性实施例提供的场景图生成方法流程图。本实施例中，使用设置的正则表达式，从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系，可以显著提高抽取场景中物体及物体关系信息的效率，从而提高场景图生成的效率。

如图3所示，本实施例的方法的具体步骤如下：

步骤S301、获取待展示的场景图像的内容描述文本。

示例性地，本实施例的方法可以应用于多模态人机对话系统，该步骤中从多模态人机对话系统中，多模态人机对话系统向用户展示场景图像，用户可以针对展示的场景图像提出问题，多模态人机对话系统对根据用户提出的问题，生成答复信息，并反馈给用户，实现图像、文本多模态的人机对话功能。该步骤中，从多模态人机对话系统中，获取待展示的各个场景图像对应的历史对话文本，将每个场景图像对应的历史对话文本作为场景图像的内容描述文本。

步骤S302、根据设置的背景物体数据集和展示对象数据集，使用视觉属性正则表达式和背景物体正则表达式，从内容描述文本中抽取出场景图像中的展示对象和背景物体的视觉属性。

本实施例中，场景图像中的物体可以包括展示对象和背景物体。例如，虚拟现实购物系统中，场景图像中的展示对象为商品，背景物体包括卖场中用于放置商品的置物架、或布置的绿植、装饰品等除商品外的其他物品。

其中，背景物体数据集包含当前应用场景(如虚拟现实购物系统)中可能的背景物体的可能描述信息。背景物体数据集可以根据当前应用场景从已知数据集(如Wikipedia)中获取。例如，虚拟现实购物场景中通常可能会布置各种家具(非商品)，背景物体数据集可以包含表示家具的词，如可以使用已知数据集(如Wikipedia)中的家具单词。

展示对象数据集包含当前应用场景(如虚拟现实购物系统)中可能的展示对象的可能描述信息。例如，虚拟现实购物场景中展示对象为各种商品，展示对象数据集可以包括可能商品的名称、简称、别称等描述信息。展示对象数据集可以根据当前应用场景从已知数据集(如Wikipedia)中获取。例如，虚拟现实购物场景中展示对象数据集可以包含当前应用场景中所涉及的一种或多种类目下的商品的名称及其他描述词语，如可以使用已知数据集(如Wikipedia)中的属于所涉及的一种或多种类目下的物品的单词。

视觉属性正则表达式是指用于从内容描述文本中抽取物体的视觉属性使用的正则表达式，视觉属性正则表达式可以包含一个或者多个正则表达式。视觉属性正则表达式可以根据实际应用场景(如虚拟现实购物系统)进行人工设计和配置，本实施例此处不做具体限定。

背景物体正则表达式用于从内容描述文本中抽取背景物体的相关描述。背景物体正则表达式可以根据实际应用场景(如虚拟现实购物系统)进行人工设计和配置，本实施例此处不做具体限定。

步骤S303、根据设置的方位数据集，使用方位信息正则表达式，从内容描述文本中抽取出场景图像中的物体间的方位关系。

其中，方位数据集包含描述方位的信息，可以包含一种或多种语言的词典中记录的描述访问的词。例如，可以包含英语词典中记录的英文方位介词等。

方位信息正则表达式是指用于从内容描述文本中抽取物体间方位关系的正则表达式，可以包含一个或者多个正则表达式，具体可以根据实际应用场景(如虚拟现实购物系统)进行人工设计和配置，本实施例此处不做具体限定。

需要说明的是，本实施例中场景图像的内容描述文本可以为采用各种不同语言(如汉语、英语等)的文本信息，所使用的背景物体数据集和展示对象数据集中可以包含对应语言的信息，或者可以同时包含同一词汇的多种语言的信息，以适用于各种不同语言的应用场景。

示例性地，无论何种语言，都具有各自的语言模式及特点，在特定语言模式的内容描述文本中视觉属性和方位信息出现的位置也呈现出特定的规律。例如，英语中，视觉属性形容词常出现在物体名词之前形成对于物体的指代，方位信息常由方位介词引导位于物体名词之后。为了捕捉这种特定的语言模式，可以设置如下的正则表达式：

视觉属性正则表达式：RegExp_va＝(article)(color)(object type)；

方位描述正则表达式：RegExp_sd＝(positional preposition)(article)(.*？)(punctuation)；

背景物体正则表达式：RegExp_bi＝(background item)；

方位关系正则表达式：RegExp_sr＝(positional preposition)。

其中，article表示英文定冠词，可以用于匹配来自于英语词典记录的英文定冠词。color表示当前应用场景中可能出现的视觉属性，可以用于匹配来自于已知数据集(如Wikipedia)的表示视觉属性(如颜色、形状等)的高频词汇。object type表示当前应用场景中物体的信息，可以用于匹配来自于展示对象数据集和背景物体数据集的信息，展示对象数据集和背景物体数据集可以根据当前应用场景从已知数据集(如Wikipedia)中获取。background item表示当前应用场景中可能出现的背景物体，可以用于匹配来自于背景物体数据集的信息。positional preposition表示方位介词，可以用于匹配来自于英语词典记录的英文方位介词。Punctuation表示标点符号，可以用于匹配可能的标点符号。.*？表示匹配任意字符到下一个符合条件的字符。

具体地，通过视觉属性正则表达式可以从内容描述文本中提取出场景图像中的物体及物体的视觉属性。通过方位描述正则表达式可以从内容描述文本中提取出方位描述信息(如方位状语的信息)。通过背景物体正则表达式和方位关系正则表达式，可以进一步将方位描述信息(如方位状语的信息)中的背景物体和方位关系提取出来。其中，方位描述正则表达式和方位关系正则表达式均属于方位信息正则表达式。

步骤S304、构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息。

在抽取出场景图像中物体的视觉属性之后，构建每一物体对应的图节点，不同的物体对应不同图节点，每一图节点指代一个物体，并在图节点的属性信息中存储对应物体的视觉属性。

具体地，分别构建每一展示对象和背景物体对应的图节点，并在图节点的属性信息中存储对应物体的视觉属性。

步骤S305、在图节点的属性信息中存储对应物体的类型信息，类型信息用于指示物体为展示对象或背景物体。

进一步地，为了区分场景图中的展示对象和背景物体，在图节点的属性信息中存储对应物体的类型信息，通过图节点的类型信息可以确定图节点对应的物体是展示对象还是背景物体。

步骤S306、根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图。

示例性地，图4示出了基于内容描述文本构建场景图的示例，如图4所示，以图中给出的英语的对话文本“用户问题：Do you have a nice coat from DowntownConsignment？机器人答复：I have the black coat in the second row of the thirdcompartment in the leftmost cupboard.”为例，从对话文本中可以抽取展示对象“blackcoat”，以及背景物体“leftmost cupboard”、“third compartment”和“second row”，并且提取出展示对象“black coat”与“second row”间的方位关系“in”，背景物体“second row”和“third compartment”间的方位关系“of”，背景物体“third compartment”和“leftmostcupboard”间的方位关系“in”。根据这一对话文本，可以构建展示对象“black coat”，以及背景物体“leftmost cupboard”、“third compartment”和“second row”对应的图节点以及图节点间的方位关系。以图中给出的英语的对话文本“用户问题：What is the price ofthe brown blouse？机器人答复：Please take a look at the black coat on the rightof the brown blouse.”为例，从对话文本中可以抽取展示对象“black coat”和“brown blouse”，并且提取出这两个展示对象“black coat”和“brown blouse”之间的方位关系为“right/left”。根据这一对话文本，可以构建展示对象“black coat”和“brown blouse”对应的图节点以及图节点间的方位关系。基于图4中示出的多个对话文本，可以构建图4中“}”右侧所示的场景图。

需要说明的是，图4中以构建的场景图为无向图为例，对构建场景图的方法流程进行示例性地说明，在其他实施例中，还可以构建边为有向边的场景图，也即场景图可以是有向图，有向边表示边的源节点相对于目的节点的方位关系，或者源节点对目的节点做出的动作。例如，源节点指向目的节点的有向边，可以表示源节点对应物体在目的节点对应物体的左侧，或者可以表示源节点对应人伸手触摸了目的节点对应的物体。

本实施例中，通过获取场景图像的内容描述文本，利用预先设置的正则表达式，从内容描述文本中精准地抽取出场景图像中的物体的视觉属性和物体间的方位关系，不需要复杂的神经网络作为支持，只需要简单的正则表达式即可完成从对话文本中抽取物体及物体关系信息，正则表达式的计算消耗相比于神经网络而言几乎可以忽略不计，因此极大减少了计算资源消耗和时间消耗，响应速度极快且资源消耗极少，从而可以极大地提升场景图的生成效率。

在一可选实施例中，在某些应用场景中，可能存在发生动作交互的物体，例如，正在交谈的人、人触摸某个物体等。本实施例中，在获取待展示的场景图像的内容描述文本之后，还可以从内容描述文本中抽取出场景图像中的物体间的动作关系。进一步地，在构建场景图时，根据物体间的动作关系，构建物体对应图节点间表示动作关系的边。

具体地，根据设置的动作数据集，使用动作关系正则表达式，从内容描述文本中抽取出场景图像中的物体间的动作关系。

其中，动作数据集包含当前应用场景(如虚拟现实购物系统)中的物体间可能进行的交互动作的可能描述信息。动作数据集可以根据当前应用场景从已知数据集(如Wikipedia)中获取表示动作的词，例如，交谈、说话、触摸、拿起、走向等。

动作关系正则表达式是指用于从内容描述文本中抽取描述物体间的动作关系的正则表达式，动作关系正则表达式可以包含一个或者多个正则表达式，具体可以根据实际应用场景(如虚拟现实购物系统)进行人工设计和配置，本实施例此处不做具体限定。

进一步地，在应用于多模态人机对话系统时，随着多模态人机对话系统的使用，会产生各个场景图像的新的对话数据。本实施例中，在构建各个场景图像的场景图之后，对于任一场景图像，在产生关于该场景图像的新的对话文本后，从新的对话文本中抽取出该场景图像中的物体的视觉属性和物体间的方位关系；根据该场景图像中的物体的视觉属性和物体间的方位关系，更新该场景图像的场景图。

本实施例中，在应用于多模态人机对话系统时，考虑到单一句子层面的句法分析可能会造成信息缺失或噪声引入的问题，从对话数据入手，基于包含丰富的场景中物体及物体关系信息的对话文本，根据对话文本的语言特点设计正则表达式，实现精准的物体相关信息抽取，作为生成场景图的信息来源。

通过使用计算代价极低的正则表达式，从对话文本中精准地抽取场景中物体及物体关系信息，进而生成场景图，极大地提升了场景图生成效率。并且，场景图具有很好地可扩展性，随着关于同一场景图像的对话文本的增加，可以不断地从新增对话文本中抽取场景中物体及物体关系信息，并更新场景图，可以不断地丰富和扩展场景图像的场景图，使得最终的场景图可以包含场景图像中所有的物体和物体之间的关系(包括方位关系和动作关系)信息，提示场景图的精准度。

在一种可能的应用场景中，应用于多模态的人机对话系统时，如图5所示，基于上述任一方法实施例所构建的场景图像的场景图的人机对话方法的具体流程如下：

步骤S501、根据用户当前的视角，展示与视角相匹配的目标场景图像。

本实施例中，多模态的人机对话系统的服务器根据具体的处理逻辑，通过终端向用户展示场景图像。通常在用户使用多模态的人机对话系统期间，可以通过终端调整自己的视角，服务器会根据用户的视角，切换显示对应视角下的场景图像。

示例性地，在虚拟现实购物的人机对话系统中，系统可以向用户展示虚拟现实购物场景图像，用户在观看拟现实购物场景的同时，可以通过终端来旋转自己的视角，或者滑动所显示场景图像，触发系统切换展示不同视角的虚拟现实购物场景图像，使得用户可以观看到各个视角的场景中商品，实现虚拟现实购物的功能。

示例性地，在室内导航系统中，系统可以向用户展示室内场所中某一位置处的导航场景图像(可以是由多个实景图像拼接而成的全景图像，也可以是基于实景图像生成的包含道路和导航信息的虚拟场景图像)，并支持用户在观看导航场景图像的同时，通过将终端对准不同的方向来调整自己的视角，或者滑动所显示的导航场景图像，触发系统切换展示不同视角匹配的导航场景图像，实现实时的室内导航功能。

上述的虚拟现实购物系统和室内导航系统，均支持人机对话功能，通过人机对话功能，用户可以通过终端向服务器提出关于商品或导航路线(如询问某一物体在什么位置)等相关的问题，服务器可以根据问题生成答复信息，并反馈给终端，通过终端向用户展示答复信息。

步骤S502、响应于接收到针对目标场景图像提出的问题，获取目标场景图像对应的目标场景图。

步骤S503、根据目标场景图生成问题的答复信息，并输出答复信息。

服务器接收到针对某一目标场景图像提出的问题时，获取目标场景图像对应的目标场景图，并根据目标场景图来检索到生成问题答复所需的信息，从而根据检索到的信息生成问题的答复信息，并将答复信息输出至终端。

示例性地，在虚拟现实购物的人机对话系统中，接收到用户针对当前展示的虚拟现实购物场景图像中某一商品的问题，例如“哪个红色的上衣的尺码有哪些”，将当前向该用户展示的场景图像作为目标场景图像，获取目标场景图像对应的场景图，作为目标场景图。在目标场景图中检索视觉属性为“红色”且对应物体为“上衣”的图节点，根据该图节点可以确定对应的目标商品，并从数据库中获取目标商品的尺码信息，得到问题的答案信息。

在另一可选实施方式中，在向用户展示目标场景图像时，用户还可以提出不是针对当前所展示的目标场景图像的问题。服务器可以根据用户的问题，在所有的场景图中查找与用户问题相关的场景图，作为目标场景图，根据目标场景图来检索到生成问题答复所需的信息，从而根据检索到的信息生成问题的答复信息，并将答复信息输出至终端。

例如，在室内导航系统中，用户身处室内场所中，若想要寻找厕所的位置，但是目所能及的地方没有看到厕所，那么可以向室内导航系统提出“厕所在哪里”的问题。这种情况下，当前向用户所展示的目标场景图像与用户想要的答复信息不相关。室内导航系统可以在所有场景图中查找对应“厕所”的图节点，并获取图节点具有表示方位关系的边的其他图节点，例如，在场景图中找到“厕所”对应图节点与办公室A间具有“左侧”的边，那么可以生成“在办公室A的左侧有一个厕所”的答复信息。

本实施例中，基于所构建的场景图，并不限于应用于答复用户针对目标场景图像提出的问题这一任务，本实施例此处仅以答复用户针对目标场景图像提出的问题为例对场景图的使用进行示例性地说明，场景图可以应用于各类的图推断/图检索任务，例如图文匹配、多模态对话等，本实施例此处对场景图的使用场景不做具体限定。

下面以虚拟现实购物系统为例，对应用于多模态人机对话系统时，场景图生成方法进行示例性地说明，如图6所示，虚拟现实购物场景的场景图生成方法的具体步骤如下：

步骤S601、获取待展示的虚拟现实购物场景对应的历史对话文本。

在应用于虚拟现实购物场景的多模态人机对话系统时，在系统的使用过程中，会产生各个虚拟现实购物场景相关的对话文本。对话文本含有大量高质量的关于场景中物体的描述，这些描述不仅包括物体的视觉属性，还含有物体之间的语义关系(如方位关系、动作交互关系)。

本实施例中，考虑到单一句子层面的句法分析可能会造成信息缺失或噪声引入的问题，从对话数据入手，将包含场景中丰富的物体及物体关系信息的对话文本作为虚拟现实购物场景的内容描述文本。将虚拟现实购物场景对应的大量历史对话文本，作为构建场景图的信息来源。

步骤S602、从历史对话文本中，抽取出虚拟现实购物场景中的商品物体和背景物体的视觉属性，以及物体间的方位关系。

在获取到虚拟现实购物场景对应的历史对话文本之后，从历史对话文本中，抽取出虚拟现实购物场景中的商品物体和背景物体的视觉属性，以及物体间的方位关系。

该步骤中，根据虚拟现实购物场景设计正则表达式，使用正则表达式，从历史对话文本中抽取出虚拟现实购物场景中的展示对象和背景物体的视觉属性，以及物体间的方位关系，具体实现方式与上述步骤S302-S303的实现方式一致，具体参见上述实施例中的相关描述，本实施例此处不再赘述。本实施例中的商品物体即为展示对象。

需要说明的是，该步骤的实现过程中所使用的正则表达式，以及正则表达式中所涉及的数据集(如背景物体数据集、展示对象数据集、方位数据集等)，是根据虚拟现实购物场景这一特定场景进行设置。

步骤S603、分别构建商品物体和背景物体对应的图节点，并在图节点的属性信息中存储对应物体的视觉属性。

该步骤与上述步骤S304的实现方式类似，具体参数上述步骤S304的相关描述，本实施例此处不再赘述。

可选地，可以在图节点的属性信息中存储对应物体的类型信息，类型信息用于指示物体为展示对象或背景物体，具体参见上述步骤S305的相关描述，此处不再赘述。

步骤S604、根据任意两个物体间的方位关系，构建任意两个物体对应图节点间表示方位关系的边，得到虚拟现实购物场景的场景图。

该步骤与上述步骤S306的实现方式类似，具体参数上述步骤S306的相关描述，本实施例此处不再赘述。

本实施例中，通过获取虚拟现实购物场景的内容描述文本，利用预先设置的正则表达式，从内容描述文本中精准地抽取出场景图像中的商品物体和背景物体的视觉属性和物体间的方位关系，不需要复杂的神经网络作为支持，只需要简单的正则表达式即可完成从对话文本中抽取物体及物体关系信息，正则表达式的计算消耗相比于神经网络而言几乎可以忽略不计，因此极大减少了计算资源消耗和时间消耗，响应速度极快且资源消耗极少，从而可以极大地提升了虚拟现实购物场景的场景图的生成效率。

图7为本申请一示例性实施例提供的虚拟现实购物的人机对话方法的流程图，参见图7，基于所构建的虚拟现实购物场景的场景图，实现虚拟现实购物的人机对话方法的具体步骤如下：

步骤S701、根据用户当前的视角，展示与视角相匹配的虚拟现实购物场景的场景图像。

本实施例中，实现虚拟现实购物的人机对话系统也是一种多模态的人机对话系统，系统的服务器根据具体的处理逻辑，通过终端向用户展示场景图像。通常在用户使用人机对话系统期间，可以通过终端调整自己的视角，服务器会根据用户的视角，切换显示对应视角下的场景图像。

示例性地，在实现虚拟现实购物的人机对话系统中，系统可以向用户展示虚拟现实购物场景图像，用户在观看拟现实购物场景的同时，可以通过终端来旋转自己的视角，或者滑动所显示场景图像，触发系统切换展示不同视角的虚拟现实购物场景图像，使得用户可以观看到各个视角的场景中商品，实现虚拟现实购物的功能。

步骤S702、在展示虚拟现实购物场景的过程中，响应于接收到针对虚拟现实购物场景提出的问题，获取虚拟现实购物场景对应的场景图。

步骤S703、根据场景图生成问题的答复信息，并输出答复信息。

服务器接收到针对某一虚拟现实购物场景提出的问题时，获取该虚拟现实购物场景对应的目标场景图，并根据目标场景图来检索到生成问题答复所需的信息，从而根据检索到的信息生成问题的答复信息，并将答复信息输出至终端。

示例性地，在虚拟现实购物的人机对话系统中，接收到用户针对当前展示的虚拟现实购物场景中某一商品的问题，例如“哪个红色的上衣的尺码有哪些”，将当前向该用户展示的场景作为目标场景图像，获取目标场景图像对应的场景图，作为目标场景图。在目标场景图中检索视觉属性为“红色”且对应物体为“上衣”的图节点，根据该图节点可以确定对应的目标商品，并从数据库中获取目标商品的尺码信息，得到问题的答案信息。通过终端向用户展示答复信息。

在另一可选实施方式中，在向用户展示虚拟现实购物场景图像时，用户还可以提出不是针对当前所展示的虚拟现实购物场景的问题。服务器可以根据用户的问题，在所有的场景图中查找与用户问题相关的场景图，作为目标场景图，根据目标场景图来检索到生成问题答复所需的信息，从而根据检索到的信息生成问题的答复信息，并将答复信息输出至终端。

例如，在虚拟现实购物的人机对话系统中，用户可以提出类似于“有没有红色的上衣”的问题。服务器根据该用户在所有场景图中查找包含视觉属性为“红色”且对应物体为“上衣”的图节点的场景图，将包含视觉属性为“红色”且对应物体为“上衣”的图节点的场景图对应的虚拟现实购物场景图像作为答复信息，通过终端展示给用户。

本实施例中，基于所构建的场景图，并不限于应用于答复用户针对当前所展示的虚拟现实购物场景图像提出的问题这一任务，场景图可以应用于多模态的人机对话系统中的各类的图推断/图检索任务，本实施例此处对场景图的使用场景不做具体限定。

本申请实施例提供的场景图生成方法可以在云端来执行，在云端可以部署有若干计算节点(云服务器)，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。

针对本申请实施例提供的方案，云端可以提供有设定服务(场景图生成服务)的服务接口，用户通过终端设备调用该服务接口，以向云端发送场景图生成请求，该请求中包括场景图像的内容描述文本。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系；

构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息；

根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图；

将场景图像的场景图发送至终端设备进行显示。

上述执行过程可以参考前述其他实施例中的相关说明，在此不赘述。

为便于理解，结合图8来示例性说明。用户可以通过图8中示意的终端设备E1调用场景图生成服务，以上传场景图像的内容描述文本。用户调用该服务的服务接口包括软件开发工具包(Software Development Kit，简称SDK)、应用程序接口(ApplicationProgramming Interface，简称API)等形式。图8中示意的是API接口的情形。在云端，如图中所示，假设由服务集群E2提供场景图生成服务，服务集群E2中包括至少一个计算节点。服务集群E2收到该请求后，执行前述实施例中的步骤，以得到场景图像的场景图，并反馈给终端设备E1。

终端设备E1基于收到的场景图像的场景图后在界面中进行展示。并且，可以接收用户的交互操作，并进行相应响应。

在一可选实施例中，终端设备向云端发送的场景图生成请求中包括的场景图像的内容描述文本，可以是待展示的虚拟现实购物场景对应的历史对话文本。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

从历史对话文本中，抽取出虚拟现实购物场景中的商品物体和背景物体的视觉属性，以及物体间的方位关系；

分别构建商品物体和背景物体对应的图节点，并在图节点的属性信息中存储对应物体的视觉属性；

根据任意两个物体间的方位关系，构建任意两个物体对应图节点间表示方位关系的边，得到虚拟现实购物场景的场景图；

将虚拟现实购物场景的场景图发送至终端设备进行显示。

图9为本申请一示例性实施例提供的场景图生成装置的结构示意图。本申请实施例提供的场景图生成装置可以执行场景图生成方法实施例提供的处理流程。如图9所示，该场景图生成装置90包括：场景描述获取模块91、第一场景信息抽取模块92和第一场景图构建模块93。

其中，场景描述获取模块91用于获取待展示的场景图像的内容描述文本。

第一场景信息抽取模块92用于从内容描述文本中抽取出场景图像中的物体的视觉属性和物体间的方位关系。

第一场景图构建模块93用于构建物体对应的图节点，将物体的视觉属性存储为对应图节点的属性信息；根据物体间的方位关系，构建物体对应图节点间表示方位关系的边，得到场景图像的场景图。

在一可选实施例中，场景图像中的物体包括展示对象和背景物体。在实现从内容描述文本中抽取出场景图像中的物体的视觉属性时，第一场景信息抽取模块92还用于：

根据设置的背景物体数据集和展示对象数据集，使用视觉属性正则表达式和背景物体正则表达式，从内容描述文本中抽取出场景图像中的展示对象和背景物体的视觉属性；并根据设置的方位数据集，使用方位信息正则表达式，从内容描述文本中抽取出场景图像中的物体间的方位关系。

在一可选实施例中，在构建物体对应的图节点之后，第一场景图构建模块93还用于：

在图节点的属性信息中存储对应物体的类型信息，类型信息用于指示物体为展示对象或背景物体。

在一可选实施例中，第一场景信息抽取模块92还用于：

从内容描述文本中抽取出场景图像中的物体间的动作关系；根据物体间的动作关系，构建物体对应图节点间表示动作关系的边。

在一可选实施例中，在实现从内容描述文本中抽取出场景图像中的物体间的动作关系时，第一场景信息抽取模块92还用于：

根据设置的动作数据集，使用动作关系正则表达式，从内容描述文本中抽取出场景图像中的物体间的动作关系。

在一可选实施例中，在实现获取待展示的场景图像的内容描述文本时，场景描述获取模块91还用于：

从多模态人机对话系统中，获取待展示的各个场景图像对应的历史对话文本，将每个场景图像对应的历史对话文本作为场景图像的内容描述文本。

在一可选实施例中，第一场景图构建模块93还用于：

对于任一场景图像，在产生关于该场景图像的新的对话文本后，从新的对话文本中抽取出该场景图像中的物体的视觉属性和物体间的方位关系；根据该场景图像中的物体的视觉属性和物体间的方位关系，更新该场景图像的场景图。

在一可选实施例中，该场景图生成装置90还包括：

场景图应用模块，用于：

根据用户当前的视角，展示与视角相匹配的目标场景图像；响应于接收到针对目标场景图像提出的问题，获取目标场景图像对应的目标场景图；根据目标场景图生成问题的答复信息，并输出答复信息。

本申请实施例提供的装置可以具体用于执行上述任一方法实施例提供的方法，所实现具体功能和所能实现的技术效果此处不再赘述。

图10为本申请另一示例性实施例提供的场景图生成装置的结构示意图。本申请实施例提供的场景图生成装置可以执行基于虚拟现实购物的人机对话系统的场景图生成方法实施例提供的方案。如图10所示，该场景图生成装置100包括：场景相关对话历史获取模块101、第二场景信息抽取模块102和第二场景图构建模块103。

其中，场景相关对话历史获取模块101用于获取待展示的虚拟现实购物场景对应的历史对话文本。

第二场景信息抽取模块102用于从历史对话文本中，抽取出虚拟现实购物场景中的商品物体和背景物体的视觉属性，以及物体间的方位关系。

第二场景图构建模块103用于分别构建商品物体和背景物体对应的图节点，并在图节点的属性信息中存储对应物体的视觉属性；根据任意两个物体间的方位关系，构建任意两个物体对应图节点间表示方位关系的边，得到虚拟现实购物场景的场景图。

在一可选实施例中，该场景图生成装置100还包括：

虚拟现实购物人机对话模块，用于：在展示虚拟现实购物场景的过程中，响应于接收到针对虚拟现实购物场景提出的问题，获取虚拟现实购物场景对应的场景图；根据场景图生成问题的答复信息，并输出答复信息。

本申请实施例提供的装置可以具体用于执行上述任一基于虚拟现实购物的人机对话系统的场景图生成方法实施例的方案，所实现具体功能和所能实现的技术效果此处不再赘述。

图11为本申请一示例实施例提供的服务器的结构示意图。如图11所示，该服务器110包括：处理器1101，以及与处理器1101通信连接的存储器1102，存储器1102存储计算机执行指令。

其中，处理器执行存储器存储的计算机执行指令，以实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种场景图生成方法，其特征在于，包括：

获取待展示的场景图像的内容描述文本；

2.根据权利要求1所述的方法，其特征在于，所述场景图像中的物体包括展示对象和背景物体，从所述内容描述文本中抽取出所述场景图像中的物体的视觉属性，包括：

根据设置的背景物体数据集和展示对象数据集，使用视觉属性正则表达式和背景物体正则表达式，从所述内容描述文本中抽取出所述场景图像中的展示对象和背景物体的视觉属性；

并根据设置的方位数据集，使用方位信息正则表达式，从所述内容描述文本中抽取出所述场景图像中的物体间的方位关系。

3.根据权利要求2所述的方法，其特征在于，所述构建所述物体对应的图节点之后，还包括：

在所述图节点的属性信息中存储对应物体的类型信息，所述类型信息用于指示所述物体为展示对象或背景物体。

4.根据权利要求1所述的方法，其特征在于，还包括：

从所述内容描述文本中抽取出所述场景图像中的物体间的动作关系；

根据所述物体间的动作关系，构建所述物体对应图节点间表示动作关系的边。

5.根据权利要求4所述的方法，其特征在于，所述从所述内容描述文本中抽取出所述场景图像中的物体间的动作关系，还包括：

根据设置的动作数据集，使用动作关系正则表达式，从所述内容描述文本中抽取出所述场景图像中的物体间的动作关系。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述获取待展示的场景图像的内容描述文本，包括：

从多模态人机对话系统中，获取待展示的各个场景图像对应的历史对话文本，将每个场景图像对应的历史对话文本作为所述场景图像的内容描述文本。

7.根据权利要求6所述的方法，其特征在于，还包括：

对于任一所述场景图像，在产生关于该场景图像的新的对话文本后，从所述新的对话文本中抽取出该场景图像中的物体的视觉属性和物体间的方位关系；

根据该场景图像中的物体的视觉属性和物体间的方位关系，更新该场景图像的场景图。

8.根据权利要求6所述的方法，其特征在于，还包括：

根据用户当前的视角，展示与所述视角相匹配的目标场景图像；

响应于接收到针对所述目标场景图像提出的问题，获取所述目标场景图像对应的目标场景图；

根据所述目标场景图生成所述问题的答复信息，并输出所述答复信息。

9.一种场景图生成方法，其特征在于，包括：

获取待展示的虚拟现实购物场景对应的历史对话文本；

10.根据权利要求9所述的方法，其特征在于，还包括：

在展示所述虚拟现实购物场景的过程中，响应于接收到针对所述虚拟现实购物场景提出的问题，获取所述虚拟现实购物场景对应的场景图；

根据所述场景图生成所述问题的答复信息，并输出所述答复信息。

11.一种场景图生成装置，其特征在于，包括：

12.一种场景图生成装置，其特征在于，包括：

13.一种服务器，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-10中任一项所述的方法。