CN113129419A

CN113129419A - 基于语义的智能视觉交互方法及系统

Info

Publication number: CN113129419A
Application number: CN202110458963.6A
Authority: CN
Inventors: 孙其民
Original assignee: Nanchang Virtual Reality Institute Co Ltd
Current assignee: Nanchang Virtual Reality Institute Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-16
Anticipated expiration: 2041-04-27
Also published as: CN113129419B

Abstract

本发明公开了一种基于语义的智能视觉交互方法及系统，该方法包括：对于待生成的可视图像中的一个像素，从设置的虚拟视点出发，向像素的中心投射出一条视线，延长该条视线，以获取虚拟场景中视线所及的最近的实体；在预设的语义知识库中查找与实体对应的语义本体，并建立像素与语义本体的关联关系，以生成该像素的语义索引，语义本体为像素的语义信息的来源，并对该像素执行光线追踪以得到该像素的颜色值；按照预设的抽取语义信息的规则，抽取语义本体的部分语义信息作为像素的关联语义信息，并对可视图像中的每个像素，分别执行上述步骤，以生成语义图像；显示语义图像并进行语义交互。本发明实现了语义图像的生成，使视觉交互更智能、更有效。

Description

基于语义的智能视觉交互方法及系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于语义的智能视觉交互方法及系统。

背景技术

目前图像渲染技术主要分为基于图形的渲染技术和基于图像的渲染技术。基于图形的渲染技术是计算机图形学研究的经典课题，主要以几何模型和光照模型来表示场景，场景模型主要包括场景的几何信息、材质信息和光照信息等，常用的渲染技术是光线追踪技术；基于图像的渲染技术(Image-based rendering)是计算机图形学中一个较新的技术方向，他主要采用图像来表示场景，常用图像投影变形和插值技术实现新视点的图像渲染。计算机游戏和虚拟现实通常采用基于图形的渲染技术，由3D引擎实现图像渲染，应用开发有大量的场景建模工作量。

现有图像渲染系统的目标是生成符合人眼视觉感知特性的真实感图像，为单眼生成的图像是2D的图像，当需要呈现双目立体效果时，可以为左右眼分别渲染有视差的图像。

现有图像渲染系统，生成的图像只有像素颜色信息，图像中隐含的语义需要观察者的视觉感知系统提取出来。当观察者是人的时候，人眼感知图像中的色彩信息，通过视神经传入大脑，经过大脑的视觉感知处理，获得对图像的语义理解。从人眼到大脑视觉感知区的信息处理是基于人的生理机能和学习训练形成的认知能力。

在视觉交互中，涉及视觉感知的多个层面，除了低层的光亮度和色彩信号、中层的特征信息号，还有上层的语义信息感知。在基于视觉的人机交互过程中，不但需要可视的图像信息，也需要图像包含的语义信息，如果没有这些语义信息则交互效率大打折扣，然而现有渲染技术还无法得到具有语义信息的图像。例如在基于融合眼球追踪的VR(虚拟现实)应用中，系统能够获知人眼注视点的位置信息，但是因为现有图像渲染系统生成的图像只有色彩光影信息，不能提供注视点位置所关注的对象是什么，所以难以准确推断用户的视觉交互行为意图。

发明内容

为此，本发明的一个目的在于提出一种基于语义的智能视觉交互方法，以解决现有技术无法得到具有语义信息的图像的问题。

本发明提供一种基于语义的智能视觉交互方法，所述方法包括：

对于待生成的可视图像中的一个像素，从设置的虚拟视点出发，向所述像素的中心投射出一条视线，延长该条视线，以获取虚拟场景中视线所及的最近的实体；

在预设的语义知识库中查找与所述实体对应的语义本体，并建立所述像素与所述语义本体的关联关系，以生成所述像素的语义索引，所述语义本体为所述像素的语义信息的来源，并对所述像素执行光线追踪以得到所述像素的颜色值；

按照预设的抽取语义信息的规则，抽取所述语义本体的部分语义信息作为所述像素的关联语义信息，并对所述可视图像中的每个像素，分别执行上述步骤，以生成语义图像，所述语义图像包括可视图像、语义索引图像和语义信息；

显示所述语义图像并进行语义交互。

根据本发明提供的基于语义的智能视觉交互方法，在可视图像与语义信息之间建立了逐像素的关联关系，实现了语义图像的生成，在包含语义信息的场景表示中，针对当前视点渲染的时候，除了渲染生成可视图像，同时也能够生成该可视图像相关的语义信息，该可视图像、对应的语义信息以及两者的关联一起成为当前视点的语义图像，可满足观看、交互等处理的信息需求，并使交互等相关处理更智能、更有效。

另外，根据本发明上述的基于语义的智能视觉交互方法，还可以具有如下附加的技术特征：

进一步地，生成语义图像的步骤之后，显示所述语义图像并进行语义交互的步骤具体包括：

显示所述语义图像中的可视图像；

获取视觉交互信息中的定位像素；

在语义图像中的语义索引图像中基于所述定位像素的坐标获得语义索引，所述语义索引图像中的像素与所述可视图像的像素按照坐标顺序一一对应，所述索引图像中每个像素的值取所关联的语义本体的ID；

基于所述语义索引查询得到目标语义信息；

根据所述目标语义信息执行交互逻辑判断。

进一步地，当所述语义知识库中语义本体的ID的最大二进制字长不超过一个RGB彩色显示系统的颜色值的二进制字长时，所述语义索引图像能够以一个彩色图像可视化显示出来。

进一步地，所述方法还包括：

设定虚拟视点和当前处理像素；

从所述虚拟视点出发向所述当前处理像素的中心发出一条光线，追踪光线遇到的虚拟场景中的最近的目标实体，返回所述目标实体的ID；

对所述当前处理像素执行光线追踪以得到所述当前处理像素的颜色值；

确定所述当前处理像素关联的语义本体，并按照预设规则抽取所述当前处理像素关联的语义本体的语义信息添加到语义图像中。

进一步地，所述方法还包括：

根据场景模型中当前实体和语义知识库中语义本体的关联，获取所述当前实体对应的语义本体、以及所述当前实体对应的语义本体的ID；

将语义索引图像中当前像素值置为所述当前实体对应的语义本体的ID；

判断语义图像中是否已经添加过所述当前实体对应的语义本体的语义信息；

若否，则按照预设的语义筛选规则，从语义知识库中抽取出所述当前实体对应的语义本体的ID的语义信息，并添加到可视图像的语义信息数据中。

本发明的另一个目的在于提出一种基于语义的智能视觉交互系统，以解决现有技术无法得到具有语义信息的图像的问题。

本发明提供一种基于语义的智能视觉交互系统，所述系统包括：

第一获取模块，用于对于待生成的可视图像中的一个像素，从设置的虚拟视点出发，向所述像素的中心投射出一条视线，延长该条视线，以获取虚拟场景中视线所及的最近的实体；

查找建立模块，用于在预设的语义知识库中查找与所述实体对应的语义本体，并建立所述像素与所述语义本体的关联关系，以生成所述像素的语义索引，所述语义本体为所述像素的语义信息的来源，并对所述像素执行光线追踪以得到所述像素的颜色值；

抽取生成模块，用于按照预设的抽取语义信息的规则，抽取所述语义本体的部分语义信息作为所述像素的关联语义信息，并对所述可视图像中的每个像素，分别通过第一获取模块、查找建立模块和抽取生成模块进行处理，以生成语义图像，所述语义图像包括可视图像、语义索引图像和语义信息；

显示交互模块，用于显示所述语义图像并进行语义交互。

根据本发明提供的基于语义的智能视觉交互系统，在可视图像与语义信息之间建立了逐像素的关联关系，实现了语义图像的生成，在包含语义信息的场景表示中，针对当前视点渲染的时候，除了渲染生成可视图像，同时也能够生成该可视图像相关的语义信息，该可视图像、对应的语义信息以及两者的关联一起成为当前视点的语义图像，可满足观看、交互等处理的信息需求，并使交互等相关处理更智能、更有效。

另外，根据本发明上述的基于语义的智能视觉交互系统，还可以具有如下附加的技术特征：

进一步地，所述显示交互模块具体用于：

显示所述语义图像中的可视图像；

获取视觉交互信息中的定位像素；

在语义图像中的语义索引图像中基于所述定位像素的坐标获得语义索引，所述语义索引图像中的像素与所述可视图像的像素按照坐标顺序一一对应，所述索引图像中每个像素值取所关联的语义本体的ID；

基于所述语义索引查询得到目标语义信息；

根据所述目标语义信息执行交互逻辑判断。

进一步地，所述系统还包括：

设定模块，用于设定虚拟视点和当前处理像素；

返回模块，用于从所述虚拟视点出发向所述当前处理像素的中心发出一条光线，追踪光线遇到的虚拟场景中的最近的目标实体，返回所述目标实体的ID；

第二获取模块，用于对所述当前处理像素执行光线追踪以得到所述当前处理像素的颜色值；

确定添加模块，用于确定所述当前处理像素关联的语义本体，并按照预设规则抽取所述当前处理像素关联的语义本体的语义信息添加到语义图像中。

进一步地，所述系统还包括：

第三获取模块，用于根据场景模型中当前实体和语义知识库中语义本体的关联，获取所述当前实体对应的语义本体、以及所述当前实体对应的语义本体的ID；

设置模块，用于将语义索引图像中当前像素值置为所述当前实体对应的语义本体的ID；

判断模块，用于判断语义图像中是否已经添加过所述当前实体对应的语义本体的语义信息；

抽取添加模块，用于若语义图像中未添加过所述当前实体对应的语义本体的语义信息，则按照预设的语义筛选规则，从语义知识库中抽取出所述当前实体对应的语义本体的ID的语义信息，并添加到可视图像的语义信息数据中。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一实施例的基于语义的智能视觉交互方法的流程图；

图2是根据本发明另一实施例的基于语义的智能视觉交互方法的流程图；

图3是某一场景模型的示意图；

图4是某一语义网结构的示意图；

图5是某一语义索引图像的示意图；

图6是对当前处理像素的处理过程示意图；

图7是根据本发明又一实施例的基于语义的智能视觉交互方法的流程图；

图8是根据本发明再一实施例的基于语义的智能视觉交互方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明一实施例提出的基于语义的智能视觉交互方法，包括步骤S101～S104。

S101，对于待生成的可视图像中的一个像素，从设置的虚拟视点出发，向所述像素的中心投射出一条视线，延长该条视线，以获取虚拟场景中视线所及的最近的实体。

S102，在预设的语义知识库中查找与所述实体对应的语义本体，并建立所述像素与所述语义本体的关联关系，以生成所述像素的语义索引，所述语义本体为所述像素的语义信息的来源，并对所述像素执行光线追踪以得到所述像素的颜色值。

其中，对像素执行光线追踪以得到像素的颜色值，其目的是为了后续生成可视图像，可视图像即是由多个具有颜色值的像素组成的图像。

S103，按照预设的抽取语义信息的规则，抽取所述语义本体的部分语义信息作为所述像素的关联语义信息，并对所述可视图像中的每个像素，分别执行上述步骤，以生成语义图像，所述语义图像包括可视图像、语义索引图像和语义信息。

其中，需要指出的是，具体是实施时，可视图像的生成与语义信息的获取可以是同时进行，也可以分先后进行，例如，先生成完整的可视图像，再获取语义信息，从而得到语义图像；或者，先获取语义信息，再生成完整的可视图像，从而得到语义图像；或者，对每个像素同时获取像素的颜色值以及语义信息，这样得到可视图像的同时，也获取到了语义信息。

S104，显示所述语义图像并进行语义交互。

其中，上述语义图像的生成过程可以由一个语义图像渲染系统实现，语义图像渲染系统包括渲染模块、语义查询模块，语义图像渲染系统以包含语义信息的场景表示为输入，输出语义图像。

包含语义信息的场景表示包括场景模型数据和场景语义知识库数据两部分，场景模型部分主要提供场景所有实体(或称实体对象)的几何、物理等方面的信息，主要用于生成可视图像和场景中物理现象模拟等。场景语义知识库部分提供本体语义及本体之间语义关系。

场景模型中的实体与语义知识库中的语义本体具有对应关系，每个场景实体对应语义知识库中唯一的语义本体，通过该对应的语义本体，可以得到场景实体相关的语义信息。

渲染模块针对一个指定的视点和视角可以生成语义图像。渲染过程中渲染模块基于场景模型数据生成可视图像，通过语义查询模块从语义知识库中抽取语义信息添加到语义图像中。

语义图像包括可视图像、语义信息及可视图像与语义信息的关联关系，语义图像可用于显示观看和基于语义的智能交互。

语义图像主要有三要素：可视图像、语义信息、可视图像与语义信息的关联关系。

语义图像中的可视图像，是可用现有渲染方法(如光线跟踪)生成的，是可在显示设备上呈现出来给人观看的图像。

对应该可视图像的语义信息是场景中实体的语义信息，是场景语义知识库的一个子集，可包含可视图像对应场景部分所涉及的语义信息的部分或全部。

可视图像与语义信息的关联关系，是以可视图像的像素与场景知识库中语义本体的关系表示的。生成该关联关系和语义信息的过程，具体为对可视图像中的每个像素，找到像素在场景中对应的实体，然后找到该实体对应的场景语义知识库中的语义本体，建立该像素与该语义本体的关联关系，并同时根据生成语义图像语义的预设规则选取该语义本体的部分语义信息添加到语义图像的语义信息中。这样，可视图像的每个像素均可通过该关联关系找到对应的语义信息。

因此，语义图像的生成过程主要包括可视图像生成、语义信息生成和可视图像与语义信息关联关系建立三个部分。

可视图像的生成采用现有的图像渲染方法可以实现，比如最经典的光线追踪方法。

语义信息生成和可视图像与语义信息关联关系建立合并在一个过程中实现。本实施例中采用视线投射法生成可视图像所关联的语义信息。

对可视图像投影成像面上的一个像素，从生成可视图像的虚拟视点出发，向该像素中心投射出一条视线，延长该条视线，找到场景中视线所及的最近的实体，在语义知识库中找到对应的语义本体，该语义本体就是该像素语义信息的来源，按照预设抽取语义信息的规则，抽取该语义本体的部分语义信息作为该像素的关联语义信息，该语义本体的ID值作为该像素到语义信息的关联值，故像素可通过语义本体的ID值找到确定唯一的语义信息。

对可视图像的每个像素重复以上过程，即完成了可视图像关联语义信息的生成，并建立了可视图像与语义信息建立了逐像素的关联关系。

在生成了语义图像之后，就可以基于该语义图像实现相关应用，作为一个具体示例，请参阅图2，步骤S105具体包括：

S201，显示所述语义图像中的可视图像；

S202，获取视觉交互信息中的定位像素；

S203，在语义图像中的语义索引图像中基于所述定位像素的坐标获得语义索引，所述语义索引图像中的像素与所述可视图像的像素按照坐标顺序一一对应，所述索引图像中每个像素的值取所关联的语义本体的ID；

S204，基于所述语义索引查询得到目标语义信息；

S205，根据所述目标语义信息执行交互逻辑判断。

一个典型的使用语义图像的应用，可以包括显示控制模块、交互控制模块和语义检索模块，来实现对语义图像的利用。显示控制模块提取语义图像中的可视图像并控制在显示界面的显示。交互控制模块控制用户的交互行为，当定位到某个具体像素时，交互逻辑可以设置出发语义检索，语义检索模块根据当前像素的坐标找到该像素关联的语义本体，进而可获得语义本体相关的语义信息，并可以根据交互逻辑的需要，向交互模块提供语义推理的支持，返回推理结果。

当在终端设备使用语义图像时，语义图像的可视图像可以显示在终端的显示界面上，同时，当用户在可视图像上定位到任意像素时，应用通过检索该像素的语义关联得到的点前像素点相关的语义信息，甚至应用可以基于语义信息推测用户的可能意图。例如，当用户的视觉关注点在当前像素位置时，可以推测用户视觉兴趣对象，并可能利用语义图像中的其他语义信息推测用户的下一个视觉注视点可能移到哪里，例如应用根据用户的视线轨迹推测用户可能会移动到左侧的最近一个实体，则通过语义推理找到当前像素处语义本体左邻关系的语义本体，应用在根据语义本体和像素的关联，可确定左邻语义本体的在点前可视图像中的像素区域，从而应用推测出用户关注点可能移动的下一个目标区域。

因此本发明既可以满足图像显示需要，也提供了实现基于语义的智能交互的可能性。

下面通过几个示例对应用场景和交互场景进行详细说明：

示例一

该示例给出了一种场景表示的具体示例、语义信息表示的具体示例、语义索引的一种实现示例，以示方法的可行性，在本示例中，场景采用X3D标准的X3DUOM(X3D统一对象模型)表示，基于该场景表示可以生成场景的语义知识库，场景中实体对应语义知识库中的语义本体，并且除了从场景X3DUOM表示中直接转化出来的语义，用户还可以根据应用需要在知识库中为语义本体添加额外的语义信息。每条语义信息采用RDF(ResourceDescription Framework)格式表示，是包含主体、谓词、客体的三元组。语义知识库构建采用OWL(Web Ontology Language，网络本体语言)规范。

语义图像包括三个部分：可视图像、语义索引图像和语义信息。语义索引图像是一个二维矩阵，二维矩阵中的每个元素对应可视图像的一个像素，元素的值是对应的语义本体的ID，每个元素称为语义索引图像的像素。当一幅语义索引图像中所有元素的值都能被解释为一个显示系统可表示的颜色值时，该语义索引图像是可以在该显示系统上显示的。语义索引图像的可显示性对直观的显示和分析视觉交互行为是有帮助的。在把语义索引图像实现为既可用于索引又能用于显示的形式时，一种简单实现方式，是根据显示系统的颜色表示规范来规定语义本体的ID的表示。例如显示系统采用24位长的RGB颜色表示时，语义本体的ID长度不能超过3个字节，语义本体ID可以采用3字节长度的任何值，比如字母数字组合或者纯数字，这一串符号在显示时将被解释为颜色值。语义知识库是符合OWL规范的语义信息库。

应用程序在使用语义图像的时候，因为语义图像的语义知识库是符合OWL标准的，语义检索模块可以采用支持SPARQL(SPARQL Protocol And RDF Query Language)的语义查询系统实现。

例如下面的简单场景用X3D表示的场景模型文件片段：

按照X3D Ontology规范，可以从以上X3D场景表示中导出场景本体语义信息，形成该场景的基础版本的语义知识库，下面是这个基础版本的语义知识库的一部分数据。在这个基础版本的语义知识库基础上，用户可以进一步为语义本体添加更多语义信息，比如空间拓扑关系等。

下面以图3展示的简单场景，较直观地、示意性地进一步说明语义本体、语义和知识库的关系和含义，所以并未采用RDF、OWL等规范语言格式。

在图3的场景模型中有花、花盆、桌子等实体，还有粒度更小的花茎、叶子、花朵、花瓣、花蕊、桌面、桌腿等实体，除了每个实体的几何信息，模型中还有它们各自的颜色和材质等属性信息。把这些信息转换成本体语言描述，得到基础的语义知识库，把场景模型中实体的名字作为知识库中语义本体的名字(ID)。

基础语义知识库对基于语义的智能交互的作用，就是机器能够知道用户当前关注的是什么及其相关的属性信息，这对于判断用户的兴趣区域是很有帮助的。

为了给智能交互提供更多语义信息，可以在知识库中手工添加这些本体之间的拓扑关系等语义关联，就形成一个典型的语义网结构，如图4。由此可见提供丰富的语义信息后智能交互具有非常大的想象空间。

上述的语义图像中的语义索引图像是一个二维矩阵，其中每个元素也称为像素，而且语义索引图像的像素与可视图像的像素按照坐标顺序一一对应。语义索引图像中的像素值就是可视图像中对应像素的语义索引，据此可以找到像素关联的本体。因此确定像素与本体对应关系的过程就是把每个像素关联到语义知识库中一个本体。多个像素可能关联到同一个本体。

语义索引图像每个像素的值取所关联的本体的ID。不管本体的ID是否为纯数字字符表示，其在计算机内部都是以二进制形式出现，因此不考虑其字符串含义的情况下，可以认为本体的ID是一个数字，而且可以看做是一个颜色系统的颜色编号。而当本体的ID是数字字符表示时，直观上就可以把它看做一个颜色编号。当语义知识库中本体ID的最大二进制字长不超过一个RGB彩色显示系统的颜色值的二进制字长时，语义索引图像可以在该系统上作为一个彩色图像可视化显示出来。因此可以把语义索引图像称为伪彩色图像。

图5是一个语义索引图像的示意图，把语义本体的ID解释为灰度值，不同ID对应不同灰度级，以此把语义索引图像解释为一个灰度图像显示出来。非常直观地，每一个灰度值的所有像素标出一个语义本体所对应场景中实体的所占像素区域。这样当注视点落到某个区域的时候，根据该对应关系就能立刻知道是在关注哪个本体，并知道相关语义信息。

针对几何场景表示，把光线追踪生成可视图像和视线投射生成语义索引图像融合为一个统一过程。

因为可视图像和语义索引图像是同维度且像素按坐标相同位置一一对应的，因此采用逐像素渲染处理的方法。对于每个像素处理过程，请参阅图6，所述方法还包括：

S301，设定虚拟视点和当前处理像素；

S302，从所述虚拟视点出发向所述当前处理像素的中心发出一条光线，追踪光线遇到的虚拟场景中的最近的目标实体，返回所述目标实体的ID；

S303，对所述当前处理像素执行光线追踪以得到所述当前处理像素的颜色值；

S304，确定所述当前处理像素关联的语义本体，并按照预设规则抽取所述当前处理像素关联的语义本体的语义信息添加到语义图像中。

当渲染模块的图形处理能力一次只能处理一个像素的光学追踪时，渲染模块处理当前像素的过程如下图所示，图6中平行线表示并行执行，S303和S304并执行效率比较高，比如S303在GPU执行，S304在CPU执行。S303和S304也可以设计为串行，效率会低一点。

此外，作为一个具体示例，请参阅图7，所述方法还包括：

S401，根据场景模型中当前实体和语义知识库中语义本体的关联，获取所述当前实体对应的语义本体、以及所述当前实体对应的语义本体的ID；

S402，将语义索引图像中当前像素值置为所述当前实体对应的语义本体的ID；

S403，判断语义图像中是否已经添加过所述当前实体对应的语义本体的语义信息；

S404，若否，则按照预设的语义筛选规则，从语义知识库中抽取出所述当前实体对应的语义本体的ID的语义信息，并添加到可视图像的语义信息数据中。

当渲染模型的图形处理能力支持多像素并行渲染时，渲染模块可以同时处理多个像素。本实施例中，假定渲染模块的图形处理能力可以支持并发处理可视图像一帧的全部像素，基于此，请参阅图8，所述方法还包括：

S501，设定虚拟视点、投影成像平面、以及成像平面像素划分；

S502，从虚拟视点出发，向每个像素中心发出一条光线，执行并发光追踪一步，每条光线遇到第一个场景物体后停止追踪，返回对应的碰撞检测点对应的实体ID；

S503，执行并行光线追踪，计算像素的颜色值

S504，确定每个像素关联的语义知识库的语义本体，按照预设规则从语义知识库抽取语义信息添加到语义图像中。

其中，S504与S304类似，S504将完成建立语义索引图像和确定每个像素的语义信息，不同的是S304只处理一个像素。

上述所有流程可以应用在一个视觉交互系统中，视觉交互系统包括显示模块、交互处理模块，语义查询模块和渲染模块。

视觉交互可以部署在一台计算机上，显示模块—显示器，交互模块包括眼动仪、鼠标键盘，语义查询模块，渲染模块，其他(CPU、GPU等)。

在计算机上有一个虚拟场景，场景表示数据中有些物体，场景模块中有这些物体的名称、几何形状、材质、颜色等。物体或物体的组成部分就是实体，每个实体有一个名字。该场景还有语义信息数据，每个实体对应语义数据中一个语义本体，简化版场景语义，只包含语义本体的名称，复杂些语义可以添加本体属性和本体之间的关系。

渲染模块根据用户在场景中浏览状态，不断为当前视点生成图像，图像显示在显示器上，用户看到显示的画面，感觉是在虚拟场景中漫游。

通过渲染模块生成语义图像，其含义是，对该图像的任意像素，都有对应的语义信息对应。在交互的应用价值，就是在用户浏览的时候，眼动仪捕捉到用户的屏幕注视点，或用鼠标点击屏幕画面，现有技术能够确定一个像素位置，但是计算机不能只凭画面色彩告诉用户当前像素位置是什么东西，它只知道像素的色彩。而采用语义图像，计算机就知道定位的这个像素关联的语义本体是谁，它有什么语义。比如关联的语义本体是猫，计算机就知道用户在注视猫。而如果像素关联的是猫眼，计算机就知道用户正在关注猫眼。基于这些交互信息，交互模块可以做一些智能的推断，推测用户的在场景的兴趣区域，或者推测用户视线可能的移动方向。如果系统具有根据用户的观看兴趣推送信息的功能，则结合语义交互能够有针对性地推送与用户当前注视语义相关的信息。

此外，可以把渲染放到服务器上，显示和交互放在终端上。终端就有显示模块、交互模块、语义查询模块、计算与通信模块。服务器上有渲染模块、语义查询模块、计算与通信模块。

除了渲染结果需通过网络传输到终端，从用户交互方面看没有区别。为了适应这种部署特点，可以在实施中做优化，比如降低网络传输数据量。当场景中实体对象的语义信息数据不变时，可以在应用开始就把全部交互语义数据全部传递到终端，之后每帧语义图像就不用传递具体语义数据，而只要包含语义索引就可以了。

如果渲染系统和终端是分离的部署方式，渲染服务器会逐帧地向终端发送语义图像，用户在终端进行交互。当用户在浏览可视图像展示的场景时，当整个场景的语义知识库是不变时，如果每次更新语义图像渲染帧都随同传送该帧的语义信息到终端，必然有大量语义信息重复传输。由于每帧传输的语义信息都是整个场景语义信息的一个子集，因此可以在应用初始化时，先把整个场景的语义知识库传递到终端上，或者根据应用的需要传递筛选后的语义知识库子集，以后每帧语义图像不需要传输具体语义信息，只要包含语义索引信息即可。这种实施方案，在渲染服务器做好配置后，可以提高服务器处理效率和传输效率。

需要指出的是，语义信息可以包括很多，可以说没有限制，知识库中用户可以按需随意添加。另一方面，在语义图像的应用中，用户也可以根据应用需要进行取舍，选取对本应用交互有用的语义信息，不需要的语义信息可以在生成语义图像的时候不予抽取，以减少数据量提高效率。

因此从语义图像生成机制上，对应有一个可预设抽取语义信息的规则。

在本实施例中，根据应用的对语义交互需求的不同，按照语义复杂度分为若干个级别，本实施例中取3级：1-本体名称语义，2-本体属性语义，3-本体推理语义。

1-本体名称语义：对应最简单的语义，就是有物体的名称，当定位到显示画面中的一点时，计算机可以知道对应的是场景中哪个物体，可以告诉物体名称。

2-本体属性语义：当定位到显示画面中的一点时，计算机可以知道对应的是场景中物体对应的语义本体，并可获得本体在知识库中的语义属性

3-本体语义推理：除了如2级计算机可以获得语义本体信息，还可以获得该语义本体与其他本体的关联语义信息。

第1级，场景知识库是内容最少的，只需要把场景模型中实体名称提取转化为本体名称即可，对本体属性不要求。甚至可以把知识库简化为表格，把本体查询简化为查表。

第2级，需要有场景知识库，与1级相比，在从场景模型中提取实体信息转化为本体信息时，不但有本体名称还有本体属性，对本体间的关联信息没有要求。

第3级，给出了本体间的关联语义，用户可以为本体添加额外的场景模型中没有其他语义信息，语义知识库能支持更多的语义推理。

综上，根据上述的基于语义的智能视觉交互方法，在可视图像与语义信息之间建立了逐像素的关联关系，实现了语义图像的生成，在包含语义信息的场景表示中，针对当前视点渲染的时候，除了渲染生成可视图像，同时也能够生成该可视图像相关的语义信息，该可视图像、对应的语义信息以及两者的关联一起成为当前视点的语义图像，可满足观看、交互等处理的信息需求，并使交互等相关处理更智能、更有效。

本发明另一实施例提出的基于语义的智能视觉交互系统，包括

生成模块，用于生成可视图像；

第一获取模块，用于对于所述可视图像中的一个像素，从生成所述可视图像的虚拟视点出发，向所述像素的中心投射出一条视线，延长该条视线，以获取虚拟场景中视线所及的最近的实体；

查找建立模块，用于在预设的语义知识库中查找与所述实体对应的语义本体，并建立所述像素与所述语义本体的关联关系，以生成所述像素的语义索引，所述语义本体为所述像素的语义信息的来源；

显示交互模块，用于显示所述语义图像并进行语义交互。

本实施例中，所述显示交互模块具体用于：

显示所述语义图像中的可视图像；

获取视觉交互信息中的定位像素；

基于所述语义索引查询得到目标语义信息；

根据所述目标语义信息执行交互逻辑判断。

本实施例中，所述语义知识库中语义本体的ID为二进制形式，所述语义知识库中语义本体的ID的最大二进制字长不超过一个RGB彩色显示系统的颜色值的二进制字长，所述语义索引图像能够以一个彩色图像可视化显示出来。

本实施例中，所述系统还包括：

设定模块，用于设定虚拟视点和当前处理像素；

本实施例中，所述系统还包括：

根据本实施例提供的基于语义的智能视觉交互系统，在可视图像与语义信息之间建立了逐像素的关联关系，实现了语义图像的生成，在包含语义信息的场景表示中，针对当前视点渲染的时候，除了渲染生成可视图像，同时也能够生成该可视图像相关的语义信息，该可视图像、对应的语义信息以及两者的关联一起成为当前视点的语义图像，可满足观看、交互等处理的信息需求，并使交互等相关处理更智能、更有效。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于语义的智能视觉交互方法，其特征在于，所述方法包括：

显示所述语义图像并进行语义交互。

2.根据权利要求1所述的基于语义的智能视觉交互方法，其特征在于，显示所述语义图像并进行语义交互的步骤具体包括：

显示所述语义图像中的可视图像；

获取视觉交互信息中的定位像素；

基于所述语义索引查询得到目标语义信息；

根据所述目标语义信息执行交互逻辑判断。

3.根据权利要求1所述的基于语义的智能视觉交互方法，其特征在于，当所述语义知识库中语义本体的ID的最大二进制字长不超过一个RGB彩色显示系统的颜色值的二进制字长时，所述语义索引图像能够以一个彩色图像可视化显示出来。

4.根据权利要求3所述的基于语义的智能视觉交互方法，其特征在于，所述方法还包括：

设定虚拟视点和当前处理像素；

5.根据权利要求3所述的基于语义的智能视觉交互方法，其特征在于，所述方法还包括：

6.一种基于语义的智能视觉交互系统，其特征在于，所述系统包括：

显示交互模块，用于显示所述语义图像并进行语义交互。

7.根据权利要求6所述的基于语义的智能视觉交互系统，其特征在于，所述显示交互模块具体用于：

显示所述语义图像中的可视图像；

获取视觉交互信息中的定位像素；

基于所述语义索引查询得到目标语义信息；

根据所述目标语义信息执行交互逻辑判断。

8.根据权利要求6所述的基于语义的智能视觉交互系统，其特征在于，当所述语义知识库中语义本体的ID的最大二进制字长不超过一个RGB彩色显示系统的颜色值的二进制字长时，所述语义索引图像能够以一个彩色图像可视化显示出来。

9.根据权利要求8所述的基于语义的智能视觉交互系统，其特征在于，所述系统还包括：

设定模块，用于设定虚拟视点和当前处理像素；

10.根据权利要求8所述的基于语义的智能视觉交互系统，其特征在于，所述系统还包括：