CN112242008A

CN112242008A - 一种用于透明容器的ar交互视觉感知方法及系统

Info

Publication number: CN112242008A
Application number: CN202011113101.1A
Authority: CN
Inventors: 李煜昕; 黄萌; 郑岩
Original assignee: Zhengzhou Xias College
Current assignee: Zhengzhou Xias College
Priority date: 2020-10-17
Filing date: 2020-10-17
Publication date: 2021-01-19
Anticipated expiration: 2040-10-17
Also published as: CN112242008B

Abstract

本发明公开了一种用于透明容器的AR交互视觉感知方法及系统，涉及人工智能领域。该方法包括如下步骤：获取场景图像，将所述场景图像经过深度神经网络处理，得到疑似透明容器区域的遮罩及其透明程度；根据所述透明程度，获取所述疑似透明容器区域为透明容器区域的初始概率；当所述初始概率大于预设概率阈值时，确认该区域为透明容器区域；获取所述透明容器区域的液面位置及液面形状；根据所述液面位置和所述液面形状获取液面中心点，结合相机的内参计算相机到所述液面中心点的距离；计算相机相对所述液面中心点的三维姿态角，然后建立三维图像模型，完成AR交互。从而解决了AR交互过程中，目标平面存在倾斜的问题，实现了相机位姿角度的精确获取。

Description

一种用于透明容器的AR交互视觉感知方法及系统

技术领域

本发明涉及AR技术领域，具体涉及一种用于透明容器的AR交互视觉感知方法及系统。

背景技术

增强现实(AR，Augmented Reality)技术是一种将虚拟信息与真实世界融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。最经典的例子是放置一个三维计算机图形学模型，使其看起来属于该场景，并且模型会随着造型机的运动很自然地移动，实现AR交互。该过程中最重要的步骤为寻找图像中的目标平面，然后根据平面求得相机姿态。

实际生活中，进行AR交互时，目标平面通常采用特定刚体或标记靶图案。但是这些平面可能存在倾斜，且程度不一，因此推理得到的相机位姿容易带有误差，从而造成虚拟信息与真实世界融合不自然等问题。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种用于透明容器的AR交互视觉感知方法及系统，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种用于透明容器的AR交互视觉感知方法，包括以下步骤：

获取场景图像，所述场景图像包括透明容器的特征信息；

将所述场景图像经过深度神经网络处理，得到疑似透明容器区域的遮罩及其透明程度m，所述透明程度为所述深度神经网络中划分的透明等级数值，范围在[0，M-1]；

根据所述透明程度，获取所述疑似透明容器区域为透明容器区域的初始概率：

其中，M为所述深度神经网络中所述透明等级的总分类数目，α为所述深度神经网络训练过程中确定的所述透明容器区域的最大可信度；

当所述初始概率大于预设概率阈值时，确认该所述疑似透明容器区域为透明容器区域；

根据所述透明容器区域中的液体与空气的分层平面，以及液体与空气对背景的畸变程度不同，获取所述透明容器区域的液面位置及液面形状；

根据所述液面位置和所述液面形状获取液面中心点，结合相机的内参计算所述相机到所述液面中心点的距离；

选取所述相机的基准状态，根据所述液面位置和所述液面形状计算所述相机相对所述液面中心点的三维姿态角；

根据所述三维姿态角和所述相机到所述液面中心的距离建立三维模型图像，将所述三维模型图像与所述场景图像进行融合，实现AR交互。

优选的，深度神经网络包括Encoder-Decoder网络分支和Encoder-FC网络分支，包括：

以所述Encoder-Decoder网络分支对所述场景图像进行语义分割，进行像素级的分类，提取所述疑似透明容器区域；

以所述Encoder-FC网络分支对所述疑似透明容器区域的透明度分类。

优选的，确定所述透明容器区域的液面位置和液面形状包括以下步骤：

建立所述透明容器区域灰度图像的行均值向量；

将所述行均值向量相邻作差获取对比序列，根据所述对比序列获得液面位置；

将所述液面位置进行图像处理，提取连通域。

优选的，初始概率还包括结合所述透明容器内液体的气泡、漂浮物和杂质，获取附加概率，综合判断对应疑似透明容器区域为透明容器区域的概率，以提高检测结果的准确率，包括以下步骤：

将每帧所述场景图像进行灰度化处理后结合所述疑似透明容器区域的遮罩去除背景；

将初始帧场景图像和判断帧场景图像作差处理，得到帧差图像，所述初始帧场景图像为采集的第一帧所述场景图像，所述判断帧场景图像为与所述初始帧场景图像相隔S帧后的场景图像；

对所述帧差图像进行全局阈值处理，统计其像素值为零的像素个数SM，计算附加概率P_b：

其中，β为附加概率的最大值，ZM为所述帧差图像内像素的总个数，w为预设的比例阈值；

结合所述初始概率获取所述疑似透明容器区域为透明容器区域的综合概率。

第二方面，本发明另一个实施例提供了一种用于透明容器的AR交互视觉感知系统，该系统包括：

图像采集模块，用于获取场景图像，所述场景图像包括透明容器的特征信息；

深度神经网络模块，用于将所述场景图像经过深度神经网络处理，得到疑似透明容器区域的遮罩及其透明程度m，所述透明程度为所述深度神经网络中划分的透明等级数值，范围在[0，M-1]；

初始概率获取模块，用于根据所述透明程度，获取所述疑似透明容器区域为透明容器区域的初始概率：

阈值判定模块，用于当所述初始概率大于预设概率阈值时，确认该所述疑似透明容器区域为透明容器区域；

液面信息获取模块，用于根据所述透明容器区域中的液体与空气的分层平面，以及液体与空气对背景的畸变程度不同，获取所述透明容器区域的液面位置及液面形状；

距离获取模块，用于根据所述液面位置和所述液面形状获取液面中心点，结合相机的内参计算所述相机到所述液面中心点的距离；

姿态角计算模块，用于选取所述相机的基准状态，根据所述液面位置和所述液面形状计算所述相机相对所述液面中心点的三维姿态角；

AR交互模块，用于根据所述三维姿态角和所述相机到所述液面中心的距离建立三维模型图像，将所述三维模型图像与所述场景图像进行融合，实现AR交互。

优选的，深度神经网络模块包括：

语义分割单元，用于以所述Encoder-Decoder网络分支对所述场景图像进行语义分割，进行像素级的分类，提取所述疑似透明容器区域；

透明程度分类单元，用于以所述Encoder-FC网络分支对所述疑似透明容器区域的透明程度感知。

优选的，液面信息获取模块包括：

向量获取单元，用于建立所述透明容器区域灰度图像的行均值向量；

液面位置获取单元，用于将所述行均值向量相邻作差获取对比序列，根据所述对比序列获得液面位置；

液面形状获取单元，用于将所述液面位置进行图像处理，提取连通域。

优选的，初始概率获取模块还包括附加概率获取单元，用于根据所述透明容器内液体的气泡、漂浮物和杂质，获取附加概率，综合判断对应疑似透明容器区域为透明容器区域的概率，以提高检测结果的准确率，所述附加概率获取单元包括：

背景去除子单元，用于将每帧所述场景图像进行灰度化处理后结合所述疑似透明容器区域的遮罩去除背景；

帧差图像获取子单元，用于将初始帧场景图像和判断帧场景图像作差处理，得到帧差图像，所述初始帧场景图像为采集的第一帧所述场景图像，所述判断帧场景图像为与所述初始帧场景图像相隔S帧后的场景图像；

附加概率计算子单元，用于对所述帧差图像进行全局阈值处理，统计其像素值为零的像素个数SM，计算附加概率P_b：

综合概率获取子单元，用于结合所述初始概率获取所述疑似透明容器区域为透明容器区域的综合概率。

本发明至少具有如下有益效果：

本发明通过深度神经网络来感知图像中疑似透明容器的存在，为了使系统判断更加准确，进一步利用过深度神经网络来感知透明容器中液体的透明程度。然后结合环境、透明容器及其内部的液体综合判断得到的透明容器的可信度。而后利用杯中液体和非液体对光线影响程度的区别来确定液面的位置，并得到液面形状。再根据实际透明容器中圆形液面的成像差异来推理得到相机的位姿，以对应相机位姿采集模型的二维成像，以相机采集真实图像和模型二维图像叠加，完成AR交互。因液面在任何情况下都是绝对的水平平面，从而解决了AR交互过程中，目标平面存在倾斜的问题，实现了AR交互过程中对相机位姿角度的精确获取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知方法的示意图；

图2为本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知方法的流程图；

图3为本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知方法中的根据液面形状确定翻滚角示意图；

图4为本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知方法中的相机、图像中液面中心和实际液面中心之间的位姿示意图；

图5为本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知系统结构图；

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于透明容器的AR交互视觉感知方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于透明容器的AR交互视觉感知方法及系统的具体方案。

请参阅图1，其示出了本发明一种用于透明容器的AR交互视觉感知方法示意图。图2示出了本发明一个实施例所提供一种用于透明容器的AR交互视觉感知方法的流程图。图3为本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知方法中的根据液面形状确定翻滚角示意图。图4示出了本发明一个实施例所提供的一种用于透明容器的AR交互视觉感知方法中的相机、图像中液面中心和实际液面中心之间的位姿示意图。

一种用于透明容器的AR交互视觉感知方法，其流程图如图2所示，包括如下步骤：

步骤1：获取场景图像，场景图像包括透明容器的特征信息；

步骤2：将场景图像经过深度神经网络处理，得到疑似透明容器区域的遮罩及其透明程度m，透明程度为深度神经网络中划分的透明等级数值，范围在[0，M-1]；

步骤3：根据透明程度，获取疑似透明容器区域为透明容器区域的初始概率：

其中，M为深度神经网络中透明等级的总分类数目，α为深度神经网络训练过程中确定的透明容器区域的最大可信度；

步骤4：当初始概率大于预设概率阈值时，确认该疑似透明容器区域为透明容器区域；

步骤5：根据透明容器区域中的液体与空气的分层平面，以及液体与空气对背景的畸变程度不同，获取透明容器区域的液面位置及液面形状；

步骤6：根据液面位置和液面形状获取液面中心点，结合相机的内参计算相机到液面中心点的距离；

步骤7：选取相机的基准状态，根据液面位置和液面形状计算相机相对液面中心点的三维姿态角；

步骤8：根据三维姿态角和相机到液面中心的距离建立三维模型图像，将三维模型图像与场景图像进行融合，实现AR交互。

综上所述，本发明实施例提供了一种基于人工智能的光伏电池板隐裂检测方法，该方法通过深度神经网络来感知图像中疑似透明容器的存在，为了使系统判断更加准确，进一步利用深度神经网络来感知透明容器中液体的透明程度。然后结合环境、透明容器及其内部的液体综合判断得到的透明容器的可信度。而后利用杯中液体和非液体对光线影响程度的区别来确定液面的位置，并得到液面形状。再根据实际透明容器中圆形液面的成像差异来推理得到相机的位姿，以对应相机位姿采集模型的二维成像，以相机采集真实图像和模型二维图像叠加，完成AR交互。因液面在任何情况下都是绝对的水平平面，从而解决了AR交互过程中，目标平面存在倾斜的问题，实现了AR交互过程中对相机位姿角度的精确获取。并且，本方法利用深度神经网络结合环境、透明容器及其内部的液体综合判断得到的透明容器的可信度，还解决了采集的背景图像因光照、曝光和反光等原因会对识别结果造成干扰的问题，提高了提取透明容器中的液面位置和液面形状的准确性。

本实施例以圆柱形的透明玻璃杯作为透明容器为例来进行进一步的说明本发明。

具体的，在本实施例的步骤1中，使用相机采集场景图像，场景图像为RGB图像。

具体的，在本实施例的步骤2中，深度神经网络包括Encoder-Decoder网络分支和Encoder-FC网络分支。深度神经网络的输入为RGB图像，输出为单通道的语义分割结果和透明程度数值。深度神经网络先使用编码器(Encoder)对场景图像进行编码，提取场景图像中的特征，而后Encoder-Decoder网络分支利用解码器(Decoder)，恢复图像并进行像素级的分类，另Encoder-FC网络分支使用全连接层网络(FC)进行分类。具体的：

以Encoder-Decoder网络分支对场景图像进行语义分割，进行像素级的分类，提取疑似透明玻璃杯区域；

以Encoder-FC网络分支对场景图像进行疑似透明玻璃杯区域的透明程度感知，透明程度共分为M级，在本实施例中，M＝10。

需要说明的是，在本实施例中，上述两个网络分支共用编码器Encoder，这样相较单纯的Encoder-FC结构，能更快的使损失函数收敛，缩短训练时间。同时两个网络分支都是对疑似透明玻璃杯区域进行判断，编码器提取的疑似透明玻璃杯区域特征能被两个分支的标签监督，训练结果更加准确。

具体的，深度神经网络的训练过程如下：

深度神经网络以采集的测试场景图像为输入，使用卷积和池化操作在对测试场景图像进行下采样的过程中，提取测试场景图像中的空域特征，编码器的输出为提取到的特征向量。

Encoder-Decoder网络分支中解码器的输入为编码器的输出特征向量，输出为语义分割结果图，该图像为单通道图像，其中像素值为其所属类别值。

Encoder-FC网络分支中全连接网络的输入也为编码器的输出特征向量，输出为各等级透明程度的可信度。其中，最大可信度对应的透明程度即为测试场景图像中透明玻璃杯区域的透明程度。

其中，Encoder-Decoder网络分支的训练标签为单通道图像，图像中进行了像素级的分类。本发明对图像中像素共分为两类，背景、透明玻璃杯。标注时，背景类像素标注像素值为0，透明玻璃杯标注像素值为1。Encoder-FC网络分支的训练标签为对应的透明程度等级数值，[0,M-1]共M类，在本实施例中，M＝10。

需要说明的是，在本实施例中，深度神经网络的训练所用数据集为相机采集的实际生活中透明玻璃杯图像，采集的透明玻璃杯状态应包括空杯子，装有有色液体，装有透明液体三类情况。在本实施例中，两个网络分支的损失函数都采用交叉熵损失函数。

需要说明的是，透明程度大的透明玻璃杯区域的颜色和周围像素的颜色差异较小，但是带有明显的畸变，深度神经网络能有通过空域特征识别出该类别。透明玻璃杯透明程度小时因装有有色液体，所以带有其他颜色，该颜色和周围背景差异较大，深度神经网络也能够通过空域特征识别出该类别。

具体的，在本实施例的步骤3中，深度神经网络输出的疑似透明玻璃杯存在一定的误判断概率。所以需要根据深度神经网络训练过程中获取的最大可信度，结合所获取的透明程度获取初始概率：

其中，m为得到的透明程度，M为深度神经网络中透明等级的总分类数目，α为深度神经网络训练过程中确定的透明玻璃杯区域的最大可信度。

在本实施例中，α＝0.8。

需要说明的是，疑似透明玻璃杯区域的可信度受到透明玻璃杯中液体所带颜色的类型和透明程度的影响，其可信度随透明程度的减小而减小。

进一步的，为了使系统判断更加准确，引入对其他特征的判断来进一步确认透明玻璃杯的存在。在上述初始概率的基础上结合透明玻璃杯内液体的气泡、漂浮物等，获取附加概率，综合判断对应疑似透明玻璃杯区域为透明玻璃杯区域的概率，具体的：

(1)将多帧场景图像进行灰度化处理，分别与疑似透明玻璃杯区域遮罩相乘操作；

(2)将初始帧场景图像和判断帧场景图像进行作差，得到帧差图像，初始帧场景图像为采集的第一帧场景图像，判断帧场景图像为与初始帧场景图像相隔S帧后的场景图像；

(3)对帧差图像以阈值K进行全局阈值处理，得到二值图像，统计二值图像内像素值为零的像素个数SM，计算附加概率P_b：

其中，ZM为整个裁剪区域内像素的总个数。w为设定的比例阈值。β为附加概率的最大值。

在本实施中，K＝5；β＝1-α；w＝0.15。

(4)结合初始概率获取疑似透明玻璃杯区域为透明玻璃杯的综合概率P：

P＝P_a+P_b

当P大于阈值H时，确认该疑似透明玻璃杯区域为透明玻璃杯区域，在本实施例中，阈值H为0.8。

具体的，在本实施的步骤5中，液面为透明玻璃杯中液体和空气的分层平面，对于透明程度小的透明玻璃杯，颜色渐变断层处即为液面。对于透明程度大的透明玻璃杯，装有液体和没有液体部分对背景的畸变程度不同，同样以畸变程度断层处判断液面。具体的：

(1)建立透明玻璃杯区域灰度图像的行均值向量：

获取第i行像素的均值G(i)：

其中，Q表示透明玻璃杯区域内共有Q列像素，I_(i，j)表示灰度图像中第i行j列像素值。

获取对应区域中每行像素的均值，建立行均值向量。

(2)将行均值向量相邻作差获取对比序列，根据对比序列获得液面位置；

具体的，在本实施例中，首先将行均值向量相邻作差得到对比序列，然后寻找对比序列中心两侧最近的两个突变点，即为液面的上限和下限，获得液面位置。

(3)将液面位置进行图像处理，提取连通域。

具体的，在本实施例中，首先将液面位置进行灰度均衡化处理，扩大像素对比度，而后使用canny算子进行边缘检测，提取连通域，获取液面形状。

具体的，在本实施例的步骤6中，相机到液面中心点的距离计算公式为：

其中，R为俯视视角下液面半径。C为液面长轴对应像素长度。f、dx和dy为相机的内参，f为相机焦距，dx为一个像素在图像中横向的实际长度，dy为一个像素在图像中纵向的实际长度。θ_C为长轴和液面图像水平线的逆时针夹角。

需要说明的是，在本实施例中，透明容器为圆柱形透明玻璃杯，所以俯视视角下液面形状为圆形，俯视角不为0时液面呈现椭圆形。

具体的，在本实施例的步骤7中，以相机在透明玻璃杯正上方的俯视视角看液面的状态为基准状态，即相机位于液面正上方，俯仰角为0，俯仰角角改变后，得到椭圆形液面，在本实施例中，以椭圆液面的长轴和短轴的比值反映俯仰角的大小。如图3所示，翻滚角为场景图像中椭圆液面长轴与水平线逆时针夹角θ_C，椭圆液面长轴与水平线夹角为0时，相机翻滚角为0。偏航角为物体与光心的连线与光轴的夹角，当物体位于图像中心时，偏航角为0。如图4所示，相机20所采集的场景图像21所处的平面与实际液面25所处平面24平行，在本实施例中，以场景图像中液面中心点22与场景图像中心点23的像素距离结合相机焦距反映偏航角yaw的大小。

具体的，相机相对液面中心点的三维姿态角为：

Roll＝θ_c

yaw＝tan^-1(L*dx/f)

其中，Roll为翻滚角，pitch为俯仰角，yaw为偏航角。B为场景图像中液面短轴的像素长度，C为场景图像中液面长轴的像素长度，L为场景图像中液面中心点与场景图像中心的像素距离。

基于与上述方法实施例相同的发明构思，本发明实施例还提供了一种用于透明容器的AR交互视觉感知系统。

请参阅图5，该用于透明容器的AR交互视觉感知系统100包括图像采集模块101、深度神经网络模块102、初始概率获取模块103、阈值判定模块104、液面信息获取模块105、距离获取模块106、姿态角计算模块107和AR交互模块108。

具体的，图像采集模块用于获取场景图像，场景图像包括透明容器的特征信息。深度神经网络模块用于将场景图像经过深度神经网络处理，得到疑似透明容器区域的遮罩及其透明程度m，透明程度为深度神经网络中划分的透明等级数值，范围在[0，M-1]。初始概率获取模块用于根据透明程度，获取疑似透明容器区域为透明容器区域的初始概率：

其中，M为深度神经网络中透明等级的总分类数目，α为深度神经网络训练过程中确定的透明容器区域的最大可信度。阈值判定模块用于当初始概率大于预设概率阈值时，确认该疑似透明容器区域为透明容器区域。液面信息获取模块用于根据透明容器区域中的液体与空气的分层平面，以及液体与空气对背景的畸变程度不同，获取透明容器区域的液面位置及液面形状。距离获取模块用于根据液面位置和液面形状获取液面中心点，结合相机的内参计算相机到液面中心点的距离。姿态角计算模块用于选取相机的基准状态，根据液面位置和液面形状计算相机相对液面中心点的三维姿态角。AR交互模块用于根据三维姿态角和相机到液面中心的距离建立三维模型图像，将三维模型图像与场景图像进行融合，实现AR交互。

进一步的，深度神经网络模块包括E语义分割单元和透明程度分类单元。具体的，语义分割单元用于以Encoder-Decoder网络分支对场景图像进行语义分割，进行像素级的分类，提取疑似透明容器区域。透明程度分类单元用于以Encoder-FC网络分支对场景图像进行疑似透明容器区域的透明程度感知。

进一步的，液面信息获取模块包括向量获取单元、液面位置获取单元和液面形状获取单元，具体的，向量获取单元用于建立透明容器区域灰度图像的行均值向量。液面位置获取单元用于将行均值向量相邻作差获取对比序列，根据对比序列获得液面位置。液面形状获取单元用于将液面位置进行图像处理，提取连通域。

进一步的，初始概率获取模块还附加概率获取单元，用于根据透明容器内液体的气泡、漂浮物和杂质，获取附加概率，综合判断对应疑似透明容器区域为透明容器区域的概率，以提高检测结果的准确率。其中，附加概率获取单元包括背景去除子单元、帧差图像获取子单元、附加概率计算子单元和综合概率获取子单元。具体的：

背景去除子单元，用于将每帧场景图像进行灰度化处理后结合疑似透明容器区域的遮罩去除背景；

帧差图像获取子单元，用于将初始帧场景图像和判断帧场景图像作差处理，得到帧差图像，初始帧场景图像为采集的第一帧场景图像，判断帧场景图像为与初始帧场景图像相隔S帧后的场景图像；

附加概率计算子单元，用于对帧差图像进行全局阈值处理，统计其像素值为零的像素个数SM，计算附加概率P_b：

其中，β为附加概率的最大值，ZM为帧差图像内像素的总个数，w为预设的比例阈值；

综合概率获取子单元，用于结合初始概率获取疑似透明容器区域为透明容器区域的综合概率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。