CN105335699A

CN105335699A - 读写场景中读写元素三维坐标的智能认定方法及其应用

Info

Publication number: CN105335699A
Application number: CN201510641377.XA
Authority: CN
Inventors: 李乔亮
Original assignee: 李乔亮
Current assignee: Shenzhen University
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2016-02-17
Anticipated expiration: 2035-09-30
Also published as: CN105335699B

Abstract

一种能应用于全智能化预防近视装置中的对青少年读写场景中读写元素三维坐标的智能认定方法及其应用，采用该方法的智能装置能够在读写场景中与青少年身体无任何接触的状态下，自动、准确判断青少年读写姿势的正确与否。其采用二维图像传感器获取至少二幅读写场景的原始图像，再采用立体匹配方法获得与原始图像对应的深度图像并获知目标读写元素的三维坐标。本发明通过合理设置图像信息采集的频度，通过中央处理器的计算可以精确获知该读写场景中任意二个读写元素之间静态或动态情况下的距离以及某一读写元素处于一种状态维持的时间长短和判断某一读写元素所处状态是否正常。

Description

读写场景中读写元素三维坐标的智能认定方法及其应用

技术领域

本发明涉及一种通过二维图像识别空间物理点三维坐标的方法，特别涉及一种在读写场景中寻找读写元素的三维坐标的方法及其应用。

背景技术

随着科学技术的不断进步，各种智能产品应运而生，目前，在预防青少年近视方面涉及的防近视装置仍使用传统的机械或电子产品，如：佩戴在处于读书状态下的青少年头部或肩部的机械部件或以超声波或红外线作为测试媒介的电子部件。

机械部件，通过与青少年身体的直接接触来测量青少年读写姿势是否正确，其缺点是增加佩戴者的体力负担，长期使用易使佩戴者生厌，而且测量准确率较低。

电子部件，不论是将其对准人的头面部或者将其佩戴在青少年头部或耳部，其中的传感器位置在安装时都需要事先校准，其只能测量传感器到头部(或传感器到书本)的单点距离，并进行几何推算，估算出头部到书本的距离，不能精确测量人眼到书本的距离。由于基于单点测量，所以，测量精度会随头部在读写过程中的摇动而降低，若采用佩戴式的电子部件仍存在与机械部件相同的缺陷。

目前，无接触、纯智能的通过获取青少年读写场景图像来预防青少年近视的装置还未出现，其存在的瓶颈是如何使中央处理器正确、有效和精确识别该读写场景中包括读写人貌姿、读写的书本和/或依托该书本的桌面等读写元素的空间位置。

发明内容

本发明要解决的技术问题是提供一种能应用于全智能化预防近视装置中的对青少年读写场景中读写元素三维坐标的智能认定方法及其应用，采用该方法的智能装置能够在读写场景中与青少年身体无任何接触的状态下，自动、准确判断青少年读写姿势的正确与否。

为了解决上述技术问题，本发明采用的技术方案为：

本发明的读写场景中读写元素三维坐标的智能认定方法，采用至少一个与中央处理器连接的二维图像传感器，以不同位置或视角获取至少二幅该读写场景中包括读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素在内的原始图像，所述中央处理器基于该图像传感器标定参数，采用立体匹配方法获得与至少一幅原始图像对应的深度图像并获知所述读写元素中任一目标读写元素的三维坐标。

所述目标读写元素的三维坐标按以下步骤获取：

1)通过设定空间原点及边界定义三维扫描体，该扫描体为在Z方向上具有设定厚度的矩形体；

2)在Z方向上，将扫描体等间隔划分为大小相同位置不同的子扫描体；

3)基于所述原始图像和深度图像，求取所有子扫描体的点云密度；

4)沿Z轴方向扫描所述子扫描体，当扫描到的某个子扫描体的点云密度达到目标读写元素的设定阈值时，则判定当前子扫描体的中心位置为该目标读写元素的空间位置。

所述空间原点为读写人面部轮廓中的嘴角标志点，所述目标读写元素为书本，在该空间原点以下0cm－80cm内，采用所述扫描体逐层扫描认定该书本的三维坐标。

采用haar特征和adaboost分类器模式的识别方法在原始图像中识别目标并基于深度图像获取所述空间原点的三维坐标。

所述图像传感器为一个黑白或彩色图像传感器，采用该图像传感器获取所述深度图像的步骤如下：

1)设定该图像传感器的几何位置或焦距，根据确定的标定物标定图像传感器的相机参数；

2)对包含所述目标读写元素所在的场景进行成像，获取第一幅原始图像并保存；

3)改变传感器的几何位置或焦距，对包含所述目标读写元素所在的场景再次进行成像，获取与第一幅原始图像成极几何约束关系的第二幅原始图像并保存；

4)采用局部、半全局或全局的立体匹配方法获取视差图并转换为所述的深度图像。

所述图像传感器为二个黑白或彩色图像传感器，采用该图像传感器获取所述深度图像的步骤如下：

1)将二个图像传感器以左右方位分布，根据确定的标定物标定图像传感器的相机参数；

2)使用二个图像传感器分别对包含目标读写元素所在的场景进行成像，获取左向图像和右向图像并保存，所述左向图像与右向图像成极几何约束关系；

3)采用局部、半全局或全局的立体匹配方法获取视差图并转换为深度图像。

所述获取视差图并转换为深度图像采用的是blockmatching的局部立体匹配方法。

本发明的自动测量读写距离的方法，包括中央处理器，应用本发明的所述的方法，认定读写场景中包括以读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素的三维坐标，分别确定读写人双眼和置于读写状态下的书本的三维坐标，由所述中央处理器动态跟踪并自动读出读写人双眼到所述书本的直线距离。

本发明的自动测量读写姿态的方法，包括中央处理器，应用本发明的所述的方法，认定读写场景中包括以读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素的三维坐标，设定读写人处于标准读写状态时对应的标准身姿的三维坐标，由该中央处理器动态跟踪并获取读写人动态读写姿势时对应的动态身姿的三维坐标，计算读写人动态身姿与标准身姿的三维坐标偏差值并输出。

本发明的自动测量读写姿态持续时间的方法，包括中央处理器，应用本发明的所述的方法，认定读写场景中包括以读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素的三维坐标，设定读写人相对于该读写元素处于标准读写状态时对应的标准身姿的三维坐标，由中央处理器动态跟踪并获取读写人处于该标准身姿下的连续累积时间并输出。

本发明通过采用成本较低且结构简单的二维图像传感器，以不同位置或视角获取二幅青少年读写场景中涉及读写元素(该读写元素可涵盖该读写场景中与青少年读写时相关的物理点，如青少年的身体姿态、头面部状态、读写的书本、依托该书本的桌面、光线明暗度等)在内的原始图像，再将原始图像信息存入中央处理器，由中央处理器基于该图像传感器标定参数，采用立体匹配方法获得与原始图像对应的深度图像，之后，获取读写元素中任一目标读写元素的三维坐标。本发明通过合理设置图像信息采集的频度，通过中央处理器的计算可以精确获知该读写场景中任意二个读写元素之间静态或动态情况下的距离以及某一读写元素处于一种状态维持的时间长短和判断某一读写元素所处状态是否正常。

附图说明

图1为图像获取原理图。

图2为头面部三维定位流程图。

图3为读写元素的三维坐标定位流程图。

具体实施方式

本发明的读写场景中读写元素三维坐标的智能认定方法及其应用，是采用由成本较低、结构简单的二维图像传感器，获得青少年(也称读写人)读书时所在的读写场景中的原始图像信息，之后再将该信息存入计算机(包括电脑、嵌入式的微处理器或含CPU的单片机等中央处理器，下同)。通过对图像传感器标定相机参数、立体匹配获得与原始图像对应的深度图像，继而获取所述读写场景中包括读写人貌姿、读写的书本、依托该书本的桌面等与青少年读写时相关的任一物理点(即所述的读写元素，对这些读写元素中指定的某个读写元素简称为目标读写元素，下同)的三维坐标。

该方法可使计算机自动精确识别所获得的二维原始图像信息中各读写元素之间的空间位置关系、目标读写元素的实时三维状态与设定的该读写元素的标准三维状态之间的变化值以及目标读写元素处于一种三维状态时持续的时间等等。

通过编程设计，将本发明的方法应用于预防青少年近视的相关装置中，通过设置于该装置中的二维图像传感器就可以很容易的获知处于读写场景中的青少年的读写姿势是否正常、其双眼距离书本的距离如何及读写持续的时间是否过长等信息，继而通过报警部件发出提示信息。

本发明的方法如下：

采用与计算机连接的二维图像传感器，以不同位置或视角获取至少二幅青少年读写场景原始图像，分别为第一幅原始图像和第二幅原始图像，再由计算机基于该图像传感器标定参数，采用立体匹配方法获得与二幅原始图像中至少一幅相对应的深度图像。

二维图像传感器可以为一个黑白或彩色的图像传感器，也可以为二个黑白或彩色的图像传感器，其获取深度图像的方法分述如下：

1、一个黑白或彩色图像传感器

1)设定该图像传感器的几何位置或焦距，根据确定的标定物标定图像传感器的相机参数。

相机标定的概念如下：

在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到，这个求解参数的过程就称之为相机标定(或摄像机标定)。

本发明采用以下步骤进行相机标定：

a.设定方格纸板为标定物，设定图像传感器的焦距及其他光学参数。

b.若只采用一个图像传感器，则需移动图像传感器从不同几何位置、角度上对标定物进行多次拍摄(若采用二个图像传感器，可将二个传感器固定在不同的几何位置上同时进行拍摄)。

c.基于拍摄的图像序列，利用几何约束关系采用角点匹配标定算法，求取该图像传感器的内外参数矩阵，存储为标定参数。

4)采用局部(local)、半全局(Semi-global)或全局(global)的立体匹配方法获取视差图并转换为深度图像。

为了提高计算效率，此实例中可通过采用blockmatching的局部立体匹配方法获取视差图并转换为深度图像。

2、二个黑白或彩色图像传感器

1)将二个图像传感器以左右方位分布，根据确定的标定物标定图像传感器的相机参数(标定方法同上)。

2)使用二个图像传感器分别对包含目标读写元素所在的场景进行成像，获取左向图像和右向图像并保存，所述左向图像与右向图像成极几何约束关系。

3)采用局部(local)、半全局(Semi-global)或全局(global)的立体匹配方法获取视差图并转换为深度图像。

同样，为了提高计算效率，本实例中也可通过采用blockmatching的局部立体匹配方法获取视差图并转换为深度图像。

所述目标读写元素的三维坐标可按以下步骤获取：

4)沿Z轴方向(从大值到小值或者反向)逐层扫描所述子扫描体，当扫描到的某个子扫描体的点云密度达到目标读写元素的设定阈值时，则判定当前子扫描体的中心位置为该目标读写元素的空间位置。

本发明的方法优选的所述空间原点为读写人面部轮廓的嘴巴中心点，在该空间原点以下0cm－80cm内采用所述扫描体逐层扫描认定读写场景中以书本为目标读写元素的三维坐标。0cm－80cm是指认定一个人在正常读写状态时，通常放置在桌面上的书本与其下巴之间的垂直距离落在这个范围内。

本发明可通过以下方式获取以读写人嘴巴中心点为空间原点的三维坐标：

1)采用haar特征和adaboost分类器模式的识别方法，在原始图像中定位人面部轮廓的二维坐标。

2)在人脸的二维区域内，采用针对嘴巴对象的adaboost分类器检测嘴巴。检测限定在人面部区域，提高了可靠性。

3)基于深度图像与原始图像的对应关系，求出面部轮廓，嘴巴及其中心点的坐标。

本发明方法至少有如下三种应用：

1、自动测量读写场景中读写人的双眼到书本之间的距离

通过设置图像采集的频度，按本发明的方法实时获取读写人双眼和置于读写状态下的书本的三维坐标，先由计算机自动读出读写人双眼到所述书本的直线距离，再将该实时数据与事先存入计算机中的正确读写状态对应的标准距离相比较，就可以获知该读写人是否处于正确的读写状态(当然在实际应用中，还应考虑给予该读写人处于不正确读写状态时允许持续的时间值)。

2、自动测量读写人读写姿态

即当读写人在读写时，其身姿是否正确。不正确的身姿有：歪着头看书、扭着身看书等(有时，在这种不正确的身姿状态下，其双眼距书本的距离却在合理范围内)。

首先在读写人的面部、头部或肩部设置特征识别点构成三维身姿网，通过设置图像采集的频度，按本发明的方法实时获取该三维身姿网的三维坐标，之后再与事先存入计算机中的处于正确读写状态时对应的标准身姿的三维坐标进行比对，就可获知该读写人读书时是否处于正常的姿势(同上，在实际应用中，还应考虑给予该读写人处于不正常读写姿势时允许持续的时间值)。

3、自动测量读写人读写姿态持续时间

即便读写人读写距离、姿势都正确，但读书持续的时间太长，也会损坏青少年的视力，因此，与前二个应用相同，通过设置图像采集的频度，按本发明的方法实时获取读写人处于标准身姿、正确距离状态下的连续累积时间。当超出设定时间时，就可提醒读写人适当休息。

本发明涉及的基础原理如下：

立体视觉(StereoVision)是机器视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。融合两只眼睛获得的图像并观察它们之间的差别，使我们可以获得明显的深度感，建立特征间的对应关系，将同一空间物理点在不同图像中的映像点对应起来，这个差别，我们称作视差(Disparity)图像。

图像获取

图像获取过程可分为单传感器获取和双传感器获取，其中单个传感器可在移动位置获取，而两个传感器可固定在不同几何位置上获取。两个方法的原理类似，都是在目标物体的不同位置或不同视角上进行采集，从而获得如图1所示的左右视图。

极几何概念：

其是机器视觉中摄像机标定中的技术名词，在世界坐标系，观察坐标系，像素坐标系等坐标系转换中是很重要的一个概念。

对于双目视觉系统，即有两个摄像机，定义两个摄像机的光学中心点为C1、C2，在三维空间中存在一个场景点P(x,y,z)，这个点与两个摄像机光学中心点共同构成的平面就是对极平面，每个摄像机都有一个图像平面，分别为左图像平面和右图像平面，C1、P点连线与左图像平面交于p1点，C2、P点连线与右图像平面交于p2点，而C1、C2连线分别与左图像平面和右图像平面交于e1和e2点；这两个点称为极点，C1、C2连线称为基线。对极平面与左图像平面和右图像平面分别相交于两条极线L和R，这两条极线的关系是对应的，而p1和e1点落于L极线上，p2和e2点落于R极线上。

随着三维场景点P(x,y,z)的移动，极平面将绕着基线转动，这些极平面共同构成一个对极平面束，这些对极平面与图像平面所交汇成的极线族分别都交于两个极点e1和e2。

假如我们只知道P(x,y,z)投射在左图像平面上的投射点p1，我们如何去获知p1点在右图像平面上的相应点p2呢，这个相应点p2符合什么样一种几何规则呢？我们知道，对极平面是由基线、p1和P共同构成的，因此，相应点p2也一定位于该对极平面上，即可以得出p2点位于对极平面与另一个图像平面(即右图像平面)的交线R上，也即p2点是投射点p1点的反向投影在第二个视角(即右图像平面)上的图像。这种关系在立体对应算中有很大的好处，那就是不需要在整幅图像上寻找P(x,y,z)的对应点，而只需要把范围限定在极线R上即可。

标定与视差计算原理

物体表面点的三维几何位置与其在图像中对应点之间的相互关系由摄像机成像的几何模型决定，标定是指通过实验和计算获得这些传感器参数的过程。现有技术中摄像机标定方法一般包括传统标定方法和自标定方法。本发明采用传统标定方法，将具有己知形状、尺寸的标定参照物作为传感器的捕捉对象。利用空间变换求取传感器模型的内部和外部参数。其中，内部参数是指相机内部几何、光学参数，外部参数是指相机坐标系与世界坐标系的转换参数。

这里，我们设定B为基线距离，相机焦距为f。设两摄像机在同一时刻观看空间物体的同一特征点P(x_c,y_c,z_c)，分别在左图和右图上获取了点P的图像，它们的图像坐标分别为p_left＝(X_left,Y_left)，p_right＝(X_right,Y_right)，由三角几何关系得到：

\{\begin{matrix} X_{l e f t} = f \frac{x_{c}}{z_{c}} \\ X_{r i g h t} = f \frac{(x_{c} - B)}{z_{c}} \\ Y = f \frac{y_{c}}{z_{c}} \end{matrix} - - - (1)

则视差为：Disparity＝X_left-X_right。由此可计算出点P在相机坐标系下的三维坐标为：

\{\begin{matrix} x_{c} = \frac{B \cdot X_{l e f t}}{D i s p a r i t y} \\ y_{c} = \frac{B \cdot Y}{D i s p a r i t y} \\ z_{c} = \frac{B \cdot f}{D i s p a r i t y} \end{matrix} - - - (2)

因此，左相机像面(即所述的左图像平面)上的任意一点只要能在右相机像面(即所述的右图像平面)上找到对应的匹配点，就可以确定出该点的三维坐标。

图像校正

要计算目标点在左右两个视图上形成的视差，需要在二维空间上匹配对应点。为了减少匹配搜索范围，我们利用极线约束使得对应点的匹配由二维搜索降为一维搜索。图像校正的作用就是把两幅图像严格地进行对应，使得两幅图像的对极线在同一水平线上，一幅图像上任意一点与其在另一幅图像中同一行的某个点对应，只需在该行进行一维搜索即可匹配到对应点。本发明采用外极线约束将搜索范围可以限制在外极线上的一个很小区间内，提高搜索速度，同时减少假匹配点的数量。

立体匹配

立体匹配从图对中的一幅图像中选择一种图像特征(如图像灰度)，在另一幅图像中确定出同一物理结构的对应图像特征，从而获取这两个特征之间的相对位置，计算出视差，进而可根据式(2)计算三维坐标。根据约束方式的不同,已有立体匹配算法大致分为三类:一类为局部(Local)匹配算法，包括基于区域的立体匹配算法(blockmatching,BM)、基于特征的立体匹配算法；另一类为全局(Global)最优算法，该算法将匹配过程看为寻找能量方程最小值的过程，包括基于动态规划算法、图割法(graphcuts)、置信度传播算法(beliefpropagation)等，最后还有一类是介于局部与全局之间的半全局算法(Semi-global)。本设计采用BM局部匹配算法，同时对校正后的图像进行金字塔多分辨率分解，进一步降低计算复杂度，提高实时性。本设计采用下式作为匹配测度。

\min_{d = d_{\min}}^{d_{\max}} Σ_{i = - \frac{m}{2}}^{\frac{m}{2}} Σ_{j = - \frac{m}{2}}^{\frac{m}{2}} | I_{r i g h t} [x + i] [y + j] - I_{l e f t} [x + i + d] [y + j] | - - - (3)

其中：d_min和d_max是最小和最大视差，m是模板尺寸，I_right和I_left是右边和左边的图像。

读写场景中人头面部的三维坐标定位

如图2所示，读写人头面部的三维定位有两类方法。1)可从原始图像中检测人脸，获取头面部的二维坐标，然后基于深度图像，找到对应的z坐标后，从而将头面部映射到三维空间。2)直接在三维空间中，基于3DAAM等人脸模型定位人脸。

本发明为了提高实时性，对第一类方法进行改进。在adaboost分类之前，采用肤色模型检测备选人脸区域，缩小adaboost的检测范围，流程图如图2所示。

读写场景中读写元素(书或桌面)的三维坐标定位

如图3所示，读写场景中，读写元素(书本或桌面)的颜色、形状、摆放具有很多不确定性。直接利用模式识别方法识别书本或桌面，其鲁棒性不能保证。本发明针对读写场景的特殊性，提出一种可靠的检测算法：

1)定义人脸下方的某一个封闭三维空间Q为读写元素(书或桌面)的待检测区域，定义上下方向为z方向。

2)在z方向上，以deltaZ为间隔，将空间Q等分为n个大小相同位置不同的三维子空间{Q1,Q2,…Qn}。

3)基于原始图像和深度图像，求取三维子空间{Q1,Q2,…Qn}的点云密度。

4)从上向下的方向(z减少)扫描上述子空间，当所述子空间的点云密度达到目标读写元素的设定阈值时，则判定当前子空间的中心位置为该目标读写元素的位置。

鲁棒性注释：

鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定(结构，大小)的参数摄动下，维持其它某些性能的特性。

Claims

1.一种读写场景中读写元素三维坐标的智能认定方法，其特征在于：采用至少一个与中央处理器连接的二维图像传感器，以不同位置或视角获取至少二幅该读写场景中包括读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素在内的原始图像，所述中央处理器基于该图像传感器标定参数，采用立体匹配方法获得与至少一幅原始图像对应的深度图像并获知所述读写元素中任一目标读写元素的三维坐标。

2.根据权利要求1所述的方法，其特征在于：所述目标读写元素的三维坐标按以下步骤获取：

3.根据权利要求2所述的方法，其特征在于：所述空间原点为读写人面部轮廓中的嘴角标志点，所述目标读写元素为书本，在该空间原点以下0cm－80cm内，采用所述扫描体逐层扫描认定该书本的三维坐标。

4.根据权利要求3所述的方法，其特征在于：采用haar特征和adaboost分类器模式的识别方法在原始图像中识别目标并基于深度图像获取所述空间原点的三维坐标。

5.根据权利要求1－4中任一项所述的方法，其特征在于：所述图像传感器为一个黑白或彩色图像传感器，采用该图像传感器获取所述深度图像的步骤如下：

6.根据权利要求1－4中任一项所述的方法，其特征在于：所述图像传感器为二个黑白或彩色图像传感器，采用该图像传感器获取所述深度图像的步骤如下：

7.根据权利要求6所述的方法，其特征在于：所述获取视差图并转换为深度图像采用的是blockmatching的局部立体匹配方法。

8.一种自动测量读写距离的方法，包括中央处理器，其特征在于：应用权利要求1－7中任一项所述的方法，认定读写场景中包括以读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素的三维坐标，分别确定读写人双眼和置于读写状态下的书本的三维坐标，由所述中央处理器动态跟踪并自动读出读写人双眼到所述书本的直线距离。

9.一种自动测量读写姿态的方法，包括中央处理器，其特征在于：应用权利要求1－7中任一项所述的方法，认定读写场景中包括以读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素的三维坐标，设定读写人处于标准读写状态时对应的标准身姿的三维坐标，由该中央处理器动态跟踪并获取读写人动态读写姿势时对应的动态身姿的三维坐标，计算读写人动态身姿与标准身姿的三维坐标偏差值并输出。

10.一种自动测量读写姿态持续时间的方法，包括中央处理器，其特征在于：应用权利要求1－7中任一项所述的方法，认定读写场景中包括以读写人貌姿、读写的书本和/或依托该书本的桌面为读写元素的三维坐标，设定读写人相对于该读写元素处于标准读写状态时对应的标准身姿的三维坐标，由中央处理器动态跟踪并获取读写人处于该标准身姿下的连续累积时间并输出。