CN107646113A

CN107646113A - 识别视频序列中的活的皮肤组织

Info

Publication number: CN107646113A
Application number: CN201680029354.6A
Authority: CN
Inventors: 王文锦; G·德哈恩
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2015-05-21
Filing date: 2016-05-20
Publication date: 2018-01-30
Also published as: JP2018515854A; JP6549734B2; EP3298539A1; US20160343130A1; US10242441B2; WO2016185004A1

Abstract

根据一个方面，提供了一种用于识别视频序列中的活的皮肤组织的装置，所述装置包括：处理单元，其被配置为接收视频序列，所述视频序列包括多个图像帧；将所述图像帧中的每个划分成多个帧分段，其中，每个帧分段是所述图像帧中的邻近的像素的组；形成多个视频子序列，每个视频子序列包括来自所述多个图像帧中的两个或更多个的帧分段；分析所述多个视频子序列以确定针对每个视频子序列的脉动信号；基于每个确定的脉动信号与其他确定的脉动信号中的每个的成对相似度来确定相似度矩阵；并且根据所述相似度矩阵来识别所述视频序列中的活的皮肤组织的区。

Description

识别视频序列中的活的皮肤组织

技术领域

本发明涉及用于识别视频序列中的活的皮肤组织的装置和方法。

背景技术

近年来，已经开发出了用于执行远程光体积描记(远程PPG或rPPG)的技术。这些技术使得能够从使用成像单元(例如，相机)捕获的图像帧的视频序列获得PPG信号。期望能够处理视频序列并自动提取rPPG信号，使得能够自动监视对象。然而，这需要自动识别视频序列中的活的皮肤组织的区。

作为计算机视觉的基础课题之一，在视频中检测对象的任务在过去的几十年里已经得到了广泛的研究。给定包含对象的视频序列，目标是定位与对象的身体部分相对应的区域。大多数现有的工作是利用人类外观特征来在监督训练机制中辨别对象与背景。然而，关于这些方法的一个共同问题是，他们训练的特征不是对人类独有的，任何与人类外观相似的特征都可能被错误地分类。此外，受监督的方法通常受限于已知的样本，并且当发生不可预测的样本时倾向于失败，例如，用正面训练的面部检测器不能定位从侧面观看的面部，而利用浅色皮肤的对象训练的皮肤分类器在深色皮肤对象的情况下会失败。

基于rPPG技术的发展，已经观察到，与物理外观特征相比，不可见的生理特征(例如，脉动)能够更好地将视频序列中的人类与非人类区分开来。在自然环境中，只有活的对象的皮肤组织展现出脉动性，因此任何不显示脉动信号的目标都能够被安全地分类为非人类类别。这能够防止对具有与人类相似的外观的目标的错误检测，例如如图1所示。

图1提供了活体组织检测技术应当如何成功操作的两个范例。在左边图像中，人类面部和人造面部被提供为面向相机，并且只有人类面部应当被识别出(尽管人造面部具有与人类面部相似的物理外观特征)，如虚线框所指示的并且该区的轮廓对应于活的皮肤组织。在右边图像中，人类面部和人造面部被提供为侧向于相机，并且只有人类面部才能被识别出。

在G.Gibert和D.D'Alessandro以及F.Lance的文章“Face detection methodbased on photoplethysmography”(10th IEEE International Conference on AdvancedVideo and Signal Based Surveillance(AVSS)，第449-453页，2013年)中，设置了硬阈值以选择具有较高频谱能量的分割局部区域(例如，网格、三角形或体素)作为皮肤区域。在R.van Luijtelaar、W.Wang、S.Stuijk和G.de Haan的文章“Automatic ROI detection forrPPG measurements”(ACCV 2014，新加坡)中，使用预定义的聚类参数来对与皮肤区域共有相似性的区域进行聚类。

然而，这些方法不是无参数的，对在实际使用情况下的实际挑战不够鲁棒，即，针对成年人调谐的硬阈值不适用于新生儿；并且预定义的聚类数量或密度对于多对象检测是不灵活的。

因此，目的是提供一种用于识别视频序列中的活的皮肤组织的改进的方法和装置。

发明内容

根据第一方面，提供了一种用于识别视频序列中的活的皮肤组织的方法，所述方法包括：获得视频序列，所述视频序列包括多个图像帧；将所述图像帧中的每个划分成多个帧分段，其中，每个帧分段是所述图像帧中的邻近的像素的组；形成多个视频子序列，每个视频子序列包括来自所述多个图像帧中的两个或更多个的帧分段；分析所述多个视频子序列以确定针对每个视频子序列的脉动信号；基于针对每个确定的脉动信号与其他确定的脉动信号中的每个的成对相似度来确定相似度矩阵；并且根据所述相似度矩阵来识别所述视频序列中的活的皮肤组织的区。

在一些实施例中，确定相似度矩阵的步骤能够包括：确定所述成对相似度；并且通过组合所确定的成对相似度来形成所述相似度矩阵。

在一些实施例中，确定所述成对相似度的步骤能够包括：针对每个脉动信号确定所述脉动信号与其他脉动信号中的每个之间的成对相似度的度量。

在备选实施例中，确定所述成对相似度的步骤能够包括：确定针对每个脉动信号与所述其他脉动信号中的每个的成对相似度的两个或更多个度量；并且将针对每个脉动信号的成对相似度的所述两个或更多个度量进行组合以形成表示针对每个脉动信号与所述其他脉动信号中的每个的所述成对相似度的距离量度；其中，所述相似度矩阵是基于所述距离量度来确定的。

在一些实施例中，针对脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括两个脉动信号的频谱之间的相关性的度量。在备选实施例或另外的实施例中，针对脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括两个脉动信号的频谱之间的归一化的互相关性的度量。在备选实施例或另外的实施例中，针对脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括两个脉动信号的频谱之间的相关性的正则性的度量。在备选实施例或另外的实施例中，脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括两个脉动信号的内积的结果。

在一些实施例中，所述成对相似度能够包括基于频率的成对相似度。

在一些实施例中，根据所述相似度矩阵来识别所述图像序列中的活的皮肤组织的区的步骤能够包括对所述相似度矩阵执行矩阵分解。

在一些实施例中，执行矩阵分解能够包括使用以下中的一个或多个：奇异值分解(SVD)、QR分解、稀疏SVD、增量SVD、主成分分析(PCA)以及独立成分分析(ICA)。

每个帧分段通常是所述图像帧中的邻近的像素的组。在一些实施例中，每个帧分段具有相同的形状。在备选实施例中，将所述图像帧中的每个分成多个帧分段的步骤包括：基于像素的颜色和空间相似度将所述像素分组成帧分段。

在一些实施例中，形成多个视频子序列的步骤能够包括：根据所述多个图像帧中的对应的空间位置中的帧分段来形成每个视频子序列。在备选实施例中，形成多个视频子序列的步骤能够包括：针对每个视频子序列，从所述多个图像帧中的每个图像帧中选择帧分段来形成多个视频子序列，使得在所述视频子序列中的所述帧分段之间的色度能量和/或空间距离能量被最小化。

在一些实施例中，分析所述视频子序列以确定脉动信号的步骤能够包括：针对帧分段中的每个像素对像素值进行平均化；并且根据针对视频子序列中的每个帧分段的经平均化的像素值来形成针对所述视频子序列的所述脉动信号。

在一些实施例中，对像素值进行平均化的步骤包括：对帧分段中的像素的所述像素值进行加权，其中，所述像素值是基于所述帧分段中的所述像素的空间位置和/或与所述帧分段的中心处或所述中心附近的像素或像素的组的颜色差异而被加权的；并且对帧分段中的像素的经加权的像素值进行平均化。

在一些实施例中，所述方法还包括以下步骤：根据与所述视频序列中的识别出的活的皮肤组织的区相关联的一个或多个脉动信号来确定一个或多个生理特性。

根据第二方面，提供了一种包括计算机可读介质的计算机程序产品，所述计算机可读介质具有被实施在其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器运行时令所述计算机或处理器执行上述方法中的任一种。

根据第三方面，提供了一种用于识别视频序列中的活的皮肤组织的装置，所述装置包括：处理单元，其被配置为：接收视频序列，所述视频序列包括多个图像帧；将所述图像帧中的每个划分成多个帧分段，其中，每个帧分段是所述图像帧中的邻近的像素的组；形成多个视频子序列，每个视频子序列包括来自所述多个图像帧中的两个或更多个的帧分段；分析所述多个视频子序列以确定针对每个视频子序列的脉动信号；基于针对每个确定的脉动信号与其他确定的脉动信号中的每个的成对相似度来确定相似度矩阵；并且根据所述相似度矩阵来识别所述视频序列中的活的皮肤组织的区。

在一些实施例中，所述处理单元被配置为通过以下来来确定相似度矩阵：确定所述成对相似度并且通过组合所确定的成对相似度来形成所述相似度矩阵。

在一些实施例中，所述处理单元被配置为通过针对每个脉动信号确定所述脉动信号与所述其他脉动信号中的每个之间的成对相似度的度量来确定所述成对相似度。

在备选实施例中，所述处理单元被配置为通过确定针对每个脉动信号与所述其他脉动信号中的每个的成对相似度的两个或更多个度量来确定所述成对相似度，并且将针对每个脉动信号的成对相似度的所述两个或更多个量度进行组合以形成表示针对每个脉动信号与所述其他脉动信号中的每个的所述成对相似度的距离量度；其中，所述相似度矩阵是基于所述距离度量来确定的。

在一些实施例中，针对脉动信号与其他脉动信号中的一个的所述成对相似度能够包括两个脉动信号的频谱之间的相关性的度量。在备选实施例或另外的实施例中，针对脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括所述两个脉动信号的所述频谱之间的归一化的互相关性的度量。在备选实施例或另外的实施例中，针对脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括所述两个脉动信号的所述频谱之间的相关性的正则性的度量。在备选实施例或另外的实施例中，针对脉动信号与所述其他脉动信号中的一个的所述成对相似度能够包括所述两个脉动信号的内积的结果。

在一些实施例中，所述处理单元被配置为通过对所述相似度矩阵执行矩阵分解来根据所述相似度矩阵识别所述图像序列中的活的皮肤组织的区。

在一些实施例中，所述处理单元被配置为使用以下中的一个或多个来执行矩阵分解：奇异值分解(SVD)、QR分解、稀疏SVD、增量SVD、主成分分析(PCA)以及独立成分分析(ICA)。

每个帧分段通常是所述图像帧中的邻近的像素的组。在一些实施例中，每个帧分段具有相同的形状。在备选实施例中，所述处理单元被配置为通过基于像素的颜色和空间相似度将所述像素分组成帧分段来将所述图像帧中的每个划分成多个帧分段。

在一些实施例中，所述处理单元被配置为通过根据所述多个图像帧中的对应的空间位置中的帧分段形成每个视频子序列来形成多个视频子序列。在备选实施例中，所述处理单元被配置为：针对每个视频子序列，通过从所述多个图像帧中的每个图像帧中选择帧分段来形成多个视频子序列，使得在所述视频子序列中的所述帧分段之间的色度能量和/或空间距离能量被最小化。

在一些实施例中，所述处理单元被配置为：通过对针对帧分段中的每个像素的像素值进行平均化来分析所述视频子序列以确定脉动信号；并且根据针对视频子序列中的每个帧分段的经平均化的像素值来形成针对所述视频子序列的所述脉动信号。

在一些实施例中，所述处理单元被配置为通过以下对像素值进行平均化：对帧分段中的像素的所述像素值进行加权，其中，所述像素值是基于所述帧分段中的所述像素的空间位置和/或与所述帧分段的中心处或所述中心附近的像素或像素的组的颜色差异而被加权的；并且对帧分段中的像素的经加权的像素值进行平均化。

在一些实施例中，所述处理单元还被配置为根据与所述视频序列中的识别出的活的皮肤组织的区相关联的一个或多个脉动信号来确定一个或多个生理特性。

在一些实施例中，所述装置还包括用于捕获所述视频序列的成像单元。

附图说明

为了更好地理解本发明并且更清楚地示出本发明被如何实施而生效，现在将仅通过范例的方式参考附图，其中：

图1图示了对活的皮肤组织检测技术的期望操作；

图2是根据本发明的实施例的装置的框图；

图3是图示根据本发明的实施例的方法的流程图；

图4(a)-(d)图示了能够如何从视频序列中获得针对多个视频子序列的脉动信号；

图4(a)图示了视频序列是如何由一系列图像帧组成的；

图4(b)图示了图像帧中的每个如何被分成多个帧分段；

图4(c)图示了如何使用图像帧内的相同空间位置中的帧分段来形成两个视频子序列；

图4(d)图示了针对这样形成的两个视频子序列的示例性脉动信号；

图5是图示示例性体素-脉动-谱方法中的处理阶段的图解；

图6图示了三个不同尺度的图像帧的分割；

图7图示了四种不同的成对相似度度量和结果得到的相似度矩阵；

图8示出了使用增量稀疏PCA的相似度矩阵分解的范例；并且

图9图示了特征向量在分层体素上的投影以及指示视频序列的哪些部分对应于活的皮肤组织的融合图。

具体实施方式

图2中示出了根据本发明的实施例的能够用于识别活的皮肤组织的装置2。装置2包括在一段时间内捕获视频序列的成像单元4。成像单元4能够是或能够包括相机(例如，RGB相机)，其能够用于rPPG测量。成像单元4将包括多个图像帧的视频序列提供给处理单元6。

处理单元6控制装置2的操作，并且能够包括用于实施本文中描述的活的皮肤组织识别技术的一个或多个处理器、多核处理器或处理模块。在一些实施例中，处理单元6能够被实施为多个处理模块，其中，每个模块被配置为执行本文中描述的活的皮肤组织识别技术的特定部分或步骤。

装置2还包括用于存储计算机可读程序代码的存储器单元8，所述计算机可读程序代码能够由处理单元6执行以执行根据本发明的方法。存储器单元8还能够用于在由处理单元6处理之前、期间和之后存储或缓存来自成像单元4的视频序列以及处理的任何中间产品。

应当意识到，在一些实施例中，装置2能够包括具有集成的或分离的成像单元4的通用计算机(例如，台式PC)或具有集成的或分离的成像单元4的便携式计算设备(例如，膝上型计算机、平板电脑或智能手机)。在一些实施例中，装置2能够专用于识别视频序列中的活的皮肤组织和/或用于根据从被识别为对应于活的皮肤组织的视频序列的区提取的rPPG信号来测量对象的生理特性。

在实际的实施方式中，装置2可以包括对于图2中所示和上面描述的那些而言其它的或另外的部件，例如，允许对象激活和/或操作装置2的用户接口，以及用于给装置2供电的电源(例如，电池)或与主电源的连接。用户接口可以包括允许对象与装置2交互和控制装置2的一个或多个部件。作为范例，所述一个或多个用户接口部件能够包括用于激活和停用装置2和/或活的皮肤组织识别过程的开关、按钮或其他控制器件。用户接口部件还能够或者备选地包括显示器或用于向对象提供关于装置2的操作的信息的其它视觉指示器(例如，灯)。同样地，用户接口部件能够包括用于向对象提供关于装置2的操作的可听反馈的音频源。

图3中的流程图图示了根据实施例的识别视频序列中的活的皮肤组织的方法。

在步骤101中，成像单元4获得视频序列。所述视频序列包括一系列图像帧。图4(a)中示出了一系列图像帧20。

接下来，将图像帧20中的每个划分成多个帧分段22(步骤103)。每个帧分段22是图像帧20中的邻近的像素的组。图4(b)中图示了一个示例性的分割，其中，每个帧20被划分成相等尺寸的正方形或长方形。在备选实施例中，分段能够具有不同的形状，例如，三角形。在其它(优选的)备选实施例中，分段22的形状能够通过图像帧20中的图像来确定(例如，形状的边界能够遵循图像帧中的不同颜色之间的边界)。然而，应当意识到，在每个实施例中，每个帧分段22包括每个图像帧20中的空间相关的(即，邻近的)像素的组。在优选实施例中，帧分段22在本领域中也被称为“超像素”，例如，如在Achanta等人的“SLIC SuperpixelsCompared to State-of-the-art Superpixel Methods”(IEEE Transactions on PatternAnalysis & Machine Intelligence 2012，第34卷，第11期，2012年11月，第2274-2282页)中所描述的。

在通过图像帧的内容确定分段22的像素/形状的分组的优选“超像素”实施例中，能够通过基于像素的颜色和空间相似度对图像帧20中的像素进行分组来确定帧分段22。以此方式，具有相似或一致的颜色的邻近的或紧邻的像素将被一起分组到单个帧分段22中。

在上述实施例中，仅基于对图像帧20的分析将图像帧20划分成帧分段22。然而，在一些实施例中，能够基于对该图像帧20和一个或多个后续图像帧20的分析将特定图像帧20划分成帧分段22。换句话说，以上所描述的对图像帧20的基于空间和/或颜色的分割被扩展到时域中，使得在时域中共有外观(例如，颜色)和空间相似度的像素被分组在一起。

在对图像帧20进行分割之后，根据帧分段22形成多个视频子序列(步骤105)。在一些情况下，每个视频子序列能够包括来自图像帧20中的每个的帧分段22。在其它情况下，视频子序列能够包括来自视频序列中的图像帧20的子集中的每个图像帧20的帧分段22，其中，该子集包括两个或更多个(优选为相继的)图像帧20。在又另外的情况下，视频子序列能够包括来自串接在一起的图像帧20的多个子集的帧分段22(其中，每个子集包括两个或更多个图像帧20)。在视频子序列包括来自视频序列中的图像帧20的子集中的每个的帧分段22(例如，来自2-9个图像帧20的帧分段22)的实施例中，视频子序列在本文中也被称为体素。

在一些实施例中，在适当时使用视频序列中的每个图像帧20内或图像帧20的子集中的每个图像帧20内的相同空间位置中的帧分段22来形成视频子序列。例如，一个视频子序列能够根据图像帧20的左上角的帧分段22来形成，另一个视频子序列根据图像帧20的左下角的帧分段22来形成，等等。这在图4(c)中针对四个图像帧20中的每个中的两个特定帧分段22进行了图示。因此，第一视频子序列24是根据图像帧20中的每个中的相同空间位置中的第一帧分段26形成的，并且第二视频子序列28是根据图像帧20中的每个中的另一个空间位置中的第二帧分段30形成的。

然而，在优选实施例(其在通过根据颜色和空间相似度对像素进行分组而形成帧分段22时是特别优选的)中，为了改善该方法对视频序列的内容的改变(例如由于对象的移动)的鲁棒性，能够通过从图像帧20中选择彼此一致的帧分段22(例如，通常在图像帧内的空间位置上一致并且通常颜色一致)来形成视频子序列。这能够导致视频子序列“风行”通过图像帧20，使得视频子序列包含针对对象的特定部分的帧分段(例如，当对象在视频序列中从左向右移动时，能够通过每个图像帧中由于空间和颜色相似性对应于对象脸颊的帧分段22来形成特定的视频子序列)。对于图像帧20中的特定帧分段22，形成视频子序列的一个优选方式是识别下一图像帧20中具有最小色度能量(即，色度的最小差异)的帧分段22和来自所述特定帧分段22的空间距离能量(即，最小空间距离)。应当理解，色度能量是指基于所述帧分段22和下一图像帧20中的帧分段22中的像素的色度值的能量函数，并且因此使色度能量最小化以形成视频子序列能够包括：针对特定的帧分段22，识别下一个图像帧20中具有针对所考虑的帧分段22的最小色度能量的帧分段22。应当意识到，与针对所考虑的帧分段22中的像素的色度相比，针对帧分段22中的像素的色度越不同，色度能量就越高，因此将选择针对该视频子序列的帧分段22的可能性就越低。还应当理解，空间距离能量是指基于图像帧20中的帧分段22的空间位置和下一图像帧20中的帧分段22的空间位置的能量函数，并且因此使空间距离能量最小化以形成视频子序列能够包括：针对特定的帧分段22，识别下一图像帧20中提供所考虑的帧分段22中的最小空间距离的帧分段22。应当意识到，从下一个图像帧20中的帧分段22的位置到所考虑的帧分段22的位置的距离越大，空间距离能量就越高，并且将选择针对该视频子序列的帧分段22的可能性就越低。在备选方法中，也能够在时间t时使用在时间t-1时的体素的中心来初始化新的体素。在体素在时间上交叠的情况下，体素的上一帧分段22的中心确定下一个体素的第一帧分段22的中心。

然后分析每个视频子序列以确定针对每个视频子序列的脉动信号(步骤107)。脉动信号表示视频子序列中的帧分段22的颜色或颜色的变化。用于从视频序列(并且因此视频子序列)中确定脉动信号的各种技术在本领域中是已知的，并且在本文中将不再对其进行详细描述。然而，在下面呈现的体素-脉动-谱(VPS)方法的描述中提到了一些示例性技术。

在一些实施例中，对每个帧分段22的像素值(例如，RGB值)进行平均化，并且根据针对子序列中的每个帧分段22的平均值的时间序列形成脉动信号。在一些实施例中，基于帧分段22中的像素的空间位置和/或与帧分段22的中心处或所述中心附近的像素或像素的组的颜色差异来对像素值进行加权，并且确定经加权的值的平均值。例如，能够基于从像素到帧分段22的空间边界的距离和/或从像素到帧分段22的中心的距离来对像素值进行加权。优选地，这种加权引起靠近分段22边界的像素被较小地加权，这是因为，归因于邻近的分段22之间的抖动伪影，靠近分段22边界的像素比靠近分段22中部的像素更不可靠。

图4(d)中示出了针对两个视频子序列24、28的示例性脉动信号。在该范例中，视频子序列24包含活的皮肤组织的区，并且因此从该视频子序列中确定的脉动信号将展现出PPG信号的典型特性(即，与因心脏跳动所引起的对象皮肤中的血液灌注的变化相一致的幅度变化)。视频子序列28不包含活的皮肤组织的区，并且因此从该视频子序列中确定的脉动信号将不会展现出PPG信号的典型特性(并且在视频序列中没有环境照明变化的情况下，针对子序列28的脉动信号可能大体对应于噪声信号)。

一旦针对每个视频子序列确定了脉动信号，就为视频序列确定了相似度矩阵(步骤109)。相似度矩阵是其中相似的脉动信号相互相关的矩阵。使用相似度矩阵是有利的，这是因为相似度矩阵不需要预定义任何参数(例如，基于肤色或聚类的参数)。

优选通过确定针对每个脉动信号与其他脉动信号的成对相似度来形成相似度矩阵。也就是说，对于每个脉动信号，确定与其他脉动信号中的每个的相似度的度量。然后将这些成对相似度度量组合起来以形成相似度矩阵。

成对相似度度量优选包括或者是基于频率的成对相似度度量。这是有利的，这是因为与相同的特定对象的活的皮肤组织的区相对应的不同帧分段22应当展现出在相关性方面具有相似(或相同)频率峰值指数、相位或低熵的脉动信号。

针对脉动信号与其他脉动信号中的一个的成对相似度的度量能够是脉动信号的频谱的至少部分与其他脉动信号中的频率的至少部分之间的相关性的度量(在本文中被称为谱峰)、脉动信号的频谱的至少部分与其他脉动信号中的频谱的至少部分之间的归一化的互相关性的度量(在本文中被称为谱相位)、两个脉动信号的频谱的至少部分之间的相关性的正则性的度量(在本文中被称为谱熵)和/或两个脉动信号(其能够任选地在计算内积之前被滤波)的内积的结果。这些成对相似度度量的进一步的细节能够在下面对VPS方法的描述中找到。

本领域技术人员将意识到针对上面所提出的、能够被确定并被用于形成相似度矩阵的成对相似度的备选的或另外的度量。

在一些实施例中，能够确定针对每个脉动信号与其他脉动信号中的每个中的成对相似度的多个度量(例如，谱峰值和谱相位)，并且这些度量被组合以形成表示针对每个脉动信号与其他脉动信号中的每个的成对相似度的距离量度。然后能够基于距离量度来确定相似度矩阵。

一旦确定了相似度矩阵，就根据相似度矩阵识别视频序列中的活的皮肤组织的区(步骤111)。通过执行对相似度矩阵的矩阵分解来识别活的皮肤组织的区。在一些实施例中，矩阵分解能够通过奇异值分解(SVD)、QR分解、稀疏SVD、增量SVD、主成分分析(PCA)或独立成分分析(ICA)来执行。这些技术在本领域中通常是已知的，并且在本文中将不再对其进行详细描述。在下面更详细地描述的优选实施例中，使用增量稀疏PCA对相似度矩阵进行分解。

步骤111能够包括将相似度矩阵分解为正交基，以找到视频序列中属于相同对象的部分。这种分解引起不同类型的相似度被分离到独立的方向上。这引起属于相同对象的帧分段22被聚类在相同的方向上。

尽管在图3中未示出，但是一旦已经在视频序列中识别出活的皮肤组织的区，就能够从该视频序列中确定对象(具有识别出的活的皮肤组织的对象)的一个或多个生理特性。

在一些实施例中，能够根据与识别出的活的皮肤组织的区相关联的一个或多个脉动信号来确定(一个或多个)生理特性。在这种情况下，能够独立分析一个或多个脉动信号以确定生理特性和组合的(例如，平均化的)生理特性以给出针对对象的生理特性的总体度量。备选地，能够组合(例如，平均化)一个或多个脉动信号以给出单个脉动信号，并且分析脉动信号以确定生理特性。

在其它实施例中，视频序列能够被重新处理以从被识别为活的皮肤组织的区中提取一个或多个脉动信号，并且处理该(一个或多个)脉动信号以确定生理特性。

从视频序列中导出的(一个或多个)脉动信号类似于使用PPG传感器获得的信号，因此对象的一个或多个生理特性能够包括能够从PPG信号中导出的任何特征或对象的血液灌注的其它度量(或血液灌注的变化)，例如，心率、心率变异性、每搏间隔、呼吸速率、呼吸信号、SpO2值(即，血液的动脉氧合水平)等。因此，本领域已知的用于从PPG信号中导出这样的生理特性(例如，用于确定心率的频域中的峰值检测)的技术能够用于根据从被识别为活的皮肤组织的区获得的(一个或多个)脉动信号中导出针对生理特性的值。

以下阐述了本文中描述的技术的优选实施例，并且在本文中该技术被称为体素-脉动-谱(VPS)方法。

体素-脉动-谱(VPS)方法

基于相机的脉动提取

在人类心血管系统中，遍布全身传播的血液脉动改变皮肤组织中的血容量。由于血液中血红蛋白的光学吸收跨光谱变化，因此检测皮肤反射的颜色变化能够揭示脉动率。最近的远程光电体积描记(rPPG)技术使得能够使用普通的RGB相机检测人类皮肤上由脉动引起的颜色变化。已经提出了盲源分离方法(例如，基于PCA和基于ICA的方法)来对时间RGB信号进行分解以找到脉动。也己经提出了基于色度的rPPG方法来将脉动定义为在标准化肤色假设下的RGB通道的线性组合，这是处理现实挑战(例如，不同的对象肤色)的最准确的rPPG方法之一。

基于脉动的感兴趣区域检测

考虑到能够通过rPPG来测量视频序列中的人类脉动，因此能够使用脉动信号来辅助对象检测，即，通过定位对象的活的皮肤组织来检测活的对象。一种现有技术提出了一种基于脉动信号的面部检测方法，所述方法将视频切片成固定的刚性网格以用于局部脉动提取。所述方法设置了一个硬阈值来找到具有高谱能量的网格并将其标记为面部区域。所述方法受限于这样的视频：其中，需要将静止的脸部放置在距相机预定义距离处。本文中描述的VPS方法不会遭受这些限制。在另一项现有技术中，提出了一种选择面部上的最佳感兴趣区域(RoI)的方法来增强rPPG监测。然而，RoI局限于预定义的面部标志，其不是用于对象检测的通用解决方案，即，它不能检测视频中可能可见的其他身体部位(例如，手)。相反，本文中描述的VPS方法不进行这样的假设，并且能够检测具有脉动的血容量的所有身体部分。

图5中示出了VPS方法的概览，其采用包括图像帧20的输入视频序列并且输出对象RoI 32(即，视频序列中对应于活的皮肤组织的区)。与图3所示的方法一致，视频序列被分割成多个子序列(分层体素阶段34—步骤103和105)，为每个子序列确定脉动信号(脉动提取阶段36—步骤107)，确定并分析相似度矩阵以识别RoI(谱分析阶段38—步骤109和111)。下面详细讨论每个阶段。

分层体素

给定没有关于对象的任何先验信息(或关于一般内容)的视频序列，首先将视频序列分割成其中能够独立测量脉动的密集局部区域(这是图5中的分层体素阶段34)。尽管视频序列能够被切片成固定的刚性网格，但是这意味着对象的尺寸是由网格几何结构量化的，当对象较小或存在身体运动时，这种对对象尺寸的量化是费力的或失败的。因此，在VPS方法中，优选使用针对被称为“分层体素”的脉动提取的优良视频分割方法。分层体素包括时空相干的簇(帧分段)，优选以多个尺度(其中，尺度确定每个图像帧20被分成的簇/分段的数量)，其中，图像帧20中的共有外观和时间域中的空间相似度的像素被分组在一起。尽管在下面对VPS方法的描述中优选且使用多个尺度，但是也能够在VPS方法中使用单个尺度。

从一个尺度开始，构建体素(包括来自相继的图像帧的子集(例如2、3、4个等)的帧分段的视频子序列)被定义为如以下公式使色度能量E_c最小化(即，使针对帧分段的色度差最小化)并使短时间间隔T∈{2n+1，n ∈ N⁺}内的时间邻近的超像素/帧分段之间的空间距离能量E_s(即，使帧分段之间的空间距离差最小化)最小化的流程：

其中，p∈P(t)是第t帧中的像素的集合。p的表示是4维特征向量(x,y,u,v)，其中，(x,y)和(u,v)分别是在图像平面和色度平面中的坐标(例如，YUV空间中的UV平面、针对皮肤分割的经验空间)。执行K均值聚类以将像素分配到k个聚类中以用于使T期间的总能量最小化。λ是控制两个能量项之间的平衡的参数。

此外，通过同时初始化公式1中的不同k，单个尺度体素被扩展到多个尺度，其中，每个尺度是独立的聚类。考虑到在不同的尺度上的体素具有不同的分辨率和能量变化，第i个尺度中的λ_i是如以下公式基于其自身的在t时的能量变化而自适应地自调谐的：

其中，σ(·)指代标准差算子；Φ(·)表示聚类均值的集合；log(k)控制体素的致密度，即，具有更高分辨率(更大的k)的体素应当更致密。λ在不同尺度上的实时调谐避免了不稳定的和闪烁的聚类，其保留了细粒度分割。

使用如上所述的分层体素有四个好处，如图6中所图示的，其示出了针对包括活的对象和人造面部的两种不同图像的三种不同的分辨率/尺度(k＝16，k＝36；k＝64)。在图6中，第一图像40对应于图1中的左边图像，并且示出了都面向相机的人类面部和人造面部。第二图像42对应于图1中的右边图像，并且示出了侧向于相机的人类面部和人造面部。首先，使用分层体素建立空间-时间相干的“管”(视频子序列)以用于脉动测量。第二，其使得能够进行视频中的尺度不变的对象检测。第三，其保持了对象形状的高边界回忆(如由遵循图像中的形状的帧分段的边界所指示的)。第四，其创建了皮肤区域的统计观察，这是因为从具有不同分辨率的体素测量的脉动具有不同的量化质量。

脉动提取

该部分描述了图5中的脉动提取阶段36。分层中的每个体素(即，视频子序列)被假定为并行脉动提取中的独立脉动传感器。在优选实施例中，基于色度的方法(CHROM)用于脉动测量，其在G.de Haan和V.Janne的“Robust pulse rate from chinanceance-basedrPPG”(TBME，第60卷，第1期，第2878-2886页，2013年)中得以描述。然而，本领域技术人员应当意识到能够用于确定针对体素的脉动信号的其他技术。例如，如上所述，能够使用基于PCA或ICA的技术来从体素中提取脉动信号，或者如在G.de Haan和A.van Leest的“Improved motion robustness of remote-PPG by using the blood volume pulsesignature”(Physiol.MEAS.35 1913，2014年)中所描述的“PBV”方法能够用于从RGB轨迹中提取脉动。与使用所有像素的空间平均化的RGB来导出局部区域/聚类中的脉动信号的CHROM不同，体素中的像素RGB值通过基于它们到体素边界的距离进行加权来组合，即，靠近体素边界的体素由于邻近体素之间的偶尔抖动伪影而不太可靠，因此应当对其较低地加权。假设从像素k到体素边界的最近的欧几里德距离是d_k，则在t时在第i个尺度中的第j个体素的平均RGB被组合为：

其中，N指代第j个体素中的像素的数量。在恒定的照明环境中，人类皮肤组织示出相同的相对PPG幅度，但是体素中的色差会引起脉动幅度的变化。因此，与CHROM不同的是，使用体素中的平均RGB的时间导数，即，以导出其色度信号。在间隔T(在公式1中定义)中，归一化的色度导数被计算为：

其中，指代两个图像帧之间的体素中RGB的时间导数。在每个区间中估计的色度导数被线性地组合成脉动导数并且进一步被积分。之后，将不同的脉动间隔交叠添加到具有长度L完整的脉动信号这个流程被解读为：

其中，csum(·)指代时间导数信号的累积和；w是用于对交叠相加进行平滑化的Hanning窗口。因此，(从第i个尺度的第j个体素)并行提取的脉动信号如以下公式被集中并且被归一化：

其中，μ(·)指代平均化操作。注意，脉动信号是此方法中唯一使用的特征。没有使用其他外观特征，如颜色或纹理。

谱分析

该部分描述了谱分析阶段38，其包括三个子阶段：形成相似度矩阵，在相似度矩阵上执行增量稀疏PCA，以及使用分层融合来识别视频序列中的活的皮肤组织的区。

已经注意到，从属于相同对象的皮肤区域中提取的脉动信号在诸如相位和频率的许多方面上共有相似性，而从非皮肤区域(例如，背景)中提取的脉动信号是没有相关性的随机噪声。因此，在从分层体素中提取脉动信号之后，使用脉动信号的成对相似度来找到活的对象。这也适用于视频序列中的多个对象的情况，这是因为从不同对象测得的脉动也能够在相位和频率上被区分开。

相似度矩阵—在该步骤中，创建相似度矩阵Σ＝(D，C)，以基于测得的脉动来对分层体素进行相互联系。在Σ中，对角线中的条目D包含不同尺度的所有体素；剩余的条目C指代任何体素对之间的成对联系。为了建立这样的相似度矩阵，需要定义用于测量脉动相似度的距离量度。最常用的距离量度(即，L1和L2距离)不适用于脉动特征。然而，与其他外观特征相比(例如，Hara、P.Viola和M.Jones的“Rapid object detection using a boostedcascade of simple features”(CVPR，2001，1)和HOG、N.Dalal和B.Triggs的“Histogramsof oriented gradients for human detection”(CVPR，2005，1))，脉动特征中的关键和独有的特性是它包含周期性。已经注意到来自相同对象的脉动信号显示出以下关系：(1)它们具有相似的频率，并且因此它们的互相关性呈现出显著的谱峰值；(2)它们没有显著的相移；(3)它们的频率相关性是有规律的，而且不是较为无序的；并且(4)如果将脉动信号看作多维矢量，则两个相似矢量之间的夹角较小。因此，用于构建针对脉动信号的相似度矩阵的优选距离量度强调上述联系，并且包括四个不同的测量结果：

●谱峰值—在频率域中，为体素定义脉动率频带f∈[40，240]BPM(每分钟的跳动)以进行通信，这对于包括新生儿和运动对象在内的健康对象是一个宽广的范围。两个互相关的脉动信号的谱峰值被定义为：

其中，○指代逐元素的积；*是共轭；表示快速傅立叶变换(FFT)。

●谱相位—两个相似的脉动信号也处于相同的相位，因此它们的归一化的互相关性应当如以下公式在时域中显示出强烈的响应：

其中，

其中，||·||₂是L2范数；指代逆FFT。

●谱熵—术语“熵”用于如以下公式测量两个脉动信号之间的相关性的正则性：

其中，E的解读与其他测量结果一致，即，较大的E指代较好的相关性。

●内积—在时域中，我们使用内积如以下公式来测量两个脉动信号之间的余弦角度：

其中，<,>指代内积操作。

最后，这四个测量结果被归一化到范围[0；1]并如以下公式与高斯内核融合：

其中，σ_{I，F，P，E}表示四个矩阵之间的逐条目标准差。应当指出，这四个测量结果不是完全相互独立的，测量结果之间的冗余有益于减小相似度估计的不确定度。图7示出了针对两个视频序列的四个测量结果以及它们的融合的相似度矩阵Σ44、46的范例，一个包括单个活的对象，而另一个包括两个活的对象。具有较高能量的条目表示分层结构中相似体素的索引。

在本文中使用的距离量度中，两个良好对齐的脉动信号示出互相关期间上升的频率能量，其能够有效地抑制噪声条目(例如，没有脉动的体素)。相比之下，先前的距离度量都是客观的测量结果，其不能增强比较中的类似条目之间的联系。最后，分层结构中的所有体素都在相似度矩阵中相互联系。检测体素中的活的对象的任务能够被重新表述为找到相似度矩阵的子空间部分，使得相同子空间中的条目具有相同的相似度方向。

增量稀疏矩阵分解—相似度矩阵Σ44、46能够被解读为的线性组合，其中，x_i∈ X是多维空间中的正交向量的集合。为了找到属于相同对象的体素，使用矩阵分解技术将Σ分解成X，其中，不同对象被分离到不同的特征向量中。由于Σ是有许多零条目的稀疏矩阵(例如，指向背景的体素没有相似性)，因此稀疏PCA被应用以通过在表达能力与数据解读性之间寻找一个折衷来将Σ分解成X。

在Y.Zhang、A.d’Aspremont和L.Ghaoui的“Sparse PCA:Convex relaxations,algorithms and applications”(International Series in Operations Research&Management Science，第166卷，第915-940页，2012年)中描述了稀疏PCA。稀疏PCA通过优化以下非凸目标函数来找到Σ中具有最大方差的第一稀疏特征向量：

其中，||·||₂是L1范数；n>0控制X的基数。然而，计算具有最大方差的稀疏特征向量是一个组合问题，并且在数值上难以求解，因此，公式13中的非凸等级约束在针对具有l₁惩罚的半定弛豫的提升流程之后如以下公式被降低：

其中，Tr(·)指代矩阵的踪迹运算；ρ>0控制稀疏度；是由第一主特征向量近似得到的对称矩阵。此时，能够使用被称为混合条件梯度平滑(HCGS)的算法来求解公式14。HCGS在A.Argyriou、M.Signoretto和J.Suykens的a“Hybrid conditional gradient-smoothing algorithms with applications to sparse and low rank regularization”(arXiv preprint:1404.3591，2014年)中进行了描述。HCGS的优点是使用条件梯度方法的凸弛豫中的快速收敛。

然而，在实际中，在多个对象的情况下，Σ可能包括多个稀疏特征基，而方程式14仅提升了第一个主特征向量中的稀疏度。为了解决这个问题，后续的稀疏特征向量x_i通过使用Hotelling紧缩如以下公式利用先前的稀疏特征向量x₁，x₂，...，x_i-1按顺序地紧缩Σ来估计：

其中，

其中，x_i|∈ X能够通过HGCS中的功率迭代来导出；m是自动找到的最具表现性的特征向量的数量，其也隐含着视频序列中的对象的数量，即，m通常在最大的特征值差距处被找到。

图8示出了针对图7所示的两个相似度矩阵44、46使用递增稀疏PCA的相似度矩阵分解的范例，其中，类似的体素被分解到所选择的特征向量中的相同方向上。因此，图8示出了来自相似度矩阵的分解的和选择的特征基；原始的Σ44、46中的有噪声的条目在48、50中被去除；特征值(分别在图52和图54中示出)清楚地示出了中最具表现性的特征向量的数量(分别在图56和图58中示出)。

事实上，一些内在的(例如，脉动率变化)和外在的(例如，亮度变化)因素可能会偶尔改变后续帧中的相似度矩阵，这导致根据每个单独的帧估计的稀疏特征向量的不稳定性。为了解决这个问题，增量子空间更新被用于针对时域中的实时变化平滑地调整x_i∈ X。根本上，它考虑了时变相似度矩阵作为新的观察结果，并且如以下公式使用来自不同帧的多个观测结果来丰富子空间模型：

其中，SVD(·)指代奇异值分解；U和D是递增更新的特征向量和特征值。在下面的算法1中示出了从时变相似度矩阵递增估计多个稀疏特征向量的示例性算法：

算法1

分层融合—通过将所估计的稀疏特征向量56、58投影到分层体素上，获得在多个尺度上的基于体素的人类目标图，其中，每个尺度具有对对象的不同的量化描述。图9中图示了针对来自图7和图8的包含两个对象的视频序列的该投影。特征向量58不仅决定子空间中的对象方向(符号)，而且还决定对应的皮肤区域的脉动(幅度)，即，前额和脸颊在投影中表现出相对较高的脉动性。最后一步是将多个目标图融合成单个输出。由于分层测量创建了针对皮肤区域的统计观察结果，因此基本思想是利用该冗余来导出所有尺度都具有最高的一致性的单个输出。在这个意义上，分层融合如以下公式被投射为多尺度目标图之间的能量最小化：

其中，

其中，O_ij对应于由特征向量元素确定的第i个尺度的第j个体素的目标值；指代融合的目标图；γ控制两个能量项之间的平衡。在公式19中，E₁使输入与输出之间的能量最小化，而E₂使不同尺度下的空间交叠体素(即，隐式树结构)之间的能量最小化。图9示出了具有两个活的对象的视频序列中的融合结果的范例，其中，针对识别出的对象中的每个提供单独的输出60、62。

上述方法以及VPS方法的优选实施例提供了用于识别视频序列中的活的皮肤组织的改进的方法和装置。特别地，与常规技术相比，该方法提供了改善的活的皮肤组织检测率，其中，检测仅基于使用脉动信号来检测活的组织。不管对象的尺度(即，距成像单元4的距离)、姿态、位置、肤色、可见的身体部位或运动如何，或者不管视频序列中的对象的背景、对象是否被部分遮挡于成像单元4、视频序列中是否存在人造面部或身体部分、或者视频序列中是否存在多个活的对象，都能够获得这些改进。

本领域技术人员通过研究附图、公开内容以及权利要求，在实践请求保护的发明时能够理解并实现对所公开的实施例的变型。在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。尽管某些措施被记载在互不相同的从属权利要求中，但是这并不指示不能有利地使用这些措施的组合。计算机程序可以被存储/分布在合适的介质上，例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质，但是也可以被以其他形式分布，例如经由互联网或其他有线或无线的电信系统。权利要求中的任何附图标记都不应被解释为对范围的限制。

Claims

1.一种用于识别视频序列中的活的皮肤组织的装置，所述装置包括：

处理单元，其被配置为：

接收视频序列，所述视频序列包括多个图像帧；

将所述图像帧中的每个划分成多个帧分段，其中，每个帧分段是所述图像帧中的邻近的像素的组；

形成多个视频子序列，每个视频子序列包括来自所述多个图像帧中的两个或更多个的帧分段；

分析所述多个视频子序列以确定针对每个视频子序列的脉动信号；

基于针对每个确定的脉动信号与其他确定的脉动信号中的每个的成对相似度来确定相似度矩阵；并且

根据所述相似度矩阵来识别所述视频序列中的活的皮肤组织的区。

2.根据权利要求1所述的装置，其中，针对脉动信号与其他脉动信号中的一个的所述成对相似度包括以下中的一个或多个：

两个脉动信号的频谱的至少部分之间的相关性；

所述两个脉动信号的所述频谱的至少部分之间的归一化的互相关性；

所述两个脉动信号的所述频谱的至少部分之间的所述相关性的熵的度量；以及

所述两个脉动信号的内积的结果。

3.根据权利要求1或2所述的装置，其中，所述成对相似度包括基于频率的成对相似度。

4.根据权利要求1-3中的任一项所述的装置，其中，所述处理单元被配置为通过对所述相似度矩阵执行矩阵分解来根据所述相似度矩阵识别所述图像序列中的活的皮肤组织的区。

5.根据权利要求1-4中的任一项所述的装置，其中，所述处理单元被配置为通过基于像素的颜色和空间相似度将所述像素分组成帧分段来将所述图像帧中的每个划分成多个帧分段。

6.根据权利要求1-5中的任一项所述的装置，其中，所述处理单元被配置为：针对每个视频子序列，通过从所述多个图像帧中的每个图像帧中选择帧分段来形成多个视频子序列，使得所述视频子序列中的所述帧分段的色度和/或所述帧分段的位置之间的空间距离被最小化。

7.根据权利要求1-6中的任一项所述的装置，所述处理单元还被配置为：

根据与所述视频序列中的识别出的活的皮肤组织的区相关联的一个或多个脉动信号来确定一个或多个生理特性。

8.根据权利要求1-7中的任一项所述的装置，其中，所述装置还包括：

用于捕获所述视频序列的成像单元。

9.一种用于识别视频序列中的活的皮肤组织的方法，所述方法包括：

获得视频序列，所述视频序列包括多个图像帧；

10.根据权利要求9所述的方法，其中，所述成对相似度包括基于频率的成对相似度。

11.根据权利要求9或10所述的方法，其中，根据所述相似度矩阵来识别所述图像序列中的活的皮肤组织的区的步骤包括对所述相似度矩阵执行矩阵分解。

12.根据权利要求9-11中的任一项所述的方法，其中，形成多个视频子序列的步骤包括：针对每个视频子序列，从所述多个图像帧中的每个图像帧中选择帧分段来形成多个视频子序列，使得所述视频子序列中的所述帧分段的色度和/或所述帧分段的位置之间的空间距离被最小化。

13.根据权利要求9-12中的任一项所述的方法，其中，分析所述视频子序列以确定脉动信号的步骤包括：

对针对帧分段中的每个像素的像素值进行平均化；并且

根据针对视频子序列中的每个帧分段的经平均化的像素值来形成针对所述视频子序列的所述脉动信号。

14.根据权利要求13所述的方法，其中，对像素值进行平均化的步骤包括：

对帧分段中的像素的所述像素值进行加权，其中，所述像素值是基于所述帧分段中的所述像素的空间位置和/或与所述帧分段的中心处或所述中心附近的像素或像素的组的颜色差异而被加权的；并且

对帧分段中的像素的经加权的像素值进行平均化。

15.一种包括计算机可读介质的计算机程序产品，所述计算机可读介质具有被实施在其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器运行时令所述计算机或处理器执行根据权利要求9-14中的任一项所述的方法。