CN111510768A

CN111510768A - 一种视频流的生命体征数据计算方法、设备及介质

Info

Publication number: CN111510768A
Application number: CN202010339582.1A
Authority: CN
Inventors: 宋国梁; 颜长华
Original assignee: Lianghua Intelligent Technology Shanghai Co ltd
Current assignee: Lianghua Intelligent Technology Shanghai Co ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-07
Anticipated expiration: 2040-04-26
Also published as: CN111510768B

Abstract

本发明涉及一种视频流的生命体征数据计算方法、设备及介质，所述方法包括以下步骤：获取视频流中的多帧视频图像；确定多帧视频图像中的人脸图像位置及眼部和嘴部特征；基于预先定义的卷积网络对所述眼部和嘴部特征区域附近的图像进行卷积操作，生成目标区域含时特征信息；将所述目标区域含时特征信息上传到SAAS服务器中，确定视频流对应的生命体征数。通过上述方案可使信息传输量大规模降低，信息中的有效成分大大提高。

Description

一种视频流的生命体征数据计算方法、设备及介质

技术领域

本发明涉及计算机图像识别领域，具体涉及一种视频流的生命体征数据计算方法、设备及介质。

背景技术

计算机视觉在神经网络尤其是深度神经网络的辅助下得到了快速发展。从当前新型手机的高分辨率(至少4K，8帧/秒，125s)摄像头数据流中分析获取被摄目标的心跳和呼吸频率数据目前已经成为可能。数据精度已经达到定性和半定量的水准。针对各种移动设备(手机，专用设备)的设备端需要提供高精度的无损(低损)压缩算法API。服务器提供标准的SAAS服务以及通用的标准接口，以满足各种第三方APP、小程序的开发需求。

当前新型手机已经普遍采用高分辨率(4K)摄像头模组，部分摄像头甚至可以实现12M以及更高的分辨率。且实现这些分辨率时多数手机能够完成接近10帧/s的采样速率。这为从这些视频数据中分析获取被摄目标的心跳和呼吸频率数据奠定了基础。

在采集到的人类面部视频信息(特征像素点的色彩、相对位移、相对色彩等)中包含有医学上非常重要的心跳和呼吸信息。这些信息通常变化非常微小并被大量的噪声信息和其他运动模式所遮盖，难以直接观察并获得。这些信号目前可以通过深度神经网络进行训练并被捕捉出来。

此外现有的视频数据采用H.264的压缩算法，该算法针对人眼视觉识别设计，对于人类视觉是很好的选择，但是对于需要精确计算的心跳和呼吸信息来说却相对糟糕，为节省信息流量而形成的压缩算法往往在整个数据统计层面破坏了原本就很小的信息差异。

视频数据将被传送到算力强大的互联网上的SAAS服务器中，通过强大GPU端的深度神经网络计算出视频对应的心跳数据和呼吸信息。

从上述现有技术方案我们发现两点需要改进：

首先，完整视频数据并非系统必须，H.264不是最佳选择(保留的巨大的图像本身细节，却破坏了大量的微小的需要的数据)。需要发展新的针对性的数据压缩方法和传输方法。

此外，大规模的数据传输可能需要时间较多，因此输入数据需要异步的数据接口以确保用户终端系统的响应，提升用户体验。

发明内容

为了满足上述需求，本发明提供了一种视频流的生命体征数据计算方法、设备及介质，实现了设备端的高清无损(低损)多帧数据流的采集，压缩。传输到互联网上的标准SAAS服务器后可以分析被摄目标的心跳和呼吸频率数据，并通过一个JSON接口异步返回计算识别的数据；整个方案识别效率高，使用方便。

本发明的目的是采用下述技术方案实现的：

一种视频流的生命体征数据计算方法，所述方法包括：

获取视频流中的多帧视频图像；

确定多帧视频图像中的人脸图像位置及眼部和嘴部特征；

基于预先定义的卷积网络对所述眼部和嘴部特征区域附近的图像进行卷积操作，生成目标区域含时特征信息；

将所述目标区域含时特征信息上传到SAAS服务器中，确定视频流对应的生命体征数据。

优选的，所述获取视频流中的多帧视频图像之前还包括：通过调用服务接口，获取用户通过视频流采集装置采集并传输到SAAS服务器的视频流。

进一步地，所述通过调用服务接口，获取用户通过视频流采集装置采集并传输到SAAS服务器的视频流之前还包括：

通过JSON输入接口对获取的各个用户访问服务器时发送的身份认证请求进行解析，得到所述用户的网络参数；其中，所述JSON输入接口包括预先定义的关键词；

根据所述用户的网络参数，获取所述用户终端设备绑定的账户信息，并根据所述账户信息确定当前所述用户的权限信息；

若所述权限信息为有权状态，则判定所述用户的身份认证成功，并将验证通过消息和TCP/IP数据流的上传地址反馈至前端界面，采用TCP/IP数据流输入接口接收用户传输的视频流后，返回视频流的验证码；否则返回认证失败消息。

优选的，所述确定多帧视频图像中的人脸图像位置及眼部和嘴部特征包括：

调用opencv定位多帧视频图像中的人脸图像Fa；

分别记录在所述人脸图像特征点附近的当前帧图像数据和前一帧图像数据Fa1,Fa2；

将所述当前帧图像数据和前一帧图像数据Fa1,Fa2进行预处理，以采集特征数据。

进一步地，所述将当前帧图像数据和前一帧图像数据Fa1,Fa2进行预处理，以采集特征数据包括：

对Fa1,Fa2进行平移配准；并将校正后的图像数据Fa1,Fa2分别进行差分处理和加和处理，生成差分处理后的数据Da和加和处理后的数据Sa。

进一步地，所述基于预先定义的卷积网络对数据Da和Sa分别进行两次卷积包括：

卷积核为3*3的平均核，获得RGB三种颜色的27*2个输出数据；

卷积核为5*5的平均核，获得RGB三种颜色的225*2个输出数据；

以Da数据的图像中心为中心坐标，卷积核为5*5的平均核，卷积函数中包含额外的乘积项:Da坐标和中心坐标的差[Dax-Dx0,Day-Dy0]；获得RGB三种颜色的225*2个输出数据；

以眼部和嘴部特征为中心坐标重复上述过程，获得225*2*3个输出数据，采用特定格式对所述输出数据进行压缩和组装，获得目标区域含时特征信息。

进一步地，所述采用特定格式对输出数据进行压缩和组装包括：

读取Fa1,Fa2,的位置数据[top,left,width,height]；以及，配准后平移校正数据(dx,dy)；

将Da数据上移128，再以图像尺寸x,y方向各缩放到1/4后，压缩成png格式卷积后的所有输出数据；

将所有输出数据采用zip方式压缩成数据流并上传。

进一步地，所述视频流的生命体征数据通过视频流验证码调用JSON输出接口获得；其包括目标心跳数据、呼吸数据、拍摄人的心跳数据、呼吸数据以及其他数据。

一种生命体征数据的计算设备，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-8所述的方法。

一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-8所述的方法。

与最接近的现有技术比，本发明的有益效果为：

本发明提供了一种视频流的生命体征数据计算方法、设备及介质，实现了设备端的高清无损(低损)多帧数据流的采集，压缩。传输到互联网上的标准SAAS服务器后可以分析被摄目标的心跳和呼吸频率数据，并通过一个JSON接口异步返回计算识别的数据；整个方案识别效率高，使用方便。

通过SAAS方式允许第三方APP和其他程序调用，使信息传输量大规模降低，信息中的有效成分大大提高。

附图说明

图1为本发明具体实施方式中提供的基于视频流的生命体征数据计算方法总流程图；

图2为本发明实施例中提供的视频流的生命体征数据计算方法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

为了具体了解本发明提供的技术方案，将在下面的实施例中对本发明的技术方案做出详细的描述和说明。显然，本发明提供的实施例并不限定于本领域的技术人员所熟习的特殊细节。本发明的较佳实施例详细描述如下，除这些描述外，本发明还可以具有其他实施方式。

如图1所示，本发明提供的一种视频流的生命体征数据计算方法，所述方法包括：

S1获取视频流中的多帧视频图像；

S2确定多帧视频图像中的人脸图像位置及眼部和嘴部特征；

S3基于预先定义的卷积网络对所述眼部和嘴部特征区域附近的图像进行卷积操作，生成目标区域含时特征信息；

S4将所述目标区域含时特征信息上传到SAAS服务器中，确定视频流对应的生命体征数据。

步骤S1中，获取视频流中的多帧视频图像之前还包括：通过调用服务接口，获取用户通过视频流采集装置采集并传输到SAAS服务器的视频流。

通过JSON输入接口对获取的各个用户访问服务器时发送的身份认证请求进行解析，得到所述用户的网络参数；其中，所述JSON输入接口包括预先定义的关键词；JSON的全称是”JavaScript Object Notation”，它是一种基于文本，独立于语言的轻量级数据交换格式。JSON输入接口包含的关键词可以定义为“LiangHuaVfreq”。

通过视频流验证码调用JSON输出接口获得所述应于视频流的生命体征数据，包括目标心跳数据、呼吸数据、拍摄人的心跳数据、呼吸数据以及其他数据。

步骤S2确定多帧视频图像中的人脸图像位置及眼部和嘴部特征包括：

调用opencv定位多帧视频图像中的人脸图像Fa；

将当前帧图像数据和前一帧图像数据Fa1,Fa2进行预处理，以采集特征数据包括：

步骤S3中，所述预先定义的卷积神经网络模型包括：

在卷积神经网络任一输入层和输出层之间仅设置多个卷积层；包括第一卷积层和第二卷积层；其中，所述第一卷积层的卷积核为3*3的平均核，所述3*3的平均核包括27*2个数据；所述第二卷积层的卷积核为5*5的平均核，所述5*5的平均核包括225*2个数据。

例如：a，以Da图像中心为中心坐标，卷积核为5*5的平均核，卷积函数中包含额外的乘积项:Da坐标和中心坐标的差[Dax-Dx0,Day-Dy0]。分RGB三种颜色，共获得225*2个数据。b,以两个眼睛和嘴部特征为中心坐标重复以上步骤a过程，获得225*2*3个数据。

所述基于预先定义的卷积网络对数据Da和Sa分别进行两次卷积包括：

卷积核为3*3的平均核，获得RGB三种颜色的27*2个输出数据；

卷积核为5*5的平均核，获得RGB三种颜色的225*2个输出数据；

读取Fa1,Fa2,的位置数据[top,left,width,height]；以及，配准后平移校正数据(dx,dy)；其中，平移包括以下动作至少之一：向上平移、向下平移、向左平移、向右平移。

将所有输出数据采用zip方式压缩成数据流并上传。

具体地，A.1数据采集手机摄像头的采集像素应该设置为至少8M,帧率不少于8帧，如果高于8帧，也要调整到8帧左右，记录下实际帧率。

在每帧视频数据的回调函数中：

调用opencv或者第三方API实现人脸定位

记录下当前帧人脸及附近15％的数据Fa，保留当前帧和前一帧这部分数据Fa1,Fa2。

图像Fa1,Fa2进行平移配准(dx，dy)

图像Fa1,Fa2进行差分Fa2-Fa1,数据存储在Da中

图像Fa1,Fa2进行加和，数据存储在Sa中

对数据Da和Sa进行卷积的方式：

1)和2)中采用3*3和5*5两种平均值卷积核是我们要保护的内容，注意对3*3,5*5数据直接求平均属于平均核卷积函数等价形式，属于我们的保护范围。使用更高分辨率的核函数或者采用非平均核函数(要求偏离平均核函数至少10％)不属于本方法保护的内容。

4)以两个眼睛和嘴部特征为中心坐标重复3)的过程，获得225*2*3个数据。以这三个点为中心(或以这三个点的简单线性变换形成的点为中心)进行卷积产生数据的方式是我们要保护的内容。以其他位置(例如使用额外的神经网络识别出的鼻子的位置)为中心进行的卷积操作产生数据不属于我们的保护范畴。

2.保护D.11～D.32的JSON输入和输出接口中所有以LiangHuaVfreq开始的字段。例如D11中“LiangHuaVfreqSTAT”的D32中的“LiangHuaVfreqData”。完全相同的关键词是受保护的且保护的关键词不区分大小写。关键词中只要有一个字符不同均不在保护范围。

基于同一发明构思，本发明还提供一种视频流的生命体征数据获取系统，所述系统包括：

获取模块，用于获取视频流中的多帧视频图像；

位置确定模块，用于确定多帧视频图像中的人脸图像位置及眼部和嘴部特征；

深度卷积处理模块，用于基于预先定义的卷积网络对所述眼部和嘴部特征区域附近的图像进行卷积操作，生成目标区域含时特征信息；

确定模块，用于将所述目标区域含时特征信息上传到SAAS服务器中，确定视频流对应的生命体征数据。

此外，本发明还提出一种生命体征数据的计算设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如步骤S1-S4所述的方法。

一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如步骤S1-S4所述的方法。

本发明在客户端数据压缩算法和传输机制上做了完全不同的改进，使得信息传输量大规模降低，信息中的有效成分大大提高。这一压缩算法可以以API的方式授权到客户设备中(手机，专用机器等)。下面具体描述数据采集中的数据压缩算法和异步的JSON信息接口:

实施例1：

如图1所示，A.1数据采集

手机摄像头的采集像素应该设置为至少8M,帧率不少于8帧，如果高于8帧，也要调整到8帧左右，记录下实际帧率。

在每帧视频数据的回调函数中：

B.1调用opencv或者第三方API实现人脸定位

B.2记录下当前帧人脸及附近15％的数据Fa，保留当前帧和前一帧这部分数据Fa1,Fa2。

C.1图像Fa1,Fa2进行平移配准(dx，dy)

C.2图像Fa1,Fa2进行差分Fa2-Fa1,数据存储在Da中

C.3图像Fa1,Fa2进行加和，数据存储在Sa中

C.4对数据Da和Sa进行卷积：

1)卷积核为3*3的平均核，分RGB三种颜色总共获得27*2个数据

2)卷积核为5*5的平均核，分RGB三种颜色总共获得225*2个数据

3)以Da图像中心为中心坐标，卷积核为5*5的平均核，卷积函数中包含额外的乘积项:Da坐标和中心坐标的差[Dax-Dx0,Day-Dy0]。分RGB三种颜色，共获得225*2个数据

4)以两个眼睛和嘴部特征为中心坐标重复3)的过程，获得225*2*3个数据

C.5收集所有卷积输出数据

C.6将A16中的所有数据(含眼睛和嘴部的位置)，A12中Fa1,Fa2,的[top,left,width,height]数据，A13中的(dx,dy)数据，A14的全部Da数据(先上移128，然后图像尺寸x,y方向各缩放到1/4,最后压缩成png格式)，A16中的所有卷积后的数据。用通用zip方式压缩成数据流上传。

PNG：便携式网络图形(Portable Network Graphics)是一种无损压缩的位图片形格式，使用从LZ77派生的无损数据压缩算法，压缩比高，生成文件体积小。

C.7上传完成后，前一帧数据可以丢弃，当前帧数据作为下次的前一帧数据。

C.8每帧数据均重复以上过程直到获得1000帧数据流。注意在这个过程中,每秒的第一帧Da数据压缩采用png格式，该秒内的后7帧则采用apng格式以进一步节省带宽。

APNG：APNG是普通PNG图片的动画扩展升级版，它的后缀依然是.png，包含动态的情况下体积会比普通静态png大数倍，可以做到无损的情况展示动态。

我们推出的通过高质量视频数据计算心跳和呼吸频率的SAAS服务(以下简称Vfreq-SAAS)包含一个JSON输入接口，一个TCP/IP数据流输入接口，一个JSON输出接口。

第三方开发用户需要首先使用一个JSON输入接口进行用户验证并获得TCP/IP数据流的上传地址和验证信息，然后通过TCP/IP上传视频数据，获得返回的上传视频数据的验证码。根据该视频数据验证码从JSON中获得该视频流中的目标心跳数据、呼吸数据、拍摄人的心跳数据、呼吸数据以及其他数据。

用户验证，JSON接口，格式如下：

D.11用户发送信息：

D.12Vfreq系统返回信息：

D.21用户登录

IP：LiangHuaVfreqIPPort：LiangHuaVfreqPort

登录名(同LiangHuaVfreqUID)

密码(LiangHuaVfreqTCPCode)

D.22Vfreq系统返回

LiangHuaVfreqVideoCode:“LiangHuaVfreq1234513223998833”

D.31用户发送信息：

D.32Vfreq系统返回信息：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本申请的技术方案而非对其保护范围的限制，尽管参照上述实施例对本申请进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，这些变更、修改或者等同替换，其均在其申请待批的权利要求范围之内。

Claims

1.一种视频流的生命体征数据计算方法，其特征在于，所述方法包括：

获取视频流中的多帧视频图像；

确定多帧视频图像中的人脸图像位置及眼部和嘴部特征；

2.如权利要求1所述的方法，其特征在于，所述获取视频流中的多帧视频图像之前还包括：通过调用服务接口，获取用户通过视频流采集装置采集并传输到SAAS服务器的视频流。

3.如权利要求2所述的方法，其特征在于，所述通过调用服务接口，获取用户通过视频流采集装置采集并传输到SAAS服务器的视频流之前还包括：

4.如权利要求1所述的方法，其特征在于，所述确定多帧视频图像中的人脸图像位置及眼部和嘴部特征包括：

调用opencv定位多帧视频图像中的人脸图像Fa；

5.如权利要求4所述的方法，其特征在于，所述将当前帧图像数据和前一帧图像数据Fa1,Fa2进行预处理，以采集特征数据包括：

对Fa1,Fa2进行平移配准，并将校正后的图像数据Fa1,Fa2分别进行差分处理和加和处理，生成差分处理后的数据Da和加和处理后的数据Sa。

6.如权利要求5所述的方法，其特征在于，所述基于预先定义的卷积网络对数据Da和Sa分别进行两次卷积包括：

卷积核为3*3的平均核，获得RGB三种颜色的27*2个输出数据；

卷积核为5*5的平均核，获得RGB三种颜色的225*2个输出数据；

7.如权利要求6所述的方法，其特征在于，所述采用特定格式对输出数据进行压缩和组装包括：

将所有输出数据采用zip方式压缩成数据流并上传。

8.如权利要求3所述的方法，其特征在于，所述视频流的生命体征数据通过视频流验证码调用JSON输出接口获得；其包括目标心跳数据、呼吸数据、拍摄人的心跳数据、呼吸数据以及其他数据。

9.一种生命体征数据的计算设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-8所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-8所述的方法。