CN111243624A

CN111243624A - 人员状态评估的方法和系统

Info

Publication number: CN111243624A
Application number: CN202010002750.8A
Authority: CN
Inventors: 谢俊; 叶荣军; 王浩; 王书诚; 邱超; 陈祖刚; 张未冬
Original assignee: 722th Research Institute of CSIC
Current assignee: 722th Research Institute of CSIC
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-06-05
Anticipated expiration: 2040-01-02
Also published as: CN111243624B

Abstract

本公开提供了一种人员状态评估的方法和系统，属于信息处理技术领域。所述方法包括：获取工作人员的图像和语音信号；对所述语音信号进行处理，得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数；采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数，评估所述工作人员的状态。本公开通过获取工作人员的图像和语音信号并对语音信号进行处理，采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数，评估工作人员的状态，由于状态是图像和语音两种完全不同的信息联合表征之后评估出来的，因此评估的准确度很高，而且实现成本低，特别适合交通运输和机械生产等需求量大的领域。

Description

人员状态评估的方法和系统

技术领域

本公开涉及信息处理技术领域，特别涉及一种人员状态评估的方法和系统。

背景技术

随着工业化的发展，交通运输和机械生产的规模越来越大。交通运输中的驾驶员和机械生产中的操作工人都会在固定位置进行长时间重复性的工作，很容易出现身体疲惫或者突发疾病的情况，如果不及时处理，很可能导致安全事故的发生。

相关技术中，先利用监控设备获取工作人员的状态参数，如在方向盘或者操作杆上安装心率传感器采集工作人员的心率、安装血压传感器采集工作人员的血压；再采用深度学习算法根据获取的状态信息评估工作人员的状态，从而在工作人员出现疲惫或者不适时，及时发出警报进行提醒，避免安全事故的发生。

通常情况下，状态参数的种类越多，评估结果的准确度越高。因此，如果状态参数的种类较少，则可能无法准确评估工作人员的状态。但是如果状态参数的种类较多，则需要的监控设备较多，实现成本较高。而且工作人员不可能把手等身体部位一直放在同一位置，为了避免由于工作人员身体部位移动而造成心率传感器、血压传感器等监控设备无法获取到状态参数，需要提高监控设备的灵敏度或者设置密度，这样会进一步增加监控设备的实现成本，特别不适合交通运输和机械生产等需求量大的领域。

发明内容

本公开实施例提供了一种人员状态评估的方法和系统，根据工作人员的红外图像和语音信息评估工作人员的状态，不存在工作人员可以同时兼顾评估的准确性和实现成本，特别适用于交通运输和机械生产等领域。所述技术方案如下：

一方面，本公开实施例提供了一种人员状态评估的方法，所述方法包括：

获取工作人员的图像和语音信号；

对所述语音信号进行处理，得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数；

采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数，评估所述工作人员的状态。

可选地，所述获取工作人员的图像和语音信号，包括：

采用摄像头连续拍摄工作人员的图像；

在连续拍摄所述工作人员的图像的过程中，采用麦克风采集所述工作人员的语音信号；

在连续拍摄的所述工作人员的图像中，截取采集所述工作人员的语音信号时拍摄的所述工作人员的图像。

可选地，所述方法还包括：

在所述图像上进行人脸定位，得到所述图像中人脸的位置；

根据所述图像中人脸的位置，转动所述图像，直到所述图像中人脸的偏转角度为设定角度；

根据所述图像中人脸的位置，在转动后的所述图像中截取人脸图像。

可选地，所述采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数，评估所述工作人员的状态，包括：

采用第一卷积神经网络对所述图像进行特征提取，得到图像特征；

采用第二卷积神经网络对所述声谱图进行特征提取，得到语音特征；

采用分类器根据所述图像特征、所述语音特征和所述梅尔频率倒谱系数，确定所述工作人员的状态。

可选地，所述方法包括：

根据所述状态，控制警示灯和警报器动作；其中，所述状态不同时，所述警示灯发出光线的颜色、所述警示灯发出光线的闪烁频率、所述警报器发出声音的音量、所述警报器发出声音的频率中的至少一种不同。

另一方面，本公开实施例提供了一种人员状态评估的系统，所述系统包括：

获取模块，用于获取工作人员的图像和语音信号；

处理模块，用于对所述语音信号进行处理，得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数；

评估模块，用于采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数，评估所述工作人员的状态。

可选地，所述获取模块包括：

拍摄子模块，用于连续拍摄工作人员的图像；

采集子模块，用于在连续拍摄所述工作人员的图像的过程中，采集所述工作人员的语音信号；

截取子模块，用于在连续拍摄的所述工作人员的图像中，截取采集所述工作人员的语音信号时拍摄的所述工作人员的图像。

可选地，所述系统还包括：

定位模块，用于在所述图像上进行人脸定位，得到所述图像中人脸的位置；

转动模块，用于根据所述图像中人脸的位置，转动所述图像，直到所述图像中人脸的偏转角度为设定角度；

截取模块，用于根据所述图像中人脸的位置，在转动后的所述图像中截取人脸图像。

可选地，所述评估模块包括：

第一卷积神经网络，用于对所述图像进行特征提取，得到图像特征；

第二卷积神经网络，用于对所述声谱图进行特征提取，得到语音特征；

分类器，用于根据所述图像特征、所述语音特征和所述梅尔频率倒谱系数，确定所述工作人员的状态。

可选地，所述系统包括：

报警模块，用于根据所述状态，控制警示灯和警报器动作；其中，所述状态不同时，所述警示灯发出光线的颜色、所述警示灯发出光线的闪烁频率、所述警报器发出声音的音量、所述警报器发出声音的频率中的至少一种不同。

本公开实施例提供的技术方案带来的有益效果是：

通过获取工作人员的图像和语音信号并对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率到谱系数，从而将语音信号转换为深度学习算法可以处理的信息。采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数，评估工作人员的状态，由于状态是图像和语音两种完全不同的信息联合表征之后评估出来的，因此评估的准确度很高。与相同准确度需要的监控设备的种类相比，图像和语音的获取设备的种类较少，也不存在工作人员身体部位移动而造成数据缺失的问题，对设备的精度和设置密度的要求较低，因此实现成本低得多，特别适合交通运输和机械生产等需求量大的领域。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种人员状态评估的方法的流程图；

图2是本公开实施例提供的另一种人员状态评估的方法的流程图；

图3是本公开实施例提供的第一步执行之后图像的结构示意图；

图4是本公开实施例提供的第二步执行之后图像的结构示意图；

图5是本公开实施例提供的第三步执行之后图像的结构示意图；

图6是本公开实施例提供的神经网络模型的结构示意图；

图7是本公开实施例提供的一种人员状态评估的系统的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

本公开实施例提供了一种人员状态评估的方法。图1为本公开实施例提供的一种人员状态评估的方法的流程图。参见图1，该方法包括：

步骤101：获取工作人员的图像和语音信号。

步骤102：对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数。

步骤103：采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数，评估工作人员的状态。

本公开实施例通过获取工作人员的图像和语音信号并对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率到谱系数，从而将语音信号转换为深度学习算法可以处理的信息。采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数，评估工作人员的状态，由于状态是图像和语音两种完全不同的信息联合表征之后评估出来的，因此评估的准确度很高。与相同准确度需要的监控设备的种类相比，图像和语音的获取设备的种类较少，也不存在工作人员身体部位移动而造成数据缺失的问题，对设备的精度和设置密度的要求较低，因此实现成本低得多，特别适合交通运输和机械生产等需求量大的领域。

本公开实施例提供了另一种人员状态评估的方法，适用于具体实现图1所示的人员状态评估的方法。图2为本公开实施例提供的另一种人员状态评估的方法的流程图。参见图2，该方法包括：

步骤201：获取工作人员的图像和语音信号。

可选地，该步骤201可以包括：

采用摄像头连续拍摄工作人员的图像；

在连续拍摄工作人员的图像的过程中，采用麦克风采集工作人员的语音信号；

在连续拍摄的工作人员的图像中，截取采集工作人员的语音信号时拍摄的工作人员的图像。

在实际应用中，可以连续拍摄工作人员的图像，但是工作人员的语音信号一般会间断产生，根据语音信号的产生时刻选取同一时刻拍摄的图像一起用于评估工作人员的状态，状态的评估基于图像和语音两种不同信息的联合表征，可以保证评估的准确度。

例如，摄像头在9:00～9:10之间一直拍摄工作人员的图像，麦克风在9:01～9:02之间和9:05～9:06之间采集到工作人员的语音信号，因此截取9:01～9:02之间和9:05～9:06的图像和语音信号一起用于评估工作人员的状态。

在实际应用中，麦克风可以一直处于开启状态，由于麦克风在工作人员说话时接收到的信号与工作人员没有说话时接收的信号差别很大，因此可以很容易从麦克风接收到的信号中提取出工作人员的语音信号。

可选地，该方法还可以包括：

当工作人员的语音信号的持续时间大于或等于设定时长时，保留语音信号；

当工作人员的语音信号的持续时间小于设定时长时，删除语音信号。

当语音信号的持续时间较短时，无法准确分辨出工作人员的状态，将持续较短的语音信号作为无效信号滤除，可以避免出现误判，保证评估结果的准确度。

示例性地，采用摄像头连续拍摄工作人员的图像，可以包括：

采用红外摄像头连续拍摄工作人员的图像。

红外摄像头可以适用于夜间等能见度较低的情况下的图像拍摄，确保能够获取到工作人员任意时刻的图像进行状态评估，以便在工作人员出现疲惫或者不适时及时发出警报进行提醒，避免发生事故的发生。

示例性地，采用麦克风采集工作人员的语音信号，可以包括：

采用降噪麦克风采集工作人员的语音信号。

降噪麦克风可以自动滤除语音信号的噪音，有利于提高状态评估的准确度，减轻后续处理设备的工作量。

可选地，在步骤201之后，该方法还可以包括：

第一步，在图像上进行人脸定位，得到图像中人脸的位置；

第二步，根据图像中人脸的位置，转动图像，直到图像中人脸的偏转角度为设定角度；

第三步，根据图像中人脸的位置，在转动后的图像中截取人脸图像。

在实际应用中，工作人员的脸部等身体部位不可能一直相对图像获取设备保持不动，如图像抖动、工作人员移动身体部位等，因此图像中的人脸可能有各种偏转角度，先在图像上进行人脸定位，可以得到图像中人脸的位置，再根据图像中人脸的位置转动图像，可以将各个图像中人脸的偏转角度保持一致，此时在图像中截取出人脸图像评估工作人员的状态，有利于采用统一标准辨别工作人员的状态，评估结果的准确度较高，还可以减小计算开销。

图3为本公开实施例提供的第一步执行之后图像的结构示意图。参见图3，可以采用人脸定位算法，在工作人员的图像A上定位出人脸B，人脸B的摆放方向相对于竖直方向右偏。

图4为本公开实施例提供的第二步执行之后图像的结构示意图。参见图4，以图像A的中心为转轴，根据人脸B相对于竖直方向的偏离角度反方向转动图像A，直到人脸B正向摆放。

图5为本公开实施例提供的第三步执行之后图像的结构示意图。参见图5，按照人脸B所在的位置，从图像A中截取出人脸图像C。

步骤202：对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数。

可选地，对语音信号进行处理，得到语音信号的声谱图，可以包括：

对语音信号进行分帧加窗，得到多帧时域信号；

对每帧时域信号进行快速傅里叶变化，将时域信号转换为频域信号；

将各帧频域信号在时间上堆叠起来，得到语音信号的声谱图。

可选地，对语音信号进行处理，得到语音信号中各个语音片段的梅尔频率倒谱系数，可以包括：

将语音信号划分为多个语音片段；

采用高通滤波器对各个语音片段进行预强化；

对各个语音片段进行傅里叶变换，将时域信号转换为频域信号；

采用多个三角带通滤波器对频域信号滤波，并在各个三角带通滤波器的输出上提取对数能量；

对各个对数能量进行离散傅里叶反变换，得到倒频谱图；

将倒频谱图的幅度作为梅尔频率倒谱系数。

在实际应用中，声音信号是连续变化的，为了将连续变化信号简化，可以假设在一个很短的时间段内，声音信号没有发生变化，因此对语音信号进行划分。示例性地，各个语音片段的持续时间在设定范围内。一方面避免持续时间太短而导致采样点较少，计算结果不可靠；另一方面避免持续时间太长而导致声音信号的变化太大。

预加强可以消除发声过程中声带和嘴唇造成的效应，补偿语音信号受到发音系统所压抑的高频部分，凸显高频的共振峰。

由于信号在时域上的变化很难看出信号的特性，因此通过傅里叶变换转换到频域上的能量分布来观察，不同的能量分布可以代表不同语音的特性。

另外，多个三角带通滤波器在梅尔刻度的频率上平均分布，更接近人类的听觉系统，使得梅尔频率倒谱系数可以有效表征声音特征，有利于提高状态评估的准确度。

步骤203：采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数，评估工作人员的状态。

可选地，该步骤203可以包括：

采用第一卷积神经网络对图像进行特征提取，得到图像特征；

采用第二卷积神经网络对声谱图进行特征提取，得到语音特征；

采用分类器根据图像特征、语音特征和梅尔频率倒谱系数，确定工作人员的状态。

先分别采用不同的卷积神经网络提取图像和声谱图的特征，在保证准确提取特征的情况下，可以有效降低卷积神经网络的复杂度，方便实现。再采用分类器根据图像特征、语音特征和梅尔频率倒谱系数，确定工作人员的状态，可以利用训练好的模型，直接得到评估结果。

图6为本公开实施例提供的神经网络模型的结构示意图。参见图6，示例性地，第一卷积神经网络10可以包括依次设置的第一卷积层11、第一池化层12、第二卷积层13、第二池化层14和平均值函数模型15。第二卷积神经网络20可以包括依次设置的第三卷积层21、第三池化层22、第四卷积层23、第四池化层24和长短期记忆(英文：long short term memory，简称：LSTM)模型25。分类器30可以包括依次设置的第一全连接层31、第二全连接层32和softmax逻辑回归模型33。

在实际应用中，卷积层可以感知局部特征；池化层可以对特征进行聚合统计；全连接层可以建立上一层的各个神经元与下一层的所有神经元的连接。另外，与语音信号同一时刻获取的图像有很多，直接取平均值，有利于简化运算。LSTM模型通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息，适用语音信号的处理。softmax逻辑回归模型为常用的分类器模型。

可选地，在步骤203之前，该方法还可以包括：

获取标记状态的图像和语音信号；

对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数；

采用标记状态的图像、声谱图和梅尔频率倒谱系数，对第一卷积神经网络、第二卷积神经网络和分类器进行训练。

示例性地，可以将分类器的输出与标记状态进行比较，取两者的交叉熵作为损伤函数，采用反向传播算法对一卷积神经网络、第二卷积神经网络和分类器中的参数进行迭代更新。

可选地，在步骤203之后，该方法还可以包括：

保存图像、声谱图和梅尔频率倒谱系数；

利用保存的图像、声谱图和梅尔频率倒谱系数，对第一卷积神经网络、第二卷积神经网络和分类器进行训练。

利用应用场景获取的图像和语音信号对神经网络模型进行更新，有利于提高神经网络模型输出的准确度。

在实际应用中，可以采用分数表示深度学习算法的计算结果，工作人员的状态对应不同的分数范围。例如，分数范围为1分～10分，分数越高表示状态越不好：1分～4分表示状态良好，5分～8分表示状态有风险，9分～10分表示状态危险。

步骤204：根据状态，控制警示灯和警报器动作。

在本实施例中，状态不同时，警示灯发出光线的颜色、警示灯发出光线的闪烁频率、警报器发出声音的音量、警报器发出声音的频率中的至少一种不同。

控制警示灯和警报器在不同状态下进行不同的动作，方便了解工作人员的状态，在工作人员出现疲惫或者不适时及时提醒，避免安全事故的发生。

在实际应用中，警示灯发出不同的光线可以通过控制不同颜色的警示灯亮灯实现，警示灯发出光线的闪烁频率可以通过控制警示灯的通断间隔实现，警报器发出声音的音量可以通过控制警报器的电压或者电流实现，警报器发出声音的频率可以通过控制警报器的通断间隔实现。

示例性地，该步骤204可以包括：

当状态良好时，控制警示灯发出绿色的光线，警报器不发出声音；

当状态有风险时，控制警示灯发出黄色的光线，警报器低频率地发出小音量的声音；

当状态危险时，控制警示灯发出红色的光线，报警器高频率地发出大音量的声音。

本公开实施例提供了一种人员状态评估的系统，适用于图1或图2所示的人员状态评估的方法。图7为本公开实施例提供的一种人员状态评估的系统的结构示意图。参见图7，该系统包括：

获取模块301，用于获取工作人员的图像和语音信号；

处理模块302，用于对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数；

评估模块303，用于采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数，评估工作人员的状态。

可选地，获取模块301可以包括：

拍摄子模块，用于连续拍摄工作人员的图像；

采集子模块，用于在连续拍摄工作人员的图像的过程中，采集工作人员的语音信号；

截取子模块，用于在连续拍摄的工作人员的图像中，截取采集工作人员的语音信号时拍摄的工作人员的图像。

在实际应用中，拍摄子模块可以采用摄像头，如红外摄像头实现。采集子模块可以采用麦克风，如降噪麦克风实现。

可选地，该系统还可以包括：

定位模块，用于在图像上进行人脸定位，得到图像中人脸的位置；

转动模块，用于根据图像中人脸的位置，转动图像，直到图像中人脸的偏转角度为设定角度；

截取模块，用于根据图像中人脸的位置，在转动后的图像中截取人脸图像。

可选地，评估模块303可以包括：

第一卷积神经网络，用于对图像进行特征提取，得到图像特征；

第二卷积神经网络，用于对声谱图进行特征提取，得到语音特征；

分类器，用于根据图像特征、语音特征和梅尔频率倒谱系数，确定工作人员的状态。

可选地，获取模块301还可以用于，获取标记状态的图像和语音信号；

处理模块302还可以用于，对语音信号进行处理，得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数；

该系统还可以包括：

训练模块，用于采用标记状态的图像、声谱图和梅尔频率倒谱系数，对第一卷积神经网络、第二卷积神经网络和分类器进行训练。

可选地，该系统还可以包括：

存储模块，用于保存图像、声谱图和梅尔频率倒谱系数；

训练模块，用于利用保存的图像、声谱图和梅尔频率倒谱系数，对第一卷积神经网络、第二卷积神经网络和分类器进行训练。

可选地，该系统还可以包括：

报警模块，用于根据状态，控制警示灯和警报器动作；其中，状态不同时，警示灯发出光线的颜色、警示灯发出光线的闪烁频率、警报器发出声音的音量、警报器发出声音的频率中的至少一种不同。

在实际应用中，整个系统可以布置在驾驶室内或者操作工业旁，也可以将图像和语音信号的获取设备布置在驾驶室内或者操作工业旁，系统其它部分都整合到监控系统中进行统一管理。

需要说明的是：上述实施例提供的人员状态评估的系统在评估人员状态时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人员状态评估的系统与人员状态评估的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种人员状态评估的方法，其特征在于，所述方法包括：

获取工作人员的图像和语音信号；

2.根据权利要求1所述的方法，其特征在于，所述获取工作人员的图像和语音信号，包括：

采用摄像头连续拍摄工作人员的图像；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在所述图像上进行人脸定位，得到所述图像中人脸的位置；

4.根据权利要求1或2所述的方法，其特征在于，所述采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数，评估所述工作人员的状态，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述方法包括：

6.一种人员状态评估的系统，其特征在于，所述系统包括：

获取模块，用于获取工作人员的图像和语音信号；

7.根据权利要求6所述的系统，其特征在于，所述获取模块包括：

拍摄子模块，用于连续拍摄工作人员的图像；

8.根据权利要求6或7所述的系统，其特征在于，所述系统还包括：

9.根据权利要求6或7所述的系统，其特征在于，所述评估模块包括：

10.根据权利要求6或7所述的系统，其特征在于，所述系统包括：