CN111243624A - 人员状态评估的方法和系统 - Google Patents
人员状态评估的方法和系统 Download PDFInfo
- Publication number
- CN111243624A CN111243624A CN202010002750.8A CN202010002750A CN111243624A CN 111243624 A CN111243624 A CN 111243624A CN 202010002750 A CN202010002750 A CN 202010002750A CN 111243624 A CN111243624 A CN 111243624A
- Authority
- CN
- China
- Prior art keywords
- image
- voice
- state
- face
- workers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 abstract description 7
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000036772 blood pressure Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 206010016256 fatigue Diseases 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B7/00—Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00
- G08B7/06—Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种人员状态评估的方法和系统,属于信息处理技术领域。所述方法包括:获取工作人员的图像和语音信号;对所述语音信号进行处理,得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数;采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态。本公开通过获取工作人员的图像和语音信号并对语音信号进行处理,采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数,评估工作人员的状态,由于状态是图像和语音两种完全不同的信息联合表征之后评估出来的,因此评估的准确度很高,而且实现成本低,特别适合交通运输和机械生产等需求量大的领域。
Description
技术领域
本公开涉及信息处理技术领域,特别涉及一种人员状态评估的方法和系统。
背景技术
随着工业化的发展,交通运输和机械生产的规模越来越大。交通运输中的驾驶员和机械生产中的操作工人都会在固定位置进行长时间重复性的工作,很容易出现身体疲惫或者突发疾病的情况,如果不及时处理,很可能导致安全事故的发生。
相关技术中,先利用监控设备获取工作人员的状态参数,如在方向盘或者操作杆上安装心率传感器采集工作人员的心率、安装血压传感器采集工作人员的血压;再采用深度学习算法根据获取的状态信息评估工作人员的状态,从而在工作人员出现疲惫或者不适时,及时发出警报进行提醒,避免安全事故的发生。
通常情况下,状态参数的种类越多,评估结果的准确度越高。因此,如果状态参数的种类较少,则可能无法准确评估工作人员的状态。但是如果状态参数的种类较多,则需要的监控设备较多,实现成本较高。而且工作人员不可能把手等身体部位一直放在同一位置,为了避免由于工作人员身体部位移动而造成心率传感器、血压传感器等监控设备无法获取到状态参数,需要提高监控设备的灵敏度或者设置密度,这样会进一步增加监控设备的实现成本,特别不适合交通运输和机械生产等需求量大的领域。
发明内容
本公开实施例提供了一种人员状态评估的方法和系统,根据工作人员的红外图像和语音信息评估工作人员的状态,不存在工作人员可以同时兼顾评估的准确性和实现成本,特别适用于交通运输和机械生产等领域。所述技术方案如下:
一方面,本公开实施例提供了一种人员状态评估的方法,所述方法包括:
获取工作人员的图像和语音信号;
对所述语音信号进行处理,得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数;
采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态。
可选地,所述获取工作人员的图像和语音信号,包括:
采用摄像头连续拍摄工作人员的图像;
在连续拍摄所述工作人员的图像的过程中,采用麦克风采集所述工作人员的语音信号;
在连续拍摄的所述工作人员的图像中,截取采集所述工作人员的语音信号时拍摄的所述工作人员的图像。
可选地,所述方法还包括:
在所述图像上进行人脸定位,得到所述图像中人脸的位置;
根据所述图像中人脸的位置,转动所述图像,直到所述图像中人脸的偏转角度为设定角度;
根据所述图像中人脸的位置,在转动后的所述图像中截取人脸图像。
可选地,所述采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态,包括:
采用第一卷积神经网络对所述图像进行特征提取,得到图像特征;
采用第二卷积神经网络对所述声谱图进行特征提取,得到语音特征;
采用分类器根据所述图像特征、所述语音特征和所述梅尔频率倒谱系数,确定所述工作人员的状态。
可选地,所述方法包括:
根据所述状态,控制警示灯和警报器动作;其中,所述状态不同时,所述警示灯发出光线的颜色、所述警示灯发出光线的闪烁频率、所述警报器发出声音的音量、所述警报器发出声音的频率中的至少一种不同。
另一方面,本公开实施例提供了一种人员状态评估的系统,所述系统包括:
获取模块,用于获取工作人员的图像和语音信号;
处理模块,用于对所述语音信号进行处理,得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数;
评估模块,用于采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态。
可选地,所述获取模块包括:
拍摄子模块,用于连续拍摄工作人员的图像;
采集子模块,用于在连续拍摄所述工作人员的图像的过程中,采集所述工作人员的语音信号;
截取子模块,用于在连续拍摄的所述工作人员的图像中,截取采集所述工作人员的语音信号时拍摄的所述工作人员的图像。
可选地,所述系统还包括:
定位模块,用于在所述图像上进行人脸定位,得到所述图像中人脸的位置;
转动模块,用于根据所述图像中人脸的位置,转动所述图像,直到所述图像中人脸的偏转角度为设定角度;
截取模块,用于根据所述图像中人脸的位置,在转动后的所述图像中截取人脸图像。
可选地,所述评估模块包括:
第一卷积神经网络,用于对所述图像进行特征提取,得到图像特征;
第二卷积神经网络,用于对所述声谱图进行特征提取,得到语音特征;
分类器,用于根据所述图像特征、所述语音特征和所述梅尔频率倒谱系数,确定所述工作人员的状态。
可选地,所述系统包括:
报警模块,用于根据所述状态,控制警示灯和警报器动作;其中,所述状态不同时,所述警示灯发出光线的颜色、所述警示灯发出光线的闪烁频率、所述警报器发出声音的音量、所述警报器发出声音的频率中的至少一种不同。
本公开实施例提供的技术方案带来的有益效果是:
通过获取工作人员的图像和语音信号并对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率到谱系数,从而将语音信号转换为深度学习算法可以处理的信息。采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数,评估工作人员的状态,由于状态是图像和语音两种完全不同的信息联合表征之后评估出来的,因此评估的准确度很高。与相同准确度需要的监控设备的种类相比,图像和语音的获取设备的种类较少,也不存在工作人员身体部位移动而造成数据缺失的问题,对设备的精度和设置密度的要求较低,因此实现成本低得多,特别适合交通运输和机械生产等需求量大的领域。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种人员状态评估的方法的流程图;
图2是本公开实施例提供的另一种人员状态评估的方法的流程图;
图3是本公开实施例提供的第一步执行之后图像的结构示意图;
图4是本公开实施例提供的第二步执行之后图像的结构示意图;
图5是本公开实施例提供的第三步执行之后图像的结构示意图;
图6是本公开实施例提供的神经网络模型的结构示意图;
图7是本公开实施例提供的一种人员状态评估的系统的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
本公开实施例提供了一种人员状态评估的方法。图1为本公开实施例提供的一种人员状态评估的方法的流程图。参见图1,该方法包括:
步骤101:获取工作人员的图像和语音信号。
步骤102:对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数。
步骤103:采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数,评估工作人员的状态。
本公开实施例通过获取工作人员的图像和语音信号并对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率到谱系数,从而将语音信号转换为深度学习算法可以处理的信息。采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数,评估工作人员的状态,由于状态是图像和语音两种完全不同的信息联合表征之后评估出来的,因此评估的准确度很高。与相同准确度需要的监控设备的种类相比,图像和语音的获取设备的种类较少,也不存在工作人员身体部位移动而造成数据缺失的问题,对设备的精度和设置密度的要求较低,因此实现成本低得多,特别适合交通运输和机械生产等需求量大的领域。
本公开实施例提供了另一种人员状态评估的方法,适用于具体实现图1所示的人员状态评估的方法。图2为本公开实施例提供的另一种人员状态评估的方法的流程图。参见图2,该方法包括:
步骤201:获取工作人员的图像和语音信号。
可选地,该步骤201可以包括:
采用摄像头连续拍摄工作人员的图像;
在连续拍摄工作人员的图像的过程中,采用麦克风采集工作人员的语音信号;
在连续拍摄的工作人员的图像中,截取采集工作人员的语音信号时拍摄的工作人员的图像。
在实际应用中,可以连续拍摄工作人员的图像,但是工作人员的语音信号一般会间断产生,根据语音信号的产生时刻选取同一时刻拍摄的图像一起用于评估工作人员的状态,状态的评估基于图像和语音两种不同信息的联合表征,可以保证评估的准确度。
例如,摄像头在9:00~9:10之间一直拍摄工作人员的图像,麦克风在9:01~9:02之间和9:05~9:06之间采集到工作人员的语音信号,因此截取9:01~9:02之间和9:05~9:06的图像和语音信号一起用于评估工作人员的状态。
在实际应用中,麦克风可以一直处于开启状态,由于麦克风在工作人员说话时接收到的信号与工作人员没有说话时接收的信号差别很大,因此可以很容易从麦克风接收到的信号中提取出工作人员的语音信号。
可选地,该方法还可以包括:
当工作人员的语音信号的持续时间大于或等于设定时长时,保留语音信号;
当工作人员的语音信号的持续时间小于设定时长时,删除语音信号。
当语音信号的持续时间较短时,无法准确分辨出工作人员的状态,将持续较短的语音信号作为无效信号滤除,可以避免出现误判,保证评估结果的准确度。
示例性地,采用摄像头连续拍摄工作人员的图像,可以包括:
采用红外摄像头连续拍摄工作人员的图像。
红外摄像头可以适用于夜间等能见度较低的情况下的图像拍摄,确保能够获取到工作人员任意时刻的图像进行状态评估,以便在工作人员出现疲惫或者不适时及时发出警报进行提醒,避免发生事故的发生。
示例性地,采用麦克风采集工作人员的语音信号,可以包括:
采用降噪麦克风采集工作人员的语音信号。
降噪麦克风可以自动滤除语音信号的噪音,有利于提高状态评估的准确度,减轻后续处理设备的工作量。
可选地,在步骤201之后,该方法还可以包括:
第一步,在图像上进行人脸定位,得到图像中人脸的位置;
第二步,根据图像中人脸的位置,转动图像,直到图像中人脸的偏转角度为设定角度;
第三步,根据图像中人脸的位置,在转动后的图像中截取人脸图像。
在实际应用中,工作人员的脸部等身体部位不可能一直相对图像获取设备保持不动,如图像抖动、工作人员移动身体部位等,因此图像中的人脸可能有各种偏转角度,先在图像上进行人脸定位,可以得到图像中人脸的位置,再根据图像中人脸的位置转动图像,可以将各个图像中人脸的偏转角度保持一致,此时在图像中截取出人脸图像评估工作人员的状态,有利于采用统一标准辨别工作人员的状态,评估结果的准确度较高,还可以减小计算开销。
图3为本公开实施例提供的第一步执行之后图像的结构示意图。参见图3,可以采用人脸定位算法,在工作人员的图像A上定位出人脸B,人脸B的摆放方向相对于竖直方向右偏。
图4为本公开实施例提供的第二步执行之后图像的结构示意图。参见图4,以图像A的中心为转轴,根据人脸B相对于竖直方向的偏离角度反方向转动图像A,直到人脸B正向摆放。
图5为本公开实施例提供的第三步执行之后图像的结构示意图。参见图5,按照人脸B所在的位置,从图像A中截取出人脸图像C。
步骤202:对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数。
可选地,对语音信号进行处理,得到语音信号的声谱图,可以包括:
对语音信号进行分帧加窗,得到多帧时域信号;
对每帧时域信号进行快速傅里叶变化,将时域信号转换为频域信号;
将各帧频域信号在时间上堆叠起来,得到语音信号的声谱图。
可选地,对语音信号进行处理,得到语音信号中各个语音片段的梅尔频率倒谱系数,可以包括:
将语音信号划分为多个语音片段;
采用高通滤波器对各个语音片段进行预强化;
对各个语音片段进行傅里叶变换,将时域信号转换为频域信号;
采用多个三角带通滤波器对频域信号滤波,并在各个三角带通滤波器的输出上提取对数能量;
对各个对数能量进行离散傅里叶反变换,得到倒频谱图;
将倒频谱图的幅度作为梅尔频率倒谱系数。
在实际应用中,声音信号是连续变化的,为了将连续变化信号简化,可以假设在一个很短的时间段内,声音信号没有发生变化,因此对语音信号进行划分。示例性地,各个语音片段的持续时间在设定范围内。一方面避免持续时间太短而导致采样点较少,计算结果不可靠;另一方面避免持续时间太长而导致声音信号的变化太大。
预加强可以消除发声过程中声带和嘴唇造成的效应,补偿语音信号受到发音系统所压抑的高频部分,凸显高频的共振峰。
由于信号在时域上的变化很难看出信号的特性,因此通过傅里叶变换转换到频域上的能量分布来观察,不同的能量分布可以代表不同语音的特性。
另外,多个三角带通滤波器在梅尔刻度的频率上平均分布,更接近人类的听觉系统,使得梅尔频率倒谱系数可以有效表征声音特征,有利于提高状态评估的准确度。
步骤203:采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数,评估工作人员的状态。
可选地,该步骤203可以包括:
采用第一卷积神经网络对图像进行特征提取,得到图像特征;
采用第二卷积神经网络对声谱图进行特征提取,得到语音特征;
采用分类器根据图像特征、语音特征和梅尔频率倒谱系数,确定工作人员的状态。
先分别采用不同的卷积神经网络提取图像和声谱图的特征,在保证准确提取特征的情况下,可以有效降低卷积神经网络的复杂度,方便实现。再采用分类器根据图像特征、语音特征和梅尔频率倒谱系数,确定工作人员的状态,可以利用训练好的模型,直接得到评估结果。
图6为本公开实施例提供的神经网络模型的结构示意图。参见图6,示例性地,第一卷积神经网络10可以包括依次设置的第一卷积层11、第一池化层12、第二卷积层13、第二池化层14和平均值函数模型15。第二卷积神经网络20可以包括依次设置的第三卷积层21、第三池化层22、第四卷积层23、第四池化层24和长短期记忆(英文:long short term memory,简称:LSTM)模型25。分类器30可以包括依次设置的第一全连接层31、第二全连接层32和softmax逻辑回归模型33。
在实际应用中,卷积层可以感知局部特征;池化层可以对特征进行聚合统计;全连接层可以建立上一层的各个神经元与下一层的所有神经元的连接。另外,与语音信号同一时刻获取的图像有很多,直接取平均值,有利于简化运算。LSTM模型通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息,适用语音信号的处理。softmax逻辑回归模型为常用的分类器模型。
可选地,在步骤203之前,该方法还可以包括:
获取标记状态的图像和语音信号;
对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数;
采用标记状态的图像、声谱图和梅尔频率倒谱系数,对第一卷积神经网络、第二卷积神经网络和分类器进行训练。
示例性地,可以将分类器的输出与标记状态进行比较,取两者的交叉熵作为损伤函数,采用反向传播算法对一卷积神经网络、第二卷积神经网络和分类器中的参数进行迭代更新。
可选地,在步骤203之后,该方法还可以包括:
保存图像、声谱图和梅尔频率倒谱系数;
利用保存的图像、声谱图和梅尔频率倒谱系数,对第一卷积神经网络、第二卷积神经网络和分类器进行训练。
利用应用场景获取的图像和语音信号对神经网络模型进行更新,有利于提高神经网络模型输出的准确度。
在实际应用中,可以采用分数表示深度学习算法的计算结果,工作人员的状态对应不同的分数范围。例如,分数范围为1分~10分,分数越高表示状态越不好:1分~4分表示状态良好,5分~8分表示状态有风险,9分~10分表示状态危险。
步骤204:根据状态,控制警示灯和警报器动作。
在本实施例中,状态不同时,警示灯发出光线的颜色、警示灯发出光线的闪烁频率、警报器发出声音的音量、警报器发出声音的频率中的至少一种不同。
控制警示灯和警报器在不同状态下进行不同的动作,方便了解工作人员的状态,在工作人员出现疲惫或者不适时及时提醒,避免安全事故的发生。
在实际应用中,警示灯发出不同的光线可以通过控制不同颜色的警示灯亮灯实现,警示灯发出光线的闪烁频率可以通过控制警示灯的通断间隔实现,警报器发出声音的音量可以通过控制警报器的电压或者电流实现,警报器发出声音的频率可以通过控制警报器的通断间隔实现。
示例性地,该步骤204可以包括:
当状态良好时,控制警示灯发出绿色的光线,警报器不发出声音;
当状态有风险时,控制警示灯发出黄色的光线,警报器低频率地发出小音量的声音;
当状态危险时,控制警示灯发出红色的光线,报警器高频率地发出大音量的声音。
本公开实施例提供了一种人员状态评估的系统,适用于图1或图2所示的人员状态评估的方法。图7为本公开实施例提供的一种人员状态评估的系统的结构示意图。参见图7,该系统包括:
获取模块301,用于获取工作人员的图像和语音信号;
处理模块302,用于对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数;
评估模块303,用于采用深度学习算法根据图像、声谱图和梅尔频率倒谱系数,评估工作人员的状态。
可选地,获取模块301可以包括:
拍摄子模块,用于连续拍摄工作人员的图像;
采集子模块,用于在连续拍摄工作人员的图像的过程中,采集工作人员的语音信号;
截取子模块,用于在连续拍摄的工作人员的图像中,截取采集工作人员的语音信号时拍摄的工作人员的图像。
在实际应用中,拍摄子模块可以采用摄像头,如红外摄像头实现。采集子模块可以采用麦克风,如降噪麦克风实现。
可选地,该系统还可以包括:
定位模块,用于在图像上进行人脸定位,得到图像中人脸的位置;
转动模块,用于根据图像中人脸的位置,转动图像,直到图像中人脸的偏转角度为设定角度;
截取模块,用于根据图像中人脸的位置,在转动后的图像中截取人脸图像。
可选地,评估模块303可以包括:
第一卷积神经网络,用于对图像进行特征提取,得到图像特征;
第二卷积神经网络,用于对声谱图进行特征提取,得到语音特征;
分类器,用于根据图像特征、语音特征和梅尔频率倒谱系数,确定工作人员的状态。
可选地,获取模块301还可以用于,获取标记状态的图像和语音信号;
处理模块302还可以用于,对语音信号进行处理,得到语音信号的声谱图和语音信号中各个语音片段的梅尔频率倒谱系数;
该系统还可以包括:
训练模块,用于采用标记状态的图像、声谱图和梅尔频率倒谱系数,对第一卷积神经网络、第二卷积神经网络和分类器进行训练。
可选地,该系统还可以包括:
存储模块,用于保存图像、声谱图和梅尔频率倒谱系数;
训练模块,用于利用保存的图像、声谱图和梅尔频率倒谱系数,对第一卷积神经网络、第二卷积神经网络和分类器进行训练。
可选地,该系统还可以包括:
报警模块,用于根据状态,控制警示灯和警报器动作;其中,状态不同时,警示灯发出光线的颜色、警示灯发出光线的闪烁频率、警报器发出声音的音量、警报器发出声音的频率中的至少一种不同。
在实际应用中,整个系统可以布置在驾驶室内或者操作工业旁,也可以将图像和语音信号的获取设备布置在驾驶室内或者操作工业旁,系统其它部分都整合到监控系统中进行统一管理。
需要说明的是:上述实施例提供的人员状态评估的系统在评估人员状态时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的人员状态评估的系统与人员状态评估的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种人员状态评估的方法,其特征在于,所述方法包括:
获取工作人员的图像和语音信号;
对所述语音信号进行处理,得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数;
采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态。
2.根据权利要求1所述的方法,其特征在于,所述获取工作人员的图像和语音信号,包括:
采用摄像头连续拍摄工作人员的图像;
在连续拍摄所述工作人员的图像的过程中,采用麦克风采集所述工作人员的语音信号;
在连续拍摄的所述工作人员的图像中,截取采集所述工作人员的语音信号时拍摄的所述工作人员的图像。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在所述图像上进行人脸定位,得到所述图像中人脸的位置;
根据所述图像中人脸的位置,转动所述图像,直到所述图像中人脸的偏转角度为设定角度;
根据所述图像中人脸的位置,在转动后的所述图像中截取人脸图像。
4.根据权利要求1或2所述的方法,其特征在于,所述采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态,包括:
采用第一卷积神经网络对所述图像进行特征提取,得到图像特征;
采用第二卷积神经网络对所述声谱图进行特征提取,得到语音特征;
采用分类器根据所述图像特征、所述语音特征和所述梅尔频率倒谱系数,确定所述工作人员的状态。
5.根据权利要求1或2所述的方法,其特征在于,所述方法包括:
根据所述状态,控制警示灯和警报器动作;其中,所述状态不同时,所述警示灯发出光线的颜色、所述警示灯发出光线的闪烁频率、所述警报器发出声音的音量、所述警报器发出声音的频率中的至少一种不同。
6.一种人员状态评估的系统,其特征在于,所述系统包括:
获取模块,用于获取工作人员的图像和语音信号;
处理模块,用于对所述语音信号进行处理,得到所述语音信号的声谱图和所述语音信号中各个语音片段的梅尔频率倒谱系数;
评估模块,用于采用深度学习算法根据所述图像、所述声谱图和所述梅尔频率倒谱系数,评估所述工作人员的状态。
7.根据权利要求6所述的系统,其特征在于,所述获取模块包括:
拍摄子模块,用于连续拍摄工作人员的图像;
采集子模块,用于在连续拍摄所述工作人员的图像的过程中,采集所述工作人员的语音信号;
截取子模块,用于在连续拍摄的所述工作人员的图像中,截取采集所述工作人员的语音信号时拍摄的所述工作人员的图像。
8.根据权利要求6或7所述的系统,其特征在于,所述系统还包括:
定位模块,用于在所述图像上进行人脸定位,得到所述图像中人脸的位置;
转动模块,用于根据所述图像中人脸的位置,转动所述图像,直到所述图像中人脸的偏转角度为设定角度;
截取模块,用于根据所述图像中人脸的位置,在转动后的所述图像中截取人脸图像。
9.根据权利要求6或7所述的系统,其特征在于,所述评估模块包括:
第一卷积神经网络,用于对所述图像进行特征提取,得到图像特征;
第二卷积神经网络,用于对所述声谱图进行特征提取,得到语音特征;
分类器,用于根据所述图像特征、所述语音特征和所述梅尔频率倒谱系数,确定所述工作人员的状态。
10.根据权利要求6或7所述的系统,其特征在于,所述系统包括:
报警模块,用于根据所述状态,控制警示灯和警报器动作;其中,所述状态不同时,所述警示灯发出光线的颜色、所述警示灯发出光线的闪烁频率、所述警报器发出声音的音量、所述警报器发出声音的频率中的至少一种不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002750.8A CN111243624B (zh) | 2020-01-02 | 2020-01-02 | 人员状态评估的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002750.8A CN111243624B (zh) | 2020-01-02 | 2020-01-02 | 人员状态评估的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243624A true CN111243624A (zh) | 2020-06-05 |
CN111243624B CN111243624B (zh) | 2023-04-07 |
Family
ID=70867167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002750.8A Active CN111243624B (zh) | 2020-01-02 | 2020-01-02 | 人员状态评估的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243624B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128876A (zh) * | 2021-04-22 | 2021-07-16 | 北京房江湖科技有限公司 | 基于图像的对象管理方法、装置及计算机可读存储介质 |
CN113437371A (zh) * | 2021-05-19 | 2021-09-24 | 湖南大学 | 一种新能源汽车锂离子电池热失控预警系统及预警方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105700682A (zh) * | 2016-01-08 | 2016-06-22 | 北京乐驾科技有限公司 | 基于视觉和语音的智能性别、情绪识别检测系统及方法 |
CN107516127A (zh) * | 2017-08-21 | 2017-12-26 | 山东大学 | 服务机器人自主获取人穿携物品归属语义的方法及系统 |
CN107767874A (zh) * | 2017-09-04 | 2018-03-06 | 南方医科大学南方医院 | 一种婴儿啼哭声识别提示方法及系统 |
CN108345860A (zh) * | 2018-02-24 | 2018-07-31 | 江苏测联空间大数据应用研究中心有限公司 | 基于深度学习和距离度量学习的人员再识别方法 |
US20180247642A1 (en) * | 2017-02-27 | 2018-08-30 | Electronics And Telecommunications Research Institute | Method and apparatus for improving spontaneous speech recognition performance |
CN108922622A (zh) * | 2018-07-10 | 2018-11-30 | 平安科技(深圳)有限公司 | 一种动物健康监测方法、装置及计算机可读存储介质 |
CN109119095A (zh) * | 2018-08-31 | 2019-01-01 | 平安科技(深圳)有限公司 | 疲劳等级识别方法、装置、计算机设备及存储介质 |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN109452932A (zh) * | 2018-12-20 | 2019-03-12 | 广州华久信息科技有限公司 | 一种基于声音的体质辨识方法及设备 |
US10235998B1 (en) * | 2018-02-28 | 2019-03-19 | Karen Elaine Khaleghi | Health monitoring system and appliance |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN109977258A (zh) * | 2019-02-21 | 2019-07-05 | 中国科学院西安光学精密机械研究所 | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 |
-
2020
- 2020-01-02 CN CN202010002750.8A patent/CN111243624B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105700682A (zh) * | 2016-01-08 | 2016-06-22 | 北京乐驾科技有限公司 | 基于视觉和语音的智能性别、情绪识别检测系统及方法 |
US20180247642A1 (en) * | 2017-02-27 | 2018-08-30 | Electronics And Telecommunications Research Institute | Method and apparatus for improving spontaneous speech recognition performance |
CN107516127A (zh) * | 2017-08-21 | 2017-12-26 | 山东大学 | 服务机器人自主获取人穿携物品归属语义的方法及系统 |
CN107767874A (zh) * | 2017-09-04 | 2018-03-06 | 南方医科大学南方医院 | 一种婴儿啼哭声识别提示方法及系统 |
CN108345860A (zh) * | 2018-02-24 | 2018-07-31 | 江苏测联空间大数据应用研究中心有限公司 | 基于深度学习和距离度量学习的人员再识别方法 |
US10235998B1 (en) * | 2018-02-28 | 2019-03-19 | Karen Elaine Khaleghi | Health monitoring system and appliance |
CN108922622A (zh) * | 2018-07-10 | 2018-11-30 | 平安科技(深圳)有限公司 | 一种动物健康监测方法、装置及计算机可读存储介质 |
CN109119095A (zh) * | 2018-08-31 | 2019-01-01 | 平安科技(深圳)有限公司 | 疲劳等级识别方法、装置、计算机设备及存储介质 |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN109452932A (zh) * | 2018-12-20 | 2019-03-12 | 广州华久信息科技有限公司 | 一种基于声音的体质辨识方法及设备 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN109977258A (zh) * | 2019-02-21 | 2019-07-05 | 中国科学院西安光学精密机械研究所 | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 |
Non-Patent Citations (1)
Title |
---|
李志欣等: "结合深度特征与多标记分类的图像语义标注", 《计算机辅助设计与图形学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128876A (zh) * | 2021-04-22 | 2021-07-16 | 北京房江湖科技有限公司 | 基于图像的对象管理方法、装置及计算机可读存储介质 |
CN113437371A (zh) * | 2021-05-19 | 2021-09-24 | 湖南大学 | 一种新能源汽车锂离子电池热失控预警系统及预警方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111243624B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nakadai et al. | Real-time sound source localization and separation for robot audition. | |
CN110991289B (zh) | 异常事件的监测方法、装置、电子设备及存储介质 | |
CN111243624B (zh) | 人员状态评估的方法和系统 | |
US20230001932A1 (en) | Smart ring system for monitoring uvb exposure levels and using machine learning technique to predict high risk driving behavior | |
CN108701469B (zh) | 咳嗽声音识别方法、设备和存储介质 | |
US5228087A (en) | Speech recognition apparatus and methods | |
CN109243490A (zh) | 司机情绪识别方法及终端设备 | |
KR102272622B1 (ko) | 기계설비의 기계음을 이용한 딥러닝기반 이상징후 감지시스템 | |
CN108427916A (zh) | 一种用于客服坐席情绪的监控系统及监控方法 | |
CN106898346A (zh) | 一种高速公路隧道安全监控系统 | |
CN101976564A (zh) | 昆虫声音识别方法 | |
CN109872713A (zh) | 一种语音唤醒方法及装置 | |
CN110368005A (zh) | 一种智能耳机及基于智能耳机的情绪及生理健康监控方法 | |
Fatimah et al. | An automatic siren detection algorithm using Fourier Decomposition Method and MFCC | |
CN112986914A (zh) | 一种单兵头盔及其目标声源定位和声纹识别方法 | |
JP2001000007U (ja) | 音声認識装置 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN113674768A (zh) | 基于声学的呼救检测方法、装置、设备及存储介质 | |
Astapov et al. | Military vehicle acoustic pattern identification by distributed ground sensors | |
CN111257890A (zh) | 一种跌倒行为识别方法及装置 | |
Zhang et al. | A novel insect sound recognition algorithm based on mfcc and cnn | |
CN116312635A (zh) | 一种融合机器识别和听觉脑机接口的声音目标探测方法 | |
CN115931141A (zh) | 一种基于改进型ann算法的红外测温图谱的温度识别方法 | |
CN110211569A (zh) | 基于语音图谱和深度学习的实时性别识别方法 | |
CN113504891B (zh) | 一种音量调节方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |