CN106057212B - 基于语音个性特征和模型自适应的驾驶疲劳检测方法 - Google Patents

基于语音个性特征和模型自适应的驾驶疲劳检测方法 Download PDF

Info

Publication number
CN106057212B
CN106057212B CN201610338429.0A CN201610338429A CN106057212B CN 106057212 B CN106057212 B CN 106057212B CN 201610338429 A CN201610338429 A CN 201610338429A CN 106057212 B CN106057212 B CN 106057212B
Authority
CN
China
Prior art keywords
driver
fatigue
voice
model
personal characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610338429.0A
Other languages
English (en)
Other versions
CN106057212A (zh
Inventor
李响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN201610338429.0A priority Critical patent/CN106057212B/zh
Publication of CN106057212A publication Critical patent/CN106057212A/zh
Application granted granted Critical
Publication of CN106057212B publication Critical patent/CN106057212B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提出了一种基于语音个性特征和模型自适应的驾驶疲劳检测方法。包含以下步骤:首先,提取驾驶人语音样本的线性特征和非线性特征;其次,采用基于VQ的说话人识别算法判别驾驶人身份;随后,根据驾驶人的个体疲劳特征差异,采用Relief算法筛选出能够充分反映其疲劳信息的语音特征,构建疲劳个性特征向量;最后,采用SVM分类算法建立驾驶人个体的自适应疲劳检测模型,并对模型进行样本训练以及驾驶疲劳检测。本发明将语音线性特征和非线性特征进行互补结合,同时针对驾驶人的个体差异,从中筛选出能够充分反映驾驶人疲劳信息的语音个性特征用于驾驶疲劳检测,有效降低了驾驶人个体发音差异对疲劳检测的影响,提高了检测的准确性。

Description

基于语音个性特征和模型自适应的驾驶疲劳检测方法
技术领域
本发明涉及语音处理及交通安全监测控制领域,特别涉及一种应用语音个性特征和模型自适应来检测驾驶疲劳的方法。
背景技术
在交通运输领域,驾驶人的疲劳现象直接危害着生命财产的安全。据悉,约有80%的重大交通事故与驾驶员的疲劳驾驶有关,驾驶疲劳现象及其所引发的交通安全隐患已然引起社会的高度重视,围绕其检测手段的研究也一直是令人关注的热门问题。
目前对驾驶疲劳的检测主要有主观和客观两种方法,主观检测法主要依据主观调查表、自我记录表、睡眠记录表等来评测人体的疲劳程度。虽然这类主观方法使用简单,但不具备实时性,且十分易受个体主观评分差异的影响,其结果往往并不准确。客观检测法是借助仪器设备,对人体的脑电、心电等生理指标进行测量;或对人体的眨眼频率、眼睛闭合度、点头动作等行为特征指标进行测量;或对车辆的行车加速度、方向盘角速度、侧位移等运行特征指标进行测量;随后,从上述各指标中提取出能够反映疲劳状态的特征量,通过分析和实验设定评价标准,将实测数据和评价标准经行比较,判断疲劳状态。从实际实施效果来看,现有的这些疲劳客观检测方法大多难以满足实时性、环境适应性、非接触性和便捷性的要求。例如,基于生理指标的疲劳检测,设备昂贵,测量方法复杂,大多需要接触式测量而无法实际应用;基于驾驶员行为特征的检测方法,其图像采集设备易受角度、光线和遮挡等环境因素的干扰;基于车辆运行特征的疲劳检测,受个体驾驶习惯差异及车辆道路情况等因素影响的程度较大。因此,现有的这三类客观检测方法均因其检测条件的限制及复杂环境的影响,检测效果不能完全令人满意。
考虑到铁路及航空等高安全等级的交通运输领域,均要求驾驶人员采用标准作业用语,这些语音中涵盖着大量与人体疲劳相关的生理和心理信息,其采集手段比其他指标更为简单便捷,并且语音处理系统的环境适应性强,降噪技术成熟,成本低廉。近些年,应用语音信号来检测人体疲劳的研究也逐渐兴起,然而大多数研究或局限于部分传统的语音线性特征参数,或局限于语音信号的混沌、分形等非线性特征,对语音信号中所包含的疲劳信息体现得不够全面:一方面,如果特征取得较多,会使得计算量急剧增大,乃至“维数灾难”所引起的检测效率低下问题,同时易受其他因素干扰的语音特征还会影响到疲劳检测的准确性和客观性;另一方面,较少的语音特征又难以保证疲劳检测的全面性和普适性。更为重要的是,说话人的个体发音差异对疲劳检测的效果又有着较大的影响,尤其是不同说话人的各个语音特征对其疲劳状态的敏感性不同,如果对所有驾驶人均采用相同的语音特征组合以及相同的疲劳检测模型,势必是不够合理和客观的。因此,现有同类方法在不同个体的疲劳特征差异以及疲劳检测模型的自适应性方面做得还不够理想,检测效果也距实际应用存在一定差距。
发明内容
本发明的目的就是针对现有方法的不足,提供一种基于语音个性特征和模型自适应的驾驶疲劳检测方法,力求针对不同驾驶人个体在疲劳时的语音特点,更加客观准确地检测其疲劳状态,在实现驾驶疲劳实时检测的前提下,进一步提高检测的精度和效率。
本发明是通过以下技术方案实现的:
一种基于语音个性特征和模型自适应的驾驶疲劳检测方法,包括以下四个步骤:
S1、提取驾驶人语音样本的语音线性特征和语音非线性特征;
S2、采用基于VQ的说话人识别算法,得到驾驶人的身份标签,并据此从所有驾驶人的历史语音样本库中检索该名驾驶人的历史语音样本库,用于后续的疲劳个性特征筛选;
S3、采用Relief特征选择算法从所提取的语音线性特征和语音非线性特征中筛选可以充分反映该驾驶人个体疲劳信息的语音特征参数,构建其语音疲劳个性特征向量;
S4、建立自适应疲劳检测模型,应用驾驶人的历史语音样本对其自适应疲劳检测模型进行训练,并将训练好的模型用于待测驾驶人语音样本的驾驶疲劳模式识别,得出驾驶疲劳检测结果。
在步骤S1中,所述的语音线性特征包括:基音频率、前三共振峰及其带宽、短时能量、短时过零率、清浊音比率、谐波噪声比、线性预测倒谱系数、梅尔频标倒谱系数,及上述特征参数的均值、方差、最大值、最小值、中值、上四分位值及下四分位值。
在步骤S1中,所述的语音非线性特征包括:李雅普诺夫指数、关联维数、广义赫斯特指数、二阶熵,及上述特征参数的均值、方差、最大值、最小值、中值、上四分位值及下四分位值。
在步骤S2中,所述的基于VQ的说话人识别算法,包括如下步骤:
a、从所有N个驾驶人的历史语音样本库S={S1,S2,…,SN}中提取说话人特征矢量序列,该特征矢量序列是由各语音帧的基音频率、线性预测倒谱系数、梅尔频标倒谱系数,这三种能够体现说话人信息的语音特征参数组合构成;
b、采用LBG算法对每个驾驶人的说话人特征矢量序列进行聚类,生成具有L个码字的VQ码本模型其中n为驾驶人标签,n=1,2,…,N;l为码字编号,l=1,2,…,L;存储所有驾驶人语音的码本模型,形成驾驶人码本库Y={Y1,Y2,…,YN};
c、提取待测驾驶人语音样本的特征矢量序列X1,X2,…,XM,其中M是特征矢量序列的长度,也即语音样本所包含语音帧的总数;并将该特征矢量序列依次与各个码本模型进行失真距离测度计算,得到待测语音与各码本间的平均量化误差Dn,如下:
式中,代表待测矢量Xm与第n个码本模型的第l个码字之间的失真距离,采用欧式距离测度计算;
d、选取平均量化误差最小的码本模型所对应的说话人标签,即为待测驾驶人的身份标签。
步骤S2所述的驾驶人历史语音样本库Sn,包括了驾驶人在正常和疲劳状态下所采集的两类语音样本,其中疲劳类语音样本Sn-采集自驾驶实验中驾驶人在疲劳症状自测量表得分和心率指标水平均低于该次驾驶实验平均值时所采集的语音样本,其余实验语音样本均标记为正常类语音样本Sn+
在步骤S3中,所述的Relief特征选择算法,可根据不同语音特征对疲劳的分类区分能力而分别赋予不同的权重,其计算过程为:
a、从驾驶人历史语音样本库Sn中,随机抽取一个样本Sj,然后再从两类样本Sn+和Sn-中各选出一个特征空间内距离Sj最近的样本,其中与Sj最近的同类样本用Hit表示,最近的异类样本用Miss表示;
b、根据样本间在语音特征Fi上的差异来循环迭代更新该特征的权重wi
wi=wi-diff(Fi,Sj,Hit)/r+diff(Fi,Sj,Miss)/r
式中,r为抽样迭代次数,diff(Fi,Sj,Hit)和diff(Fi,Sj,Miss)分别代表Sj和Hit以及Sj和Miss在第i个语音特征Fi上的相对差异,定义为:
式中,Fi(Sj)为样本Sj的第i个语音特征,Fi(Hit)和Fi(Miss)分别为样本Hit和Miss的第i个语音特征,max(Fi)和min(Fi)分别为特征Fi在样本库中的最大值和最小值;
c、对每一个语音特征,不断重复以上步骤a的样本抽样和步骤b的权重更新,便可获得其最终的分类权重大小,并以此来量化该语音特征对驾驶人疲劳类别的区分能力。
在步骤S3中,所述的Relief特征选择算法,可使得当某一语音特征较为适用于疲劳分类时,其与同类样本在此特征上的差异会比较小而与异类样本的差异则较大,那么在权重的迭代更新过程中,此特征的分类权重会逐渐增高。相反,如果某一语音特征与疲劳分类的相关性不大时,那么随着抽样迭代计算的进行,其权重将趋向于较小的数或零。
步骤S3所述的疲劳个性特征向量,是指将特定驾驶人的所有语音特征(步骤S1所提取的语音线性特征和非线性特征)按Relief算法计算所得的权重大小进行降序排序,然后选取位于前部的d个语音特征(d小于特征数),经规整化处理后串接成d维特征向量作为该驾驶人的疲劳个性特征向量,以表征该驾驶人语音中所包含的疲劳信息。对每一个驾驶人个体而言,步骤S3分别构建相应的语音疲劳个性特征向量。由于不同驾驶人个体的各语音特征对疲劳的敏感性不一定相同,因此不同驾驶人个体的语音疲劳个性特征向量不一定相同。
在步骤S4中,所述的自适应疲劳检测模型,是根据不同驾驶人的疲劳个性特征向量,通过支持向量机(SVM)算法分别建立驾驶人身份标签所对应的SVM疲劳分类器,并且该分类器的编号与驾驶人身份标签一致。不同的驾驶人个体的自适应疲劳检测模型(SVM疲劳分类器)不一定相同。
步骤S4所述的应用特定驾驶人的语音样本数据对其自适应疲劳检测模型进行训练,是指通过实验获得该驾驶人在正常和疲劳状态下的语音样本(驾驶人历史语音样本库),提取这些样本的语音特征参数组成该驾驶人的疲劳个性特征向量作为自适应疲劳检测模型的输入,以k折交叉验证的样本训练方式来确定和优化其自适应疲劳检测模型(相应SVM疲劳分类器)的结构及参数。
步骤S4所述的将训练好的自适应疲劳检测模型用于待测驾驶人语音样本的模式识别,是指将待测驾驶人(其身份标签由步骤S2获得)语音样本的疲劳个性特征向量(该疲劳个性特征向量所包含的语音特征由步骤S3获得)作为其训练好的自适应疲劳检测模型(该模型编号与驾驶人身份标签一致)的输入,来计算得到该驾驶人的驾驶疲劳检测结果。
在步骤S4所述的将训练好的自适应疲劳检测模型用于待测驾驶人语音样本的模式识别检测阶段,不必提取待测驾驶人语音样本的所有语音特征参数,只需提取其疲劳个性特征向量中所包含的语音特征参数用于驾驶疲劳检测。
与现有技术相比,本发明充分结合了语音线性和非线性两类特征,同时根据不同驾驶人的各语音特征对疲劳的区分能力,筛选出其语音的疲劳个性特征,有效地抑制了个体差异对驾驶疲劳检测的影响;并且这一特征筛选过程还可以大幅降低语音特征向量的维数,使得检测效率得到显著提升。同时,本发明还通过SVM分类算法,针对不用的驾驶人个体分别搭建了自适应疲劳检测模型,并且应用特定驾驶人在正常和疲劳状态下的两类语音样本数据对其自适应疲劳检测模型进行训练,可以有效提高驾驶疲劳检测的精度和泛化能力。
附图说明
图1是本发明的工作流程图。
图2是本发明具体实施方法的结构示意图。
图3是语音信号相空间重构方法的示意图。
图4是人体疲劳对语音信号相空间运动轨迹影响的一个实例示意图。其中,(a)为疲劳状态下音素/i/的时域波形;(b)为正常状态下音素/i/的时域波形;(c)为疲劳状态下音素/i/的相空间轨迹;(d)为正常状态下音素/i/的相空间轨迹。
图5是本发明步骤S2所采用基于VQ的说话人识别算法的流程图。
图6是本发明步骤S3所采用Relief特征选择算法的流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图和实施例对本发明作进一步的描述,但本发明的实施和保护范围不限于此。
参照图1、2所示,本发明为一种基于语音个性特征和模型自适应的驾驶疲劳检测方法,具体包括以下S1、S2、S3和S4四个步骤:
(1)步骤S1,从驾驶人语音样本中提取语音线性特征和语音非线性特征。
1)进一步的,步骤S1中,语音线性特征的提取,首先需要对语音样本(一维数字采样的语音信号)进行预处理,如图2的步骤S101。具体的预处理包括:语音的去噪、端点检测、分帧、加窗,这四个经典语音预处理过程。
随后,在图2的步骤S102所提取的语音线性特征,具体包括:基音频率、前三共振峰及其带宽、短时能量、短时过零率、清浊音比率、谐波噪声比、10阶线性预测倒谱系数、16阶梅尔频标倒谱系数,以及上述线性特征参数的均值、方差、最大值、最小值、中值、上四分位值及下四分位值,共296个语音线性特征。
2)进一步的,步骤S1中,语音非线性特征的提取,首先需要根据一维语音信号来建立更高维度的语音非线性动力学模型。如图2的步骤S103,其建立过程是采用延时相图法,对一维语音信号进行相空间重构得到。
下面可结合图3来具体说明语音信号的相空间重构方法:
对N点采样的一维语音信号时间序列取延时τ,随后将连续的m个延时采样点进行重构组合,可以得到m维空间中的N-m+τ个向量点集合,表示为:
这些重构所得的向量点X(i)在m维相空间中随时间(采样间隔i)变化的轨迹,可用于描述语音混沌(奇异)吸引子在相空间的拓扑结构。在这种重构的相空间中,信号的运动轨迹与语音非线性动力系统在几何特征上是等价的,且具有相同的混沌吸引子拓扑结构,因此可作为语音信号的非线性动力学模型。
下面具体说明人体疲劳对语音非线性动力学模型的影响。人体在疲劳时,其声带张力的降低,语音气流的平缓,同时伴随着声道壁热传导性和粘弹性的改变,均会对语音非线性动力学系统造成较为明显的影响。这一影响主要体现为语音气流在声道边界层难以形成较大能量的湍流,湍流的变化直接影响了语音信号的混沌特性。从语音非线性动力学模型上则表现为人体在不同的疲劳状态下,其浊音(元音)信号相空间运动轨迹的混沌程度明显不同,也即其混沌吸引子轨道的波动程度明显不同。
再以一个实例来说明上述情况。如图4,为人体在正常和疲劳状态下,发出音素/i/的语音时域信号(采样率为22kHz)及相应相空间重构轨迹(m=3,τ=10)。图4a的疲劳语音时域信号和图4b的清醒语音时域信号分别采集自驾驶实验中,被测者在疲劳量表得分最高和最低的时刻。可以看出,图4c所示的疲劳状态下的语音相空间轨迹,其混沌程度明显低于图4d所示的清醒状态下的相空间轨迹,直接体现为疲劳状态下语音混沌吸引子轨迹的不稳定性和波动程度都要低于清醒状态。
因此,在图2的步骤S104中,本发明提取了语音非线性动力学模型下的非线性特征来量化和评价这种人体疲劳对语音信号混沌程度的影响。具体所提取的语音非线性特征包括:最大李雅普诺夫指数、关联维数、广义赫斯特指数、二阶熵,及上述非线性特征的均值、方差、最大值、最小值、中值、上四分位值及下四分位值,共40个语音非线性特征。
(2)步骤S2,采用基于VQ的说话人识别算法,得到驾驶人的身份标签,并据此检索该驾驶人的历史语音样本库,用于后续的疲劳个性特征筛选。
进一步的,步骤S2中所述的基于VQ的说话人识别算法,可结合图5来进行详细说明,该算法主要包括驾驶人VQ码本的建本和待测语音的说话人识别两个阶段,详细过程如下:
1)所述的驾驶人VQ码本的建本阶段,其具体实施过程为:
a、从所有N个驾驶人的历史语音样本库S={S1,S2,…,SN}中提取说话人特征矢量序列。所述的说话人特征矢量,具体是由语音样本中各语音帧的基音频率、线性预测倒谱系数、梅尔频标倒谱系数,这三种能够体现说话人信息的语音特征参数组合构成;
b、采用LBG算法为每个驾驶人聚类生成具有L个码字的VQ码本模型其中n为驾驶人标签,n=1,2,…,N;l为码字编号,l=1,2,…,L;
c、存储所有驾驶人语音的码本模型,形成驾驶人码本库Y={Y1,Y2,…,YN}。
2)所述的待测语音的说话人识别阶段,其具体实施过程为:
a、从待测语音样本中提取说话人特征矢量序列X1,X2,…,XM,M为特征矢量序列的长度,也即待测语音所包含语音帧的总数;
b、将待测语音的说话人特征矢量依次与驾驶人码本库中的N个码本模型进行失真距离测度计算,得到待测语音与各码本模型间的平均量化误差为:
式中,代表待测矢量Xm与第n个码本模型的第l个码字之间的失真距离,采用欧式距离测度计算;
c、最终驾驶人身份识别结果为最小的Dn所对应的驾驶人标签,有:
进一步的,在步骤S2中,所述的根据驾驶人身份识别结果n来检索该驾驶人的历史语音样本库,是指在所有驾驶人的历史语音样本库S={S1,S2,…,SN}中,选取其中特定驾驶人n的历史语音样本库Sn来用于后续该驾驶人的疲劳个性特征筛选。
所述的特定驾驶人的历史语音样本库Sn,包含了该驾驶人的两类语音样本,有Sn={Sn+,Sn-},其中为Sn+为正常类语音样本,Sn-为疲劳类语音样本,这两类样本分别采集自实验过程中驾驶人在正常和疲劳状态下的标准作业用语,实验中驾驶人疲劳状态的判别依据为驾驶人的疲劳自测量表得分及其心率指标。
(3)步骤S3,首先采用Relief特征选择算法从步骤S1所提取的所有语音特征中筛选可以充分反映该驾驶人个体疲劳信息的语音特征参数,如图2的步骤S301;随后对筛选出的语音特征进行规整化处理,构建驾驶人的疲劳个性特征向量,如图2的步骤S302。
1)进一步的,步骤S301中所述的Relief特征选择算法,其计算方法为:
a、从驾驶人n的历史语音样本库Sn中,随机抽取一个样本Sj,然后再从两类样本Sn+和Sn-中各选出一个特征空间内距离Sj最近的样本,其中与Sj最近的同类样本用Hit表示,最近的异类样本用Miss表示;
b、根据样本间在语音特征Fi上的差异来循环迭代更新该特征的权重wi
wi=wi-diff(Fi,Sj,Hit)/r+diff(Fi,Sj,Miss)/r (4)
式中,r为抽样迭代次数,diff(Fi,Sj,Hit)和diff(Fi,Sj,Miss)分别代表Sj和Hit以及Sj和Miss在第i个语音特征Fi上的相对差异,定义为:
式中,Fi(Sj)为样本Sj的第i个语音特征,Fi(Hit)和Fi(Miss)分别为样本Hit和Miss的第i个语音特征,max(Fi)和min(Fi)分别为特征Fi在样本库中的最大值和最小值;
c、对步骤S1所提取的每一个语音特征,不断重复以上步骤a和步骤b,便可获得其分类权重大小,并以此来量化该语音特征对驾驶人疲劳类别的区分能力。
以上所述的Relief算法的详细循环迭代处理过程,如图6所示。可见,当某一语音特征较为适用于该驾驶人的疲劳样本分类时,其与同类样本在该特征的差异应较小,而与异类样本的差异则应较大。那么在Relief算法迭代更新过程中,该特征的权重会随着样本训练而逐渐增高。相反,如果某一语音特征与疲劳分类的相关性不大时,那么它的属性值相当于一系列随机数,随着迭代计算的进行,其权重将趋向于零或较小的数。
步骤S301中,所述的从所提取的所有语音特征中筛选可以充分反映该驾驶人疲劳信息的语音特征参数,是指将特定驾驶人的所有语音特征(步骤S1所提取的296个语音线性特征和40个语音非线性特征)按Relief算法计算所得的权重大小进行降序排序,然后选取位于前部的d个语音特征用以表征该驾驶人语音中所包含的疲劳信息。优选地,具体实施时,在保证实时性的前提下,可取d=64,也即从336个语音特征中筛选出64个用于驾驶疲劳检测。
2)进一步的,步骤S302中所述的对筛选出的语音特征进行规整化处理,其目的是为了减少大特征数值对小特征数值的影响,同时降低不同量纲而导致的数值计算困难。对于步骤S301所筛选出的疲劳语音特征Fi,i=1,2,…,d,所述的具体规范化处理方法为:
式中,即为将语音特征Fi的值规整至[-1,+1]区间的特征计算结果。
步骤S302中所述的构建驾驶人的疲劳个性特征向量,是指将规整化处理后的d个语音特征i=1,2,…,d,串接成d维语音特征向量作为该驾驶人的疲劳个性特征向量,并以此作为后续驾驶疲劳检测模型的输入。对每一个驾驶人个体而言,在此步骤应分别构建相应的语音疲劳个性特征向量。由于不同驾驶人个体的各语音特征对疲劳的敏感性不一定相同,因此不同的驾驶人个体的语音疲劳个性特征向量不一定相同。
(4)步骤S4,针对不同驾驶人个体分别建立相应的自适应疲劳检测模型,应用驾驶人的语音样本对其自适应疲劳检测模型进行训练,并将训练好的模型用于待测驾驶人语音样本的模式识别,得出驾驶疲劳检测结果。
所述的步骤S4,其目的在于:考虑到驾驶人的个体差异虽然限制了通用驾驶疲劳检测模型的准确性,然而对同一个体在不同时间、不同地点,其疲劳特征又能够表现出相当的自身稳定性。因此,可以对不同的驾驶人个体分别建立各自的自适应疲劳检测模型,并应用该个体在不同疲劳状态下的语音样本对其疲劳检测模型进行自适应地反复训练,便可进一步消除个体差异所带来的影响,提高检测模型的准确性和泛化能力。
进一步的,步骤S4又可划分为图2所示的S401、S402和S403三个步骤:
1)步骤S401,建立自适应疲劳检测模型,是指根据步骤S3所筛选出的不同驾驶人的疲劳个性特征向量,采用SVM分类算法分别建立其相应的自适应疲劳检测模型(即SVM疲劳分类器)。所建立的检测模型的编号与驾驶人身份标签一致,并且不同驾驶人的自适应疲劳检测模型不一定相同。
2)步骤S402,对自适应疲劳检测模型进行训练,是指提取特定驾驶人历史语音样本的语音特征参数组成该驾驶人的疲劳个性特征向量,来作为其自适应疲劳检测模型的输入,并以k折交叉验证的样本训练方式来确定和优化该自适应疲劳检测模型的参数及结构的过程。
所述的k折交叉验证,是指在样本有限的情况下,将所有样本随机分为k份,分别选取其中k-1份作为训练样本,其余1份作为测试样本。以重复k次训练及测试的正确率均值,作为考察模型分类检测能力的指标。优选地,具体实施时,可取k=10,即采用十折交叉验证法来考察检测模型的准确性。
步骤S402中所述的确定和优化自适应疲劳检测模型的参数,是指通过k折交叉验证的反复样本训练,来确定和优化惩罚系数、核函数类型及核函数参数等SVM分类检测模型的各项参数,以使得检测模型的平均正确率达到最高。
步骤S402中所述的确定和优化自适应疲劳检测模型的结构,是指通过k折交叉验证的反复样本训练,从所有历史样本中选取可使得检测模型平均正确率最高的支持向量样本,用于确定特征空间中的最优分类面,从而得到训练好的自适应疲劳检测模型。
3)步骤S403,将训练好的自适应疲劳检测模型用于待测驾驶人语音样本的模式识别,是指将待测驾驶人(其身份标签由步骤S2获得)的语音疲劳个性特征向量(该特征向量由步骤S3获得)作为其训练好的自适应疲劳检测模型(该模型编号与驾驶人身份标签一致)的输入,来计算得到该驾驶人的驾驶疲劳检测结果。
步骤S403在具体实施时,不必提取待测驾驶人语音样本的所有语音特征参数,只需提取其疲劳个性特征向量中所包含的语音特征参数用于驾驶疲劳检测,以降低运算量,提高检测效率。
本发明的效果可通过以下对比实验进一步说明。
实验共招募10名身体状况良好的测试者,其中男性和女性各5名。实验过程为每人单次持续6小时的模拟驾驶操作。实验期间,要求测试者按语音采集人员的提示说出“司机明白”,“车辆人员安全”,“黄灯减速”等5段汉语短句,语音样本持续时间介于2至6秒,采集参数为:22kHz采样率,16位量化精度。实验对所有10名测试者,共采集2600份语音样本,其中疲劳语音样本431份。
实验对所有语音样本分别采用了现有通用方法(对所有驾驶人均采用相同的疲劳特征组合及通用疲劳检测模型)及本发明所述方法(根据不同驾驶人筛选不同的疲劳个性特征组合并结合相应的自适应疲劳检测模型)进行了驾驶疲劳的检测,这两种方法的实验结果如表1所示。
可以看出,由于个体差异所带来的影响,现有通用方法对不同被测者的检测效果存在着较大的差异,尤其是第4名及第9名被测者的驾驶疲劳检测正确率分别为69.2%和63.1%,均难以达到实际应用要求。而对比本发明所提供的驾驶疲劳检测方法,第4名及第9名被测者的驾驶疲劳检测正确率分别达到了79.2%和77.3%,检测效果有明显改善。同时,对比所有被测者的驾驶疲劳检测正确率,本发明所述方法的平均正确率为81.4%,较现有通用方法的平均正确率74.9%有大幅提升,提升效果达6.5%。
表1驾驶疲劳检测的正确率
以上所述仅是本发明的较佳实施方式,应当指出:对于本领域的技术人员来说,在不脱离本发明的精神实质与原理下,所作的改变、修饰、替代、组合、简化,均应视为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于包含以下步骤:
步骤S1、提取驾驶人语音样本的语音线性特征和语音非线性特征;
步骤S2、采用基于矢量量化的说话人识别算法,得到驾驶人的身份标签,并据此从所有驾驶人历史语音样本库中检索该驾驶人的历史语音样本库,用于后续的疲劳个性特征筛选;
步骤S3、采用Relief特征选择算法从所提取的语音特征中筛选可以充分反映该驾驶人个体疲劳信息的语音特征参数,构建其语音疲劳个性特征向量;
步骤S4、建立自适应疲劳检测模型,应用驾驶人的历史语音样本对其自适应疲劳检测模型进行训练,并将训练好的模型用于待测驾驶人语音样本的驾驶疲劳模式识别,得出驾驶疲劳检测结果;
步骤S3中,所述的从所提取的语音特征中筛选可以充分反映该驾驶人个体疲劳信息的语音特征参数,是由Relief特征选择算法实现,该算法可根据不同语音特征对疲劳的分类区分能力而分别赋予不同的权重,其计算过程为:
a、从驾驶人历史语音样本库Sn中,随机抽取一个样本Sj,然后再从两类样本Sn+和Sn-中各选出一个特征空间内距离Sj最近的样本,其中与Sj最近的同类样本用Hit表示,最近的异类样本用Miss表示;
b、根据样本间在语音特征Fi上的差异来循环迭代更新该特征的权重wi
wi=wi-diff(Fi,Sj,Hit)/r+diff(Fi,Sj,Miss)/r
式中,r为抽样迭代次数,diff(Fi,Sj,Hit)和diff(Fi,Sj,Miss)分别代表Sj和Hit以及Sj和Miss在第i个语音特征Fi上的相对差异,定义为:
式中,Fi(Sj)为样本Sj的第i个语音特征,Fi(Hit)和Fi(Miss)分别为样本Hit和Miss的第i个语音特征,max(Fi)和min(Fi)分别为特征Fi在样本库中的最大值和最小值;
c、对每一个语音特征,不断重复以上步骤a和步骤b,便可获得其分类权重大小,并以此来量化各语音特征对驾驶人疲劳类别的区分能力。
2.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S1中,所述的语音线性特征包括:基音频率、前三共振峰及其带宽、短时能量、短时过零率、清浊音比率、谐波噪声比、线性预测倒谱系数、梅尔频标倒谱系数,及上述特征参数的均值、方差、最大值、最小值、中值、上四分位值及下四分位值;所述的语音非线性特征包括:李雅普诺夫指数、关联维数、广义赫斯特指数、二阶熵,及上述特征参数的均值、方差、最大值、最小值、中值、上四分位值及下四分位值。
3.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S2中,所述的驾驶人身份标签是由基于矢量量化的说话人识别算法实现得到,包括如下步骤:
a、从所有N个驾驶人的历史语音样本库S={S1,S2,…,SN}中提取说话人特征矢量序列;
b、采用LBG算法对每个驾驶人的说话人特征矢量序列进行聚类,生成具有L个码字的矢量量化码本模型其中n为驾驶人标签,n=1,2,…,N;l为码字编号,l=1,2,…,L;存储所有驾驶人语音的码本模型,形成驾驶人码本库Y={Y1,Y2,…,YN};
c、提取待测驾驶人语音样本的特征矢量序列X1,X2,…,XM,M为矢量序列的长度,也即待测语音所包含语音帧的总数;并将该矢量序列依次与各个码本模型进行失真距离测度计算,得到待测语音与各码本间的平均量化误差为:
式中,代表第m个待测矢量Xm与第n个码本模型的第l个码字之间的失真距离,采用欧式距离测度计算;
d、选取平均量化误差最小的码本模型所对应的驾驶人标签,即为待测驾驶人的身份标签。
4.根据权利要求3所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于:基于矢量量化的说话人识别算法所涉及的说话人特征矢量序列,是由说话人语音样本中各语音帧的基音频率、线性预测倒谱系数、梅尔频标倒谱系数,这三种能够体现说话人信息的语音特征参数组合构成。
5.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S2中,所述的驾驶人历史语音样本库Sn中包括了驾驶人在正常和疲劳状态下所采集的两类语音样本,其中疲劳类语音样本Sn-采集自驾驶实验中驾驶人在疲劳症状自测量表得分和心率指标水平均低于平均值时所采集的语音样本,其余语音样本均标记为正常类语音样本Sn+
6.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S3中,所述的语音疲劳个性特征向量,是将特定驾驶人的所有语音特征按Relief算法计算所得的权重大小进行降序排序,然后选取位于前部的d个语音特征,经规整化处理后串接成d维语音特征向量所得到的;所述的构建语音疲劳个性特征向量,是对每一个驾驶人个体都分别构建相应的语音疲劳个性特征向量,不同驾驶人个体的语音疲劳个性特征向量不一定相同。
7.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S4中,所述的自适应疲劳检测模型,是根据不同驾驶人的疲劳个性特征向量,通过支持向量机分类算法分别建立驾驶人身份标签所对应的疲劳检测分类器,该分类器即为该驾驶人的自适应疲劳检测模型,不同的驾驶人个体的自适应疲劳检测模型不一定相同。
8.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S4中,所述的对自适应疲劳检测模型进行训练,是通过提取驾驶人历史语音样本库的语音特征参数组成该驾驶人的疲劳个性特征向量作为自适应疲劳检测模型的输入,以k折交叉验证的样本训练方式来确定和优化其自适应疲劳检测模型的结构及参数。
9.根据权利要求1所述的基于语音个性特征和模型自适应的驾驶疲劳检测方法,其特征在于步骤S4中,所述的待测驾驶人语音样本的驾驶疲劳模式识别,是通过步骤S2获得待测驾驶人的身份标签,随后按照步骤S3所筛选的该驾驶人的d个疲劳特征来提取计算其语音样本的疲劳个性特征向量,作为训练好的该驾驶人自适应疲劳检测模型的输入,从而计算得到驾驶疲劳检测结果。
CN201610338429.0A 2016-05-19 2016-05-19 基于语音个性特征和模型自适应的驾驶疲劳检测方法 Expired - Fee Related CN106057212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610338429.0A CN106057212B (zh) 2016-05-19 2016-05-19 基于语音个性特征和模型自适应的驾驶疲劳检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610338429.0A CN106057212B (zh) 2016-05-19 2016-05-19 基于语音个性特征和模型自适应的驾驶疲劳检测方法

Publications (2)

Publication Number Publication Date
CN106057212A CN106057212A (zh) 2016-10-26
CN106057212B true CN106057212B (zh) 2019-04-30

Family

ID=57176532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610338429.0A Expired - Fee Related CN106057212B (zh) 2016-05-19 2016-05-19 基于语音个性特征和模型自适应的驾驶疲劳检测方法

Country Status (1)

Country Link
CN (1) CN106057212B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009463B (zh) * 2016-10-27 2020-10-30 中国移动通信有限公司研究院 一种身份识别的方法及装置
CN106274904B (zh) * 2016-11-04 2018-08-17 黄河交通学院 一种车架轻量化用圆柱减速器控制方法及系统
CN107170445B (zh) * 2017-05-10 2020-03-31 重庆大学 基于语音混合信息特征协同优选判别的帕金森症检测装置
CN108926326B (zh) * 2017-05-22 2020-06-26 北京大学 一种用于评价人体随运动平台的动态平衡控制能力的方法
CN107157498B (zh) * 2017-06-08 2020-06-09 苏州大学 一种针对脑力疲劳的语音疲劳度检测方法
CN109036469A (zh) * 2018-07-17 2018-12-18 西安交通大学 一种基于声音特征的自主神经功能参数获取方法
CN109394225A (zh) * 2018-09-04 2019-03-01 国家电网公司华东分部 一种多特征融合的人因风险实时检测方法及装置
CN110335168B (zh) * 2019-04-22 2020-06-05 山东大学 基于gru优化用电信息采集终端故障预测模型的方法及系统
CN110068466B (zh) * 2019-04-30 2021-03-12 山东理工大学 基于脑电波的车辆声品质评价方法
CN110164471B (zh) * 2019-05-06 2020-10-30 中国民用航空局空中交通管理局 基于空中交通管制员陆空通话语音的疲劳监测方法
CN110638473A (zh) * 2019-09-10 2020-01-03 中国平安财产保险股份有限公司 疲劳驾驶判定的方法、装置、电子设备和存储介质
CN110600040B (zh) * 2019-09-19 2021-05-25 北京三快在线科技有限公司 声纹特征注册方法、装置、计算机设备及存储介质
CN110689904A (zh) * 2019-10-09 2020-01-14 中山安信通机器人制造有限公司 语音识别危险驾驶方法、计算机装置及计算机可读存储介质
CN111081016B (zh) * 2019-12-18 2021-07-06 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111297194B (zh) * 2019-12-25 2021-12-24 厦门城市职业学院(厦门市广播电视大学) 一种智能咖啡机系统
CN111489565B (zh) * 2020-04-20 2022-03-15 长安大学 一种基于大数据的智能交通系统及其控制方法
CN112750454B (zh) * 2020-07-16 2022-08-09 鸣飞伟业技术有限公司 一种基于应急通信后端箱的应用系统
CN112766133A (zh) * 2021-01-14 2021-05-07 金陵科技学院 一种基于ReliefF-DBN的自动驾驶偏离处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
CN202049584U (zh) * 2010-10-09 2011-11-23 华东交通大学 汽车驾驶员酒后驾驶与疲劳预警装置
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN103730130A (zh) * 2013-12-20 2014-04-16 中国科学院深圳先进技术研究院 一种病理嗓音的检测方法和系统
CN103761462A (zh) * 2013-12-25 2014-04-30 安徽科大讯飞信息科技股份有限公司 一种通过声纹识别进行汽车驾驶个性化设置的方法
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN104850867A (zh) * 2015-06-10 2015-08-19 中国人民武装警察部队工程大学 一种基于直觉模糊c均值聚类的目标识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251809B2 (en) * 2012-05-21 2016-02-02 Bruce Reiner Method and apparatus of speech analysis for real-time measurement of stress, fatigue, and uncertainty

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
CN202049584U (zh) * 2010-10-09 2011-11-23 华东交通大学 汽车驾驶员酒后驾驶与疲劳预警装置
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN103730130A (zh) * 2013-12-20 2014-04-16 中国科学院深圳先进技术研究院 一种病理嗓音的检测方法和系统
CN103761462A (zh) * 2013-12-25 2014-04-30 安徽科大讯飞信息科技股份有限公司 一种通过声纹识别进行汽车驾驶个性化设置的方法
CN104850867A (zh) * 2015-06-10 2015-08-19 中国人民武装警察部队工程大学 一种基于直觉模糊c均值聚类的目标识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DETECTING DRIVER FATIGUE BASED ON NONLINEAR SPEECH PROCESSING AND FUZZY SVM;Xiang Li 等;《IEEE Xplore》;20150122;第510-515页
一种应用语音多特征检测驾驶疲劳的方法;李响 等;《仪器仪表学报》;20131031;第34卷(第10期);第2231- 2236页

Also Published As

Publication number Publication date
CN106057212A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106057212B (zh) 基于语音个性特征和模型自适应的驾驶疲劳检测方法
CN106878677B (zh) 基于多传感器的学生课堂掌握程度评估系统和方法
Zhang et al. Robust sound event recognition using convolutional neural networks
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
Le et al. Investigation of spectral centroid features for cognitive load classification
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
CN102800314B (zh) 具有反馈指导的英语句子识别与评价系统及其方法
CN110556129A (zh) 双模态情感识别模型训练方法及双模态情感识别方法
CN102592593B (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN106228977A (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN103366618A (zh) 基于人工智能与虚拟现实用于汉语学习培训的场景设备
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN105374352A (zh) 一种语音激活方法及系统
CN113743471B (zh) 一种驾驶评估方法及其系统
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Fulmare et al. Understanding and estimation of emotional expression using acoustic analysis of natural speech
Chebbi et al. On the use of pitch-based features for fear emotion detection from speech
CN103578480B (zh) 负面情绪检测中的基于上下文修正的语音情感识别方法
Chamoli et al. Detection of emotion in analysis of speech using linear predictive coding techniques (LPC)
CN117457031A (zh) 基于语音全局声学特征和局部频谱特征的情绪识别方法
Yusnita et al. Analysis of accent-sensitive words in multi-resolution mel-frequency cepstral coefficients for classification of accents in Malaysian English
Honig et al. Are men more sleepy than women or does it only look like—Automatic analysis of sleepy speech
Zou et al. Detecting practical speech emotion in a cognitive task

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190430

Termination date: 20210519