CN117058838A - 驾驶员疲劳程度预测方法及装置 - Google Patents
驾驶员疲劳程度预测方法及装置 Download PDFInfo
- Publication number
- CN117058838A CN117058838A CN202310957657.6A CN202310957657A CN117058838A CN 117058838 A CN117058838 A CN 117058838A CN 202310957657 A CN202310957657 A CN 202310957657A CN 117058838 A CN117058838 A CN 117058838A
- Authority
- CN
- China
- Prior art keywords
- fatigue
- voice
- features
- calculating
- driver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000008859 change Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000010355 oscillation Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000739 chaotic effect Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005291 chaos (dynamical) Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 208000011293 voice disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/06—Alarms for ensuring the safety of persons indicating a condition of sleep, e.g. anti-dozing alarms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本公开实施例公开了驾驶员疲劳程度预测方法及装置,其中方法包括:获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同语音样本对应的疲劳程度;提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型,通过语音信号确定驾驶员疲劳程度解决了相关技术中疲劳程度预测精度不佳的缺陷。
Description
技术领域
本公开涉及信息处理技术领域,具体涉及到一种驾驶员疲劳程度预测方法及装置。
背景技术
疲劳驾驶严重危害交通安全,相关技术中,对驾驶员疲劳程度监测通常是通过图像处理的方式,该方式预测准确性不高。
发明内容
本公开的主要目的在于提供一种驾驶员疲劳程度预测方法及装置。
为了实现上述目的,根据本公开的第一方面,提供了一种驾驶员疲劳程度预测方法,包括:获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同样本对应的疲劳程度;提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
可选地,方法还包括对所述特征进行聚类;在聚类分析之后针对每个类别,将每个类别下的特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
可选地,提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征包括:S1:对语音样本进行预处理,得到音频帧序列;S2:对所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;S3:对所述频谱函数经过由预设数量个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;预设数量个Mel滤波器的计算结果,组成一个预设数量维的Mel能量向量;S4:取所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;对音频帧序列中每一帧,按照S2至S4的方法进行处理,得到一个对数能量矩阵;5,对数能量矩阵每行为8维的对数能量向量;S6,计算对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值x,以此作为Mel能量波动特征;S7,对S所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值以此作为Mel能量振荡特征;S8,根据所述Mel能量波动特征、Mel能量振荡特征的特征值,通过线性加权的方式组合成新的特征值Z。
可选地,所述对所述特征进行聚类包括:S11:针对n个特征xj(j=1,2,…,n),用在0,1间的值随机数初始化隶属矩阵U,使其中元素uij满足式中的约束条件;S12:用式/>计算c个聚类中心ci,i=1,…,c;m是一个超参数,代表模糊度;S13:根据式/>计算价值函数值,其中J表示价值函数,dij=||ci-xj||为第i个聚类中心ci与第j个数据点xj间的欧几里德距离;如果价值函数值小于预设阈值,则算法停止;S14:用/>计算新的U矩阵,并对所述新的U矩阵执行S13。
根据本公开的第二方面,提供了一种驾驶员疲劳程度预测方法,包括接收驾驶员的当前驾驶时段的语音信号;
将所述语音信号输入至权利要求1所述的判断模型中,输出疲劳程度,其中,所述疲劳程度包括疲劳界限、轻度疲劳、或者重度疲劳。
可选地,所述判断模型对所述语音信号的处理包括:提取所述语音信号的预设特征;对提取的预设特征聚类至预设的类别中,计算所述预设的类别中各个特征之间的相似度,将相似度最高的向量作为与所述特征最相似的向量;基于所述最相似的向量确定疲劳程度。
根据本公开的第三方面,提供了一种驾驶员疲劳程度预测装置,包括第一处理单元,被配置成获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同样本对应的疲劳程度文本;第二处理单元,被配置成提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;第三处理单元,被配置成基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
根据本公开的第四方面,提供了一种驾驶员疲劳程度预测装置,包括接收单元,被配置成接收驾驶员的当前驾驶时段的语音信号;预测单元,被配置成将所述语音信号输入至权利要求1所述的判断模型中,输出疲劳程度,其中,所述疲劳程度包括疲劳界限、轻度疲劳、或者重度疲劳。
根据本公开第五方面,提供了一种计算机可读存储介质,存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面任意一项驾驶员疲劳程度预测方法。
根据本公开的第四方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行第一方面任意一项实现方式所述的方法。
本实施例业务系统的驾驶员疲劳程度预测方法及装置,其中方法包括:获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同语音样本对应的疲劳程度;提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型,通过语音信号确定驾驶员疲劳程度解决了相关技术中疲劳程度预测精度不佳的缺陷。
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图说明
图1是根据根据本公开实施例的驾驶员疲劳程度预测方法的流程图;
图2是根据本公开实施例的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
适用于本实施例的系统架构可以包括前端、服务端,本实施例的前端和服务端区分是基于一套软件架构体系前后的顺序的角度上进行描述,app、h5、小程序等和用户交互的可以称呼为前端;统一为前端服务的接口服务等归为后端,也即本实施例中的服务端。
执行本实施例方法的执行主体可以位于客户端,也可以位于服务端,当位于客户端时可以将执行本实施例方法的介质设置在车载终端上,并且通过语音拾取设备拾取不同时段驾驶员的语音信号,基于语音信号实现疲劳程度的判断;当位于服务端时,语音拾取设备在拾取到驾驶员不同时段的语音信号后,可以将语音信号上传至服务端,由服务端对语音信号进行处理,以预测出驾驶员的疲劳程度。这里的语音拾取设备可以使用windows自带录音机录制,或者使用专业的录音工具录制。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
根据本公开实施例,提供了一种驾驶员疲劳程度预测方法,如图1所示,包括如下的步骤101至步骤103:
S101:获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同语音样本对应的描述疲劳程度的文本。
在本实施例中,可以从语音库中获取不同驾驶员在不同行使时段的语音信号作为语音样本,语音样本可以是不同时段下的语音信号序列,不同时段可以是1小时,2小时,3小时等,在此时段可以按需设定。在标注描述疲劳程度的文本时可以依据疲劳量表进行标注,得分越高越疲劳,以60分为疲劳界限,60-80分轻度疲劳,80-100为重度疲劳。
S102:提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征。
在本实施例中,许多语音的相关特性,如音调、持续时间等都受到疲特的影响。而且随着疲劳状态发生变化,语音的特性也在发生变化。可以提取不同语音样本序列的特征,得到疲劳程度与各个时段各语音特征之间的对应关系。在提取特征之前可以先对语音样本进行预处理,处理方式包括但是不限于语音信号的预加重、加窗、分帧和端点检测等语音信号分析技术。
在提取特征时,采用Mel能量声纹特征提取方法,从多种语音信号中提取驾驶员的每一个时段语音信号样本的声纹特征,基于TextRank算法从疲劳程度描述性文本中提取出对应的疲劳程度的文本特征;优选的,所述对上述数据库中的语音信号样本进行预处理包括:将语音信号样本的声纹特征与对应的疲劳程度文本特征进行向量化表示,将向量化表示的声纹特征与对应的向量化表示的疲劳程度文本特征组合成多模态特征向量。
作为本实施例一种可选的实现方式,通过提取语音样本的声纹特征包括:S1:对语音样本进行预处理,得到音频帧序列;S2:对所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;S3:对所述频谱函数经过由预设数量个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;预设数量个Mel滤波器的计算结果,组成一个预设数量维的Mel能量向量;S4:取所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;对音频帧序列中每一帧,按照S2至S4的方法进行处理,得到一个对数能量矩阵;S5,对数能量矩阵每行为8维的对数能量向量;S6,计算对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值x,以此作为Mel能量波动特征;S7,对S所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值以此作为Mel能量振荡特征;S8,根据所述Mel能量波动特征、Mel能量振荡特征的特征值,通过线性加权的方式组合成新的特征值Z。
示例性地,音信号声纹特征信息提取方法为:S1,采集多个驾驶员疲劳语音信号,建立样本数据库;S2,从样本数据库中取一音频文件,进行语音预处理成音频帧序列;S3,对S2所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;S4,对S3所述频谱函数经过由25个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;S5,25个Mel滤波器的计算结果,组成一个25维的Mel能量向量;S6,取S4所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;对音频帧序列中每一帧,按照S3至S5的方法进行处理,得到一个对数能量矩阵;S7,对数能量矩阵每行为8维的对数能量向量;S8,计算S6中所述对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值x,以此作为Mel能量波动特征;对S6中所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值以此作为Mel能量振荡特征;S9,根据S7、S8获取的特征值,通过线性加权的方式组合成新的特征值Z。
本实施例获取驾驶员驾驶过程中各个时段疲劳语音信号以及对应的疲劳程度的数据样本,并进行预处理,对于疲劳程度的标定,引入以现有的权威疲劳判断表为基础制作的疲劳量表,以确定样本的疲劳程度;提取驾驶员各个时段疲劳语音信号特征信息与对应疲劳程度特征信息,建立疲劳程度与各个时段各相关语音疲劳参数间的对应关系能够使训练的模型预测更精准。
S103:基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
在本实施例中,通过对语音信号与疲劳程度进行相空间重构,建立语音信号随疲劳的变化规律之间的非线性判断模型。根据混沌理论,涉及混沌时间序列的预测问题,可以在通过对时间序列完成重构相空间后,将预测转化为对相空间中相点演化轨迹的跟踪加以实现。这里,设混沌时间序列{x(i),i=1,2,L,N},N是给定时间序列的长度。通过对该混沌时间序列进行嵌入维数及延迟时间计算,并根据其值,采用延迟坐标法重构相空间,即
根据Takens,为了使重构的相空间轨迹与原系统在同胚意义下动力学等价,必须合适的嵌入维数m和延迟时间τ。因此必然有一光滑映射F:Rm→Rm,成立Yi+1=F(Yi)(i=1,2,L,M;M=N-(m-1)τ)
式中,F是重构函数,且是连续的非线性函数,Yi=(xi,xi+τ,L,xi+(m-1)τ)。
理论上,重构函数是唯一的,而实际应用中由于观测数据长度有限和误差的存在,仅能获得重构函数F的近似值F′。
预测模型中,存在f:Rm→R1,成立
xi+(m-1)τ+1=f(xi,xi+τ,L,xi+(m-1)τ)
即xi+(m-1)τ-1=f(Yi) (i=1,2,L,M)
可以证明f和F理论上是等价的,因此可以用f表示相空间中相点的演化,基于神经网络的混沌时间序列预测即是实现公式的映射:
通过选择语音的多特征作为疲劳相关参数,结合疲劳量表所得的疲劳程度,构建各参数与随疲劳程度变化的规律计算模型,对各个参数的采集结果进行计算分析,来实现基于驾驶员语音信号判别驾驶员疲劳驾驶程度的智能认知结果。
作为本实施例一种可选的实现方式,基于所述特征进行相空间重构之前,所述方法还包括:对所述特征进行聚类;在聚类分析之后针对每个类别,将每个类别下的特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
作为本实施例一种可选的实现方式,所述对所述特征进行聚类包括:S11:针对n个特征xj(j=1,2,…,n),用在0,1间的值随机数初始化隶属矩阵U,使其中元素uij满足式中的约束条件;S12:用式/>计算c个聚类中心ci,i=1,…,c;m是一个超参数,代表模糊度;S13:根据式/>计算价值函数值,其中J表示价值函数,dij=||ci-xj||为第i个聚类中心ci与第j个数据点xj间的欧几里德距离;如果价值函数值小于预设阈值,则算法停止;S14:用/>计算新的U矩阵,并对所述新的U矩阵执行S13。
本实施例实现了基于语音信号完成疲劳程度预测的模型训练,通过本模型可以直接用于语音信号的预测,具有较高的预测准确性和科学性。在完成模型训练后,可以接收驾驶员的当前驾驶时段的语音信号;将所述语音信号输入至训练完成的模型中,输出疲劳程度。
本实施例基于混沌时间序列预测技术得到的模型,当输入驾驶员待判断的疲劳语音信号,可以得到驾驶员疲劳驾驶程度的判断和识别结果。利用混沌时间序列预测技术,进而实现基于驾驶员疲劳语音信号判别驾驶员疲劳驾驶程度的智能认知结果
根据本公开实施例驾驶员疲劳程度预测方法,包括接收驾驶员的当前驾驶时段的语音信号;将所述语音信号输入至权利要求1所述的判断模型中,输出疲劳程度,其中,所述疲劳程度包括疲劳界限、轻度疲劳、或者重度疲劳。
作为本实施例一种可选的实现方式,所述判断模型对所述语音信号的处理包括:提取所述语音信号的预设特征;对提取的预设特征聚类至预设的类别中,计算所述预设的类别中各个特征之间的相似度,将相似度最高的向量作为与所述特征最相似的向量;基于所述最相似的向量确定疲劳程度。
本实施例中,获取驾驶员的语音信号,按照判断模型的逻辑进行声纹特征的提取(声纹特征的提取方式采用如前述实施例给出的声纹提取方式),而后基于提取的特征进行聚类,确定特征所述的类别,在所属的类别下判断与每个特征向量的相似度,以确定相似度最高的特征向量,将该特征向量对应的疲劳程度确定为最终的预测结果输出。
本实施例基于混沌时间序列预测技术,输入驾驶员待判断的疲劳语音信号,得到驾驶员疲劳驾驶程度的判断和识别结果。利用混沌时间序列预测技术,实现基于驾驶员疲劳语音信号判别驾驶员疲劳驾驶程度的智能认知结果。
根据本公开实施例,还提供了一种装置,包括:第一处理单元,被配置成获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同样本对应的疲劳程度文本;第二处理单元,被配置成提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;第三处理单元,被配置成基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
作为本实施例一种可选的实现方式,装置还包括还包括:聚类单元,对所述特征进行聚类;在聚类分析之后针对每个类别,将每个类别下的特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
作为本实施例一种可选的实现方式,提取语音样本的声纹特征包括:S1:对语音样本进行预处理,得到音频帧序列;S2:对所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;S3:对所述频谱函数经过由预设数量个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;预设数量个Mel滤波器的计算结果,组成一个预设数量维的Mel能量向量;S4:取所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;对音频帧序列中每一帧,按照S2至S4的方法进行处理,得到一个对数能量矩阵;S5,对数能量矩阵每行为8维的对数能量向量;S6,计算对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值x,以此作为Mel能量波动特征;S7,对S所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值以此作为Mel能量振荡特征;S8,根据所述Mel能量波动特征、Mel能量振荡特征的特征值,通过线性加权的方式组合成新的特征值Z。
作为实施例一种可选的实现方式,所述对所述特征进行聚类包括:S11:针对n个所述多模态特征xj(j=1,2,…,n),用在0,1间的值随机数初始化隶属矩阵U,使其中元素uij满足式中的约束条件;S12:用式/>计算c个聚类中心ci,i=1,…,c;m是一个超参数,代表模糊度;S13:根据式/>计算价值函数值,其中J表示价值函数,dij=||ci-xj||为第i个聚类中心ci与第j个数据点xj间的欧几里德距离;如果价值函数值小于预设阈值,则算法停止;S14:用/>计算新的U矩阵,并对所述新的U矩阵执行S13。
本公开实施例提供了一种电子设备,如图2所示,该电子设备包括一个或多个处理器21以及存储器22,图2中以一个处理器21为例。
该控制器还可以包括:输入装置23和输出装置24。
处理器21、存储器22、输入装置23和输出装置24可以通过总线或者其他方式连接,图2中以通过总线连接为例。
处理器21可以为中央处理器(CentralProcessingUnit,CPU)。处理器21还可以为其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器22作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的控制方法对应的程序指令/模块。处理器21通过运行存储在存储器22中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的方法。
存储器22可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置23可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置24可包括显示屏等显示设备。
一个或者多个模块存储在存储器22中,当被一个或者多个处理器21执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序,可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种驾驶员疲劳程度预测方法,其特征在于,包括:
获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同语音样本对应的描述疲劳程度的文本;
提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;
基于所述特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
2.根据权利要求1所述的驾驶员疲劳程度预测方法,其特征在于,所述基于所述特征进行相空间重构之前,所述方法还包括:
对所述特征进行聚类;
在聚类分析之后针对每个类别,将每个类别下的特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
3.根据权利要求1所述的驾驶员疲劳程度预测方法,其特征在于,提取语音样本的声纹特征包括:
S1:对语音样本进行预处理,得到音频帧序列;
S2:对所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;
S3:对所述频谱函数经过由预设数量个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;预设数量个Mel滤波器的计算结果,组成一个预设数量维的Mel能量向量;
S4:取所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;
对音频帧序列中每一帧,按照S2至S4的方法进行处理,得到一个对数能量矩阵;
S5,对数能量矩阵每行为8维的对数能量向量;
S6,计算对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值x,以此作为Mel能量波动特征;
S7,对S所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值以此作为Mel能量振荡特征;
S8,根据所述Mel能量波动特征、Mel能量振荡特征的特征值,通过线性加权的方式组合成新的特征值Z。
4.根据权利要求2所述的驾驶员疲劳程度预测方法,其特征在于,所述对所述特征进行聚类包括:
S11:针对n个所述多模态特征xj(j=1,2,…,n),用在0,1间的值随机数初始化隶属矩阵U,使其中元素uij满足式中的约束条件;
S12:用式计算c个聚类中心ci,i=1,…,c;m是一个超参数,代表模糊度;
S13:根据式计算价值函数值,其中J表示价值函数,dij=||ci-xj||为第i个聚类中心ci与第j个数据点xj间的欧几里德距离;如果价值函数值小于预设阈值,则算法停止;
S14:用计算新的U矩阵,并对所述新的U矩阵执行S13。
5.一种驾驶员疲劳程度预测方法,其特征在于,包括:
接收驾驶员的当前驾驶时段的语音信号;
将所述语音信号输入至权利要求1所述的判断模型中,输出疲劳程度,其中,所述疲劳程度包括疲劳界限、轻度疲劳、或者重度疲劳。
6.根据权利要求5所述的驾驶员疲劳程度预测方法,其特征在于,所述判断模型对所述语音信号的处理包括:
提取所述语音信号的预设特征;
对提取的预设特征聚类至预设的类别中,计算所述预设的类别中各个特征之间的相似度,将相似度最高的向量作为与所述特征最相似的向量;
基于所述最相似的向量确定疲劳程度。
7.一种驾驶员疲劳程度预测装置,其特征在于,包括:
第一处理单元,被配置成获取不同驾驶时段驾驶员的语音样本,并基于预设的规则进行样本标注,以标注出不同样本对应的疲劳程度文本;
第二处理单元,被配置成提取语音样本的声纹特征以及提起描述疲劳程度的文本特征,得到多模态特征;
第三处理单元,被配置成基于所述多模态特征进行相空间重构,以建立语音随不同疲劳程度变化的判断模型。
8.一种驾驶员疲劳程度预测装置,其特征在于,包括:
接收单元,被配置成接收驾驶员的当前驾驶时段的语音信号;
预测单元,被配置成将所述语音信号输入至权利要求1所述的判断模型中,输出疲劳程度,其中,所述疲劳程度包括疲劳界限、轻度疲劳、或者重度疲劳。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5任意一项所述的业务系统的信息交互方法。
10.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5任意一项所述的业务系统的信息交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310957657.6A CN117058838A (zh) | 2023-08-01 | 2023-08-01 | 驾驶员疲劳程度预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310957657.6A CN117058838A (zh) | 2023-08-01 | 2023-08-01 | 驾驶员疲劳程度预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058838A true CN117058838A (zh) | 2023-11-14 |
Family
ID=88661773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310957657.6A Pending CN117058838A (zh) | 2023-08-01 | 2023-08-01 | 驾驶员疲劳程度预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058838A (zh) |
-
2023
- 2023-08-01 CN CN202310957657.6A patent/CN117058838A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | Sound event detection of weakly labelled data with cnn-transformer and automatic threshold optimization | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN110223673B (zh) | 语音的处理方法及装置、存储介质、电子设备 | |
JP6933264B2 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
CN112785016A (zh) | 基于机器学习的新能源汽车保养维护与故障监测诊断方法 | |
CN109800720B (zh) | 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质 | |
CN106294331A (zh) | 音频信息检索方法及装置 | |
CN104952449A (zh) | 环境噪声声源识别方法及装置 | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
CN111508480A (zh) | 音频识别模型的训练方法、音频识别方法、装置及设备 | |
WO2024021108A1 (en) | Method and device for predicting service life of rolling bearing and computer readable storage medium | |
CN112885336A (zh) | 语音识别系统的训练、识别方法、装置、电子设备 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN103761965A (zh) | 一种乐器信号的分类方法 | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
CN114897157A (zh) | 节拍重拍联合检测模型的训练及节拍重拍联合检测方法 | |
Musaev et al. | Automatic recognition of Uzbek speech based on integrated neural networks | |
CN108847251A (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
CN117058838A (zh) | 驾驶员疲劳程度预测方法及装置 | |
CN114722942A (zh) | 设备故障诊断方法、装置、电子设备及存储介质 | |
CN111882046B (zh) | 多媒体数据的识别方法、装置、设备及计算机存储介质 | |
CN113870896A (zh) | 基于时频图和卷积神经网络的运动声音判假方法、装置 | |
CN1624765A (zh) | 使用分段线性逼近的连续值声道共振跟踪方法和装置 | |
CN113850686A (zh) | 投保概率确定方法、装置、存储介质及电子设备 | |
CN113673561A (zh) | 基于多模态的音乐标签自动分类方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |