CN110085216A - 一种婴儿哭声检测方法及装置 - Google Patents

一种婴儿哭声检测方法及装置 Download PDF

Info

Publication number
CN110085216A
CN110085216A CN201810065385.8A CN201810065385A CN110085216A CN 110085216 A CN110085216 A CN 110085216A CN 201810065385 A CN201810065385 A CN 201810065385A CN 110085216 A CN110085216 A CN 110085216A
Authority
CN
China
Prior art keywords
sound
data
type
voice data
vagitus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810065385.8A
Other languages
English (en)
Inventor
葛凤培
张少甫
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201810065385.8A priority Critical patent/CN110085216A/zh
Publication of CN110085216A publication Critical patent/CN110085216A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明涉及一种婴儿哭声检测方法及装置,包括:对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征;利用深度神经网络算法,对样本训练集中的语音数据和与语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行学习,获取后验概率;根据后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取与所述语音数据中每一帧语音数据对应的语音类型后验概率,然后根据语音类型后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。

Description

一种婴儿哭声检测方法及装置
技术领域
本发明涉及信号处理技术领域,特别涉及一种婴儿哭声检测方法及装置。
背景技术
由于婴儿啼哭声与语音信号的相似之处,有越来越多的研究人员采用语音信号处理技术对啼哭声进行初步处理。再采用模式识别技术对经过初步处理后的婴儿哭声进行判断。婴儿哭声识别系统的建立需要三步,分别是预处理、特征提取和分类算法的建立。其中重点是特征参数的提取和分类算法的建立。由于婴儿哭声跟成人的语音都是由结构相似的发声器官产生,所以可以采用类似于语音信号提取和识别的算法提取并识别婴儿哭声。不过,因为婴儿所处的环境中还有其他声音,对于婴儿哭声的识别带来一定困难,例如各种公共环境声音。无法精准对实现对婴儿哭声的准确识别,现有的支持向量机(Support VectorMachine,简称SVM)学习算法对于婴儿哭声和其他声音的分离精度较低,且可处理的数据量有限,进一步导致婴儿哭声的检测不够准确。
发明内容
本发明的目的在于,克服现阶段语音信号婴儿哭声检测技术所存在的缺陷,包括SVM学习算法对婴儿哭声和其他声音都是分离精度低,且可处理的数据量有限,进一步导致婴儿哭声的检测不够准确的问题,提供一种婴儿哭声检测方法及装置。
为解决上述技术问题,本发明的技术方案所提供的一种婴儿哭声检测方法,该方法包括:
对预获取的样本训练集中的语音数据进行感知线性预测系数(PerceptualLinear Prediction,简称PLP)的特征提取,获取与样本训练集中的语音数据对应的语音特征;
利用深度神经网络算法,对样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;
对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行计算,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,其中,语音类型包括至少两种,每一种语音类型对应一个后验概率;
根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。
优选地,根据测试语音中每一帧对应4个类别的后验概率,取概率最大的一类作为这一帧的类别,然后统计一段测试语音中类别为婴儿哭声的帧数,根据婴儿哭声的帧数与测试语音总帧数的比例是否大于某一阈值判断这段测试语音是否为婴儿哭声。
本发明提供的一种婴儿哭声检测方法,优点在于:利用PLP方式进行特征提取,并基于深度神经网络算法对样本训练集中的语音数据进行训练和分类,可以实现对于大数据集、复杂环境下的哭声很好的检测,从而获取精度高的检测结果,因此利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,然后根据测试语音数据中每一帧语音数据对应的语音类型的后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。
作为上述方法的一种改进,将第一有效语音信号转换为第一时频域特征,具体包括:样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,婴儿哭声数据样本定义为正样本,非婴儿哭声数据定义为负样本,负样本至少包括如下中的一类或多类:婴儿发出的除婴儿哭声之外的声音样本、公共环境声音样本、以及静音;对预获取的样本训练集中的每一类语音数据分别进行感知线性预测系数PLP特征提取,获取与样本训练集中的每一类语音数据分别对应的语音特征之前,方法还包括:对正样本语音数据和负样本数据中的每一类语音数据分别添加与之对应的标签信息。
采用上述进一步方案的有益效果是:首先对样本训练集中的数据进行分类,然后再将分类后的数据添加对应的标签,方便后续处理过程中可以精确定每一类数据对应的后验概率,并根据后验概率确定分类结果的精确性。
作为上述方法的又一种改进,对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征,具体包括:
采用加窗处理分别提取样本训练集中的语音数据中每一帧数据的13维度的PLP特征;
在13维度的PLP特征的基础上添加1维度能量特征和1维度极品置信度特征,构成15维度特征;
将15维度特征进行三阶差分处理,获取60维度的语音特征。
作为上述方法的再一种改进,语音特征帧长25ms,窗移为10ms。
作为上述方法的还一种改进,至少两种语音类型中的语音类型与样本数据中的语音数据类型相同;根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据,具体包括:
选取测试语音数据中第一帧语音数据对应的至少两种语音类型的后验概率中概率值最大的语音类型,作为第一帧语音数据的语音类型;
统计测试语音数据中每一种语音类型对应的数量值;
当第一种语音类型对应的语音数量与测试语音数据总帧数之间的比值大于预设阈值时,确定测试语音数据的语音类型为第一种语音类型,其中,第一帧数据为测试语音数据中所有帧语音数据中的任一帧;第一种语音类型为至少两种语音类型中的任一种,且第一种语音类型的数量值为所有语音类型中每一种语音类型分别对应的数量值中的最大值。
采用上述进一步方案的有益效果是:获取测试语音数据中每一帧语音数据对应的语音类型的后延概率,选取概率值最大的语音类型作为该帧语音对应语音类型,当所有语音数据中某一种语音类型与测试语音数据总帧数之间的比值大于预设阈值,且该种语音数据类型对应的数量总数相比其他语音数据类型对应的数量值而言最大时,确定测试语音数据对应的类型为该种语音类型。本发明的技术方案还提供了一种婴儿哭声检测装置,该装置包括:
特征提取单元,用于对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征;
声学模型建立单元,用于利用深度神经网络算法,对样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;
处理单元,用于对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行计算,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,其中,语音类型包括至少两种,每一种语音类型对应一个后验概率;
根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。
本发明提供的一种婴儿哭声检测装置,优点在于:利用PLP方式进行特征提取,并基于深度神经网络算法对样本训练集中的语音数据进行训练和分类,可以实现对于大数据集、复杂环境下的哭声很好的检测,从而获取精度高的检测结果,因此利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,然后根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。
例如优选地,根据测试语音中每一帧对应4个类别的后验概率,取概率最大的一类作为这一帧的类别,然后统计一段测试语音中类别为婴儿哭声的帧数,根据婴儿哭声的帧数与测试语音总帧数的比例是否大于某一阈值判断这段测试语音是否为婴儿哭声。
作为上述方法进一步的改进,样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,婴儿哭声数据样本定义为正样本,非婴儿哭声数据定义为负样本,负样本至少包括如下中的一类或多类:婴儿发出的除婴儿哭声之外的声音样本、公共环境声音样本、以及静音;处理单元,还用于:对正样本语音数据和负样本数据中的每一类语音数据分别添加与之对应的标签信息。
作为上述方法的又一种改进,将第一有效语音信号转换为第一时频域特征,具体包括:样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,婴儿哭声数据样本定义为正样本,非婴儿哭声数据定义为负样本,负样本至少包括如下中的一类或多类:婴儿发出的除婴儿哭声之外的声音样本、公共环境声音样本、以及静音;对预获取的样本训练集中的每一类语音数据分别进行感知线性预测系数PLP特征提取,获取与样本训练集中的每一类语音数据分别对应的语音特征之前,方法还包括:对正样本语音数据和负样本数据中的每一类语音数据分别添加与之对应的标签信息。
采用上述进一步方案的有益效果是:首先对样本训练集中的数据进行分类,然后再将分类后的数据添加对应的标签,方便后续处理过程中可以精确定每一类数据对应的后验概率,并根据后验概率确定分类结果的精确性。
作为上述方法的再一种改进,特征提取单元,具体用于:
采用加窗处理分别提取样本训练集中的语音数据中每一帧数据的13维度的PLP特征;
在13维度的PLP特征的基础上添加1维度能量特征和1维度极品置信度特征,构成15维度特征;
将15维度特征进行三阶差分处理,获取60维度的语音特征。
作为上述方法的还一种改进,语音特征帧长25ms,窗移为10ms。
作为上述方法的还一种改进,处理单元,具体用于:
选取测试语音数据中第一帧语音数据对应的至少两种语音类型的后验概率中概率值最大的语音类型,作为第一帧语音数据的语音类型;
统计测试语音数据中每一种语音类型对应的数量值;
当第一种语音类型对应的语音数量与测试语音数据总帧数之间的比值大于预设阈值时,确定测试语音数据的语音类型为第一种语音类型,其中,第一帧数据为测试语音数据中所有帧语音数据中的任一帧;第一种语音类型为至少两种语音类型中的任一种,且第一种语音类型的数量值为所有语音类型中每一种语音类型分别对应的数量值中的最大值。
采用上述进一步方案的有益效果是:获取测试语音数据中每一帧语音数据对应的语音类型的后延概率,选取概率值最大的语音类型作为该帧语音对应语音类型,当所有语音数据中某一种语音类型与测试语音数据总帧数之间的比值大于预设阈值,且该种语音数据类型对应的数量总数相比其他语音数据类型对应的数量值而言最大时,确定测试语音数据对应的类型为该种语音类型。
附图说明
图1为本发明实施例提供的一种婴儿哭声检测方法流程示意图;
图2为本发明实施例提供的另一种婴儿哭声检测方法流程示意图;
图3为本发明实施例提供的神经元结构示意图;
图4为本发明实施例提供的一种婴儿哭声检测装置结构示意图。
具体实施方式
以下结合实施例进一步说明本发明所提供的技术方案。
如图1所示,图1为本发明实施提供的一种婴儿哭声检测方法流程示意图,该方法包括:
步骤110,对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征。
具体的样本训练集为外界事先建立好的。例如用户事先利用已知的样本建立一个样本训练集。然后,上传至系统。系统获取该样本训练集后,对样本训练集中的语音数据进行PLP特征提取,获取与该样本选联机中的语音数据对应的语音特征。
步骤120,利用深度神经网络算法,对样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型。
具体的,采用全连接的神经网络,对样本训练集中的语音数据对应的语音特征进行训练,进而获取婴儿哭声的声学模型。
步骤130,对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行计算,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,其中,语音类型包括至少两种,每一种语音类型对应一个后验概率后验概率。
步骤140,根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。
本发明实施例提供的一种婴儿哭声检测方法,利用PLP方式进行特征提取,并基于深度神经网络算法对样本训练集中的语音数据进行训练和分类,可以实现对于大数据集、复杂环境下的哭声很好的检测,从而获取精度高的检测结果,因此利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,然后根据测试语音数据中每一帧语音数据对应的语音类型的后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。
为进一步说明本发明实施例的技术方案,本发明实施例还提供了另一种婴儿哭声检测方法,具体如图2所示,该方法包括:
步骤110,对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征。
具体的样本训练集为外界事先建立好的。例如用户事先利用已知的样本建立一个样本训练集。然后,上传至系统。系统获取该样本训练集后,对样本训练集中的语音数据进行PLP特征提取,获取与该样本选联机中的语音数据对应的语音特征。
可选的,样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,婴儿哭声数据样本定义为正样本,非婴儿哭声数据定义为负样本,负样本至少包括如下中的一类或多类:婴儿发出的除婴儿哭声之外的声音样本、公共环境声音样本、以及静音。在步骤110之前,还可以包括步骤105,对正样本语音数据和负样本数据中的每一类语音数据分别添加与之对应的标签信息。
例如,将婴儿哭声数据添加一个“cry”的标签,将婴儿发出的除婴儿哭声之外的声音样本添加一个“other(婴儿其他声音,负样本)”的标签,公共环境声音样本添加一个“pub(公共环境声音、负样本)”的标签,静音添加一个“(静音、负样本)”的标签。
在一个具体例子中,训练集数据分布见表1:
表1
测试集的数据分布见表2:
表2
步骤120,利用深度神经网络算法,对样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型。
具体的,可以采用全连接的神经网络,对样本训练集的语音数据对应的语音特征进行训练,进而获取婴儿哭声的声学模型。优选地,只对语音特征进行训练,语音数据不参加训练。
其中,PLP特征指的是一种基于听觉模型的特征参数,主要提取的步骤包括:
语音信号做分离傅里叶变换,频谱计算,临界频带分析,等响度预加重,强度响度变换,傅里叶全变换,全极点模型以及计算倒谱等步骤后,获取PLP参数。
在本实施例中,具体包括:
步骤1201,采用加窗处理分别提取样本训练集中的语音数据中每一帧数据的13维度的PLP特征。
步骤1202,在13维度的PLP特征的基础上添加1维度能量特征和1维度极品置信度特征,构成15维度特征。
步骤1203,将15维度特征进行三阶差分处理,获取60维度的语音特征。
具体实现过程为现有技术,这里不做多介绍。
可选的,通常进行PLP特征提取时军事采用加窗处理的方式,即如步骤1201。而设定的语音特征帧长可以为25ms,窗移为10ms。
步骤130,对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行计算,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率。
具体的,本实施例中可以采用全连接的神经网络,对样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型。优选地,只对语音特征进行训练。
在具体执行过程中,因为全连接神经网络包括两个隐层,隐层的神经元节点用于模拟人脑的神经元。每层各有256个结点,在输入层的语音数据中每一帧的语音数据左右各扩展5帧,因此每一帧的语音数据拓展为11帧的语音数据,而每一帧数据提取的特征均为60维度,因此输入层最终可以获取共660个结点。而输出层为n个结点,每个结点代表一种数据类型,本实施中输出为4个结点。通过对样本模型进行训练,可以得出该婴儿哭声的声学模型学习率为0.008,最大迭代次数为20次。
对于隐层的结点,每个结点就是一个神经元结构。如图3所示,x1,x2,……,
xD是输入向量的各个分量;w0,w1,w2,……,wD是相应的权重系数,其中表示偏差;f()为非线性函数,常用的有Sigmoid函数、Tanh函数等等,本算法使用Sigmoid函数;y为神经元的输出。具体表达式可以由下式表示:
y=f( ) (公式1)
而利用上述方法,对表1的样本语音数据进行训练,最终获取的4种样本语音数据的后验概率如表3所示:
表3
步骤140,根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。
可选的,至少两种语音类型中的语音类型与样本数据中的语音数据类型相同。例如,当样本数据中的语音数据从大的方向包括婴儿哭声数据样本和非婴儿哭声数据样本,从小的范围而言包括婴儿哭声数据样本,婴儿发出的除婴儿哭声之外的声音样本、公共环境声音样本、以及静音样本时,即样本数据中的语音数据类型和测试样本数据中的语音类型均包括:婴儿哭声类型、婴儿发出的除婴儿哭声之外的声音类型、公共环境声音类型以及静音等语音类型。
具体的,步骤140可以包括如下步骤:
选取测试语音数据中第一帧语音数据对应的至少两种语音类型的后验概率中概率值最大的语音类型,作为第一帧语音数据的语音类型;
统计测试语音数据中每一种语音类型对应的数量值;
当第一种语音类型对应的语音数量与测试语音数据总帧数之间的比值大于预设阈值时,确定测试语音数据的语音类型为第一种语音类型,其中,第一帧数据为测试语音数据中所有帧语音数据中的任一帧;第一种语音类型为至少两种语音类型中的任一种,且第一种语音类型的数量值为所有语音类型中每一种语音类型分别对应的数量值中的最大值。
在一个具体实施例中在根据样本训练集中的语音数据建立婴儿哭声的声学模型时,基于深度神经网络会对每一条样本语音每一帧都输出4个分类的后验概率,即上述所介绍的4中语音类型,取概率最大的1类作为该帧识别结果,然后统计该条测试语音4类结果的总帧数,如果该测试语音中的婴儿哭声帧数是4类语音类型中帧数最多的,且和总帧数的比例大于某一阈值时,则确定该测试语音数据为婴儿哭声对应的语音数据,否则确定测试语音数据不是婴儿哭声对应的语音数据。具体语音类型可以根据上述方法确定。而在测试过程中预设阈值会适当进行参数调整,比如从0.5依次调整到0.6,或0.7等,最终确定最准确的阈值,通过大量样本数据进行训练,最终得出阈值为0.8。在后续过程中,如果再检测时,则按照最终阈值为基准。例如,当婴儿哭声对应的后延概率大于阈值0.8时,或者,换句话说,当一段语音的哭声的帧数和这段语音的总帧数的比例大于阈值0.8时,则可以精确的确定测试语音数据为婴儿哭声对应的语音数据。通过实验可知,上述方法可以达到6.3%的漏检和错检率。
本发明实施例提供的一种婴儿哭声检测方法,利用PLP方式进行特征提取,并基于深度神经网络算法对样本训练集中的语音数据进行训练和分类,可以实现对于大数据集、复杂环境下的哭声很好的检测,从而获取精度高的检测结果,因此利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,然后根据测试语音数据中每一帧语音数据对应的语音类型的后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。在一个例子中,根据测试语音中每一帧对应4个类别的后验概率,取概率最大的一类作为这一帧的类别,然后统计一段测试语音中类别为婴儿哭声的帧数,根据婴儿哭声的帧数与测试语音总帧数的比例是否大于某一阈值判断这段测试语音是否为婴儿哭声。
与上述方法相对应的,本发明实施例还提供了一种婴儿哭声检测装置,该装置可以包括:特征提取单元401、声学模型建立单元402和处理单元403。
特征提取单元401,用于对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与样本训练集中的语音数据对应的语音特征。
声学模型建立单元402,用于利用深度神经网络算法,对样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型。优选地,对语音特征进行训练,语音数据不参加训练。
处理单元403,用于对测试语音数据进行PLP特征提取后,带入婴儿哭声的声学模型中进行计算,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,其中,语音类型包括至少两种,每一种语音类型对应一个后验概率。
根据测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定测试语音数据是否为婴儿哭声对应的语音数据。在一个例子中,根据测试语音中每一帧对应4个类别的后验概率,取概率最大的一类作为这一帧的类别,然后统计一段测试语音中类别为婴儿哭声的帧数,根据婴儿哭声的帧数与测试语音总帧数的比例是否大于某一阈值判断这段测试语音是否为婴儿哭声。
可选的,样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,婴儿哭声数据样本定义为正样本,非婴儿哭声数据定义为负样本,负样本至少包括如下中的一类或多类:婴儿发出的除婴儿哭声之外的声音样本、公共环境声音样本、以及静音;在特征提取单元401对预获取的样本训练集中的每一类语音数据分别进行感知线性预测系数PLP特征提取,获取与样本训练集中的每一类语音数据分别对应的语音特征之前,处理单元403,还用于:
对正样本语音数据和负样本数据中的每一类语音数据分别添加与之对应的标签信息。
可选的,特征提取单元401具体用于:
采用加窗处理分别提取样本训练集中的语音数据中每一帧数据的13维度的PLP特征;
在13维度的PLP特征的基础上添加1维度能量特征和1维度极品置信度特征,构成15维度特征;
将15维度特征进行三阶差分处理,获取60维度的语音特征。
可选的,语音特征帧长25ms,窗移为10ms。
可选的,处理单元403具体用于,
选取测试语音数据中第一帧语音数据对应的至少两种语音类型的后验概率中概率值最大的语音类型,作为第一帧语音数据的语音类型;
统计测试语音数据中每一种语音类型对应的数量值;
当第一种语音类型对应的语音数量与测试语音数据总帧数之间的比值大于预设阈值时,确定测试语音数据的语音类型为第一种语音类型,其中,第一帧数据为测试语音数据中所有帧语音数据中的任一帧;第一种语音类型为至少两种语音类型中的任一种,且第一种语音类型的数量值为所有语音类型中每一种语音类型分别对应的数量值中的最大值。
本发明实施例提供的婴儿哭声检测装置中各功能单元所执行的功能均已在上述两个实施例所提供的婴儿哭声检测方法中做了详细介绍,这里不做赘述。
本发明实施例提供的一种婴儿哭声检测装置,利用PLP方式进行特征提取,并基于深度神经网络算法对样本训练集中的语音数据进行训练和分类,可以实现对于大数据集、复杂环境下的哭声很好的检测,从而获取精度高的检测结果,因此利用上述方式获取的婴儿哭声的声学模型对测试语音数据进行分类,获取测试语音数据中每一帧语音数据对应的语音类型的后验概率,然后根据测试语音数据中每一帧语音数据对应的语音类型的后验概率确定测试语音数据是否为婴儿哭声对应的语音数据,将会更加精确。在一个例子中,根据测试语音中每一帧对应4个类别的后验概率,取概率最大的一类作为这一帧的类别,然后统计一段测试语音中类别为婴儿哭声的帧数,根据婴儿哭声的帧数与测试语音总帧数的比例是否大于某一阈值判断这段测试语音是否为婴儿哭声。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种婴儿哭声检测方法,其特征在于,所述方法包括:
对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与所述样本训练集中的语音数据对应的语音特征;
利用深度神经网络算法,对所述样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;
对测试语音数据进行PLP特征提取后,带入所述婴儿哭声的声学模型中进行计算,获取所述测试语音数据中每一帧语音数据对应的语音类型的后验概率,其中,所述语音类型包括至少两种,每一种语音类型对应一个后验概率;
根据所述测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定所述测试语音数据是否为婴儿哭声对应的语音数据。
2.如权利要求1所述的婴儿哭声检测方法,其特征在于,所述样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,所述婴儿哭声数据样本定义为正样本,所述非婴儿哭声数据定义为负样本,所述负样本至少包括如下中的一类或多类:婴儿发出的除所述婴儿哭声之外的声音样本、公共环境声音样本、以及静音;所述对预获取的样本训练集中的每一类语音数据分别进行感知线性预测系数PLP特征提取,获取与所述样本训练集中的每一类语音数据分别对应的语音特征之前,所述方法还包括:
对所述正样本语音数据和所述负样本数据中的每一类语音数据分别添加与之对应的标签信息。
3.如权利要求2所述的婴儿哭声检测方法,其特征在于,所述对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与所述样本训练集中的语音数据对应的语音特征,具体包括:
采用加窗处理分别提取所述样本训练集中的语音数据中每一帧数据的13维度的PLP特征;
在所述13维度的PLP特征的基础上添加1维度能量特征和1维度极品置信度特征,构成15维度特征;
将所述15维度特征进行三阶差分处理,获取60维度的语音特征。
4.如权利要求3所述的婴儿哭声检测方法,其特征在于,所述语音特征帧长25ms,窗移为10ms。
5.如权利要求2-4任一项所述的婴儿哭声检测方法,其特征在于,所述至少两种语音类型中的语音类型与所述样本数据中的语音数据类型相同;所述根据所述测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定所述测试语音数据是否为婴儿哭声对应的语音数据,具体包括:
选取所述测试语音数据中第一帧语音数据对应的至少两种语音类型的后验概率中概率值最大的语音类型,作为所述第一帧语音数据的语音类型;
统计所述测试语音数据中每一种语音类型对应的数量值;
当第一种语音类型对应的语音数量与所述测试语音数据总帧数之间的比值大于预设阈值时,确定所述测试语音数据的语音类型为第一种语音类型,其中,所述第一帧数据为所述测试语音数据中所有帧语音数据中的任一帧;所述第一种语音类型为所述至少两种语音类型中的任一种,且所述第一种语音类型的数量值为所有语音类型中每一种语音类型分别对应的数量值中的最大值。
6.一种婴儿哭声检测装置,其特征在于,所述装置包括:
特征提取单元,用于对预获取的样本训练集中的语音数据进行感知线性预测系数PLP特征提取,获取与所述样本训练集中的语音数据对应的语音特征;
声学模型建立单元,用于利用深度神经网络算法,对所述样本训练集中的语音数据对应的语音特征进行训练,获取婴儿哭声的声学模型;
处理单元,用于对测试语音数据进行PLP特征提取后,带入所述婴儿哭声的声学模型中进行计算,获取所述测试语音数据中每一帧语音数据对应的语音类型的后验概率,其中,所述语音类型包括至少两种,每一种语音类型对应一个后验概率;
根据所述测试语音数据中每一帧语音数据对应的语音类型的后验概率,确定所述测试语音数据是否为婴儿哭声对应的语音数据。
7.如权利要求6所述的婴儿哭声检测装置,其特征在于,所述样本数据中的语音数据包括婴儿哭声数据样本和非婴儿哭声数据样本,所述婴儿哭声数据样本定义为正样本,所述非婴儿哭声数据定义为负样本,所述负样本至少包括如下中的一类或多类:婴儿发出的除所述婴儿哭声之外的声音样本、公共环境声音样本、以及静音;所述处理单元,还用于:
对所述正样本语音数据和所述负样本数据中的每一类语音数据分别添加与之对应的标签信息。
8.如权利要求7所述的婴儿哭声检测装置,其特征在于,所述特征提取单元,具体用于:
采用加窗处理分别提取所述样本训练集中的语音数据中每一帧数据的13维度的PLP特征;
在所述13维度的PLP特征的基础上添加1维度能量特征和1维度极品置信度特征,构成15维度特征;
将所述15维度特征进行三阶差分处理,获取60维度的语音特征。
9.如权利要求8所述的婴儿哭声检测装置,其特征在于,所述语音特征帧长25ms,窗移为10ms。
10.如权利要求7-9任一项所述的婴儿哭声检测装置,其特征在于,所述处理单元,具体用于:
选取所述测试语音数据中第一帧语音数据对应的至少两种语音类型的后验概率中概率值最大的语音类型,作为所述第一帧语音数据的语音类型;
统计所述测试语音数据中每一种语音类型对应的数量值;
当第一种语音类型对应的语音数量与所述测试语音数据总帧数之间的比值大于预设阈值时,确定所述测试语音数据的语音类型为第一种语音类型,其中,所述第一帧数据为所述测试语音数据中所有帧语音数据中的任一帧;所述第一种语音类型为所述至少两种语音类型中的任一种,且所述第一种语音类型的数量值为所有语音类型中每一种语音类型分别对应的数量值中的最大值。
CN201810065385.8A 2018-01-23 2018-01-23 一种婴儿哭声检测方法及装置 Pending CN110085216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810065385.8A CN110085216A (zh) 2018-01-23 2018-01-23 一种婴儿哭声检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810065385.8A CN110085216A (zh) 2018-01-23 2018-01-23 一种婴儿哭声检测方法及装置

Publications (1)

Publication Number Publication Date
CN110085216A true CN110085216A (zh) 2019-08-02

Family

ID=67411863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810065385.8A Pending CN110085216A (zh) 2018-01-23 2018-01-23 一种婴儿哭声检测方法及装置

Country Status (1)

Country Link
CN (1) CN110085216A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992979A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种检测方法、装置和电子设备
CN111128227A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 声音检测方法及装置
CN111785300A (zh) * 2020-06-12 2020-10-16 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和系统
CN113270115A (zh) * 2020-02-17 2021-08-17 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
CN113450776A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种改善婴儿哭声检测模型效果的数据增强方法及其系统
EP3940698A1 (en) 2020-07-13 2022-01-19 Zoundream AG A computer-implemented method of providing data for an automated baby cry assessment

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019214A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
US20150269940A1 (en) * 2014-03-20 2015-09-24 Kabushiki Kaisha Toshiba Pattern recognition device, pattern recognition method, and computer program product
CN104966517A (zh) * 2015-06-02 2015-10-07 华为技术有限公司 一种音频信号增强方法和装置
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
CN105741835A (zh) * 2016-03-18 2016-07-06 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019214A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US20150269940A1 (en) * 2014-03-20 2015-09-24 Kabushiki Kaisha Toshiba Pattern recognition device, pattern recognition method, and computer program product
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN104966517A (zh) * 2015-06-02 2015-10-07 华为技术有限公司 一种音频信号增强方法和装置
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
CN105741835A (zh) * 2016-03-18 2016-07-06 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谷斌 等: "《数据仓库与数据挖掘实务》", 31 August 2014, 北京邮电大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992979A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种检测方法、装置和电子设备
CN110992979B (zh) * 2019-11-29 2022-04-08 北京搜狗科技发展有限公司 一种检测方法、装置和电子设备
CN111128227A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 声音检测方法及装置
CN113270115A (zh) * 2020-02-17 2021-08-17 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
CN113270115B (zh) * 2020-02-17 2023-04-11 广东美的制冷设备有限公司 婴儿监护设备及其婴儿监护方法、控制装置和存储介质
CN113450776A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种改善婴儿哭声检测模型效果的数据增强方法及其系统
CN111785300A (zh) * 2020-06-12 2020-10-16 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和系统
CN111785300B (zh) * 2020-06-12 2021-05-25 北京快鱼电子股份公司 一种基于深度神经网络的哭声检测方法和系统
EP3940698A1 (en) 2020-07-13 2022-01-19 Zoundream AG A computer-implemented method of providing data for an automated baby cry assessment
WO2022012777A1 (en) 2020-07-13 2022-01-20 Zoundream Ag A computer-implemented method of providing data for an automated baby cry assessment

Similar Documents

Publication Publication Date Title
CN110085216A (zh) 一种婴儿哭声检测方法及装置
CN109599129B (zh) 基于注意力机制和卷积神经网络的语音抑郁症识别系统
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Kabil et al. On Learning to Identify Genders from Raw Speech Signal Using CNNs.
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN109493886A (zh) 基于特征选择和优化的语音情感识别方法
CN105895078A (zh) 动态选择语音模型的语音识别方法及装置
Huang et al. Speech emotion recognition under white noise
Fulmare et al. Understanding and estimation of emotional expression using acoustic analysis of natural speech
CN109872714A (zh) 一种提高语音识别准确性的方法、电子设备及存储介质
Alghifari et al. On the use of voice activity detection in speech emotion recognition
da Silva et al. Evaluation of a sliding window mechanism as DataAugmentation over emotion detection on speech
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Shah et al. Speech emotion recognition based on SVM using MATLAB
Gomes et al. i-vector algorithm with Gaussian Mixture Model for efficient speech emotion recognition
Bakhshi et al. End-to-end speech emotion recognition based on time and frequency information using deep neural networks
CN108766462A (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Shekofteh et al. MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space
US20070179785A1 (en) Method for automatic real-time identification of languages in an audio signal and device for carrying out said method
CN116013276A (zh) 一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法
Xu et al. Voiceprint recognition of Parkinson patients based on deep learning
Mukherjee et al. Identification of top-3 spoken Indian languages: an ensemble learning-based approach
Gupta et al. Analysis of Affective Computing for Marathi Corpus using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190802