CN108564967B - 面向哭声检测系统的Mel能量声纹特征提取方法 - Google Patents

面向哭声检测系统的Mel能量声纹特征提取方法 Download PDF

Info

Publication number
CN108564967B
CN108564967B CN201810208675.3A CN201810208675A CN108564967B CN 108564967 B CN108564967 B CN 108564967B CN 201810208675 A CN201810208675 A CN 201810208675A CN 108564967 B CN108564967 B CN 108564967B
Authority
CN
China
Prior art keywords
crying
energy
mel
audio
detection system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810208675.3A
Other languages
English (en)
Other versions
CN108564967A (zh
Inventor
张晖
毛小旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810208675.3A priority Critical patent/CN108564967B/zh
Publication of CN108564967A publication Critical patent/CN108564967A/zh
Application granted granted Critical
Publication of CN108564967B publication Critical patent/CN108564967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种面向哭声检测系统的Mel能量声纹特征提取方法,本发明的方法基于声纹识别系统中常用的Mel倒谱系数特征,进行深入研究,发现在Mel频谱域,哭声信号Mel能量分布范围以及振荡程度与其他音频信号有较高区分度;为此,针对能量曲线分布范围差异性,提出Mel对数能量波动特征;针对能量曲线振荡差异性,提出Mel对数能量振荡特征。本发明提出的声纹特征提取方法为哭声检测系统提供了性能良好的特征提取解决方案,对哭声检测系统的性能提升有很大帮助。

Description

面向哭声检测系统的Mel能量声纹特征提取方法
技术领域
本发明涉及一种声纹特征提取方法,具体涉及一种面向哭声检测系统的Mel能量声纹特征提取方法,属于声纹特征提取技术领域。
背景技术
声纹识别技术是生物身份识别技术的一种,即利用声音来验证话者的身份,而声纹特征提取是实现声纹识别的核心技术之一。随着声纹识别技术的普及,迫切需要一种声纹特征提取方法,来实现声纹特征的提取,以保证声纹识别技术的顺利实现。
在当今这个智能家居时代,若能将声纹识别技术应用到智能家居中,毫无疑问将大大提升产品的市场竞争力。具体而言,哭声检测便是将声纹识别技术应用到智能家居产品的一个很好的切入点。而哭声检测系统具备良好性能的前提是能够找到具备足够区分度的声纹特征。
尽管目前已有诸多典型的声纹特征提取技术,但这些技术所提取出的声纹特征大多需要在特定的场景下才具备较优的使用效果,若直接应用到哭声检测系统中,不仅会大大增加了系统的复杂度,而且对整个系统的性能提升作用不大。因此,对于哭声检测这一技术而言,还需要根据应用场景“定制化”其独有的声纹特征。
综上所述,如何克服上述现有技术上的不足,提出一种面向哭声检测系统的Mel能量声纹特征提取方法,为哭声检测系统提供性能良好的特征提取解决方案,进而提升整个哭声检测系统的性能,就成为了本领域内的技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种面向哭声检测系统的Mel能量声纹特征提取方法。
本发明的目的,将通过以下技术方案得以实现:
一种面向哭声检测系统的Mel能量声纹特征提取方法,包括如下步骤:
S1,采集哭声语料与非哭声语料,建立样本数据库;
S2,从样本数据库中取一音频文件,进行语音预处理成音频帧序列;
S3,对S2所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;
S4,对S3所述频谱函数经过由25个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;25个Mel滤波器的计算结果,组成一个25维的Mel能量向量;
S5,取S4所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;
S6,对音频帧序列中每一帧,按照S3至S5的方法进行处理,得到一个对数能量矩阵;对数能量矩阵每行为8维的对数能量向量;
S7,计算S6中所述对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值
Figure BDA0001596603060000021
以此作为Mel能量波动特征;
S8,对S6中所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值
Figure BDA0001596603060000022
以此作为Mel能量振荡特征;
S9,根据S7、S8获取的特征值
Figure BDA0001596603060000023
通过线性加权的方式组合成新的特征值Z,且满足:
Figure BDA0001596603060000031
其中,w0、w1为特征值
Figure BDA0001596603060000032
的权重系数;
S10,根据公式(1),对样本库中的哭声信号与非哭声信号,分别训练哭声模型Z'与非哭声模型Z";
S11,对于待识别的音频文件,按照S2至S8的方法获取Mel能量波动特征x与Mel能量振荡特征y,分别代入模型Z'与模型Z",比较二者绝对值大小;若模型Z'的输出结果绝对值更大,则样本类型判决为哭声;若模型Z"的输出结果绝对值更大,则样本类型判决为非哭声。
优选地,S2中所述对音频文件进行语音预处理成音频帧序列,具体包括如下步骤:
S21,将音频文件按照固定采样频率转换成固定位数的音频数字信号;
S22,在固定的时间窗内,对S21中所述音频数字信号依次进行归一化、预加重、分帧、加窗处理,得到音频帧序列。
优选地,S10中所述对哭声信号与非哭声信号分别训练判决模型,具体包括如下步骤:
S101:对样本库中所有哭声音频文件,按照S2至S8的方法,统计各文件对应的Mel能量波动特征与Mel能量振荡特征,形成哭声特征集
Figure BDA0001596603060000033
Figure BDA0001596603060000034
其中,1≤i≤N,N为样本库中哭声音频文件总数;
S102:对S101获取的哭声特征集中特征值
Figure BDA0001596603060000035
采用梯度上升法进行拟合,拟合规则是
Figure BDA0001596603060000036
按照公式(1)进行线性加权的结果为正值且最大化;最终得到哭声判决模型:
Figure BDA0001596603060000037
其中,w'0、w1'为使用梯度上升法得到的哭声特征权重;
S103:对样本库中所有非哭声音频文件,按照S2至S8的方法,统计各文件对应的Mel能量波动特征与Mel能量振荡特征,形成非哭声特征集
Figure BDA0001596603060000041
Figure BDA0001596603060000042
其中,1≤j≤M,M为样本库中非哭声音频文件总数;
S104:对S103获取的非哭声特征集中特征值
Figure BDA0001596603060000043
采用梯度上升法进行拟合,拟合规则是
Figure BDA0001596603060000044
按照公式(1)进行线性加权的结果为负值且最小化;最终得到非哭声判决模型:
Figure BDA0001596603060000045
其中,w"0、w1"为使用梯度上升法得到的非哭声特征权重;
优选地,S21中所述固定采样率、固定位数,分别取8000Hz、16位。
优选地,S22中所述固定的时间窗,窗大小取10s,所述对音频数字信号依次进行分帧、加窗处理中,每帧的长度取20ms,窗函数为汉明窗,前后相邻两帧具有半帧的重叠区。
与现有技术相比,本发明的创新之处及其突出效果表现为:本发明所提及的面向哭声检测系统的Mel能量声纹特征提取方法基于声纹识别系统中常用的Mel倒谱系数特征,并对其进行深入研究,发现在Mel频谱域,哭声信号Mel能量分布范围以及振荡程度与其他音频信号有较高区分度;为此,针对能量曲线分布范围差异性,提出Mel对数能量波动特征;针对能量曲线振荡差异性,提出Mel对数能量振荡特征。本发明所提出的声纹特征提取方法为哭声检测系统提供了性能良好的特征提取解决方案,对哭声检测系统的性能提升有很大帮助。
综上所述,本发明使用效果优异,对系统性能的提升显著,具有很高的使用及推广价值。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明提供的面向哭声检测系统的Mel能量声纹特征提取方法流程图;
图2为本发明提供的训练哭声与非哭声判决模型的流程图。
具体实施方式
为了更加详细的描述本发明提出的一种面向哭声检测系统的Mel能量声纹特征提取方法。结合附图,具体说明如下。
图1显示了本发明提出的一种面向哭声检测系统的Mel能量声纹特征提取方法流程图,具体执行步骤如下:
一种面向哭声检测系统的Mel能量声纹特征提取方法,包括如下步骤:
S1,采集哭声语料与非哭声语料,建立样本数据库。
S2,从样本数据库中取一音频文件,进行语音预处理成音频帧序列,具体包括如下步骤:
S21,将音频文件按照固定采样频率转换成固定位数的音频数字信号,所述固定采样率、固定位数,分别取8000Hz、16位。
S22,在固定的时间窗内,对S21中所述音频数字信号依次进行归一化、预加重、分帧、加窗处理,得到音频帧序列,所述固定的时间窗,窗大小取10s,所述对音频数字信号依次进行分帧、加窗处理中,每帧的长度取20ms,窗函数为汉明窗,前后相邻两帧具有半帧的重叠区。
S3,对S2所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数。
S4,对S3所述频谱函数经过由25个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量。25个Mel滤波器的计算结果,组成一个25维的Mel能量向量。
S5,取S4所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量。
S6,对音频帧序列中每一帧,按照S3至S5的方法进行处理,得到一个对数能量矩阵。对数能量矩阵每行为8维的对数能量向量。
S7,计算S6中所述对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值。对所述8个方差值计算均值
Figure BDA0001596603060000061
以此作为Mel能量波动特征。
S8,对S6中所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并。计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列。其次,计算上述极值数序列均值作为阈值。进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列。最后,计算新的极值数序列的均值
Figure BDA0001596603060000062
以此作为Mel能量振荡特征。
S9,根据S7、S8获取的特征值
Figure BDA0001596603060000063
通过线性加权的方式组合成新的特征值Z,且满足:
Figure BDA0001596603060000064
其中,w0、w1为特征值
Figure BDA0001596603060000065
的权重系数。
S10,根据公式(1),对样本库中的哭声信号与非哭声信号,分别训练哭声模型Z'与非哭声模型Z"。
图2显示了本发明提供的训练哭声与非哭声判决模型的流程图,具体包括如下步骤:
S101:对样本库中所有哭声音频文件,按照S2至S8的方法,统计各文件对应的Mel能量波动特征与Mel能量振荡特征,形成哭声特征集
Figure BDA0001596603060000066
Figure BDA0001596603060000067
其中,1≤i≤N,N为样本库中哭声音频文件总数。
S102:对S101获取的哭声特征集中特征值
Figure BDA0001596603060000068
采用梯度上升法进行拟合,拟合规则是
Figure BDA0001596603060000069
按照公式(1)进行线性加权的结果为正值且最大化。最终得到哭声判决模型:
Figure BDA00015966030600000610
其中,w'0、w1'为使用梯度上升法得到的哭声特征权重。
S103:对样本库中所有非哭声音频文件,按照S2至S8的方法,统计各文件对应的Mel能量波动特征与Mel能量振荡特征,形成非哭声特征集
Figure BDA0001596603060000071
Figure BDA0001596603060000072
其中,1≤j≤M,M为样本库中非哭声音频文件总数。
S104:对S103获取的非哭声特征集中特征值
Figure BDA0001596603060000073
采用梯度上升法进行拟合,拟合规则是
Figure BDA0001596603060000074
按照公式(1)进行线性加权的结果为负值且最小化。最终得到非哭声判决模型:
Figure BDA0001596603060000075
其中,w"0、w1"为使用梯度上升法得到的非哭声特征权重。
S11,对于待识别的音频文件,按照S2至S8的方法获取Mel能量波动特征x与Mel能量振荡特征y,分别代入模型Z'与模型Z",比较二者绝对值大小。若模型Z'的输出结果绝对值更大,则样本类型判决为哭声。若模型Z"的输出结果绝对值更大,则样本类型判决为非哭声。
综上所述,本发明所提及的面向哭声检测系统的Mel能量声纹特征提取方法基于声纹识别系统中常用的Mel倒谱系数特征,并对其进行深入研究,发现在Mel频谱域,哭声信号Mel能量分布范围以及振荡程度与其他音频信号有较高区分度;为此,针对能量曲线分布范围差异性,提出Mel对数能量波动特征;针对能量曲线振荡差异性,提出Mel对数能量振荡特征。本发明所提出的声纹特征提取方法为哭声检测系统提供了性能良好的特征提取解决方案,对哭声检测系统的性能提升有很大帮助。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种面向哭声检测系统的Mel能量声纹特征提取方法,其特征在于,包括如下步骤:
S1,采集哭声语料与非哭声语料,建立样本数据库;
S2,从样本数据库中取一音频文件,进行语音预处理成音频帧序列;
S3,对S2所述音频帧序列中一帧进行快速傅里叶变换,得到该帧对应的频谱函数;
S4,对S3所述频谱函数经过由25个Mel滤波器组成的Mel滤波器组,计算每个滤波器所覆盖频谱范围内频谱帧的累积能量;25个Mel滤波器的计算结果,组成一个25维的Mel能量向量;
S5,取S4所述Mel能量向量的低8维能量值,进行计算自然对数操作,得到一个8维的对数能量向量;
S6,对音频帧序列中每一帧,按照S3至S5的方法进行处理,得到一个对数能量矩阵;对数能量矩阵每行为8维的对数能量向量;
S7,计算S6中所述对数能量矩阵中每列数据的方差值,8列数据计算得到8个方差值;对所述8个方差值计算均值
Figure FDA0003003135780000011
以此作为Mel能量波动特征;
S8,对S6中所述对数能量矩阵,以列为对象,列中每15个数据点作为一个数据段,最后一段不足15点则与相邻数据段合并;计算每个数据段所含极值数,所有数据段的计算结果组成极值数序列;其次,计算上述极值数序列均值作为阈值;进而将上述极值数序列中小于阈值的极值数置为0,得到新的极值数序列;最后,计算新的极值数序列的均值
Figure FDA0003003135780000012
以此作为Mel能量振荡特征;
S9,根据S7、S8获取的特征值
Figure FDA0003003135780000013
通过线性加权的方式组合成新的特征值Z,且满足:
Figure FDA0003003135780000014
其中,w0、w1为特征值
Figure FDA0003003135780000015
的权重系数;
S10,根据公式(1),对样本库中的哭声信号与非哭声信号,分别训练哭声模型Z'与非哭声模型Z";
S11,对于待识别的音频文件,按照S2至S8的方法获取Mel能量波动特征
Figure FDA0003003135780000026
与Mel能量振荡特征
Figure FDA0003003135780000027
分别代入模型Z'与模型Z",比较二者绝对值大小;若模型Z'的输出结果绝对值更大,则样本类型判决为哭声;若模型Z"的输出结果绝对值更大,则样本类型判决为非哭声。
2.根据权利要求1所述的面向哭声检测系统的Mel能量声纹特征提取方法,其特征在于,S2中所述对音频文件进行语音预处理成音频帧序列,具体包括如下步骤:
S21,将音频文件按照固定采样频率转换成固定位数的音频数字信号;
S22,在固定的时间窗内,对S21中所述音频数字信号依次进行归一化、预加重、分帧、加窗处理,得到音频帧序列。
3.根据权利要求1所述的面向哭声检测系统的Mel能量声纹特征提取方法,其特征在于,S10中所述对哭声信号与非哭声信号分别训练判决模型,具体包括如下步骤:
S101,对样本库中所有哭声音频文件,按照S2至S8的方法,统计各文件对应的Mel能量波动特征与Mel能量振荡特征,形成哭声特征集
Figure FDA0003003135780000021
Figure FDA0003003135780000022
其中,1≤i≤N,N为样本库中哭声音频文件总数;
S102,对S101获取的哭声特征集中特征值
Figure FDA0003003135780000023
采用梯度上升法进行拟合,拟合规则是
Figure FDA0003003135780000024
按照公式(1)进行线性加权的结果为正值且最大化;最终得到哭声判决模型:
Figure FDA0003003135780000025
其中,w'0、w′1为使用梯度上升法得到的哭声特征权重;
S103,对样本库中所有非哭声音频文件,按照S2至S8的方法,统计各文件对应的Mel能量波动特征与Mel能量振荡特征,形成非哭声特征集
Figure FDA0003003135780000031
其中,1≤j≤M,M为样本库中非哭声音频文件总数;
S104,对S103获取的非哭声特征集中特征值
Figure FDA0003003135780000032
采用梯度上升法进行拟合,拟合规则是
Figure FDA0003003135780000033
按照公式(1)进行线性加权的结果为负值且最小化;最终得到非哭声判决模型:
Figure FDA0003003135780000034
其中,w"0、w"1为使用梯度上升法得到的非哭声特征权重。
4.根据权利要求2所述的面向哭声检测系统的Mel能量声纹特征提取方法,其特征在于:S21中所述固定采样频 率、固定位数,分别取8000Hz、16位。
5.根据权利要求2所述的面向哭声检测系统的Mel能量声纹特征提取方法,其特征在于:S22中所述固定的时间窗,窗大小取10s,所述对音频数字信号依次进行分帧、加窗处理中,每帧的长度取20ms,窗函数为汉明窗,前后相邻两帧具有半帧的重叠区。
CN201810208675.3A 2018-03-14 2018-03-14 面向哭声检测系统的Mel能量声纹特征提取方法 Active CN108564967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810208675.3A CN108564967B (zh) 2018-03-14 2018-03-14 面向哭声检测系统的Mel能量声纹特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810208675.3A CN108564967B (zh) 2018-03-14 2018-03-14 面向哭声检测系统的Mel能量声纹特征提取方法

Publications (2)

Publication Number Publication Date
CN108564967A CN108564967A (zh) 2018-09-21
CN108564967B true CN108564967B (zh) 2021-05-18

Family

ID=63532590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810208675.3A Active CN108564967B (zh) 2018-03-14 2018-03-14 面向哭声检测系统的Mel能量声纹特征提取方法

Country Status (1)

Country Link
CN (1) CN108564967B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410985B (zh) * 2018-10-24 2022-11-04 山东科技大学 哭声智能翻译手表
CN110010158B (zh) * 2019-03-29 2021-05-18 联想(北京)有限公司 检测方法、检测装置、电子设备和计算机可读介质
CN112967733B (zh) * 2021-02-26 2023-08-08 武汉星巡智能科技有限公司 智能识别婴儿哭声类别的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105825857A (zh) * 2016-03-11 2016-08-03 无锡吾芯互联科技有限公司 基于声纹识别帮助失聪患者判断声音类别的方法
CN106128475A (zh) * 2016-07-12 2016-11-16 华南理工大学 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法
CN107591162A (zh) * 2017-07-28 2018-01-16 南京邮电大学 基于模式匹配的哭声识别方法及智能看护系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047831A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 特徴量抽出装置、プログラムおよび特徴量抽出方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105825857A (zh) * 2016-03-11 2016-08-03 无锡吾芯互联科技有限公司 基于声纹识别帮助失聪患者判断声音类别的方法
CN106128475A (zh) * 2016-07-12 2016-11-16 华南理工大学 基于异常情绪语音辨识的可穿戴智能安全设备及控制方法
CN107591162A (zh) * 2017-07-28 2018-01-16 南京邮电大学 基于模式匹配的哭声识别方法及智能看护系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Preliminary analysis of causes of infant cry;Shubham Asthana et al.;《2014 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT)》;20151026;468-473页 *
基于Mel倒谱参数的咳嗽声识别;尹永;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20121215;全文 *

Also Published As

Publication number Publication date
CN108564967A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN107393554B (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN111429938B (zh) 一种单通道语音分离方法、装置及电子设备
CN101894548B (zh) 一种用于语种识别的建模方法及装置
CN108564967B (zh) 面向哭声检测系统的Mel能量声纹特征提取方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN113724712B (zh) 一种基于多特征融合和组合模型的鸟声识别方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN103514877A (zh) 振动信号特征参数提取方法
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN110767248B (zh) 一种抗变调干扰的音频指纹提取方法
CN110610722B (zh) 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
CN109002529A (zh) 音频检索方法及装置
CN108735230B (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN112035700A (zh) 一种基于cnn的语音深度哈希学习方法及系统
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
CN114038469B (zh) 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN112992157A (zh) 一种基于残差和批量归一化的神经网络带噪声纹识别方法
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant