CN108369813A - 特定声音识别方法、设备和存储介质 - Google Patents

特定声音识别方法、设备和存储介质 Download PDF

Info

Publication number
CN108369813A
CN108369813A CN201780004160.5A CN201780004160A CN108369813A CN 108369813 A CN108369813 A CN 108369813A CN 201780004160 A CN201780004160 A CN 201780004160A CN 108369813 A CN108369813 A CN 108369813A
Authority
CN
China
Prior art keywords
specific sound
signal
characteristic
vector data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780004160.5A
Other languages
English (en)
Other versions
CN108369813B (zh
Inventor
刘洪涛
冯澍婷
欧朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen H&T Intelligent Control Co Ltd
Original Assignee
Shenzhen Heertai Intelligent Technology Co Ltd Home Furnishing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Heertai Intelligent Technology Co Ltd Home Furnishing filed Critical Shenzhen Heertai Intelligent Technology Co Ltd Home Furnishing
Publication of CN108369813A publication Critical patent/CN108369813A/zh
Application granted granted Critical
Publication of CN108369813B publication Critical patent/CN108369813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种特定声音识别方法、设备和存储介质,所述方法包括:采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵(201);从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征(202);确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型(203);如果匹配,则确认所述声音信号为特定声音(204)。上述特定声音识别方法、设备和存储介质,采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别,能适用于各种不同的特定声音,算法复杂度低,且计算量少、对硬件要求低,降低了产品制造成本。

Description

特定声音识别方法、设备和存储介质
技术领域
本申请实施例涉及声音处理技术,尤其涉及一种特定声音识别方法、设备和存储介质。
背景技术
在生活中,我们每天都可以听到一些特定的、没有实际语义的声音。如:哭声、鼾声、咳嗽声、呼吸声、笑声、鞭炮声等等,尽管它们没有实际的语义,但是却能够准确的反应人们的生理需求、状态或者物质的品质。例如:父母可以通过婴儿的哭声信号辨别婴儿的饱或饿状态,医生能够通过病人的鼾声、咳嗽、呼吸等等辨别人们的健康情况,人们通过鞭炮声音的大小或者次数来判断鞭炮的质量情况。这类特定声音内容比较简单、重复,却是我们生活中不可或缺的一部分,有效的识别和判断各种特定声音信号意义重大。
目前有研究通过语音识别技术识别特定声音。例如有针对咳嗽声音的识别方法,将咳嗽声音的特性和语音识别技术相结合,建立咳嗽模型,采用基于动态时间规整算法(Dynamic Time Warping,DTW)的模型匹配方法对特定人的孤立咳嗽声音进行识别。
有针对婴儿哭声的语音识别算法,语音特征参数使用目前最广泛采用的MFCC参数,使用最大欧氏距离划分初始样本,使用LBG算法不断迭代优化得到最终码本。在婴儿哭声的识别阶段,提取待识别语音的MFCC特征参数与已有码本计算矢量量化误差,若矢量量化误差两次低于判断值,输出判别为婴儿哭声的结果。
实现本申请过程中,发明人发现相关技术中至少存在如下问题:现有的识别算法,计算量大、对硬件设备要求高。且不同的特定声音需要采用不同的算法,无法使用统一的算法进行识别,算法复杂。
发明内容
本申请的目的在于提供一种特定声音识别方法、设备和存储介质,能采用统一的算法识别各种特定声音,算法简单,且计算量小,对硬件设备要求低。
为实现上述目的,第一方面,本申请实施例提供了一种特定声音识别方法,用于识别设备,所述方法包括:
采集声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型;
如果匹配,则确认所述声音信号为所述特定声音。
可选的,所述方法还包括:
预先获取所述基于支持向量数据描述算法的特定声音特征模型。
可选的,所述预先获取所述基于支持向量数据描述算法的特定声音特征模型,包括:
采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述特定声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的特定声音特征模型。
可选的,所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。
可选的,所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。
可选的,所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型,基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型;
若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特征模型,包括:
分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子特征模型。
第二方面,本申请实施例提供了一种特定声音识别设备,所述特定声音识别设备包括:
声音输入单元,用于接收声音信号;
信号处理单元,用于对所述声音信号进行模拟信号处理;
所述信号处理单元与特定声音识别设备内置或者外置的运算处理单元相连,所述运算处理单元包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
采集声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型;
如果匹配,则确认所述声音信号为所述特定声音。
可选的,所述至少一个处理器还能够执行:
预先获取所述基于支持向量数据描述算法的特定声音特征模型。
可选的,所述预先获取所述基于支持向量数据描述算法的特定声音特征模型,包括:
采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述特定声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的特定声音特征模型。
可选的,所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。
可选的,所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。
可选的,所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型,基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型;
若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型,包括:
分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子特征模型。
第三方面,本申请实施例还提供了一种存储介质,所述存储介质存储有可执行指令,所述可执行指令被特定声音识别设备执行时,使所述特定声音识别设备执行上述的方法
第四方面,本申请实施例还提供了一种程序产品,所述程序产品包括存储在存储介质上的程序,所述程序包括程序指令,当所述程序指令被特定声音识别设备执行时,使所述特定声音识别设备执行上述的方法。
本申请实施例提供的特定声音识别方法、设备和存储介质,采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别,能适用于各种不同的特定声音,算法复杂度低,且计算量少、对硬件要求低,降低了产品制造成本。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请各实施例的应用环境的结构示意图;
图2是咳嗽声音信号的时间-幅度图;
图3是咳嗽声音信号的时间-频率图;
图4是MFCC系数计算过程中梅尔频率滤波处理示意图;
图5是本申请实施例提供的特定声音识别方法中预先获得基于支持向量数据描述算法的特定声音特征模型的流程示意图;
图6是本申请实施例提供的特定声音识别方法的流程示意图;
图7是本申请实施例提供的特定声音识别装置的结构示意图;
图8是本申请实施例提供的特定声音识别设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提出一种基于梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCC)特征参数和支持向量数据描述算法(Support Vector DataDescription,SVDD)模型的特定声音识别方案,适用于图1所示的应用环境。其中,所述特定声音包括哭声、鼾声、咳嗽声、呼吸声、笑声、鞭炮声等具有重复特性的声音。所述应用环境包括用户10和特定声音识别设备20,特定声音识别设备20用于接收用户10发出的声音,并对该声音进行识别,以确定该声音是否为特定声音。
进一步的,在识别出该声音为特定声音之后,所述特定识别设备20还可以对特定声音进行记录和处理,以输出用户10发出特定声音的情况信息。该特定声音的情况信息可以包括特定声音的次数、特定声音的时长以及特定声音的分贝。例如,可以通过在特定声音识别设备中包括计数器,用于在检测到特定声音时,对特定声音进行计数统计;可以通过在特定声音识别设备中包括计时器,用于在检测到特定声音时,对特定声音的持续时长进行统计;可以通过在特定声音识别设备中包括分贝检测装置,用于在检测到特定声音时,检测该特定声音的分贝。
本申请实施例对特定声音的识别原理与语音识别的原理相似,都是将输入的声音经过处理后将其和声音模型进行比较,从而得到识别结果。其可分为两个阶段,分别为特定声音模型训练阶段和特定声音识别阶段。特定声音模型训练阶段主要是采集一定数量的特定声音样本,计算特定声音信号的MFCC特征参数,从MFCC特征参数中提取信号特征,将所述信号特征基于SVDD算法进行模型训练,得到特定声音的参考特征模型。在特定声音识别阶段,对需要判断的声音,计算其MFCC特征参数,并提取与特征模型对应的信号特征,然后判断信号特征是否匹配特征模型,如果匹配,则判为特定声音,否则判为非特定声音。其识别过程主要包括预处理、特征提取、模型训练、模式匹配及判决等。
其中,在预处理步骤,包括采样特定声音信号以及计算所述特定声音信号的MFCC系数。在特征提取步骤,从特定声音的MFCC系数矩阵中选择信号特征。在模型训练步骤,根据从特定声音的MFCC系数矩阵中提取的特征信号进行训练,训练出与特征信号对应的SVDD模型。在模式匹配及判决步骤,首先计算声音信号的MFCC系数矩阵,然后从MFCC系数矩阵中提取声音信号的所述信号特征,再判断上述信号特征是否匹配SVDD模型,如果匹配,则判断所述声音信号为特定声音信号,否则,判断所述声音信号不是特定声音信号。
MFCC结合SVDD识别特定声音的方案可以简化算法的复杂度,减少计算量,并能够显著提高特定声音识别的准确性。
本申请实施例提供了一种特定声音识别方法,可以用于上述的特定声音识别设备20,所述特定声音识别方法需要预先获得基于支持向量数据描述算法的特定声音特征模型,即基于SVDD模型的特定声音特征模型,如图5所示,所述预先获得基于支持向量数据描述算法的特定声音特征模型包括:
步骤101:采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
采样得到特定声音样本信号s(n),并根据所述特定声音样本信号获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵。梅尔频率倒谱系数主要用于声音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)的数据,经过MFCC处理后可以提取出最重要的40维数据同时也达到了降维的目的。梅尔频率倒谱系数计算一般包括:预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换。
获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵包括以下步骤:
①预加重
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿声音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。其实现方法是将经采样后的特定声音样本信号s(n)通过一个一阶有限长单位冲激响应(FiniteImpulse Response,FIR)高通数字滤波器来进行预加重,其传递函数为:
H(z)=1-a·z-1 (1)
其中,z表示输入信号,时域表示即为咳嗽声音样本信号s(n),a表示预加重系数,一般取0.9~1.0中的常数。
②分帧
将咳嗽声音样本信号s(n)中每P个采样点集合成一个观测单位,称为帧。P的值可以取256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,可以让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值可以约为P的1/2或1/3。通常声音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
③加窗
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1…,P-1,P为帧的大小,那么乘上汉明窗后:S′(n)=S(n)×W(n),其中,
其中,l表示窗长。
④快速傅里叶变换(Fast Fourier Transform,FFT)
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同声音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到声音信号的功率谱。
⑤三角带通滤波器滤波
将能量谱通过一组梅尔尺度的三角形滤波器组进行滤波,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M。M可以取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,请参照图4。
三角滤波器的频率响应定义为:
其中
⑥离散余弦变换
计算每个滤波器组输出的对数能量为:
对对数能量s(m)经离散余弦变换(Dual Clutch Transmission,DCT)得到MFCC系数:
步骤102:从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
其中,所述信号特征可以包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子特征。
由式(5)可知,MFCC系数为一个N*L的系数矩阵,其中N为声音信号帧数,L为MFCC系数长度。由于MFCC系数矩阵维度较高,且声音信号长度不一致导致矩阵行数N不同,MFCC系数矩阵无法作为直接输入获得SVDD模型。因此需要进一步的从MFCC系数矩阵中提取有效特征,以用于直接输入SVDD模型。
为了进一步从MFCC系数矩阵中提取有效特征,需要对MFCC系数矩阵进行降维。而直接对MFCC矩阵降维可能会损失特定声音信号有效特征,可以结合特定声音信号的时域与频域特性在MFCC系数矩阵中提取有效特征。
以特定声音信号为咳嗽声音信号为例,请参考图2,图2为咳嗽声音信号的时间-幅度图(时域图),从图2可以看出,咳嗽声音信号的发生过程很短,具有明显的突发性,单声咳嗽声音所持续的时长通常小于550ms,甚至患上严重的咽喉和支气管疾病的病人,他们的单声咳嗽声音的时长也一般维持在1000ms左右。从能量上看,咳嗽声音信号的能量主要集中在信号的前半部分。因此,可以选择能量相对集中的信号段的能量系数作为能量特征来表征咳嗽声音样本信号的特性,例如从所述咳嗽声音样本信号中选择前1/2部分信号的一组能量系数作为能量特征,并将该能量特征作为输入,建立SVDD模型对声音信号进行识别。
由于各个咳嗽声音样本信号长度不一致将导致参数矩阵行数N不同,则能量系数的长度亦不同。因此需要将所述能量系数统一归一化到相同长度。
具体的,从咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取能量特征包括:
从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的预设比例的连续帧咳嗽声音样本信号的能量系数;
将所述连续帧咳嗽声音样本信号的能量系数基于DTW算法归整到预设长度获得所述咳嗽声音样本信号的能量特征。
具体应用中,结合咳嗽声音信号的能量分布,所述能量系数之和最大的预设比例的连续帧咳嗽声音样本信号,可以是咳嗽声音样本信号的前1/2部分、前4/7部分或者前5/9部分等等。其中,预设长度可以根据实际应用情况进行设定。
从图2中可以看出,大部分咳嗽声音信号(约90%)变化趋势基本一致,在咳嗽脉冲发生之后,信号能量迅速降低,干咳时下降速度较快,湿咳时下降速度稍慢。因此,咳嗽声音信号的变化趋势能很好的表征咳嗽声音信号的特性,可以从咳嗽声音信号的MFCC系数矩阵中提取全局频域特征(全局频域特征能反映信号的变化趋势),并将该全局频域特征作为输入,建立SVDD模型对声音信号进行识别。
具体的,咳嗽声音样本信号的全局频域特征可以采用线性判别分析算法(LandingDistance Available,LDA),对所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵进行降维处理获得。
图3为咳嗽声音信号的时间-频率图(频谱图),从图3可以看出,频谱能量也集中在信号开始段,且频率分布范围较广(一般集中在200~6000Hz内)。因此,可以选择咳嗽声音样本信号中频谱能量集中的几帧信号的MFCC系数作为局部特征来表征咳嗽声音信号的特性,并将该局部特征作为输入,建立SVDD模型对声音信号进行识别。具体的,局部特征可以通过如下方法获得:从咳嗽声音样本信号中选取能量最为集中的几帧信号,然后为各帧信号的MFCC系数分配不同的权重并相加,可以获得咳嗽声音样本信号的局部特征。因为咳嗽声音样本信号的梅尔频率倒谱系数的权重与所述咳嗽声音样本信号的能量系数正相关,因此权重值可以根据嗽声音样本信号的能量系数确定。即:从所述咳嗽声音样本信号的梅尔频率倒谱系数特征参数矩阵中选择能量系数之和最大的连续S2帧咳嗽声音样本信号的梅尔频率倒谱系数,所述S2为正整数;然后基于所述S2帧咳嗽声音样本信号的能量系数确定所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重,并根据所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数的权重对所述S2帧咳嗽声音样本信号的梅尔频率倒谱系数进行加权求和,获得所述咳嗽声音样本信号的局部特征。
通过上述分析,如果特定声音为咳嗽声音信号,能量特征、局部特征、全局频域特征能反映咳嗽声音信号的特性,在咳嗽声音样本信号的MFCC系数矩阵中选择咳嗽声音信号的能量特征、全局频域特征和局部特征中的一种或者多种子信号特征。并将该一种或多种子信号特征作为输入,建立SVDD模型对声音信号进行识别,大大提高了咳嗽声音识别的准确率,同时降低了误识别率。在从咳嗽声音样本信号的MFCC系数矩阵中同时提取能量特征、局部特征和全局频域特征作为输入,训练SVDD模型对声音信号进行识别时,咳嗽声音的识别率可以达到95%以上。
也可以采用其他降维方法对特定声音样本信号的MFCC系数进行降维,例如采用DTW、主成分分析(Principal Component Analysis,PCA)等算法对MFCC系数进行降维。在采用PCA算法对咳嗽声音样本信号的MFCC系数进行降维,并利用降维后的参数训练SVDD模型的场合,获得的咳嗽声音信号的SVDD模型,对咳嗽声音与噪声区分度很小,咳嗽声音识别率约为85%,噪声误识别率达到65%。
其他的一些特定语音信号,例如:哭声、呼吸声、笑声、鼾声和爆破声等也可以根据其时域与频域特性,有选择性的从MFCC系数矩阵中提取特征向量。
步骤103:将所述特定声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的特定声音特征模型。
在所述特定声音为咳嗽声音的场合,分别将所述能量特征、局部特征和全局频域特征作为输入,训练SVDD模型,即训练能量特征的SVDD模型(能量特征模型)、局部特征的SVDD模型(局部特征模型)和全局频域特征的SVDD模型(全局频域特征模型)。从而获得由能量特征模型、局部特征模型和全局频域特征模型组成的基于支持向量数据描述算法的特定声音特征模型。
SVDD基本原理是为输入样本计算一个球状的决策边界,将整个空间划分为两部分,一部分是边界内的空间,看作可接受的部分;另一部分则是边界外的空间,看作是拒绝的部分。这就使SVDD具有一类样本的分类特征。
具体地,SVDD的优化目标就是,求一个中心为a,半径为R的最小球面:
使得这个球面满足(对于3维以上的数据xi,该球面即为超球面。其中,超球面是指3维以上的空间中的球面,对应的2维空间中就是曲线,3维空间中就是球面):
满足这个条件就是说要把训练数据集中的数据点都包含在球面里,其中xi表示输入样本数据,即特定声音样本信号。
现在有了要求解的目标,又有了约束,接下来的求解方法可以采用
Lagrangian乘子法:
其中αi≥0,γi≥0,分别对参数R,a,ξi求偏导并令导数等于0得到:
将上面(7)、(8)、(9)代入式(6)中,便可得到其对偶问题:
其中
上面的向量内积可以通过核函数K解决,即:
通过上述计算过程可以得到,j中心a,半径为R的取值,也即确定了SVDD模型。分别利用上述计算过程可训练得到各个SVDD模型的中心a1、a2、a3和半径R1、R2、R3,分别对应能量特征模型、局部特征模型和全局频域特征模型,训练过程完成。
在训练的过程中,我们一方面通过控制超球的大小和范围使超球面包含住尽可能多的样本点,另一方面我们又要求它的半径达到最小,使其达到最优化的分类效果。
具体地,以咳嗽声音信号为例,能量特征模型、局部特征模型和全局频域特征模型,每一模型对应一个超球面,并在包含所有特定声音信号前提下,优化超球面边界,使得它的半径达到最小,最终得到最符合要求的基于支持向量数据描述算法的咳嗽信号特征模型,从而使得利用该基于支持向量数据描述算法的咳嗽信号特征模型对提取到的声音信号的信号特征进行识别时准确率高。
如图6所示,所述特定声音识别方法包括:
步骤201:采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
在实际应用中,可以在所述特定声音识别设备20上设置声音输入单元(例如麦克风)来采集声音信号,对声音信号进行放大、滤波等处理后转换成数字信号。该数字信号可以在特定声音识别设备20本地的运算处理单元中进行采样及其他计算处理,也可以通过网络上传到云端服务器、智能终端或者其他服务器中进行处理。
其中,获取声音信号的梅尔频率倒谱系数特征参数矩阵的技术细节请参照步骤101,在此不再赘述。
步骤202:从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
具体的,在识别咳嗽声音的场合,从特征参数矩阵中提取能量特征、局部特征、全局频域特征。其他的特定声音可以根据声音信号的时域与频域特性,从特征参数矩阵中选择信号特征。其中,所述声音信号的能量特征、局部特征和全局频域特征的具体计算方法请参照步骤102,在此不再赘述。
步骤203:确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型;
具体的,在识别咳嗽声音的场合,分别判断步骤202中获取的能量特征、局部特征和全局频域特征是否符合咳嗽声特征模型中的能量特征模型、局部特征模型和全局频域特征模型,即能量特征是否符合能量特征模型、局部特征是否符合局部特征模型以及全局频域特征是否符合全局频域特征模型。由步骤103的论述可知,能量特征模型、局部特征模型和全局频域特征模型分别是中心为a1、a2、a3,半径为R1、R2、R3的超球面模型。在判断能量特征、局部特征和全局频域特征是否符合特征模型时,可以分别计算能量特征、局部特征和全局频域特征到中心a1、a2、a3的距离D1、D2、D3,只有当三个特征全部在SVDD模型边界内(即D1<R1,D2<R2,D3<R3)时,才能判定该声音信号为咳嗽声音。
步骤204:如果匹配,则确认所述声音信号为所述特定声音。
本申请实施例提供的特定声音识别方法,采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别,能适用于各种不同的特定声音,算法复杂度低,且计算量少、对硬件要求低,降低了产品制造成本。
相应的,本申请实施例还提供了一种特定声音识别装置,用于识别设备20,所述装置包括:
采样及特征参数获取模块301,用于采样声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
信号特征提取模块302,用于从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
特征匹配模块303,用于确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特征模型;
确认模块304,用于如果所述信号特征匹配预先获取的基于支持向量数据描述算法的特定声音特征模型,则确认所述声音信号为特定声音。
本申请实施例提供的特定声音识别装置,采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别,能适用于各种不同的特定声音,算法复杂度低,且计算量少、对硬件要求低,降低了产品制造成本。
可选的,在所述装置的其他实施例中,所述装置还包括:
特征模型预设模块,用于预先获取所述基于支持向量数据描述算法的特定声音特征模型;
所述特征模型预设模块,具体用于:
采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述特定声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取基于支持向量数据描述算法的特定声音特征模型。
其中,可选的,在所述装置的某些实施例中,所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种;
可选的,所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。
其中,可选的,在所述装置的某些实施例中,所述基于支持向量数据描述算法的信号特定声音特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型,基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子信号特征模型;
若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型,包括:
分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子信号特征模型。
需要说明的是,上述装置可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本申请实施例还提供了一种特定声音识别设备,如图8所示,所述特定声音识别设备20包括声音输入单元21、信号处理单元22和运算处理单元23。其中:声音输入单元21,用于接收声音信号,所述声音输入单元可以例如是麦克风等。信号处理单元22,用于对所述声音信号进行信号处理;所述信号处理单元22可以对所述声音信号进行放大、滤波、数模转换等模拟信号处理,将获得的数字信号发送给运算处理单元23。
所述信号处理单元22与特定声音识别设备内置或者外置的运算处理单元23相连(图8以运算处理单元内置在特定声音识别设备中为例说明),运算处理单元23可以内置在特定声音识别设备20上,也可以外置在特定声音识别设备20外部,所述运算处理单元23还可以是远程设置的服务器,例如可以是通过网络与特定声音识别设备20通信连接的云端服务器、智能终端或者其他服务器。
所述运算处理单元23包括:
至少一个处理器232(图8中以一个处理器举例说明)和存储器231,处理器232和存储器231可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器231用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的特定声音识别方法对应的程序指令/模块(例如,附图7所示的采样及特征参数获取模块301)。处理器232通过运行存储在存储器231中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述方法实施例的特定声音识别方法。
存储器231可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据特定声音识别装置使用所创建的数据等。此外,存储器231可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器231可选包括相对于处理器232远程设置的存储器,这些远程存储器可以通过网络连接至特定声音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器231中,当被所述一个或者多个处理器232执行时,执行上述任意方法实施例中的特定声音识别方法,例如,执行以上描述的图5中的方法步骤101-103,图6中的方法步骤201至步骤204;实现图7中的模块301-304的功能。
本申请实施例提供的特定声音识别设备20可以用于识别不同的特定声音,例如哭声、鼾声、咳嗽声、呼吸声、笑声、鞭炮声等。在实际使用中,在识别不同的特定声音之前,需要对特定声音识别设备20的工作模式进行切换。例如,在识别咳嗽声音时,在特征提取步骤其提取的是待测声音的能量特征、局部特征和全局频域特征,在模型训练步骤,其训练生成能量特征模型、局部特征模型和全局频域特征模型,而在模式匹配步骤,其对应的匹配能量特征与能量特征模型,局部特征与局部特征模型,全局频域特征与全局频域特征模型。而对于其他声音,也可以根据其他声音的时域和频域特性提取能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子特征,并相应的建立各个子特征模型,然后在模式匹配步骤将各个子特征匹配对应的子特征模型。
本申请实施例提供的特定声音识别设备,采用基于MFCC特征参数和SVDD模型的识别算法对特定声音进行识别,能适用于各种不同的特定声音,算法复杂度低,且计算量少、对硬件要求低,降低了产品制造成本。
上述特定声音识别设备可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本申请实施例提供了一种存储介质,所述存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行(例如图8中的一个处理器232),可使得上述一个或多个处理器可执行上述任意方法实施例中的特定声音识别方法,例如,执行以上描述的图5中的方法步骤101-103,图6中的方法步骤201至步骤204;实现图7中的模块301-304的功能。
以上所描述的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施例的描述,本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (13)

1.一种特定声音识别方法,其特征在于,所述方法包括:
采集声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型;
如果匹配,则确认所述声音信号为所述特定声音。
2.根据权利要求1所述的特定声音识别方法,其特征在于,所述方法还包括:
预先获取所述基于支持向量数据描述算法的特定声音特征模型。
3.根据权利要求2所述的特定声音识别方法,其特征在于,所述预先获取所述基于支持向量数据描述算法的特定声音特征模型,包括:
采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述特定声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的特定声音特征模型。
4.根据权利要求1-3任意一项所述的特定声音识别方法,其特征在于,所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。
5.根据权利要求1-3任意一项所述的特定声音识别方法,其特征在于,所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。
6.根据权利要求5所述的特定声音识别方法,其特征在于,所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型,基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型;
若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特征模型,包括:
分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子特征模型。
7.一种特定声音识别设备,其特征在于,所述特定声音识别设备包括:
声音输入单元,用于接收声音信号;
信号处理单元,用于对所述声音信号进行模拟信号处理;
所述信号处理单元与特定声音识别设备内置或者外置的运算处理单元相连,所述运算处理单元包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:
采集声音信号并获取所述声音信号的梅尔频率倒谱系数特征参数矩阵;
从所述声音信号的梅尔频率倒谱系数特征参数矩阵中提取信号特征;
确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型;
如果匹配,则确认所述声音信号为所述特定声音。
8.根据权利要求7所述的特定声音识别设备,其特征在于,所述至少一个处理器还能够执行:
预先获取所述基于支持向量数据描述算法的特定声音特征模型。
9.根据权利要求8所述的特定声音识别设备,其特征在于,所述预先获取所述基于支持向量数据描述算法的特定声音特征模型,包括:
采集预设数量的特定声音样本信号并获取所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵;
从所述特定声音样本信号的梅尔频率倒谱系数特征参数矩阵中提取所述信号特征;
将所述特定声音样本信号的信号特征作为输入,训练支持向量数据描述算法模型,以获取所述基于支持向量数据描述算法的特定声音特征模型。
10.根据权利要求7-9任意一项所述的特定声音识别设备,其特征在于,所述特定声音包括咳嗽声、鼾声、呼吸声、笑声、鞭炮声和哭声中的任意一种。
11.根据权利要求7-9任意一项所述的特定声音识别设备,其特征在于,所述信号特征包括能量特征、局部特征、全局频域特征和过零率特征中的一种或多种子信号特征。
12.根据权利要求11所述的特定声音识别设备,其特征在于,所述基于支持向量数据描述算法的特定声音特征模型包括基于支持向量数据描述算法的能量特征模型,基于支持向量数据描述算法的局部特征模型,基于支持向量数据描述算法的全局频域特征模型和基于支持向量数据描述算法的过零率特征模型中的一种或多种基于支持向量数据描述算法的子特征模型;
若所述基于支持向量数据描述算法的特定声音特征模型包括多种基于支持向量数据描述算法的子特征模型,所述确认所述信号特征是否匹配预先获取的基于支持向量数据描述算法的特定声音特征模型,包括:
分别确认所述信号特征中的各个子信号特征是否均匹配预先获取的所述多种基于支持向量数据描述算法的子特征模型。
13.一种存储介质,其特征在于,所述存储介质存储有可执行指令,所述可执行指令被特定声音识别设备执行时,使所述特定声音识别设备执行权利要求1-6任意一项所述的方法。
CN201780004160.5A 2017-07-31 2017-07-31 特定声音识别方法、设备和存储介质 Active CN108369813B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/095260 WO2019023877A1 (zh) 2017-07-31 2017-07-31 特定声音识别方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN108369813A true CN108369813A (zh) 2018-08-03
CN108369813B CN108369813B (zh) 2022-10-25

Family

ID=63011288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780004160.5A Active CN108369813B (zh) 2017-07-31 2017-07-31 特定声音识别方法、设备和存储介质

Country Status (2)

Country Link
CN (1) CN108369813B (zh)
WO (1) WO2019023877A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107898432A (zh) * 2017-10-17 2018-04-13 深圳和而泰智能控制股份有限公司 鼾声检测方法、装置、设备及介质
CN108986789A (zh) * 2018-09-12 2018-12-11 携程旅游信息技术(上海)有限公司 语音识别方法、装置、存储介质及电子设备
CN109253728A (zh) * 2018-08-31 2019-01-22 平安科技(深圳)有限公司 语音导航方法、装置、计算机设备及存储介质
CN109767784A (zh) * 2019-01-31 2019-05-17 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质和处理器
CN109887484A (zh) * 2019-02-22 2019-06-14 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
WO2020034628A1 (zh) * 2018-08-14 2020-02-20 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及存储介质
CN110874909A (zh) * 2018-08-29 2020-03-10 杭州海康威视数字技术股份有限公司 监控方法、系统及可读存储介质
CN111568400A (zh) * 2020-05-20 2020-08-25 山东大学 一种人体体征信息监测方法及系统
CN111786860A (zh) * 2020-06-29 2020-10-16 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质
CN111785294A (zh) * 2020-06-12 2020-10-16 Oppo广东移动通信有限公司 音频检测方法及装置、终端、存储介质
CN112214635A (zh) * 2020-10-23 2021-01-12 昆明理工大学 一种基于倒频谱分析的快速音频检索方法
CN112634934A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音检测方法及装置
CN112820319A (zh) * 2020-12-30 2021-05-18 麒盛科技股份有限公司 一种人类鼾声识别方法及其装置
CN112908309A (zh) * 2021-02-06 2021-06-04 漳州立达信光电子科技有限公司 语音识别方法、装置、设备及按摩沙发
CN113746583A (zh) * 2021-09-18 2021-12-03 鹰潭市广播电视传媒集团有限责任公司 公共播音设备的远程管理系统、方法、装置和存储介质
CN113976478A (zh) * 2021-11-15 2022-01-28 中国联合网络通信集团有限公司 矿石检测方法、服务器、终端及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816205B (zh) * 2020-07-09 2023-06-20 中国人民解放军战略支援部队航天工程大学 一种基于飞机音频的机型智能识别方法
CN116935278B (zh) * 2023-07-25 2024-02-13 广东技术师范大学 基于同步信号的车型识别方法、装置、电子设备及介质
CN116959442B (zh) * 2023-07-29 2024-03-19 浙江阳宁科技有限公司 用于智能开关面板的芯片及其方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721698B1 (en) * 1999-10-29 2004-04-13 Nokia Mobile Phones, Ltd. Speech recognition from overlapping frequency bands with output data reduction
CN104091602A (zh) * 2014-07-11 2014-10-08 电子科技大学 一种基于模糊支持向量机的语音情感识别方法
CN104688229A (zh) * 2015-01-28 2015-06-10 中国人民解放军理工大学 一种基于鼾声信号的睡眠呼吸监测方法
CN105976831A (zh) * 2016-05-13 2016-09-28 中国人民解放军国防科学技术大学 基于哭声识别的遗漏孩童检测方法
CN106782503A (zh) * 2016-12-29 2017-05-31 天津大学 基于发音过程中生理信息的自动语音识别方法
CN106847262A (zh) * 2016-12-28 2017-06-13 华中农业大学 一种猪呼吸道疾病自动识别报警方法
CN108701469A (zh) * 2017-07-31 2018-10-23 深圳和而泰智能家居科技有限公司 咳嗽声音识别方法、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440868B (zh) * 2013-08-09 2016-05-11 中山大学 一种电子变调音频的鉴定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721698B1 (en) * 1999-10-29 2004-04-13 Nokia Mobile Phones, Ltd. Speech recognition from overlapping frequency bands with output data reduction
CN104091602A (zh) * 2014-07-11 2014-10-08 电子科技大学 一种基于模糊支持向量机的语音情感识别方法
CN104688229A (zh) * 2015-01-28 2015-06-10 中国人民解放军理工大学 一种基于鼾声信号的睡眠呼吸监测方法
CN105976831A (zh) * 2016-05-13 2016-09-28 中国人民解放军国防科学技术大学 基于哭声识别的遗漏孩童检测方法
CN106847262A (zh) * 2016-12-28 2017-06-13 华中农业大学 一种猪呼吸道疾病自动识别报警方法
CN106782503A (zh) * 2016-12-29 2017-05-31 天津大学 基于发音过程中生理信息的自动语音识别方法
CN108701469A (zh) * 2017-07-31 2018-10-23 深圳和而泰智能家居科技有限公司 咳嗽声音识别方法、设备和存储介质

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107898432B (zh) * 2017-10-17 2021-02-26 深圳和而泰智能控制股份有限公司 鼾声检测方法、装置、设备及介质
CN107898432A (zh) * 2017-10-17 2018-04-13 深圳和而泰智能控制股份有限公司 鼾声检测方法、装置、设备及介质
WO2020034628A1 (zh) * 2018-08-14 2020-02-20 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及存储介质
CN110874909A (zh) * 2018-08-29 2020-03-10 杭州海康威视数字技术股份有限公司 监控方法、系统及可读存储介质
CN109253728A (zh) * 2018-08-31 2019-01-22 平安科技(深圳)有限公司 语音导航方法、装置、计算机设备及存储介质
CN108986789A (zh) * 2018-09-12 2018-12-11 携程旅游信息技术(上海)有限公司 语音识别方法、装置、存储介质及电子设备
CN109767784B (zh) * 2019-01-31 2020-02-07 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质和处理器
CN109767784A (zh) * 2019-01-31 2019-05-17 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质和处理器
CN109887484B (zh) * 2019-02-22 2023-08-04 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN109887484A (zh) * 2019-02-22 2019-06-14 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN111568400A (zh) * 2020-05-20 2020-08-25 山东大学 一种人体体征信息监测方法及系统
CN111568400B (zh) * 2020-05-20 2024-02-09 山东大学 一种人体体征信息监测方法及系统
CN111785294A (zh) * 2020-06-12 2020-10-16 Oppo广东移动通信有限公司 音频检测方法及装置、终端、存储介质
CN111785294B (zh) * 2020-06-12 2024-04-02 Oppo广东移动通信有限公司 音频检测方法及装置、终端、存储介质
CN111786860A (zh) * 2020-06-29 2020-10-16 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质
CN112214635A (zh) * 2020-10-23 2021-01-12 昆明理工大学 一种基于倒频谱分析的快速音频检索方法
CN112634934A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音检测方法及装置
CN112820319A (zh) * 2020-12-30 2021-05-18 麒盛科技股份有限公司 一种人类鼾声识别方法及其装置
CN112908309A (zh) * 2021-02-06 2021-06-04 漳州立达信光电子科技有限公司 语音识别方法、装置、设备及按摩沙发
CN113746583A (zh) * 2021-09-18 2021-12-03 鹰潭市广播电视传媒集团有限责任公司 公共播音设备的远程管理系统、方法、装置和存储介质
CN113976478A (zh) * 2021-11-15 2022-01-28 中国联合网络通信集团有限公司 矿石检测方法、服务器、终端及系统

Also Published As

Publication number Publication date
CN108369813B (zh) 2022-10-25
WO2019023877A1 (zh) 2019-02-07

Similar Documents

Publication Publication Date Title
CN108369813A (zh) 特定声音识别方法、设备和存储介质
CN109074822B (zh) 特定声音识别方法、设备和存储介质
CN106486131B (zh) 一种语音去噪的方法及装置
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN107610708B (zh) 识别声纹的方法及设备
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN108701469B (zh) 咳嗽声音识别方法、设备和存储介质
CN108281146A (zh) 一种短语音说话人识别方法和装置
CN101023469B (zh) 数字滤波方法和装置
CN110459241B (zh) 一种用于语音特征的提取方法和系统
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Chakroborty et al. Feature selection using singular value decomposition and QR factorization with column pivoting for text-independent speaker identification
Singh et al. Vector quantization approach for speaker recognition using MFCC and inverted MFCC
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN106548786B (zh) 一种音频数据的检测方法及系统
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN110232933A (zh) 音频检测方法、装置、存储介质及电子设备
CN110400571A (zh) 音频处理方法、装置、存储介质及电子设备
CN110211599A (zh) 应用唤醒方法、装置、存储介质及电子设备
Zhao et al. Multi-stream spectro-temporal features for robust speech recognition.
Sahidullah et al. Robust speaker recognition with combined use of acoustic and throat microphone speech
Singh et al. Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition
Kothapally et al. Speech Detection and Enhancement Using Single Microphone for Distant Speech Applications in Reverberant Environments.
Saksamudre et al. Isolated word recognition system for Hindi Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221027

Address after: 1010-1011, 10 / F, block D, Shenzhen Aerospace Science and Technology Innovation Research Institute building, no.6, Keji south 10 road, high tech South Zone, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: SHENZHEN H&T INTELLIGENT CONTROL Co.,Ltd.

Address before: 1002, 10 / F, block D, Shenzhen Aerospace Science and Technology Innovation Research Institute building, no.6, Keji south 10 road, high tech South Zone, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: SHENZHEN H&T SMART HOME TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right