CN114613391B - 一种基于半带滤波器的鼾声识别方法及装置 - Google Patents

一种基于半带滤波器的鼾声识别方法及装置 Download PDF

Info

Publication number
CN114613391B
CN114613391B CN202210150806.3A CN202210150806A CN114613391B CN 114613391 B CN114613391 B CN 114613391B CN 202210150806 A CN202210150806 A CN 202210150806A CN 114613391 B CN114613391 B CN 114613391B
Authority
CN
China
Prior art keywords
snore
band
voice
class
gaussian mixture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210150806.3A
Other languages
English (en)
Other versions
CN114613391A (zh
Inventor
秦德智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ouzhi Intelligent Technology Co ltd
Original Assignee
Guangzhou Ouzhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ouzhi Intelligent Technology Co ltd filed Critical Guangzhou Ouzhi Intelligent Technology Co ltd
Priority to CN202210150806.3A priority Critical patent/CN114613391B/zh
Publication of CN114613391A publication Critical patent/CN114613391A/zh
Application granted granted Critical
Publication of CN114613391B publication Critical patent/CN114613391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于半带滤波器的鼾声识别方法及装置,所述方法包括:对高通滤波后的每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征;根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段;根据每个语音段的语音特征和多个单类别高斯混合模型,标记出鼾声段和鼾声类别;选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识别结果。采用本发明提供的半带滤波器的鼾声识别方法及装置实施例,采用IIR半带滤波器对声音数据流进行分频带滤波提取特征,在嵌入式终端上实现对鼾声信号的快速识别。

Description

一种基于半带滤波器的鼾声识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于半带滤波器的鼾声识别方法及装置。
背景技术
目前通过麦克风拾取声音然后提取鼾声特征的方法目前有:1、提取鼾声的梅尔倒谱系数(MFCC)作为特征,送识别器进行识别。提取过程包括:预加重、加窗、快速傅立叶变换、功率谱估计、Mel滤波、非线性变换和离散余弦变换;2、采用子带余弦调制滤波器组(CMFB)提取鼾声的子带特征。但是以上两种方法在进行鼾声提取时,需要耗费大量的运算资源,因此并不适用于不适合应用于运算能力不强、内存不多的嵌入式终端上。
发明内容
本发明实施例提供一种基于半带滤波器的鼾声识别方法及装置,采用IIR半带滤波器对声音数据流进行分频带滤波提取特征,在运算能力不强、内存不多的嵌入式终端上实现对鼾声信号的快速识别。
为实现上述目的,本申请实施例的第一方面提供了一种基于半带滤波器的鼾声识别方法,所述方法包括:
使待识别数字声音信号进入预设的高通滤波器进行高通滤波;
使进行高通滤波后的待识别数字声音信号进入预设的半带滤波器进行半带滤波,得到多个频带对应的半带滤波信号;每个频带的宽度大小相同,频带的数量由所述半带滤波器的结构决定;
对每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征;
根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段;
根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别;每个单类别高斯混合模型由多个子高斯模型组成,且每个单类别高斯模型对应一种鼾声类别;
选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识结果。
在第一方面的一种可能的实现方式中,所述根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别,具体包括:
根据每个鼾声种类建立一个对应的单类别高斯混合模型;
将每个语音段的语音特征遍历每个单类别高斯混合模型,计算每个单类别高斯混合模型的概率密度;
若单类别高斯混合模型的概率密度大于预设概率阈值,标记语音段为鼾声段,所述鼾声段的类别与单类别高斯混合模型对应的鼾声类别相同。
在第一方面的一种可能的实现方式中,所述每个语音段的语音特征,具体包括每个语音段的时长、总能量、各频带能量、归一化能量、频带内峰值点的个数和周期。
在第一方面的一种可能的实现方式中,所述每个分帧信号的能量特征包括每个分帧信号的总能量、各频带能量、归一化能量。
在第一方面的一种可能的实现方式中,所述对每个频带对应的半带滤波信号进行分帧处理并计算的过程中,相邻帧之间不存在帧移。
在第一方面的一种可能的实现方式中,所述使待识别数字声音信号进入预设的高通滤波器进行高通滤波之前,还包括:
用AD转换器将待识别模拟声音信号转换为待识别数字声音信号。
本申请实施例的第二方面提供了一种基于半带滤波器的鼾声识别装置,包括:
高通滤波模块,用于使待识别数字声音信号进入预设的高通滤波器进行高通滤波;
半带滤波模块,用于使进行高通滤波后的待识别数字声音信号进入预设的半带滤波器进行半带滤波,得到多个频带对应的半带滤波信号;每个频带的宽度大小相同,频带的数量由所述半带滤波器的结构决定;
分帧计算模块,用于对每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征;
语音识别模块,用于根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段;
鼾声识别模块,用于根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别;每个单类别高斯混合模型由多个子高斯模型组成,且每个单类别高斯模型对应一种鼾声类别;
鼾声筛选模块,用于选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识结果。
相比于现有技术,本发明实施例提供的基于半带滤波器的鼾声识别方法及装置,先对数字音频信号进行高通滤波,滤除低频干扰。然后通过半带滤波器滤波得到多个频带的信号,对各频带信号进行分帧处理后并提取信号特征,在采用单高斯模型识别出分帧信号中人的语音帧。进一步对连续语音帧构成的语音段提取特征,并通过比较前后鼾声段的类别和间隔得到识别结果。在整个识别过程中,通过分子带进行提取特征分帧识别处理,减少特征数量以降低计算量;通过分帧识别处理,避免不必存在帧移减少运算量;鼾声类型识别过程中运用多个单类别高斯混合模型进行概率匹配,从而准确地识别出鼾声类型,保证识别的稳定性。
综上,本发明实施例采用半带滤波器滤波,鼾声识别过程中计算量小、速度快、所需内存少,且识别率高。
附图说明
图1是本发明一实施例提供的一种基于半带滤波器的鼾声识别方法的流程示意图;
图2是本发明一实施例提供的一种半带滤波器结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一实施例提供了一种基于半带滤波器的鼾声识别方法,所述方法包括:
S10、使待识别数字声音信号进入预设的高通滤波器进行高通滤波。
S11、使进行高通滤波后的待识别数字声音信号进入预设的半带滤波器进行半带滤波,得到多个频带对应的半带滤波信号;每个频带的宽度大小相同,频带的数量由所述半带滤波器的结构决定。
S12、对每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征。
S13、根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段。
S14、根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别;每个单类别高斯混合模型由多个子高斯模型组成,且每个单类别高斯模型对应一种鼾声类别。
S15、选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识结果。
S11中将数字声音信号送入高通滤波器滤波,滤除低频干扰。高通滤波器的截止频率取值范围是60~80HZ。根据实验结果,80HZ以下包含的鼾声特征比较少。因此,在实际应用中,高通滤波器的截止频率一般选择为80Hz。
A/D转换器采样得到的数字音频信号里往往含有直流信号和工频干扰信号,为了更准确地提取鼾声特征,需要将这些干扰信号滤除。本发明实施例采用一阶IIR高通滤波器实现这一目的,其传递函数如下:
Figure BDA0003510405740000051
对高通滤波后的数字声音信号送入IIR半带滤波器,进行滤波,得到滤波后多组不同频带的数字声音信号,然后进行分帧处理。在实际应用中,由于鼾声的最重要特征处于80~4KHZ频带内,把80~4KHZ分为8个频带(每个频带的带宽为500Hz),可以很好地提取到鼾声的特征。由于每个频带分别包含了不同的特征,分频带计算可以有效地减少特征数量以降低计算量。
IIR半带滤波器的传递函数为:
低通部分:
Figure BDA0003510405740000061
高通部分:
Figure BDA0003510405740000062
其中A0(Z)和A1(Z)是两个不同的IIR全通滤波器的传递函数:
Figure BDA0003510405740000063
Figure BDA0003510405740000064
其中c1、c2是设计半带滤波器时根据设计要求,如归一化通带边缘频率、归一化阻带边缘频率、最大通带幅度纹波和最大阻带幅度纹波等,得到的两个常数。
相比于现有技术,本发明实施例提供的基于半带滤波器的鼾声识别方法及装置,先对数字音频信号进行高通滤波,滤除低频干扰。然后通过半带滤波器滤波得到多个频带的信号,对各频带信号进行分帧处理后并提取信号特征,在采用单高斯模型识别出分帧信号中人的语音帧。进一步对连续语音帧构成的语音段提取特征,并通过比较前后鼾声段的类别和间隔得到识别结果。在整个识别过程中,通过分子带进行提取特征分帧识别处理,减少特征数量以降低计算量;通过分帧识别处理,避免不必存在帧移减少运算量;鼾声类型识别过程中运用多个单类别高斯混合模型进行概率匹配,从而准确地识别出鼾声类型,保证识别的稳定性。
综上,本发明实施例采用半带滤波器滤波,鼾声识别过程中计算量小、速度快、所需内存少,且识别率高。
本发明实施例采用的半带滤波器滤波结构(划分为8个子频带过滤分析)如图2所示,当有n个音频数据通过级联的半带滤波器滤波时,只需要6n+14次乘法和9n+14次加法就可以得到滤波后8个子频带的音频数据。
示例性地,所述每个分帧信号的能量特征包括每个分帧信号的总能量、各频带能量、归一化能量。
示例性地,所述对每个频带对应的半带滤波信号进行分帧处理并计算的过程中,相邻帧之间不存在帧移。
将滤波后的数据进行分帧处理,一般而言,每帧时长可选择划分为20~40ms,优选地,选择30ms时长。分帧处理的目的在于识别该帧音频是否是人发出的声音,为鼾声识别作准备,因此相邻帧之间不必存在帧移,这样可以减少运算量。(在分帧的过程中,经常在相邻两帧数据间有一部分重叠数据,称为“帧移”)。
然后对各组滤波后的分帧数字信号进行计算,提取出总能量、各频带能量、归一化能量等语音能量特征。得到语音能量特征后,利用概率统计理论对人的语音概率分布进行高斯建模,其概率密度统计函数为:
Figure BDA0003510405740000071
其中x为多维的特征样本数据,μ为数据均值(期望),∑为协方差,D为音频特征维度,也就是总能量、各频带能量、归一化能量等特征的数量。
建立单高斯模型后,再根据多维的音频特征,计算出该语音帧属于人发出的声音的概率,如果概率大于阈值(0.95),则标记该帧为语音帧。
直到识别到某帧不是语音帧为止,则将之前连续的语音帧标记为语音段。
对语音段进行计算,提取出该语音段的时长、总能量、各频带能量、归一化能量、频带内峰值点的个数和周期等特征。利用高斯混合模型来判别这些特征是否符合某一类鼾声特征,如符合则标记该语音段为鼾声段并记录下鼾声类别;如果连续两个鼾声段之间的间隔时间处于某个区间内,且类别相同,则可以确定这两个鼾声段是真正的鼾声。
示例性地,所述根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别,具体包括:
根据每个鼾声种类建立一个对应的单类别高斯混合模型。
将每个语音段的语音特征遍历每个单类别高斯混合模型,计算每个单类别高斯混合模型的概率密度。
若单类别高斯混合模型的概率密度大于预设概率阈值,标记语音段为鼾声段,所述鼾声段的类别与单类别高斯混合模型对应的鼾声类别相同。
这里建立了单类别高斯混合模型,其概率密度统计函数为:
Figure BDA0003510405740000081
其中,K为混合模型中子高斯模型的数量;αk是特征样本数据属于第k个子高斯模型的概率,αk≥0,
Figure BDA0003510405740000082
φ(x|θk)是第k个子模型的高斯分布密度函数,具体如下式:
Figure BDA0003510405740000091
其中x为多维的特征样本数据,μ为数据均值(期望),∑为协方差,D为音频特征维度,也就是语音段的时长、总能量、各频带能量、归一化能量、频带内峰值点的个数和周期等特征的数量。
以一种应用场景的为例:建立概率的统计模型后,根据鼾声信号的的时长、总能量、各频带能量、归一化能量、频带内峰值点的个数和周期等特征对鼾声进行分类,如男人轻中度打鼾者、女人轻中度打鼾者、男人重度打鼾者、女人重度打鼾者等,分为5~10种鼾声类型。举一个例子,大部分男人轻中度打鼾者其鼾声能量主要集中在80~500HZ频带内,而大部分女人轻中度打鼾者其鼾声能量主要集中在1000~1500HZ频带内。每一种分类用5~8个子高斯模型组成混合高斯模型。当语音段特征通过计算遍历每一种分类的混合高斯模型概率密度,找出其中概率最大的鼾声分类,检测是否达到预设的阈值,例如可以设置概率阈值为0.90,当概率最大的鼾声分类对应的概率大于该阈值0.90时,即标记该语音段为鼾声段。如果连续两个鼾声段之间的间隔时间处于某个区间内,且类别相同,则可以确定这两个鼾声段是真正的鼾声。
示例性地,所述使待识别数字声音信号进入预设的高通滤波器进行高通滤波之前,还包括:
用AD转换器将待识别模拟声音信号转换为待识别数字声音信号。
声音信号是一种连续的模拟信号,在实际应用中需要用A/D转换器按照一定的采样频率将之转换为数字信号。由于鼾声的最重要特征处于80~4KHZ频带内,根据奈奎斯特采样定理,A/D转换器的采样频率优选地采用8KHZ,鼾声中4KHZ及以下的信息被完整地保留下来,同时减少了数据量从而减少了计算量。A/D转换器的量化位数在8bit~16bit范围内,量化位数越高声音质量越好,计算量也越大,同时器件的成本也越高。优选地:兼顾声音质量和计算量,量化位数选择为12bit。
本发明实施例实现了用A/D转换器将模拟音频信号转换为数字音频信号,并对其进行高通滤波,然后通过半带滤波器滤波得到8个频带的信号,对各频带信号进行分帧处理后提取特征用单高斯模型识别是否是人发出的声音,进一步对连续语音帧构成的语音段提取特征,并通过比较前后鼾声段的类别和间隔得到识别结果。本发明采用半带滤波器滤波,计算量小、速度快、所需内存少、识别率高。
本申请实施例的第二方面提供了一种基于半带滤波器的鼾声识别装置,包括:高通滤波模块、半带滤波模块、分帧计算模块、语音识别模块、鼾声识别模块和鼾声筛选模块。
高通滤波模块,用于使待识别数字声音信号进入预设的高通滤波器进行高通滤波。
半带滤波模块,用于使进行高通滤波后的待识别数字声音信号进入预设的半带滤波器进行半带滤波,得到多个频带对应的半带滤波信号;每个频带的宽度大小相同,频带的数量由所述半带滤波器的结构决定。
分帧计算模块,用于对每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征。
语音识别模块,用于根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段。
鼾声识别模块,用于根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别;每个单类别高斯混合模型由多个子高斯模型组成,且每个单类别高斯模型对应一种鼾声类别。
鼾声筛选模块,用于选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识结果。
相比于现有技术,本发明实施例提供的基于半带滤波器的鼾声识别装置,先对数字音频信号进行高通滤波,滤除低频干扰。然后通过半带滤波器滤波得到多个频带的信号,对各频带信号进行分帧处理后并提取信号特征,在采用单高斯模型识别出分帧信号中人的语音帧。进一步对连续语音帧构成的语音段提取特征,并通过比较前后鼾声段的类别和间隔得到识别结果。在整个识别过程中,通过分子带进行提取特征分帧识别处理,减少特征数量以降低计算量;通过分帧识别处理,避免不必存在帧移减少运算量;鼾声类型识别过程中运用多个单类别高斯混合模型进行概率匹配,从而准确地识别出鼾声类型,保证识别的稳定性。
综上,本发明实施例采用半带滤波器滤波,鼾声识别过程中计算量小、速度快、所需内存少,且识别率高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赞述。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,上述终端设备仅仅是示例,并不构成对终端设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种基于半带滤波器的鼾声识别方法,其特征在于,包括:
使待识别数字声音信号进入预设的高通滤波器进行高通滤波;
使进行高通滤波后的待识别数字声音信号进入预设的半带滤波器进行半带滤波,得到多个频带对应的半带滤波信号;每个频带的宽度大小相同,频带的数量由所述半带滤波器的结构决定;
对每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征;
根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段;
根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别;每个单类别高斯混合模型由多个子高斯模型组成,且每个单类别高斯混合模型对应一种鼾声类别;
选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识别结果。
2.如权利要求1所述的基于半带滤波器的鼾声识别方法,其特征在于,所述根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别,具体包括:
根据每个鼾声种类建立一个对应的单类别高斯混合模型;
将每个语音段的语音特征遍历每个单类别高斯混合模型,计算每个单类别高斯混合模型的概率密度;
若单类别高斯混合模型的概率密度大于预设概率阈值,标记语音段为鼾声段,所述鼾声段的类别与单类别高斯混合模型对应的鼾声类别相同。
3.如权利要求1或2所述的基于半带滤波器的鼾声识别方法,其特征在于,所述每个语音段的语音特征,具体包括每个语音段的时长、总能量、各频带能量、归一化能量、频带内峰值点的个数和周期。
4.如权利要求1所述的基于半带滤波器的鼾声识别方法,其特征在于,每个分帧信号的能量特征包括每个分帧信号的总能量、各频带能量、归一化能量。
5.如权利要求1所述的基于半带滤波器的鼾声识别方法,其特征在于,所述对每个频带对应的半带滤波信号进行分帧处理并计算的过程中,相邻帧之间不存在帧移。
6.如权利要求1所述的基于半带滤波器的鼾声识别方法,其特征在于,所述使待识别数字声音信号进入预设的高通滤波器进行高通滤波之前,还包括:
用AD转换器将待识别模拟声音信号转换为待识别数字声音信号。
7.一种基于半带滤波器的鼾声识别装置,其特征在于,包括:
高通滤波模块,用于使待识别数字声音信号进入预设的高通滤波器进行高通滤波;
半带滤波模块,用于使进行高通滤波后的待识别数字声音信号进入预设的半带滤波器进行半带滤波,得到多个频带对应的半带滤波信号;每个频带的宽度大小相同,频带的数量由所述半带滤波器的结构决定;
分帧计算模块,用于对每个频带对应的半带滤波信号进行分帧处理并计算,得到每个频带对应的分帧信号和每个分帧信号的能量特征;
语音识别模块,用于根据单高斯模型和每个分帧信号的能量特征,标记出每个分帧信号包含的语音帧,并将连续的语音帧标记为语音段;
鼾声识别模块,用于根据每个语音段的语音特征,分别与多个单类别高斯混合模型进行概率匹配,若匹配概率值大于预设概率阈值,标记语音段为鼾声段,鼾声类别为单类别高斯混合模型对应的鼾声类别;每个单类别高斯混合模型由多个子高斯模型组成,且每个单类别高斯混合模型对应一种鼾声类别;
鼾声筛选模块,用于选出间隔时间小于预设间隔阈值的两个鼾声段作为鼾声段组合,全部的鼾声段组合构成鼾声识别结果。
CN202210150806.3A 2022-02-18 2022-02-18 一种基于半带滤波器的鼾声识别方法及装置 Active CN114613391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210150806.3A CN114613391B (zh) 2022-02-18 2022-02-18 一种基于半带滤波器的鼾声识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210150806.3A CN114613391B (zh) 2022-02-18 2022-02-18 一种基于半带滤波器的鼾声识别方法及装置

Publications (2)

Publication Number Publication Date
CN114613391A CN114613391A (zh) 2022-06-10
CN114613391B true CN114613391B (zh) 2022-11-25

Family

ID=81859426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210150806.3A Active CN114613391B (zh) 2022-02-18 2022-02-18 一种基于半带滤波器的鼾声识别方法及装置

Country Status (1)

Country Link
CN (1) CN114613391B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229983A (zh) * 2022-09-15 2023-06-06 深圳市倍轻松科技股份有限公司 一种确定鼾声信号的方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102272826A (zh) * 2008-10-30 2011-12-07 爱立信电话股份有限公司 电话内容信号鉴别
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN111833908A (zh) * 2020-06-16 2020-10-27 普联技术有限公司 音频活性检测方法、系统、设备及存储介质
CN111920390A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于嵌入式终端的鼾声检测方法
CN112151071A (zh) * 2020-09-23 2020-12-29 哈尔滨工程大学 一种基于混合小波包特征深度学习的语音情感识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180315416A1 (en) * 2015-10-22 2018-11-01 Knowles Electronics, Llc Microphone with programmable phone onset detection engine
US20170154620A1 (en) * 2015-12-01 2017-06-01 Knowles Electronics, Llc Microphone assembly comprising a phoneme recognizer
TWI708243B (zh) * 2018-03-19 2020-10-21 中央研究院 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102272826A (zh) * 2008-10-30 2011-12-07 爱立信电话股份有限公司 电话内容信号鉴别
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN111833908A (zh) * 2020-06-16 2020-10-27 普联技术有限公司 音频活性检测方法、系统、设备及存储介质
CN111920390A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于嵌入式终端的鼾声检测方法
CN112151071A (zh) * 2020-09-23 2020-12-29 哈尔滨工程大学 一种基于混合小波包特征深度学习的语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于ARM的皮肤听声系统的设计;李建文等;《计算机工程与设计》;20110116(第01期);全文 *

Also Published As

Publication number Publication date
CN114613391A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
TW546630B (en) Optimized local feature extraction for automatic speech recognition
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN102097095A (zh) 一种语音端点检测方法及装置
CN110600038B (zh) 一种基于离散基尼系数的音频指纹降维方法
CN114613391B (zh) 一种基于半带滤波器的鼾声识别方法及装置
Jangjit et al. A new wavelet denoising method for noise threshold
CN115083423A (zh) 语音鉴别的数据处理方法和装置
CN108172214A (zh) 一种基于Mel域的小波语音识别特征参数提取方法
WO2019037426A1 (zh) Mfcc语音识别方法、存储介质、电子设备及系统
CN112863517B (zh) 基于感知谱收敛率的语音识别方法
CN109102818A (zh) 一种基于信号频率概率密度函数分布的去噪音频采样算法
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
CN109586763B (zh) 一种电子通信系统中扩频信号的去噪方法及其去噪系统
CN110070887B (zh) 一种语音特征重建方法及装置
CN111341331A (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN116665681A (zh) 一种基于组合滤波的雷声识别方法
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
CN112331225B (zh) 一种高噪声环境下辅助听力的方法及装置
CN112837704A (zh) 一种基于端点检测的语音背景噪声识别方法
CN111292748A (zh) 一种可适应多种频率的语音录入系统
CN110933235A (zh) 一种基于机器学习的智能呼叫系统中的噪声去除方法
CN116343812B (zh) 一种语音处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant