CN111916060A - 一种基于谱减的深度学习语音端点检测方法和系统 - Google Patents

一种基于谱减的深度学习语音端点检测方法和系统 Download PDF

Info

Publication number
CN111916060A
CN111916060A CN202010806899.1A CN202010806899A CN111916060A CN 111916060 A CN111916060 A CN 111916060A CN 202010806899 A CN202010806899 A CN 202010806899A CN 111916060 A CN111916060 A CN 111916060A
Authority
CN
China
Prior art keywords
voice
noise
speech
network
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010806899.1A
Other languages
English (en)
Other versions
CN111916060B (zh
Inventor
刘杨
伍强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202010806899.1A priority Critical patent/CN111916060B/zh
Publication of CN111916060A publication Critical patent/CN111916060A/zh
Application granted granted Critical
Publication of CN111916060B publication Critical patent/CN111916060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种基于谱减的深度学习语音端点检测方法和系统,包括如下步骤:生成含噪语音训练数据集,构建训练语音帧信息特征数据集;搭建基于谱减的语音估计,噪声估计和语音状态检测三分支深度学习网络;计算对应原始语音信号信息特征,基于三分支深度学习网络,以信息特征计算前向运算得到语音检测状态概率值;根据语音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点。本方法利用Bark域特征模拟人耳的听觉效应,通过深度学习优化特征提取,并引进谱减思想构建三分支深度学习网络,综合兼顾噪声情况,同时实现语音增强和语音端点检测,提高含噪语音的端点检测准确率,进一步提高后续语音处理系统效率,能够做到实时检测。

Description

一种基于谱减的深度学习语音端点检测方法和系统
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于谱减的深度学习语音端点检测方法和系统。
背景技术
近十年来,随着人工智能的兴起发展,语音信号处理领域大量引进了深度学习方法,特别是在语音识别,说话人识别,语音合成,语音增强等方面都已经实现了产品落地。但是大多技术都还受限于硬件设备,效率达不到实时处理,无法满足人机智能互动需求。
语音端点检测技术是一种确定语音起始点和结束点,可以有效地消除噪声和静音,从而提取有效语音信号,提高后续语音处理系统效率,是一种必不可少的前端预处理技术。
在语音处理系统中,由于噪声干扰,语音端点检测往往不准确。目前大量的研究都是基于特征设计来优化检测,该方法效率低,受限于单一噪声环境。如何在低信噪比和高复杂的噪声环境进行语音端点检测依然是一个问题。
此外,现有技术CN201910917881.6一种基于深度学习的语音端点检测方法及系统,其采用原始信号作为输入,利于网络分别提取声学特征,时域特征和频域特征,对应的结果再拼接组合,由于输入是原始语音,一般25ms,大约400维,维数很高,在运算的过程中运算效率低,不能做到实时检测。
发明内容
本发明提供了一种基于谱减的深度学习语音端点检测方法和系统,以解决现有技术中由于噪声干扰,语音端点检测往往不准确,以及不能实时检测的问题。
本发明采用的技术方案是:一种基于谱减的深度学习语音端点检测方法,包括如下步骤:
步骤一:随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音;并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集;
步骤二:搭建基于谱减的语音估计,噪声估计和语音状态检测三分支深度学习网络,并训练所述三分支深度学习网络,以实现语音端点检测概率估计;
步骤三:输入原始语音信号,计算对应信息特征,基于三分支深度学习网络,以信息特征计算前向运算得到语音检测状态概率值;
步骤四:根据语音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
优选地,步骤一中,所述生成含噪语音训练数据集的方法为:先分别计算干净语音和噪声的信噪比大小,然后随机生成一个信噪比值,然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声。
优选地,步骤一中,语音特征提取的方法为:将生成含噪语音进行Bark域频带变换,根据频带范围不同划分18个子带,然后对应子带能量取对数获得倒谱信息,再计算离散余弦变换,最后得到18维BFCC特征,基于BFCC特征,分别进行一次和两次差分计算,分别取前6个,组成12维一二阶BFCC动态分量特征,计算信号的自相关结果,然后取其第二个极值点作为1维基音周期特征,并全部拼接组合成31维语音信息特征。
优选地,步骤二中,训练三分支深度学习网络的方法包括:以训练语音帧信息特征数据集中的含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,从而训练三分支深度学习网络,所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。
优选地,所述噪声估计网络包括一层门限循环GRU单元结构,损失函数为均方误差;所述语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构,损失函数为均方误差;所述语音状态检测网络包括二层全连接DENSE单元结构和一层门限循环GRU单元结构,损失函数为交叉熵。
优选地,实现语音端点检测概率估计的方法包括:三分支深度学习网络结构中包含拼接噪声估计网络输出结果和原始特征,再输入语音估计网络实现谱减思想的语音增强,最后再拼接语音估计网络输出结果和全连接层预处理后的原始特征输出结果。
优选地,步骤四中,判断是语音或非语音的方法包括:滑动窗口,以5帧为窗,利用窗内结果判断,连续5帧都是语音则该段是语音窗,连续3帧是语音则是过渡窗,否则是非语音窗,取第一个语音窗的第一帧作为语音的开始点,取最后一个语音窗或过渡窗的最后一帧作为语音的结束点。
一种基于谱减的深度学习语音端点检测系统,包括:
数据合成模块,用于训练数据生成和语音特征提取,构建训练语音帧信息特征数据集,为后续模块提供输入信息;
网络训练模块,该模块包括三分支深度学习网络,用以分别实现语音估计、噪声估计和语音状态检测三功能,并为后续模块计算网络参数;
网络检测模块,根据输入原始语音信号前向计算,实现语音检测状态概率值;
语音检测模块,根据音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
优选地,在所述数据合成模块中,随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音,并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集。
优选地,在所述网络训练模块中,搭建基于谱减的语音估计、噪声估计和语音状态检测三分支深度学习网络,以训练语音帧信息特征数据集中含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,训练对应三分支深度学习网络,所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。
本发明的有益效果是:
(1)本发明利用Bark域特征模拟人耳的听觉效应,通过深度学习优化特征提取,并引进谱减思想构建三分支深度学习网络,综合兼顾噪声情况,同时实现语音增强和语音端点检测,提高含噪语音的端点检测准确率,进一步提高后续语音处理系统效率。
(2)本发明提取了信息特征,仅31维语音信息特征,远少于400维的原始语音,运算效率更高,能做到实时检测。
(3)现有技术中仅对语音状态检测网络进行学习和训练,而本发明之所以构建语音估计网络和噪声估计网络是为了应对低信噪比的情况,复杂的噪声环境会影响语音端点检测,而噪声估计网络引进可以进一步实现语音去噪,抑制噪声,提高信噪比,同时语音估计网络可以实现语音质量优化,提高语音质量,更利于语音端点检测。此本发明构建了三分支深度学习网络,结合了语音增强分支,比常规深度学习网络更利于低信噪比下的语音端点检测。
附图说明
图1为本发明公开的一种基于谱减的深度学习语音端点检测方法流程示意图;
图2为本发明公开的一种基于谱减的深度学习语音端点检测系统结构示意图;
图3为实施例一的语音信息特征;
图4为实施例一的三分支深度学习网络结构;
图5为实施例一的含噪语音SNR=5;
图6为实施例一的语音端点检测结果;
图7为实施例一的语音起止点结果。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
参见图1,一种基于谱减的深度学习语音端点检测方法,包括如下步骤:
步骤一、随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音;并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集。
具体的,先分别计算干净语音和噪声的信噪比大小,然后随机生成一个信噪比值,然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声,生成含噪语音训练数据集。其中,噪声采用noiseX92数据集,并采样到采样率16KHz,与干净语音采样率一致。
将生成含噪语音进行Bark域频带变换,根据频带范围不同划分18个子带,然后对应子带能量取对数获得倒谱信息,再计算离散余弦变换,最后得到18维BFCC特征。基于BFCC特征,分别进行一次和两次差分计算,分别取前6个,组成12维一二阶BFCC动态分量特征,计算信号的自相关结果,然后取其第二个极值点作为1维基音周期特征。并全部拼接组合成31维语音信息特征,如图3。
具体的,以帧长为25ms,采样率为16000Hz的含噪语音为例,原始语音长度约为400维,先进行傅里叶变换得到257维的谱特征,将257维的谱特征经过bark域非线性变换和离散余弦变换得到BFCC特征,再划分符合人耳听觉的18个子带区间,加权求和每个子带得到18维BFCC特征后。进一步为了补充声学特征的动态信息,将18维BFCC特征分别进行一次和两次差分计算并分别取前6个,组成12维一二阶BFCC动态分量特征,利用差值信息来表示前后动态变化过程。最后,对含噪语音进行自相关运算,即本身语音延时处理再与本身语音卷积,提取第二个极值点作为1维基音周期特征。本发明提取了信息特征,仅31维语音信息特征,远少于400维的原始语音,运算效率更高,能做到实时检测。
步骤二、搭建基于谱减的噪声估计,语音估计和语音状态检测三分支深度学习网络,以训练语音帧信息特征数据集中含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,从而分别训练语音估计网络、噪声估计网络、语音状态检测网络,以实现语音端点检测概率估计。
噪声估计网络包括一层门限循环GRU单元结构,损失函数为均方误差。语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构,损失函数为均方误差。语音状态检测网络包括二层全连接DENSE单元结构和一层门限循环GRU单元结构,损失函数为交叉熵。其中,网络结构中包含拼接噪声估计网络输出结果和原始特征,再输入语音估计网络实现谱减思想的语音增强,最后再拼接语音估计网络输出结果和全连接层预处理后的原始特征输出结果,实现语音端点检测概率估计。网络结构如图4,采用keras训练,迭代周期为100,学习率为0.002,优化器为Adam。现有技术中仅对语音状态检测网络进行学习和训练,而本发明之所以构建语音估计网络和噪声估计网络是为了应对低信噪比的情况,复杂的噪声环境会影响语音端点检测,而噪声估计网络引进可以进一步实现语音去噪,抑制噪声,提高信噪比,同时语音估计网络可以实现语音质量优化,提高语音质量,更利于语音端点检测。此本发明构建了三分支深度学习网络,结合了语音增强分支,比常规深度学习网络更利于低信噪比下的语音端点检测。
步骤三、输入原始语音信号,计算对应信息特征,基于语音估计网络、噪声估计网络以及语音状态检测网络,以信息特征计算前向运算得到语音检测状态概率值,如图5。这里的原始语音信号是指没有经过处理的语音信号。
步骤四、根据语音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
具体的,根据对应语音概率,从而利用阈值,判断是语音或非语音。进一步,滑动窗口,以5帧为窗,利用窗内结果判断,连续5帧都是语音则该段是语音窗,连续3帧是语音则是过渡窗,否则是非语音窗。取第一个语音窗的第一帧作为语音的开始点,取最后一个语音窗或过渡窗的最后一帧作为语音的结束点,结构如图6、图7。
实施例二
参见图2,一种基于谱减的深度学习语音端点检测系统,包括:
数据合成模块,用于训练数据生成和语音特征提取,构建训练语音帧信息特征数据集,为后续模块提供输入信息。
具体的,随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音,并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集。
网络训练模块,该模块包括训练语音估计网络、噪声估计网络、语音状态检测网络,用以分别实现语音估计、噪声估计和语音状态检测三功能,为后续模块计算网络参数。
具体的,搭建基于谱减的语音估计、噪声估计和语音状态检测三分支深度学习网络。以训练语音帧信息特征数据集中含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,训练对应网络参数。
网络检测模块,输入原始语音信号,计算对应信息特征,基于训练网络,以信息特征计算前向运算得到语音检测状态概率值。
该模块导入网络训练模块的参数,根据输入信息前向计算,实现语音检测状态概率值计算功能。
语音检测模块,根据音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
该模块以概率值为输入,实现打分判断功能,输出语音的起止点位置。
每个模块的具体细节信息参考实施例一。
需要说明的是,本实施例中的各模块(或单元)是逻辑意义上的,具体实现时,多个模块(或单元)可以合并成一个模块(或单元),一个模块(或单元)也可以拆分成多个模块(或单元)。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于谱减的深度学习语音端点检测方法,其特征在于,包括如下步骤:
步骤一:随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音;并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集;
步骤二:搭建基于谱减的语音估计,噪声估计和语音状态检测三分支深度学习网络,并训练所述三分支深度学习网络,以实现语音端点检测概率估计;
步骤三:输入原始语音信号,计算对应信息特征,基于三分支深度学习网络,以信息特征计算前向运算得到语音检测状态概率值;
步骤四:根据语音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
2.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤一中,生成含噪语音训练数据集的方法为:先分别计算干净语音和噪声的信噪比大小,然后随机生成一个信噪比值,然后按新信噪比值和原信噪比值的比例叠加干净语音和噪声。
3.根据权利要求1或2所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤一中,语音特征提取的方法为:将生成含噪语音进行Bark域频带变换,根据频带范围不同划分18个子带,然后对应子带能量取对数获得倒谱信息,再计算离散余弦变换,最后得到18维BFCC特征,基于BFCC特征,分别进行一次和两次差分计算,分别取前6个,组成12维一二阶BFCC动态分量特征,计算信号的自相关结果,然后取其第二个极值点作为1维基音周期特征,并全部拼接组合成31维语音信息特征。
4.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤二中,训练三分支深度学习网络的方法包括:以训练语音帧信息特征数据集中的含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,从而训练三分支深度学习网络,所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。
5.根据权利要求4所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
所述噪声估计网络包括一层门限循环GRU单元结构,损失函数为均方误差;所述语音估计网络包括一层全连接DENSE单元结构和一层门限循环GRU单元结构,损失函数为均方误差;所述语音状态检测网络包括二层全连接DENSE单元结构和一层门限循环GRU单元结构,损失函数为交叉熵。
6.根据权利要求4或5所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
实现语音端点检测概率估计的方法包括:三分支深度学习网络结构中包含拼接噪声估计网络输出结果和原始特征,再输入语音估计网络实现谱减思想的语音增强,最后再拼接语音估计网络输出结果和全连接层预处理后的原始特征输出结果。
7.根据权利要求1所述的一种基于谱减的深度学习语音端点检测方法,其特征在于:
步骤四中,判断是语音或非语音的方法包括:滑动窗口,以5帧为窗,利用窗内结果判断,连续5帧都是语音则该段是语音窗,连续3帧是语音则是过渡窗,否则是非语音窗,取第一个语音窗的第一帧作为语音的开始点,取最后一个语音窗或过渡窗的最后一帧作为语音的结束点。
8.一种基于谱减的深度学习语音端点检测系统,其特征在于包括:
数据合成模块,用于训练数据生成和语音特征提取,构建训练语音帧信息特征数据集,为后续模块提供输入信息;
网络训练模块,该模块包括三分支深度学习网络,用以分别实现语音估计、噪声估计和语音状态检测三功能,并为后续模块计算网络参数;
网络检测模块,根据输入原始语音信号前向计算,实现语音检测状态概率值;
语音检测模块,根据音检测状态概率值,设置阈值,滑动窗口综合打分,检测语音的起止点,判断是语音或非语音。
9.根据权利要求8所述的一种基于谱减的深度学习语音端点检测系统,其特征在于:
在所述数据合成模块中,随机以不同信噪比叠加干净语音和噪声,生成含噪语音训练数据集,用于模拟含噪语音,并依次计算含噪语音信息特征,干净语音信息特征,噪声语音信息特征,干净语音检测状态,构建训练语音帧信息特征数据集。
10.根据权利要求8或9所述的一种基于谱减的深度学习语音端点检测系统,其特征在于:
在所述网络训练模块中,搭建基于谱减的语音估计、噪声估计和语音状态检测三分支深度学习网络,以训练语音帧信息特征数据集中含噪语音信息特征为输入,采用梯度下降算法逼近训练语音帧信息特征数据集中的干净语音信息特征、噪声语音信息特征和干净语音检测状态,训练对应三分支深度学习网络,所述三分支深度学习网络分别为语音估计网络、噪声估计网络、语音状态检测网络。
CN202010806899.1A 2020-08-12 2020-08-12 一种基于谱减的深度学习语音端点检测方法和系统 Active CN111916060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010806899.1A CN111916060B (zh) 2020-08-12 2020-08-12 一种基于谱减的深度学习语音端点检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010806899.1A CN111916060B (zh) 2020-08-12 2020-08-12 一种基于谱减的深度学习语音端点检测方法和系统

Publications (2)

Publication Number Publication Date
CN111916060A true CN111916060A (zh) 2020-11-10
CN111916060B CN111916060B (zh) 2022-03-01

Family

ID=73283948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010806899.1A Active CN111916060B (zh) 2020-08-12 2020-08-12 一种基于谱减的深度学习语音端点检测方法和系统

Country Status (1)

Country Link
CN (1) CN111916060B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382301A (zh) * 2021-01-12 2021-02-19 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及系统
CN113409798A (zh) * 2021-06-22 2021-09-17 科大讯飞股份有限公司 车内含噪语音数据生成方法、装置以及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071154A1 (en) * 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals
US20130060567A1 (en) * 2008-03-28 2013-03-07 Alon Konchitsky Front-End Noise Reduction for Speech Recognition Engine
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
WO2019227590A1 (zh) * 2018-05-29 2019-12-05 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN111091833A (zh) * 2019-12-09 2020-05-01 浙江工业大学 一种降低噪声影响的端点检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071154A1 (en) * 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals
US20130060567A1 (en) * 2008-03-28 2013-03-07 Alon Konchitsky Front-End Noise Reduction for Speech Recognition Engine
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
WO2019227590A1 (zh) * 2018-05-29 2019-12-05 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
CN111091833A (zh) * 2019-12-09 2020-05-01 浙江工业大学 一种降低噪声影响的端点检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHIFENG OU: "Two methods for estimating noise amplitude spectral in non-stationary environments", 《2016 9TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》 *
朱春利: "基于多特征融合的语音端点检测方法研究", 《中国优秀硕士学位论文全文数据库》 *
雷文钿: "复杂环境下高效端点检测算法研究及应用", 《万方数据知识服务平台》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382301A (zh) * 2021-01-12 2021-02-19 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及系统
CN112382301B (zh) * 2021-01-12 2021-05-14 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及系统
CN113409798A (zh) * 2021-06-22 2021-09-17 科大讯飞股份有限公司 车内含噪语音数据生成方法、装置以及设备

Also Published As

Publication number Publication date
CN111916060B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Ghanbari et al. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets
CN108682418B (zh) 一种基于预训练和双向lstm的语音识别方法
WO2021042870A1 (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
CN111261183B (zh) 一种语音去噪的方法及装置
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
CN110085249A (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
CN108847244A (zh) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN103903612B (zh) 一种实时语音识别数字的方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN113808602A (zh) 语音增强方法、模型训练方法以及相关设备
WO2019232833A1 (zh) 语音区分方法、装置、计算机设备及存储介质
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
Li et al. A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN
Labied et al. An overview of automatic speech recognition preprocessing techniques
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
Lim et al. Harmonic and percussive source separation using a convolutional auto encoder
CN113782044B (zh) 一种语音增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant