CN112634882B - 端到端实时语音端点检测神经网络模型、训练方法 - Google Patents

端到端实时语音端点检测神经网络模型、训练方法 Download PDF

Info

Publication number
CN112634882B
CN112634882B CN202110263962.6A CN202110263962A CN112634882B CN 112634882 B CN112634882 B CN 112634882B CN 202110263962 A CN202110263962 A CN 202110263962A CN 112634882 B CN112634882 B CN 112634882B
Authority
CN
China
Prior art keywords
neural network
endpoint detection
network model
real
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110263962.6A
Other languages
English (en)
Other versions
CN112634882A (zh
Inventor
司马华鹏
姚奥
汤毅平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guiji Intelligent Technology Co ltd
Original Assignee
Nanjing Guiji Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guiji Intelligent Technology Co ltd filed Critical Nanjing Guiji Intelligent Technology Co ltd
Priority to CN202110263962.6A priority Critical patent/CN112634882B/zh
Publication of CN112634882A publication Critical patent/CN112634882A/zh
Application granted granted Critical
Publication of CN112634882B publication Critical patent/CN112634882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音识别系统端到端实时语音端点检测,从音频信号到有效端点的判断(实时从声波判断出是人声或者是环境噪音),而且能够实时响应。通过一种端到端实时语音端点检测神经网络模型实现,该模型至少包括卷积神经网络滤波器层、RNN层,和多特征融合层;所述多特征融合层配置为,从在前的神经网络学习不同特征并融;本发明基于上述神经网络模型,无需进行特征提取的操作,从而实现可基于很短的语音实现实时识别,上述模型与训练时长的设置对于硬件资源要求相对于现有技术也有大幅降低。

Description

端到端实时语音端点检测神经网络模型、训练方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种端到端实时语音端点检测神经网络模型、训练方法。
背景技术
随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。具体地,语音端点检测的检测结果对后端的声学模型、解码器、语言模型的识别效果,都有很大的影响,如果端点切分存储错误,则会导致漏识别或者误识别等情况的发生,进而可导致语音识别结果不准确。
目前的语音端点检测方法有能量模型方法,使用能量阈值来判断是否存在有效的语音,但是在信噪比低时,该种方法难以准确的判断出音频有效部分的开始位置和结束位置。基于特征提取方法,一将音频信号转换成音频信号的频谱图,然后利用图像目标检测的方法获取开始位置和结束位置,二将音频信号利用特征提取方法(例如fbank,MFCC,stft等)获取特征,然后训练分类器来判断有效音频的开始位置和结束位置。采用此种方法比较耗时,此外,在非平稳噪声、较低信噪比环境下,所检测的语音端点的准确率较低;对于不同信噪比下的语音信号,很难选取合适的阈值,难以保证安静环境下的检测精度和噪声环境下的检测精度,这对检测硬件资源提出极高的要求。
发明内容
本发明针对现有技术的不足,提供一种语音识别系统的端点检测方案,从音频信号到有效端点的判断(实时从声波判断出是人声或者是环境噪音),而且能够实时响应。
本发明采取以下方式实现:
一种端到端实时语音端点检测神经网络模型,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;
所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;
所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第二特征;所述第二特征为所述目标音频信号的局部特征;
所述多特征融合层配置包括,对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合,以得到所述目标音频信号的表示。
进一步地,所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。
本发明第二个方面:
一种端到端实时语音端点检测神经网络模型的训练方法,应用于前述的端到端实时语音端点检测神经网络模型;所述方法包括:
根据滤波器训练参数,确定带通滤波器幅值,并根据所述带通滤波器幅值建立卷积子层;
将样本数据中的样本输入值输入至所述端到端实时语音端点检测神经网络模型以得到输出值;
根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值;
调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小;
当所述端到端实时语音端点检测神经网络模型的损失值小于或等于预设阈值时,对应的滤波器训练参数确定为滤波器训练参数输出值。
优选地,所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值,包括:
根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的所述损失值;其中,所述神经网络滤波器损失函数为交叉熵函数。
进一步地,还包括以下步骤:
调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小。
进一步地,所述方法还包括:
根据预设的人声音频数据和噪声音频数据以生成所述样本数据,其中,所述样本数据至少包括所述人声音频数据、所述噪声音频数据以及混合数据;所述混合数据是所述人声音频数据与所述噪声音频数据按照预设的信噪比进行混合处理后得到的。
进一步地,所述根据所述带通滤波器幅值建立所述卷积子层,还包括:
根据所述带通滤波器幅值建立带通滤波器;
根据所述带通滤波器与预设的窗函数,对所述带通滤波器进行加窗处理,以建立所述卷积子层;所述窗函数包括以下之一:Hann函数、Balckman函数、Kaiser函数。
本发明第三个方面:
提供一种端到端实时语音端点检测方法,其特征在于,运用所述的端到端实时语音端点检测神经网络模型;所述方法包括:
将目标音频输入所述模型,并以预设的检测周期对所述目标音频进行检测;
在连续检测到所述目标音频中存在人声音频的检测周期的数量达到预设的第一阈值的情形下,确定所述目标音频中的有效部分开始;以及,在连续检测到所述目标音频中人声音频消失的检测周期的数量达到预设的第二阈值的情形下,确定所述目标音频中的有效部分结束;所述第一阈值小于所述第二阈值。
本发明第四个方面:
提供一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行本发明第二个方面端到端实时语音端点检测神经网络模型训练方法。
或:该介质用于存储本发明第一个方面提供的端到端实时语音端点检测神经网络模型,并用于执行本发明第三个方面所述的方法。
本方案区别于现有技术的点在于,基于上述神经网络模型,无需进行特征提取的操作,从而实现可基于很短的语音高效且准确地实现实时识别,同时,上述模型与训练时长的设置对于硬件资源要求相对于现有技术也有大幅降低。
附图说明
图1为本发明语音信号有效端点判断方法实现的总体流程图;
图2为本发明实施例一神经网络检测模型的网络结构图;
图3为本发明语音信号端点检测装置的结构示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述发明。
实施例一
一种端到端实时语音端点检测神经网络模型,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;
所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;
所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第二特征;所述第二特征为所述目标音频信号的局部特征;
所述多特征融合层配置包括,对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合,以得到所述目标音频信号的表示。
本实施例中,
所述卷积神经网络滤波器时域表达式为:是一种可训练的有限脉冲响应滤波器(FIR),可表示为:
Figure GDA0003033582220000041
y[n]是滤波器的输出,x[n]为滑动窗口内的音频信号,h[n]为长度为L的滤波器,在通常的CNN中,滤波器的参数可以从数据学习,在SincNet网络结构中,将h[n]预定义为函数为g[n,θ],公式(1)变为:
y[n]=x[n]*g[n,θ] (2)
其中,g[n,θ]为一种矩形带通滤波器,在频域,一般带通滤波器的幅值可以写成两个低通滤波器的差值G[f,f1,f2]:
Figure GDA0003033582220000042
其中,f1和f2为训练参数,分别为带通滤波器的低截止频率和高截止频率,rect为频域矩形窗函数,在此为线性函数;与之对应的g[n,θ]中,时域信号n对应频域信号f,参数θ对应的为f1和f2。经逆傅里叶变换后,最终得到g的时域为:
g[n,f1,f2]=2f2sin c(2πf2n)-2f1sin c(2πf1n),
其中,n为时域信号;f1、f2为滤波器训练参数,f1为带通滤波器的低截止频率,f2为带通滤波器的高截止频率;sinc函数定义为:
sin c(x)=sin(x)/x;
卷积神经网络滤波器层损失函数配置为交叉熵,交叉熵Loss为:
Figure GDA0003033582220000051
其中,N为样本的个数,yn为样本的标签,这里0标识为噪声,1标识为人声,pn表示对n样本的预测概率,预测概率由所述模型给出。
本实施例RNN层选择为单层双向GRU。
实施例二
本发明神经网络检测模型的训练方法,包括:
获取训练数据集,训练数据集中有不同环境下人声音频和噪声音频,利用数据增强方法处理训练数据集数据,将噪声数据随机和人声混合,信噪比范围为10~20,信噪比(SNR)计算方法为:
Figure GDA0003033582220000052
其中L为音频信号长度,s为人声音频,sn为噪声音频;
根据预设的人声音频数据和噪声音频数据以生成所述样本数据,其中,所述样本数据至少包括所述人声音频数据、所述噪声音频数据以及混合数据;所述混合数据是所述人声音频数据与所述噪声音频数据按照预设的信噪比进行混合处理后得到的。
进一步地,所述根据所述带通滤波器幅值建立所述卷积子层,还包括:
根据所述带通滤波器幅值建立带通滤波器;
根据所述带通滤波器与预设的窗函数,对所述带通滤波器进行加窗处理,以建立所述卷积子层;所述卷积神经网络滤波器层通过加窗减弱频谱泄漏效应,加窗后的滤波器为gw[n,f1,f2]=g[n,f1,f2]·w[n]
其中w[n]为窗函数,本实施例采用Hann窗表达式为:
Figure GDA0003033582220000053
其中,L为滤波器长度。
随机截取训练集音频长度为60-100ms,构建beach(每个beach中的音频长度相同范围60-100ms),训练模型,训练10-15次,利用验证集对模型进行验证,根据交叉熵Loss相对于训练参数f1、f2的梯度,对训练参数f1、f2反向调整,获取使交叉熵Loss足够小的训练参数f1、f2
本实施例采用的训练损失函数为交叉熵,训练算法为Adam,学习率为0.005-0.001。交叉熵Loss为:
Figure GDA0003033582220000061
N为样本的个数,yn为样本的标签,这里0标识为噪声,1标识为人声,pn表示对n样本的预测概率,预测概率由实施例一的神经网络检测模型给出。
通过本实施例方式,可以将训练集语音长度从现有技术的2s到3s减少到60ms-100ms;上述可训练的f1与f2,一方面可令整体网络的损失足够小,更适应本发明中的需求,进而达到显著提升检测效率的效果,另一方面,由于f1与f2是在网络训练中通过优化算法得到的,即f1与f2的确定过程是已知的,在后期工程实现(编程)过程中可便于工程人员进行调参或针对性的优化,进一步改善产品处理的效率。相较之下,现有技术中的相关参数是固定的,工程人员并不知道相关参数的由来,故很难进行适配性的工程实现。
实施例三
一种端到端实时语音端点检测方法,其特征在于,运用于实施例一所述的端到端实时语音端点检测神经网络模型;所述方法包括:
将目标音频输入所述模型,并以预设的检测周期对所述目标音频进行检测;
在连续检测到所述目标音频中存在人声音频的检测周期的数量达到预设的第一阈值的情形下,确定所述目标音频中的有效部分开始;以及,在连续检测到所述目标音频中人声音频消失的检测周期的数量达到预设的第二阈值的情形下,确定所述目标音频中的有效部分结束;所述第一阈值小于所述第二阈值。
实施例四
提供一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行实施例二所述端到端实时语音端点检测神经网络模型训练方法;
该介质用于存储本发明第一个方面提供的端到端实时语音端点检测神经网络模型,并用于执行本发明第三个方面所述的方法。
以上显示和描述了本发明的基本原理和主要特征和优点。本领域技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都属于本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种端到端实时语音端点检测神经网络模型,其特征在于,所述模型至少包括神经网络滤波器、循环神经网络RNN层、多特征融合层;
所述神经网络滤波器至少包括卷积子层,所述卷积子层配置包括,对目标音频信号进行特征提取,以输出所述目标音频信号的第一特征;其中,所述卷积子层是根据带通滤波器幅值建立的,所述带通滤波器幅值由滤波器训练参数进行确定,所述滤波器训练参数是根据预先设置的样本数据训练所得到的;所述第一特征为所述目标音频信号的局部特征,所述第一特征是根据训练得到的所述滤波器训练参数提取的;
所述RNN层配置包括,输入所述第一特征,并至少根据所述第一特征获取所述目标音频信号的第二特征;所述第二特征为所述目标音频信号的局部特征;
所述多特征融合层配置包括,对所述RNN层中的至少一个子层所获取的所述第二特征进行特征融合,以得到所述目标音频信号的表示。
2.根据权利要求1所述的端到端实时语音端点检测神经网络模型,其特征在于,所述滤波器训练参数至少包括带通滤波器低截止频率以及带通滤波器高截止频率。
3.一种端到端实时语音端点检测神经网络模型的训练方法,应用于权利要求1或2所述的端到端实时语音端点检测神经网络模型;其特征在于:
所述方法包括:
根据滤波器训练参数,确定带通滤波器幅值,并根据所述带通滤波器幅值建立卷积子层;
将样本数据中的样本输入值输入至所述端到端实时语音端点检测神经网络模型以得到输出值;
根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值;
调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小;
当所述端到端实时语音端点检测神经网络模型的损失值小于或等于预设阈值时,对应的滤波器训练参数确定为滤波器训练参数输出值。
4.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述根据所述输出值与样本输出值之间的偏差确定所述端到端实时语音端点检测神经网络模型的损失值,包括:
根据所述输出值、所述样本输出值以及预设的神经网络滤波器损失函数确定所述模型的第一损失值;其中,所述神经网络滤波器损失函数为交叉熵函数。
5.根据权利要求3所述的一种端到端实时语音端点检测神经网络模型的训练方法,其特征在于,还包括以下步骤:
所述的调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值减小,其调整方式为,逐次迭代调整所述滤波器训练参数,使所述端到端实时语音端点检测神经网络模型的损失值逐次减小。
6.根据权利要求3所述的端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述训练方法还包括:
根据预设的人声音频数据和噪声音频数据以生成所述样本数据,其中,所述样本数据至少包括所述人声音频数据、所述噪声音频数据以及混合数据;所述混合数据是所述人声音频数据与所述噪声音频数据按照预设的信噪比进行混合处理后得到的。
7.根据权利要求3所述的端到端实时语音端点检测神经网络模型的训练方法,其特征在于,所述根据所述带通滤波器幅值建立所述卷积子层,还包括:
根据所述带通滤波器幅值建立带通滤波器;
根据所述带通滤波器与预设的窗函数,对所述带通滤波器进行加窗处理,以建立所述卷积子层;所述窗函数包括以下之一:Hann函数、Balckman函数、Kaiser函数。
8.一种端到端实时语音端点检测方法,其特征在于,运用权利要求1或2所述的端到端实时语音端点检测神经网络模型;所述方法包括:
将目标音频输入所述模型,并以预设的检测周期对所述目标音频进行检测;
在连续检测到所述目标音频中存在人声音频的检测周期的数量达到预设的第一阈值的情形下,确定所述目标音频中的有效部分开始;以及,在连续检测到所述目标音频中人声音频消失的检测周期的数量达到预设的第二阈值的情形下,确定所述目标音频中的有效部分结束;所述第一阈值小于所述第二阈值。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求3至7任一项中所述的端到端实时语音端点检测神经网络模型的训练方法。
10.一种计算机可读的存储介质,其特征在于,所述介质存储包括存储权利要求1或2所述的端到端实时语音端点检测神经网络模型,且运行时执行权利要求8所述的端到端实时语音端点检测方法。
CN202110263962.6A 2021-03-11 2021-03-11 端到端实时语音端点检测神经网络模型、训练方法 Active CN112634882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110263962.6A CN112634882B (zh) 2021-03-11 2021-03-11 端到端实时语音端点检测神经网络模型、训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110263962.6A CN112634882B (zh) 2021-03-11 2021-03-11 端到端实时语音端点检测神经网络模型、训练方法

Publications (2)

Publication Number Publication Date
CN112634882A CN112634882A (zh) 2021-04-09
CN112634882B true CN112634882B (zh) 2021-06-04

Family

ID=75297666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110263962.6A Active CN112634882B (zh) 2021-03-11 2021-03-11 端到端实时语音端点检测神经网络模型、训练方法

Country Status (1)

Country Link
CN (1) CN112634882B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113001A (zh) * 2021-04-20 2021-07-13 深圳市友杰智新科技有限公司 人声激活检测方法、装置、计算机设备和存储介质
CN113870896A (zh) * 2021-09-27 2021-12-31 动者科技(杭州)有限责任公司 基于时频图和卷积神经网络的运动声音判假方法、装置
CN114119443B (zh) * 2021-11-28 2022-07-01 特斯联科技集团有限公司 一种基于多光谱相机的图像融合系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108711436A (zh) * 2018-05-17 2018-10-26 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
WO2019204186A1 (en) * 2018-04-18 2019-10-24 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN110459237A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN111261186A (zh) * 2020-01-16 2020-06-09 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN111816218A (zh) * 2020-07-31 2020-10-23 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
KR102635469B1 (ko) * 2019-03-18 2024-02-13 한국전자통신연구원 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019204186A1 (en) * 2018-04-18 2019-10-24 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN108711436A (zh) * 2018-05-17 2018-10-26 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN110459237A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN111261186A (zh) * 2020-01-16 2020-06-09 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN111816218A (zh) * 2020-07-31 2020-10-23 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR;Felix Weninger 等;《12th International Conference on Latent Variable Analysis and Signal Separation》;20150831;第1-9页 *
基于深度学习的音频事件识别研究;吴怀文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190915(第9期);第1-67页 *

Also Published As

Publication number Publication date
CN112634882A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112634882B (zh) 端到端实时语音端点检测神经网络模型、训练方法
CN107393526B (zh) 语音静音检测方法、装置、计算机设备和存储介质
CN108847238B (zh) 一种服务机器人语音识别方法
JP6153142B2 (ja) 音響信号を処理する方法
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
TW202038216A (zh) 語音增強方法及系統
Wang et al. ia-PNCC: Noise Processing Method for Underwater Target Recognition Convolutional Neural Network.
CN110706719B (zh) 一种语音提取方法、装置、电子设备及存储介质
Kashyap et al. Speech denoising without clean training data: A noise2noise approach
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
Shi et al. Speech loss compensation by generative adversarial networks
JPWO2015129760A1 (ja) 信号処理装置、方法及びプログラム
Kong et al. Radar waveform recognition using Fourier-based synchrosqueezing transform and CNN
Lee et al. Single-channel speech enhancement method using reconstructive NMF with spectrotemporal speech presence probabilities
CN113472390A (zh) 一种基于深度学习的跳频信号参数估计方法
EP2774147B1 (en) Audio signal noise attenuation
EP2745293B1 (en) Signal noise attenuation
EP2429214A2 (en) Method for acoustic signal tracking
CN111968620B (zh) 算法的测试方法、装置、电子设备及存储介质
Ajay et al. Comparative study of deep learning techniques used for speech enhancement
CN111667836B (zh) 基于深度学习的文本无关多标号说话人识别方法
CN112652321B (zh) 一种基于深度学习相位更加友好的语音降噪系统及方法
Tahliramani et al. Performance analysis of speaker identification system with and without spoofing attack of voice conversion
Patole et al. Acoustic environment identification using blind de-reverberation
Mitra et al. Leveraging deep neural network activation entropy to cope with unseen data in speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant