CN114420099A - 一种多声源融合场景的人声检测方法及装置 - Google Patents
一种多声源融合场景的人声检测方法及装置 Download PDFInfo
- Publication number
- CN114420099A CN114420099A CN202210088372.9A CN202210088372A CN114420099A CN 114420099 A CN114420099 A CN 114420099A CN 202210088372 A CN202210088372 A CN 202210088372A CN 114420099 A CN114420099 A CN 114420099A
- Authority
- CN
- China
- Prior art keywords
- voice
- sound
- signal
- source
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 230000004927 fusion Effects 0.000 title claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000013135 deep learning Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 47
- 238000001914 filtration Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种多声源融合场景的人声检测方法及装置,本申请提供的多声源融合场景的人声检测方法,通过利用第一语音帧样本与第二语音帧样本分别作为正样本和负样本,通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成,然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练,再利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练,以提高神经网络对多声源环境下的人声检测能力,构建人声检测模型,以便通过构建的人声检测模型对待检测的多声源声音信号进行人声检测,从而获得多声源声音信号的人声检测结果,解决了现有的多声源人声检测难以准确检测出人声的技术问题。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种多声源融合场景的人声检测方法及装置。
背景技术
随着近年来人工智能技术的快速发展,各种交互手段不断发展。其中,智能语音交互起着关键作用。目前,在智能语音交互的过程中,还有许多难题等待解决,如声源识别,声源定位,声源检测等等。而声源检测中,最重要的一个方向是人声检测。具体来说,是在多声源混合下对人声的检测技术。
在现实生活中,最需要人声检测技术的莫过于多声源融合的大场景(如鸡尾酒场合:包含人声,动物声,机器等各种声源)。这种场合下,声源检测受到多种因素的干扰,难以准确检测出人声。
发明内容
本申请提供了一种多声源融合场景的人声检测方法及装置,用于解决现有的声源检测容易受到多种因素的干扰,难以准确检测出人声的技术问题。
为解决上述技术问题,本申请第一方面提供了一种多声源融合场景的人声检测方法,包括:
获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧信号样本,所述第二语音帧样本为不包含人声的多声源语音帧信号样本;
提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
利用所述第一语音帧样本和所述第二语音帧样本的语谱图,对深度学习网络单元进行人声MFCC特征识别训练;
利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
获取待检测的多声源声音信号;
对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
优选地,所述提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图具体包括:
通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
基于所述MFCC特征生成所述语音帧信号的语谱图。
优选地,所述获取待检测的多声源声音信号之后还包括:
对所述多声源声音信号的高频部分进行信号加重预处理。
优选地,还包括:
根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;
基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;
分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。
优选地,所述循环神经网络单元具体为LSTM神经网络单元。
同时,本申请第二方面还提供了一种多声源融合场景的人声检测装置,包括:
语音样本获取单元,用于获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧样本,所述第二语音帧样本为不包含人声的多声源语音帧的语谱图;
语音样本处理单元,用于提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
第一训练单元,用于利用所述第一语音帧样本和所述第二语音帧样本,对深度学习网络单元进行人声MFCC特征识别训练;
第二训练单元,用于利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
人声检测模型构建单元,用于基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
待检测信号获取单元,用于获取待检测的多声源声音信号;
分帧处理单元,用于对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
语谱图生成单元,用于提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
人声检测运算单元,用于以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
优选地,所述语谱图生成单元具体用于:
通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
基于所述MFCC特征生成所述语音帧信号的语谱图。
优选地,还包括:
预处理单元,用于对所述多声源声音信号的高频部分进行信号加重预处理。
优选地,还包括:
第一语音帧信号确定单元,用于根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;
信号滤波单元,用于基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;
人声数据提取单元,用于分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。
优选地,所述循环神经网络单元具体为LSTM神经网络单元。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供的多声源融合场景的人声检测方法,通过利用包含人声的第一语音帧样本以及不包含人声的第二语音帧样本分别作为正样本和负样本,通过以上的正样本与负样本进行MFCC特征特区以及语谱图生成,然后利用生成的语谱图对深度学习网络单元进行人声MFCC特征识别训练,再利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练,以提高神经网络对多声源环境下的人声检测能力,基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型,以便通过构建的人声检测模型对待检测的多声源声音信号进行人声检测,从而获得多声源声音信号的人声检测结果,解决了现有的声源检测容易受到多种因素的干扰,难以准确检测出人声的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种多声源融合场景的人声检测方法的一个实施例的流程示意图。
图2为本申请提供的一种多声源融合场景的人声检测方法中的DNN网络架构示意图。
图3为本申请提供的一种多声源融合场景的人声检测方法中的LSTM网络的架构示意图。
图4为本申请提供的一种多声源融合场景的人声检测方法中的两个训练阶段的逻辑关系示意图。
图5为本申请提供的一种多声源融合场景的人声检测方法的另一个实施例的流程示意图。
图6为本申请提供的一种多声源融合场景的人声检测装置的一个实施例的结构示意图。
具体实施方式
本申请实施例提供了一种多声源融合场景的人声检测方法及装置,用于解决现有的声源检测容易受到多种因素的干扰,难以准确检测出人声的技术问题。
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1,本申请第一个实施例提供的一种多声源融合场景的人声检测方法,包括:
步骤S1、获取第一语音帧样本和第二语音帧样本。
其中,第一语音帧样本为包含人声的多声源语音帧信号样本,第二语音帧样本为不包含人声的多声源语音帧信号样本,本实施例提及的语音帧具体指的是:源语音数据分帧之后的语音片段;
需要说明的是,首先需要采集语音帧样本数据。本方案对大场景多声源界定如下,开放场景,存在人,动物,机器及以上的物体声源,这些场景在现实中很常见,如很多游乐场景,与动物有关的主题场景等等,著名的场景有鸡尾酒场景。深度学习训练需要数量均衡的正负样本,上述的鸡尾酒场景是正样本,另外还需要负样本。负样本是很容易选择的,本实施例的针对对象是人声,所以没有了人声的大场景声源都可以作为负样本进行训练。
步骤S2、提取第一语音帧样本和第二语音帧样本的MFCC特征,再基于MFCC特征生成对应的语谱图。
然后,基于采集到的第一语音帧样本和第二语音帧样本进行处理,提取上述语音帧样本的MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)特征,再基于MFCC特征生成对应的语谱图,可以理解,提取的MFCC特征包含在生成的语谱图中。
步骤S3、利用第一语音帧样本和第二语音帧样本的语谱图,对深度学习网络单元进行人声MFCC特征识别训练。
步骤S4、利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练。
步骤S5、基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型。
需要说明的是,本实施例的步骤S3至步骤S5即为人声检测模型的训练过程,如图4所示,其总体思路可以分为两个阶段,阶段一用来检测是否存在人声。阶段二基于阶段一检测的正样本(预测含有人声的样本)进行标记,具体是对含有人声的帧片段进行标记。
阶段一的深度学习网络训练:
首先是特征提取。输入:224*224的语谱图,输出:1000维的输出特征,基于VGG19网络,将该1000维特征输入到自定义的DNN网络进行预测和标记,其中本实施例提及的DNN结构图如图2所示,主要的网络函数包括:
阶段一之后,可以得到对所有语谱图的正负预测标记,选择被标记为正样本对应的MFCC特征(39维度),进行第二阶段的训练,对含有人声的帧片段进行标记。
然后进行人声预测,如果预测包含人声,则进行下一步,检测人声存在的位置,此步骤采用循环神经网络,优选采用循环神经网络(RNN)中的经典网络长短期记忆网络(LSTM),其网络结构如图3所示,通过输入MFCC特征,对存在人声的片段进行标记,其输入量为:每个语音帧片段的MFCC特征,39维。输出量包括:输出1:有人声。输出0:无人声。
总体损失函数:Loss=α1*y1_loss+α2*y2_loss,α1+α2=1,设定α1>α2本实施例中,设置α1=0.3,α2=0.7,即认定对一阶段检测错误的惩罚大于二阶段。
基于该损失函数,利用反向传播算法进行训练调参,最后得到训练好的人声检测模型。
步骤S6、获取待检测的多声源声音信号。
步骤S7、对多声源声音信号进行加窗分帧处理,得到若干个语音帧信号。
需要说明的是,本实施例进行分帧的原因是因为语音信号为非平稳信号,其统计属性是随着时间变化的,以汉语为例,一句话中包含很多声母和韵母,不同的拼音,发音的特点很明显是不一样的;但是语音信号又具有短时平稳的属性,比如汉语里一个声母或者韵母,往往只会持续几十到几百毫秒,在这一个发音单元里,语音信号表现出明显的稳定性,规律性。所以在进行语音识别的时候,对于一句话,识别的过程也是以较小的发音单元(音素、字、字节)为单位进行识别,因此用滑动窗来提取短时片段。其中,分帧的过程,在时域上,即用一个窗函数和原始信号进行相乘y[n]=x[n]w[n],其中w[n]称为窗函数,本方案采用汉明窗,其表达式为:
其中,L为帧长为25ms时对应的采样点个数,这里等于400,n为一段语音信号对应的采样点序号,连续时间的声波信号(.wav)在计算机存储为离散的数字序列信号。
步骤S8、提取语音帧信号的MFCC特征,再基于MFCC特征生成语音帧信号的语谱图。
步骤S9、以语谱图作为人声检测模型的输入量,以通过人声检测模型的运算,获得多声源声音信号的人声检测结果。
基于步骤S1至步骤S5所构建的人声检测模型,在实际执行多声源声音信号的人声检测时,只需要获取待检测的多声源声音信号,然后对该多声源声音信号,依次进行分帧、MFCC特征提取以及语谱图生成等处理步骤,然后再将得到的语谱图输入到上述的人声检测模型,以通过人声检测模型的运算,获得多声源声音信号的人声检测结果。
以上内容为本申请提供的一种多声源融合场景的人声检测方法的第一个实施例的详细说明,下面内容为本申请在上述第一个实施例的内容基础上,提供的一种多声源融合场景的人声检测方法的第二个实施例的详细说明。
请查阅图5,本申请第二个实施例提供的一种多声源融合场景的人声检测方法,在第一个实施例提供的内容的基础上,还进一步包括以下内容:
进一步地,第一个实施例中提及的步骤S8具体包括:
通过傅里叶变换处理方式,对语音帧信号进行频域变换,得到语音帧频谱。
需要说明的是,将上一步分帧之后的语音帧,由时域变换到频域,取离散傅里叶变换(Discrete Fourier Transform,DFT)系数的模,得到谱特征。傅里叶分析方法是信号分析的最基本方法,傅里叶变换是傅里叶分析的核心,通过它把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律。
通过预设的梅尔三角滤波器组,对语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对滤波器组能量进行对数转换,得到语音帧信号的Fbank特征。
通过IDFT变换处理方式,将Fbank特征转换成MFCC特征。
需要说明的是,DFT得到了每个频带上信号的能量,但是人耳对频率的感知不是等间隔的,近似于对数函数
·将语音中的线性频率(取0~8kHz)转换为梅尔频率,梅尔频率和线性频率转换关系:
梅尔三角滤波器组:根据起始频率、中间频率和截止频率,确定各滤波器系数(m为滤波器个数)
经过梅尔滤波器之后,得到m个滤波器组能量,进行log操作,得到Fbank特征。进行完以上步骤之后,在Fbank特征基础上继续进行IDFT变换等操作可得到MFCC特征。
基于MFCC特征生成语音帧信号的语谱图。
进一步地,S6之后还包括:
步骤S61、对多声源声音信号的高频部分进行信号加重预处理。
需要说明的是,本实施例进行预加重的原因是为了提高信号高频部分的能量,高频信号在传递过程中,衰减较快,但是高频部分又蕴含很多对语音识别有利的特征,因此,在特征提取部分,需要提高高频部分能量。
预加重滤波器是一个一阶高通滤波器,给定时域输入信号x[n],预加重之后的信号为:
y[n]=x[n]-αx[n-1]
其中,0.9≤α≤1.0,预加重是一个高通滤波过程,因此,低频信号(即时域上信号变换慢的信号)将被抑制;从公式中,可以知道:
(1)如果信号x是低频信号(变化较慢),那么x[n]和x[n-1]的值应该很接近,当α在接近1的时候,x[n]-αx[n-1]接近于0,此信号的幅度将被大大抑制;
(2)如果x是高频信号(变化很快),那么x[n]和x[n-1]的值将相差很大,x[n]-αx[n-1]的值不会趋近0,此信号的幅度还能保持,可以通过此滤波器
其中当α越大,对低频信号抑制越明显。
进一步地,步骤S9之后还可以包括:
步骤S10、根据各个语音帧信号的人声检测结果,确定第一语音帧信号,其中,第一语音帧信号为检测出人声的语音帧信号。
步骤S11、基于各个第一语音帧信号在多声源声音信号中对应的时间段,对多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号。
步骤S12、分别对第一声音信号进行去噪处理和人声增强处理,再从处理后的第一声音信号中提取人声数据。
需要说明的是,基于上述的输出,可以通过设置一个过滤器,根据输出结果对原声进行过滤,得到都含有人声的语音片段,在此基础上,再对处理后语音片段的进行去噪和人声增强,可提取一定质量的人声数据进行使用。
以上内容为本申请提供的一种多声源融合场景的人声检测方法的第二个实施例的详细说明,下面内容为本申请提供的一种多声源融合场景的人声检测装置的一个实施例的详细说明。
请参阅图6,本申请第三个实施例还提供了一种多声源融合场景的人声检测装置,包括:
语音样本获取单元C1,用于获取第一语音帧样本和第二语音帧样本,其中,第一语音帧样本为包含人声的多声源语音帧样本,第二语音帧样本为不包含人声的多声源语音帧的语谱图。
语音样本处理单元C2,用于提取第一语音帧样本和第二语音帧样本的MFCC特征,再基于MFCC特征生成对应的语谱图。
第一训练单元C3,用于利用第一语音帧样本和第二语音帧样本,对深度学习网络单元进行人声MFCC特征识别训练。
第二训练单元C4,用于利用深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练。
人声检测模型构建单元C5,用于基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型。
待检测信号获取单元C6,用于获取待检测的多声源声音信号。
分帧处理单元C7,用于对多声源声音信号进行加窗分帧处理,得到若干个语音帧信号。
语谱图生成单元C8,用于提取语音帧信号的MFCC特征,再基于MFCC特征生成语音帧信号的语谱图。
人声检测运算单元C9,用于以语谱图作为人声检测模型的输入量,以通过人声检测模型的运算,获得多声源声音信号的人声检测结果。
进一步地,语谱图生成单元C8具体用于:
通过傅里叶变换处理方式,对语音帧信号进行频域变换,得到语音帧频谱。
通过预设的梅尔三角滤波器组,对语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对滤波器组能量进行对数转换,得到语音帧信号的Fbank特征。
通过IDFT变换处理方式,将Fbank特征转换成MFCC特征。
基于MFCC特征生成语音帧信号的语谱图。
进一步地,还包括:
预处理单元C61,用于对多声源声音信号的高频部分进行信号加重预处理。
进一步地,还包括:
第一语音帧信号确定单元C10,用于根据各个语音帧信号的人声检测结果,确定第一语音帧信号,其中,第一语音帧信号为检测出人声的语音帧信号。
信号滤波单元C11,用于基于各个第一语音帧信号在多声源声音信号中对应的时间段,对多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号。
人声数据提取单元C12,用于分别对第一声音信号进行去噪处理和人声增强处理,再从处理后的第一声音信号中提取人声数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的终端,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种多声源融合场景的人声检测方法,其特征在于,包括:
获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧样本,所述第二语音帧样本为不包含人声的多声源语音帧的语谱图;
提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
利用所述第一语音帧样本和所述第二语音帧样本,对深度学习网络单元进行人声MFCC特征识别训练;
利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
获取待检测的多声源声音信号;
对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
2.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,所述提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图具体包括:
通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
基于所述MFCC特征生成所述语音帧信号的语谱图。
3.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,所述获取待检测的多声源声音信号之后还包括:
对所述多声源声音信号的高频部分进行信号加重预处理。
4.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,还包括:
根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;
基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;
分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。
5.根据权利要求1所述的一种多声源融合场景的人声检测方法,其特征在于,所述循环神经网络单元具体为LSTM神经网络单元。
6.一种多声源融合场景的人声检测装置,其特征在于,包括:
语音样本获取单元,用于获取第一语音帧样本和第二语音帧样本,其中,所述第一语音帧样本为包含人声的多声源语音帧样本,所述第二语音帧样本为不包含人声的多声源语音帧的语谱图;
语音样本处理单元,用于提取所述第一语音帧样本和所述第二语音帧样本的MFCC特征,再基于所述MFCC特征生成对应的语谱图;
第一训练单元,用于利用所述第一语音帧样本和所述第二语音帧样本,对深度学习网络单元进行人声MFCC特征识别训练;
第二训练单元,用于利用所述深度学习网络单元输出的人声MFCC特征,对循环神经网络单元进行人声检测训练;
人声检测模型构建单元,用于基于训练完成后的深度学习网络单元与循环神经网络单元,构建人声检测模型;
待检测信号获取单元,用于获取待检测的多声源声音信号;
分帧处理单元,用于对所述多声源声音信号进行加窗分帧处理,得到若干个语音帧信号;
语谱图生成单元,用于提取所述语音帧信号的MFCC特征,再基于所述MFCC特征生成所述语音帧信号的语谱图;
人声检测运算单元,用于以所述语谱图作为所述人声检测模型的输入量,以通过所述人声检测模型的运算,获得所述多声源声音信号的人声检测结果。
7.根据权利要求6所述的一种多声源融合场景的人声检测装置,其特征在于,所述语谱图生成单元具体用于:
通过傅里叶变换处理方式,对所述语音帧信号进行频域变换,得到语音帧频谱;
通过预设的梅尔三角滤波器组,对所述语音帧频谱进行梅尔滤波处理,得到若干个滤波器组能量,再对所述滤波器组能量进行对数转换,得到所述语音帧信号的Fbank特征;
通过IDFT变换处理方式,将所述Fbank特征转换成MFCC特征;
基于所述MFCC特征生成所述语音帧信号的语谱图。
8.根据权利要求6所述的一种多声源融合场景的人声检测装置,其特征在于,还包括:
预处理单元,用于对所述多声源声音信号的高频部分进行信号加重预处理。
9.根据权利要求6所述的一种多声源融合场景的人声检测装置,其特征在于,还包括:
第一语音帧信号确定单元,用于根据各个所述语音帧信号的人声检测结果,确定第一语音帧信号,其中,所述第一语音帧信号为检测出人声的语音帧信号;
信号滤波单元,用于基于各个所述第一语音帧信号在所述多声源声音信号中对应的时间段,对所述多声源声音信号中的非第一语音帧信号对应的时间段进行滤波,得到第一声音信号;
人声数据提取单元,用于分别对所述第一声音信号进行去噪处理和人声增强处理,再从处理后的所述第一声音信号中提取人声数据。
10.根据权利要求6所述的一种多声源融合场景的人声检测装置,其特征在于,所述循环神经网络单元具体为LSTM神经网络单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210088372.9A CN114420099A (zh) | 2022-01-25 | 2022-01-25 | 一种多声源融合场景的人声检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210088372.9A CN114420099A (zh) | 2022-01-25 | 2022-01-25 | 一种多声源融合场景的人声检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114420099A true CN114420099A (zh) | 2022-04-29 |
Family
ID=81277932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210088372.9A Pending CN114420099A (zh) | 2022-01-25 | 2022-01-25 | 一种多声源融合场景的人声检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114420099A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115902774A (zh) * | 2022-10-13 | 2023-04-04 | 广州成至智能机器科技有限公司 | 无人机声源定位方法、装置、无人机及存储介质 |
-
2022
- 2022-01-25 CN CN202210088372.9A patent/CN114420099A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115902774A (zh) * | 2022-10-13 | 2023-04-04 | 广州成至智能机器科技有限公司 | 无人机声源定位方法、装置、无人机及存储介质 |
CN115902774B (zh) * | 2022-10-13 | 2023-11-07 | 广州成至智能机器科技有限公司 | 无人机声源定位方法、装置、无人机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN107945805A (zh) | 一种智能化跨语言语音识别转化方法 | |
CN111048071B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN108198545A (zh) | 一种基于小波变换的语音识别方法 | |
CN110931023B (zh) | 性别识别方法、系统、移动终端及存储介质 | |
CN111696580B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN111445900A (zh) | 一种语音识别的前端处理方法、装置及终端设备 | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN110534091A (zh) | 一种基于微服务器及智能语音识别的人车交互方法 | |
CN113823323A (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN111145726B (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
CN114420099A (zh) | 一种多声源融合场景的人声检测方法及装置 | |
Saritha et al. | Enhancement in speaker recognition using SincNet through optimal window and frame shift | |
Kharamat et al. | Durian ripeness classification from the knocking sounds using convolutional neural network | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN117496998A (zh) | 一种音频分类方法、装置、存储介质 | |
CN112614510A (zh) | 一种音频质量评估方法及装置 | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
CN113889073B (zh) | 语音处理方法、装置、电子设备和存储介质 | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |