CN108806707A - 语音处理方法、装置、设备及存储介质 - Google Patents
语音处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108806707A CN108806707A CN201810595783.0A CN201810595783A CN108806707A CN 108806707 A CN108806707 A CN 108806707A CN 201810595783 A CN201810595783 A CN 201810595783A CN 108806707 A CN108806707 A CN 108806707A
- Authority
- CN
- China
- Prior art keywords
- speech frame
- vad
- speech
- frame
- masking threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000873 masking effect Effects 0.000 claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 4
- 230000000630 rising effect Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供一种语音处理方法、装置、设备及存储介质,包括:获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。根据N个语音帧的VAD信息修正第一掩蔽阈值,得到第二掩蔽阈值。根据第二掩蔽阈值对N个第一声学特征进行处理,得到第二声学特征。从而提高噪声抑制效果,并且降低语音损伤。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、设备及存储介质。
背景技术
在低噪声情况下,人类的听觉系统可以分辨出嘈杂环境中的感兴趣的声音,这个现象叫做“鸡尾酒会效应”。“鸡尾酒会效应”通常被在技术上描述为盲源分离问题,也就是在没有参考信号的情况下,把感兴趣的“前景音”从嘈杂的“背景音”中分离出来。
盲源分离主要的技术手段是估计掩蔽阈值(mask),并通过掩蔽阈值对声学特征进行处理。目前采用神经网络算法估计掩蔽阈值。例如:针对语音的快速傅里叶变换(FastFourier Transform,FFT)的幅值谱这一特征,通过如下公式估计掩蔽阈值:其中,t表示第t个语音帧,f表示第f个频点,表示第(t,f)时频点的干净(clean)语音的功率;表示第(t,f)时频点的带有噪声(noisy)的语音的功率。然而,在实际应用中干净语音还是携带有噪声,基于此,造成估计得到的掩蔽阈值不够准确,进而导致语音处理效果不佳。
发明内容
为了解决上述技术问题,本申请提供一种语音处理方法、装置、设备及存储介质,其中根据vad信息对掩蔽阈值修正,从而消除了大量离散的掩蔽阈值,进而提高了噪声抑制效果,并且降低了语音损伤。
第一方面,本申请提供一种语音处理方法,包括:获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。根据N个语音帧的语音活动检测VAD信息修正第一掩蔽阈值,得到第二掩蔽阈值。根据第二掩蔽阈值对N个第一声学特征进行处理,得到第二声学特征。
本申请的有益效果包括:通过vad信息对掩蔽阈值修正,从而消除了大量离散的掩蔽阈值,通过修正后的掩蔽阈值对声学特征进行处理,可以提高噪声抑制效果,并且降低语音损伤。
可选地,根据N个语音帧的VAD信息修正第一掩蔽阈值,包括:计算VAD信息与第一掩蔽阈值的乘积,得到第二掩蔽阈值。通过该方法可以有效的修正第一掩蔽阈值。
可选地,VAD信息包括:每个语音帧对应的VAD值。当N个语音帧包括静音帧时,将静音帧对应的VAD值置为0。通过该方法可以确定VAD信息,以修正第一掩蔽阈值。
可选地,VAD信息包括:每个语音帧对应的VAD值。相应的,根据N个语音帧的语音活动检测VAD信息修正第一掩蔽阈值之前,还包括:确定N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,M1个语音帧与P1个语音帧相邻,其中M1和P1均为大于1的正整数。对M1个语音帧中的M2个语音帧对应的VAD值和P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使M2个语音帧和P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,M2个语音帧与P2个语音帧相邻,其中1≤M2≤M1,1≤P2≤P1。通过该方法可以确定VAD信息,以修正第一掩蔽阈值。
可选地,确定N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,包括:确定N个语音帧中的每个语音帧对应的电话类型,类型包括:静音和非静音。将类型为静音的语音帧确定为VAD值为0的语音帧。将类型为非静音的语音帧确定为VAD值为1的语音帧。
可选地,M2和P2通过hamming窗、三角窗或者hanning窗确定。
下面将提供一种语音处理装置、设备、存储介质及计算机程序产品,其效果和参考上述方法部分的效果,下面对此不再赘述。
第二方面,本申请提供一种语音处理装置,包括:
获取模块,用于获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。
训练模块,用于对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。
修正模块,用于根据N个语音帧的语音活动检测VAD信息修正第一掩蔽阈值,得到第二掩蔽阈值。
第一处理模块,用于根据第二掩蔽阈值对N个第一声学特征进行处理,得到第二声学特征。
可选地,修正模块具体用于:计算VAD信息与第一掩蔽阈值的乘积,得到第二掩蔽阈值。
可选地,VAD信息包括:每个语音帧对应的VAD值。相应的,装置还包括:设置模块,用于当N个语音帧包括静音帧时,将静音帧对应的VAD值置为0。
可选地,VAD信息包括:每个语音帧对应的VAD值。相应的,装置还包括:
确定模块,用于确定N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,M1个语音帧与P1个语音帧相邻,其中M1和P1均为大于1的正整数。
第二处理模块,用于对M1个语音帧中的M2个语音帧对应的VAD值和P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使M2个语音帧和P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,M2个语音帧与P2个语音帧相邻,其中1≤M2≤M1,1≤P2≤P1。
可选地,确定模块具体用于:确定N个语音帧中的每个语音帧对应的电话类型,类型包括:静音和非静音。将类型为静音的语音帧确定为VAD值为0的语音帧。将类型为非静音的语音帧确定为VAD值为1的语音帧。
可选地,M2和P2通过hamming窗、三角窗或者hanning窗确定。
第三方面,本申请提供一种语音处理设备,包括:
存储器和处理器。
存储器用于存储处理器的执行指令,以使处理器执行如第一方面或第一方面的可选方式的语音处理方法。
第四方面,本申请提供一种存储介质,包括:计算机可执行指令,指令用于实现如第一方面或第一方面的可选方式的语音处理方法。
第五方面,本申请提供一种计算机程序产品,包括:计算机可执行指令,指令用于实现如第一方面或第一方面的可选方式的语音处理方法。
本申请提供一种语音处理方法、装置、设备及存储介质,包括:获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。根据N个语音帧的语音活动检测VAD信息修正第一掩蔽阈值,得到第二掩蔽阈值。根据第二掩蔽阈值对N个第一声学特征进行处理,得到第二声学特征。通过vad信息对掩蔽阈值修正,从而消除了大量离散的掩蔽阈值,通过修正后的掩蔽阈值对声学特征进行处理,可以提高噪声抑制效果,并且降低语音损伤。
附图说明
图1为本申请一实施例提供的一种语音处理方法的流程图;
图2为本申请另一实施例提供的一种语音处理方法的流程图;
图3为本申请一实施例提供的对VAD值作平滑处理的示意图;
图4为本申请一实施例提供的一种语音处理装置400的示意图;
图5为本申请一实施例提供的一种语音处理设备500的示意图。
具体实地施方式
如上所述,“鸡尾酒会效应”通常被在技术上描述为盲源分离问题,也就是在没有参考信号的情况下,把感兴趣的“前景音”从嘈杂的“背景音”中分离出来。
盲源分离可以应用于如下几个场景:
场景一:将目标讲话人的语音从多个讲话人的语音中提取出来。例如:客厅里电视正在播放新闻联播,用户想和茶几上智能音箱进行交互。音箱同时接收到了用户的语音请求,和新闻联播中主持人的播报。也就是说,同一时刻,两个人在说话。
场景二:将语音从背景噪声中分离出来。例如:司机在开车的时候,车机或者手机的麦克风会接收到各种噪声,如风噪、路噪,鸣笛等,盲源分离可以抑制这些环境噪声,只把司机的语音提取出来。
盲源分离实际上是一个回归模型,如果模型性能不理想,就会出现如下缺陷:
1、背景音没有消除。也就是说盲源分离去噪效果差,对噪声的抑制能力低。
2、目标语音也被消除了。也就是说,盲源分离不仅抑制了噪声,同时,也抑制了目标语音。
3、噪声没有消除干净,目标语音被损伤了。这个情况最为普遍,也就是在某些时频点上,噪声仍然存在;而在另一些时频点上,目标语音却被消除了。
因此,盲源分离最核心的两个技术为:噪声抑制和不损伤目标语音。好的盲源分离应该能够在目标语音尽量少的损伤的情况下,把背景噪声抑制到最强程度。
盲源分离的关键环节在于计算mask。在现有技术中,针对每一个语音帧的声学特征,利用神经网络预测一个0到1之间的输出向量,该输出向量即为mask。
上述的声学特征可以是FFT的幅值谱、梅尔频率倒谱系数(Mel-frequencyCepstrum Coefficients,MFCC),梅尔标度滤波器组(Mel-scale Filter Bank,FBank)或者感知线性预测(Perceptual Linear Predictive,PLP)等。
例如:针对语音的FFT的幅值谱这一特征,通过如下公式估计mask:其中,t表示第t个语音帧,f表示第f个频点,表示第(t,f)时频点的干净(clean)语音的功率;表示第(t,f)时频点的带有噪声(noisy)的语音的功率。然而,在实际应用中干净语音还是携带有噪声,基于此,造成估计得到的掩蔽阈值不够准确,进而导致语音处理效果不佳。
为了解决该技术问题,本申请提供语音处理方法、装置、设备及存储介质。其中,本申请的技术方案应用于上述盲源分离的应用场景,但不限于上述场景。具体地,图1为本申请一实施例提供的一种语音处理方法的流程图,该方法的执行主体为计算机、手机、笔记本电脑等智能终端的部分或整体,下面以该方法的执行主体为计算机对该方法进行说明。如图1所示,该语音处理方法包括如下方法步骤:
步骤S101:获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。
步骤S102:对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。
步骤S103:根据N个语音帧的语音活动检测(Voice Activity Detection,VAD)信息修正第一掩蔽阈值,得到第二掩蔽阈值。
步骤S104:根据第二掩蔽阈值对所述N个第一声学特征进行处理,得到第二声学特征。
针对步骤S101进行说明:
该第一声学特征可以是FFT的幅值谱、MFCC、FBank或者PLP中的任一项,本申请对第一声学特征不作限制。实际上,N个语音帧中每个语音帧的第一声学特征构成一个第一声学特征向量,该向量包括N个元素,N个元素分别是N个语音帧分别对应的第一声学特征。
针对步骤S102进行说明:
需要说明的是,本申请涉及的神经网络算法是现有技术中用于计算掩蔽阈值mask的神经网络算法,本申请对此不作限制。
进一步地,如上所述,对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值,该第一掩蔽阈值是包括N个分量的向量,N个分量分别与N个第一声学特征一一对应,N个分量中的每个分量的取值范围为【0,1】。
针对步骤S103进行说明:
VAD又被称为语音端点检测、语音边界检测等,它是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。
本申请涉及的VAD可以是预先设置的,也可以是根据语音帧的电话类型确定,该类型可以是静音(silence)或非静音(phone)。
其中,根据语音帧的电话类型确定VAD的方法如下:
可选方式一,VAD信息包括:N个语音帧中每个语音帧对应的VAD值;其中,当N个语音帧包括静音帧时,将静音帧对应的VAD值为0,相反,当N个语音帧包括非静音帧时,该非静音帧对应的VAD值大于0且小于或等于1。其中所谓“静音帧”是指类型为静音的语音帧。所谓“非静音帧”是指类型为非静音的语音帧。
可选地,根据N个语音帧的语音活动检测VAD信息修正第一掩蔽阈值,包括:计算VAD信息与第一掩蔽阈值的乘积,得到第二掩蔽阈值。或者,计算VAD信息、第一掩蔽阈值以及预设系数三者的乘积,得到第二掩蔽阈值。本申请对如何根据第二掩蔽阈值不作限制。其中,该第二掩蔽阈值也是包括N个分量的向量,N个分量分别与N个第一声学特征一一对应,N个分量中的每个分量的取值范围为【0,1】,该预设系数可以大于0且小于或等于1。
基于此,当某VAD值为0时,对应的第二掩蔽阈值中的分量也为0。本申请将这种修正方式叫hard修正方式。
可选方式二,VAD信息包括:N个语音帧中每个语音帧对应的VAD值。相应地,图2为本申请另一实施例提供的一种语音处理方法的流程图,如图2所示,在步骤S103之前,该语音处理方法还包括:
步骤S1031:确定N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,M1个语音帧与P1个语音帧相邻。
步骤S1032:对M1个语音帧中的M2个语音帧对应的VAD值和P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使M2个语音帧和P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,M2个语音帧与P2个语音帧相邻。
针对步骤S1301进行说明:其中M1和P1均为大于1的正整数,M1+P1=N,具体地,首先确定N个语音帧中的每个语音帧对应的电话类型,类型包括:静音和非静音;将所述类型为静音的语音帧确定为VAD值为0的语音帧;将所述类型为非静音的语音帧确定为VAD值为1的语音帧。
其中,在本申请中,可以采用“强制对齐”的方式确定N个语音帧中的每个语音帧对应的电话类型,这里所谓“强制对齐”是指确定每个类型的起止时间,如某类型对应的是哪一语音帧或哪几语音帧。例如:将N个语音帧中的前M1语音帧强制对齐至静音类型,将M1语音帧之后的P1语音帧强制对齐至非静音类型。需要说明的是,将N个语音帧中的前M1语音帧强制对齐至静音类型,将M1语音帧之后的P1语音帧强制对齐至非静音类型仅为一种示例,实际上,N个语音帧也依次由N1个静音类型的语音帧,N2个非静音类型的语音帧,N3个静音类型的语音帧……Nn个非静音类型的语音帧构成,其中N1+N2+……Nn=N,N1、N2、……Nn均为大于或等于0的整数。本申请对此不做限制。
针对步骤S1302进行说明:1≤M2≤M1,1≤P2≤P1,可选地,M2和P2通过hamming窗、三角窗或者hanning窗确定。优选地,M2+P2=10。图3为本申请一实施例提供的对VAD值作平滑处理的示意图,如图3所示,第0个语音帧到第30个语音帧为静音帧,即它们本身对应的VAD值为0,第31个语音帧到第280个语音帧为非静音帧,即它们本身对应的VAD值为1,第281个语音帧到第300个语音帧又为静音帧,即它们本身对应的VAD值为0。下面对从第20个语音帧到第40个语音帧进行平滑处理,具体可以确定第20个语音帧的对应的点坐标(20,0),以及第40个语音帧的对应的点坐标(40,1),根据两点确定直线,该直线即为从第20个语音帧到第40个语音帧进行平滑处理后的结果,基于此,从第20个语音帧到第40个语音帧VAD值由0渐变为1。同样地,对从第260个语音帧到第290个语音帧进行平滑处理,具体可以确定第260个语音帧的对应的点坐标(260,1),以及第290个语音帧的对应的点坐标(290,0),根据两点确定直线,该直线即为从第260个语音帧到第290个语音帧进行平滑处理后的结果,基于此,从第260个语音帧到第290个语音帧VAD值由1渐变为0。
本申请将这种可选方式二叫soft修正方式。
针对步骤S104进行说明:
一种可选方式,根据第二掩蔽阈值对所述N个第一声学特征进行处理,得到N个第二声学特征。假设将任一第二声学特征记为estimate,将该第二声学特征对应的第一声学特征记为noise,将第二掩蔽阈值中该第一声学特征对应的分量记为h,则estimate=noise*h。其中“*”表示乘积。
另一种可选方式,根据第二掩蔽阈值对所述N个第一声学特征进行处理,得到一个第二声学特征。假设将该第二声学特征记为estimate,将N个第一声学特征记为noise(N),其中noise(N)是由N个第一声学特征构成的向量,将第二掩蔽阈值中该第一声学特征对应的分量记为h(N),则estimate=noise(N)*(h(N))T。其中“*”表示向量的乘积,(h(N))T表示h(N)的转置。
综上,本申请提供一种语音处理方法,该方法的关键技术在于根据vad信息对掩蔽阈值修正,从而消除了大量离散的掩蔽阈值,进而提高了噪声抑制效果,并且降低了语音损伤。
图4为本申请一实施例提供的一种语音处理装置400的示意图,如图4所示,该语音处理装置可以是计算机、平板电脑或手机的部分或全部,如该装置可以是计算机或者可以是处理器等,该装置包括:
获取模块401,用于获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。
训练模块402,用于对获取模块401获取到的N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。
修正模块403,用于根据N个语音帧的VAD信息修正训练模块402得到的第一掩蔽阈值,得到第二掩蔽阈值。
第一处理模块404,用于根据修正模块403得到的第二掩蔽阈值对N个第一声学特征进行处理,得到第二声学特征。
可选地,修正模块403具体用于:
计算VAD信息与第一掩蔽阈值的乘积,得到第二掩蔽阈值。
可选地,VAD信息包括:每个语音帧对应的VAD值。相应的,装置还包括:
设置模块405,用于当N个语音帧包括静音帧时,将静音帧对应的VAD值置为0。
可选地,VAD信息包括:每个语音帧对应的VAD值。
相应的,装置还包括:
确定模块406,用于确定N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,M1个语音帧与P1个语音帧相邻,其中M1和P1均为大于1的正整数。
第二处理模块407,用于对M1个语音帧中的M2个语音帧对应的VAD值和P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使M2个语音帧和P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,M2个语音帧与P2个语音帧相邻,其中1≤M2≤M1,1≤P2≤P1。
可选地,确定模块406具体用于:确定N个语音帧中的每个语音帧对应的电话类型,类型包括:静音和非静音。将类型为静音的语音帧确定为VAD值为0的语音帧。将类型为非静音的语音帧确定为VAD值为1的语音帧。
可选地,M2和P2通过hamming窗、三角窗或者hanning窗确定。
本申请提供一种语音处理装置,该装置可用于上述的语音处理方法,其内容和效果可参考方法实施例部分,本申请在此不再赘述。
图5为本申请一实施例提供的一种语音处理设备500的示意图,该语音处理设备可以是计算机、平板电脑或手机等智能设备,如图5所示,该设备包括:
存储器501和处理器502。其中,存储器501用于存储所述处理器502的执行指令,以使所述处理器502执行上述的语音处理方法。
可选地,该设备还包括:收发器503,该收发器503用于实现该设备500与其他设备之间的通信。
存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-Only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器502可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理设备(Digital Signal Processing Device,DSPD)、可编程逻辑器件(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
具体地,处理器502用于实现如下方法:获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数。对N个第一声学特征采用神经网络算法,得到第一掩蔽阈值。根据N个语音帧的VAD信息修正第一掩蔽阈值,得到第二掩蔽阈值。根据第二掩蔽阈值对N个第一声学特征进行处理,得到第二声学特征。
可选地,处理器502还用于计算VAD信息与第一掩蔽阈值的乘积,得到第二掩蔽阈值。
可选地,VAD信息包括:每个语音帧对应的VAD值。相应的,处理器502还用于当N个语音帧包括静音帧时,将静音帧对应的VAD值置为0。
可选地,VAD信息包括:每个语音帧对应的VAD值。处理器502还用于确定N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,M1个语音帧与P1个语音帧相邻,其中M1和P1均为大于1的正整数。对M1个语音帧中的M2个语音帧对应的VAD值和P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使M2个语音帧和P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,M2个语音帧与P2个语音帧相邻,其中1≤M2≤M1,1≤P2≤P1。
可选地,处理器502具体用于:确定N个语音帧中的每个语音帧对应的电话类型,类型包括:静音和非静音。将类型为静音的语音帧确定为VAD值为0的语音帧。将类型为非静音的语音帧确定为VAD值为1的语音帧。
可选地,M2和P2通过hamming窗、三角窗或者hanning窗确定。
本申请提供一种语音处理设备,该设备可用于上述的语音处理方法,其内容和效果可参考方法实施例部分,本申请在此不再赘述。
本申请还提供一种存储介质,包括:计算机可执行指令,该指令用于实现如上述的语音处理方法。其内容和效果可参考方法实施例部分,本申请在此不再赘述。
本申请还提供一种计算机程序产品,包括:计算机可执行指令,该指令用于实现如上述的语音处理方法。其内容和效果可参考方法实施例部分,本申请在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种语音处理方法,其特征在于,包括:
获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数;
对N个所述第一声学特征采用神经网络算法,得到第一掩蔽阈值;
根据所述N个语音帧的语音活动检测VAD信息修正所述第一掩蔽阈值,得到第二掩蔽阈值;
根据第二掩蔽阈值对N个所述第一声学特征进行处理,得到第二声学特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N个语音帧的语音活动检测VAD信息修正所述第一掩蔽阈值,包括:
计算所述VAD信息与所述第一掩蔽阈值的乘积,得到所述第二掩蔽阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述VAD信息包括:所述每个语音帧对应的VAD值;
当所述N个语音帧包括静音帧时,将所述静音帧对应的VAD值置为0。
4.根据权利要求1或2所述的方法,其特征在于,所述VAD信息包括:所述每个语音帧对应的VAD值;
相应的,所述根据所述N个语音帧的语音活动检测VAD信息修正所述第一掩蔽阈值之前,还包括:
确定所述N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,所述M1个语音帧与所述P1个语音帧相邻,其中M1和P1均为大于1的正整数;
对所述M1个语音帧中的M2个语音帧对应的VAD值和所述P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使所述M2个语音帧和所述P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,所述M2个语音帧与所述P2个语音帧相邻,其中1≤M2≤M1,1≤P2≤P1。
5.根据权利要求4所述的方法,其特征在于,所述确定所述N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,包括:
确定所述N个语音帧中的每个语音帧对应的电话类型,所述类型包括:静音和非静音;
将所述类型为静音的语音帧确定为VAD值为0的语音帧;
将所述类型为非静音的语音帧确定为VAD值为1的语音帧。
6.根据权利要求5所述的方法,其特征在于,M2和P2通过hamming窗、三角窗或者hanning窗确定。
7.一种语音处理装置,其特征在于,包括:
获取模块,用于获取N个语音帧中每个语音帧的第一声学特征,N为大于1的正整数;
训练模块,用于对N个所述第一声学特征采用神经网络算法,得到第一掩蔽阈值;
修正模块,用于根据所述N个语音帧的语音活动检测VAD信息修正所述第一掩蔽阈值,得到第二掩蔽阈值;
第一处理模块,用于根据第二掩蔽阈值对N个所述第一声学特征进行处理,得到第二声学特征。
8.根据权利要求7所述的装置,其特征在于,所述修正模块具体用于:
计算所述VAD信息与所述第一掩蔽阈值的乘积,得到所述第二掩蔽阈值。
9.根据权利要求7或8所述的装置,其特征在于,所述VAD信息包括:所述每个语音帧对应的VAD值;相应的,所述装置还包括:
设置模块,用于当所述N个语音帧包括静音帧时,将所述静音帧对应的VAD值置为0。
10.根据权利要求7或8所述的装置,其特征在于,所述VAD信息包括:所述每个语音帧对应的VAD值;
相应的,所述装置还包括:
确定模块,用于确定所述N个语音帧中VAD值为1的M1个语音帧,以及,VAD值为0的P1个语音帧,所述M1个语音帧与所述P1个语音帧相邻,其中M1和P1均为大于1的正整数;
第二处理模块,用于对所述M1个语音帧中的M2个语音帧对应的VAD值和所述P1个语音帧中的P2个语音帧对应的VAD值作平滑处理,以使所述M2个语音帧和所述P2个语音帧对应的VAD值由0渐变至1或者由1渐变至0,所述M2个语音帧与所述P2个语音帧相邻,其中1≤M2≤M1,1≤P2≤P1。
11.根据权利要求10所述的装置,其特征在于,所述确定模块具体用于:
确定所述N个语音帧中的每个语音帧对应的电话类型,所述类型包括:静音和非静音;
将所述类型为静音的语音帧确定为VAD值为0的语音帧;
将所述类型为非静音的语音帧确定为VAD值为1的语音帧。
12.根据权利要求11所述的装置,其特征在于,M2和P2通过hamming窗、三角窗或者hanning窗确定。
13.一种语音处理设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储所述处理器的执行指令,以使所述处理器执行如权利要求1-6任一项所述的语音处理方法。
14.一种存储介质,其特征在于,包括:计算机可执行指令,所述指令用于实现如权利要求1-6任一项所述的语音处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810595783.0A CN108806707B (zh) | 2018-06-11 | 2018-06-11 | 语音处理方法、装置、设备及存储介质 |
JP2018244655A JP6764923B2 (ja) | 2018-06-11 | 2018-12-27 | 音声処理方法、装置、デバイスおよび記憶媒体 |
US16/236,261 US10839820B2 (en) | 2018-06-11 | 2018-12-28 | Voice processing method, apparatus, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810595783.0A CN108806707B (zh) | 2018-06-11 | 2018-06-11 | 语音处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108806707A true CN108806707A (zh) | 2018-11-13 |
CN108806707B CN108806707B (zh) | 2020-05-12 |
Family
ID=64088192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810595783.0A Active CN108806707B (zh) | 2018-06-11 | 2018-06-11 | 语音处理方法、装置、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10839820B2 (zh) |
JP (1) | JP6764923B2 (zh) |
CN (1) | CN108806707B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970046A (zh) * | 2019-11-29 | 2020-04-07 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN111028858A (zh) * | 2019-12-31 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210256993A1 (en) * | 2020-02-18 | 2021-08-19 | Facebook, Inc. | Voice Separation with An Unknown Number of Multiple Speakers |
KR20230086096A (ko) * | 2021-12-08 | 2023-06-15 | 현대자동차주식회사 | 차량 내 개인화된 사운드 마스킹 방법 및 장치 |
CN116403564B (zh) * | 2023-05-15 | 2023-09-26 | 清华大学 | 一种音频编辑方法及装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101627426A (zh) * | 2007-03-05 | 2010-01-13 | 艾利森电话股份有限公司 | 用于控制稳态背景噪声的平滑的方法和设备 |
US7756707B2 (en) * | 2004-03-26 | 2010-07-13 | Canon Kabushiki Kaisha | Signal processing apparatus and method |
CN102157156A (zh) * | 2011-03-21 | 2011-08-17 | 清华大学 | 一种单通道语音增强的方法和系统 |
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
CN102708855A (zh) * | 2011-02-25 | 2012-10-03 | 微软公司 | 利用话音识别器反馈来进行语音活动检测 |
CN103280225A (zh) * | 2013-05-24 | 2013-09-04 | 广州海格通信集团股份有限公司 | 一种低复杂度的静音检测方法 |
CN103325388A (zh) * | 2013-05-24 | 2013-09-25 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的静音检测方法 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN105261375A (zh) * | 2014-07-18 | 2016-01-20 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
US9997172B2 (en) * | 2013-12-02 | 2018-06-12 | Nuance Communications, Inc. | Voice activity detection (VAD) for a coded speech bitstream without decoding |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4445460B2 (ja) * | 2000-08-31 | 2010-04-07 | パナソニック株式会社 | 音声処理装置及び音声処理方法 |
US7620546B2 (en) * | 2004-03-23 | 2009-11-17 | Qnx Software Systems (Wavemakers), Inc. | Isolating speech signals utilizing neural networks |
JP2008129077A (ja) * | 2006-11-16 | 2008-06-05 | Matsushita Electric Ind Co Ltd | ノイズ除去装置 |
CN101621024B (zh) | 2008-07-02 | 2013-06-19 | 楼氏电子(苏州)有限公司 | 崩片机及崩片方法 |
US8126176B2 (en) * | 2009-02-09 | 2012-02-28 | Panasonic Corporation | Hearing aid |
JP5413575B2 (ja) * | 2009-03-03 | 2014-02-12 | 日本電気株式会社 | 雑音抑圧の方法、装置、及びプログラム |
US20180277134A1 (en) * | 2014-06-30 | 2018-09-27 | Knowles Electronics, Llc | Key Click Suppression |
US10128890B2 (en) * | 2014-09-09 | 2018-11-13 | Ppip Llc | Privacy and security systems and methods of use |
JP6623376B2 (ja) * | 2016-08-26 | 2019-12-25 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
JP6489163B2 (ja) * | 2017-06-22 | 2019-03-27 | 株式会社Jvcケンウッド | 雑音低減装置、雑音低減方法およびプログラム。 |
US10553236B1 (en) * | 2018-02-27 | 2020-02-04 | Amazon Technologies, Inc. | Multichannel noise cancellation using frequency domain spectrum masking |
-
2018
- 2018-06-11 CN CN201810595783.0A patent/CN108806707B/zh active Active
- 2018-12-27 JP JP2018244655A patent/JP6764923B2/ja active Active
- 2018-12-28 US US16/236,261 patent/US10839820B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756707B2 (en) * | 2004-03-26 | 2010-07-13 | Canon Kabushiki Kaisha | Signal processing apparatus and method |
CN101627426A (zh) * | 2007-03-05 | 2010-01-13 | 艾利森电话股份有限公司 | 用于控制稳态背景噪声的平滑的方法和设备 |
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
CN102708855A (zh) * | 2011-02-25 | 2012-10-03 | 微软公司 | 利用话音识别器反馈来进行语音活动检测 |
CN102157156A (zh) * | 2011-03-21 | 2011-08-17 | 清华大学 | 一种单通道语音增强的方法和系统 |
CN103280225A (zh) * | 2013-05-24 | 2013-09-04 | 广州海格通信集团股份有限公司 | 一种低复杂度的静音检测方法 |
CN103325388A (zh) * | 2013-05-24 | 2013-09-25 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的静音检测方法 |
US9997172B2 (en) * | 2013-12-02 | 2018-06-12 | Nuance Communications, Inc. | Voice activity detection (VAD) for a coded speech bitstream without decoding |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN105261375A (zh) * | 2014-07-18 | 2016-01-20 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
Non-Patent Citations (1)
Title |
---|
杨永锋: ""经验模态分解在振动分析中的应用"", 《经验模态分解在振动分析中的应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970046A (zh) * | 2019-11-29 | 2020-04-07 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN110970046B (zh) * | 2019-11-29 | 2022-03-11 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN111028858A (zh) * | 2019-12-31 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
CN111028858B (zh) * | 2019-12-31 | 2022-02-18 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20190378529A1 (en) | 2019-12-12 |
CN108806707B (zh) | 2020-05-12 |
JP6764923B2 (ja) | 2020-10-07 |
JP2019215514A (ja) | 2019-12-19 |
US10839820B2 (en) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108806707A (zh) | 语音处理方法、装置、设备及存储介质 | |
Han et al. | Learning spectral mapping for speech dereverberation and denoising | |
Cauchi et al. | Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
US8515085B2 (en) | Signal processing apparatus | |
US10553236B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
KR20190001280A (ko) | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 | |
US10755728B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
KR20160125984A (ko) | 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
EP3726529A1 (en) | Method and apparatus for determining a deep filter | |
Morita et al. | Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments | |
EP2774147B1 (en) | Audio signal noise attenuation | |
JP5443547B2 (ja) | 信号処理装置 | |
Jokinen et al. | Signal-to-noise ratio adaptive post-filtering method for intelligibility enhancement of telephone speech | |
CN108053834B (zh) | 音频数据处理方法、装置、终端及系统 | |
CN109741761B (zh) | 声音处理方法和装置 | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
EP4275206A1 (en) | Determining dialog quality metrics of a mixed audio signal | |
Pardede | On noise robust feature for speech recognition based on power function family | |
Kurpukdee et al. | Improving voice activity detection by using denoising-based techniques with convolutional lstm | |
CN111933111A (zh) | 语音唤醒方法、装置、电子设备和存储介质 | |
CN111462757A (zh) | 基于语音信号的数据处理方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |