CN115620739A - 指定方向的语音增强方法及电子设备和存储介质 - Google Patents
指定方向的语音增强方法及电子设备和存储介质 Download PDFInfo
- Publication number
- CN115620739A CN115620739A CN202211231387.2A CN202211231387A CN115620739A CN 115620739 A CN115620739 A CN 115620739A CN 202211231387 A CN202211231387 A CN 202211231387A CN 115620739 A CN115620739 A CN 115620739A
- Authority
- CN
- China
- Prior art keywords
- voice
- target
- region
- speaker
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000002708 enhancing effect Effects 0.000 title description 3
- 238000000926 separation method Methods 0.000 claims abstract description 43
- 230000000873 masking effect Effects 0.000 claims abstract description 38
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种指定方向的语音增强方法、电子设备和存储介质,其中方法包括:获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。本发明实施例通过对语音信号中的各区域的增强结果以及语音掩蔽值进行判断,确定目标区域内各说话人的语音存在概率,再根据语音存在概率对各区域的增强结果进行语音分离,来实现对目标区域的目标说话人的语音增强。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种指定方向的语音增强方法及电子设备和存储介质。
背景技术
在现有的定向拾音技术中,通过获取采集到的多个目标声音以及用户输入的定向拾音指令,并对多个目标声音时延补偿,以使得多个目标声音的时序一致;将多个目标声音中与定向拾音指令对应的目标声音作为指向声音,并对指向声音进行降噪。MCRA(minimacontrolled recursive averaging algorithms)最小值递归平均算法噪声估计方法为传统信号处理方法,只能估计较为平稳的噪声,无法跟踪估计突变的噪声,如鼠标键盘敲击声、音乐铃声、关门声等。
在现有技术中,还提出一种目标声源定向拾音方法,采集所有预设声强级范围内的声源信号,获得声源信号观测矩阵;二,对声源观测矩阵进行滤波、分帧等处理并计算短时谱;三,利用TDOA(time different of arrival)到达时间差法确定互相关曲线上延迟最小的峰值位置所对应的目标声源大致方位;四,在目标声源大致方位范围内,利用MVDR(minimum variance distortionless response)最小方差无失真响应法确定目标声源准确位置;五,根据目标声源准确位置定向采集目标声源信号;六,当目标声源为两个或多个时在原互相关曲线其余峰值位置重复步骤三至五,直至完成所有目标声源定向拾音。DOA(direction of arrival)波达方向算法在有环境噪声的情况下,声源方向的准确率会下降,噪声越强准确率越低,方向计算错误会显著破坏拾音效果。该现有方案无法处理和目标声源方向相同的噪声。
发明人发现:在定向拾音技术中传统的噪声估计算法噪声变化速率比语音慢,无法准确和及时地估出突变的非稳态噪声;对于目标声源定向拾音方法,当存在环境噪声情况下,语音信噪比降低影响相关矩阵的结果,从而求得的信号和噪声子空间与真实值存在偏差,导致计算出的信号方向与真实声源方向存在偏差。
发明内容
本发明实施例旨在至少解决上述技术问题之一。
第一方面,本发明实施例提供一种指定方向的语音增强方法,包括:获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,其中,所述各区域包括目标区域和/或非目标区域,所述目标区域为给定角度范围的区域;基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。
第二方面,本发明实施例提供一种指定方向的语音增强装置,包括:获取模块,配置为获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,其中,所述各区域包括目标区域和/或非目标区域,所述目标区域为给定角度范围的区域;判断模块,配置为基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;分离模块,配置为基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。
第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项指定方向的语音增强方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项指定方向的语音增强方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项指定方向的语音增强方法。
本发明实施例通过对语音信号中的各区域的增强结果以及语音掩蔽值进行判断,确定目标区域内各说话人的语音存在概率,再根据语音存在概率对各区域的增强结果进行语音分离,来实现对目标区域的目标说话人的语音增强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的指定方向的语音增强方法的一实施例的流程图;
图2为本发明的指定方向的语音增强方法的另一实施例的流程图;
图3为本发明的指定方向的语音增强方法的又一实施例的流程图;
图4为本发明的指定方向的语音增强方法的又一实施例的流程图;
图5为本发明提供的一种指定方向的语音增强装置示意图;
图6为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供一种指定方向的语音增强方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。
请参考图1,其示出了本发明一实施例提供的一种指定方向的语音增强方法。
如图1所示,在步骤101中,获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,其中,所述各区域包括目标区域和/或非目标区域,所述目标区域为给定角度范围的区域;
在步骤102中,基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;
在步骤103中,基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。
在本实施例中,对于步骤101,获取各区域的语音信号,利用麦克风阵列波束形成算法来计算语音信号中各区域的增强结果,其中各区域包括目标区域和/或非目标区域,将语音信号中计算得到的目标区域及非目标区域的增强结果分别输入预先训练好的神经网络模型,将神经网络模型的结果进行输出,得到各区域的语音掩蔽值,相当于得到目标区域及非目标区域的语音掩蔽值,目标区域的语音信号是通过角度范围来进行设定的,例如,通过给定目标区域角度范围,对麦克风阵列进行权值约束得到权值向量0,权值向量0作用于麦克风阵列原始信号上,得到目标区域的增强结果。对于非目标区域,等分为N个角度范围后,同样的进行权值约束得到权值向量1...N,权值向量1...N作用于麦克风阵列信号上,得到非目标区域的增强结果;为进一步增加目标区域和非目标区域增强结果的区分度,可采用LCMV(linear constraint minimal variance)线性约束最小方差、GSC(generalizedsidelobe cancellation)广义旁瓣抑制器、TBRR(transient beam-to-reference ratio)当前波束与参考波束比值等一种或多种算法的组合。对目标区域及非目标区域的增强结果分别计算每一帧的特征,该特征与模型训练时保持完全一致,比如频率范围、维数、预加重、拼帧、CMVN(cepstral mean and variance normalization)特征均值方差归一化等处理,然后输入预先训练好的神经网络模型,模型前向计算得到每一帧每一个频点上的语音掩蔽值。
之后,对于步骤102,根据得到的目标区域的增强结果和非目标区域的增强结果以及目标区域的语音掩蔽值和非目标区域的语音掩蔽值来判断目标区域内各说话人的语音存在概率,其中判断目标区域内各说话人的语音存在概率是通过能量/信干比等判断方法来确定目标区域内说话人的语音存在概率;首先对于目标区域内的噪声,神经网络估得说话人语音掩蔽值足够准确,进而通过简单的OMLSA(optimally modified log-spectralamplitude estimator)最优改进对数谱幅度估计等算法即可实现对噪声很好的抑制效果。其次对于非目标区域的干扰人声/噪声,采用类似(TBRR transient beam-to-referenceratio)当前波束与参考波束比值的方法,结合能量/信干比等阈值,比如目标区域和非目标区域在频点级别的能量/信干比与阈值1、2进行比较,阈值1比阈值2小。低于阈值1的频点则认为是非目标区域干扰人声/噪声的频点,进而目标区域内说话人的语音存在概率为0;高于阈值2的则认为是仅有目标区域内目标说话人的频点,没有干扰人声,进而目标区域内目标说话人的语音存在概率为1;介于阈值1、2之间的频点进行平滑的插值近似估计,最终得到目标区域内目标说话人的语音存在概率。
最后,对于步骤103,根据最终得到目标区域内说话人的语音存在概率来对目标区域的增强结果以及非目标区域的增强结果进行语音分离,将目标区域的增强结果以及非目标区域的增强结果进行语音分离后得到目标区域的目标说话人的增强结果;语音分离算法通常选择盲源分离,这是一种广泛用于信号处理领域的研究方法,用于在混合信号中准确提取多个源信号。通过假设目标语音信号和干扰语音/噪声信号的相互独立性并把信号之间的独立性最大化作为分离信号性能的目标函数和判断标准。利用目标区域内说话人的语音存在概率,使用迭代方法估计噪声(包含非目标区域干扰人声、噪声及目标区域噪声)协方差,将噪声协方差代入盲源分离框架求解最佳分离矩阵,利用最佳分离矩阵对目标及非目标区域的增强结果分离得到目标区域的语音增强结果。经过语音分离,可以进一步抑制非目标区域的干扰人声以及各个方向的环境噪声,提高了目标区域目标说话人语音的可懂度和清晰度。
本申请实施例的方法通过对语音信号中的各区域的增强结果以及语音掩蔽值进行判断,确定目标区域内各说话人的语音存在概率,再根据语音存在概率对各区域的增强结果进行语音分离,来实现对目标区域的目标说话人的语音增强。
需要说明的是,为进一步增加目标区域和非目标区域增强结果的区分度,可采用指向性麦克风(上面描述的麦克风为全指向麦克风)。指向性麦克风优势为麦克风单体自带类似波束形成的效果,在阵列麦克风数量越少时,指向性麦克风的优势越明显。缺点:a)指向性类型有限,如心形、8字形等,不能满足任意角度范围的需求;b)对麦克风拾音通道结构有一定要求(麦克风背腔需要镂空用于拾音),不是所有设备形态能够支持。
请参考图2,其示出了本发明一实施例提供的另一种指定方向的语音增强方法。该流程图主要是对流程图图1中步骤101中“将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值”进一步限定的步骤的流程图。
如图2所示,在步骤201中,分别计算所述各区域的增强结果中每一帧的特征,将所述每一帧的特征输入预训练的神经网络模型;
在步骤202中,经由所述神经网络模型前向计算得到每一帧每一个频点上的语音掩蔽值。
在本实施例中,对于步骤201,分别计算目标区域和非目标区域中的语音增强结果中的每一帧的特征,将目标区域和非目标区域中的语音增强结果中的每一帧的特征输入至已经训练完成的神经网络模型,其中目标区域和非目标区域中的语音增强结果中的每一帧的特征与神经网络模型训练时保持完全一致。
对于步骤202,通过利用神经网络模型前向计算得到每一帧每一个频点上的语音掩蔽值;其中神经网络模型首先收集近场纯净语音(如专业录音棚录制)和各种噪声场景下的纯噪声(不包含语音)数据。然后,将近场纯净语音通过大量不同的房间冲激响应、空间频率响应调制,再通过设定的信噪比范围,与各种噪声进行叠加得到带噪语音。通过提取带噪语音的语音特征,如FFT(fast fourier transform)快速傅里叶变换窄带/子带的幅度谱/复数谱、梅尔域/Bark域(fbank filter bank)滤波器组、MFCC等一种特征或多种特征的组合,作为模型训练的输入。因为语音存在时间上的连续性,所以模型输入做前后拼帧处理后模型效果会有提升。但向后拼帧会带来延时问题,因此可以向前拼的帧数多一些,向后拼的少一些。比如在人耳无法感知的范围内,延时尽可能做大以保证性能,通常在几十毫秒以内。比如,帧移10ms,向前拼2帧,当前1帧,向后拼1帧,得到共计4帧的特征输入。此时的延时为信号处理重叠相加的1帧以及向后拼的1帧,共计2帧20ms,该延时较小,不会造成听感上的明显差异或者影响远近端双讲场景。
本申请实施例的方法通过计算目标区域和非目标区域的增强结果中的每一帧的特征,将每一帧的特征输入神经网络模型计算,可以得到每一帧每一个频点上的语音掩蔽值。
需要说明的是,本身请提供的神经网络模型还可选择对输入特征是否做CMVN(cepstral mean and variance normalization)特征均值方差归一化,开启后模型对输入数据的绝对幅度不敏感,有利于模型收敛,也有利于远场小幅度的语音。模型的类型可选比较多,比如DNN(deep neural networks)深度神经网络、CNN(convolutional neuralnetworks)卷积神经网络、LSTM(long short term memory)长短时记忆神经网络、FSMN(feedforward sequential memory networks)前馈序列神经网络、RNN(reccurrentneural networks)递归神经网络、GRU(gate recurrent unit)门循环单元、DCNN(deconvolutional neural networks)反卷积神经网络等一种或多种的组合。由于一些设备比如可便携设备(如耳机、手表)的运算能力和存储空间相对有限,需要结合实际情况确定模型类型和参数量。
需要说明的是,通常选用语音和/或噪声的能量比/幅度谱/复数谱/掩蔽值等作为模型训练的标签。然后在损失函数中对标签和模型输出的语音和/或噪声的能量比/幅度谱/复数谱/掩蔽值等进行L1/smooth L1/L2范数计算,或者选用语音信噪比、客观语音质量评估、短时客观可懂度等“端到端”指标。最后,经过各种深度学习工具和优化器,进行大量数据(通常1000小时以上)的模型训练,多轮后模型达到收敛。收敛后的模型对各种混响、不同信噪比噪声环境下的说话人语音/环境噪声都具有准确的估计能力,经简单换算即可得到干净人声的掩蔽值。
在一些可选的实施例中,根据目标区域和非目标区域的语音掩蔽值以及目标区域和非目标区域的增强结果来确定所述目标区域内各说话人的语音存在概率,其中目标区域内各说话人包括目标说话人和干扰人声;对于目标区域内的噪声,通过神经网络对目标区域内的说话人的语音掩蔽值进行估计,确定目标区域内的说话人的语音掩蔽值后,再通过不同的算法进行计算处理,来实现对目标区域内的噪声进行抑制。对于非目标区域的干噪声,采用类似TBRR的方法,结合能量/信干比等阈值,比如目标区域和非目标区域在频点级别的能量/信干比与阈值1、2进行比较,阈值1比阈值2小。低于阈值1的频点则认为是非目标区域干扰人声/噪声的频点,进而目标区域内目标说话人的语音存在概率为0;高于阈值2的则认为是仅有目标区域内说话人的频点,进而目标区域内目标说话人的语音存在概率为1;介于阈值1、2之间的频点进行平滑的插值近似估计,最终得到目标区域内目标说话人的语音存在概率。
再请参考图3,其示出了本发明一实施例提供的另一种指定方向的语音增强方法。该流程图主要是对流程图图1中进一步限定的步骤的流程图。
如图3所示,在步骤301中,将当前区域的频点的预设参数分别与第一预设阈值和第二预设阈值进行比较,其中,所述第一预设阈值小于所述第二预设阈值,其中,所述预设参数为能量或信干比;
在步骤302中,若所述预设参数低于所述第一预设阈值,则当前区域的频点为非目标区域内噪声/干扰人声的频点,所述当前区域内目标说话人的语音存在概率为0;
在步骤303中,若所述预设参数高于所述第二预设阈值,则当前区域的频点为仅有目标区域内目标说话人的频点,所述当前区域内目标说话人的语音存在概率等于1。
在本实施例中,对于步骤301,将当前区域的频点的预设参数分别与第一预设阈值和第二预设阈值进行比较,该当前区域包含目标区域和非目标区域,预设的第一预设阈值小于预设的第二预设阈值,目标区域和非目标区域的频点的预设参数为目标区域和非目标区域的频点的能量或信干比,例如,目标区域和非目标区域在频点级别的能量/信干比与阈值1、2进行比较,阈值1比阈值2小。
然后,对于步骤302,目标区域或非目标区域在频点级别的能量/信干比低于预设的第一预设阈值时,则当前区域的频点为非目标区域内噪声的频点或者非目标区域内干扰人声的频点,当前区域内目标说话人的语音存在概率为0。
最后,对于步骤303,目标区域或非目标区域在频点级别的能量/信干比高于预设的第二预设阈值时,则当前区域的频点为目标区域内目标说话人的频点,当前区域内目标说话人的语音存在概率等于1。
本申请实施例的方法通过将当前区域的频点的预设参数分别与第一预设阈值和第二预设阈值进行比较,确定当前区域的频点是目标区域内目标说话人的频点还是非目标区域内噪声或干扰人声的频点,若是目标区域内说话人的频点则目标区域内目标说话人的语音存在概率等于1,若是非目标区域内噪声或干扰人声的频点,则非目标区域内目标说话人的语音存在概率为0。
在一些可选的实施例中,如果当前区域的频点的预设参数大于等于第一预设阈值且小于等于第二预设阈值,对当前区域的频点进行平滑插值估计,得到当前区域内目标说话人的语音存在概率,例如,如果当前区域的频点的预设参数大于等于第一预设阈值且小于等于第二预设阈值时,介于第一预设阈值1、第二预设阈值2之间的频点进行平滑的插值近似估计,最终得到目标区域内目标说话人的语音存在概率。
再请参考图4,其示出了本发明一实施例提供的另一种指定方向的语音增强方法。该流程图主要是对流程图图1中步骤103中“基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果”进一步限定的步骤的流程图。
如图4所示,在步骤401中,基于当前区域内目标说话人的语音存在概率,利用迭代方法估计所述当前区域内的噪声协方差;
然后,在步骤402中,将各区域的噪声及非目标人声的协方差带入语音分离算法中,得到分离矩阵;
最后,在步骤403中,利用所述分离矩阵对所述各区域的增强结果进行语音分离,得到所述目标区域的目标说话人的语音增强结果。
对于步骤401,根据当前区域内目标说话人的语音存在概率,利用迭代方法估计当前区域内的噪声协方差,例如,利用目标区域内目标说话人的语音存在概率,使用迭代方法估计噪声(包含非目标区域干扰人声、噪声及目标区域噪声)协方差;对于步骤402,将各区域的噪声及非目标人声协方差带入语音分离算法中,其中语音分离算法通常选择盲源分离,将噪声协方差代入盲源分离框架,得到分离矩阵;对于步骤403,利用分离矩阵对目标及非目标区域的增强结果分离得到目标区域的语音增强结果,目标区域的语音增强结果为目标区域的目标说话人的语音增强结果。
本申请实施例的方法通过使用语音分离,可以进一步抑制非目标区域的干扰人声以及各个方向的环境噪声,提高了目标区域目标说话人语音的清晰度。
在一些可选的实施例中,通过设置给定角度范围,利用麦克风阵列波束形成算法计算,得到目标区域及非目标区域的增强结果;通过给定目标区域角度范围,对麦克风阵列进行权值约束得到权值向量0,权值向量0作用于麦克风阵列原始信号上,得到目标区域的增强结果。对于非目标区域,等分为N个角度范围后,同样的进行权值约束得到权值向量1...N,权值向量1...N作用于麦克风阵列信号上,得到非目标区域的增强结果。
需要说明的是,本申请语音分离算法通常选择盲源分离,利用盲源分离算法,对多个声音的分布进行建模,然后根据迭代公式求解分离矩阵。但盲源分离有个问题是“盲”,即不知道分离出来的哪个才是目标人声,所以才需要借助角度信息(即目标区域增强结果)来确定目标人声。
需要说明的是,神经网络在生成训练数据的时候,考虑足够多的场景,比如各种房间冲激响应、各种距离情况的语音直混比、各种环境噪声类型、各种语音信噪比/信干比,那么训练得到的模型越具有泛化能力,对各种真实场景下语音掩蔽值的估计越准确,再结合传统信号处理(语音存在概率估计、语音分离等)的稳定性和普适性优势,最终得到很好的语音增强效果。
需要说明的是,本申请还提供一种备选方案,利用多通道神经网络做定向的语音增强,多通道麦克风阵列的数据仿真:目标说话人语音卷积多通道房间冲激响应1,干扰说话人语音卷积多通道房间冲激响应2,环境噪声卷积多通道房间冲激响应3~N后取平均,最后三者按设定信干比和信噪比叠加得到麦克风阵列带噪信号。神经网络模型将所有通道麦克风数据经FFT变换后的实部/虚部、余弦/正弦IPD、幅度谱作为模型输入,目标说话人的语音为模型标签,进行模型训练。模型对于单个方向入射的噪声源/干扰人声具有显著的抑制效果。
请参考图5,其示出了本发明一实施例提供的一种指定方向的语音增强装置500,包括获取模块510、判断模块520和分离模块530。
其中,获取模块510,配置为获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,其中,所述各区域包括目标区域和/或非目标区域,所述目标区域为给定角度范围的区域;判断模块520,配置为基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;分离模块530,配置为基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项指定方向的语音增强方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项指定方向的语音增强方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行指定方向的语音增强方法。
图6是本申请另一实施例提供的执行指定方向的语音增强方法的电子设备的硬件结构示意图,如图6所示,该设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为例。
执行指定方向的语音增强方法的设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的指定方向的语音增强方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例指定方向的语音增强方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据指定方向的语音增强设备的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至指定方向的语音增强设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与指定方向的语音增强设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的指定方向的语音增强方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种指定方向的语音增强方法,包括:
获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,其中,所述各区域包括目标区域和/或非目标区域,所述目标区域为给定角度范围的区域;
基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;
基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。
2.根据权利要求1所述的方法,其中,所述将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值包括:
分别计算所述各区域的增强结果中每一帧的特征,将所述每一帧的特征输入预训练的神经网络模型;
经由所述神经网络模型前向计算得到每一帧每一个频点上的语音掩蔽值。
3.根据权利要求1所述的方法,其中,所述基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率包括:
根据所述各区域的语音掩蔽值和所述各区域的增强结果确定所述目标区域内各说话人的语音存在概率。
4.根据权利要求3所述的方法,其中,所述确定所述目标区域内各说话人的语音存在概率包括:
将当前区域的频点的预设参数分别与第一预设阈值和第二预设阈值进行比较,其中,所述第一预设阈值小于所述第二预设阈值,其中,所述预设参数为能量或信干比;
若所述预设参数低于所述第一预设阈值,则当前区域的频点为非目标区域内噪声/干扰人声的频点,所述当前区域内目标说话人的语音存在概率为0;
若所述预设参数高于所述第二预设阈值,则当前区域的频点为目标区域内目标说话人的频点,所述当前区域内目标说话人的语音存在概率等于1。
5.根据权利要求4所述的方法,其中,所述方法还包括:
若所述当前区域的频点的预设参数大于等于所述第一预设阈值且小于等于所述第二预设阈值,对所述当前区域的频点进行平滑插值估计,得到所述当前区域内目标说话人的语音存在概率。
6.根据权利要求1所述的方法,其中,所述基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果包括:
基于当前区域内目标说话人的语音存在概率,利用迭代方法估计所述当前区域内的噪声协方差;
将各区域的噪声及非目标人声的协方差带入语音分离算法中,得到分离矩阵;
利用所述分离矩阵对所述各区域的增强结果进行语音分离,得到所述目标区域的目标说话人的语音增强结果。
7.根据权利要求1所述的方法,其中,所述获取语音信号中的各区域的增强结果包括:
设置给定角度范围,通过麦克风阵列波束形成算法得到所述目标区域及所述非目标区域的增强结果。
8.一种指定方向的语音增强装置,包括:
获取模块,配置为获取语音信号中的各区域的增强结果,将所述各区域的增强结果输入预训练的神经网络模型,得到所述各区域的语音掩蔽值,其中,所述各区域包括目标区域和/或非目标区域,所述目标区域为给定角度范围的区域;
判断模块,配置为基于所述增强结果和所述语音掩蔽值判断所述目标区域内各说话人的语音存在概率,其中,所述各说话人包括目标说话人和非目标说话人;
分离模块,配置为基于所述语音存在概率对所述各区域的增强结果进行语音分离得到所述目标区域的目标说话人的增强结果。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211231387.2A CN115620739A (zh) | 2022-10-09 | 2022-10-09 | 指定方向的语音增强方法及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211231387.2A CN115620739A (zh) | 2022-10-09 | 2022-10-09 | 指定方向的语音增强方法及电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620739A true CN115620739A (zh) | 2023-01-17 |
Family
ID=84860575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211231387.2A Pending CN115620739A (zh) | 2022-10-09 | 2022-10-09 | 指定方向的语音增强方法及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620739A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831141A (zh) * | 2023-02-02 | 2023-03-21 | 小米汽车科技有限公司 | 车载语音的降噪方法、装置、车辆及存储介质 |
-
2022
- 2022-10-09 CN CN202211231387.2A patent/CN115620739A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831141A (zh) * | 2023-02-02 | 2023-03-21 | 小米汽车科技有限公司 | 车载语音的降噪方法、装置、车辆及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109712611B (zh) | 联合模型训练方法及系统 | |
CN114283795B (zh) | 语音增强模型的训练、识别方法、电子设备和存储介质 | |
CN112017681B (zh) | 定向语音的增强方法及系统 | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
Perotin et al. | Multichannel speech separation with recurrent neural networks from high-order ambisonics recordings | |
US20200184985A1 (en) | Multi-stream target-speech detection and channel fusion | |
CN108417224B (zh) | 双向神经网络模型的训练和识别方法及系统 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
US20070038442A1 (en) | Separation of target acoustic signals in a multi-transducer arrangement | |
CN111696567B (zh) | 用于远场通话的噪声估计方法及系统 | |
CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
CN112435683B (zh) | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
Niwa et al. | Post-filter design for speech enhancement in various noisy environments | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
Nakajima et al. | An easily-configurable robot audition system using histogram-based recursive level estimation | |
CN112363112A (zh) | 一种基于线性麦克风阵列的声源定位方法及装置 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN115620739A (zh) | 指定方向的语音增强方法及电子设备和存储介质 | |
KR102374167B1 (ko) | 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치 | |
CN110838307B (zh) | 语音消息处理方法及装置 | |
Kawase et al. | Automatic parameter switching of noise reduction for speech recognition | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition | |
Bai et al. | Kalman filter-based microphone array signal processing using the equivalent source model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |