CN115482830A - 语音增强方法及相关设备 - Google Patents
语音增强方法及相关设备 Download PDFInfo
- Publication number
- CN115482830A CN115482830A CN202111323211.5A CN202111323211A CN115482830A CN 115482830 A CN115482830 A CN 115482830A CN 202111323211 A CN202111323211 A CN 202111323211A CN 115482830 A CN115482830 A CN 115482830A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- target user
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本申请涉及人工智能(AI)领域,具体涉及一种语音增强方法及相关设备,该方法包括:在进入PNR模式后,获取带噪语音信号和目标语音相关数据,其中,带噪语音包含目标用户的语音信号与干扰噪声信号;目标语音相关数据用于指示目标用户的语音特征;根据目标语音相关数据通过经过已训练好的语音降噪模型对带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号;其中,语音降噪模型是基于神经网络实现的。采用本申请实施例可以实现对目标人语音的增强和对干扰的抑制。
Description
技术领域
本申请涉及语音处理领域,尤其涉及一种语音增强方法及相关设备。
背景技术
近几年,智能设备极大地丰富了人们的生活,当设备工作在安静场景中,语音通话质量和语音交互(唤醒和识别率)功能已经能较好地满足需求,但是当设备工作在环境噪声、语音干扰的场景条件下,语音通话质量、唤醒率和识别率的体验效果会下降,需要依靠语音增强算法实现增强目标语音和滤除干扰的目的。
环境噪声抑制和语音干扰抑制一直是的热点问题。通用降噪方法,一种方式是根据背景噪声信号和语音音乐信号之间频谱特征的差异,利用一段时间内采集到的信号进行背景噪声进行估计,然后根据估计出的背景噪声特征进行环境噪声抑制,该方法对于平稳噪声效果较好,但是对于语音干扰则完全失效。另一种方式除了利用背景噪声信号和语音音乐信号之间频谱特征的差异,还利用了不同声道间相关性的差异,例如多通道噪声抑制或者麦克风阵列波束形成技术,这类方法对于具有特定方向的语音干扰具有一定的抑制,但是对于干扰源方位变化跟踪效果往往无法满足需求,且无法实现对特定目标人的语音增强。
目前,语音增强和干扰抑制功能的实现主要通过传统或基于人工智能(artificial intelligence,AI)的通用降噪、分离等算法来实现,该方法通常可以提升语音通话和交互体验,但在语音干扰场景条件下,难以实现突出目标语音、抑制干扰语音的效果,体验较差。
发明内容
本申请实施例提供一种语音增强方法及相关设备,采用本申请实施例可以在各种环境噪声和语音干扰的场景下,抑制除了目标用户的语音之外的所有干扰噪声,突出目标用户的声音,提升了用户进行语音通话和语音交互等的体验。
第一方面,本申请实施例提供一种语音增强方法,包括:在终端设备进入特定人降噪(personalized noise reduction,PNR)模式后,获取带噪语音信号和目标语音相关数据,其中,带噪语音信号包含干扰噪声信号与目标用户的语音信号;目标语音相关数据用于指示目标用户的语音特征;根据目标语音相关数据通过已训练好的语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号;其中,语音降噪模型是基于神经网络实现的。
其中,干扰噪声信号包括非目标用户的语音信号、环境噪声信号(比如汽车鸣笛声、机器作业时发出的声音)等。
可选地,目标语音相关数据可以为目标用户的注册语音信号,可以为目标用户的语音拾取(voice pick up,VPU)信号,还可以为目标用户的声纹特征或者目标用户的视频唇动信息等。
通过目标语音相关数据指导语音降噪模型从带噪语音信号中提取出目标用户的语音信号,抑制除了目标用户的语音之外的所有干扰噪声,突出目标用户的声音,提升了用户进行语音通话和语音交互等的体验。
在一个可行的实施例中,本申请的方法还包括:
获取目标用户的语音增强系数;基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,其中,目标用户的增强语音信号的幅度与目标用户的降噪语音信号的幅度的比值为目标用户语音增强系数。
通过引入目标用户的语音增强系数,可以进一步增强目标用户的语音信号,从而达到进一步突出目标用户的声音,抑制非目标用户的声音的目的,提升了用户进行语音通话和语音交互等的体验。
进一步地,通过降噪处理还得到干扰噪声信号,本申请的方法还包括:
获取干扰噪声抑制系数;基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅度与干扰噪声信号的幅度的比值为干扰噪声抑制系数;将干扰噪声抑制信号与目标用户的增强语音信号进行融合,以得到输出信号。
可选地,干扰噪声抑制系数的取值范围为(0,1)。
通过引入干扰噪声抑制系数,进一步抑制非目标用户的声音,间接突出了目标用户的声音。
在一个可行的实施例中,通过降噪处理还得到干扰噪声信号,本申请的方法还包括:
获取干扰噪声抑制系数;基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅度与干扰噪声信号的幅度的比值为干扰噪声抑制系数;将干扰噪声抑制信号与目标用户的降噪语音信号进行融合,以得到输出信号。
由于在实际应用中,耳中只出现目标用户的声音,没有噪声,会让用户很不习惯,因此通过引入干扰噪声抑制系数和干扰噪声信号,实现可在引入干扰噪声抑制系数抑制干扰噪声信号的同时,也使得在通话时听到噪音信号,提高了用户体验。
在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,目标用户的语音增强系数包括M个目标用户的语音增强系数,M为大于1的整数,
根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,包括:
对于M个目标用户中任一目标用户A,根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号;对于M个目标用户中的每个目标用户均按照该方式进行处理,可得到M个目标用户的降噪语音信号;
基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,包括:
基于目标用户A的语音增强系数对目标用户A的降噪语音信号进行处理,以得到目标用户A的增强语音信号;目标用户A的增强语音信号的幅度与目标用户A的降噪语音信号的幅度的比值为目标用户A的语音增强系数;按照该方式对M个目标用户中每个目标用户的降噪语音信号进行处理,可得到M个目标用户的增强语音信号。
本申请的方法还包括:基于M个目标用户的增强语音信号得到输出信号。
采用上述并行的方式可以对多个目标用户的语音信号进行增强,并且对于多个目标用户,可以通过设置语音增强系数来进一步调整目标用户的增强语音信号,从而解决了在多人情况下语音降噪的问题。
在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,M为大于1的整数,
根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号,包括:
根据M个目标用户中第1个目标用户的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到第1个目标用户的降噪语音信号和不包含第1个目标用户的语音信号的第一带噪语音信号;根据M个目标用户中第2个目标用户的语音相关数据通过语音降噪模型对不包含第1个目标用户的语音信号的第一带噪语音信号进行降噪处理,以得到第2个目标用户的降噪语音信号和不包含第1个目标用户的语音信号和第2个目标用户的语音信号的第一带噪语音信号;重复上述过程,直至根据第M个目标用户的语音相关数据通过语音降噪模型对不包含第1至M-1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到第M个目标用户的降噪语音信号和干扰噪声信号;至此,得到M个目标用户的降噪语音信号和干扰噪声信号。
采用上述串行的方式可以对多个目标用户的语音信号进行增强,从而解决了在多人情况下语音降噪的问题。
在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,M为大于1的整数,根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号,包括:
根据M个目标用户的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到M个目标用户的降噪语音信号和干扰噪声信号。
在一个可行的实施例中,对于M个目标用户的语音相关数据,每个目标用户的相关数据包括该目标用户的注册语音信号,目标用户A的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户A的语音信号,语音降噪模型包括M个第一编码网络、第二编码网络、时间卷积网络(time convolution network,TCN)、第一解码网络和M个第三解码网络,根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号,包括:
利用M个第一编码网络分别对M个目标用户的注册语音信号进行特征提取,得到M个目标用户的注册语音信号的特征向量;利用第二编码网络对带噪语音信号进行特征提取,得到带噪语音信号的特征向量;根据M个目标用户的注册语音信号的特征向量和第一带噪语音信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据M个第三解码网络中的每个第三解码网络、对第二特征向量和与该第三解码网络对应的第一编码网络输出的特征向量得到M个目标用户的降噪语音信号;根据第一解码网络、第二特征向量和第一带噪语音信号的特征向量得到干扰噪声信号。
采用上述方式可以对多个目标用户的语音信号进行降噪,从而解决了在多人情况下语音降噪的问题。
在一个可行的实施例中,目标用户包括M个,目标用户的相关数据包括目标用户的注册语音信号,目标用户的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户的语音信号,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,
根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,包括:
利用第一编码网络和第二编码网络分别对目标用户的注册语音信号和第一带噪语音信号进行特征提取,得到目标用户的注册语音信号的特征向量和第一带噪语音信号的特征向量;根据目标用户的注册语音信号的特征向量和带噪语音信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据第一解码网络和第二特征向量得到目标用户的降噪语音信号。
进一步地,本申请的方法还包括:
根据第一解码网络和第二特征向量还得到干扰噪声信号。
在一个可行的实施例中,目标用户A的相关数据包括目标用户A的注册语音信号,目标用户A的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户A的语音信号,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号,包括:
利用第一编码网络和第二编码网络分别对目标用户A的注册语音信号和第一带噪语音信号进行特征提取,以得到目标用户A的注册语音信号的特征向量和第一带噪语音信号的特征向量;根据目标用户A的注册语音信号的特征向量和第一带噪语音信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据第一解码网络和第二特征向量得到目标用户A的降噪语音信号。
在一个可行的实施例中,M个目标用户中第i个目标用户的相关数据包括第i个目标用户的注册语音信号,i为大于0且小于或者等于M的整数,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,
利用第一编码网络和第二编码网络分别对目标用户的注册语音信号和第一噪声信号进行特征提取,得到第i个目标用户的注册语音信号的特征向量和该第一噪声信号的特征向量;其中,第一噪声信号为不包含第1至i-1个目标用户的语音信号的第一带噪语音信号;根据第i个目标用户的注册语音信号的特征向量和第一噪声信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据第一解码网络和第二特征向量得到第i个目标用户的降噪语音信号和第二噪声信号,其中,第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号。
通过提前注册目标用户的语音信号的方式,在后续的语音交互时,可以增强目标用户的语音信号,抑制干扰语音和噪声,保证在语音唤醒和语音交互时只输入目标用户的语音信号,提升语音唤醒和语音识别的效果和精度;并且基于TCN因果空洞卷积网络构建语音降噪模型,实现语音降噪模型低时延输出语音信号。
在一个可行的实施例中,目标用户的相关数据包括目标用户的VPU信号,语音降噪模型包括预处理模块、第三编码网络、门控循环单元(gated recurrent unit,GRU)、第二解码网络和后处理模块,根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号,包括:
通过预处理模块分别对第一带噪语音信号和目标用户的VPU信号进行时频变换,以得到第一带噪语音信号的第一频域信号和VPU信号的第二频域信号;对第一频域信号和第二频域信号进行融合,以得到第一融合频域信号;将第一融合频域信号先后经过第三编码网络、GRU和第二解码网络处理,以得到目标用户的语音信号的第三频域信号的掩膜;通过后处理模块根据第三频域信号的掩膜对第一频域信号进行后处理,以得到第三频域信号;对第三频域信号进行频时变换,以得到目标用户的降噪语音信号;其中,第三编码模块和第二解码模块均是基于卷积层和频域变换模块(frequency transformation block,FTB)实现的。
其中,后处理包括数学运算,比如点乘等。
进一步地,将第一融合频域信号先后经过第三编码网络、GRU和第二解码网络处理还得到第一频域信号的掩膜;通过后处理模块根据第一频域信号的掩膜对第一频域信号进行后处理,得到干扰噪声信号的第四频域信号;对第四频域信号进行频时变换,以得到干扰噪声信号。
可选地,由于第一带噪语音信号包含目标用户的语音信号和干扰噪声信号,因此在得到目标用户的降噪语音信号后,根据目标用户的降噪语音信号对第一带噪语音信号进行处理,得到干扰噪声信号,也即是将第一带噪语音信号减去目标用户的降噪语音信号的,得到干扰噪声信号。
在一个可行的实施例中,目标用户A的相关数据包括目标用户A的VPU信号,语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块,根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号,包括:
通过预处理模块分别对第一带噪语音信号和目标用户A的VPU信号进行时频变换,以得到第一带噪语音信号的第一频域信号和目标用户A的VPU信号的第九频域信号;对第一频域信号和第九频域信号进行融合,得到第二融合频域信号;将第二融合频域信号先后经过第三编码网络、GRU和第二解码网络处理,以得到目标用户A的语音信号的第十频域信号的掩膜;通过后处理模块根据第十频域信号的掩膜对第一频域信号进行后处理,得到第十频域信号;对第十频域信号进行频时变换,以得到目标用户A的降噪语音信号;其中,第三编码模块和第二解码模块均是基于卷积层和FTB实现的。
在一个可行的实施例中,M个目标用户中第i个目标用户的相关数据包括第i个目标用户的VPU信号,i为大于0且小于或者等于M的整数,
通过预处理模块对第一噪声信号和第i个目标用户的VPU信号均进行时频变换,以得到该第一噪声信号的第十一频域信号和第i个目标用户的VPU信号的第十二频域信号;对第十一频域信号和第十二频域信号进行融合,得到第三融合频域信号;其中,第一噪声信号为不包含第1至i-1个目标用户的语音信号的第一带噪语音信号;将第三融合频域信号先后经过第三编码网络、GRU和第二解码网络处理得到第i个目标用户的语音信号的第十三频域信号的掩膜和第十一频域信号的掩膜;通过后处理模块根据第十三频域信号的掩膜和第十一频域信号的掩膜对第十一频域信号进行后处理,得到第十三频域信号和第二噪声信号的第十四频域信号;对第十三频域信号和第十四频域信号进行频时变换,得到第i个目标用户的降噪语音信号和第二噪声信号,第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号;其中,第三编码模块和第二解码模块均是基于卷积层和FTB实现的。
通过将目标用户的VPU信号作为辅助信息,用于实时提取目标用户的语音特征,该特征与麦克风采集的带噪语音信号相融合,指导目标用户语音增强和非目标用户语音等干扰的抑制,并且本实施例还提出了一种新的基于FTB和GRU的语音降噪模型用于目标用户的语音增强和非目标用户的语音等干扰的抑制;可以看出,采用本实施例的方案,不需要用户提前注册语音特征信息,可以根据实时VPU信号作为辅助信息,得到增强的目标用户语音并抑制非目标语音的干扰。
在一个可行的实施例中,基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,包括:
对于M个目标用户中的任一目标用户,基于目标用户A的语音增强系数对目标用户A的降噪语音信号进行增强处理,以得到目标用户A的增强语音信号;目标用户A的增强语音信号的幅度与目标用户A的降噪语音信号的幅度的比值为目标用户A的语音增强系数;
将干扰噪声抑制信号与目标用户的增强语音信号进行融合,以得到输出信号,包括:
将M个目标用户的增强语音信号与干扰噪声抑制信号进行融合,以得到输出信号。
对于多个目标用户的降噪语音信号,通过引入多个目标用户的语音增强系数,可按需调整多个目标用户的增强语音信号的大小。
在一个可行的实施例中,目标用户的相关数据包括目标用户的VPU信号,本申请的方法还包括:获取目标用户的耳内声音信号;
根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号,包括:
分别对第一带噪语音信号和耳内声音信号进行时频变换,以得到第一带噪语音信号的第一频域信号和耳内声音信号的第五频域信号;根据目标用户的VPU信号、第一频域信号和第五频域信号得到第一带噪语音信号与耳内声音信号的协方差矩阵;基于协方差矩阵得到第一最小方差无失真响应(minimum variance distortionless response,MVDR)权重;基于第一MVDR权重、第一频域信号和第五频域信号得到第一带噪语音信号的第六频域信号和目标用户的耳内声音信号的第七频域信号;根据第六频域信号和第七频域信号得到目标用户的降噪语音信号的第八频域信号;对第八频域信号进行频时变换,以得到目标用户的降噪语音信号。
进一步地,根据目标用户的降噪语音信号和第一带噪语音信号得到干扰噪声信号。
在一个可行的实施例中,目标用户A的相关数据包括目标用户A的VPU信号,本申请的方法还包括:获取目标用户A的耳内声音信号;
根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号,包括:
分别对第一带噪语音信号和目标用户A的耳内声音信号进行时频变换,得到第一带噪语音信号的第一频域信号和目标用户A的耳内声音信号的第十五频域信号;根据目标用户A的VPU信号、第一频域信号和第十五频域信号得到第一带噪语音信号和目标用户A的耳内声音信号的协方差矩阵;基于该协方差矩阵得到第二MVDR权重;基于第二MVDR权重、第一频域信号和第十五频域信号得到第一带噪语音信号的第十六频域信号和目标用户A的耳内声音信号的第十七频域信号;根据第十六频域信号和第十七频域信号得到目标用户A的降噪语音信号的第十八频域信号;对十八频域信号进行频时变换,以得到目标用户A的降噪语音信号。
采用本方法,不需要目标用户提前注册其语音特征信息,可以根据实时VPU信号作为辅助信息,得到增强的目标用户或者目标用户A的语音信号并抑制非目标用户的语音等干扰。
在一个可行的实施例中,本申请的方法还包括:
获取终端设备所处环境的第一噪音片段和第二噪音片段;第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取第一噪音片段的信噪比(signal noise ratio,SNR)和声压级(sound pressure level,SPL);若第一噪音片段的SNR大于第一阈值且第一噪音片段的SPL大于第二阈值,则提取第一噪音片段的第一临时特征向量;基于第一临时语音特征向量对第二噪音片段进行降噪处理,以得到第二降噪噪音片段;基于第二降噪噪音片段和第二噪音片段进行损伤评估,以得到第一损伤评分;若第一损伤评分不大于第三阈值,进入PNR模式;
获取第一带噪语音信号包括:
从在第一噪音片段之后产生的噪声信号中确定第一带噪语音信号;注册语音信号的特征向量包括第一临时特征向量。
进一步地,若第一损伤评分不大于第三阈值,本申请的方法还包括:
通过终端设备发出第一提示信息,该第一提示信息用于提示是否使得终端设备进入PNR模式;在检测到目标用户的同意进入PNR模式的操作指令后,才进入PNR模式。
通过该方法可以判断出是否需要采用本申请的方案进行语音降噪,避免了需要进行降噪时却没有进行降噪的情况的发生,实现了灵活自动降噪,提升了用户体验。
在一个可行的实施例中,目标用户的相关数据包括辅助设备的麦克风阵列信号,本申请的方法还包括:
获取终端设备所处环境的第一噪音片段和第二噪音片段;第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取终端设备的辅助设备的麦克风阵列针对终端设备所处的环境采集的信号,利用采集的信号计算得到第一噪音片段的信号到达角(directionof arrival,DOA)和声压级(sound pressure level,SPL);若第一噪音片段的DOA大于第九阈值且小于第十阈值,且第一噪音片段的SPL大于第十一阈值,则提取第一噪音片段的第二临时特征向量;基于第二临时语音特征向量对第二噪音片段进行降噪处理,以得到第四降噪噪音片段;基于第四降噪噪音片段和第二噪音片段进行损伤评估,以得到第四损伤评分;若第四损伤评分不大于第十二阈值,进入PNR模式。
获取第一带噪语音信号包括:
从在第一噪音片段之后产生的噪声信号中确定第一带噪语音信号;注册语音信号的特征向量包括第二临时特征向量。
其中,利用采集的信号计算得到第一噪音片段的DOA和SPL,具体可以包括:
对麦克风阵列采集的信号进行时频变换,得到第十九频域信号,基于该第十九频域信号,计算第一噪音片段的DOA和SPL。
进一步地,若第四损伤评分不大于第十二阈值,本申请的方法还包括:
通过终端设备发出第四提示信息,该第四提示信息用于提示是否使得终端设备进入PNR模式;在检测到目标用户的同意进入PNR模式的操作指令后,才进入PNR模式。
可选地,辅助设备可以为带有麦克风阵列的设备,比如电脑、平板电脑等。
在一个可行的实施例中,本申请的方法还包括:
在检测到终端设备再次被使用时,获取第二带噪语音信号;并采用传统降噪算法,也就是采用非PNR模式对第二带噪语音信号进行降噪处理,得到当前通话者的降噪语音信号
在第二带噪语音信号的SNR低于第四阈值时,根据第一临时特征向量对第二带噪语音信号进行降噪处理,以得到当前使用者的降噪语音信号;基于当前使用者的降噪语音信号和第二带噪语音信号进行损伤评估,以得到第二损伤评分;当第二损伤评分不大于第五阈值时,通过终端设备发出第二提示信息,该第二提示信息用于提示当前使用者终端设备能够进入PNR模式;在检测到所同意进入PNR模式的操作指令后,使得终端设备进入PNR模式对第三带噪语音信号进行降噪处理,该第三带噪语音信号是在第二带噪语音信号之后获取的;在检测到当前使用者的不同意进入PNR模式的操作指令后,采用非PNR模式对第三带噪语音信号进行降噪处理。
在此需要说明的是,在对第一噪音片段进行临时语音特征提取,得到第一噪音片段的临时特征向量后,终端设备存储该临时特征向量,后续需要使用时直接获取该临时特征向量,避免了后续在噪声较大的场景下无法获取当前使用者的语音特征,从而无法进行损伤评估。此处的第一噪音片段的临时特征向量可以是第一临时特征向量或第二临时特征向量。
可选地,第四阈值与第一阈值相同,也可以不相同;第五阈值与第三阈值可以相同,也可以不相同。
在一个可行的实施例中,本申请的方法还包括:
若第一噪音片段的SNR不大于第一阈值或者第一噪音片段的SPL不大于第二阈值,且终端设备已存储参考临时声纹特征向量,获取第三噪音片段;根据参考临时声纹特征向量对第三噪音片段进行降噪处理,得到第三降噪噪音片段;根据第三噪音片段和第三降噪噪音片段进行损伤评估,以得到第三损伤评分;若第三损伤评分大于第六阈值且第三噪音片段的SNR小于第七阈值,或者第三损伤评分大于第八阈值且第三噪音片段的SNR不小于第七阈值,则通过终端设备发出第三提示信息,第三提示信息用于提示当前使用者终端设备能够进入PNR模式;在检测到当前使用者的同意进入PNR模式的操作指令后,使得终端设备进入PNR模式对第四带噪语音信号进行降噪处理;在检测到当前使用者的不同意进入PNR模式的操作指令后,采用非PNR模式对第四带噪语音信号进行降噪处理;其中,第四带噪语音信号是从在第三噪音片段之后产生的噪声信号中确定的。
其中,参考临时声纹特征向量为历史使用者的声纹特征向量。
可选的,第七阈值可以为10dB或者其他值,第六阈值可以为8dB或者其他值,第八阈值可以为12dB或者其他值。
通过该方法可以判断出是否需要采用本申请的方案进行语音降噪,避免了需要进行降噪时却没有进行降噪的情况的发生,实现了灵活自动降噪,提升了用户体验。
在一个可行的实施例中,本申请的方法还包括:
当检测到终端设备处于手持通话状态时,不进入PNR模式;
当检测到终端设备处于免提通话状态时,进入PNR模式,其中,目标用户为终端设备的拥有者或者正在使用终端设备的用户;
当检测到终端设备处于视频通话状态时,进入PNR模式,其中,目标用户为终端设备的拥有者或者距离终端设备最近的用户;
当检测到终端设备连接到耳机进行通话时,进入PNR模式,其中,目标用户为佩戴耳机的用户;第一带噪语音信号和目标语音相关数据是通过耳机采集得到的;或,
当检测到终端设备连接到智能大屏设备、智能手表或者车载设备时,进入PNR模式,其中目标用户为终端设备的拥有者或者正在使用终端设备的用户,第一带噪语音信号和目标语音相关数据是由智能大屏设备、智能手表或者车载设备的音频采集硬件采集得到的。
基于不同的应用场景判断是否开启PNR降噪功能,实现了灵活自动降噪,提升了用户体验。
在一个可行的实施例中,本申请的方法还包括:
获取当前环境的音频信号的分贝值,若当前环境的音频信号的分贝值超过预设分贝值,则判断终端设备启动的应用程序对应的PNR功能是否开启;若未开启,则开启终端设备启动的应用程序对应的PNR功能,并进入PNR模式。
其中,应用程序为终端设备上安装的应用程序,比如通话、视频通话、录像应用程序、微信、QQ等。
基于当前环境的音频信号的大小,判断是否开启PNR功能,实现了灵活自动降噪,提升了用户体验。
在一个可行的实施例中,终端设备包括显示屏,显示屏包括多个显示区域,其中,多个显示区域中的每个显示区域显示标签和对应的功能按键,功能按键用于控制其对应标签所指示的功能或者应用程序的PNR功能的开启和关闭。
在终端设备的显示屏所显示的界面上设置控制终端设备的某一应用程序(比如通话、录像等)的PNR功能的开启和关闭,实现了用户可以按需开启和关闭PNR功能。
在一个可行的实施例中,当终端设备与另一终端设备之间进行语音数据传输时,本申请的方法还包括:
接收另一终端设备发送的语音增强请求,该语音增强请求用于指示终端设备开启通话功能的PNR功能;响应于语音增强请求,通过终端设备发出第三提示信息,该第三提示信息用于提示是否使得终端设备开启通话功能的PNR功能;当检测到确认开启通话功能的PNR功能的操作指令后,开启通话功能的PNR功能,并进入PNR模式;向另一终端设备发送语音增强响应消息,该语音增强响应消息用于指示终端设备已开启通话功能的PNR功能。
在通话过程中,当发现对方处于嘈杂环境时,向对方发送开启对方的终端设备的通话功能的PNR功能的请求,提高了双方通话的质量。当然,本实施例还可应用于视频通话等。
在一个可行的实施例中,当终端设备启动视频通话或者视频录制功能,终端设备的显示界面包括第一区域和第二区域,第一区域用于显示视频通话内容或者视频录制的内容,第二区域用于显示M个控件和对应的M个标签,M个控件与M个目标用户一一对应M个控件中的每个控件包括滑动按钮和滑动条,通过控制滑动按钮在滑动条上滑动,以调节该控件对应的标签所指示目标用户的语音增强系数。
通过用户按照需要调整语音增强系数的大小,实现了用户按需调节降噪的力度。当然,还可以按照此方式调节干扰噪声抑制系数。
在一个可行的实施例中,当终端设备启动视频通话或者视频录制功能,终端设备的显示界面包括第一区域,第一区域用于显示视频通话内容或者视频录制的内容;
当检测到针对视频通话内容或者视频录制内容中任一对象的操作时,在第一区域显示该对象对应的控件,该控件包括滑动按钮和滑动条,通过控制滑动按钮在滑动条上滑动,以调节该对象的语音增强系数。
通过用户按照需要调整语音增强系数的大小,实现了用户按需调节降噪的力度。当然,还可以按照此方式调节干扰噪声抑制系数。
在一个可行的实施例中,当终端设备为智能交互设备时,目标语音相关数据包括包含唤醒词的语音信号,第一带噪语音信号包括包含命令词的音频信号。
可选地,智能交互设备包括智能音响、扫地机器人、智能冰箱和智能空调等设备。
采用本方式对控制智能交互设备的指令语音进行降噪处理,使得智能交互设备能够快速得到精准的指令,进而完成指令对应的动作。
第二方面,本申请实施例提供一种终端设备,该终端设备包括用于执行第一方面的方法的单元或模块。
第三方面,本申请实施例提供一种终端设备,包括处理器和存储器,其中,处理器和存储器相连,其中,存储器用于存储程序代码,处理器用于调用程序代码,以执行第一方面方法的部分或者全部。
第四方面,本申请实施例提供一种芯片系统,该芯片系统应用于电子设备;芯片系统包括一个或多个接口电路,以及一个或多个处理器;接口电路和处理器通过线路互联;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,该信号包括存储器中存储的计算机指令;当处理器执行计算机指令时,电子设备执行第一方面所述的方法。
第五方面,本申请实施例提供一种计算机存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现第一方面所述的方法。
第六方面,本申请实施例还提供一种计算机程序产品,包括计算机指令,当所述计算机指令在中终端设备上运行时,使得所述终端设备实现执行如第一方面所述方法的部分或者全部。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2a为本申请实施例提供一种语音降噪处理原理示意图;
图2b为本申请实施例提供另一种语音降噪处理原理示意图;
图3为本申请实施例提供的一种语音增强方法的流程示意图;
图4为本申请实施例提供的一种语音降噪模型的结构示意图;
图5为本申请实施例提供的一种语音降噪模型的具体结构示意图;
图6a示意出了TCN模型的框架结构;
图6b示意出了因果空洞卷积层单元的结构;
图7为本申请实施例提供的另一种语音降噪模型的结构示意图;
图8为图7中神经网络的具体结构示意图;
图9为本申请实施例提供的一种语音降噪过程示意图;
图10为本申请实施例提供的另一种语音降噪过程示意图;
图11为本申请实施例提供的一种多人语音降噪过程示意图;
图12为本申请实施例提供的一种多人语音降噪过程示意图;
图13为本申请实施例提供的一种多人语音降噪过程示意图;
图14为本申请实施例提供的另一种语音降噪模型的结构示意图;
图15为本申请实施例提供的一种UI界面示意图;
图16为本申请实施例提供的另一种UI界面示意图;
图17为本申请实施例提供的另一种UI界面示意图;
图18为本申请实施例提供的另一种UI界面示意图;
图19为本申请实施例提供的通话场景下UI界面示意图;
图20为本申请实施例提供的另一种通话场景下UI界面示意图;
图21为本申请实施例提供的一种视频录制UI界面示意图;
图22为本申请实施例提供的一种视频通话UI界面示意图;
图23为本申请实施例提供的另一种视频通话UI界面示意图;
图24为本申请实施例提供的一种终端设备的结构示意图;
图25为本申请实施例提供的另一种终端设备的结构示意图;
图26为本申请实施例提供的另一种终端设备的结构示意图。
具体实施方式
以下分别进行详细说明。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同目标用户,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合附图对本申请的实施例进行描述。
参见图1,图1为本申请实施例提供的一种应用场景示意图。该应用场景包括音频采集设备102和终端设备101,该终端设备可以为智能手机、智能手表、电视、智能车辆/车载终端、耳机、PC、平板、笔记本电脑、智能音箱、机器人、录音采集设备等需要对声音信号进行采集的终端设备上,例如用于手机语音增强,对麦克风采集的带噪语音信号进行处理,输出目标用户的降噪语音信号,作为语音通话的上行信号,或者语音唤醒和语音识别引擎的输入信号。
当然,采集声音信号还可以是与终端设备通过有线方式或者无线方式连接的音频采集设备102采集的,该音频采集设备可以为智能手表、电视、智能车辆/车载终端、耳机、PC、平板、笔记本电脑或者录音采集设备等。
可选地,音频采集设备102与终端设备101是集成在一起的。
图2a和图2b示意出了语音降噪处理原理。如图2a所示,采集得到由目标用户的语音、干扰人的语音和其他噪声混合得到的带噪语音信号后,将该带噪语音信号和目标用户的注册语音输入到语音降噪模型中进行处理,得到目标用户的降噪语音信号,或者如图2b所示,将带噪语音信号和目标用户的VPU信号输入到语音降噪模型中进行处理,得到目标用户的降噪语音信号。
增强后的语音信号可用于语音通话或者语音唤醒和语音识别功能。对于私人设备(如手机、PC和各种私人穿戴产品等),目标用户是固定的,在通话和语音交互时只保留目标用户的语音信息作为注册语音或者VPU信号,然后按照上述方式进行语音增强,可极大提升用户体验。在有限公共设备(如智能家居、车载、会议室场景等),用户也相对固定,可通过多用户语音注册方式(图2a所示的方式)进行语音增强,可提升多用户场景的体验。
参见图3,图3为本申请实施例提供的一种语音增强方法的流程示意图。如图3所示,该方法包括:
S301、在终端设备进入PNR模式后,获取第一带噪语音信号和目标语音相关数据,其中,第一带噪语音信号包含干扰噪声信号和目标用户的语音信号,目标语音相关数据用于指示目标用户的语音特征。
可选地,目标语音相关数据可以为目标用户的注册语音信号,或者目标用户的VPU信号,或者目标用户的声纹特征,或者目标用户的视频唇动信息等。
在一个示例中,通过麦克风采集的目标用户在安静场景下预设时长的语音信号,该语音信号为目标用户的注册语音信号;其中,麦克风的采样频率可以为16000Hz,假设上述预设时长为6s,则目标用户的注册语音信号包括96000个采样点。其中,安静场景具体是指场景的声音大小不高于预设分贝;可选地,预设分贝可以为1dB,2dB,5dB,10dB或者其他值。
在另一个示例中,目标用户的VPU信号是通过带有骨声纹传感器的设备获取的,骨声纹传感器中的VPU传感器可以拾取目标用户通过骨传导的声音信号。相比麦克风采集的信号,VPU信号的区别在于:只拾取目标用户的语音且只能拾取低频信号(一般为4kHz以下)。
其中,第一带噪语音信号包含目标用户的语音信号和其他噪音信号,该其他噪音信号包括其他用户的语音信号和/或非人产生的噪音信号,比如汽车、工地机器等产生的噪音信号。
S302、根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,其中,语音降噪模型是基于神经网络实现的。
针对不同的目标语音相关数据,语音降噪模型具有不同的网络结构,也就是说语音降噪模型对不同的目标语音相关数采取不同的处理方式。对于目标语音相关数据为目标用户的注册语音或者目标用户的视频唇动信息,可以采用方式一对应的语音降噪模型对目标语音相关数据和第一带噪语音信号进行降噪处理;对于目标语音相关数据包括目标用户的VPU信号,可以采用方式二或者方式三对应的语音降噪模型对目标语音相关数据和第一带噪语音信号进行降噪处理。以下具体说明方式一、方式二和方式三的处理过程。
以目标语音相关数据为目标用户的注册语音信号为例具体说明方式一。
方式一:对于如图4所示,根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,具体包括如下步骤:
利用第一编码网络从目标用户的注册语音信号中提取注册语音信号的特征向量;利用第二编码网络从带噪语音信号中提取出该带噪语音信号的特征向量;根据注册语音信号的特征向量和带噪语音信号的特征向量得到第一特征向量,具体地,对册语音信号的特征向量和带噪语音信号的特征向量进行数学运算,比如点乘,以得到第一特征向量;利用TCN对第一特征向量进行处理,得到第二特征向量,再利用第一解码网络对第二特征向量进行处理,得到目标用户的降噪语音信号。由上述描述可知,在方式一中,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络。
具体地,如图5中的a所示,第一编码网络包括卷积层、层归一化(256)、激活函数PReLU(256)和求平均层,卷积层的卷积核的尺寸可以为1*1;采样点为96000的注册语音以40个采样点为一帧输入经过卷积层、层归一化和激活函数PReLU得到尺寸为4800*256的特征矩阵,其中,且相邻两帧的采样点的额重叠率可以为50%,重叠率当然还可以为其他值;然后通过求平均层对该特征矩阵在时间维度求均值得到尺寸为1*256的注册语音信号的特征向量。麦克风采集的第一带噪语音信号时,以20个采样点为一帧,并逐帧输入到第二编码网络中进行特征提取,得到每帧的语音特征向量。其中,如图5中的b所示,第二编码网络包括卷积层,层归一化和激活函数;具体地,将带噪语音以20个采样点为一帧分别经过卷积层、层归一化和激活函数,得到每帧的语音特征向量;将目标语音特征向量和第一带噪语音中每帧的语音特征向量进行数学运算,比如点乘,从而得到第一特征向量。可选地,上述数学运算可以为点乘或者其他运算。TCN模型采用因果空洞卷积模型,图6a示意出了TCN模型的框架结构,如图6a所示,TCN模型包括M个块(block),每个block有N个因果空洞卷积层单元组成。图6b示意出了因果空洞卷积层单元的结构,第n层对应的卷积扩张率为2n-1。在本实施例中,TCN模型包括5个block,每个block包括4层因果空洞卷积层单元,因此每个block中1,2,3,4层对应的扩张率分别为1,2,4,8,卷积核为3x1。第一特征向量经过TCN模型得到第二特征向量,第二特征向量的维度为1x256。如图5中的c所示,第一解码网络包括激活函数PReLU(256)和反卷积层(256x20x2);第二特征向量经过激活函数和反卷积层,可以得到目标用户的语音信号。其中,第二编码网络的结构参见第一编码网络的结构,相对于第一编码网络,第二编码网络少了在时间维度求平均的功能。
在此需要说明的是,上述层归一化(256)和上述激活函数PReLU(256)中的256表示层归一化和激活函数输出的特征维度数,反卷积层(256x20x2)中的256x20x2表示反卷积层所使用的卷积核的尺寸。上述描述只是一个示例性说明,不是对本申请的限定。
需要指出的是,目标用户的视频唇动信息包括多帧包含目标用户的唇动信息的图像,若目标语音相关数据为目标用户视频唇动信息时,则将方式一中的目标用户的注册语音信号替换为目标用户的视频唇动信息,通过第一编码网络提取目标用户的视频唇动信息的特征向量,然后再按照上述描述的方式一进行后续处理。
通过提前注册目标用户的语音信号的方式,在后续的语音交互时,可以增强目标用户的语音信号,抑制干扰语音和噪声,保证在语音唤醒和语音交互时只输入目标用户的语音信号,提升语音唤醒和语音识别的效果和精度;并且采用TCN因果空洞卷积网络构建语音降噪模型,可以实现语音降噪模型的低延时输出语音信号。
以目标语音相关数据为目标用户的VPU信号为例具体说明方式二和方式三。
方式二:对于如图7所示,采用语音降噪模型对目标用户的VPU信号和第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号,具体包括如下步骤:
通过预处理模块分别对目标用户的VPU信号和第一带噪语音信号进行时频变换,得到目标用户的VPU信号的频域信号和第一带噪语音信号的频域信号;并对目标用户的VPU信号的频域信号和第一带噪语音信号的频域信号进行融合,得到第一融合频域信号;将第一融合频域信号分别经过第三编码网络、GRU和第二解码网络进行处理,得到目标用户的语音信号的频域信号的掩膜;通过后处理模块根据目标用户的语音信号的频域信号的掩膜对第一带噪语音信号的频域信号进行后处理,比如数学运算中的点乘,得到目标用户的语音信号的频域信号,并对目标用户的语音信号的频域信号进行频时变换,得到目标用户的降噪语音信号。由上述可知,方式二的语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块。
具体地,通过预处理模块分别对目标用户的VPU信号和第一带噪语音信号进行快速傅里叶变换(fast Fourier transform,FFT),得到目标用户的VPU信号的频域信号和第一带噪语音信号的频域信号;并通过预处理模块将目标用户的VPU频域信号和带噪语音的频域信号进行频域上的拼接组合,或者是将目标用户的VPU信号的频域信号的频谱和第一带噪语音信号的频域信号的频谱进行叠加,或者对目标用户的VPU信号频域信号和第一带噪语音信号的频域信号进行点乘运算,从而得到第一融合频域信号。举例说明,从目标用户的VPU信号的频域信号中提取0-1.5kHz的频域信号,从第一带噪语音信号的频域信号中提取1.5kHz-8kHz的频域信号,在频域上将提取出来的两组频域信号直接在频域上进行拼接组合得到第一融合频域信号,此时第一融合频域信号的频率范围为0-8kHz。如图8所示;将第一融合频域信号输入到第三编码网络中进行特征提取,得到第一融合频域信号的特征向量;再将第一融合频域信号的特征向量输入到GRU中进行处理,得到第三特征向量;将第三特征向量输入第二解码网络中进行处理,得到目标用户的语音信号的频域信号的掩膜(mask)。如图8所示,第三编码网络和第二解码网络均包括2个卷积层和1个FTB。其中,卷积层的卷积核的尺寸均为3x3。通过后处理模块将目标用户的语音信号的频域信号的掩膜与第一带噪语音信号的频域信号进行点乘,得到目标用户的语音信号的频域信号;然后对目标用户的语音信号的频域信号进行快速傅里叶逆变换(inversefast Fourier transform,IFFT),得到目标用户的降噪语音信号。上述描述只是一个示例性说明,不是对本申请的限定。
通过将目标用户的VPU信号作为辅助信息,用于实时提取目标用户的语音特征,该特征与麦克风采集的第一带噪语音信号相融合,指导目标用户语音增强和非目标用户语音等干扰的抑制,并且本实施例还提出了一种新的基于FTB和GRU的语音降噪模型用于目标用户的语音增强和非目标用户的语音等干扰的抑制;可以看出,采用本实施例的方案,不需要用户提前注册语音特征信息,可以根据实时VPU信号作为辅助信息,得到增强的目标用户语音并抑制非目标语音的干扰。
方式三:分别对第一带噪语音信号和目标用户的耳内声音信号进行时频变换,得到第一带噪语音信号的频域信号和目标用户的声音信号的频域信号;根据目标用户的VPU信号及分别基于第一带噪语音的频域信号和目标用户的耳内声音信号的频域信号得到第一带噪语音信号与目标用户的耳内声音信号的协方差矩阵;分别基于第一带噪语音信号与目标用户的耳内声音信号的协方差矩阵得到第一MVDR权重;基于第一MVDR权重、第一带噪语音信号的频域信号和目标用户的耳内声音信号的频域信号得到第一语音信号的频域信号和第二语音信号的频域信号;其中,第一语音信号的频域信号与第一带噪语音信号相关,第二语音信号的频域信号与目标用户的耳内声音信号相关,根据第一语音信号的频域信号和第二语音信号的频域信号得到目标用户的降噪语音信号的频域信号;对目标用户的降噪语音信号的频域信号进行频时变换,以得到目标用户的降噪语音信号。
具体地,带有骨声纹传感器的耳机设备,该设备包含骨声纹传感器、耳内麦克风和耳外麦克风,骨声纹传感器中的VPU传感器可以拾取说话人通过骨传导的声音信号;耳内麦克风,用于拾取耳内声音信号;耳外麦克风,用于拾取耳外声音信号,也就是本申请中的第一带噪语音信号;
如图9所示,通过语音活动检测(voice activity detection,VAD)算法对目标用户的VPU信号进行处理,得到处理结果;根据处理结果判断目标用户是否在讲话;若判断目标用户在讲话,则将第一标识置为第一值(比如1或者true);若判断目标用户不讲话,则将第一标识置为第二值(比如0或false);
当第一标识的值为第二值时,更新协方差矩阵,具体包括:分别对第一带噪语音信号和目标用户的耳内声音信号进行时频变换,比如FFT,得到第一带噪语音信号的频域信号和目标用户的耳内声音信号的频域信号;然后再分别基于第一带噪语音信号的频域信号和目标用户的耳内声音信号的频域信号计算得到目标用户的耳内声音信号与第一带噪语音信号的协方差矩阵;其中,该协方差矩阵可表示为:Rn(f)=X(f)XH(f);其中,X(f)为目标用户的耳内声音信号和第一带噪语音信号的双通道频域信号,XH(f)为X(f)的Hermitian变换,或者X(f)的共轭转置;f为频点;然后基于协方差矩阵得到MVDR权重;其中,MVDR权重可表示为:
其中,a(f,θs)=[a1(f,θs)a2(f,θs)…aM(f,θs)]T表示在f频点处对应的信号方位θs导向矢量,f为频点,θs为目标方位,该θs为预设值,如垂直方向90度(耳机佩戴姿态与嘴部位置相对固定),M为麦克风个数,aH(f,θs)为a(f,θs)的Hermitian变换,为Rn(f)的逆矩阵;
基于第一MVDR权重、第一带噪语音信号的频域信号和目标用户的耳内声音信号的频域信号,得到第一语音信号的频域信号和第二语音信号的频域信号;其中,第一语音信号的频域信号与第一带噪语音信号相关,第二语音信号的频域信号与目标用户的耳内声音信号相关,该第一语音信号的频域信号和第二语音信号的频域信号可表示为:Yn(f)=wn(f,θs)Xn(f);需要指的是,wn(f,θs)包含两个向量,分别对应第一语音信号的频域信号和第二语音信号的频域信号;将第一带噪语音信号的频域信号和目标用户的耳内声音信号的频域信号分别与两个向量进行点乘,得到第一语音信号的频域信号和第二语音信号的频域信号;根据第一语音信号的频域信号和第二语音信号的频域信号得到目标用户的降噪语音信号的频域信号,具体地,将第一语音信号的频域信号和第二语音信号的频域信号逐频点进行相加,具体是将第一语音信号的频域信号的第一个频点与第二语音信号的频域信号的第一个频点相加,将第一语音信号的频域信号的第二个频点与第二语音信号的频域信号的第二个频点相加,直至将第一语音信号的频域信号和第二语音信号的频域信号所有对应的频点都相加,得到目标用户的降噪语音信号的频域信号;对目标用户的降噪语音信号的频域信号进行IFFT,得到目标用户的降噪语音信号;
当第一标识的值为第一值时,锁定协方差矩阵不更新,也就是说在计算第一MVDR权重采用历史协方差矩阵。
采用方式三,不需要用户提前注册语音特征信息,可以根据实时的VPU信号作为辅助信息,得到增强语音信号,同时抑制干扰噪声。
在一个可行的实施例中,为了进一步增强目标用户的降噪语音信号,获取目标用户的语音增强系数,基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,其中,目标用户的增强语音信号的幅值和目标用户的降噪语音信号的幅值之比为上述目标用户的语音增强系数。
由于单独输出用户的语音信号会降低用户体验,因此会在目标用户的语音信号的基础上增加干扰噪声信号,从而提高用户体验。在一个可行的实施例中,对于方式一和方式二中的语音降噪模型,在训练时可使得语音降噪模型中的解码网络(包括第一解码网络和第二解码网络)不仅传输目标用户的增强语音信号,还可以输出干扰噪声信号。对于方式三,可以在得到目标用户的降噪语音信号后,将第一带噪语音信号减去目标用户的降噪语音信号即可得到干扰噪声信号。
对于方式二,语音降噪模型的第二解码网络还输出第一带噪语音信号的频域信号的掩膜,后处理模块还根据第一带噪语音信号的频域信号的掩膜对第一带噪语音信号的频域信号进行后处理,比如点乘,得到干扰噪声的频域信号,然后对干扰噪声的频域信号进行频时变换,比如IFFT,得到干扰噪声信号。
可选地,在得到目标用户的降噪语音信号后,根据目标用户的降噪语音信号对第一带噪语音信号进行处理,得到干扰噪声信号。具体地,将第一带噪语音信号减去目标用户的降噪语音信号,即可得到干扰噪声信号。
可选地,对于方式一或者方式二或者方式三,在得到干扰噪声信号后,将干扰噪声信号与目标用户的增强语音信号进行融合,得到输出信号;该输出信号是目标用户的增强语音信号及干扰噪声信号混合得到的。
或者,如图10所示,获取干扰噪声抑制系数,基于该干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅值与干扰噪声的幅值之比为干扰噪声抑制系数;再将干扰噪声抑制信号与目标用户的增强语音信号进行融合,以得到输出信号;该输出信号是目标用户的增强语音信号及干扰噪声抑制信号混合得到的。
或者,获取干扰噪声抑制系数,基于该干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号;然后将干扰噪声抑制信号与目标用户的降噪语音信号进行融合,得到输出信号。该输出信号是目标用户的降噪语音信号及干扰噪声抑制信号混合得到的。
其中,干扰噪声抑制系数α,目标语音增强系数β,可以是系统预先设定的,例如α=0,β=1。也可以由用户设定,比如用户通过终端设备的UI界面可以设定干扰噪声抑制系数α,目标语音增强系数β。
在会议、视频通话的场景中,存在多人参与的情况,需要进行语音增强的目标用户可能不止一个人;因此对于多人的语音增强,可以采用方式四、方式五和方式六。
目标用户包括M个,目标语音相关数据包括M个目标用户的相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,目标用户的语音增强系数包括M个目标用户的语音增强系数;第一带噪语音信号包含M个目标用户的语音信号及干扰噪声信号。
方式四:如图11所示,将M个目标用户中第1个目标用户的语音相关数据和第一带噪语音信号输入到语音降噪模型中进行降噪处理的,得到第1个目标用户的降噪语音信号和不包含第1个目标用户的语音信号的第一带噪语音信号;再将第2个目标用户的语音相关数据和不包含第1个目标用户的语音信号的第一带噪语音信号输入到语音降噪模型中进行降噪处理的,得到第2个目标用户的降噪语音信号和不包含第1个目标用户的语音信号和第2个目标用户的语音信号的第一带噪语音信号;重复上述步骤,直至将第M个目标用户的语音相关数据和不包含第1至M-1个目标用户的语音的第一带噪语音信号输入到语音降噪模型中进行降噪处理,得到第M个目标用户的降噪语音信号和干扰噪声信号,该干扰噪声信号为不包含第1至M个目标用户的语音信号的第一带噪语音信号;基于M个目标用户的语音增强系数分别对M个目标用户的降噪语音信号进行增强处理,以得到M个目标用户的增强语音信号;对于M个目标用户中的任一目标用户O,目标用户O的增强语音信号的幅值与该目标用户的降噪语音信号的幅值之比为目标用户O的语音增强系数;基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅值与干扰噪声信号的幅值之比为干扰噪声抑制系数;将M个目标用户的增强语音信号与干扰噪声抑制信号进行融合,得到输出信号。该输出信号是M个目标用户的增强语音信号及干扰噪声抑制信号混合得到的。
对于方式四中的语音降噪模型,当M个目标用户的语音相关数据为注册语音信号或者视频唇动信息时,方式四中的语音降噪模型的结构可以为方式一所描述的结构;当M个目标用户的语音相关数据为VPU信号时,方式四中的语音降噪模型的结构可以为方式二所描述的结构,或者方式四中的语音降噪模型实现方式三所描述的功能。
在一个示例中,按照方式四得到M个目标用户的降噪语音信号和干扰噪声信号后,直接对M个目标用户的降噪语音信号和干扰噪声信号进行融合,得到输出信号。该输出信号是M个目标用户的降噪语音信号和干扰噪声信号混合得到的。
方式五:目标用户包括M个,如图12所示,将M个目标用户中第1个目标用户的语音相关数据和第一带噪语音信号输入到语音降噪模型中进行降噪处理的,得到第1个目标用户的降噪语音信号;将第2个目标用户的语音相关数据和第一带噪语音信号输入到语音降噪模型中进行降噪处理的,得到第2个目标用户的降噪语音信号;重复上述步骤,直至将第M个目标用户的语音相关数据和第一带噪语音信号输入到语音降噪模型中进行降噪处理,得到第M个目标用户的降噪语音信号;基于M个目标用户的语音增强系数分别对M个目标用户的降噪语音信号进行增强处理,以得到M个目标用户的增强语音信号;对于M个目标用户中的任一目标用户O,目标用户O的增强语音信号的幅值与目标用户O的降噪语音信号的幅值之比为目标用户O的语音增强系数;将M个目标用户的增强语音信号进行融合,得到输出信号。该输出信号是M个目标用户的增强语音信号混合得到的。
应理解,上述M个目标用户的语音相关数据及第一带噪语音信号是并行输入到语音降噪模型中的,因此上述动作可以是并行处理的。
对于方式五中的语音降噪模型,当M个目标用户的语音相关数据为注册语音信号或者视频唇动信息时,方式五中的语音降噪模型的结构可以为方式一所描述的结构;当M个目标用户的语音相关数据为VPU信号时,方式五中的语音降噪模型的结构可以为方式二所描述的结构,或者方式五中的语音降噪模型实现方式三所描述的功能。
在一个示例中,在通过语音降噪模型得到M个目标用户的增强语音信号后,可直接对M个目标用户的增强语音信号进行融合,从而得到上述输出信号。该输出信号是M个目标用户的增强语音信号混合得到的。
方式六:如图13所示,将M个目标用户的语音相关数据和第一带噪语音信号输入到语音降噪模型中进行降噪处理的,得到M个目标用户的降噪语音信号;基于M个目标用户的语音增强系数分别对M个目标用户的降噪语音信号进行增强处理,得到M个目标用户的增强语音信号;对于M个目标用户中的任一目标用户O,目标用户O的增强语音信号的幅值与目标用户O的降噪语音信号的幅值之比为目标用户O的语音增强系数;基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅值与干扰噪声信号的幅值之比为干扰噪声抑制系数;将M个目标用户的增强语音信号与干扰噪声抑制信号进行融合,以得到输出信号。该输出信号是M个目标用户的增强语音信号和干扰噪声抑制信号混合得到的。
进一步,方式六中的语音降噪模型如图14所示,该语音降噪模型包括M个第一编码网络、第二编码网络、TCN和第一解码网络;利用M个第一编码网络分别对M个目标用户的注册语音信号进行特征提取,得到M个目标用户的注册语音信号的特征向量;利用第二编码网络对第一带噪语音信号进行特征提取,得到第一带噪语音信号的特征向量;对M个目标用户的注册语音信号的特征向量和第一带噪语音信号的特征向量进行数学运算,比如点乘,得到第一特征向量;利用TCN对第一特征向量进行处理,得到第二特征向量;并利用第一解码网络进行处理,得到目标用户的降噪语音信号和干扰噪声信号。
需要说明的是,在多人远程会议或者通话过程中,存在一端存在多个人,每个人都戴着耳机,通过这些耳机,可以采集每个人的VPU信号,然后按照上述基于VPU信号进行降噪方案进行降噪处理。
在一个可行的实施例中,对于干扰噪声抑制系数,可以是默认值,也可以是目标用户基于自己的需求设置的,比如如图15中的左图所示,在终端设备上开启PNR功能后,终端设备进入PNR模式,终端设备的显示界面显示如图15中的右图所示的无极滑动控件,目标用户通过控制无极滑动控件上的灰色旋钮来调节干扰噪声抑制系数,其中,干扰噪声抑制系数的取值范围为[0,1];当控制灰色旋钮滑动到最左侧时,干扰噪声抑制系数为0,表示未进入PNR模式,干扰噪声不被抑制;当控制灰色旋钮滑动到最右侧时,干扰噪声抑制系数为1,表示干扰噪声完全被抑制;当控制灰色旋钮滑动到中间时,表示干扰噪声不完全被抑制。
通过调整干扰噪声抑制系数的大小调整降噪的力度。
可选地,无极滑动控件可以为图15所示的圆盘形,也可以是条形,还可以为其他形状,在此不做限定。
在此需要说明的是,对于语音增强系数,也可以采用上述方式进行调节。
在一个可行的实施例中,可以通过以下方式确定降噪是采用传统降噪算法,还是采用本申请公开的降噪方法进行降噪,本申请的方法还包括:
获取终端设备所处环境的第一噪音片段和第二噪音片段,其中,第一噪音片段和第二噪音片段在时间上是连续的;获取第一噪音片段的SNR和SPL,若第一噪音片段的SNR大于第一阈值且第一噪音片段的SPL大于第二阈值,则提取第一噪音片段的第一临时特征向量;基于第一噪音片段的第一临时语音特征向量对第二噪音片段进行降噪处理,以得到第二降噪噪音片段;基于第二降噪噪音片段和第一噪音片段进行损伤评估,以得到第一损伤评分;若第一损伤评分不大于第三阈值时,则进入PNR模式,并从在第一噪音片段之后产生的噪声信号中确定出第一带噪语音信号,将第一临时特征向量作为注册语音信号的特征向量。
进一步地,若第一损伤评分不大于第三阈值时,通过终端设备向目标用户发出第一提示消息,该第一提示信息用于提示目标用户是否使得终端设备进入PNR模式;在检测到目标用户的同意终端设备进入PNR模式的操作指令后,才进入PNR模式。
具体地,当用户在初次使用终端设备时,终端设备的默认麦克风采集语音信号,并通过传统降噪算法对采集的语音信号进行处理,得到用户的降噪语音信号;并且终端设备按照预设周期(比如每隔10分钟)获取终端设备所处环境的第一噪音片段(比如麦克风当前采集的6s的语音信号)和第二噪音片段(比如麦克风当前采集的6s的语音信号的后续10s的语音信号),并获取第一噪音片段的SNR和SPL;判断第一噪音片段的SNR是否大于20dB且SPL是否大于40dB;若第一噪音片段的SNR大于第一阈值(比如20dB)且SPL大于第二阈值(比如40dB),则提取第一噪音片段的第一临时特征向量;利用第一临时特征向量对第二噪音片段进行降噪处理,以得到第二降噪噪音片段;基于第二降噪噪音片段和第二噪音片段进行损伤评估,得到第一损伤评分,其中,第一损伤评分用于表征终端设备的麦克风采集信号的损伤程度,若第一损伤评分越大,损伤程度越高;若第一损伤评分不大于第三阈值,则表示麦克风采集的语音信号无损伤,通过终端设备向用户发出第一提示信息,该第一提示信息用于提示用户是否使得终端设备进入PNR模式;该提示信息可以是语音信息、可以是通过终端设备的显示屏显示的文本信息,当然还可以是其他形式的信息,在此不做限定;检测到用户针对提示信息的指令,该指令可以为语音指令、触摸指令、手势指令等;若该指令用于指示用户不同意进入PNR模式,则维持采用传统降噪算法进行降噪;若该指令用于指示用户同意进入PNR模式,在等待用户讲完本句话后,进入PNR模式,并从第一噪音片段之后产生的噪声信号中确定出第一带噪语音信号,也就是从第二噪音片段或者在第二噪音片段之后采集的噪声信号中获取第一带噪语音信号,并存储第一临时特征向量,作为注册语音信号的特征向量;若该第一损伤评分大于第三阈值,则间隔预设周期重新获取第一噪音片段和第二噪音片段,并重复执行上述步骤。
其中,从第一噪音片段之后产生的噪声信号中确定出第一带噪语音信号,可以理解成第一带噪语音信号为第一噪音片段之后产生的噪声信号中的部分或者全部。
可选地,损伤评分可以为信号失真比(signal-to-distortion ratio,SDR)值或者(perceptual evaluation of speech quality,PESQ)值。
在一个可行的实施例中,本申请的方法还包括:
若第一噪音片段的SNR不大于第一阈值或者第一噪音片段的SPL不大于第二阈值,且终端设备已存储参考临时声纹特征向量,获取第三噪音片段;根据参考临时声纹特征向量对第三噪音片段进行降噪处理,得到第三降噪噪音片段;根据第三噪音片段和第三降噪噪音片段进行损伤评估,以得到第三损伤评分;若第三损伤评分大于第六阈值且第三噪音片段的SNR小于第七阈值,或者第三损伤评分大于第八阈值且第三噪音片段的SNR不小于第七阈值,则通过终端设备发出第三提示信息,第三提示信息用于提示当前使用者终端设备能够进入PNR模式;在检测到当前使用者的同意进入PNR模式的操作指令后,使得终端设备进入PNR模式对第四带噪语音信号进行降噪处理;在检测到当前使用者的不同意进入PNR模式的操作指令后,采用非PNR模式对第四带噪语音信号进行降噪处理;其中,第四带噪语音信号是从在第三噪音片段之后产生的噪声信号中确定的。
具体地,若第一噪音片段的SNR不大于第一阈值或者第一噪音片段的SPL不大于第二阈值,即在本次通话过程中无法提取目标语音特征的场景,此时,如果终端设备已经存储好的历史使用者的声纹信息(比如声纹特征向量),终端设备监测到输入信号中有连续语音(即vad=1)超过2秒钟,终端设备采集该语音信号得到第三噪音片段,并基于已存储的历史使用者的声纹特征向量对第三噪音片段进行降噪处理的,以得到第三降噪噪音片段;基于第三噪音片段和第三降噪噪音片段进行损伤评估,以得到第三损伤得分;在第三损伤得分大于第六阈值(比如8dB)且第三噪音片段的SNR小于第七阈值(比如10dB)时,或者在第三损伤得分大于第八阈值(比如12dB)且第三噪音片段的SNR不小于第七阈值时,表示当前使用者的声纹特征与已存储的声音特征匹配,通过终端设备向用户发出第三提示信息,该第三提示信息用于提示当前使用者是否使得终端设备进入PNR模式;该第三提示信息可以是语音信息、可以是通过终端设备的显示屏显示的文本信息,当然还可以是其他形式的信息,在此不做限定;检测到用户针对提示信息的指令,该指令可以为语音指令、触摸指令、手势指令等。若检测到当前使用者同意开启终端设备的PNR功能的操作指令,则终端设备进入PNR模式,对第四带噪语音信号进行降噪处理,该第四带噪语音信号是在第三噪音片段之后获取的;若检测到当前使用者不同意开启终端设备的PNR功能的操作指令,则维持采用传统降噪算法对第四带噪语音信号进行降噪处理。
在一个可行的实施例中,本申请的方法还包括:
在检测到终端设备再次被使用时,获取第二带噪语音信号,并采用传统降噪算法,也就是非PNR模式对第二带噪语音信号进行降噪处理,得到当前使用者的降噪语音信号;同时判断第二带噪语音信号的SNR是否低于第四阈值;在第二带噪语音信号的SNR低于第四阈值时,根据第一临时特征向量对第二带噪语音信号进行语音降噪处理,得到当前使用者的降噪语音信号;基于当前使用者的降噪语音信号和第二带噪语音信号进行损伤评估,以得到第二损伤评分;当第二损伤评分不大于第五阈值时,通过终端设备向当前使用者发出第二提示信息,第二提示信息用于提示当前使用者终端设备能够进入PNR模式;在检测到当前使用者的同意终端设备进入PNR模式的操作指令后,进入PNR模式对第三带噪语音信号进行降噪处理,该第三带噪语音信号是在第二带噪语音信号之后获取的;在检测到当前使用者的不同意进入PNR模式的操作指令后,继续采用传统降噪算法对第三带噪语音信号进行降噪处理。
具体地,当检测到终端设备再次被使用进行通话时,终端设备的默认麦克风采集第二带噪语音信号,并采用传统降噪算法对第二带噪语音信号进行处理,输出当前使用者的降噪语音信号。同时判断当前环境是否嘈杂,具体判断第二带噪语音信号的SNR是否小于第四阈值;当第二带噪语音信号的SNR小于第四阈值(例如SNR小于10dB),表示当前环境嘈杂;按照本申请的降噪算法,利用前一次存储的语音特征(即上述第一临时特征向量)对第二带噪语音信号进行降噪处理,得到当前使用者的降噪语音信号;基于当前使用者的降噪语音信号和第二带噪语音信号进行损伤评估,以得到第二损伤评分,具体过程可参见上述方法,在此不再叙述;如果第二评分低于第五阈值,表示当前使用者与存储的第一临时特征向量表征的语音特征相匹配;通过终端设备向当前使用者发出第二提示信息,该第二提示信息用于提示当前使用者可以开启终端设备的PNR通话功能。若检测到当前使用者同意开启终端设备的PNR功能的操作指令,则终端设备进入PNR模式,对第三带噪语音信号进行降噪处理,该第三带噪语音信号是在第二带噪语音信号之后获取的;若检测到当前使用者不同意开启终端设备的PNR功能的操作指令,则维持采用传统降噪算法对第三带噪语音信号进行降噪处理。
在一个可行的实施例中,可以通过以下方式确定降噪是采用传统降噪算法,还是采用本申请公开的降噪方法进行降噪,本申请的方法还包括:
获取终端设备所处环境的第一噪音片段和第二噪音片段;第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取终端设备的辅助设备的麦克风阵列针对终端设备所处的环境采集的信号,利用采集的信号计算得到第一噪音片段的DOA和SPL;若第一噪音片段的DOA大于第九阈值且小于第十阈值,且第一噪音片段的SPL大于第十一阈值,则提取第一噪音片段的第二临时特征向量;基于第二临时语音特征向量对第二噪音片段进行降噪处理,以得到第四降噪噪音片段;基于第四降噪噪音片段和第二噪音片段进行损伤评估,以得到第四损伤评分;若第四损伤评分不大于第十二阈值,进入PNR模式。
获取第一带噪语音信号包括:
从在第一噪音片段之后产生的噪声信号中确定第一带噪语音信号;注册语音信号的特征向量包括第二临时特征向量。
其中,利用采集的信号计算得到第一噪音片段的DOA和SPL,具体可以包括:
对麦克风阵列采集的信号进行时频变换,得到第十九频域信号,基于该第十九频域信号,计算第一噪音片段的DOA和SPL。
进一步地,若第四损伤评分不大于第十二阈值,本申请的方法还包括:
通过终端设备发出第四提示信息,该第四提示信息用于提示是否使得终端设备进入PNR模式;在检测到目标用户的同意进入PNR模式的操作指令后,才进入PNR模式。
在一个具体的场景中,终端设备与电脑(辅助设备的一种情况)连接,可以采用有线方式,也可以采用无线方式,电脑的麦克风阵列采集终端设备所处环境的信号;然后终端设备获取该麦克风阵列采集的信号,再按照上述方式进行处理,在此不再叙述。
在此需要说明的是,在提取到第一临时特征向量或者第二临时特征向量后,终端设备存储第一临时特征向量或者第二临时特征向量,后续需要使用时直接获取第一临时特征向量或者第二临时特征向量,避免了后续在噪声较大的场景下无法获取当前使用者的语音特征,从而无法进行损伤评估。
在本申请中公开了多种降噪方式,对于不同的场景,可以基于场景信息判断是否进入PNR模式,并自动识别目标用户或者对象,并选择对应的降噪方式:
当检测到终端设备处于手持通话状态时,不进入PNR模式;
当检测到终端设备处于免提通话状态时,进入PNR模式,并且以注册过声纹特征的机主为目标用户;获取当前用户在通话时t秒语音信号进行声纹识别,将识别结果与注册过声纹特征进行比对,若确定当前用户非机主时,将获取的当前用户在通话时的t秒语音信号作为该用户的注册语音信号,并将当前用户作为目标用户,采用方式一所述的方式进行降噪;其中,上述t可以为3或者其他值。
当检测到终端设备处于视频通话状态时,进入PNR模式,并且终端设备处于视频通话时,对摄像头采集的图像进行人脸识别,确定图像中当前用户的身份;若图像中包含多个人,则以距离摄像头最近的人为当前用户;对于图像中人与摄像头之间的距离的确定,可以通过终端设备上深度传感器等传感器实现;在确定当前用户后,终端设备检测是否已存储当前用户的注册语音或者当前用户的语音特征;若已经存储了当前用户的注册语音或者当前用户的语音特征,将当前用户确定为目标用户,并将当前用户的注册语音或者语音特征作为当前用户的语音相关数据;若终端设备未存储当前用户的注册语音或者语音特征,则终端设备通过唇形检测方法检测当前用户是否在讲话,在检测到当前用户在讲话时,从麦克风采集的语音信号中截取出当前用户的语音信号,作为当前用户的注册语音,该当前用户的注册语音可以由多段信号串接在一起得到的,总时长不少于6s;通过终端设备的麦克风获取第一带噪语音信号,并采用方式一或方式四所述的方式进行降噪处理。
当检测到终端设备连接到耳机,且处于终端设备处于通话状态时,进入PNR模式;并且终端设备检测耳机是否具有骨声纹传感器,若具有,则通过耳机的骨声纹传感器采集目标用户的VPU信号,并采用方式二、方式三和方式四所述的方式进行降噪处理;若耳机不具有骨声纹传感器,则默认将在耳机中已注册过的语音信号的用户作为目标用户,将该用户的注册语音和耳机采集的第一带噪语音信号发送至终端设备,终端设备采用方式一和方式四所述的方式进行降噪;若耳机中没有注册任何人的语音信号,则通过耳机的麦克风获取当前佩戴耳机的用户的通话语音,将该语音中的部分片段作为该用户的注册语音,并将该注册语音和耳机采集的第一带噪语音信号发送至终端设备,终端设备采用方式一和方式四所述的方式进行降噪。
当检测到终端设备连接到智能设备(比如智能大屏设备或者智能手表或者车载蓝牙设备),且处于视频通话状态时,进入PNR模式,判断终端设备中是否已存当前用户的注册语音信号,若终端设备中已存储当前用户的注册语音信号,则通过智能设备采集第一带噪语音信号,并将该第一带噪语音信号发送至终端设备,终端设备采用方式一和方式四所述的方式进行降噪。
在一个可行的实施例中,由于PNR主要用于噪音比较强的环境下,而用户不一定一直处于噪音比较强的环境下,因此可以提供在某特定功能使用过程中/某应用程序执行过程中供用户设置某特定功能或某应用程序的PNR功能的界面。应用程序可以是需要特定语音增强功能的各种应用程序,如通话、语音助手、畅联、录音机等;特定功能可以是各种需要录制本端语音的功能,如接听电话、视频录制、使用语音助手等。如图16中的左图所示,终端设备的显示界面上显示有3个功能标签和该3个功能标签对应的3个PNR控制按键;用户通过该3个PNR控制按键可以分别控制3个功能的PNR功能的关闭和开启;如图16的左图所示,通话和语音助手对应的PNR功能开启,视频录制的PNR功能关闭;如图16中的右图所示,终端设备的显示界面上显示有5个应用标签和该5个应用标签对应的5个PNR控制按键,用户通过该5个PNR控制按键可以分别控制5个应用的PNR功能关闭和开启;如图16中的右图所示,唱吧、录音机和畅联的PNR功能开启,通话和微信的PNR功能关闭。需要指出的是,比如开启通话的PNR功能,在用户使用终端设备进行通话时,终端设备直接进入PNR模式。通过采用上述方式,对于终端设备的不同的语音功能,用户可以灵活设置是否开启PNR功能。
如图17所示为以“通话”应用程序/“接听电话”功能为例的终端设备的显示界面,在该界面提供可开启PNR功能的开关,如图17中的“开启PNR”功能按键;图17中的左图为来电时的终端设备的显示界面示意图,该显示界面显示有来电人的信息、“开启PNR”功能按键、“挂断”功能按键和“接听”功能按键;图17中的右图为接听电话时的终端设备的显示界面示意图;该显示界面显示有来电人的信息、“开启PNR”功能按键、“挂断”功能按键。
在此需要指出的是,本申请中的终端设备的某些特定功能本质上是终端设备所安装的应用程序的功能。比如终端设备的通话功能是通过“电话”这个应用程序实现的。
可选地,检测到目标用户针对通话界面(图17所示的界面)上的“开启PNR”功能按键后,终端设备的显示界面跳转显示如图15中的左图所示显示的界面,目标用户可通过控制图15中的灰色旋钮调节干扰噪声抑制系数的大小,从而调整降噪的力度。
通过图16所显示的UI界面,目标用户可以根据自己的需求灵活开启或者关闭特定功能或者应用程序的PNR功能。
在一个可行的实施例中,为了减少用户的操作,本申请还包括:判断当前环境声音的分贝值是否超过预设分贝值(比如50dB),或者检测当前环境声音中是否包含非目标用户的声音;若判断当前环境声音的分贝值超过预设分贝值,或者在当前环境声音中检测到非目标用户的声音,则开启PNR功能。当目标用户使用终端设备需要进行降噪时,则直接进入PNR模式;换言之,对于终端设备的特定功能或者应用程序,均可按照上述方式开启对应的PNR功能。
进一步地,当目标用户点击如图18中的a所示的PNR的,进入PNR设置界面,目标用户可以通过图18中的b所示的“智能开启”开关功能键开启PNR的“智能开启”功能,PNR智能开启功能开启后,对于终端设备的特定功能或者应用程序,可采取上述方式开启PNR功能。当关闭PNR的“智能开启”功能,终端设备的显示界面显示如图18中的c所示的内容;目标用户可以通过特定功能或者应用程序对应的PNR功能键根据需求开启或者关闭特定功能或者应用程序的PNR功能。
按照上述开启智能PNR功能,使得终端设备更加的智能,减少了用户的操作,使得用户体验更佳。
在一个可行的实施例中,在通话场景中,终端设备(也为本端设备)在开启PNR功能后,开启PNR功能后的通话效果只有对端用户知道,目标用户很难判断是否应开启PNR功能或者设置的降噪力度能够使得对端用户听得清楚,终端设备的PNR功能是否开启或者降噪力度有对端设备来设置。
对端设备(也就是另一终端设备)在检测到对端设备的用户的开启终端设备的PNR功能的操作后,对端设备向终端设备发送语音增强请求,该增强语音请求用于请求开启终端设备的通话功能的PNR功能;终端设备接收到增强语音请求后,响应于语音增强请求,在终端设备的显示界面上显示提醒标签,也即是第三提示信息,该提醒标签用于提醒目标用户对端设备请求开启本端设备的通话功能的PNR功能,是否使得终端设备开启通话功能的PNR功能;该提醒标签上还包括确认功能按键;当终端设备检测到目标用户针对该确定功能按键的操作后,终端设备开启通话功能的PNR功能,并进入PNR模式,并向对端设备发送响应消息,该响应消息用于响应上述增强语音请求,该响应消息用于告知对端设备已开启终端设备的PNR功能;对端设备接收到该响应消息后,在对端设备的显示界面上显示提示标签,该提示标签用于提示使用对端设备的用户已增强目标用户的语音。
可选地,在终端设备(也为本端设备)开启通话的PNR功能后,对端设备向终端设备发送干扰噪声抑制系数,以调节终端设备的降噪力度;或者对端设备向终端设备发送的语音增强请求中携带干扰噪声抑制系数。可选地,在对端设备向终端设备发送干扰噪声抑制系数时,对端设备还向终端设备发送目标用户的语音增强系数。
以用户A与用户B进行通话为例进行说明,如图19所示,用户A的终端设备(对端设备)与用户B的终端设备(上述终端设备,也为本端设备)通过基站进行语音数据的传输,实现用户A与用户B之间的通话。用户A所处的环境很嘈杂,用户B听不清楚用户A所讲的内容;用户B点击用户B的终端设备的显示界面上显示的“增强对方语音”功能按键,以增强用户A的语音;用户B的终端设备检测到用户B针对“增强对方语音”功能按键,如图20中的a所示,向用户A的终端设备发送增强语音请求,该增强语音请求用于请求用户A的终端设备开启通话功能的PNR功能;用户A的终端设备接收到语音增强请求后,用户A的终端设备的显示界面上显示提醒标签,如图20中的b所示,该提醒标签上显示有“对方请求增强您的语音,是否接受”,以提醒用户A,用户B请求增强其的语音;若用户B同意增强其语音,则用户B点击其终端设备的显示界面显示的“接受”功能按键;用户B的终端设备检测到用户B针对“接受”功能按键的操作后,用户B的终端设备开启通话功能的PNR功能,并通过基站向用户A的终端设备发送响应消息,该响应消息用于告知用户A已开启用户B的终端设备的通话功能的PNR功能;用户B的终端设备接收到基站反馈的上述响应消息后,在其显示界面上显示提示标签“对方语音增强中”,以告知用户B已增强用户A的语音,如图20中的c所示。
应理解,终端设备(本端设备)也可以按照上述方式控制对端设备开启通话功能的PNR功能。
在此需要指出的是,终端设备和对端设备之间传输的数据(包括语音增强请求、响应消息等)是通过基于终端设备的电话号码与对端设备的电话号码建立起来的通讯链路实现传输的。
在通话过程中,对端设备的用户可以根据其听到的目标用户的语音质量的好坏,来决定是否控制本端设备开启通话功能的PNR功能;当然,目标用户可以根据其听到的对端设备的用户的语音质量决定是否控制终端设备开启通话功能的PNR功能,从而提高双方通话的效率。
在一个可行的实施例中,在视频录制场景中,比如在父母给孩子录制视频时,小孩离终端设备(比如拍摄终端)较远,父母离终端设备较近,导致录制视频的效果是小孩的声音小,而父母的声音大,但实际上是录制孩子的声音大,父母声音弱化甚至可以没有的视频。针对该问题,本申请如下解决方案:
在录制视频或者视频通话时,终端设备的显示界面包括第一区域和第二区域,其中第一区域用于实时显示视频录制结果或者视频通话的内容,第二区域用于显示用于调节多个对象(或目标用户)的语音增强系数的控件和对应的标签;按照上述方式四、方式五或者方式六得到多个的增强语音信号后,基于终端设备的使用者针对用于调节多个对象的语音增强系数的控件的操作指令获取多个对象的语音增强系数,然后根据该多个对象的语音增强系数分别对多个对象的降噪语音信号进行增强处理,以得到多个对象的增强语音信号;然后基于多个对象的增强语音信号得到输出信号。该输出信号是多个对象的增强语音信号混合得到的。
可选地,按照方式四或者方式六得到多个对象的降噪语音信号和干扰噪声信号后,按照上述方式获取多个对象的语音增强系数,然后根据该多个对象的语音增强系数分别对多个对象的降噪语音信号进行增强处理,以得到多个对象的增强语音信号;然后基于多个对象的增强语音信号和干扰噪声信号得到输出信号。输出信号是多个对象的增强语音信号和干扰噪声信号混合得到的。
可选地,按照方式四或者方式六得到多个对象的降噪语音信号和干扰噪声信号后,上述第二区域还用于显示用于调节干扰噪声抑制系数的控件,基于终端设备的使用者针对用于调节多个对象的语音增强系数的控件和调节干扰噪声抑制系数的控件的操作指令获取多个对象的语音增强系数和干扰噪声抑制系数,然后根据该多个对象的语音增强系数分别对多个对象的降噪语音信号进行增强处理,以得到多个对象的增强语音信号;根据干扰噪声抑制系数对干扰噪声信号进行抑制处理,得到干扰噪声抑制信号;然后基于多个对象的增强语音信号和干扰噪声抑制信号得到输出信号。输出信号是多个对象的增强语音信号和干扰噪声抑制信号混合得到的。
在此需要指出的是,多个对象的声音样本均已被注册。
以对象2为对象1录制视频为例进行说明,如图21所示,终端设备的显示界面包括用于显示针对图像1的视频录制结果的区域、显示用于调节对象1的语音增强系数和对象2的语音增强系数的控件,该控件包括条形滑动条和滑动按钮;对象2可通过拖动对象1的滑动按钮在滑动条上滑动来调整对象1的语音增强系数大小,可通过拖动对象2的滑动按钮在滑动条上滑动来调整对象2的语音增强系数的大小,从而实现针对视频录制时对象1和对象2的声音大小的调节。
需要指出的是,对象2通过拖动对象2为拍摄者,在图21未示意出。
在视频通话场景中,比如家庭成员间的视频通话,如图22所示,终端设备在女儿(对象1)手上,母亲(对象2)在女儿身后一定距离做饭,父亲在远端,父亲想听母亲说话但听不清楚。对象1可以通过拖动对象2的滑动按钮在滑动条上滑动以增大对象2的语音增强系数,从而增大对象2的声音,也就是妈妈的声音。
可选地,如图23中的左图所示,用于调节对象1和对象2的语音增强系数的控件在不需要调节语音增强系数的情况下是不显示的,当终端设备检测到对象1需要调整对象1或者2的语音增强系数的操作时,在终端设备的显示界面上显示用于调节对象1或对象2的语音增强系数的控件;如图23中的右图所示,对象1需要调节对象2的语音增强系数,对象1在终端设备的显示界面上长按或者点击对象2的显示区域,当然也可以是其他操作,终端设备检测到对象1的操作后,在显示界面上显示用于调节对象2的语音增强系数的控件,对象1再通过滑动该控对象2的语音增强系数的控件的一段时间内,终端设备未检测到针对用于调节对象2的语音增强系数的控件的操作时,隐藏用于调节对象2的语音增强系数的控件。
需要指出的是,终端设备在检测到针对显示对象2的区域的操作后,终端设备从存储对象对应的语音信号特征的数据库中确定对象2的语音信号特征,再按照本申请的降噪方式进行降噪。
应理解,针对显示对象2的区域的操作包括但不限于长按和点击,当然还可以为其他形式的操作。
终端设备在检测针对显示界面的点击、长按或者其他操作时,终端设备首先需要识别出被操作的区域所显示对象,然后基于预先记录的对象与语音信号之间的关联关系,确定需要增强的语音信号,进而设定对应的语音增强系数。
在一个可行的实施例中,当终端设备为智能交互设备时,目标语音相关数据包括包含唤醒词的语音信号,带噪语音信号包括包含命令词的音频信号。
其中,上述智能交互设备为能够与用户进行语音交互的设备,比如可以为扫地机器人、智能音响、智能冰箱等。
对于智能音箱、智能机器人,往往不能对用户身份进行很严格的限定。例如,家庭中使用的智能音箱,不光需要家庭成员都可以对其进行语音控制,对拜访的客人也需要能够使用语音进行交互。家庭成员可以事先采集语音注册的,但是对于临时拜访的客人,无法事先采集语音注册的。对于从事公共服务的智能机器人,更是需要对每一个可能的用户进行响应,同样无法要求所有可能的用户事先采集语音注册的。但是这些设备在使用的时候,往往会遇到背景嘈杂、说话人众多的复杂情况,在对目标用户进行语音增强,对其他干扰进行抑制方面有着更强烈的需求。针对该需求,本申请提供如下解决方案:
以智能音箱的语音命令为例进行说明,麦克风采集音频信号,语音唤醒模块对采集到的音频信号进行分析,确定是否唤醒设备;语音唤醒模块首先对采集到的信号进行检测,并将语音段分割出来。然后对语音段进行唤醒词识别,以确定是否包含设定的唤醒词。例如,使用语音命令对智能音箱在语音控制的时候,一般都需要用户先说出唤醒词,如“小A小A”。
将语音唤醒模块得到的包含唤醒词的音频信号作为目标用户的注册语音信号;麦克风采集包含用户语音命令的音频信号。一般情况下,用户在唤醒设备后会说出具体的命令,如“明天天气怎么样?”、“请播放春天在哪里”等具体的命令。
以说出唤醒词的用户为目标用户,以包含语音命令的音频信号为带噪语音信号,采用方式一的方式进行降噪处理,获得目标用户的增强语音信号或者输出信号,该目标用户的增强语音信号或输出信号对说出唤醒词的目标用户的语音信号进行了增强,对其他干扰说话人和背景噪声都得到了有效抑制。
判断是否有新的唤醒词语音出现,如果有,则将新的包含唤醒词的语音信号作为新的目标用户的注册语音信号,以说出新的包含唤醒词的语音信号的用户为目标用户。
例如,用户C说出唤醒词,“小A小A”,然后用户C可以继续使用语音对智能音箱进行控制,这是用户B不能用语音对智能音箱进行语音控制,只有当用户B输出唤醒词“小A小A”后,用户B接管了音箱的控制权,这个时候用户C的语音命令将不再被音箱响应,只有用户C再次说出“小A小A”后,才能再次接管音箱的控制权。
可以看出,本实施例给出了一种不需要事先注册语音、不需要借助图像、其他传感器信息也可以实现对目标人语音进行增强,对其他背景噪声和干扰语音进行抑制的方案,适用于智能音箱、智能机器人等面向多用户,用户存在临时性的设备。
可以看出,在本申请的方案中,通过目标语音相关数据,并借助语音降噪模型对带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,实现了目标用户语音的增强抑制干扰噪声;通过引入语音增强系数和干扰噪声抑制系数,满足了用户按需调节降噪力度;采用基于TCN或者FTB+GRU结构的语音降噪模型进行降噪,在语音通话或者视频通话中时延小,用户主观听感好;多人场景下也可以采用本申请的降噪方式进行降噪,满足了多用户场景下多人降噪的需求;在视频通话的场景下,可以基于摄像头拍摄的视频场景进行针对性的降噪,能够自动识别目标用户,并从数据库中检索目标用户对应的声纹信息来进行降噪,进而提升用户的使用体验;在通话场景或者视频通话场景下,基于对端用户的降噪需求开启PNR功能,可以提升通话双方的通话质量;采用本申请的方法自动开启PNR功能,能够提升易用性。
参见图24,图24为本申请实施例提供的一种终端设备的结构示意图。如图24所示,该终端设备2400包括:
获取单元2401,用于在终端设备进入PNR模式后,获取带噪语音信号和目标语音相关数据,其中,带噪语音信号包含干扰噪声信号与目标用户的语音信号;目标语音相关数据用于指示目标用户的语音特征;
降噪单元2402,用于根据目标语音相关数据通过已训练好的语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号,其中,语音降噪模型是基于神经网络实现的。
在一个可行的实施例中,获取单元2401,还用于获取目标用户的语音增强系数;
降噪单元2402,还用于基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号,其中,目标用户的增强语音信号的幅度与目标用户的降噪语音信号的幅度的比值为目标用户语音增强系数。
进一步地,获取单元2401,还用于在通过降噪处理还得到干扰噪声信号后,获取干扰噪声抑制系数;
降噪单元2402,还用于基于干扰噪声抑制系数对干扰噪声信号进行降噪处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅度与干扰噪声信号的幅度的比值为干扰噪声抑制系数;将干扰噪声抑制信号与目标用户的增强语音信号进行融合,以得到输出信号。
在一个可行的实施例中,
获取单元2401,还用于在通过降噪处理还得到干扰噪声信号后,获取干扰噪声抑制系数;
降噪单元2402,还用于基于干扰噪声抑制系数对干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,干扰噪声抑制信号的幅度与干扰噪声信号的幅度的比值为干扰噪声抑制系数;将干扰噪声抑制信号与目标用户的降噪语音信号进行融合,以得到输出信号。
在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,目标用户的语音增强系数包括M个目标用户的语音增强系数,M为大于1的整数,在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号的方面,降噪单元2402具体用于:
对于M个目标用户中任一目标用户A,根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号;
在基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号的方面,降噪单元2402具体用于:
基于目标用户A的语音增强系数对目标用户A的降噪语音信号进行增强处理,以得到目标用户A的增强语音信号;目标用户A的增强语音信号的幅度与目标用户A的降噪语音信号的幅度的比值为目标用户A的语音增强系数;按照该方式对M个目标用户中每个目标用户的降噪语音信号进行处理,可得到M个目标用户的增强语音信号;
降噪单元2402,还用于基于M个目标用户的增强语音信号得到输出信号。
在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,M为大于1的整数,在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号的方面,降噪单元2402具体用于:
根据M个目标用户中第1个目标用户的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到第1个目标用户的降噪语音信号和不包含第1个目标用户的语音信号的第一带噪语音信号;根据M个目标用户中第2个目标用户的语音相关数据通过语音降噪模型对不包含第1个目标用户的语音信号的第一带噪语音信号进行降噪处理,以得到第2个目标用户的降噪语音信号和不包含第1个目标用户的语音信号和第2个目标用户的语音信号的第一带噪语音信号;重复上述过程,直至根据第M个目标用户的语音相关数据通过语音降噪模型对不包含第1至M-1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到第M个目标用户的降噪语音信号和干扰噪声信号;至此,得到M个目标用户的降噪语音信号和干扰噪声信号。
在一个可行的实施例中,目标用户包括M个,目标语音相关数据包括M个目标用户的语音相关数据,目标用户的降噪语音信号包括M个目标用户的降噪语音信号,M为大于1的整数,在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号的方面,降噪单元2402具体用于:
根据M个目标用户的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到M个目标用户的降噪语音信号和干扰噪声信号。
在一个可行的实施例中,目标用户包括M个,目标用户的相关数据包括目标用户的注册语音信号,目标用户的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户的语音信号,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,
在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号的方面,降噪单元2402具体用于:
利用第一编码网络和第二编码网络分别对目标用户的注册语音信号和第一带噪语音信号进行特征提取,得到目标用户的注册语音信号的特征向量和第一带噪语音信号的特征向量;根据目标用户的注册语音信号的特征向量和带噪语音信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据第一解码网络和第二特征向量得到目标用户的降噪语音信号。
进一步地,降噪单元2402还用于:
根据第一解码网络和第二特征向量还得到干扰噪声信号。
在一个可行的实施例中,目标用户A的相关数据包括目标用户A的注册语音信号,目标用户A的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户A的语音信号,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,在根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号的方面,降噪单元2402具体用于:
利用第一编码网络和第二编码网络分别对目标用户A的注册语音信号和第一带噪语音信号进行特征提取,以得到目标用户A的注册语音信号的特征向量和第一带噪语音信号的特征向量;根据目标用户A的注册语音信号的特征向量和第一带噪语音信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据第一解码网络和第二特征向量得到目标用户A的降噪语音信号。
在一个可行的实施例中,M个目标用户中第i个目标用户的相关数据包括第i个目标用户的注册语音信号,i为大于0且小于或者等于M的整数,语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,降噪单元2402具体用于:
利用第一编码网络和第二编码网络分别对目标用户的注册语音信号和第一噪声信号进行特征提取,得到第i个目标用户的注册语音信号的特征向量和该第一噪声信号的特征向量;其中,第一噪声信号为不包含第1至i-1个目标用户的语音信号的第一带噪语音信号;根据第i个目标用户的注册语音信号的特征向量和第一噪声信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据第一解码网络和第二特征向量得到第i个目标用户的降噪语音信号和第二噪声信号,其中,第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号。
在一个可行的实施例中,对于M个目标用户的语音相关数据,每个目标用户的相关数据包括该目标用户的注册语音信号,目标用户A的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户A的语音信号,语音降噪模型包括M个第一编码网络、第二编码网络、TCN、第一解码网络和M个第三解码网络,在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号和干扰噪声信号的方面,降噪单元2402具体用于:
利用M个第一编码网络分别对M个目标用户的注册语音信号进行特征提取,得到M个目标用户的注册语音信号的特征向量;利用第二编码网络对带噪语音信号进行特征提取,得到带噪语音信号的特征向量;根据M个目标用户的注册语音信号的特征向量和第一带噪语音信号的特征向量得到第一特征向量;根据TCN和第一特征向量得到第二特征向量;根据M个第三解码网络中的每个第三解码网络、对第二特征向量和与该第三解码网络对应的第一编码网络输出的特征向量得到M个目标用户的降噪语音信号;根据第一解码网络、第二特征向量和第一带噪语音信号的特征向量得到干扰噪声信号。
在一个可行的实施例中,目标用户的相关数据包括目标用户的VPU信号,语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块,
在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号的方面,降噪单元2402具体用于:
通过预处理模块分别对第一带噪语音信号和目标用户的VPU信号进行时频变换,以得到第一带噪语音信号的第一频域信号和VPU信号的第二频域信号;对第一频域信号和第二频域信号进行融合,得到第一融合频域信号;将第一融合频域信号先后经过第三编码网络、GRU和第二解码网络处理,以得到目标用户的语音信号的第三频域信号的掩膜;通过后处理模块根据第三频域信号的掩膜对第一频域信号进行后处理,得到第三频域信号;对第三频域信号进行频时变换,得到目标用户的降噪语音信号;其中,第三编码模块和第二解码模块均是基于卷积层和频FTB实现的。
在一个可行的实施例中,降噪单元2402具体用于:
将第一融合频域信号先后经过第三编码网络、GRU和第二解码网络处理还得到第一频域信号的掩膜;通过后处理模块根据第一频域信号的掩膜对第一频域信号进行后处理,得到干扰噪声信号的第四频域信号;以对第四频域信号进行频时变换,以得到干扰噪声信号。
在一个可行的实施例中,目标用户A的相关数据包括目标用户A的VPU信号,语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块,在根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号,以得到目标用户A的降噪语音信号的方面,降噪单元2402具体用于:
通过预处理模块分别对第一带噪语音信号和目标用户A的VPU信号进行时频变换,以得到第一带噪语音信号的第一频域信号和目标用户A的VPU信号的第九频域信号;对第一频域信号和第九频域信号进行融合,得到第二融合频域信号;将第二融合频域信号先后经过第三编码网络、GRU和第二解码网络处理,以得到目标用户A的语音信号的第十频域信号的掩膜;通过后处理模块根据第十频域信号的掩膜对第一频域信号进行后处理,得到第十频域信号;对第十频域信号进行频时变换,以得到目标用户A的降噪语音信号;
其中,第三编码模块和第二解码模块均是基于卷积层和FTB实现的。
在一个可行的实施例中,M个目标用户中第i个目标用户的相关数据包括第i个目标用户的VPU信号,i为大于0且小于或者等于M的整数,降噪单元2402具体用于:
通过预处理模块对第一噪声信号和第i个目标用户的VPU信号均进行时频变换,以得到该第一噪声信号的第十一频域信号和第i个目标用户的VPU信号的第十二频域信号;对第十一频域信号和第十二频域信号进行融合,得到第三融合频域信号;其中,第一噪声信号为不包含第1至i-1个目标用户的语音信号的带噪语音信号;将第三融合频域信号先后经过第三编码网络、GRU和第二解码网络处理得到第i个目标用户的语音信号的第十三频域信号的掩膜和第十一频域信号的掩膜;通过后处理模块根据第十三频域信号的掩膜和第十一频域信号的掩膜对第十一频域信号进行后处理,得到第十三频域信号和第二噪声信号的第十四频域信号;对第十三频域信号和第十四频域信号进行频时变换,得到第i个目标用户的降噪语音信号和第二噪声信号,第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号;其中,第三编码模块和第二解码模块均是基于卷积层和FTB实现的。
在一个可行的实施例中,在基于目标用户的语音增强系数对目标用户的降噪语音信号进行增强处理,以得到目标用户的增强语音信号的方面,降噪单元2402具体用于:
对于M个目标用户中的任一目标用户A,基于目标用户A的语音增强系数对目标用户A的降噪语音信号进行增强处理,以得到目标用户A的增强语音信号;目标用户A的增强语音信号的幅度与目标用户A的降噪语音信号的幅度的比值为目标用户A的语音增强系数;
在将干扰噪声抑制信号与目标用户的增强语音信号进行融合,以得到输出信号的方面,降噪单元2402具体用于:
将M个目标用户的增强语音信号与干扰噪声抑制信号进行融合,以得到输出信号。
在一个可行的实施例中,目标用户的相关数据包括目标用户的VPU信号,获取单元2401还用于:获取目标用户的耳内声音信号;
在根据目标语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号的方面,降噪单元2402具体用于:
分别对第一带噪语音信号和耳内声音信号进行时频变换,以得到第一带噪语音信号的第一频域信号和耳内声音信号的第五频域信号;根据目标用户的VPU信号、第一频域信号和第五频域信号得到第一带噪语音信号与耳内声音信号的协方差矩阵;基于协方差矩阵得到第一最小方差无失真响应MVDR权重;基于第一MVDR权重、第一频域信号和第五频域信号得到第一带噪语音信号的第六频域信号和耳内声音信号的第七频域信号;根据第六频域信号和第七频域信号得到降噪语音信号的第八频域信号;对第八频域信号进行频时变换,以得到目标用户的降噪语音信号。
进一步地,降噪单元2402还用于:
根据目标用户的降噪语音信号对第一带噪语音信号得到干扰噪声信号。
在一个可行的实施例中,目标用户A的相关数据包括目标用户A的VPU信号,获取单元2401,还用于获取目标用户A的耳内声音信号;
在根据目标用户A的语音相关数据通过语音降噪模型对第一带噪语音信号进行降噪处理,以得到目标用户A的降噪语音信号的方面,降噪单元2402具体用于:
分别对第一带噪语音信号和目标用户A的耳内声音信号进行时频变换,得到第一带噪语音信号的第一频域信号和目标用户A的耳内声音信号的第十五频域信号;根据目标用户A的VPU信号、第一频域信号和第十五频域信号得到第一带噪语音信号与目标用户A的耳内声音信号的协方差矩阵;基于协方差矩阵得到第二MVDR权重;基于第二MVDR权重、第一频域信号和第十五频域信号得到第一带噪语音信号的第十六频域信号和目标用户A的耳内声音信号的第十七频域信号;根据第十六频域信号和第十七频域信号得到目标用户A的降噪语音信号的第十八频域信号;对第十八频域信号进行频时变换,以得到目标用户A的降噪语音信号。
在一个可行的实施例中,获取单元2401还用于:
获取终端设备所处环境的第一噪音片段和第二噪音片段;第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取第一噪音片段的信噪比SNR和声压级SPL
终端设备2400还包括:
确定单元2403,用于若第一噪音片段的SNR大于第一阈值且第一噪音片段的SPL大于第二阈值,则提取第一噪音片段的第一临时特征向量;基于第一临时语音特征向量对第二噪音片段进行降噪处理,以得到第二降噪噪音片段;基于第二降噪噪音片段和第二噪音片段进行损伤评估,以得到第一损伤评分;若第一损伤评分不大于第三阈值,进入PNR模式;
在获取第一带噪语音信号的方面,获取单元2401具体用于:
从在第一噪音片段之后产生的噪声信号中确定第一带噪语音信号;注册语音信号的特征向量包括第一临时特征向量。
在一个可行的实施例中,若第一损伤评分不大于第三阈值,确定单元2403还用于:
通过终端设备发出第一提示信息,第一提示信息用于提示是否使得终端设备进入PNR模式;在检测到目标用户的同意进入PNR模式的操作指令后,才进入PNR模式。
在一个可行的实施例中,获取单元2401,还用于在检测到终端设备再次被使用时,获取第二带噪语音信号;
降噪单元2402,还用于:在第二带噪语音信号的SNR低于第四阈值时,根据第一临时特征向量对第二带噪语音信号进行降噪处理,以得到当前使用者的降噪语音信号;
确定单元2403,还用于基于当前使用者的降噪语音信号和第二带噪语音信号进行损伤评估,以得到第二损伤评分;当第二损伤评分不大于第五阈值时,通过终端设备发出第二提示信息,第二提示信息用于提示当前使用者终端设备能够进入PNR模式;在检测到当前使用者的同意进入PNR模式的操作指令后,使得终端设备进入PNR模式对第三带噪语音信号进行降噪处理,该第三带噪语音信号是在第二带噪语音信号之后获取的;在检测到当前使用者的不同意进入PNR模式的操作指令后,采用非PNR模式对第三带噪语音信号进行降噪处理。
在一个可行的实施例中,所述获取单元2401,还用于若第一噪音片段的SNR不大于第一阈值或者第一噪音片段的SPL不大于第二阈值,且终端设备已存储参考临时声纹特征向量,获取第三噪音片段;
降噪单元2402,还用于根据参考临时声纹特征向量对第三噪音片段进行降噪处理,得到第三降噪噪音片段;
确定单元2403,还用于根据第三噪音片段和第三降噪噪音片段进行损伤评估,以得到第三损伤评分;若第三损伤评分大于第六阈值且第三噪音片段的SNR小于第七阈值,或者第三损伤评分大于第八阈值且第三噪音片段的SNR不小于第七阈值,则通过终端设备发出第三提示信息,第三提示信息用于提示当前使用者终端设备能够进入PNR模式;在检测到当前使用者的同意进入PNR模式的操作指令后,使得终端设备进入PNR模式对第四带噪语音信号进行降噪处理;在检测到当前使用者的不同意进入PNR模式的操作指令后,采用非PNR模式对第四带噪语音信号进行降噪处理;其中,第四带噪语音信号是从在第三噪音片段之后产生的噪声信号中确定的。
在一个可行的实施例中,获取单元2401,还用于获取终端设备2400所处环境的第一噪音片段和第二噪音片段;第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取终端设备2400的辅助设备的麦克风阵列针对终端设备2400所处的环境采集的信号;
终端设备2400还包括:
确定单元2403,用于利用采集的信号计算得到第一噪音片段的信号到达角DOA和SPL;若第一噪音片段的DOA大于第九阈值且小于第十阈值,且第一噪音片段的SPL大于第十一阈值,则提取第一噪音片段的第二临时特征向量,基于第二临时特征向量对第二噪音片段进行降噪处理,以得到第三降噪噪音片段;基于第三降噪噪音片段和第二噪音片段进行损伤评估,以得到第四损伤评分;若第四损伤评分大于第十二阈值,则进入PNR模式;
在获取第一带噪语音信号的方面,获取单元2401具体用于:
从在第一噪音片段之后产生的噪声信号中确定第一带噪语音信号;注册语音信号的特征向量包括第二临时特征向量。
在一个可行的实施例中,若第四损伤评分不大于第十二阈值,确定单元2403还用于:
通过终端设备2400发出第四提示信息,该第四提示信息用于提示是否使得终端设备2400进入PNR模式;在检测到目标用户的同意进入PNR模式的操作指令后,才进入PNR模式。
在一个可行的实施例中,终端设备2400还包括:
检测单元2404,用于当检测到终端设备处于手持通话状态时,不进入PNR模式;
当检测到终端设备处于免提通话状态时,进入PNR模式,其中,目标用户为终端设备的拥有者或者正在使用终端设备的用户;
当检测到终端设备处于视频通话时,进入PNR模式,其中,目标用户为终端设备的拥有者或者距离终端设备最近的用户;
当检测到终端设备连接到耳机进行通话状态时,进入PNR模式,其中,目标用户为佩戴耳机的用户;第一带噪语音信号和目标语音相关数据是通过耳机采集得到的;或,
当检测到终端设备连接到智能大屏设备、智能手表或者车载设备时,进入PNR模式,其中目标用户为终端设备的拥有者或者正在终端设备的用户,第一带噪语音信号和目标语音相关数据是由智能大屏设备、智能手表或者车载设备的音频采集硬件采集得到的。
在一个可行的实施例中,获取单元2401还用于:获取当前环境的音频信号的分贝值,
终端设备2400还包括:
控制单元2405,用于若当前环境的音频信号的分贝值超过预设分贝值,则判断终端设备启动的功能或者应用程序对应的PNR功能是否开启;若未开启,则开启终端设备启动的应用程序对应的PNR功能,并进入PNR模式。
在一个可行的实施例中,终端设备2400包括显示屏2408,该显示屏2408包括多个显示区域,
其中,多个显示区域中的每个显示区域显示标签和对应的功能按键,功能按键用于控制其对应标签所指示的应用程序的PNR功能的开启和关闭。
在一个可行的实施例中,当终端设备与另一终端设备之间进行语音数据传输时,终端设备2400还包括:
接收单元2406,用于接收另一终端设备发送的语音增强请求,语音增强请求用于指示终端设备开启通话功能的PNR功能;
控制单元2405,用于响应于语音增强请求,通过终端设备发出第三提示信息,第三提示信息用于提示是否使得终端设备开启通话功能的PNR功能;当检测到目标用户针对终端设备的确认开启通话功能的PNR功能后,开启通话功能的PNR功能,并进入PNR模式;
发送单元2407,用于向另一终端设备发送语音增强响应消息,语音增强响应消息用于指示终端设备已开启通话功能的PNR功能。
在一个可行的实施例中,当终端设备启动视频通话或者视频录制功能,终端设备的显示界面包括第一区域和第二区域,第一区域用于显示视频通话内容或者视频录制的内容,第二区域用于显示M个控件和对应的M个标签,M个控件与M个目标用户一一对应M个控件中的每个控件包括滑动按钮和滑动条,通过控制滑动按钮在滑动条上滑动,以调节该控件对应的标签所指示目标用户的语音增强系数。
在一个可行的实施例中,当终端设备启动视频通话或者视频录制功能,终端设备的显示界面包括第一区域,第一区域用于显示视频通话内容或者视频录制的内容;终端设备2400还包括:
控制单元2405,用于当检测到针对视频通话内容或者视频录制内容中任一对象的操作时,在第一区域显示该对象对应的控件,该控件包括滑动按钮和滑动条,通过控制滑动按钮在滑动条上滑动,以调节该对象的语音增强系数。
在一个可行的实施例中,当终端设备为智能交互设备时,目标语音相关数据为目标用户的包含唤醒词的语音信号,带噪语音信号为目标用户的包含命令词的音频信号。
需要说明的是,上述各单元(获取单元2401、降噪单元2402、确定单元2403、检测单元2404、控制单元2405、接收单元2406、发送单元2407和显示屏2408)用于执行上述方法的相关步骤。
在本实施例中,终端设备2400是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit,ASIC),执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。此外,以上获取单元2401、降噪单元2402、确定单元2403、检测单元2404和控制单元2405可通过图26所示的终端设备的处理器2601来实现。
参见图25,图25为本申请实施提供的另一种终端设备的结构示意图。如图25所示,该终端设备2500包括:
传感器采集单元2501,用于采集带噪语音信号以及目标用户的注册语音信号、VPU信号、视频图像、深度图像等能够用于确定目标用户的信息。
存储单元2502,用于存储降噪参数(包括目标用户的语音增强系数和干扰噪声抑制系数)、已注册的目标用户及其语音特征信息。
UI交互单元2504,用于接收用户的交互信息并传送给降噪控制单元2506,将降噪控制单元2506反馈的信息反馈给本端用户。
通信单元2505,用于发送和接收与对端用户的交互信息,可选地,也可以传输对端带噪语音信号及对端用户的语音注册信息。
处理单元2503包括降噪控制单元2506和PNR处理单元2507,其中,
降噪控制单元2506,用于根据本端和对端接收到的交互信息及存储单元存储的信息,对PNR降噪参数进行配置,包括但不限于确定进行语音增强的用户或目标用户,语音增强系数和干扰噪声抑制系数,是否开启降噪功能以及降噪方式。
PNR处理单元2507,用于根据配置好的降噪参数对传感器采集单元采集到的带噪语音信号进行处理,获得增强音频信号,也就是目标用户的增强语音信号。
在此需要指出的是,PNR处理单元2507的具体功能可以参见降噪单元2402的功能的相关描述。
如图26所示终端设备2600可以以图26中的结构来实现,该终端设备2600包括至少一个处理器2601,至少一个存储器2602、至少一个显示屏2604以及至少一个通信接口2603。所述处理器2601、所述存储器2602、显示屏2604和所述通信接口2603通过所述通信总线连接并完成相互间的通信。
处理器2601可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
通信接口2603,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器2602可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
显示屏2604可以是LCD显示屏、LED显示屏、OLED显示屏、3D显示屏或者其他显示屏。
其中,所述存储器2602用于存储执行以上方案的应用程序代码,并由处理器2601来控制执行,在显示屏上显示上述方法实施例所述的功能按键、标签等。所述处理器2601用于执行所述存储器2602中存储的应用程序代码。
存储器2602存储的代码可执行以上提供的任一种语音增强方法,比如:在终端设备进入PNR模式后,获取带噪语音信号和目标语音相关数据,其中,带噪语音信号包含干扰噪声信号与目标用户的语音信号;目标语音相关数据用于指示目标用户的语音特征;根据目标语音相关数据通过已训练好的语音降噪模型对第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号;其中,语音降噪模型是基于神经网络实现的。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何一种语音增强方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (69)
1.一种语音增强方法,所述方法应用于终端设备,其特征在于,包括:
在所述终端设备进入特定人降噪PNR模式后,获取第一带噪语音信号和目标语音相关数据,其中,所述第一带噪语音信号包含干扰噪声信号与目标用户的语音信号;所述目标语音相关数据用于指示所述目标用户的语音特征;
根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号;其中,所述语音降噪模型是基于神经网络实现的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标用户的语音增强系数;
基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,其中,所述目标用户的增强语音信号的幅度与所述目标用户的降噪语音信号的幅度的比值为所述语音增强系数。
3.根据权利要求2所述的方法,其特征在于,通过所述降噪处理还得到所述干扰噪声信号;所述方法还包括:
获取干扰噪声抑制系数;
基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的比值为所述干扰噪声抑制系数;
将所述干扰噪声抑制信号与所述目标用户的增强语音信号进行融合,以得到输出信号。
4.根据权利要求1所述的方法,其特征在于,通过所述降噪处理还得到所述干扰噪声信号;所述方法还包括:
获取干扰噪声抑制系数;
基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的比值为所述干扰噪声抑制系数;
将所述干扰噪声抑制信号与所述目标用户的降噪语音信号进行融合,以得到输出信号。
5.根据权利要求2所述的方法,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括所述M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述目标用户的语音增强系数包括所述M个目标用户的语音增强系数,所述M为大于1的整数;
所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号,包括:
对于所述M个目标用户中任一目标用户A,根据所述目标用户A的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号经过进行降噪处理,以得到所述目标用户A的降噪语音信号;
所述基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,包括:
基于所述目标用户A的语音增强系数对所述目标用户A的降噪语音信号进行增强处理,以得到所述目标用户A的增强语音信号;所述目标用户A的增强语音信号的幅度与所述目标用户A的降噪语音信号的幅度的比值为所述目标用户A的语音增强系数;
所述方法还包括:
基于所述M个目标用户的增强语音信号得到输出信号。
6.根据权利要求3所述的方法,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括所述M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述M为大于1的整数;
根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号和所述干扰噪声信号,包括:
根据所述M个目标用户中第1个目标用户的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述第1个目标用户的降噪语音信号和不包含所述第1个目标用户的语音信号的第一带噪语音信号;
根据所述M个目标用户中第2个目标用户的语音相关数据通过所述语音降噪模型对所述不包含所述第1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到所述第2个目标用户的降噪语音信号和不包含所述第1个目标用户的语音信号和第2个目标用户的语音信号的第一带噪语音信号;
重复上述过程,直至根据第M个目标用户的语音相关数据通过所述语音降噪模型对不包含所述第1至M-1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到所述第M个目标用户的降噪语音信号和所述干扰噪声信号。
7.根据权利要求3所述的方法,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括所述M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述M为大于1的整数;
根据所述目标语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号和所述干扰噪声信号,包括:
根据所述M个目标用户的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述M个目标用户的降噪语音信号和所述干扰噪声信号。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述目标用户包括M个,所述目标用户的相关数据包括所述目标用户的注册语音信号,所述语音降噪模型包括第一编码网络、第二编码网络、时间卷积网络TCN和第一解码网络;
所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,包括:
利用所述第一编码网络和所述第二编码网络分别对所述目标用户的注册语音信号和所述第一带噪语音信号进行特征提取,以得到所述目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量;
根据所述目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述第一解码网络和所述第二特征向量得到所述目标用户的降噪语音信号。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述第一解码网络和所述第二特征向量还得到所述干扰噪声信号。
10.根据权利要求5所述的方法,其特征在于,所述目标用户A的相关数据包括所述目标用户A的注册语音信号,所述语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络;
所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号,包括:
利用所述第一编码网络和所述第二编码网络分别对所述目标用户A的注册语音信号和所述第一带噪语音信号进行特征提取,以得到所述目标用户A的注册语音信号的特征向量和所述第一带噪语音信号的特征向量;
根据所述目标用户A的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述第一解码网络和所述第二特征向量得到所述目标用户A的降噪语音信号。
11.根据权利要求6所述的方法,其特征在于,所述M个目标用户中第i个目标用户的相关数据包括所述第i个目标用户的注册语音信号,所述i为大于0且小于或者等于M的整数,所述语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,
利用所述第一编码网络和所述第二编码网络分别对所述目标用户的注册语音信号和第一噪声信号进行特征提取,得到所述第i个目标用户的注册语音信号的特征向量和该第一噪声信号的特征向量;其中,所述第一噪声信号为不包含第1至i-1个目标用户的语音信号的第一带噪语音信号;
根据所述第i个目标用户的注册语音信号的特征向量和所述第一噪声信号的特征向量得到第一特征向量;
根据所述TCN和第一特征向量得到第二特征向量;
根据所述第一解码网络和所述第二特征向量得到所述第i个目标用户的降噪语音信号和第二噪声信号,其中,所述第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号。
12.根据权利要求7所述的方法,其特征在于,对于所述M个目标用户的语音相关数据,每个目标用户的相关数据包括该目标用户的注册语音信号,所述语音降噪模型包括M个第一编码网络、第二编码网络、TCN、第一解码网络和M个第三解码网络;
所述根据所述M个目标用户的语音相关数据通过所述语音降噪模型对所述带噪语音进行降噪处理,以得到所述M个目标用户的降噪语音信号和所述干扰噪声信号,包括:
利用所述M个第一编码网络分别对所述M个目标用户的注册语音信号进行特征提取,得到M个目标用户的注册语音信号的特征向量;利用所述第二编码网络对所述第一带噪语音信号进行特征提取,得到所述第一带噪语音信号的特征向量;
根据所述M个目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述M个第三解码网络中的每个第三解码网络、所述第二特征向量和与该第三解码网络对应的第一编码网络输出的特征向量得到M个目标用户的降噪语音信号;
根据所述第一解码网络、所述第二特征向量与所述第一带噪语音信号的特征向量得到所述干扰噪声信号。
13.根据权利要求1-4任一项所述的方法,其特征在于,所述目标用户的相关数据包括所述目标用户的语音拾取VPU信号,所述语音降噪模型包括预处理模块、第三编码网络、门控循环单元GRU、第二解码网络和后处理模块;
所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,包括:
通过所述预处理模块分别对所述第一带噪语音信号和所述目标用户的VPU信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述VPU信号的第二频域信号;
对所述第一频域信号和所述第二频域信号进行融合,以得到第一融合频域信号;
将所述第一融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理,以得到所述目标用户的语音信号的第三频域信号的掩膜;
通过所述后处理模块根据所述第三频域信号的掩膜对所述第一频域信号进行后处理,以得到所述第三频域信号;
对所述第三频域信号进行频时变换,以得到所述目标用户的降噪语音信号;
其中,所述第三编码模块和所述第二解码模块均是基于卷积层和频域变换模块FTB实现的。
14.根据权利要求13所述的方法,其特征在于,
将所述第一融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理还得到所述第一频域信号的掩膜;
通过所述后处理模块根据所述第一频域信号的掩膜对所述第一频域信号进行后处理,得到所述干扰噪声信号的第四频域信号;
对所述第四频域信号进行频时变换,以得到所述干扰噪声信号。
15.根据权利要求5所述的方法,其特征在于,所述目标用户A的相关数据包括所述目标用户A的VPU信号,所述语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块,所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号,包括:
通过所述预处理模块分别对所述第一带噪语音信号和所述目标用户A的VPU信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述目标用户A的VPU信号的第九频域信号;
对所述第一频域信号和所述第九频域信号进行融合,得到第二融合频域信号;
将所述第二融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理,以得到所述目标用户A的语音信号的第十频域信号的掩膜;
通过所述后处理模块根据所述第十频域信号的掩膜对所述第一频域信号进行后处理,得到所述第十频域信号;
对所述第十频域信号进行频时变换,以得到所述目标用户A的降噪语音信号;
其中,所述第三编码模块和所述第二解码模块均是基于卷积层和FTB实现的。
16.根据权利要求6所述的方法,其特征在于,所述M个目标用户中第i个目标用户的相关数据包括所述第i个目标用户的VPU信号,所述i为大于0且小于或者等于M的整数,
通过所述预处理模块对第一噪声信号和所述第i个目标用户的VPU信号均进行时频变换,以得到该第一噪声信号的第十一频域信号和所述第i个目标用户的VPU信号的第十二频域信号;
对所述第十一频域信号和所述第十二频域信号进行融合,得到第三融合频域信号;其中,所述第一噪声信号为不包含第1至i-1个目标用户的语音信号的第一带噪语音信号;
将所述第三融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理得到所述第i个目标用户的语音信号的第十三频域信号的掩膜和所述第十一频域信号的掩膜;
通过所述后处理模块根据所述第十三频域信号的掩膜和所述第十一频域信号的掩膜对所述第十一频域信号进行后处理,得到所述第十三频域信号和第二噪声信号的第十四频域信号;
对所述第十三频域信号和所述第十四频域信号进行频时变换,得到所述第i个目标用户的降噪语音信号和所述第二噪声信号,所述第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号;
其中,所述第三编码模块和所述第二解码模块均是基于卷积层和FTB实现的。
17.根据权利要求6、7、11、12和16任一项所述的方法,其特征在于,所述基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,包括:
对于所述M个目标用户中的目标用户A,基于所述目标用户A的语音增强系数对所述目标用户A的降噪语音信号进行增强处理,以得到所述目标用户A的增强语音信号;所述目标用户A的增强语音信号的幅度与所述目标用户A的降噪语音信号的幅度的比值为所述目标用户A的语音增强系数;
所述将所述干扰噪声抑制信号与所述目标用户的增强语音信号进行融合,以得到输出信号,包括:
将M个目标用户的增强语音信号与所述干扰噪声抑制信号进行融合,以得到所述输出信号。
18.根据权利要求1-4任一项所述的方法,其特征在于,所述目标用户的相关数据包括所述目标用户的VPU信号,所述方法还包括:获取所述目标用户的耳内声音信号;
所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,包括:
分别对所述第一带噪语音信号和所述耳内声音信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述耳内声音信号的第五频域信号;
根据所述目标用户的VPU信号、所述第一频域信号和所述第五频域信号得到所述第一带噪语音信号与所述耳内声音信号的协方差矩阵;
基于所述协方差矩阵得到第一最小方差无失真响应MVDR权重;
基于所述第一MVDR权重、所述第一频域信号和所述第五频域信号得到所述第一带噪语音信号的第六频域信号和所述耳内声音信号的第七频域信号;
根据所述第六频域信号和所述第七频域信号得到所述降噪语音信号的第八频域信号;
对所述第八频域信号进行频时变换,以得到所述降噪语音信号。
19.根据权利要求18所述的方法,其特征在于,所述方法还包括:
根据所述降噪语音信号和所述第一带噪语音信号得到所述干扰噪声信号。
20.根据权利要求5所述的方法,其特征在于,所述目标用户A的相关数据包括所述目标用户A的VPU信号,所述方法还包括:获取所述目标用户A的耳内声音信号;
所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号,包括:
分别对所述第一带噪语音信号和所述目标用户A的耳内声音信号进行时频变换,得到所述第一带噪语音信号的第一频域信号和所述目标用户A的耳内声音信号的第十五频域信号;
根据所述目标用户A的VPU信号、所述第一频域信号和所述第十五频域信号得到所述第一带噪语音信号和所述目标用户A的耳内声音信号的协方差矩阵;
基于所述协方差矩阵得到第二MVDR权重;
基于所述第二MVDR权重、所述第一频域信号和所述第十五频域信号得到所述第一带噪语音信号的第十六频域信号和所述目标用户A的耳内声音信号的第十七频域信号;根据所述第十六频域信号和所述第十七频域信号得到所述目标用户A的降噪语音信号的第十八频域信号;
对所述十八频域信号进行频时变换,以得到所述目标用户A的降噪语音信号。
21.根据权利要求8-12任一项所述的方法,其特征在于,所述方法还包括:
获取所述终端设备所处环境的第一噪音片段和第二噪音片段;所述第一噪音片段和第二噪音片段在时间上是连续的噪音片段;
获取所述第一噪音片段的信噪比SNR和声压级SPL;
若所述第一噪音片段的SNR大于第一阈值且所述第一噪音片段的SPL大于第二阈值,则提取所述第一噪音片段的第一临时特征向量;
基于所述第一临时语音特征向量对所述第二噪音片段进行降噪处理,以得到第二降噪噪音片段;
基于所述第二降噪噪音片段和所述第二噪音片段进行损伤评估,以得到第一损伤评分;
若所述第一损伤评分不大于第三阈值,进入所述PNR模式;
所述获取第一带噪语音信号包括:
从在所述第一噪音片段之后产生的噪声信号中确定所述第一带噪语音信号;
所述注册语音信号的特征向量包括所述第一临时特征向量。
22.根据权利要求21所述的方法,其特征在于,若所述第一损伤评分不大于第三阈值,所述方法还包括:
通过所述终端设备发出第一提示信息,所述第一提示信息用于提示是否使得所述终端设备进入所述PNR模式;
在检测到所述目标用户的同意进入所述PNR模式的操作指令后,才进入所述PNR模式。
23.根据权利要求21或22所述的方法,其特征在于,所述方法还包括:
在检测到终端设备再次被使用时,获取第二带噪语音信号;
在所述第二带噪语音信号的SNR低于第四阈值时,根据所述第一临时特征向量对所述第二带噪语音信号进行降噪处理,以得到所述当前使用者的降噪语音信号;
基于所述当前使用者的降噪语音信号和所述第二带噪语音信号进行损伤评估,以得到第二损伤评分;
当所述第二损伤评分不大于第五阈值时,通过所述终端设备发出所述第二提示信息,所述第二提示信息用于提示所述当前使用者所述终端设备能够进入PNR模式;
在检测到所述当前使用者的同意进入所述PNR模式的操作指令后,使得所述终端设备进入PNR模式对第三带噪语音信号进行降噪处理,所述第三带噪语音信号是在所述第二带噪语音信号之后获取的;
在检测到所述当前使用者的不同意进入所述PNR模式的操作指令后,采用非PNR模式对所述第三带噪语音信号进行降噪处理。
24.根据权利要求21或22所述的方法,其特征在于,所述方法还包括:
若所述第一噪音片段的SNR不大于所述第一阈值或者所述第一噪音片段的SPL不大于所述第二阈值,且所述终端设备已存储参考临时声纹特征向量,获取第三噪音片段;
根据所述参考临时声纹特征向量对所述第三噪音片段进行降噪处理,得到第三降噪噪音片段;
根据所述第三噪音片段和所述第三降噪噪音片段进行损伤评估,以得到第三损伤评分;
若所述第三损伤评分大于第六阈值且所述第三噪音片段的SNR小于第七阈值,或者所述第三损伤评分大于第八阈值且所述第三噪音片段的SNR不小于所述第七阈值,则通过所述终端设备发出所述第三提示信息,所述第三提示信息用于提示当前使用者所述终端设备能够进入PNR模式;
在检测到所述当前使用者的同意进入所述PNR模式的操作指令后,使得所述终端设备进入PNR模式对第四带噪语音信号进行降噪处理;在检测到所述当前使用者的不同意进入所述PNR模式的操作指令后,采用非PNR模式对所述第四带噪语音信号进行降噪处理;
其中,所述第四带噪语音信号是从在所述第三噪音片段之后产生的噪声信号中确定的。
25.根据权利要求8-12任一项所述的方法,其特征在于,所述方法还包括:
获取所述终端设备所处环境的第一噪音片段和第二噪音片段;所述第一噪音片段和第二噪音片段在时间上是连续的噪音片段;
获取所述终端设备的辅助设备的麦克风阵列针对所述终端设备所处的环境采集的信号;利用所述采集的信号计算得到所述第一噪音片段的信号到达角DOA和SPL;若所述第一噪音片段的DOA大于第九阈值且小于第十阈值,且所述第一噪音片段的SPL大于第十一阈值,则提取所述第一噪音片段的第二临时特征向量,基于所述第二临时特征向量对所述第二噪音片段进行降噪处理,以得到第三降噪噪音片段;基于所述第三降噪噪音片段和所述第二噪音片段进行损伤评估,以得到第四损伤评分;若所述第四损伤评分大于第十二阈值,则进入所述PNR模式;
所述获取第一带噪语音信号包括:
从在所述第一噪音片段之后产生的噪声信号中确定所述第一带噪语音信号;
所述注册语音信号的特征向量包括所述第二临时特征向量。
26.根据权利要求25所述的方法,其特征在于,若所述第四损伤评分不大于所述第十二阈值,所述方法还包括:
通过所述终端设备发出第四提示信息,所述第四提示信息用于提示是否使得所述终端设备进入所述PNR模式;
在检测到所述目标用户的同意进入所述PNR模式的操作指令后,才进入所述PNR模式。
27.根据权利要求1-20任一项所述的方法,其特征在于,所述方法还包括:
当检测到终端设备处于手持通话状态时,不进入所述PNR模式;
当检测到所述终端设备处于免提通话状态时,进入所述PNR模式,其中,所述目标用户为所述终端设备的拥有者或者正在使用所述终端设备的用户;
当检测到所述终端设备处于视频通话状态时,进入所述PNR模式,其中,所述目标用户为所述终端设备的拥有者或者距离所述终端设备最近的用户;
当检测到所述终端设备连接到耳机进行通话时,进入所述PNR模式,其中,所述目标用户为佩戴所述耳机的用户;所述第一带噪语音信号和所述目标语音相关数据是通过所述耳机采集得到的;或
当检测到所述终端设备连接到智能大屏设备、智能手表或者车载设备时,进入所述PNR模式,其中所述目标用户为所述终端设备的拥有者或者正在使用所述终端设备的用户,所述第一带噪语音信号和目标语音相关数据是由所述智能大屏设备、所述智能手表或者所述车载设备的音频采集硬件采集得到的。
28.根据权利要求1-20任一项所述的方法,其特征在于,所述方法还包括:
获取当前环境的音频信号的分贝值;
若所述当前环境的音频信号的分贝值超过预设分贝值,且所述终端设备启动的应用程序对应的PNR功能未开启,则开启所述终端设备启动的应用程序对应的PNR功能,并进入所述PNR模式。
29.根据权利要求1-20任一项所述的方法,其特征在于,所述终端设备包括显示屏,所述显示屏包括多个显示区域,
其中,所述多个显示区域中的每个显示区域显示标签和对应的功能按键,所述功能按键用于控制对应标签所指示的功能或者应用程序的PNR功能的开启和关闭。
30.根据权利要求1-20任一项所述的方法,其特征在于,当所述终端设备与另一终端设备之间进行语音数据传输时,所述方法还包括:
接收所述另一终端设备发送的语音增强请求,所述语音增强请求用于指示所述终端设备开启通话功能的PNR功能;
响应于所述语音增强请求,通过所述终端设备发出第三提示信息,所述第三提示信息用于提示是否使得所述终端设备开启所述通话功能的PNR功能;
当检测到确认开启通话功能的PNR功能的操作指令后,开启所述通话功能的PNR功能,并进入PNR模式;
向所述另一终端设备发送语音增强响应消息,所述语音增强响应消息用于指示所述终端设备已开启通话功能的PNR功能。
31.根据权利要求5-7、10-12和17任一项所述的方法,其特征在于,当所述终端设备启动视频通话或者视频录制功能,所述终端设备的显示界面包括第一区域和第二区域,所述第一区域用于显示视频通话内容或者视频录制的内容,所述第二区域用于显示M个控件和对应的M个标签,所述M个控件与所述M个目标用户一一对应,所述M个控件中的每个控件包括滑动按钮和滑动条,通过控制所述滑动按钮在所述滑动条上滑动,以调节该控件对应的标签所指示目标用户的语音增强系数。
32.根据权利要求5-7、10-12和17任一项所述的方法,其特征在于,当所述终端设备启动视频通话或者视频录制功能,所述终端设备的显示界面包括第一区域,所述第一区域用于显示视频通话内容或者视频录制的内容;
当检测到针对所述视频通话内容或者视频录制内容中任一对象的操作时,在所述第一区域显示该对象对应的控件,该控件包括滑动按钮和滑动条,通过控制所述滑动按钮在所述滑动条上滑动,以调节该对象的语音增强系数。
33.根据权利要求1-4和8任一项所述的方法,其特征在于,当所述终端设备为智能交互设备时,所述目标语音相关数据包括包含唤醒词的语音信号,所述第一带噪语音信号包括包含命令词的音频信号。
34.一种终端设备,其特征在于,包括:
获取单元,用于在所述终端设备进入特定人降噪PNR模式后,获取第一带噪语音信号和目标语音相关数据,其中,所述第一带噪语音信号包含干扰噪声信号与所述目标用户的语音信号,所述目标语音相关数据用于指示所述目标用户的语音特征;
降噪单元,用于根据所述目标语音相关数据和语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号,其中,所述语音降噪模型是基于神经网络实现的。
35.根据权利要求34的终端设备,其特征在于,
所述获取单元,还用于获取所述目标用户的语音增强系数;
所述降噪单元,还用于基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号,其中,所述目标用户的增强语音信号的幅度与所述目标用户的降噪语音信号的幅度的比值为所述目标用户的语音增强系数。
36.根据权利要求35所述的终端设备,其特征在于,
所述获取单元,还用于在通过所述降噪处理还得到所述干扰噪声信号后,获取干扰噪声系数;
所述降噪单元,还用于基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,以得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的比值为所述干扰噪声抑制系数;将所述干扰噪声抑制信号与所述目标用户的增强语音信号进行融合,以得到输出信号。
37.根据权利要求34所述的终端设备,其特征在于,
所述获取单元,还用于在通过所述降噪处理还得到所述干扰噪声信号后,获取干扰噪声抑制系数;
所述降噪单元,还用于基于所述干扰噪声抑制系数对所述干扰噪声信号进行抑制处理,得到干扰噪声抑制信号,其中,所述干扰噪声抑制信号的幅度与所述干扰噪声信号的幅度的比值为所述干扰噪声抑制系数;将所述干扰噪声抑制信号与所述目标用户的降噪语音信号进行融合,以得到输出信号。
38.根据权利要求35所述的终端设备,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述目标用户的语音增强系数包括所述M个目标用户的语音增强系数,所述M为大于1的整数;
在所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到目标用户的降噪语音信号的方面,所述降噪单元具体用于:
对于所述M个目标用户中任一目标用户A,根据所述目标用户A的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,得到所述目标用户A的降噪语音信号;
在所述基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号的方面,所述降噪单元具体用于:
基于所述目标用户A的语音增强系数对所述目标用户A的降噪语音信号进行增强处理,以得到所述目标用户A的增强语音信号;所述所述目标用户A的增强语音信号的幅度与所述目标用户A的降噪语音信号的幅度的比值为所述目标用户A的语音增强系数;
所述降噪单元,还用于基于M个目标用户的增强语音信号得到输出信号。
39.根据权利要求36所述的终端设备,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述M为大于1的整数;
在根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号和所述干扰噪声信号的方面,所述降噪单元具体用于:
根据所述M个目标用户中第1个目标用户的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,得到所述第1个目标用户的降噪语音信号和不包含所述第1个目标用户的语音信号的第一带噪语音信号;
根据所述M个目标用户中第2个目标用户的语音相关数据通过所述语音降噪模型对所述不包含所述第1个目标用户语音信号的第一带噪语音信号进行降噪处理,得到所述第2个目标用户的降噪语音信号和不包含所述第1个目标用户的语音信号和第2个目标用户的语音信号的第一带噪语音信号;
重复上述过程,直至根据第M个目标用户的语音相关数据通过所述语音降噪模型对不包含所述第1至M-1个目标用户的语音信号的第一带噪语音信号进行降噪处理,得到所述第M个目标用户的降噪语音信号和所述干扰噪声信号。
40.根据权利要求36所述的终端设备,其特征在于,所述目标用户包括M个,所述目标语音相关数据包括M个目标用户的语音相关数据,所述目标用户的降噪语音信号包括所述M个目标用户的降噪语音信号,所述M为大于1的整数;
在根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,得到目标用户的降噪语音信号和所述干扰噪声信号的方面,所述降噪单元具体用于:
根据所述M个目标用户的语音相关数据通过所述语音降噪模型对所述第一带噪语音信号进行降噪处理,得到所述M个目标用户的降噪语音信号和所述干扰噪声信号。
41.根据权利要求34-37任一项所述的终端设备,其特征在于,所述目标用户包括M个,所述目标用户的相关数据包括所述目标用户的注册语音信号,所述目标用户的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户的语音信号,所述语音降噪模型包括第一编码网络、第二编码网络、时间卷积网络TCN和第一解码网络;
在根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号,以得到所述目标用户的降噪语音信号的方面,所述降噪单元具体用于:
利用所述第一编码网络和所述第二编码网络分别对所述目标用户的注册语音信号和所述第一带噪语音信号进行特征提取,以得到所述目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量;
根据所述目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述第一解码网络和所述第二特征向量得到所述目标用户的降噪语音信号。
42.根据权利要求41所述的终端设备,其特征在于,所述降噪单元还用于:
根据所述第一解码网络和所述第二特征向量还得到所述干扰噪声信号。
43.根据权利要求38所述的终端设备,其特征在于,所述目标用户A的相关数据包括所述目标用户A的注册语音信号,所述目标用户A的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户A的语音信号,所述语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,
在所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号的方面,所述降噪单元具体用于:
利用所述第一编码网络和所述第二编码网络分别对所述目标用户A的注册语音信号和所述第一带噪语音信号进行特征提取,得到所述目标用户A的注册语音信号的特征向量和所述第一带噪语音信号的特征向量;
根据所述目标用户A的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述第一解码网络和所述第二特征向量得到所述目标用户A的降噪语音信号。
44.根据权利要求39所述的终端设备,其特征在于,所述M个目标用户中第i个目标用户的相关数据包括所述第i个目标用户的注册语音信号,所述i为大于0且小于或者等于M的整数,所述语音降噪模型包括第一编码网络、第二编码网络、TCN和第一解码网络,所述降噪单元具体用于:
利用所述第一编码网络和所述第二编码网络分别对所述目标用户的注册语音信号和第一噪声信号进行特征提取,得到所述第i个目标用户的注册语音信号的特征向量和该第一噪声信号的特征向量;其中,所述第一噪声信号为不包含第1至i-1个目标用户的语音信号的第一带噪语音信号;
根据所述第i个目标用户的注册语音信号的特征向量和所述第一噪声信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述第一解码网络和所述第二特征向量得到所述第i个目标用户的降噪语音信号和第二噪声信号,其中,所述第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号。
45.根据权利要求40所述的终端设备,其特征在于,对于所述M个目标用户的语音相关数据,每个目标用户的相关数据包括该目标用户的注册语音信号,所述目标用户A的注册语音信号为在噪音分贝值低于预设值的环境下采集的目标用户A的语音信号,所述语音降噪模型包括M个第一编码网络、第二编码网络、TCN、第一解码网络和M个第三解码网络,
在所述根据所述M个目标用户的语音相关数据通过所述语音降噪模型对所述带噪语音进行降噪处理,以得到所述M个目标用户的降噪语音信号和所述干扰噪声信号的方面,所述降噪单元具体用于:
利用所述M个第一编码网络分别对所述M个目标用户的注册语音信号进行特征提取,得到M个目标用户的注册语音信号的特征向量;利用所述第二编码网络对所述第一带噪语音信号进行特征提取,得到所述第一带噪语音信号的特征向量;
根据所述M个目标用户的注册语音信号的特征向量和所述第一带噪语音信号的特征向量得到第一特征向量;
根据所述TCN和所述第一特征向量得到第二特征向量;
根据所述M个第三解码网络中的每个第三解码网络、所述第二特征向量和与该第三解码网络对应的第一编码网络输出的特征向量得到M个目标用户的降噪语音信号;
根据所述第一解码网络、所述第二特征向量与所述第一带噪语音信号的特征向量得到所述干扰噪声信号。
46.根据权利要求34-37任一项所述的终端设备,其特征在于,所述目标用户的相关数据包括所述目标用户的语音拾取VPU信号,所述语音降噪模型包括预处理模块、第三编码网络、门控循环单元GRU、第二解码网络和后处理模块,
在所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号的方面,所述降噪单元具体用于:
通过所述预处理模块分别对所述第一带噪语音信号和所述目标用户的VPU信号进行时频变换,得到所述第一带噪语音信号的第一频域信号和所述VPU信号的第二频域信号;
对所述第一频域信号和所述第二频域信号进行融合,得到第一融合频域信号;
将所述第一融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理,以得到所述目标用户的语音信号的第三频域信号的掩膜;
通过所述后处理模块根据所述第三频域信号的掩膜对所述第一频域信号进行后处理,得到所述第三频域信号;
对所述第三频域信号进行频时变换,得到所述目标用户的降噪语音信号;
其中,所述第三编码模块和所述第二解码模块均是基于卷积层和频域变换模块FTB实现的。
47.根据权利要求46所述的终端设备,其特征在于,所述降噪单元具体用于:
将所述第一融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理还得到所述第一频域信号的掩膜;
通过所述后处理模块根据所述第一频域信号的掩膜对所述第一频域信号进行后处理,得到所述干扰噪声信号的第四频域信号;
以对所述第四频域信号进行频时变换,以得到所述干扰噪声信号。
48.根据权利要求38所述的终端设备,其特征在于,所述目标用户A的相关数据包括所述目标用户A的VPU信号,所述语音降噪模型包括预处理模块、第三编码网络、GRU、第二解码网络和后处理模块,在所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号,以得到所述目标用户A的降噪语音信号的方面,所述降噪单元具体用于:
通过所述预处理模块分别对所述第一带噪语音信号和所述目标用户A的VPU信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述目标用户A的VPU信号的第九频域信号;
对所述第一频域信号和所述第九频域信号进行融合,得到第二融合频域信号;
将所述第二融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理,以得到所述目标用户A的语音信号的第十频域信号的掩膜;
通过所述后处理模块根据所述第十频域信号的掩膜对所述第一频域信号进行后处理,得到所述第十频域信号;
对所述第十频域信号进行频时变换,以得到所述目标用户A的降噪语音信号;
其中,所述第三编码模块和所述第二解码模块均是基于卷积层和FTB实现的。
49.根据权利要求39所述的终端设备,其特征在于,所述M个目标用户中第i个目标用户的相关数据包括所述第i个目标用户的VPU信号,所述i为大于0且小于或者等于M的整数,所述降噪单元具体用于:
通过所述预处理模块对第一噪声信号和所述第i个目标用户的VPU信号均进行时频变换,以得到该第一噪声信号的第十一频域信号和所述第i个目标用户的VPU信号的第十二频域信号;
对所述第十一频域信号和所述第十二频域信号进行融合,得到第三融合频域信号;其中,所述第一噪声信号为不包含第1至i-1个目标用户的语音信号的带噪语音信号;
将所述第三融合频域信号先后经过所述第三编码网络、所述GRU和所述第二解码网络处理得到所述第i个目标用户的语音信号的第十三频域信号的掩膜和所述第十一频域信号的掩膜;
通过所述后处理模块根据所述第十三频域信号的掩膜和所述第十一频域信号的掩膜对所述第十一频域信号进行后处理,得到所述第十三频域信号和第二噪声信号的第十四频域信号;
对所述第十三频域信号和所述第十四频域信号进行频时变换,得到所述第i个目标用户的降噪语音信号和所述第二噪声信号,所述第二噪声信号为不包含第1至i个目标用户的语音信号的第一带噪语音信号;
其中,所述第三编码模块和所述第二解码模块均是基于卷积层和FTB实现的。
50.根据权利要求39、40、44、45和49任一项所述的终端设备,其特征在于,在所述基于所述目标用户的语音增强系数对所述目标用户的降噪语音信号进行增强处理,以得到所述目标用户的增强语音信号的方面,所述降噪单元具体用于:
对于所述M个目标用户中的任一目标用户A,基于所述目标用户A的语音增强系数对所述目标用户A的降噪语音信号进行增强处理,以得到所述目标用户A的增强语音信号;所述目标用户A的增强语音信号的幅度与所述目标用户A的降噪语音信号的幅度的比值为所述目标用户A的语音增强系数;
在所述将所述干扰噪声抑制信号与所述目标用户的增强语音信号进行融合,以得到输出信号的方面,所述降噪单元具体用于:
将M个目标用户的增强语音信号与所述干扰噪声抑制信号进行融合,以得到所述输出信号。
51.根据权利要求34-37任一项所述的终端设备,其特征在于,所述目标用户的相关数据包括所述目标用户的VPU信号,所述获取单元还用于:获取所述目标用户的耳内声音信号;
在所述根据所述目标语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户的降噪语音信号的方面,所述降噪单元具体用于:
分别对所述第一带噪语音信号和所述耳内声音信号进行时频变换,以得到所述第一带噪语音信号的第一频域信号和所述耳内声音信号的第五频域信号;
根据所述目标用户的VPU信号、所述第一频域信号和所述第五频域信号得到所述第一带噪语音信号与所述耳内声音信号的协方差矩阵;
基于所述协方差矩阵得到第一最小方差无失真响应MVDR权重;
基于所述第一MVDR权重、所述第一频域信号和所述第五频域信号得到所述第一带噪语音信号的第六频域信号和所述耳内声音信号的第七频域信号;
根据所述第六频域信号和所述第七频域信号得到所述降噪语音信号的第八频域信号;
对所述第八频域信号进行频时变换,以得到所述目标用户的降噪语音信号。
52.根据权利要求51所述的终端设备,其特征在于,所述降噪单元还用于:
根据所述目标用户的降噪语音信号对所述第一带噪语音信号得到所述干扰噪声信号。
53.根据权利要求38所述的终端设备,其特征在于,所述目标用户A的相关数据包括所述目标用户A的VPU信号,所述获取单元,还用于获取所述目标用户A的耳内声音信号;
在所述根据所述目标用户A的语音相关数据通过语音降噪模型对所述第一带噪语音信号进行降噪处理,以得到所述目标用户A的降噪语音信号的方面,降噪单元具体用于:
分别对所述第一带噪语音信号和所述目标用户A的耳内声音信号进行时频变换,得到所述第一带噪语音信号的第一频域信号和所述目标用户A的耳内声音信号的第十五频域信号;
根据所述目标用户A的VPU信号、所述第一频域信号和所述第十五频域信号得到所述第一带噪语音信号与所述目标用户A的耳内声音信号的协方差矩阵;
基于所述协方差矩阵得到第二MVDR权重;
基于所述第二MVDR权重、所述第一频域信号和所述第十五频域信号得到所述第一带噪语音信号的第十六频域信号和所述目标用户A的耳内声音信号的第十七频域信号;根据所述第十六频域信号和所述第十七频域信号得到所述目标用户A的降噪语音信号的第十八频域信号;
对所述第十八频域信号进行频时变换,以得到所述目标用户A的降噪语音信号。
54.根据权利要求41-45任一项所述的终端设备,其特征在于,所述获取单元还用于:
获取所述终端设备所处环境的第一噪音片段和第二噪音片段;所述第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取第一噪音片段的信噪比SNR和声压级SPL;
所述终端设备还包括:
确定单元,用于若所述第一噪音片段的SNR大于第一阈值且所述第一噪音片段的SPL大于第二阈值,则提取所述第一噪音片段的第一临时特征向量;基于所述第一临时语音特征向量对所述第二噪音片段进行降噪处理,以得到第二降噪噪音片段;基于所述第二降噪噪音片段和所述第二噪音片段进行损伤评估,以得到第一损伤评分;若所述第一损伤评分不大于第三阈值,进入所述PNR模式;
在所述获取第一带噪语音信号的方面,所述获取单元具体用于:
从在所述第一噪音片段之后产生的噪声信号中确定所述第一带噪语音信号;所述注册语音信号的特征向量包括所述第一临时特征向量。
55.根据权利要求54所述的终端设备,其特征在于,若所述第一损伤评分不大于第三阈值,所述确定单元还用于:
通过所述终端设备发出第一提示信息,所述第一提示信息用于提示是否使得所述终端设备进入所述PNR模式;
在检测到所述目标用户的同意进入所述PNR模式的操作指令后,才进入所述PNR模式。
56.根据权利要求54或55所述的终端设备,其特征在于,
所述获取单元,还用于在检测到终端设备再次被使用时,获取第二带噪语音信号;
所述降噪单元,还用于:在所述第二带噪语音信号的SNR低于第四阈值时,根据所述第一临时特征向量对所述第二带噪语音信号进行降噪处理,以得到所述当前使用者的降噪语音信号;
所述确定单元,还用于基于所述当前使用者的降噪语音信号和所述第二带噪语音信号进行损伤评估,以得到第二损伤评分;当所述第二损伤评分不大于第五阈值时,通过所述终端设备发出所述第二提示信息,所述第二提示信息用于提示所述当前使用者所述终端设备能够进入PNR模式;在检测到所述当前使用者同意进入所述PNR模式的操作指令后,使得所述终端设备进入PNR模式对第三带噪语音信号进行降噪处理,所述第三带噪语音信号是在所述第二带噪语音信号之后获取的;在检测到所述当前使用者的不同意进入所述PNR模式的操作指令后,采用非PNR模式对所述第三带噪语音信号进行降噪处理。
57.根据权利要求54或55所述的终端设备,其特征在于,
所述获取单元,还用于若所述第一噪音片段的SNR不大于所述第一阈值或者所述第一噪音片段的SPL不大于所述第二阈值,且所述终端设备已存储参考临时声纹特征向量,获取第三噪音片段;
所述降噪单元,还用于根据所述参考临时声纹特征向量对所述第三噪音片段进行降噪处理,得到第三降噪噪音片段;
所述确定单元,还用于根据所述第三噪音片段和所述第三降噪噪音片段进行损伤评估,以得到第三损伤评分;若所述第三损伤评分大于第六阈值且所述第三噪音片段的SNR小于第七阈值,或者所述第三损伤评分大于第八阈值且所述第三噪音片段的SNR不小于所述第七阈值,则通过所述终端设备发出所述第三提示信息,所述第三提示信息用于提示当前使用者所述终端设备能够进入PNR模式;在检测到所述当前使用者同意进入所述PNR模式的操作指令后,使得所述终端设备进入PNR模式对第四带噪语音信号进行降噪处理;在检测到所述当前使用者的不同意进入所述PNR模式的操作指令后,采用非PNR模式对所述第四带噪语音信号进行降噪处理;其中,所述第四带噪语音信号是从在所述第三噪音片段之后产生的噪声信号中确定的。
58.根据权利要求41-45任一项所述的终端设备,其特征在于,
所述获取单元,还用于获取所述终端设备所处环境的第一噪音片段和第二噪音片段;所述第一噪音片段和第二噪音片段在时间上是连续的噪音片段;获取所述终端设备的辅助设备的麦克风阵列针对所述终端设备所处的环境采集的信号;
所述终端设备还包括:
确定单元,用于利用所述采集的信号计算得到所述第一噪音片段的信号到达角DOA和SPL;若所述第一噪音片段的DOA大于第九阈值且小于第十阈值,且所述第一噪音片段的SPL大于第十一阈值,则提取所述第一噪音片段的第二临时特征向量,基于所述第二临时特征向量对所述第二噪音片段进行降噪处理,以得到第三降噪噪音片段;基于所述第三降噪噪音片段和所述第二噪音片段进行损伤评估,以得到第四损伤评分;若所述第四损伤评分大于第十二阈值,则进入所述PNR模式;
在所述获取第一带噪语音信号的方面,所述获取单元具体用于:
从在所述第一噪音片段之后产生的噪声信号中确定所述第一带噪语音信号;
所述注册语音信号的特征向量包括所述第二临时特征向量。
59.根据权利要求58所述的终端设备,其特征在于,若所述第四损伤评分不大于所述第十二阈值,所述确定单元还用于:
通过所述终端设备发出第四提示信息,所述第四提示信息用于提示是否使得所述终端设备进入所述PNR模式;
在检测到所述目标用户的同意进入所述PNR模式的操作指令后,才进入所述PNR模式。
60.根据权利要求34-53任一项所述的终端设备,其特征在于,所述终端设备还包括:
检测单元,用于当检测到终端设备处于手持通话状态时,不进入所述PNR模式;
当检测到所述终端设备处于免提通话状态时,进入所述PNR模式,其中,所述目标用户为所述终端设备的拥有者或者正在使用所述终端设备的用户;
当检测到所述终端设备处于视频通话状态时,进入所述PNR模式,其中,所述目标用户为所述终端设备的拥有者或者距离所述终端设备最近的用户;
当检测到所述终端设备连接到耳机进行通话时,进入所述PNR模式,其中,所述目标用户为佩戴所述耳机的用户;所述第一带噪语音信号和所述目标语音相关数据是通过所述耳机采集得到的;或
当检测到所述终端设备连接到智能大屏设备、智能手表或者车载设备时,进入所述PNR模式,其中所述目标用户为所述终端设备的拥有者或者正在使用所述终端设备的用户,所述第一带噪语音信号和目标语音相关数据是由所述智能大屏设备、所述智能手表或者所述车载设备的音频采集硬件采集得到的。
61.根据权利要求34-53任一项所述的终端设备,其特征在于,所述获取单元还用于:获取当前环境的音频信号的分贝值,
所述终端设备还包括:
控制单元,用于若所述当前环境的音频信号的分贝值超过预设分贝值,且所述终端设备启动的应用程序对应的PNR功能未开启,则开启所述终端设备启动的应用程序对应的PNR功能,并进入所述PNR模式。
62.根据权利要求34-53任一项所述的终端设备,其特征在于,所述终端设备包括显示屏,所述显示屏包括多个显示区域,
其中,所述多个显示区域中的每个显示区域显示标签和对应的功能按键,所述功能按键用于控制对应标签所指示的应用程序的PNR功能的开启和关闭。
63.根据权利要求34-53任一项所述的终端设备,其特征在于,当所述终端设备与另一终端设备之间进行语音数据传输时,所述终端设备还包括:
接收单元,用于接收所述另一终端设备发送的语音增强请求,所述语音增强请求用于指示所述终端设备开启通话功能的PNR功能;
控制单元,用于响应于所述语音增强请求,通过所述终端设备发出第三提示信息,所述第三提示信息用于提示是否使得所述终端设备开启所述通话功能的PNR功能;当检测到所述目标用户针对所述终端设备的确认开启通话功能的PNR功能后,开启所述通话功能的PNR功能,并进入所述PNR模式;
发送单元,用于向所述另一终端设备发送语音增强响应消息,所述语音增强响应消息用于指示所述终端设备已开启通话功能的PNR功能。
64.根据权利要求38-40、43-45和50任一项所述的终端设备,其特征在于,当所述终端设备启动视频通话或者视频录制功能,所述终端设备的显示界面包括第一区域和第二区域,所述第一区域用于显示视频通话内容或者视频录制的内容,所述第二区域用于显示M个控件和对应的M个标签,所述M个控件与所述M个目标用户一一对应,所述M个控件中的每个控件包括滑动按钮和滑动条,通过控制所述滑动按钮在所述滑动条上滑动,以调节该控件对应的标签所指示目标用户的语音增强系数。
65.根据权利要求38-40、43-45和50任一项所述的终端设备,其特征在于,当所述终端设备启动视频通话或者视频录制功能,所述终端设备的显示界面包括第一区域,所述第一区域用于显示视频通话内容或者视频录制的内容;所述终端设备还包括:
控制单元,用于当检测到针对所述视频通话内容或者视频录制内容中任一对象的操作时,在所述第一区域显示该对象对应的控件,该控件包括滑动按钮和滑动条,通过控制所述滑动按钮在所述滑动条上滑动,以调节该对象的语音增强系数。
66.根据权利要求34-37和41任一项所述的终端设备,其特征在于,当所述终端设备为智能交互设备时,所述目标语音相关数据包括包含唤醒词的语音信号,所述第一带噪语音信号包括包含命令词的音频信号。
67.一种终端设备,其特征在于,包括处理器和存储器,其中,所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-33任一项所述的方法。
68.一种芯片系统,其特征在于,所述芯片系统应用于电子设备;所述芯片系统包括一个或多个接口电路,以及一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如权利要求1-33中任一项所述方法。
69.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-33任一项所述方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/093969 WO2022253003A1 (zh) | 2021-05-31 | 2022-05-19 | 语音增强方法及相关设备 |
CN202280038999.1A CN117480554A (zh) | 2021-05-31 | 2022-05-19 | 语音增强方法及相关设备 |
US18/522,743 US20240096343A1 (en) | 2021-05-31 | 2023-11-29 | Voice quality enhancement method and related device |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611024 | 2021-05-31 | ||
CN2021106110240 | 2021-05-31 | ||
CN2021106948493 | 2021-06-22 | ||
CN202110694849 | 2021-06-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115482830A true CN115482830A (zh) | 2022-12-16 |
CN115482830B CN115482830B (zh) | 2023-08-04 |
Family
ID=84420622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111323211.5A Active CN115482830B (zh) | 2021-05-31 | 2021-11-09 | 语音增强方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482830B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504264A (zh) * | 2023-06-30 | 2023-07-28 | 小米汽车科技有限公司 | 音频处理方法、装置、设备及存储介质 |
CN117133281A (zh) * | 2023-01-16 | 2023-11-28 | 荣耀终端有限公司 | 语音识别方法和电子设备 |
CN117470976A (zh) * | 2023-12-28 | 2024-01-30 | 烟台宇控软件有限公司 | 一种基于声纹特征的输电线路缺陷检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971696A (zh) * | 2013-01-30 | 2014-08-06 | 华为终端有限公司 | 语音处理方法、装置及终端设备 |
CN104427068A (zh) * | 2013-09-06 | 2015-03-18 | 中兴通讯股份有限公司 | 一种语音通话方法及装置 |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
US20200066296A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc | Speech Enhancement And Noise Suppression Systems And Methods |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
-
2021
- 2021-11-09 CN CN202111323211.5A patent/CN115482830B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971696A (zh) * | 2013-01-30 | 2014-08-06 | 华为终端有限公司 | 语音处理方法、装置及终端设备 |
CN104427068A (zh) * | 2013-09-06 | 2015-03-18 | 中兴通讯股份有限公司 | 一种语音通话方法及装置 |
US20200066296A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc | Speech Enhancement And Noise Suppression Systems And Methods |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
Non-Patent Citations (1)
Title |
---|
毛维;曾庆宁;龙超;: "一种适用于双微阵列的语音增强算法" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133281A (zh) * | 2023-01-16 | 2023-11-28 | 荣耀终端有限公司 | 语音识别方法和电子设备 |
CN116504264A (zh) * | 2023-06-30 | 2023-07-28 | 小米汽车科技有限公司 | 音频处理方法、装置、设备及存储介质 |
CN116504264B (zh) * | 2023-06-30 | 2023-10-31 | 小米汽车科技有限公司 | 音频处理方法、装置、设备及存储介质 |
CN117470976A (zh) * | 2023-12-28 | 2024-01-30 | 烟台宇控软件有限公司 | 一种基于声纹特征的输电线路缺陷检测方法及系统 |
CN117470976B (zh) * | 2023-12-28 | 2024-03-26 | 烟台宇控软件有限公司 | 一种基于声纹特征的输电线路缺陷检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115482830B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115482830B (zh) | 语音增强方法及相关设备 | |
US9197974B1 (en) | Directional audio capture adaptation based on alternative sensory input | |
CN103827966B (zh) | 处理音频信号 | |
EP1443498B1 (en) | Noise reduction and audio-visual speech activity detection | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
CN106797508B (zh) | 用于改善音质的方法及耳机 | |
EP4004906A1 (en) | Per-epoch data augmentation for training acoustic models | |
CN109195042B (zh) | 低功耗的高效降噪耳机及降噪系统 | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
US11069366B2 (en) | Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium | |
CN109360549B (zh) | 一种数据处理方法、穿戴设备和用于数据处理的装置 | |
CN110012331B (zh) | 一种红外触发的远场双麦远场语音识别方法 | |
WO2021244056A1 (zh) | 一种数据处理方法、装置和可读介质 | |
CN112532266A (zh) | 智能头盔及智能头盔的语音交互控制方法 | |
CN113542960B (zh) | 音频信号处理方法、系统、装置、电子设备和存储介质 | |
WO2021263136A2 (en) | Systems, apparatus, and methods for acoustic transparency | |
CN110364175B (zh) | 语音增强方法及系统、通话设备 | |
CN113228710A (zh) | 听力装置中的声源分离及相关方法 | |
CN112333602B (zh) | 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统 | |
CN112447184A (zh) | 语音信号处理方法及装置、电子设备、存储介质 | |
US20190333517A1 (en) | Transcription of communications | |
CN117118956B (zh) | 音频处理方法、装置、电子设备及计算机可读存储介质 | |
US11736873B2 (en) | Wireless personal communication via a hearing device | |
Amin et al. | Blind Source Separation Performance Based on Microphone Sensitivity and Orientation Within Interaction Devices | |
EP4184507A1 (en) | Headset apparatus, teleconference system, user device and teleconferencing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |