CN117995211A - 语音交流补偿方法、装置、汽车、电子设备及存储介质 - Google Patents
语音交流补偿方法、装置、汽车、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117995211A CN117995211A CN202410034667.7A CN202410034667A CN117995211A CN 117995211 A CN117995211 A CN 117995211A CN 202410034667 A CN202410034667 A CN 202410034667A CN 117995211 A CN117995211 A CN 117995211A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- module
- inputting
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006854 communication Effects 0.000 title claims abstract description 89
- 238000004891 communication Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 66
- 230000001629 suppression Effects 0.000 claims abstract description 53
- 230000003044 adaptive effect Effects 0.000 claims abstract description 51
- 230000009467 reduction Effects 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 239000003638 chemical reducing agent Substances 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000002087 whitening effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 10
- 230000002457 bidirectional effect Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009413 insulation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供语音交流补偿方法、装置、汽车、电子设备及存储介质,涉及语音增强技术领域,该方法包括:将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。本发明通过传统信号处理方式加神经网络,能够实现低时延的语音交流补偿增强,增强了算法的鲁棒性。
Description
技术领域
本发明涉及语音增强技术领域,尤其涉及语音交流补偿方法、装置、汽车、电子设备及存储介质。
背景技术
语音增强具有广泛的应用场景,例如在车载语音系统。车内乘员间交流的难易与舒适程度,与车型、大小、噪声水平以及乘员间的相对位置等因素高度相关。大型乘用车比如MPV相比于4座轿车,其前后排的沟通问题更为突出;敞篷跑车邻座间的沟通问题,较封闭式车辆更为突出;车辆运行在120km/h与30km/h时相比,驾驶员对后座的沟通更为困难;在隔音设计糟糕的车型中说话沟通,较隔音设计优秀的车问题更为突出…由于噪声的存在以及语音的衰减,根据Lombard心理声学效应,乘客会自然的根据当前的语音信噪比进行随噪音量补偿,但是长时间的沟通无疑还是会加重乘客的疲劳感。
早期的车内对讲系统使用头戴式耳麦,以手动开关的方式进行交流补偿。这类系统的优点是结构简单,对系统的啸叫、降噪、声场定位等要求较低,容易实现低时延的传声增强。但是这类系统的缺点也是显而易见的,即需要过多的人工干预,且头戴式设备对驾驶安全性、舒适性都有负面影响。
目前市面上汽车搭载的车内交流补偿(In Car Communication,ICC)算法,鲁棒性不强,增益设定小的时候,扬声器基本听不见扩音的人声;增益调大时,混响感很重,且声音尖锐,刺耳难听,极大的影响人的听感,说话人可以听见自己的声音从扬声器传出,使用效果极差。
发明内容
本发明提供语音交流补偿方法、装置、汽车、电子设备及存储介质,用以解决现有技术中语音增强的效果不佳,鲁棒性较低的缺陷。
本发明提供一种语音交流补偿方法,包括:将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。
根据本发明提供的一种语音交流补偿方法,将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号之后,还包括:将增强语音信号依次输入至移频调相模块和半波整流模块,以去除前后增强语音信号之间的相关性。
根据本发明提供的一种语音交流补偿方法,将增强语音信号依次输入至移频调相模块和半波整流模块之后,还包括:将半波整流模块输出的信号输入至动态范围压缩模块,以动态调整增强语音信号的输出大小。
根据本发明提供的一种语音交流补偿方法,将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号,包括:将第一中间信号输入至陷波器,以提高自适应反馈抑制模块的收敛速率;将陷波器输出的信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号。
根据本发明提供的一种语音交流补偿方法,将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号,包括:将扬声器信号和自适应反馈抑制模块的第一滤波信号进行卷积,得到估计值;根据估计值和麦克风信号得到误差信号;对误差信号进行线性预测编码,得到AR模型;根据AR模型系数对待处理语音信号进行白化处理,得到白化扬声器信号和白化麦克风信号;基于白化扬声器信号和白化麦克风信号更新第一滤波信号;基于白化麦克风信号确定第一中间信号。
根据本发明提供的一种语音交流补偿方法,将第一中间信号输入至语音增强神经网络,包括:将第一中间信号输入至信号放大器;将信号放大后的第一中间信号输入至语音增强神经网络;得到随噪补偿模块输出的增强语音信号之后,包括:将增强语音信号输入至信号缩小器。
本发明还提供一种语音交流补偿装置,包括:第一中间信号模块,用于将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;第二中间信号模块,用于将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;增强语音信号模块,用于将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。
本发明还提供一种车内双向交流增强装置,包括:第一麦克风、第二麦克风、第一扬声器、第二扬声器、第一语音交流补偿装置和第二语音交流补偿装置;第一麦克风和第一扬声器设置在汽车内的同一座位排;第二麦克风和第二扬声器设置在汽车内的同一座位排;第一麦克风和第二麦克风设置在汽车内的不同座位排;第一语音交流补偿装置和第二语音交流补偿装置为上述的语音交流补偿装置;第一语音交流补偿装置分别连接第一麦克风和第二扬声器,用于通过第一麦克风接收待处理语音信号,并通过第二扬声器输出增强语音信号;第二语音交流补偿装置分别连接第二麦克风和第一扬声器,用于通过第二麦克风接收待处理语音信号,并通过第一扬声器输出增强语音信号。
本发明还提供一种汽车,包括:麦克风,所述麦克风用于获取待处理语音信号;扬声器,所述扬声器用于输出增强语音信号;处理器,所述处理器用于执行上述语音交流补偿方法。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述语音交流补偿方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述语音交流补偿方法。
本发明提供的语音交流补偿方法、装置、汽车、电子设备及存储介质,方法包括:将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。本发明通过传统信号处理方式加神经网络,能够实现低时延的语音交流补偿增强,声音输出稳定,正常,扩音效果明显,且消除车内的混响感;通过自适应算法模块,增强了算法的鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音交流补偿方法的流程示意图;
图2是本发明实施例提供的车内环境的简化模型示意图;
图3是本发明实施例提供的语音增强神经网络的结构示意图;
图4是本发明实施例提供的语音交流补偿的功能结构示意图之一;
图5是本发明实施例提供的语音交流补偿的功能结构示意图之二;
图6是本申请实施例提供的语音交流补偿装置的结构示意图;
图7是本发明实施例提供的车内双向交流增强装置的结构示意图;
图8是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种语音交流补偿方法,适用于例如车载语音系统等需要进行语音增强的场景,能够实现低时延的语音交流补偿增强,增强了算法的鲁棒性。
下面以车内补偿交流为例介绍本发明。但本领域技术人员可以理解的是,本发明的语音交流补偿方法还可以应用于其他需要语音增强的场景,例如会议室系统等等。
请参阅图1,图1是本发明实施例提供的语音交流补偿方法的流程示意图,在本实施例中,语音交流补偿方法可以包括步骤110至步骤130,各步骤具体如下:
步骤110:将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号。
车内对讲系统(交流补偿)一般使用车内固定麦克风进行拾音,并使用车内固定扬声器进行信号增强。这些硬件对于基于功放的车内娱乐系统都是基本组件之一,因此本实施例的方法能够复用现有硬件平台,无需额外的传感器和执行单元的开销。本实施例需要做的就是使用部分的功放数字信号处理(Digital Signal Process,DSP)资源进行本地扩音的处理。
交流补偿系统本质上就是车内的对讲或者本地扩音系统。请参阅图2,图2是本发明实施例提供的车内环境的简化模型示意图。
图2展示了一个简单的前排乘客对后排乘客进行扩音的模型。根据此模型发现前排乘客的麦克风上至少包含五种成分:a)反馈路径造成的耦合分量;b)后排乘客到达前排麦克风的分量;c)车内环境噪声;d)前排乘客的语音;e)其他音源通过回声路径到达的分量。
并且,车内环境的语音交流补偿还有两个容易忽略的因素:
第一个:两人对话的直达声(无电声增强的部分)。由于车内空间狭窄,按照前后排1m距离计算,直达声的时延仅为3ms。直达声路径的时延如果与电声路径的时延存在较大差异的情况下,收听人会有明显混响/回声感知,会十分不适。故还需要考虑时延匹配问题。两者时延的差越小越好,控制在10ms以内为佳。
第二个:声场定位。如果仅仅使用离收听人最近的单个扬声器进行增强,收听人会产生严重的定位偏差。例如若扬声器设置在乘客后方,对后排乘客进行扩音时,则后排乘客会产生说话人在后方的错觉,而此时后排乘客的视觉/听觉信息不匹配,时间长了会大大加深疲劳感。所以,即使解决了a)和c)中涉及的问题,满足了时延匹配,还是需要结合基础音效的加持,对声场定位进行调音优化。
解决这两个隐含的问题,会对处理a)和c)问题产生更强的约束:1)更低的时延:对13ms的端时延,前向通道中的所有处理必须进行低时延的重新设计。假设DSP平台的IO时延为4ms,可以得到需要的处理时延为9ms以内。2)更准确的声场定位,需要理论上所有的扬声器参与调音。这就大大增加了反馈路径的耦合增益,这需要更好的反馈抑制模块以减小电声混响、降低产生啸叫的概率。
因此在本实施例的语音交流补偿方法中,需要对上述的成分进行处理。
在本步骤中,可以通过麦克风获取待处理语音信号,并且通过自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号。
自适应反馈抑制模块可以根据之前帧的信号估计车内冲击响应,计算出音频中的扬声器信号,将扬声器信号减去,得到尽量真实的人声。
在一些实施例中,将待处理语音信号输出至自适应反馈抑制模块之前,还可以对待处理语音信号进行预处理。预处理可以包括降采样和背景过滤。
示例性地,对待处理语音信号进行降采样处理。
例如将待处理语音信号降采样至第一预设数值(例如12K)。通过降采样处理既可以有效保留人声信息,同时减少了待处理采样点数,降低整个算法的计算量。
示例性地,将待处理语音信号输入至高通滤波器,以过滤背景噪声。
例如通过一个高通滤波器,过滤掉第二预设数值以下的信号。
需要说明的是,第二预设数值是根据背景噪声确定的,第二预设数值以下主要为背景噪声,对人声信号没有影响。可选地,第二预设数值可以为150Hz。
步骤120:将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号。
在本步骤中,利用语音增强神经网络对经过自适应反馈抑制模块处理的信号进行二次处理。语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响。
语音增强神经网络是一个低时延的神经网络。示例性地,语音增强神经网络的,合成窗长16点,帧移8点,处理时延为(8+16)/12000=2ms的时延,可以满足对整个系统低时延的要求。
在一些实施例中,由于经过了降采样处理,整个算法是在12K运行,所以扬声器播出的信号高频基本为0,而人声是有高频信号,因此可以利用这一特性在训练时有针对性的构造数据集,使得模型可以去除信号中的扬声器信号。
根据实际体验,ICC的一个重大问题就是说话时混响感太大,主要原因是复用车内语音麦克风,该麦克风是全指向性,当一个乘客A说话时,其它麦克风(非A位置)会拾取到其声音,并通过A旁边的扬声器传出,使得A能听见自己的声音,且A的麦克风也会拾取到A扬声器的声音,形成一个无限循环,混响感越来越大;因此本实施例中还能够利用神经网络来去除扬声器的声音,极大的降低了混响感。
请参阅图3,图3是本发明实施例提供的语音增强神经网络的结构示意图。
本实施例的语音增强神经网络能够同时实现降噪和分区的功能。示例性地,采用经典的频域分析-综合滤波器,模型负责生成频域的掩码。为了降低时延,采用非对称分析-综合窗函数。分析窗长128点,合成窗长16点,帧移8点,处理时延为(8+16)/12000=2ms。
同时在训练时根据高频信号能量的差异,消除麦克风拾取到的输入信号中的扬声器声音部分,极大的减少了混响感,大大提升了使用体验。
考虑到整个系统的低时延性,本实施例采用了三层门控循环单元(GatedRecurrent Unit,GRU)构建模型,输入时将特征转到bark域降低计算量,输出时再逆变换回去。
Bark域是用于描述人类听觉频率分辨率的非线性特性。Bark域的转换公式是基于实验数据和人类听觉生理模型的研究结果得出的。
Uniform域是指均匀频率空间,以便于进行音频数据的处理和分析。
如图3所示,LPS信号和PCEN信号分别经过从Bark域转化为Uniform域的处理后,输出入至全连接层(Fully Connected,FC),然后经过三个GRU的处理后,通过FC、激活函数sigmoid和从Uniform域转化为Bark域的处理后输出。
其中,LPS信号是第一中间信号经过LPS(Log Power Spectrogram)算法处理后得到的信号,LPS算法首先通过将音频信号分帧,并对每一帧进行傅里叶变换,得到每一帧的频谱图。然后,对频谱图的幅度进行平方,再取对数,得到每一帧的能量谱。最后,将能量谱作为特征表示音频信号。具有对数变换的特性,可以增强低能量部分的细节信息,同时压缩高能量部分的动态范围,使得特征更加稳定和鲁棒。
PCEN信号是第一中间信号经过PCEN(Per-Channel Energy Normalization)算法处理后得到的信号,PCEN算法是一种音频特征提取方法,用于增强音频信号的动态范围。它通过对音频信号进行分帧,并计算每一帧的能量。然后,对每一帧的能量进行平滑和归一化处理,以减小不同帧之间的能量差异。可以有效地抑制噪声和背景音的影响,提高音频信号的可辨识度。
步骤130:将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号。
在本步骤中,利用随噪补偿模块对语音增强神经网络输出的第二中间信号进行再次处理。随噪补偿模块用于根据背景噪声调整第二中间信号的音量。
随噪补偿模块可以获取背景噪声的大小,以此来动态增加、降低人声,使得播出人声让乘客始终感觉在一个声音水平大小。
例如,通过对参考噪声信号进行建模,生成反相位的噪声(anti-noise)对乘客附近的噪声进行干涉消除,以达到降低乘客附近的噪声声压级的目的,使用电声器件对语音进行增强,以达到提高乘客附近的语音信噪比的目的等等。
综上,本实施例提供了一种语音交流补偿方法,包括:将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。通过上述方式,本实施例能够实现低时延的语音交流补偿增强,声音输出稳定,正常,扩音效果明显,且消除车内的混响感;通过自适应算法模块,增强了算法的鲁棒性
基于上述的任一实施例,将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号之后的步骤,还包括:
将增强语音信号依次输入至移频调相模块和半波整流模块,以去除前后增强语音信号之间的相关性。
在本实施例中,还设计了移频调相模块和半波整流模块,考虑到ICC为低时延网络,句子前后有很强的相关性,因此通过移频调相和半波整流的方式去除信号之间的相关性,使得自适应反馈抑制模块估计的更准。
基于上述的任一实施例,将增强语音信号依次输入至移频调相模块和半波整流模块之后的步骤,还包括:
将半波整流模块输出的信号输入至动态范围压缩模块,以动态调整增强语音信号的输出大小。
在本实施例中,还设计了动态范围压缩模块,能够动态调整增强语音信号的输出大小,以提高用户的体验感。
基于上述的任一实施例,将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号的步骤,包括:
将第一中间信号输入至陷波器,以提高自适应反馈抑制模块的收敛速率;将陷波器输出的信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号。
在本实施例中,还设计了陷波器。若自适应反馈抑制模块发散,则会产生啸叫,从而影响乘客的听感。因此通过本实施例中陷波器的使用,可以提高自适应反馈抑制模块的收敛速率,避免整个自适应反馈抑制模块的发散。
基于上述的任一实施例,将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号的步骤,包括:
将扬声器信号和自适应反馈抑制模块的第一滤波信号进行卷积,得到估计值;根据估计值和麦克风信号得到误差信号;对误差信号进行线性预测编码,得到AR模型;根据AR模型系数对待处理语音信号进行白化处理,得到白化扬声器信号和白化麦克风信号;基于白化扬声器信号和白化麦克风信号更新第一滤波信号;基于白化麦克风信号确定第一中间信号。
ICC使用无指向麦克风,且麦克风距离人相对较远,麦克风与扬声器位置固定,可以使用声学反馈消除(Acoustic Feedback Cancellation,AFC)。所以ICC系统里面是AFC线性滤波为主,其他技术为辅,且使用场景为车载环境,噪声较大。AFC性能和降噪性能是最重要的两个模块。
本地扩音系统的自适应反馈控制本质上也可以理解为一个每时每刻都在“双讲”的AEC系统的辨识问题。对于通常的AEC应用,使用自适应的步长控制同样能够达到辨识的目的,但是较小的步长对应着较长的收敛时间,当路径变化时容易产生泄露。在反馈控制中收敛不及时会有瞬时的失调,从而产生瞬时啸叫,影响用户体验。
车内硬件平台使用固定扬声器和麦克风,故路径的变化中的时延因素比较好控制,即传递函数的时延基本固定。使用自适应步长控制结合现有的AEC算法理论上能够进行系统的实时辨识。但是始终保持较小的步长使得LMS环路增益较低,一旦用户做出一些激进动作(开门、开窗等)系统大概率会瞬时失调,轻则语音失真,重则啸叫发生。
为了提高收敛速率,使用较大的更新步长,本实施例把焦点放在降低x与v的相关性这个方向:使得近端的v信号与自己6ms前的版本的相关性尽可能的低。可以很容易想到当近端的输入信号v为白噪声时满足这个条件。
因此本实施例中使用PEM算法:
1)将扬声器信号u与滤波器信号进行卷积,得到反馈量的估计值/>
2)麦克风信号y减去反馈量估计得到误差信号e,理想情况误差应为近端信号的估计/> 是信号中的人声部分。
3)对误差信号e进行m阶LPC编码,得到当前处理窗口的AR模型假设AR模型为最小相位系统。
其中,a1、a2、…am表示系数,z-1、z-2、…z-m是自变量,也即编码后的误差信号e。
4)使用AR模型系数对参考信号和麦克风输入进行白化:
其中,uw是白化后的扬声器信号,yw是白化后的麦克风信号
5)使用白化的信号进行LMS的系统辨识。将更新的权重系数拷贝到中,完成一轮更新。
基于上述的任一实施例,将第一中间信号输入至语音增强神经网络的步骤,包括:
将第一中间信号输入至信号放大器;将信号放大后的第一中间信号输入至语音增强神经网络。
得到随噪补偿模块输出的增强语音信号之后的步骤,包括:
将增强语音信号输入至信号缩小器。
在本实施例中,还设计了信号放大器和信号缩小器,信号放大器能够将信号放大第三预设数值(例如20db),以准备利用语音增强神经网络进行降噪和去混响。而当语音增强神经网络后,由经过信号缩小器缩小第三预设数值(例如20db),以恢复原有的信号大小。因此通过了信号放大器和信号缩小器,可以提高语音增强神经网络的信号处理精度。
请参阅图4,图4是本发明实施例提供的语音交流补偿的功能结构示意图之一。
在本实施例中,待处理音频信号依次经过降采样处理模块、高通滤波器、自适应反馈抑制模块、信号放大器、陷波器、语音增强神经网络、随噪补偿模块、信号缩小器、移频调相模块、半波整流模块和动态范围压缩模块的处理后,最后可以获得增强语音信号。
本实施例提供的语音交流补偿方案可以实现车内不同排乘客之间的相互沟通交流,且声音输出稳定,正常,扩音效果明显,不会出现啸叫问题,消除车内的混响感,通过自适应算法模块,增强了算法的鲁棒性,使乘客沟通时听感清晰,语言真实,使用体验极强。此外,算法的延迟在10ms以内,人耳听不出人的直达声和扬声器声音的时延,具有可落地性。
在相关技术中,ICC算法为单向ICC,即某一位置(一般为主驾位置)说话,通过麦克风拾音,经过算法处理,利用扬声器向其余乘客位置播放,不支持两个位置的乘客互相交流,没有真正实现该功能的初始想法。
因此在本实施例提出了一种双向语音交流补偿的方案,即双向ICC,可以实现车内不同排乘客之间的相互沟通交流。在汽车内,第一排麦克风拾到的声音通过第二排的扬声器播出,第二排的麦克风拾到的声音通过第一排的扬声器播出,这样可以实现排与排之间的沟通。
请参阅图5,图5是本发明实施例提供的语音交流补偿的功能结构示意图之二。
由图5可以看出,双向系统基本由两个单向系统组成,并且可以在上述约束下,解决反馈、降噪、啸叫三个基本问题。
具体地,在该方案的系统中包括了均衡器EQ、延迟模块delay、动态范围压缩模块DRC、移频调相模块PMFS、半波整流模块HW-RECT、语音增强神经网络NR、随噪补偿模块NDGC、输出错误检测模块NaN/Inf-Killer、陷波器NHS/Notch、多段均衡器Post EQ、高通滤波器HPF、麦克风组件Mic FL/Mic FR、扬声器组件CC/FL/FR/RL/RR/SL/SR、陷波器NHS-Detect和自适应反馈抑制模块,其中自适应反馈抑制模块包括PEM模块、LPC模块、MDF模块和ADAPT模块。
PEM(Perceptual Evaluation of Speech Quality,语音质量的感知评估)模块:一种用于评估语音质量的感知评估方法。它通过主观听觉测试来评估语音信号的质量,通常用于语音编解码算法的评估和优化。
LPC(Linear Predictive Coding,线性预测编码)模块:一种用于语音信号分析和合成的方法。它通过对语音信号进行线性预测,将语音信号分解为预测系数和激励信号,从而实现语音信号的压缩和重建。
MDF(Minimum-Phase Difference,最小相位差)模块:一种用于音频信号处理的滤波器设计方法。它通过最小相位差的原则,在保持频率响应形状不变的情况下,将滤波器的相位响应调整为最小相位响应,从而提高滤波器的稳定性和效果。
ADAPT(Adaptive Filter,自适应滤波器)模块:一种自适应滤波器,用于对信号进行滤波和降噪。它通过根据输入信号和期望输出信号之间的误差来调整滤波器的系数,从而实现对信号的自适应处理。
需要说明的是,输出错误检测模块NaN/Inf-Killer是用于确保语音增强神经网络NR输出的信号正常,例如若语音增强神经网络NR输出的信号值过大,则输出错误检测模块NaN/Inf-Killer会对信号进行拦截。
在该方案的系统中,通过麦克风组件Mic FL/Mic FR获取音频信号。并且还可以加入其他声源Navi.Ext.Source和RTC Ext.Source对双向系统进行调试。
本发明还提供一种语音交流补偿装置,下面对本发明提供的语音交流补偿装置进行描述,下文描述的语音交流补偿装置与上文描述的语音交流补偿方法可相互对应参照。
请参阅图6,图6是本申请实施例提供的语音交流补偿装置的结构示意图,在本实施例中,语音交流补偿装置可以包括第一中间信号模块610、第二中间信号模块620和增强语音信号模块630。
第一中间信号模块610,用于将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;
第二中间信号模块620,用于将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;
增强语音信号模块630,用于将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。
本实施例提供的语音交流补偿装置,通过第一中间信号模块可以得到去除扬声器信号后的第一中间信号,通过第二中间信号模块可以得到进行降噪和混响后的第二中间信号,通过增强语音信号模块可以调整第二中间信号的音量,使得播出人声让听者始终感觉在一个声音水平大小;本实施例能够实现低时延的语音交流补偿增强,声音输出稳定,正常,扩音效果明显,且消除车内的混响感;通过自适应算法模块,增强了算法的鲁棒性。
本发明还提供一种车内双向交流增强装置。请参阅图7,图7是本发明实施例提供的车内双向交流增强装置的结构示意图。在本实施例中,车内双向交流增强装置可以包括:第一麦克风710、第二麦克风720、第一扬声器730、第二扬声器740、第一语音交流补偿装置750和第二语音交流补偿装置760。
其中,第一麦克风710和第一扬声器730设置在汽车内的同一座位排;第二麦克风720和第二扬声器740设置在汽车内的同一座位排。第一麦克风710和第二麦克风720设置在汽车内的不同座位排,第一扬声器730和第二扬声器740也设置在汽车内的不同座位排。
第一语音交流补偿装置750和第二语音交流补偿装置760为上述的语音交流补偿装置。
第一语音交流补偿装置750分别连接第一麦克风710和第二扬声器740,第一语音交流补偿装置750用于通过第一麦克风710接收待处理语音信号,并通过第二扬声器740输出增强语音信号。
第二语音交流补偿装置760分别连接第二麦克风720和第一扬声器730,第二语音交流补偿装置760用于通过第二麦克风720接收待处理语音信号,并通过第一扬声器730输出增强语音信号。
本实施例的车内双向交流增强装置是双向ICC,可以实现车内不同排乘客之间的相互沟通交流,且声音输出稳定,正常,扩音效果明显,不会出现啸叫问题,消除车内的混响感,通过自适应算法模块,增强了算法的鲁棒性,使乘客沟通时听感清晰,语言真实,使用体验极强。此外,算法的延迟在10ms以内,人耳听不出人的直达声和扬声器声音的时延,具有可落地性。
本发明还提供一种电子设备,请参阅图8,图8是本发明实施例提供的电子设备的结构示意图。在本实施例中,电子设备可以包括存储器(memory)820、处理器(processor)810及存储在存储器820上并可在处理器810上运行的计算机程序。处理器810执行程序时实现上述各方法所提供的语音交流补偿方法。
可选地,电子设备还可以包括通信总线830和通信接口(CommunicationsInterface)840,其中,处理器810,通信接口840,存储器820通过通信总线830完成相互间的通信。处理器810可以调用存储器820中的计算机程序,以执行语音交流补偿方法,该方法包括:
将待处理语音信号输入至自适应反馈抑制模块,得到自适应反馈抑制模块输出的第一中间信号;自适应反馈抑制模块用于去除待处理语音信号中的扬声器信号;将第一中间信号输入至语音增强神经网络,得到语音增强神经网络输出的第二中间信号;语音增强神经网络用于基于第一中间信号对待处理语音信号进行降噪和混响;将第二中间信号输入至随噪补偿模块,得到随噪补偿模块输出的增强语音信号;随噪补偿模块用于根据背景噪声调整第二中间信号的音量。
此外,上述的存储器820中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还提供一种汽车,该汽车包括振动麦克风、扬声器和处理器。麦克风用于获取待处理语音信号;扬声器用于输出增强语音信号;处理器用于执行上述任一实施例的语音交流补偿方法,其步骤和原理在上述方法已详细介绍,在此不再赘述。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音交流补偿方法,其步骤和原理在上述方法已详细介绍,在此不再赘述。
非暂态计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种语音交流补偿方法,其特征在于,包括:
将待处理语音信号输入至自适应反馈抑制模块,得到所述自适应反馈抑制模块输出的第一中间信号;所述自适应反馈抑制模块用于去除所述待处理语音信号中的扬声器信号;
将所述第一中间信号输入至语音增强神经网络,得到所述语音增强神经网络输出的第二中间信号;所述语音增强神经网络用于基于所述第一中间信号对所述待处理语音信号进行降噪和混响;
将所述第二中间信号输入至随噪补偿模块,得到所述随噪补偿模块输出的增强语音信号;所述随噪补偿模块用于根据背景噪声调整所述第二中间信号的音量。
2.根据权利要求1所述的语音交流补偿方法,其特征在于,所述将所述第二中间信号输入至随噪补偿模块,得到所述随噪补偿模块输出的增强语音信号之后,还包括:
将所述增强语音信号依次输入至移频调相模块和半波整流模块,以去除前后增强语音信号之间的相关性。
3.根据权利要求2所述的语音交流补偿方法,其特征在于,所述将所述增强语音信号依次输入至移频调相模块和半波整流模块之后,还包括:
将所述半波整流模块输出的信号输入至动态范围压缩模块,以动态调整所述增强语音信号的输出大小。
4.根据权利要求1所述的语音交流补偿方法,其特征在于,所述将所述第一中间信号输入至语音增强神经网络,得到所述语音增强神经网络输出的第二中间信号,包括:
将所述第一中间信号输入至陷波器,以提高所述自适应反馈抑制模块的收敛速率;
将所述陷波器输出的信号输入至所述语音增强神经网络,得到所述语音增强神经网络输出的第二中间信号。
5.根据权利要求1至4任一项所述的语音交流补偿方法,其特征在于,所述将待处理语音信号输入至自适应反馈抑制模块,得到所述自适应反馈抑制模块输出的第一中间信号,包括:
将扬声器信号和所述自适应反馈抑制模块的第一滤波信号进行卷积,得到估计值;
根据所述估计值和麦克风信号得到误差信号;
对所述误差信号进行线性预测编码,得到AR模型;
根据所述AR模型系数对所述待处理语音信号进行白化处理,得到白化扬声器信号和白化麦克风信号;
基于所述白化扬声器信号和白化麦克风信号更新所述第一滤波信号;
基于所述白化麦克风信号确定所述第一中间信号。
6.根据权利要求1至4任一项所述的语音交流补偿方法,其特征在于,所述将所述第一中间信号输入至语音增强神经网络,包括:
将所述第一中间信号输入至信号放大器;
将信号放大后的第一中间信号输入至所述语音增强神经网络;
所述得到所述随噪补偿模块输出的增强语音信号之后,包括:
将所述增强语音信号输入至信号缩小器。
7.一种语音交流补偿装置,其特征在于,包括:
第一中间信号模块,用于将待处理语音信号输入至自适应反馈抑制模块,得到所述自适应反馈抑制模块输出的第一中间信号;所述自适应反馈抑制模块用于去除所述待处理语音信号中的扬声器信号;
第二中间信号模块,用于将所述第一中间信号输入至语音增强神经网络,得到所述语音增强神经网络输出的第二中间信号;所述语音增强神经网络用于基于所述第一中间信号对所述待处理语音信号进行降噪和混响;
增强语音信号模块,用于将所述第二中间信号输入至随噪补偿模块,得到所述随噪补偿模块输出的增强语音信号;所述随噪补偿模块用于根据背景噪声调整所述第二中间信号的音量。
8.一种车内双向交流增强装置,其特征在于,包括:第一麦克风、第二麦克风、第一扬声器、第二扬声器、第一语音交流补偿装置和第二语音交流补偿装置;
所述第一麦克风和所述第一扬声器设置在汽车内的同一座位排;所述二麦克风和所述第二扬声器设置在汽车内的同一座位排;所述第一麦克风和所述第二麦克风设置在汽车内的不同座位排;
所述第一语音交流补偿装置和第二语音交流补偿装置为权利要求7所述的语音交流补偿装置;
所述第一语音交流补偿装置分别连接所述第一麦克风和所述第二扬声器,用于通过所述第一麦克风接收待处理语音信号,并通过所述第二扬声器输出增强语音信号;
所述第二语音交流补偿装置分别连接所述第二麦克风和所述第一扬声器,用于通过所述第二麦克风接收待处理语音信号,并通过所述第一扬声器输出增强语音信号。
9.一种汽车,其特征在于,包括:
麦克风,所述麦克风用于获取待处理语音信号;
扬声器,所述扬声器用于输出增强语音信号;
处理器,所述处理器用于执行权利要求1至6中任一项所述语音交流补偿方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音交流补偿方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音交流补偿方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410034667.7A CN117995211A (zh) | 2024-01-09 | 2024-01-09 | 语音交流补偿方法、装置、汽车、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410034667.7A CN117995211A (zh) | 2024-01-09 | 2024-01-09 | 语音交流补偿方法、装置、汽车、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117995211A true CN117995211A (zh) | 2024-05-07 |
Family
ID=90894408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410034667.7A Pending CN117995211A (zh) | 2024-01-09 | 2024-01-09 | 语音交流补偿方法、装置、汽车、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117995211A (zh) |
-
2024
- 2024-01-09 CN CN202410034667.7A patent/CN117995211A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3040984B1 (en) | Sound zone arrangment with zonewise speech suppresion | |
US11348595B2 (en) | Voice interface and vocal entertainment system | |
US9992572B2 (en) | Dereverberation system for use in a signal processing apparatus | |
US9768829B2 (en) | Methods for processing audio signals and circuit arrangements therefor | |
EP3791565B1 (en) | Method and apparatus utilizing residual echo estimate information to derive secondary echo reduction parameters | |
JP5675848B2 (ja) | レベルキューによる適応ノイズ抑制 | |
Li et al. | Two-stage binaural speech enhancement with Wiener filter for high-quality speech communication | |
US8081776B2 (en) | Indoor communication system for a vehicular cabin | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US9532149B2 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
JP5148150B2 (ja) | 音響信号処理における均等化 | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
US20120263317A1 (en) | Systems, methods, apparatus, and computer readable media for equalization | |
EP3441969B1 (en) | Synthetic speech for in vehicle communication | |
Schmidt et al. | Signal processing for in-car communication systems | |
US11089404B2 (en) | Sound processing apparatus and sound processing method | |
CN114121031A (zh) | 设备语音降噪、电子设备和存储介质 | |
TW200921645A (en) | Voice enhancer for hands-free devices | |
CN117995211A (zh) | 语音交流补偿方法、装置、汽车、电子设备及存储介质 | |
EP3837621B1 (en) | Dual-microphone methods for reverberation mitigation | |
Liu et al. | An Interference Cancellation Method Using Fixed Beamformer and Adaptive Filter in Car Environment | |
Namenas et al. | 12 A Recording Setup for Clean Lombard Speech Based on Acoustic Ambiance Simulation and Noise Suppression | |
Hidri et al. | A multichannel beamforming-based framework for speech extraction | |
Lüke et al. | 15 How to create a clean Lombard speech database using loudspeakers | |
JP2021135310A (ja) | 音声処理装置および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |