CN112489674A - 语音增强方法、装置、设备及计算机可读存储介质 - Google Patents

语音增强方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112489674A
CN112489674A CN202011297820.3A CN202011297820A CN112489674A CN 112489674 A CN112489674 A CN 112489674A CN 202011297820 A CN202011297820 A CN 202011297820A CN 112489674 A CN112489674 A CN 112489674A
Authority
CN
China
Prior art keywords
signal
frequency domain
domain observation
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011297820.3A
Other languages
English (en)
Inventor
赵沁
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011297820.3A priority Critical patent/CN112489674A/zh
Publication of CN112489674A publication Critical patent/CN112489674A/zh
Priority to PCT/CN2021/127260 priority patent/WO2022105571A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种语音增强方法、装置、设备及计算机可读存储介质,该方法包括:通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号;基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。本发明能够有效增强目标方位的语音信号以及更好地滤除噪声干扰,有效地提升参考语音信号和噪声信号的精确度,从而进一步地提升语音增强信号的精确度。

Description

语音增强方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及信号处理技术领域,尤其涉及一种语音增强方法、装置、设备及计算机可读存储介质。
背景技术
智能终端设备的应用越来越广泛,比如智能电视,智能音箱,智能售贩机、智能卖票机等。随着语音技术和硬件技术的蓬勃发展,语音交互成为智能人机交互的重要接口。然而实际环境下噪声无处不在,为了后端的高效计算和处理,拾取干净目标语音信号非常重要,因此前端的语音信号增强必不可少。并且,随着语音识别技术的广泛使用,语音信号处理技术的需求也随之扩大。目前,在语音识别或声纹识别过程中,由前端设备采集到的语音信号一般都带有噪声,包括背景环境中的噪声以及前端设备录音过程中产生的噪声。这些携带噪声的语音信号在进行语音识别时,会影响语音识别的准确性,因此,需要对语音信号进行语音增强处理(即对语音信号进行降噪处理),以从该语音信号中尽可能提取到更纯净的语音信号,以使语音识别更加准确。当前对语音信号进行语音增强处理后提取的语音信号精度不高,不利于后续进行语音识别。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音增强方法、装置、设备及计算机可读存储介质,旨在解决当前对语音信号进行语音增强处理后提取的语音信号精度低的技术问题。
为实现上述目的,本发明提供一种语音增强方法,所述语音增强方法包括以下步骤:
通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;
将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;
将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;
基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。
可选地,所述将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号的步骤包括:
将所述频域观测信号输入至广义旁瓣消除器的第一超指向性波束形成器,以基于所述语音信号对应的方向角度和所述麦克风阵列对应的阵元间距确定所述频域观测信号各频点的导向矢量;
基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵;
基于所述第一投影矩阵和所述频域观测信号确定所述第一超指向性波束形成器输出的参考语音信号。
可选地,所述基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵的步骤包括:
基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;
基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵。
可选地,所述将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号的步骤包括:
将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以基于所述噪声方向矢量确定所述频域观测信号各频点的第二投影矩阵;
基于所述第二投影矩阵和所述频域观测信号确定所述第二超指向性波束形成器输出的噪声信号。
可选地,所述基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号的步骤包括:
将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号;
将所述误差信号输入至所述自适应噪声抑制器,并采用归一化最小均方误差准则优化所述自适应噪声抑制器的参数,在优化完成所述自适应噪声抑制器后确定所述语音信号对应的语音增强信号。
可选地,所述将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号的步骤包括:
将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述自适应噪声抑制器对应的权重矢量和所述参考语音信号,确定调整信号;
基于所述调整信号对所述语音信号对应的所述频域观测信号进行调整,确定调整所述频域观测信号后对应的误差信号。
可选地,所述通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号的步骤包括:
通过麦克风阵列采集语音信号,并对所述语音信号执行分帧操作,得到所述语音信号对应的帧数据;
对所述语音信号对应的帧数据进行短时离散傅里叶变换,得到所述语音信号对应的频域观测信号。
此外,为实现上述目的,本发明还提供一种语音增强装置,所述语音增强装置包括:
采集模块,用于通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;
第一确定模块,用于将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;
第二确定模块,用于将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;
第三确定模块,用于基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。
此外,为实现上述目的,本发明还提供一种语音增强设备,所述语音增强设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音增强程序,所述语音增强程序被所述处理器执行时实现如上述的语音增强方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音增强程序,所述语音增强程序被处理器执行时实现如上述的语音增强方法的步骤。
本发明通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。本实施例通过结合广义旁瓣消除器结构和超指向性波束形成技术,利用超指向性波束形成技术的指向性强、主瓣窄的特性,在广义旁瓣消除器技术的基础上进行改进,从而通过对广义旁瓣消除器中的第一超指向性波束形成器能够有效增强目标方位的语音信号,增强效果佳,并且同时基于超指向性波束形成技术改进了广义旁瓣消除器下支路的阻塞矩阵部分,能够更有效滤除噪声干扰,因此更有效地提升所计算的参考语音信号和噪声信号的精确度,从而进一步地提升语音增强信号的精确度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的语音增强设备结构示意图;
图2为本发明语音增强方法第一实施例的流程示意图;
图3为本发明语音增强方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的语音增强设备结构示意图。
本发明实施例语音增强设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该语音增强设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,语音增强设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在语音增强设备移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别语音增强设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,语音增强设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的语音增强设备结构并不构成对语音增强设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音增强程序。
在图1所示的语音增强设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音增强程序,并执行本发明实施例提供的语音增强方法。
本发明还提供一种语音增强方法,参照图2,图2为本发明语音增强方法第一实施例的流程示意图。
步骤S10,通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;
本发明提出的语音增强方法应用于智能终端设备,基于麦克风阵列和广义旁瓣消除器技术。其中,麦克风阵列由多个麦克风阵元组成,麦克风阵列用于采集真实环境下的声音信号即语音信号,广义旁瓣消除器为基于超指向性波束形成技术改进后的波束形成器,且广义旁瓣消除器包括上支路和下支路,广义旁瓣消除器的上支路用于通过并初步增强目标方向的语音信号,广义旁瓣消除器的下支路用于滤除目标方向的语音信号以及通过语音信号中的噪声信号。可以理解的是,对与麦克风阵列而言,由于各个麦克风阵元的分布位置不同,阵元接收的语音信号会存在一定的时间差,利用这一信息可以确定声源的方向和位置。
在本实施例中,在执行语音增强过程之前,采用M元麦克风阵列采集得到真实环境下的语音信号,其中,通过麦克风阵列采集到的语音信号即为时域观测信号x(n)=[x1(t),x2(t),...,xM(t)]。对上述时域观测信号执行分帧操作等预处理操作之后,再对预处理后的时域观测信号进行逐帧处理,逐帧处理完成后得到语音信号对应的帧数据;之后,再对帧数据采用短时离散傅里叶变换,得到频域观测信号Xi(e),其中i表示第i帧数据。后续为了简便,使用X(k)表示第k帧的频域数据。
步骤S20,将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;
在本实施例中,得到语音信号对应的频域观测信号后,将频域观测信号输入到广义旁瓣消除器的上支路,采用超指向波束形成器进行波束形成,基于目标方向输出初步增强后的语音信号,得到参考语音信号,目标方向即主瓣指向,主瓣对应的输出即初步增强后的参考语音信号。其中,语音信号对应的方向角度为麦克风阵列接收到语音信号时语音信号与麦克风阵列所在平面所形成的角度。广义旁瓣消除器为基于超指向性波束形成技术改进后的波束形成器,广义旁瓣消除器包括上支路的第一超指向性波束形成器和下支路的第二超指向性波束形成器,其中,第二超指向性波束形成器对应的约束矩阵与第一超指向性波束形成器对应的阻塞矩阵相互正交,第一超指向性波束形成器用于增强广义旁瓣消除器上支路所通过信号的语音信号,利用第一超指向波束形成器指向性强、主瓣窄的特性,能够有效增强目标方位的语音信号,对广义旁瓣消除器上支路所通过信号的语音信号的增强效果佳。
步骤S30,将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;
在本实施例中,得到语音信号对应的频域观测信号后,将频域观测信号输入到广义旁瓣消除器下支路的第二超指向性波束形成器,从而通过第二超指向性波束形成器实现广义旁瓣消除器下支路的阻塞矩阵的功能,即广义旁瓣消除器下支路的阻塞矩阵的功能采用第二超指向性波束形成器完成,在第二超指向性波束形成器中预设干扰噪声的方向,以基于预设的干扰噪声的方向进行计算噪声信号,以使第二超指向性波束形成器基于预设的干扰噪声的方向和频域观测信号输出噪声信号。可以理解的是,该广义旁瓣消除器下支路的输出能够成功阻塞掉语音信号,得到只包含有干扰噪声的信号部分。
步骤S40,基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。
在本实施例中,通过广义旁瓣消除器上支路输出的参考语音信号和下支路输出的噪声信号后,将上支路输出的参考语音信号和下支路输出的噪声信号输入到自适应噪声抑制器中,自适应噪声抑制器采用归一化最小均方误差准则(NLMS),基于参考语音信号和噪声信号对麦克风阵列采集语音信号进行自适应滤波,自适应滤波完成后得到频域的语音增强信号,可以理解的是,自适应噪声抑制器输出的语音增强信号为频域的语音增强信号,因此,后续再需对频域的语音增强信号进行傅里叶变换后才能够得到时域的语音增强信号。具体地,得到频域的语音增强信号后,对频域的语音增强信号进行逆短时离散傅里叶变换,得到时域增强信号并输出。
本实施例提出的语音增强方法,通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。本实施例通过结合广义旁瓣消除器结构和超指向性波束形成技术,利用超指向性波束形成技术的指向性强、主瓣窄的特性,在广义旁瓣消除器技术的基础上进行改进,从而通过对广义旁瓣消除器中的第一超指向性波束形成器能够有效增强目标方位的语音信号,增强效果佳,并且同时基于超指向性波束形成技术改进了广义旁瓣消除器下支路的阻塞矩阵部分,能够更有效滤除噪声干扰,因此更有效地提升所计算的参考语音信号和噪声信号的精确度,从而进一步地提升语音增强信号的精确度。
基于第一实施例,提出本发明语音增强方法的第二实施例,参照图3,在本实施例中,步骤S20包括:
步骤S21,将所述频域观测信号输入至广义旁瓣消除器的第一超指向性波束形成器,以基于所述语音信号对应的方向角度和所述麦克风阵列对应的阵元间距确定所述频域观测信号各频点的导向矢量;
步骤S22,基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵;
步骤S23,基于所述第一投影矩阵和所述频域观测信号确定所述第一超指向性波束形成器输出的参考语音信号。
在本实施例中,得到语音信号对应的频域观测信号后,将频域观测信号输入到广义旁瓣消除器的上支路,上支路的第一超指向性波束形成器基于语音信号对应的方向角度和麦克风阵列对应的阵元间距,进行计算频域观测信号各频点的导向矢量;得到频域观测信号各频点的导向矢量后,第一超指向性波束形成器基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;之后,再基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵;得到各频点的第一投影矩阵后,第一超指向性波束形成器基于第一投影矩阵和频域观测信号确定广义旁瓣消除器的上支路输出的参考语音信号。
具体地,假设方向角度为θ,阵元间距为d,设置参考阵元为第一个麦克风,对于第m个阵元数据的第n个频点,计算频域观测信号各频点的导向矢量,基于语音信号对应的方向角度和麦克风阵列对应的阵元间距,进行计算频域观测信号各频点的导向矢量的计算公式如下:
Figure BDA0002783425000000091
其中f为采样率,Nfft为快速傅里叶变换的长度,c为信号的速度,在此为声速。
之后,对于频域观测信号的各个频点逐频点进行计算,第n个频点的噪声互相关系数矩阵Q,基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵的计算公式如下:
Figure BDA0002783425000000092
Figure BDA0002783425000000093
其中i,j分别表示麦克风阵列的第i个阵元和第j个阵元。
之后再计算频点n的投影矩阵,即计算频域观测信号各频点的第一投影矩阵,基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵的计算公式如下:
Figure BDA0002783425000000101
其中,α表示第n个频点关于方向θ的导向矩阵。
最后,计算上支路的波束输出信号,即计算广义旁瓣消除器的上支路输出的参考语音信号,基于第一投影矩阵和频域观测信号确定广义旁瓣消除器的上支路输出的参考语音信号的计算公式如下:
Y(k,n)=W(θ,n)HX(k,n)
其中,Y(k,n)为频域观测信号第k帧的第n个频点对应的参考语音信号。
进一步地,上述流程以麦克风阵列为均匀线性阵列为示例计算公式。根据实际需求,也可以使用均匀圆阵等阵列完成语音信号的增强。
进一步地,所述基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵的步骤包括:
步骤S221,基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;
步骤S222,基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵。
在本实施例中,得到频域观测信号各频点的导向矢量后,广义旁瓣消除器的的第一超指向性波束形成器基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;之后,再基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵,以供基于第一投影矩阵和频域观测信号确定广义旁瓣消除器的上支路输出的参考语音信号。在本实施例中计算噪声互相关系数矩阵的示例计算公式以及基于各频点的噪声互相关系数矩阵计算频域观测信号各频点的第一投影矩阵对应的示例计算公式具体参考上一实施例。
进一步地,所述将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号的步骤包括:
步骤S31,将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以基于所述噪声方向矢量确定所述频域观测信号各频点的第二投影矩阵;
步骤S32,基于所述第二投影矩阵和所述频域观测信号确定所述第二超指向性波束形成器输出的噪声信号。
在本实施例中,得到语音信号对应的频域观测信号后,将频域观测信号输入到广义旁瓣消除器下支路的第二超指向性波束形成器,从而通过第二超指向性波束形成器实现广义旁瓣消除器下支路的阻塞矩阵的功能。具体地,首先基于通过预设干扰噪声的方向角度和麦克风阵列对应的阵元间距,进行计算频域观测信号各频点的噪声导向矢量;之后,基于频域观测信号各频点的噪声导向矢量,计算频域观测信号各频点的第二投影矩阵;最后,基于第二投影矩阵和频域观测信号计算并输出噪声信号,以使广义旁瓣消除器根据第二超指向性波束形成器阻塞掉参考语音号后得到的噪声信号。可以理解的是,该广义旁瓣消除器下支路的输出能够成功阻塞掉参考语音信号,得到只包含有干扰噪声的信号部分即噪声信号。
基于语音信号对应的方向角度和麦克风阵列对应的阵元间距,进行计算频域观测信号各频点的导向矢量;得到频域观测信号各频点的导向矢量后,第一超指向性波束形成器基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;之后,再基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵;得到各频点的第一投影矩阵后,第一超指向性波束形成器基于第一投影矩阵和频域观测信号确定广义旁瓣消除器的上支路输出的参考语音信号。
进一步地,所述基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号的步骤包括:
步骤S41,将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号;
步骤S42,将所述误差信号输入至所述自适应噪声抑制器,并采用归一化最小均方误差准则优化所述自适应噪声抑制器的参数,在优化完成所述自适应噪声抑制器后确定所述语音信号对应的语音增强信号。
在本实施例中,通过广义旁瓣消除器上支路输出的参考语音信号和下支路输出的噪声信号后,将上支路输出的参考语音信号和下支路输出的噪声信号输入到自适应噪声抑制器中,以使自适应噪声抑制器根据参考语音信号和噪声信号对语音信号对应的频域观测信号进行自适应噪声抑制,最大限度地抑制语音信号中的噪声信号,使得自适应噪声抑制器输出精度高的语音增强信号。将上支路输出的参考语音信号和下支路输出的噪声信号输入到自适应噪声抑制器中,首先通过自适应噪声抑制器基于参考语音信号和噪声信号计算误差信号,其中,误差信号为频域观测信号在噪声抑制后语音信号,但实际上误差信号属于精确度较低的语音信号,需要语音信号需经过多次抑制后才能得到精确度高的信号。得到误差信号后,将误差信号输入至自适应噪声抑制器,以供自适应噪声抑制器采用归一化最小均方误差准则对自适应噪声抑制器的参数进行优化,并且在优化自适应噪声抑制器完成后输出精确度高的语音增强信号。
进一步地,所述将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号的步骤包括:
步骤S411,将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述自适应噪声抑制器对应的权重矢量和所述参考语音信号,确定调整信号;
步骤S412,基于所述调整信号对所述语音信号对应的所述频域观测信号进行调整,确定调整所述频域观测信号后对应的误差信号。
在本实施例中,通过广义旁瓣消除器上支路输出的参考语音信号和下支路输出的噪声信号后,将上支路输出的参考语音信号和下支路输出的噪声信号输入到自适应噪声抑制器中,以使自适应噪声抑制器根据参考语音信号和噪声信号对语音信号对应的频域观测信号进行自适应噪声抑制,最大限度地抑制语音信号中的噪声信号,使得自适应噪声抑制器输出精度高的语音增强信号。具体地,首先基于自适应噪声抑制器对应的权重矢量和参考语音信号进行计算调整信号,自适应噪声抑制器输出调整信号;得到调整信号之后,基于调整信号对频域观测信号进行调整,得到调整频域观测信号后的误差信号。其中,基于调整信号对频域观测信号进行调整的方式可以是使频域观测信号减去调整信号,得到语音信号对应的误差信号。
进一步地,步骤S10包括:
步骤S11,通过麦克风阵列采集语音信号,并对所述语音信号执行分帧操作,得到所述语音信号对应的帧数据;
步骤S12,对所述语音信号对应的帧数据进行短时离散傅里叶变换,得到所述语音信号对应的频域观测信号。
在本实施例中,在执行语音增强过程之前,采用M元麦克风阵列采集得到真实环境下的语音信号,其中,通过麦克风阵列采集到的语音信号即为时域观测信号,其中,语音信号可以表示为x(n)=[x1(t),x2(t),...,xM(t)]。对上述时域观测信号执行分帧操作等预处理操作,再对预处理后的时域观测信号进行逐帧处理,逐帧处理完成后得到语音信号对应的帧数据;之后,再对帧数据采用短时离散傅里叶变换,得到频域观测信号其中,频域观测信号可以表示为Xi(e),i表示第i帧数据。后续为了简便,使用X(k)表示第k帧的频域数据。
本实施例提出的语音增强方法,通过将所述频域观测信号输入至广义旁瓣消除器的第一超指向性波束形成器,以基于所述语音信号对应的方向角度和所述麦克风阵列对应的阵元间距确定所述频域观测信号各频点的导向矢量;基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵;基于所述第一投影矩阵和所述频域观测信号确定所述第一超指向性波束形成器输出的参考语音信号。本实施例通过结合广义旁瓣消除器结构和超指向性波束形成技术,利用超指向性波束形成技术的指向性强、主瓣窄的特性,在广义旁瓣消除器的上支路应用超指向性波束形成技术,从而通过对广义旁瓣消除器中的第一超指向性波束形成器能够有效增强目标方位的语音信号,使参考语音信号的增强效果佳。
此外,本发明实施例还提出一种语音增强装置,所述语音增强装置包括:
采集模块,用于通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;
第一确定模块,用于将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;
第二确定模块,用于将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;
第三确定模块,用于基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。
进一步地,所述第一确定模块,还用于:
将所述频域观测信号输入至广义旁瓣消除器的第一超指向性波束形成器,以基于所述语音信号对应的方向角度和所述麦克风阵列对应的阵元间距确定所述频域观测信号各频点的导向矢量;
基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵;
基于所述第一投影矩阵和所述频域观测信号确定所述第一超指向性波束形成器输出的参考语音信号。
进一步地,所述第一确定模块,还用于:
基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;
基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵。
进一步地,所述第二确定模块,还用于:
将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以基于所述噪声方向矢量确定所述频域观测信号各频点的第二投影矩阵;
基于所述第二投影矩阵和所述频域观测信号确定所述第二超指向性波束形成器输出的噪声信号。
进一步地,所述第三确定模块,还用于:
将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号;
将所述误差信号输入至所述自适应噪声抑制器,并采用归一化最小均方误差准则优化所述自适应噪声抑制器的参数,在优化完成所述自适应噪声抑制器后确定所述语音信号对应的语音增强信号。
进一步地,所述第三确定模块,还用于:
将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述自适应噪声抑制器对应的权重矢量和所述参考语音信号,确定调整信号;
基于所述调整信号对所述语音信号对应的所述频域观测信号进行调整,确定调整所述频域观测信号后对应的误差信号。
进一步地,所述采集模块,还用于:
通过麦克风阵列采集语音信号,并对所述语音信号执行分帧操作,得到所述语音信号对应的帧数据;
对所述语音信号对应的帧数据进行短时离散傅里叶变换,得到所述语音信号对应的频域观测信号。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音增强程序,所述语音增强程序被处理器执行时实现如上述中任一项所述的语音增强方法的步骤。
本发明计算机可读存储介质具体实施例与上述语音增强方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音增强方法,其特征在于,所述语音增强方法包括以下步骤:
通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;
将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;
将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;
基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。
2.如权利要求1所述的语音增强方法,其特征在于,所述将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号的步骤包括:
将所述频域观测信号输入至广义旁瓣消除器的第一超指向性波束形成器,以基于所述语音信号对应的方向角度和所述麦克风阵列对应的阵元间距确定所述频域观测信号各频点的导向矢量;
基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵;
基于所述第一投影矩阵和所述频域观测信号确定所述第一超指向性波束形成器输出的参考语音信号。
3.如权利要求2所述的语音增强方法,其特征在于,所述基于所述频域观测信号各频点的导向矢量,确定所述频域观测信号各频点的第一投影矩阵的步骤包括:
基于频域观测信号各频点的导向矢量,进行计算频域观测信号各频点的噪声互相关系数矩阵;
基于各频点的噪声互相关系数矩阵,进行计算频域观测信号各频点的第一投影矩阵。
4.如权利要求1所述的语音增强方法,其特征在于,所述将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号的步骤包括:
将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以基于所述噪声方向矢量确定所述频域观测信号各频点的第二投影矩阵;
基于所述第二投影矩阵和所述频域观测信号确定所述第二超指向性波束形成器输出的噪声信号。
5.如权利要求1所述的语音增强方法,其特征在于,所述基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号的步骤包括:
将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号;
将所述误差信号输入至所述自适应噪声抑制器,并采用归一化最小均方误差准则优化所述自适应噪声抑制器的参数,在优化完成所述自适应噪声抑制器后确定所述语音信号对应的语音增强信号。
6.如权利要求5所述的语音增强方法,其特征在于,所述将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述参考语音信号和所述噪声信号对所述语音信号对应的所述频域观测信号进行自适应噪声抑制,得到所述频域观测信号对应的误差信号的步骤包括:
将所述参考语音信号和所述噪声信号输入至自适应噪声抑制器中,以基于所述自适应噪声抑制器对应的权重矢量和所述参考语音信号,确定调整信号;
基于所述调整信号对所述语音信号对应的所述频域观测信号进行调整,确定调整所述频域观测信号后对应的误差信号。
7.如权利要求1至6任一项所述的语音增强方法,其特征在于,所述通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号的步骤包括:
通过麦克风阵列采集语音信号,并对所述语音信号执行分帧操作,得到所述语音信号对应的帧数据;
对所述语音信号对应的帧数据进行短时离散傅里叶变换,得到所述语音信号对应的频域观测信号。
8.一种语音增强装置,其特征在于,所述语音增强装置包括:
采集模块,用于通过麦克风阵列采集语音信号,并将所述语音信号转换成频域观测信号,其中,所述语音信号为时域观测信号;
第一确定模块,用于将所述频域观测信号输入至广义旁瓣消除器中的第一超指向性波束形成器,以确定所述第一超指向性波束形成器输出的参考语音信号;
第二确定模块,用于将所述频域观测信号输入至广义旁瓣消除器的第二超指向性波束形成器,以确定所述语音信号对应的噪声信号,其中,所述第二超指向性波束形成器对应的约束矩阵与所述第一超指向性波束形成器对应的阻塞矩阵相互正交;
第三确定模块,用于基于所述参考语音信号和所述噪声信号确定所述语音信号对应的语音增强信号。
9.一种语音增强设备,其特征在于,所述语音增强设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音增强程序,所述语音增强程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音增强程序,所述语音增强程序被处理器执行时实现如权利要求1至7中任一项所述的语音增强方法的步骤。
CN202011297820.3A 2020-11-17 2020-11-17 语音增强方法、装置、设备及计算机可读存储介质 Pending CN112489674A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011297820.3A CN112489674A (zh) 2020-11-17 2020-11-17 语音增强方法、装置、设备及计算机可读存储介质
PCT/CN2021/127260 WO2022105571A1 (zh) 2020-11-17 2021-10-29 语音增强方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011297820.3A CN112489674A (zh) 2020-11-17 2020-11-17 语音增强方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112489674A true CN112489674A (zh) 2021-03-12

Family

ID=74931606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011297820.3A Pending CN112489674A (zh) 2020-11-17 2020-11-17 语音增强方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112489674A (zh)
WO (1) WO2022105571A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889133A (zh) * 2021-09-09 2022-01-04 中国电子科技集团公司第三研究所 一种基于矢量语音传感器阵列的语音增强方法及装置
CN114023307A (zh) * 2022-01-05 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声音信号处理方法、语音识别方法、电子设备和存储介质
WO2022105571A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 语音增强方法、装置、设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6724905B2 (ja) * 2015-04-16 2020-07-15 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
CN105792074B (zh) * 2016-02-26 2019-02-05 西北工业大学 一种语音信号处理方法和装置
US10418048B1 (en) * 2018-04-30 2019-09-17 Cirrus Logic, Inc. Noise reference estimation for noise reduction
CN109389991A (zh) * 2018-10-24 2019-02-26 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的信号增强方法
CN111341340A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于相干性和能量比的鲁棒gsc方法
CN112489674A (zh) * 2020-11-17 2021-03-12 深圳壹账通智能科技有限公司 语音增强方法、装置、设备及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105571A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 语音增强方法、装置、设备及计算机可读存储介质
CN113889133A (zh) * 2021-09-09 2022-01-04 中国电子科技集团公司第三研究所 一种基于矢量语音传感器阵列的语音增强方法及装置
CN114023307A (zh) * 2022-01-05 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声音信号处理方法、语音识别方法、电子设备和存储介质

Also Published As

Publication number Publication date
WO2022105571A1 (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN110491403B (zh) 音频信号的处理方法、装置、介质和音频交互设备
CN112489674A (zh) 语音增强方法、装置、设备及计算机可读存储介质
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
CN106663446B (zh) 知晓用户环境的声学降噪
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
CN110970049A (zh) 多人声识别方法、装置、设备及可读存储介质
CN110379439B (zh) 一种音频处理的方法以及相关装置
CN111370014A (zh) 多流目标-语音检测和信道融合
CN106663445A (zh) 声音处理装置、声音处理方法及程序
EP2630807A1 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN111627456B (zh) 噪音排除方法、装置、设备及可读存储介质
CN112513983A (zh) 可穿戴系统语音处理
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
CN112233689B (zh) 音频降噪方法、装置、设备及介质
CN112735461B (zh) 拾音方法以及相关装置、设备
CN114120984A (zh) 语音交互方法、电子设备和存储介质
CN111863020A (zh) 语音信号处理方法、装置、设备及存储介质
CN110517702B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN110310651A (zh) 波束形成的自适应语音处理方法、移动终端及存储介质
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN112233688B (zh) 音频降噪方法、装置、设备及介质
CN113506582A (zh) 声音信号识别方法、装置及系统
CN110517703B (zh) 一种声音采集方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination