CN111866665B - 麦克风阵列波束形成方法及装置 - Google Patents

麦克风阵列波束形成方法及装置 Download PDF

Info

Publication number
CN111866665B
CN111866665B CN202010712348.9A CN202010712348A CN111866665B CN 111866665 B CN111866665 B CN 111866665B CN 202010712348 A CN202010712348 A CN 202010712348A CN 111866665 B CN111866665 B CN 111866665B
Authority
CN
China
Prior art keywords
voice
signal
fixed
beam forming
selected direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010712348.9A
Other languages
English (en)
Other versions
CN111866665A (zh
Inventor
马路
赵培
苏腾荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haier Uplus Intelligent Technology Beijing Co Ltd
Original Assignee
Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haier Uplus Intelligent Technology Beijing Co Ltd filed Critical Haier Uplus Intelligent Technology Beijing Co Ltd
Priority to CN202010712348.9A priority Critical patent/CN111866665B/zh
Publication of CN111866665A publication Critical patent/CN111866665A/zh
Application granted granted Critical
Publication of CN111866665B publication Critical patent/CN111866665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明提供了一种麦克风阵列波束形成方法及装置,该方法包括:采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;基于所有方向的所述语音信号的语音质量评估结果进行所述麦克风阵列的声源方向判定;将所述声源方向的语音信号进行波束形成后输出。通过本发明,更好地实现麦克风阵列的声源方向的估计。

Description

麦克风阵列波束形成方法及装置
技术领域
本发明涉及语音信号处理领域,具体而言,涉及一种麦克风阵列波束形成方法及装置。
背景技术
语音信号处理技术是当今人机交互领域的一项关键技术,而麦克风阵列波束形成可以利用空间域信息,可以更好地增强语音信号,对后端的语音识别具有极其重要的作用,是语音信号处理的关键技术。
常规麦克风阵列波束形成方法是先进行声源方向估计,根据估计得到的声源方向对输入多通道信号进行相位补偿等操作,进而采用诸如最小无失真响应(MVDR)等方法进行波束形成,进一步抑制旁瓣干扰。然而,实际语音环境非常复杂,存在大量的干扰音频和噪音,从而导致声源定位的精度差,进而影响波束形成结果。
发明内容
本发明实施例提供了一种麦克风阵列波束形成方法及装置,以至少解决相关技术中因大量的干扰音频和噪音所导致的波束形成过程中声源定位的精度差的问题。
根据本发明的一个实施例,提供了一种麦克风阵列波束形成方法,该方法包括:采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;将所述声源方向的语音信号进行波束形成后输出。
可选地,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强包括:通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
可选地,在采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强之前,还包括:将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
可选地,通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成包括:基于最大信噪比准则和/或最小方差无失真响应准则对所述目标信号和所述干扰信号进行所述固定方向波束形成。
可选地,利用神经网络对波束形成后的所述选定方向的语音质量进行评估之前,还包括:将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
可选地,基于所述选定方向和所述多个固定方向的所述语音质量评估结果进行所述麦克风阵列的声源方向判定,包括:基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较,选择所述平坦度值最小的方向作为所述声源方向。
根据本发明的另一个实施例,提供了一种麦克风阵列波束形成装置,该装置包括:波束形成模块,用于采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;第一评估模块,用于利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;第二评估模块,用于将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;判定模块,用于基于选定方向和所述多个固定方向的所述语音信号的语音质量评估结果进行所述麦克风阵列的声源方向判定;输出模块,用于将所述声源方向的语音信号进行波束形成后输出。
可选地,波束形成模块包括:第一补偿单元,用于通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;第二补偿单元,用于通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;波束形成单元,用于通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
可选地,所述装置还包括:时频变换模块,用于将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
可选地,所述装置还包括:训练模块,用于将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
可选地,所述判定模块还包括:计算单元,用于基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;比较单元,用于将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较;选择单元,用于选择所述平坦度值最小的方向作为所述声源方向。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明的上述实施例,由于利用神经网络判断目标方向的语音质量,因此可以解决因大量的干扰音频和噪音所导致的波束形成过程中声源定位的精度差的问题,达到更好地实现声源方向的估计、进一步提高波束形成性能的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的麦克风阵列波束形成方法的流程图;
图2是根据本发明可选实施例的麦克风阵列波束形成方法的流程图;
图3是根据本发明实施例的麦克风阵列波束形成装置的结构框图;
图4是根据本发明可选实施例的麦克风阵列波束形成装置的结构框图;
图5是根据本发明实施例的常规麦克风阵列波束形成方法的流程图;
图6是根据本发明实施例的基于神经网络的麦克风阵列波束形成方法的流程图;
图7是根据本发明实施例的导引方向扫描的示意图;
图8是根据本发明实施例的基于循环神经网络的语音质量计算方法的流程图;
图9是根据本发明实施例的方向判定准则的示意图;
图10是根据本发明实施例的多波束计算信号和干扰方法的示例图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述选定的顺序或先后次序。
实施例1
在本实施例中提供了一种麦克风阵列波束形成方法,图1是根据本发明实施例的麦克风阵列波束形成方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
步骤S102,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
步骤S103,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
步骤S104,基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
步骤S105,将所述声源方向的语音信号进行波束形成后输出。
在本实施例中,步骤S101可以包括:通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
在本实施例的步骤S101之前,还可以包括:将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将短时平稳信号通过短时傅里叶变换到频域。
在本实施例的步骤S102之前,还可以包括:将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
在本实施例中,步骤S104可以包括:基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较,选择所述平坦度值最小的方向作为所述声源方向。
通过上述步骤,利用神经网络判断目标方向的语音质量,解决了因大量的干扰音频和噪音所导致的波束形成过程中声源定位的精度差的问题,达到更好地实现声源方向的估计、进一步提高波束形成性能的效果。
同时,利用连续多帧得到的语音概率的平坦度特征判断所有方向的语音质量,可以得到更优的声源方向,因而可以获得更优的波束形成性能。
图2是根据本发明可选实施例的麦克风阵列波束形成方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;
步骤S202,通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;
步骤S203,通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强;
步骤S204,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
步骤S205,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
步骤S206,基于所有方向的所述语音质量评估结果进行所述麦克风阵列的声源方向判定;
步骤S207,将所述声源方向的语音信号进行波束形成后输出。
在本实施例中,步骤S203可以包括:基于最大信噪比准则和/或最小方差无失真响应准则等波束形成算法对所述目标信号和所述干扰信号进行所述固定方向波束形成。
通过上述步骤,利用固定波束形成和神经网络相结合的方式进行波束形成,具有算法结构简单,易于实现的特点。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种麦克风阵列波束形成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的麦克风阵列波束形成装置的结构框图,如图3所示,该装置包括波束形成模块10、第一评估模块20、第二评估模块30、判定模块40、输出模块50。
波束形成模块10,用于采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强。
第一评估模块20,用于利用神经网络对波束形成后的所述选定方向的语音信号进行语音质量进行评估。
第二评估模块30,用于将所述选定方向的波束依次旋转预定角度形成多个固定方向波束,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估。
判定模块40,用于基于所有方向的语音信号的所述语音质量的评估结果进行所述麦克风阵列的声源方向判定。
输出模块50,用于将所述声源方向的语音信号的波束形成后输出。
图4是根据本发明可选实施例的麦克风阵列波束形成装置的结构框图,如图4所示,该装置除包括图3所示的所有模块外,还包括时频变换模块60、训练模块70。所述波束形成模块10还包括第一补偿单元12、第二补偿单元14与波束形成单元16。所述判定模块40还包括计算单元、比较单元42、选择单元43。
时频变换模块60,用于将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将短时平稳信号通过短时傅里叶变换到频域。
训练模块70,用于将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
第一补偿单元12,用于通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号。
第二补偿单元14,用于通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号。
波束形成单元16,用于通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成。
计算单元41,用于基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;
比较单元42,用于将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较;
选择单元43,用于选择所述平坦度值最小的方向作为所述声源方向。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细描述。
语音信号处理技术是当今人机交互领域的一项关键技术,而麦克风阵列波束形成可以利用空间域信息,可以更好地增强语音信号,对后端的语音识别具有极其重要的作用,是语音信号处理的关键技术。
目前的常规麦克风阵列波束形成方法如图5所示,图5是根据本发明实施例的常规麦克风阵列波束形成方法的流程图,如图5所示,该流程包括如下步骤:
步骤S501,声源方向估计,得到目标声源的方向;
步骤S502,形成导引矢量,利用导引矢量进行波束形成;
步骤S503,输出结果。
在本实施例中,步骤S503可以包括:基于导引矢量,利用诸如最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)等算法进行波束形成。
具体而言,常规麦克风阵列波束形成方法是先进行声源方向估计,根据估计得到的声源方向对输入多通道信号进行相位补偿等操作,进而采用诸如MVDR等方法进行波束形成,进一步抑制旁瓣干扰。然而,实际语音环境非常复杂,存在大量的干扰音频和噪音,从而导致声源定位的精度差,进而影响波束形成结果。
而本发明实施例提出的首先采用固定波束形成对选定方向声音进行增强,接着神经网络对波束形成后的语音质量进行评估,综合多个方向的语音质量进行最终声源方向的判定,进而得到最终波束形成结果。这样可以利用神经网络的建模能力,更好地对时序的语音信号进行建模,特别是噪声和干扰环境下具有很好的性能。同时,利用连续多帧语音质量的评估结果,采用平坦度特征计算连续多帧语音的概率,从而更好地实现声源方向的估计,进而进一步提高波束形成的性能。并且,本发明实施例采用提前训练好的神经网络作为语音质量的判据,而非简单的信噪比,更有适用于语音识别。
图6是根据本发明实施例的基于神经网络的麦克风阵列波束形成方法的流程图,其中,F表示固定波束形成矩阵或方向矩阵,即:对目标方向的来波信号进行时延补偿(频域即为相位补偿);B表示波束阻塞矩阵或干扰矩阵,即:阻止选定方向的信号通过,让其他方向的信号通过;W表示波束形成矩阵,即:根据固定波束形成得到的目标信号以及阻塞矩阵得到的干扰信号进行波束形成(如最大信噪比准则或MVDR准则)。
由于语音是宽带信号,因此需要将分帧加窗变换到频域后对每个频带进行处理,最后再变换到时域。如图6所示,该流程包括如下步骤:
步骤S601,时频变换。将连续输入的语音信号通过分帧和加窗变换为短时平稳信号,并通过短时傅里叶变换到频域,针对频域不同子带进行处理。
步骤S602,固定方向波束形成。根据假定的目标方向计算得到相位补偿矩阵F,对多个通道的不同子带的相位进行补偿,由相位补偿后的信号可以计算得到目标信号矢量的自相关矩阵为:
Figure BDA0002597032430000101
由阻塞矩阵B可以得到多个通道每个子带的干扰矢量的协方差矩阵:
Figure BDA0002597032430000102
最后通过最大信噪比准则或MVDR准则计算得到波束形成矢量:
Rswk,opt=λmaxRvwk,opt (3)
其中,λmax为自相关矩阵Rx对(Rs,Rv)的最大广义特征值,wk,opt为最优加权矢量。
步骤S603,来波方向判定。图7是根据本发明实施例的导引方向扫描的示意图,如图7所示,固定方向波束形成计算得到的是一个提前假定的方向(此处记为0°方向),即图7中#1处的方向。由于语音信号可能来自各个方向,假定共需计算N个方向,所以应该将波束依次旋转一定角度,之后再利用判定准则从多个备选方向中选择语音质量最好的方向作为最终波束形成的输出结果。若麦克风间距很小,且声音信号频率很低,所以实际麦克风阵列波束很宽,因此旋转的角度间隔不需要很精细,此处以30°间隔为例(此时N=5),如图7所示。每次旋转麦克风阵列,使得波束按照图7所示,依次指向0°、-30°、+30°、-60°、+60°五个方向。这里旋转麦克风阵列是通过相位补偿得到,即:针对每次需要旋转的角度,计算该旋转角度所对应的频域不同频点的相位补偿值,进而得到方向导引矢量,计算公式如下:
Figure BDA0002597032430000111
式中,v为方向导引矢量;f表示语音信号的频率;d表示麦克风间距,θ表示所要旋转的角度值;c表示声音速度。
步骤S604,语音质量评估。不同导引方向计算得到的语音质量不同,只有与实际语音来波方向最接近的导引方向波束形成之后得到的语音质量才是最好的。语音质量评估模块可以采用神经网络的方法提前训练好,采用叠加不同干扰和噪声的语音数据提前训练一个神经网络,神经网络的输出是一个概率,表示语音的概率。本发明实施例给出一种基于循环神经网络的语音质量评估模型如图8所示。
步骤S605,方向判定准则,其原理如图9所示。
步骤S606,输出控制。根据方向判定模块的结果,选择特定导引方向计算得到的波束形成结果输出。
在本发明实施例中,步骤S604给出一种基于循环神经网络的语音质量评估模型。图8是根据本发明实施例的基于循环神经网络的语音质量计算方法的流程图,如图8所示,该流程包括如下步骤:
步骤S801,输入端输入语音,其中,所述输入端由一个全连接层接收输入信号特征;
步骤S802,将从所述输入端输入的所述语音送入循环神经网络(RNN)模型完成对输入语音质量的判断,其中,所述循环神经网络可以采用GRU(Gated Recurrent Unit)网络;
步骤S803,经由一个全连接层完成语音质量的概率计算,其中,所述算法类似语音端点检测,所述概率得出的概率值可以和设定的阈值进行比较,大于阈值表示存在音频,小于阈值表示不存在。
在本发明实施例中,步骤S605给出一种方向判定准则。图9是根据本发明实施例的方向判定准则的示意图,如图9所示,该方向判定准则步骤具体如下:
步骤S901,对于多个备选导引方向,每次通过语音质量评估模块计算得到每个方向的语音概率p,即:每一帧(假定为第k帧)计算得到第n个方向的语音概率值为
Figure BDA0002597032430000121
步骤S902,对于每一个备选方向,将当前帧k计算得到的语音概率
Figure BDA0002597032430000122
送入堆栈,与前面K-1帧(假定N=5,则这里选择即:k-1、k-2、k-3、k-4共5个时刻)的语音概率计算结果一起,计算每一个备选方向累计5帧语音的平坦度值,计算公式为:
Figure BDA0002597032430000123
其中,语音的频谱往往会在基频和谐波中出现峰值,而噪声频谱则相对平坦,所以上述计算得到的Flatness值越小,语音的概率越大。
步骤S903,将多个备选方向的语音概率的平坦度值进行比较,选择Flatness值最小的方向为估计的语音方向。
为了便于对本发明实施例所提供的技术方案的理解,下面将举例说明:
对于图6所示的麦克风阵列波束形成方案,一种计算方向矩阵F和阻塞矩阵B的方法是采用空间多波束。图10是根据本发明实施例的多波束计算信号和干扰方法的示例图,如图10所示,规定麦克风阵列的法线方向为0°方向,顺时针为正,逆时针为负。当假定来波方向为0°方向(#1对应的方向),则方向矩阵F=[1,1],对#1所对应波束的方向做相位补偿得到的结果为期望信号;根据#2、#3、#4和#5方向得到对应的干扰矩阵(阻塞矩阵)B,将采用干扰矩阵进行相位补偿后的信号相加平均后作为干扰信号,之后采用(1)~(3)计算得到波束形成矢量W;同理,假定来波方向为-30°方向(#2对应的方向),则根据公式(4)计算#2方向的相位补偿矩阵F,并且对相位补偿后的信号按公式(1)计算互相关矩阵;根据公式(4)计算#1、#3、#4和#5方向的干扰信号相位补偿矩阵B,并且对相位补偿后的干扰信号按公式(2)计算干扰协方差矩阵;最后根据公式(3)得到最大信噪比准则下的波束形成矢量W。
综上所述,本发明提出的一种基于固定方向波束形成和神经网络相结合的麦克风阵列波束形成方法,利用神经网络判断目标方向的语音质量,而非简单的计算信噪比,这样可以利用神经网络的建模能力,从而更好地对时序的语音信号进行建模,特别是噪声和干扰环境下具有很好的性能;同时利用连续多帧语音质量的评估结果,采用平坦度特征计算连续多帧语音的概率,从而更好地实现声源方向的估计,进而进一步提高波束形成的性能。
其中,基于神经网络的语音质量评估方法可以获得更优的波束形成性能。具体而言,由于本发明采用神经网络判断固定方向波束形成后语音的频谱质量,利用了神经网络更好的语音建模能力而非简单的信噪比特征;同时利用频谱的平坦度特征判断连续多帧语音的质量,可以得到更优的导引方向,因而可以获得更优的形成性能。
另外,基于固定波束形成和神经网络相结合的波束形成方法可以实现算法结构的简单明了。具体而言,由于本发明融合了定位和波束形成,算法结构简单,易于实现。
实施例4
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
S2,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
S3,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
S4,基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
S5,将所述声源方向的语音信号进行波束形成后输出。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例5
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
S2,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
S3,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
S4,基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
S5,将所述声源方向的语音信号进行波束形成后输出。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种麦克风阵列波束形成方法,其特征在于,包括:
采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
将所述声源方向的语音信号进行波束形成后输出;
其中,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强包括:
通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;
通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;
通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
2.根据权利要求1所述的方法,其特征在于,在采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强之前,还包括:
将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
3.根据权利要求1所述的方法,其特征在于,通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成包括:
基于最大信噪比准则和/或最小方差无失真响应准则对所述目标信号和所述干扰信号进行所述固定方向波束形成。
4.根据权利要求1所述的方法,其特征在于,利用神经网络对波束形成后的所述选定方向的语音质量进行评估之前,还包括:
将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
5.根据权利要求4所述的方法,其特征在于,基于所述选定方向和所述多个固定方向的所述语音质量评估结果进行所述麦克风阵列的声源方向判定,包括:
基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;
将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较,选择所述平坦度值最小的方向作为所述声源方向。
6.一种麦克风阵列波束形成装置,其特征在于,包括:
波束形成模块,用于采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
第一评估模块,用于利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
第二评估模块,用于将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
判定模块,用于基于选定方向和所述多个固定方向的所述语音信号的语音质量评估结果进行所述麦克风阵列的声源方向判定;
输出模块,用于将所述声源方向的语音信号进行波束形成后输出;
其中,波束形成模块包括:
第一补偿单元,用于通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;
第二补偿单元,用于通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;
波束形成单元,用于通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
7.根据权利要求6所述的装置,其特征在于,还包括:
时频变换模块,用于将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
8.根据权利要求6所述的装置,其特征在于,还包括:
训练模块,用于将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
9.根据权利要求6所述的装置,其特征在于,所述判定模块包括:
计算单元,用于基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;
比较单元,用于将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较;
选择单元,用于选择所述平坦度值最小的方向作为所述声源方向。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
CN202010712348.9A 2020-07-22 2020-07-22 麦克风阵列波束形成方法及装置 Active CN111866665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010712348.9A CN111866665B (zh) 2020-07-22 2020-07-22 麦克风阵列波束形成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010712348.9A CN111866665B (zh) 2020-07-22 2020-07-22 麦克风阵列波束形成方法及装置

Publications (2)

Publication Number Publication Date
CN111866665A CN111866665A (zh) 2020-10-30
CN111866665B true CN111866665B (zh) 2022-01-28

Family

ID=72949269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010712348.9A Active CN111866665B (zh) 2020-07-22 2020-07-22 麦克风阵列波束形成方法及装置

Country Status (1)

Country Link
CN (1) CN111866665B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786069B (zh) * 2020-12-24 2023-03-21 北京有竹居网络技术有限公司 语音提取方法、装置和电子设备
CN112911465B (zh) * 2021-02-01 2022-09-02 杭州海康威视数字技术股份有限公司 信号发送方法、装置及电子设备
CN115497500B (zh) * 2022-11-14 2023-03-24 北京探境科技有限公司 音频处理方法、装置、存储介质及智能眼镜
CN116504245B (zh) * 2023-06-26 2023-09-22 凯泰铭科技(北京)有限公司 一种语音编写规则的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664023A (zh) * 2012-04-26 2012-09-12 南京邮电大学 一种麦克风阵列语音增强的优化方法
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法
CN109389991A (zh) * 2018-10-24 2019-02-26 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的信号增强方法
CN110534127A (zh) * 2019-09-24 2019-12-03 华南理工大学 应用于室内环境中的麦克风阵列语音增强方法及装置
WO2019239043A1 (fr) * 2018-06-13 2019-12-19 Orange Localisation de sources sonores dans un environnement acoustique donné

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8098842B2 (en) * 2007-03-29 2012-01-17 Microsoft Corp. Enhanced beamforming for arrays of directional microphones
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN110517701B (zh) * 2019-07-25 2021-09-21 华南理工大学 一种麦克风阵列语音增强方法及实现装置
CN110931036B (zh) * 2019-12-07 2022-03-22 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664023A (zh) * 2012-04-26 2012-09-12 南京邮电大学 一种麦克风阵列语音增强的优化方法
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法
WO2019239043A1 (fr) * 2018-06-13 2019-12-19 Orange Localisation de sources sonores dans un environnement acoustique donné
CN109389991A (zh) * 2018-10-24 2019-02-26 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的信号增强方法
CN110534127A (zh) * 2019-09-24 2019-12-03 华南理工大学 应用于室内环境中的麦克风阵列语音增强方法及装置

Also Published As

Publication number Publication date
CN111866665A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111866665B (zh) 麦克风阵列波束形成方法及装置
US10123113B2 (en) Selective audio source enhancement
Erdogan et al. Improved mvdr beamforming using single-channel mask prediction networks.
EP3511937B1 (en) Device and method for sound source separation, and program
US8363850B2 (en) Audio signal processing method and apparatus for the same
US9054764B2 (en) Sensor array beamformer post-processor
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
JP4096104B2 (ja) 雑音低減システム及び雑音低減方法
JP2019508730A (ja) マルチチャネル音声認識のための適応的オーディオ強化
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
US20140078867A1 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
CN112799017B (zh) 声源定位方法、装置、存储介质及电子设备
Schmalenstroeer et al. Multi-stage coherence drift based sampling rate synchronization for acoustic beamforming
Sainath et al. Raw multichannel processing using deep neural networks
Kim Hearing aid speech enhancement using phase difference-controlled dual-microphone generalized sidelobe canceller
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
KR101418023B1 (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
Čmejla et al. Independent vector analysis exploiting pre-learned banks of relative transfer functions for assumed target’s positions
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム
EP4171064A1 (en) Spatial dependent feature extraction in neural network based audio processing
Liu et al. A new neural beamformer for multi-channel speech separation
Bu et al. Steering vector correction in MVDR beamformer for speech enhancement.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant