CN111866665A - 麦克风阵列波束形成方法及装置 - Google Patents
麦克风阵列波束形成方法及装置 Download PDFInfo
- Publication number
- CN111866665A CN111866665A CN202010712348.9A CN202010712348A CN111866665A CN 111866665 A CN111866665 A CN 111866665A CN 202010712348 A CN202010712348 A CN 202010712348A CN 111866665 A CN111866665 A CN 111866665A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- fixed
- selected direction
- beam forming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 52
- 230000002708 enhancing effect Effects 0.000 claims abstract description 13
- 238000013441 quality evaluation Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 44
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000000903 blocking effect Effects 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 238000001303 quality assessment method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明提供了一种麦克风阵列波束形成方法及装置,该方法包括:采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;基于所有方向的所述语音信号的语音质量评估结果进行所述麦克风阵列的声源方向判定;将所述声源方向的语音信号进行波束形成后输出。通过本发明,更好地实现麦克风阵列的声源方向的估计。
Description
技术领域
本发明涉及语音信号处理领域,具体而言,涉及一种麦克风阵列波束形成方法及装置。
背景技术
语音信号处理技术是当今人机交互领域的一项关键技术,而麦克风阵列波束形成可以利用空间域信息,可以更好地增强语音信号,对后端的语音识别具有极其重要的作用,是语音信号处理的关键技术。
常规麦克风阵列波束形成方法是先进行声源方向估计,根据估计得到的声源方向对输入多通道信号进行相位补偿等操作,进而采用诸如最小无失真响应(MVDR)等方法进行波束形成,进一步抑制旁瓣干扰。然而,实际语音环境非常复杂,存在大量的干扰音频和噪音,从而导致声源定位的精度差,进而影响波束形成结果。
发明内容
本发明实施例提供了一种麦克风阵列波束形成方法及装置,以至少解决相关技术中因大量的干扰音频和噪音所导致的波束形成过程中声源定位的精度差的问题。
根据本发明的一个实施例,提供了一种麦克风阵列波束形成方法,该方法包括:采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;将所述声源方向的语音信号进行波束形成后输出。
可选地,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强包括:通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
可选地,在采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强之前,还包括:将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
可选地,通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成包括:基于最大信噪比准则和/或最小方差无失真响应准则对所述目标信号和所述干扰信号进行所述固定方向波束形成。
可选地,利用神经网络对波束形成后的所述选定方向的语音质量进行评估之前,还包括:将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
可选地,基于所述选定方向和所述多个固定方向的所述语音质量评估结果进行所述麦克风阵列的声源方向判定,包括:基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较,选择所述平坦度值最小的方向作为所述声源方向。
根据本发明的另一个实施例,提供了一种麦克风阵列波束形成装置,该装置包括:波束形成模块,用于采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;第一评估模块,用于利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;第二评估模块,用于将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;判定模块,用于基于选定方向和所述多个固定方向的所述语音信号的语音质量评估结果进行所述麦克风阵列的声源方向判定;输出模块,用于将所述声源方向的语音信号进行波束形成后输出。
可选地,波束形成模块包括:第一补偿单元,用于通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;第二补偿单元,用于通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;波束形成单元,用于通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
可选地,所述装置还包括:时频变换模块,用于将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
可选地,所述装置还包括:训练模块,用于将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
可选地,所述判定模块还包括:计算单元,用于基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;比较单元,用于将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较;选择单元,用于选择所述平坦度值最小的方向作为所述声源方向。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明的上述实施例,由于利用神经网络判断目标方向的语音质量,因此可以解决因大量的干扰音频和噪音所导致的波束形成过程中声源定位的精度差的问题,达到更好地实现声源方向的估计、进一步提高波束形成性能的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的麦克风阵列波束形成方法的流程图;
图2是根据本发明可选实施例的麦克风阵列波束形成方法的流程图;
图3是根据本发明实施例的麦克风阵列波束形成装置的结构框图;
图4是根据本发明可选实施例的麦克风阵列波束形成装置的结构框图;
图5是根据本发明实施例的常规麦克风阵列波束形成方法的流程图;
图6是根据本发明实施例的基于神经网络的麦克风阵列波束形成方法的流程图;
图7是根据本发明实施例的导引方向扫描的示意图;
图8是根据本发明实施例的基于循环神经网络的语音质量计算方法的流程图;
图9是根据本发明实施例的方向判定准则的示意图;
图10是根据本发明实施例的多波束计算信号和干扰方法的示例图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述选定的顺序或先后次序。
实施例1
在本实施例中提供了一种麦克风阵列波束形成方法,图1是根据本发明实施例的麦克风阵列波束形成方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
步骤S102,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
步骤S103,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
步骤S104,基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
步骤S105,将所述声源方向的语音信号进行波束形成后输出。
在本实施例中,步骤S101可以包括:通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
在本实施例的步骤S101之前,还可以包括:将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将短时平稳信号通过短时傅里叶变换到频域。
在本实施例的步骤S102之前,还可以包括:将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
在本实施例中,步骤S104可以包括:基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较,选择所述平坦度值最小的方向作为所述声源方向。
通过上述步骤,利用神经网络判断目标方向的语音质量,解决了因大量的干扰音频和噪音所导致的波束形成过程中声源定位的精度差的问题,达到更好地实现声源方向的估计、进一步提高波束形成性能的效果。
同时,利用连续多帧得到的语音概率的平坦度特征判断所有方向的语音质量,可以得到更优的声源方向,因而可以获得更优的波束形成性能。
图2是根据本发明可选实施例的麦克风阵列波束形成方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;
步骤S202,通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;
步骤S203,通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强;
步骤S204,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
步骤S205,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
步骤S206,基于所有方向的所述语音质量评估结果进行所述麦克风阵列的声源方向判定;
步骤S207,将所述声源方向的语音信号进行波束形成后输出。
在本实施例中,步骤S203可以包括:基于最大信噪比准则和/或最小方差无失真响应准则等波束形成算法对所述目标信号和所述干扰信号进行所述固定方向波束形成。
通过上述步骤,利用固定波束形成和神经网络相结合的方式进行波束形成,具有算法结构简单,易于实现的特点。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种麦克风阵列波束形成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的麦克风阵列波束形成装置的结构框图,如图3所示,该装置包括波束形成模块10、第一评估模块20、第二评估模块30、判定模块40、输出模块50。
波束形成模块10,用于采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强。
第一评估模块20,用于利用神经网络对波束形成后的所述选定方向的语音信号进行语音质量进行评估。
第二评估模块30,用于将所述选定方向的波束依次旋转预定角度形成多个固定方向波束,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估。
判定模块40,用于基于所有方向的语音信号的所述语音质量的评估结果进行所述麦克风阵列的声源方向判定。
输出模块50,用于将所述声源方向的语音信号的波束形成后输出。
图4是根据本发明可选实施例的麦克风阵列波束形成装置的结构框图,如图4所示,该装置除包括图3所示的所有模块外,还包括时频变换模块60、训练模块70。所述波束形成模块10还包括第一补偿单元12、第二补偿单元14与波束形成单元16。所述判定模块40还包括计算单元、比较单元42、选择单元43。
时频变换模块60,用于将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将短时平稳信号通过短时傅里叶变换到频域。
训练模块70,用于将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
第一补偿单元12,用于通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号。
第二补偿单元14,用于通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号。
波束形成单元16,用于通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成。
计算单元41,用于基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;
比较单元42,用于将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较;
选择单元43,用于选择所述平坦度值最小的方向作为所述声源方向。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细描述。
语音信号处理技术是当今人机交互领域的一项关键技术,而麦克风阵列波束形成可以利用空间域信息,可以更好地增强语音信号,对后端的语音识别具有极其重要的作用,是语音信号处理的关键技术。
目前的常规麦克风阵列波束形成方法如图5所示,图5是根据本发明实施例的常规麦克风阵列波束形成方法的流程图,如图5所示,该流程包括如下步骤:
步骤S501,声源方向估计,得到目标声源的方向;
步骤S502,形成导引矢量,利用导引矢量进行波束形成;
步骤S503,输出结果。
在本实施例中,步骤S503可以包括:基于导引矢量,利用诸如最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)等算法进行波束形成。
具体而言,常规麦克风阵列波束形成方法是先进行声源方向估计,根据估计得到的声源方向对输入多通道信号进行相位补偿等操作,进而采用诸如MVDR等方法进行波束形成,进一步抑制旁瓣干扰。然而,实际语音环境非常复杂,存在大量的干扰音频和噪音,从而导致声源定位的精度差,进而影响波束形成结果。
而本发明实施例提出的首先采用固定波束形成对选定方向声音进行增强,接着神经网络对波束形成后的语音质量进行评估,综合多个方向的语音质量进行最终声源方向的判定,进而得到最终波束形成结果。这样可以利用神经网络的建模能力,更好地对时序的语音信号进行建模,特别是噪声和干扰环境下具有很好的性能。同时,利用连续多帧语音质量的评估结果,采用平坦度特征计算连续多帧语音的概率,从而更好地实现声源方向的估计,进而进一步提高波束形成的性能。并且,本发明实施例采用提前训练好的神经网络作为语音质量的判据,而非简单的信噪比,更有适用于语音识别。
图6是根据本发明实施例的基于神经网络的麦克风阵列波束形成方法的流程图,其中,F表示固定波束形成矩阵或方向矩阵,即:对目标方向的来波信号进行时延补偿(频域即为相位补偿);B表示波束阻塞矩阵或干扰矩阵,即:阻止选定方向的信号通过,让其他方向的信号通过;W表示波束形成矩阵,即:根据固定波束形成得到的目标信号以及阻塞矩阵得到的干扰信号进行波束形成(如最大信噪比准则或MVDR准则)。
由于语音是宽带信号,因此需要将分帧加窗变换到频域后对每个频带进行处理,最后再变换到时域。如图6所示,该流程包括如下步骤:
步骤S601,时频变换。将连续输入的语音信号通过分帧和加窗变换为短时平稳信号,并通过短时傅里叶变换到频域,针对频域不同子带进行处理。
步骤S602,固定方向波束形成。根据假定的目标方向计算得到相位补偿矩阵F,对多个通道的不同子带的相位进行补偿,由相位补偿后的信号可以计算得到目标信号矢量的自相关矩阵为:
由阻塞矩阵B可以得到多个通道每个子带的干扰矢量的协方差矩阵:
最后通过最大信噪比准则或MVDR准则计算得到波束形成矢量:
Rswk,opt=λmaxRvwk,opt (3)
其中,λmax为自相关矩阵Rx对(Rs,Rv)的最大广义特征值,wk,opt为最优加权矢量。
步骤S603,来波方向判定。图7是根据本发明实施例的导引方向扫描的示意图,如图7所示,固定方向波束形成计算得到的是一个提前假定的方向(此处记为0°方向),即图7中#1处的方向。由于语音信号可能来自各个方向,假定共需计算N个方向,所以应该将波束依次旋转一定角度,之后再利用判定准则从多个备选方向中选择语音质量最好的方向作为最终波束形成的输出结果。若麦克风间距很小,且声音信号频率很低,所以实际麦克风阵列波束很宽,因此旋转的角度间隔不需要很精细,此处以30°间隔为例(此时N=5),如图7所示。每次旋转麦克风阵列,使得波束按照图7所示,依次指向0°、-30°、+30°、-60°、+60°五个方向。这里旋转麦克风阵列是通过相位补偿得到,即:针对每次需要旋转的角度,计算该旋转角度所对应的频域不同频点的相位补偿值,进而得到方向导引矢量,计算公式如下:
式中,v为方向导引矢量;f表示语音信号的频率;d表示麦克风间距,θ表示所要旋转的角度值;c表示声音速度。
步骤S604,语音质量评估。不同导引方向计算得到的语音质量不同,只有与实际语音来波方向最接近的导引方向波束形成之后得到的语音质量才是最好的。语音质量评估模块可以采用神经网络的方法提前训练好,采用叠加不同干扰和噪声的语音数据提前训练一个神经网络,神经网络的输出是一个概率,表示语音的概率。本发明实施例给出一种基于循环神经网络的语音质量评估模型如图8所示。
步骤S605,方向判定准则,其原理如图9所示。
步骤S606,输出控制。根据方向判定模块的结果,选择特定导引方向计算得到的波束形成结果输出。
在本发明实施例中,步骤S604给出一种基于循环神经网络的语音质量评估模型。图8是根据本发明实施例的基于循环神经网络的语音质量计算方法的流程图,如图8所示,该流程包括如下步骤:
步骤S801,输入端输入语音,其中,所述输入端由一个全连接层接收输入信号特征;
步骤S802,将从所述输入端输入的所述语音送入循环神经网络(RNN)模型完成对输入语音质量的判断,其中,所述循环神经网络可以采用GRU(Gated Recurrent Unit)网络;
步骤S803,经由一个全连接层完成语音质量的概率计算,其中,所述算法类似语音端点检测,所述概率得出的概率值可以和设定的阈值进行比较,大于阈值表示存在音频,小于阈值表示不存在。
在本发明实施例中,步骤S605给出一种方向判定准则。图9是根据本发明实施例的方向判定准则的示意图,如图9所示,该方向判定准则步骤具体如下:
步骤S902,对于每一个备选方向,将当前帧k计算得到的语音概率送入堆栈,与前面K-1帧(假定N=5,则这里选择即:k-1、k-2、k-3、k-4共5个时刻)的语音概率计算结果一起,计算每一个备选方向累计5帧语音的平坦度值,计算公式为:
其中,语音的频谱往往会在基频和谐波中出现峰值,而噪声频谱则相对平坦,所以上述计算得到的Flatness值越小,语音的概率越大。
步骤S903,将多个备选方向的语音概率的平坦度值进行比较,选择Flatness值最小的方向为估计的语音方向。
为了便于对本发明实施例所提供的技术方案的理解,下面将举例说明:
对于图6所示的麦克风阵列波束形成方案,一种计算方向矩阵F和阻塞矩阵B的方法是采用空间多波束。图10是根据本发明实施例的多波束计算信号和干扰方法的示例图,如图10所示,规定麦克风阵列的法线方向为0°方向,顺时针为正,逆时针为负。当假定来波方向为0°方向(#1对应的方向),则方向矩阵F=[1,1],对#1所对应波束的方向做相位补偿得到的结果为期望信号;根据#2、#3、#4和#5方向得到对应的干扰矩阵(阻塞矩阵)B,将采用干扰矩阵进行相位补偿后的信号相加平均后作为干扰信号,之后采用(1)~(3)计算得到波束形成矢量W;同理,假定来波方向为-30°方向(#2对应的方向),则根据公式(4)计算#2方向的相位补偿矩阵F,并且对相位补偿后的信号按公式(1)计算互相关矩阵;根据公式(4)计算#1、#3、#4和#5方向的干扰信号相位补偿矩阵B,并且对相位补偿后的干扰信号按公式(2)计算干扰协方差矩阵;最后根据公式(3)得到最大信噪比准则下的波束形成矢量W。
综上所述,本发明提出的一种基于固定方向波束形成和神经网络相结合的麦克风阵列波束形成方法,利用神经网络判断目标方向的语音质量,而非简单的计算信噪比,这样可以利用神经网络的建模能力,从而更好地对时序的语音信号进行建模,特别是噪声和干扰环境下具有很好的性能;同时利用连续多帧语音质量的评估结果,采用平坦度特征计算连续多帧语音的概率,从而更好地实现声源方向的估计,进而进一步提高波束形成的性能。
其中,基于神经网络的语音质量评估方法可以获得更优的波束形成性能。具体而言,由于本发明采用神经网络判断固定方向波束形成后语音的频谱质量,利用了神经网络更好的语音建模能力而非简单的信噪比特征;同时利用频谱的平坦度特征判断连续多帧语音的质量,可以得到更优的导引方向,因而可以获得更优的形成性能。
另外,基于固定波束形成和神经网络相结合的波束形成方法可以实现算法结构的简单明了。具体而言,由于本发明融合了定位和波束形成,算法结构简单,易于实现。
实施例4
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
S2,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
S3,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
S4,基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
S5,将所述声源方向的语音信号进行波束形成后输出。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例5
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
S2,利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
S3,将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
S4,基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
S5,将所述声源方向的语音信号进行波束形成后输出。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种麦克风阵列波束形成方法,其特征在于,包括:
采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
基于对所述选定方向和所述多个固定方向的所述语音信号的语音质量的评估结果进行所述麦克风阵列的声源方向判定;
将所述声源方向的语音信号进行波束形成后输出。
2.根据权利要求1所述的方法,其特征在于,采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强包括:
通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;
通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;
通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
3.根据权利要求1所述的方法,其特征在于,在采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强之前,还包括:
将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
4.根据权利要求2所述的方法,其特征在于,通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成包括:
基于最大信噪比准则和/或最小方差无失真响应准则对所述目标信号和所述干扰信号进行所述固定方向波束形成。
5.根据权利要求1所述的方法,其特征在于,利用神经网络对波束形成后的所述选定方向的语音质量进行评估之前,还包括:
将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
6.根据权利要求5所述的方法,其特征在于,基于所述选定方向和所述多个固定方向的所述语音质量评估结果进行所述麦克风阵列的声源方向判定,包括:
基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;
将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较,选择所述平坦度值最小的方向作为所述声源方向。
7.一种麦克风阵列波束形成装置,其特征在于,包括:
波束形成模块,用于采用固定波束形成对麦克风阵列的选定方向的语音信号进行增强;
第一评估模块,用于利用神经网络对波束形成后的所述选定方向的语音信号的语音质量进行评估;
第二评估模块,用于将所述选定方向的波束依次旋转预定角度形成多个固定方向波束以对所述多个固定方向的语音信号进行增强,并利用所述神经网络对所述多个固定方向的语音信号的语音质量进行评估;
判定模块,用于基于选定方向和所述多个固定方向的所述语音信号的语音质量评估结果进行所述麦克风阵列的声源方向判定;
输出模块,用于将所述声源方向的语音信号进行波束形成后输出。
8.根据权利要求7所述的装置,其特征在于,波束形成模块包括:
第一补偿单元,用于通过固定波束形成矩阵对所述选定方向的语音信号进行相位补偿得到目标信号;
第二补偿单元,用于通过阻塞矩阵对所述多个方向的语音信号进行相位补偿得到干扰信号;
波束形成单元,用于通过波束形成矩阵对所述目标信号和所述干扰信号进行波束形成以对所述选定方向的语音信号进行增强。
9.根据权利要求8所述的装置,其特征在于,还包括:
时频变换模块,用于将连续输入的所述语音信号进行分帧和加窗变换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换到频域。
10.根据权利要求7所述的装置,其特征在于,还包括:
训练模块,用于将叠加不同干扰和/或噪声的语音数据作为输入,将语音质量概率作为输出,对所述神经网络进行训练。
11.根据权利要求7所述的装置,其特征在于,所述判定模块包括:
计算单元,用于基于所述选定方向和所述多个固定方向的语音质量概率进行计算分别获得所述选定方向和所述多个固定方向的语音质量概率的平坦度值;
比较单元,用于将所述选定方向和所述多个固定方向的语音质量概率的平坦度值进行比较;
选择单元,用于选择所述平坦度值最小的方向作为所述声源方向。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010712348.9A CN111866665B (zh) | 2020-07-22 | 2020-07-22 | 麦克风阵列波束形成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010712348.9A CN111866665B (zh) | 2020-07-22 | 2020-07-22 | 麦克风阵列波束形成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111866665A true CN111866665A (zh) | 2020-10-30 |
CN111866665B CN111866665B (zh) | 2022-01-28 |
Family
ID=72949269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010712348.9A Active CN111866665B (zh) | 2020-07-22 | 2020-07-22 | 麦克风阵列波束形成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111866665B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911465A (zh) * | 2021-02-01 | 2021-06-04 | 杭州海康威视数字技术股份有限公司 | 信号发送方法、装置及电子设备 |
WO2022135130A1 (zh) * | 2020-12-24 | 2022-06-30 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
CN115497500A (zh) * | 2022-11-14 | 2022-12-20 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
CN116504245A (zh) * | 2023-06-26 | 2023-07-28 | 凯泰铭科技(北京)有限公司 | 一种语音编写规则的方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080240463A1 (en) * | 2007-03-29 | 2008-10-02 | Microsoft Corporation | Enhanced Beamforming for Arrays of Directional Microphones |
CN102664023A (zh) * | 2012-04-26 | 2012-09-12 | 南京邮电大学 | 一种麦克风阵列语音增强的优化方法 |
WO2015196729A1 (zh) * | 2014-06-27 | 2015-12-30 | 中兴通讯股份有限公司 | 一种麦克风阵列语音增强方法及装置 |
CN107703486A (zh) * | 2017-08-23 | 2018-02-16 | 南京邮电大学 | 一种基于卷积神经网络cnn的声源定位算法 |
CN109389991A (zh) * | 2018-10-24 | 2019-02-26 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的信号增强方法 |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN110534127A (zh) * | 2019-09-24 | 2019-12-03 | 华南理工大学 | 应用于室内环境中的麦克风阵列语音增强方法及装置 |
WO2019239043A1 (fr) * | 2018-06-13 | 2019-12-19 | Orange | Localisation de sources sonores dans un environnement acoustique donné |
CN110931036A (zh) * | 2019-12-07 | 2020-03-27 | 杭州国芯科技股份有限公司 | 一种麦克风阵列波束形成方法 |
-
2020
- 2020-07-22 CN CN202010712348.9A patent/CN111866665B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080240463A1 (en) * | 2007-03-29 | 2008-10-02 | Microsoft Corporation | Enhanced Beamforming for Arrays of Directional Microphones |
CN102664023A (zh) * | 2012-04-26 | 2012-09-12 | 南京邮电大学 | 一种麦克风阵列语音增强的优化方法 |
WO2015196729A1 (zh) * | 2014-06-27 | 2015-12-30 | 中兴通讯股份有限公司 | 一种麦克风阵列语音增强方法及装置 |
CN107703486A (zh) * | 2017-08-23 | 2018-02-16 | 南京邮电大学 | 一种基于卷积神经网络cnn的声源定位算法 |
WO2019239043A1 (fr) * | 2018-06-13 | 2019-12-19 | Orange | Localisation de sources sonores dans un environnement acoustique donné |
CN109389991A (zh) * | 2018-10-24 | 2019-02-26 | 中国科学院上海微系统与信息技术研究所 | 一种基于麦克风阵列的信号增强方法 |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN110534127A (zh) * | 2019-09-24 | 2019-12-03 | 华南理工大学 | 应用于室内环境中的麦克风阵列语音增强方法及装置 |
CN110931036A (zh) * | 2019-12-07 | 2020-03-27 | 杭州国芯科技股份有限公司 | 一种麦克风阵列波束形成方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022135130A1 (zh) * | 2020-12-24 | 2022-06-30 | 北京有竹居网络技术有限公司 | 语音提取方法、装置和电子设备 |
CN112911465A (zh) * | 2021-02-01 | 2021-06-04 | 杭州海康威视数字技术股份有限公司 | 信号发送方法、装置及电子设备 |
CN115497500A (zh) * | 2022-11-14 | 2022-12-20 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
CN116504245A (zh) * | 2023-06-26 | 2023-07-28 | 凯泰铭科技(北京)有限公司 | 一种语音编写规则的方法及系统 |
CN116504245B (zh) * | 2023-06-26 | 2023-09-22 | 凯泰铭科技(北京)有限公司 | 一种语音编写规则的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111866665B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111866665B (zh) | 麦克风阵列波束形成方法及装置 | |
US10123113B2 (en) | Selective audio source enhancement | |
Erdogan et al. | Improved mvdr beamforming using single-channel mask prediction networks. | |
JP6480644B1 (ja) | マルチチャネル音声認識のための適応的オーディオ強化 | |
EP3511937B1 (en) | Device and method for sound source separation, and program | |
US8363850B2 (en) | Audio signal processing method and apparatus for the same | |
US9054764B2 (en) | Sensor array beamformer post-processor | |
CN109473118B (zh) | 双通道语音增强方法及装置 | |
US7626889B2 (en) | Sensor array post-filter for tracking spatial distributions of signals and noise | |
US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
JP4096104B2 (ja) | 雑音低減システム及び雑音低減方法 | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
US20140078867A1 (en) | Sound direction estimation device, sound direction estimation method, and sound direction estimation program | |
CN112799017B (zh) | 声源定位方法、装置、存储介质及电子设备 | |
Schmalenstroeer et al. | Multi-stage coherence drift based sampling rate synchronization for acoustic beamforming | |
Sainath et al. | Raw multichannel processing using deep neural networks | |
Kim | Hearing aid speech enhancement using phase difference-controlled dual-microphone generalized sidelobe canceller | |
US9875748B2 (en) | Audio signal noise attenuation | |
KR101418023B1 (ko) | 위상정보를 이용한 자동 이득 조절 장치 및 방법 | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
Čmejla et al. | Independent vector analysis exploiting pre-learned banks of relative transfer functions for assumed target’s positions | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
Bu et al. | Steering vector correction in MVDR beamformer for speech enhancement. | |
EP4171064A1 (en) | Spatial dependent feature extraction in neural network based audio processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |