CN109285557A

CN109285557A - 一种定向拾音方法、装置及电子设备

Info

Publication number: CN109285557A
Application number: CN201710592299.8A
Authority: CN
Inventors: 陈展; 杨茜; 任烨
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2019-01-29
Anticipated expiration: 2037-07-19
Also published as: CN109285557B

Abstract

本发明实施例提供了一种定向拾音方法、装置及电子设备，方法为：对两个麦克风采集的两路初始语音信号分别进行分帧处理；针对每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号；再计算该帧的初始分离矩阵；基于预设的拾音方向相对于两个麦克风的角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵；根据每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，目标语音信号为定向角度上的语音信号；分别对目标语音信号在每一帧对应的频域信号进行时域转换，得到目标语音信号。应用本发明实施例的方案可以减小定向拾音设备的尺寸。

Description

一种定向拾音方法、装置及电子设备

技术领域

本发明涉及语音信号处理技术领域，特别是涉及一种定向拾音方法、装置及电子设备。

背景技术

定向拾音是一种语音增强方法，按照声音来源方向，在混杂的语音信号中进行目标语音信号的拾取，即只拾取特定方向传播来的语音信号，而过滤掉其他方向的噪声、干扰信号，从而达到增强目标语音的效果。

在安防领域进行定向拾音时，由于监控环境比较复杂，麦克风采集到的语音信号中噪声特别嘈杂，有用声音容易被噪声覆盖，因此如何能够过滤掉噪声、留下有用声音将变得特别有意义。

现有技术中，一般利用波束形成技术实现定向拾音，具体的，采用波束形成(Delayand sum beamformer，DSB)算法对设备上设置的各个麦克风所接收的语音信号进行处理，得到特定方向传播来的语音信号。其中，DSB算法是对麦克风阵列中各个麦克风上接收的语音信号进行时间补偿，每个麦克风接收的语音信号为一个通道信号，然后对各通道信号进行加权合成得到麦克风阵列所输出的语音信号，通过对每个通道信号设置合适的加权系数可以输出不同方向的语音信号，从而实现定向拾音，如图1所示，角度θ表示预设的拾音方向，每个通道对应的加权系数是根据角度θ确定的，图1中波束形成的加权系数a₀,a₁,...,a_M-1均为1/M，其中M表示麦克风阵列的个数。

波束形成技术通常需要较多数量的麦克风才能达到比较好的语音增强效果。目前在语音识别音箱和智能机器人上，常常需要使用6+1、7+1个麦克风形成的麦克风阵列来实现任意方向的定向拾音，虽然这样可以定向拾音，但是显然需要至少7-8个麦克风，导致结构设计复杂，麦克风阵列尺寸大。

发明内容

本发明实施例的目的在于提供一种定向拾音方法、装置及电子设备，以减小定向拾音设备的尺寸。具体技术方案如下：

为达上述目的目的，一方面，本发明实施例提供了一种定向拾音方法，所述方法包括：

按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号分别进行分帧处理；

针对每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号；

根据每一帧对应的两路频域信号，计算该帧的初始分离矩阵；

基于预先设置的定向角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵，其中，所述定向角度表示预设的拾音方向相对于两个麦克风的角度；

根据每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，其中，所述目标语音信号为所述定向角度上的语音信号；

分别对所述目标语音信号在每一帧对应的频域信号进行时域转换，得到所述目标语音信号。

可选的，在所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤之前，还包括：

对每一帧的初始分离矩阵进行尺度修正，得到该帧的中间分离矩阵；

所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤，包括：

基于预先设置的定向角度，对每一帧对应的中间分离矩阵进行排序修正，得到该帧对应的目标分离矩阵。

可选的，所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤，包括：

基于预先设置的定向角度，对每一帧的初始分离矩阵进行帧内排序修正，得到每一帧的参考分离矩阵；

确定每一帧对应的语音信号的声源方向相对于所述两个麦克风的角度，并根据每一帧中目标语音信号的声源方向相对于所述两个麦克风的角度，对所有帧对应的所述参考分离矩阵进行帧间排序修正，得到每一帧对应的目标分离矩阵。

可选的，所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行帧内排序修正的步骤，包括：

对每一帧的初始分离矩阵进行近似态相干变换分析，并基于近似态相干变换分析的结果和预先设置的定向角度，对每一帧对应的初始分离矩阵进行帧内排序修正。

可选的，所述每一帧对应的语音信号的声源方向相对于所述两个麦克风的角度的步骤，包括：

根据每一帧的初始分离矩阵和参考分离矩阵对该帧对应的两路初始语音信号进行峰值检测，确定每一帧对应的语音信号的声源方向相对于所述两个麦克风的角度。

可选的，在所述按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号进行分帧的步骤之后，所述方法还包括：

根据预设的窗函数，对每一帧对应的两路初始语音信号分别进行加窗处理；

所述针对每一帧对应的两路语音信号分别进行频域转换，得到该帧对应的两路频域信号的步骤，包括：

针对加窗处理后的每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号。

可选的，在所述分别对所述目标语音信号在每一帧对应的频域信号进行时域转换的步骤之后，所述方法还包括：

利用每一帧对应的两路初始语音信号，对所述目标语音信号在该帧对应的时域信号进行滤波处理。

另一方面，本发明实施例提供了一种定向拾音装置，所述装置包括：

分帧模块，按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号分别进行分帧处理；

频域转换模块，用于针对每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号；

计算模块，用于根据每一帧对应的两路频域信号，计算该帧的初始分离矩阵；

排序修正模块，用于基于预先设置的定向角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵，其中，所述定向角度表示预设的拾音方向相对于两个麦克风的角度；

分离模块，用于根据每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，其中，所述目标语音信号为所述定向角度上的语音信号；

时域转换模块，用于分别对所述目标语音信号在每一帧对应的频域信号进行时域转换，得到所述目标语音信号。

可选的，所述装置还包括：

尺度修正模块，用于在所述排序修正模块基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵之前，对每一帧的初始分离矩阵进行尺度修正，得到该帧的中间分离矩阵；

所述排序修正模块，用于：

可选的，所述排序修正模块，包括：

帧内修正子模块，用于基于预先设置的定向角度，对每一帧的初始分离矩阵进行帧内排序修正，得到每一帧的参考分离矩阵；

帧间修正子模块，用于确定每一帧对应的语音信号的声源方向相对于所述两个麦克风的角度，并根据每一帧中目标语音信号相对于所述两个麦克风的角度，对所有帧对应的所述参考分离矩阵进行帧间排序修正，得到每一帧对应的目标分离矩阵。

可选的，所述帧内修正子模块，用于：

可选的，所述帧间修正子模块，具体用于：

可选的，所述装置还包括：

加窗模块，用于在所述分帧模块按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号进行分帧之后，根据预设的窗函数，对每一帧对应的两路初始语音信号分别进行加窗处理；

所述频域转换模块，用于：针对加窗处理后的每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号。

可选的，所述装置还包括：

滤波模块，用于在所述时域转换模块分别对所述目标语音信号在每一帧对应的频域信号进行时域转换之后，利用每一帧对应的两路初始语音信号，对所述目标语音信号在该帧对应的时域信号进行滤波处理。

再一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一定向拾音方法所述的方法步骤。

再一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一定向拾音方法所述的方法步骤。

本发明实施例提供的定向拾音方法，首先对两个麦克风采集的初始语音信号进行分帧，针对每一帧对应的两路初始语音信号分别进行频域转换，计算该帧的初始分离矩阵，然后基于预先设置的定向角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵，其中定向角度表示预设的拾音方向相对于两个麦克风的角度，从而利用每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，再进行时域转换得到目标语音信号。可见，本发明实施例提供的方案可以通过双麦克风实现定向拾音，成本低于多麦克风的波束形成技术，并且简化了定向拾音设备的结构，缩小了定向拾音设备的尺寸。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中波束形成算法的示意图；

图2为本发明实施例提供的一种定向拾音方法的应用场景图；

图3为本发明实施例提供的一种定向拾音方法的流程示意图；

图4为本发明实施例提供的一个具体实施例的处理流程图；

图5为本发明实施例提供的一种定向拾音装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种定向拾音方法、装置及电子设备。下面首先对本发明实施例所提供的一种定向拾音方法进行详细说明。

首先对本发明实施例的应用场景进行简单介绍。如图2所示，通过角度θ表示预设的拾音方向即声源的方向，该方向上的语音为要拾取的目标语音，其它角度对应的方向上的语音为噪声，θ为声源相对于两个麦克风的方向与两个麦克风所在位置的连线的夹角。将两个麦克风采集到的语音信号，采用双麦克风定向拾音算法，输出降噪音频，即目标语音。

需要说明的是，实际上两个麦克风采集到的语音信号包含目标语音、以及其它各个方向上的噪声，定向拾音的目的是拾取一个预设方向上的语音，对于该预设方向以外的其他方向上的语音则需要消除或过滤掉，因此，双麦克风定向拾音算法中，将目标语音视为一路语音信号，而所有其它方向上的语音视为另一路混合的语音信号。

现有技术中，除了波束形成算法，还可以采用单麦克风语音降噪算法实现定向拾音。单麦克风语音降噪算法，由于算法原理的限制，只能消除平稳噪声，对于非平稳噪声则无法消除。

而双麦克风定向拾音算法中，相对于单麦克风语音降噪算法，增加了一个麦克风，可以消除非平稳噪声，例如风声等，分离出不同角度的语音信号，过滤掉不想采集的方向上的语音信号，从而大大降低噪声，提高语音信噪比。

需要说明的是，本发明实施例所提供的一种定向拾音方法的执行主体可以为音频采集设备，具体的方法流程可以是由音频采集设备中的控制芯片实现的，控制芯片可以为DSP(Digital Signal Processor，数字信号处理器)、ARM(Advanced Reduced InstructionSet Computer Machines，精简指令集计算机微处理器)或者FPGA(Field-ProgrammableGate Array，现场可编程门阵列)等。其中，本发明实施例所提供的一种定向拾音方法可以是由设置于音频采集设备中的软件、硬件电路和/或逻辑电路等实现的。

图3为本发明实施例提供的一种定向拾音方法的流程示意图，该方法包括：

S301，按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号分别进行分帧处理。

可以理解的，因为语音信号为短时平稳信号，所以需要首先对语音信号进行分帧处理，将连续的语音信号分成短时可分析的信号，以便把每一帧当成平稳信号来处理。分帧就是把连续的一段时长内的信号设为一帧，帧长是根据采样率确定的，一般可以取20ms-30ms，表示把这一时长内的语音信号看作为平稳信号。

相邻两帧间的相对位移称为帧移，当帧移等于帧长时，表示相邻两帧之间没有重叠，当帧移小于帧长时，表示相邻两帧之间有重叠。可以理解的，为了不影响音质，相邻帧之间应当有重叠，通常两帧之间需要有一半重叠，例如当帧长取20ms时，帧移取10ms。

对两个麦克风采集的两路初始语音信号按照相同的帧长和帧移分别进行分帧处理，得到两路分帧后的初始语音信号。需要说明的是，为了保证后续处理的正确性，可以对每一路分帧后的初始语音信号均按照时间的先后顺序进行编号，在后续处理过程中，以编号相同的帧对应的两路初始语音信号为单位进行。

可以理解的，由于定向麦克风不能调整拾音方向，并且拾音范围远低于全向麦克风，因此为了实现任意角度的定向拾音，本发明实施例所述的两个麦克风应当为全向麦克风。需要说明的是，本发明实施例对两个麦克风的距离不做限定，一般建议4-5厘米即可。

S302，针对每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号。

具体的，可以按照FFT(Fast Fourier Transformation、快速傅里叶变换)、STFT(short-time Fourier transform、短时傅立叶变换)等算法，对每一帧对应的两路初始语音信号分别进行频域转换，将初始语音信号从时域信号转换为频域信号，便于在频域进行信号处理，同时提高处理效率。

在一种实现方式中，在按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号进行分帧之后，还可以包括：根据预设的窗函数，对每一帧对应的两路初始语音信号分别进行加窗处理；

相应的，上述针对每一帧对应的两路语音信号分别进行频域转换，得到该帧对应的两路频域信号的步骤，可以包括：针对加窗处理后的每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号。

对每一帧对应的两路初始语音信号进行加窗处理，是为了减少由于分帧产生的边缘不平滑所引起的吉布斯效应。

可以理解的，对时域信号进行加窗，就是把原始信号s(t)与窗函数w(t)相乘，即经过加窗后的信号x(t)为：x(t)＝s(t)*w(t)。常用的窗函数有矩形窗、三角窗、Hanning(汉宁)窗、Hamming(汉明)窗、Blackman(布拉克曼窗)窗、Kaiser(恺撒)窗等。不同的窗函数有不同的性质，可以按照经验或实际需求选择窗函数。

S303，根据每一帧对应的两路频域信号，计算该帧的初始分离矩阵。

作为本发明的一种实施方式，可以采用ICA(Independent ComponentCorrelation Algorithm独立成分分析)算法来计算每一帧的分离矩阵，具体的，假设两个声源所发出的原始语音信号分别为s₁(k)、s₂(k)，两个麦克风接收的初始语音信号分别为x₁(k)、x₂(k)，则每一帧对应的两路频域信号可以表示为：X(k)＝H(k)S(k)；

其中，X(k)＝[X₁(k)X₂(k)]^T,S(k)＝[S₁(k)S₂(k)]^T，

H(k)为分离矩阵，且

φ_mn(k)＝2πf_kT_mn(k)，T_mn(k)为声源n在麦克风m的时延差，f_k为第k个频点的频率。

在采用ICA算法计算分离矩阵时，还可以通过迭代算法对每一次计算出的分离矩阵进行更新，以提高分离矩阵的准确性。具体的，可以采用LMS(Least mean square，最小均方)算法、NLMS即归一化LMS算法、E-NLMS即改进型归一化LMS算法等迭代算法。

S304，基于预先设置的定向角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵，其中，定向角度表示预设的拾音方向相对于两个麦克风的角度。

本领域技术人员可以理解的是，由于ICA算法本身存在排序不定性和尺度不定性问题，因此每一频点上分离出来的信号的次序是不同的，幅度也有差别，如果直接对其进行傅里叶变换会产生严重的扭曲失真。因此，需要对每一帧的初始分离矩阵进行排序修正和尺度修正。排序修正是通过调整分离矩阵的行从而实现信号的排序，经过排序修正，可以消除分离出的目标语音信号与初始语音信号之间在排列顺序上的差别。

另外，作为本发明实施例的一种实施方式，在上述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤之前，该方法还可以包括：对每一帧的初始分离矩阵进行尺度修正，得到该帧的中间分离矩阵；

相应的，上述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤，可以包括：基于预先设置的定向角度，对每一帧对应的中间分离矩阵进行排序修正，得到该帧对应的目标分离矩阵。

其中，尺度修正是通过归一化分离矩阵权重值实现对分离矩阵尺度的修正，经过尺度修正，可以消除分离出的目标语音信号与初始语音信号之间在幅度上的差别。

具体的，对每一帧的初始分离矩阵进行尺度修正的方式，可以参照现有技术中的语谱分裂法，在此不做赘述。

作为本发明实施例的一种实施方式，对每一帧的初始分离矩阵进行排序修正的步骤，可以分为帧内排序和帧间排序。具体的，首先基于预先设置的定向角度，对每一帧的初始分离矩阵进行帧内排序修正，得到每一帧的参考分离矩阵；然后确定每一帧对应的语音信号的声源方向相对于两个麦克风的角度，并根据每一帧中目标语音信号相对于两个麦克风的角度，对所有帧对应的参考分离矩阵进行帧间排序修正，得到每一帧对应的目标分离矩阵。

对于帧内排序修正，在一种实现方式中，对每一帧的初始分离矩阵可以使用RRICA(recursively regularized ICA，递归正则ICA)的迭代方式进行帧内排序，这种迭代方式可以一定程度上减少帧内排序的问题，但是仍然存在乱序的现象。在另一种实现方式中，可以采用ASCT(approximated State Coherence Transform，近似态相干变换)分析的方式，通过预先设置的定向角度对每一帧的初始分离矩阵的帧内排序进行调整，以减少乱序现象。

作为本发明实施例的一种实施方式，可以对每一帧的初始分离矩阵进行近似态相干变换分析，并基于近似态相干变换分析的结果和预先设置的定向角度，对每一帧对应的初始分离矩阵进行帧内排序修正。

对于帧间排序修正，由于声源的移动性，每一帧对应的语音信号的声源方向相对于两个麦克风的角度也因此而略有差别。因此，可以使用不同帧对应的语音信号的声源方向相对于两个麦克风的角度进行帧间排序修正，具体的，针对每一帧中的每一个频率点，根据该帧对应的语音信号的声源方向相对于两个麦克风的角度，分别可以计算两个声源在该频率点对应的ASCT值，然后利用所计算的ASCT值进行帧间排序。

作为本发明实施例的一种实施方式，可以根据每一帧的初始分离矩阵和参考分离矩阵对该帧对应的两路初始语音信号进行峰值检测，确定每一帧对应的语音信号的声源方向相对于两个麦克风的角度。其中，可以利用TDOA(Time Difference of Arrival，到达时间差)声源定位技术进行峰值检测，从而确定每一帧对应的语音信号的声源方向相对于两个麦克风的角度。

可以理解的，上述的定向角度可以灵活设置，根据不同的需求场景设置不同角度，以实现任意角度上的定向拾音。同时由于声源的移动性，声源可能会在以定向角度为中心的一定范围内移动，因此为了更完整的拾取定向角度上的声源的语音信号，还可以根据需求设置拾音围，例如，定向角度为图2所示的角度θ，拾音范围为θ±10°。

S305，根据每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，其中，目标语音信号为定向角度上的语音信号。

S306，分别对目标语音信号在每一帧对应的频域信号进行时域转换，得到目标语音信号。

分别对目标语音信号在每一帧对应的频域信号进行时域转换后，可以得到目标语音信号在每一帧对应语音信号，然后，可以根据与分帧处理时的帧长和帧移参数所对应的参数，将目标语音信号在每一帧对应语音信号转换为连续的目标语音信号。具体的，可以利用IFFT(Inverse Fast Fourier Transform，快速傅里叶逆变换)算法进行时域转换。

作为本发明实施例的一种实现方式，在分别对目标语音信号在每一帧对应的频域信号进行时域转换的步骤之后，该方法还可以包括：

利用每一帧对应的两路初始语音信号，对目标语音信号在该帧对应的时域信号进行滤波处理。

可以理解的，为了模拟更长的冲击响应，FFT频域转换的频率点的点数需要增加，因此容易导致得到的目标语音信号的失真，频率点之间的相位不连续，并且残余更多，因此需要对目标语音信号在每一帧对应的时域信号进行滤波处理，以使目标语音信号更平滑。

在一种实现方式中，可以采用维纳滤波的方式，本领域技术人员可以理解的是，维纳滤波(wiener filtering)一种基于最小均方误差准则、对平稳过程的最优估计器，这种滤波器的输出与期望输出之间的均方误差为最小，因此它是一个最佳滤波系统，可用于提取被平稳噪声所污染的信号。

如图4所示的处理流程图中，双麦克风定向拾音算法是基于ICA算法实现的，算法的整个框架可以分为三大模块，矩阵分离模块、排序较正模块、信号分离模块。其中，矩阵分离模块主要是将两个麦克风采集的两路输入信号变换到频域，通过ICA算法和E-NLMS迭代算法计算出分离矩阵。排序校正模块对分离矩阵进行重新排序。信号分离模块是通过对分离矩阵进行尺度修正、分离出不带噪的声源，并增加后处理操作以平滑信号。

由以上可见，本发明实施例提供的方案中，首先对两个麦克风采集的初始语音信号进行分帧，针对每一帧对应的两路初始语音信号分别进行频域转换，计算该帧的初始分离矩阵，然后基于预先设置的定向角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵，其中定向角度表示预设的拾音方向相对于两个麦克风的角度，从而利用每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，再进行时域转换得到目标语音信号。可见，本发明实施例提供的方案可以通过双麦克风实现定向拾音，成本低于多麦克风的波束形成技术，并且简化了定向拾音设备的结构，缩小了定向拾音设备的尺寸。由于安防领域要求定向拾音设备的结构简单、尺寸小，因此本发明实施例提供的方案适用于安防领域。

与上述的定向拾音方法相对应，本发明实施例还提供了一种定向拾音装置。与图3所示的方法实施例相对应，图5为本发明实施例提供的一种定向拾音装置的结构示意图，该装置可以包括：

分帧模块501，按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号分别进行分帧处理；

频域转换模块502，用于针对每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号；

计算模块503，用于根据每一帧对应的两路频域信号，计算该帧的初始分离矩阵；

排序修正模块504，用于基于预先设置的定向角度，对每一帧的初始分离矩阵进行排序修正，得到该帧的目标分离矩阵，其中，所述定向角度表示预设的拾音方向相对于两个麦克风的角度；

分离模块505，用于根据每一帧的目标分离矩阵，从该帧对应的两路初始语音信号中分离出目标语音信号在该帧对应的频域信号，其中，所述目标语音信号为所述定向角度上的语音信号；

时域转换模块506，用于分别对所述目标语音信号在每一帧对应的频域信号进行时域转换，得到所述目标语音信号。

作为本发明实施例的一种实施方式，所述装置还包括：

所述排序修正模块504，可以用于：

作为本发明实施例的一种实施方式，所述排序修正模块504，可以包括：

作为本发明实施例的一种实施方式，所述帧内修正子模块，可以用于：

作为本发明实施例的一种实施方式，所述帧间修正子模块，具体可以用于：

作为本发明实施例的一种实施方式，所述装置还可以包括：

所述频域转换模块502，用于：针对加窗处理后的每一帧对应的两路初始语音信号分别进行频域转换，得到该帧对应的两路频域信号。

作为本发明实施例的一种实施方式，所述装置还可以包括：

相应于图3所示的定向拾音方法，本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

关于该方法各个步骤的具体实现以及相关解释内容可以参见上述的方法实施例，在此不做赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可见，与现有技术相比，本发明实施例提供的方案可以通过双麦克风实现定向拾音，成本低于多麦克风的波束形成技术，并且简化了定向拾音设备的结构，缩小了定向拾音设备的尺寸。由于安防领域要求定向拾音设备的结构简单、尺寸小，因此本发明实施例提供的方案适用于安防领域。

相应于图3所示的定向拾音方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现图3所示的定向拾音方法的方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种定向拾音方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行排序修正，得到该帧对应的目标分离矩阵的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于预先设置的定向角度，对每一帧对应的初始分离矩阵进行帧内排序修正的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，所述每一帧对应的语音信号的声源方向相对于所述两个麦克风的角度的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，在所述按照预设的帧长和帧移参数，对两个麦克风采集的两路初始语音信号进行分帧的步骤之后，还包括：

7.根据权利要求1所述的方法，其特征在于，在所述分别对所述目标语音信号在每一帧对应的频域信号进行时域转换的步骤之后，还包括：

8.一种定向拾音装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述排序修正模块，用于：

10.根据权利要求8所述的装置，其特征在于，所述排序修正模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述帧内修正子模块，用于：

12.根据权利要求10所述的装置，其特征在于，所述帧间修正子模块，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。