CN106448722B

CN106448722B - 录音方法、装置和系统

Info

Publication number: CN106448722B
Application number: CN201610826592.1A
Authority: CN
Inventors: 曹圣红; 王海坤; 马峰; 胡国平; 胡郁; 刘庆峰
Original assignee: Xun Feizhi Metamessage Science And Technology Ltd
Current assignee: Xun Feizhi metamessage Science and Technology Ltd.
Priority date: 2016-09-14
Filing date: 2016-09-14
Publication date: 2019-01-18
Anticipated expiration: 2036-09-14
Also published as: CN106448722A

Abstract

本申请提出一种录音方法、装置和系统，该录音方法包括：获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人；根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。该方法能够提高录音质量，同时实现说话人语音分离，从而便于后续录音转写时的角色分离，方便回听回看。

Description

录音方法、装置和系统

技术领域

本申请涉及语音信号处理技术领域，尤其涉及一种录音方法、装置和系统。

背景技术

检察机关在审讯过程中需要对审讯情况和问答内容进行记录，需要耗费相当的人力，语音识别技术的发展为解决这个问题提供了有效的途径。

相关技术中，审讯录音大多采用普通拾音器设备，可能是一个或者多个，该设备一般放置在审讯室的墙边或者桌上，对审讯全程的语音进行录制。

但是，相关技术中的审讯录音设备具有以下的缺点：首先，录音设备距离发言人距离都比较远，容易受到环境噪声和房间混响的影响，从而导致录音清晰度和可懂度不高，整体质量较差；其次，不管是一个录音器还是多个录音器，都会同时录制所有人的语音，为后续的回听回看造成很大的不方便。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种录音方法，该方法能够提高录音质量，同时实现说话人语音分离，从而便于后续录音转写时的角色分离，方便回听回看。

本申请的另一个目的在于提出一种录音装置。

本申请的另一个目的在于提出一种录音系统。

为达到上述目的，本申请第一方面实施例提出的录音方法，包括：获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人；根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。

本申请第一方面实施例提出的录音方法，通过将枪型麦克风阵列端向指向第一方，可以实现更远距离的高质量拾音，从而能够提高录音质量；通过进行说话人语音分离，可以便于后续录音转写时的角色分离，方便回听回看。

为达到上述目的，本申请第二方面实施例提出的录音装置，包括：获取模块，用于获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；确定模块，用于对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人；分离模块，用于根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。

本申请第二方面实施例提出的录音装置，通过将枪型麦克风阵列端向指向第一方，可以实现更远距离的高质量拾音，从而能够提高录音质量；通过进行说话人语音分离，可以便于后续录音转写时的角色分离，方便回听回看。

为达到上述目的，本申请第三方面实施例提出的录音系统，包括：枪型麦克风阵列、圆型麦克风阵列和录音装置；所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；所述枪型麦克风阵列和圆型麦克风阵列分别用于采集所述第一方和/或待录音的第二方的语音信号，所述第二方的人数为一人或多人；所述录音装置用于对枪型麦克风阵列采集的语音信号和圆型麦克风阵列采集的语音信号进行语音信号处理，得到说话人分离的第一方的录制语音信号和第二方的录制语音信号。

本申请第三方面实施例提出的录音系统，通过将枪型麦克风阵列端向指向第一方，可以实现更远距离的高质量拾音，从而能够提高录音质量；通过进行说话人语音分离，可以便于后续录音转写时的角色分离，方便回听回看。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的录音系统的结构示意图；

图2是本申请一个实施例提出的录音方法的流程示意图；

图3是本申请实施例中对语音信号进行波束形成及确定第二方说话人方向的方法的流程示意图；

图4是本申请实施例中枪型麦克风阵列空间区域划分示意图；

图5是本申请实施例中圆型麦克风阵列空间区域划分示意图；

图6是本申请实施例中声源定位示意图；

图7是本申请实施例中单个GSC模块的组成示意图；

图8是本申请一个实施例提出的录音装置的结构示意图；

图9是本申请另一个实施例提出的录音装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

本申请的方案主要应用于双方交谈场景双方语音数据的录制，并且交谈双方中一方为一人，另一方为一人或多人(多人是指至少两人)。如对犯罪嫌疑人的审讯场景，一方为一个被审讯人，另一方为多个审讯人；或者采访场景，一方为被采访人，另一方为多个采访人；或者演讲场景，一方为演讲人，另一方为多个听众(听众会对演讲者提问)等。下面以对犯罪嫌疑人的审讯场景为例，对本申请的方案进行阐述。

图1是本申请一个实施例提出的录音系统的结构示意图。

如图1所示，本实施例的系统包括：枪型麦克风阵列11、圆型麦克风阵列12录音装置13。

其中，枪型麦克风阵列11端向指向待录音的第一方，所述第一方的人数为一人；例如，参见图1，枪型麦克风阵列11端向指向被审讯人，被审讯人为一人。

圆型麦克风阵列12的放置方向不限定。

枪型麦克风阵列和圆型麦克风阵列可以分别与录音装置通过有线或无线进行连接。在系统设置上，枪型麦克风阵列、圆型麦克风阵列和录音装置可以设置成一个整体，或者分离设置。

进一步的，处于安全等方面的考虑，枪型麦克风阵列和圆型麦克风阵列可以放置在远离被审讯人的位置，如放置在审讯桌上。

枪型麦克风阵列11和圆型麦克风阵列12分别用于采集第一方和/或待录音的第二方的语音信号，所述第二方的人数为一人或多人。

如图1所示，第二方为审讯人员，审讯人员可以为一人或为多人(图1中示出了多人)。

根据当前说话人的不同，枪型麦克风阵列和圆型麦克风阵列可以采集到被审讯人的语音，或者采集到审讯人员的语音，或者采集到被审讯人和审讯人员的语音。

录音装置13用于对枪型麦克风阵列采集的语音信号和圆型麦克风阵列采集的语音信号进行语音信号处理，得到说话人分离的第一方的录制语音信号和第二方的录制语音信号。

录音装置的具体内容可以参见后续实施例的描述。

枪型麦克风阵列是由多个麦克风组成的线性阵列，相对于其他阵列形式，线性阵列能够在端向形成指向性更高的波束，接收更小范围内的语音，因此可以实现更远距离的拾音，类似于用枪瞄准某一区域，另外这种线性阵列的硬件外观也与猎枪相似，所以在本申请中将这种麦克风阵列称为枪型麦克风阵列。目前的枪型麦克风阵列都是模拟阵列，而本申请中可以具体使用数字阵列，数字阵列除了能在端向实现高指向性波束外，还能在其他方向实现多个波束并根据需求控制波束形状。

圆型麦克风阵列可以是单个环形的麦克风阵列，也可以多个同心圆环麦克风阵列，由于其结构的对称性，对于全空间360度的任意方向，均可以实现相近的拾音波束。

在实际审讯场景中，一般只有1个被审讯人，并且在审讯过程中被审讯人的位置是固定的，为了方便和安全考虑，阵列需要放置在距离被审讯人较远的地方，因此本申请将枪型麦克风阵列端向指向被审讯人，采用枪型麦克风阵列主要拾取被审讯人的语音。对于审讯人员，由于人数不确定(可能是1人或多人)，且位置相对不固定，本申请采用圆型麦克风阵列主要拾取审讯人员的语音，由于圆形阵列可以360度拾音，所以无需特意摆放。

基于图1所示的录音系统，相应的录音方法如图2所示。

图2是本申请一个实施例提出的录音方法的流程示意图。

如图2所示，本实施例的方法包括：

S21：获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人。

例如，如图1所示，枪型麦克风阵列端向指向被审讯人，被审讯人为一人。圆型麦克风阵列的放置方向不限定。

枪型麦克风阵列和圆型麦克风阵列的麦克风数分别记为M1和M2，枪型麦克风阵列采集的第一语音信号记为x_G,1(n),…,x_G,M1(n)，圆型麦克风阵列采集的第二语音信号记为x_C,1(n),…,x_C,M2(n)。其中，公式里下标中的G和C分别表示枪型麦克风阵列和圆型麦克风阵列，以下相同。

S22：对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人。

例如，如图1所示，第二方是指审讯人员，审讯人员的人数为一人或多人。

波束形成的方式有多种，本实施例中可以具体采用固定波束形成。在固定波束形成时，可以对阵列空间进行划分，得到预设个数的空间区域，对应每个空间区域进行固定波束形成，得到每个空间区域对应的固定波束形成输出。

在固定波束形成时，可以先将语音信号从时域信号转换为频域信号，再采用固定波束系数对每个麦克风对应的频域信号进行加权求和后，得到固定波束形成输出。

假设第一语音信号对应的波束形成输出称为第一波束形成输出，第二语音信号对应的波束形成输出称为第二波束形成输出，可以理解的是，第一波束形成输出和第二波束形成输出的个数与对应的语音信号对应的空间区域的个数相同，假设第一语音信号对应的空间区域的个数和第二语音信号对应的空间区域的个数分别是N1和N2(N1和N2可以相同或不同)，则第一波束形成输出第n个方向上的波束形成输出和第二波束形成输出第n个方向上的波束形成输出可以分别记为Y_G,n(ω,l)，n＝1,2,…N1和Y_C,n(ω,l)，n＝1,2,…N2。其中，ω表示傅里叶变换的角频率，l表示语音信号的帧序号，以下相同。

进一步的，在得到上述的第一波束形成输出Y_G,n(ω,l)和第二波束形成输出Y_C,n(ω,l)后，可以根据第一波束形成输出Y_G,n(ω,l)和第二波束形成输出Y_C,n(ω,l)确定第二方说话人方向。

具体的波束形成及确定第二方说话人方向的内容可以如后续实施例所述。

S23：根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。

由于第一方的说话人为一人，且该一人的方向已知，因此第一方说话人方向是已知的。另外，根据第一波束形成输出和第二波束形成输出可以确定出第二方说话人方向。在确定出上述两方的说话人方向后，可以根据确定出的说话人方向进行说话人语音分离，得到分离后的第一方的语音信号和第二方的语音信号。

具体的说话人语音分离的内容可以如后续实施例所述。

进一步地，在得到分离后的语音信号后，还可以对分离后的语音信号进行后处理，所述后处理操作如去混响和降噪，抑制残留的噪声和混响成分，得到最终处理后的语音信号。在得到最终处理后的语音信号后，可以分别对其进行记录，以得到分离后的第一方的录制语音信号和第二方的录制语音信号。

本实施例中，通过将枪型麦克风阵列端向指向第一方，可以实现更远距离的高质量拾音，从而能够提高录音质量；通过进行说话人语音分离，可以便于后续录音转写时的角色分离，方便回听回看。

图3是本申请实施例中对语音信号进行波束形成及确定第二方说话人方向的方法的流程示意图。

如图3所示，本实施例的方法包括：

S31：对第一语音信号进行固定波束形成，得到第一固定波束形成输出。

枪型麦克风阵列采集的第一语音信号是时域信号，在固定波束形成时，可以先将时域信号转换为频域信号，再根据频域信号进行固定波束形成。

具体的，对时域信号进行分帧加窗处理，再做傅里叶变换，得到频域信号。具体过程与现有技术相同，在此不再详述。傅里叶变换后，第一语音信号x_G,1(n),…,x_G,M1(n)对应的频域信号记为X_G,1(ω,l),…,X_G,M1(ω,l)。

在对第一语音信号进行固定波束形成时，如图4所示，将枪型麦克风阵列对应的空间划分为N1个空间区域，θ_G,1,θ_G,2,…θ_G,N1为每个空间区域的中心方向，θ_G,1方向为被审讯人所在方向，该方向可以称为枪型麦克风阵列的第一个区域的中心方向。对每个方向进行固定波束形成，得到每个方向的固定波束输出，具体如下：

对于每一个方向设计一组固定波束系数，具体如下：

w_G,n(ω)＝[w_G,n,1(ω),w_G,n,2(ω),…w_G,n,m(ω),…w_G,n,M1(ω)],n＝1,2,…,N1

其中，w_G,n(ω)表示枪型麦克风阵列的第n个区域的固定波束系数，w_G,n,m(ω)表示枪型麦克风阵列的第n个固定波束中第m个麦克风对应的系数，对麦克风采集的信号进行加权相加，得到枪型麦克风阵列的每个方向的固定波束输出，第n个方向的固定波束输出Y_G,n(w,l)为

其中上标*表示共轭，m表示枪型麦克风阵列中麦克风编号。

固定波束系数w_G,n(ω)的求解方法分为两种，即对于目标方向(被审讯人方向)，对于说话人距离枪型阵列较远的场景，如审讯场景，需要尽可能缩小拾音范围，采用超指向性波束(Superdirective Beamformer)；对于说话人距离枪型阵列较近的场景，为了实现频率一致性，防止方向偏差导致的高频失真，采用差分波束。对于非目标方向，固定波束形成采用线性约束最小方差(Linearly Constrained Minimum Variance LCMV)算法,约束条件为保证该区域中心方向响应为1，并且θ_G,1方向的响应为0；具体求解过程与现有技术相同，在此不再详述。

S32：根据第一固定波束形成输出确定当前说话人角色。

在得到枪型麦克风阵列的不同方向的固定波束输出后，可以依据上述的不同方向的固定波束输出进行当前说话人角色判决，即判断当前说话人属于第一方、或者属于第二方、或者属于第一方和第二方(即第一方和第二方同时说话)。

对于图4中的枪型麦克风阵列空间区域划分，在一般的审讯环境中，审讯人和被审讯人所在的空间区域是分离的。即被审讯人位于以θ_G,1为中心方向的区域(即第一个区域)，而审讯人位于其他区域，本实施例通过对比枪型阵列第一个固定波束输出和枪型阵列其他方向固定波束输出的能量和，来判决当前说话人是审讯人还是被审讯人。

具体的，分别计算第一方说话人方向的第一固定波束形成输出的波束能量P₁(l)和枪型麦克风阵列其它方向的第一固定波束形成输出的波束能量和P₂(l)：

再计算上述的波束能量与波束能量和之间的比值，根据比值与预设能量阈值，确定当前说话人角色：

用Speaker(l)表示当前说话人角色判决结果，共三种角色判决结果，即当前说话人为被审讯人，当前说话人为审讯人，当前说话人为被审讯人和审讯人(同时讲话)，具体可以使用-1,0或者1来表示三种角色判决结果，如Speaker(l)＝-1表示当前说话人为被审讯人，Speaker(l)＝1当前说话人为审讯人，Speaker(l)＝0当前审讯人和被审讯人同时说话，如下式所示：

其中γ₁和γ₂是预先设定的能量阈值，满足0<γ₂<γ₁，具体取值可以根据应用需求或实验结果确定；当然所述说话人判决结果也可以采用其它表示方法，本申请不作限定。

S33：对第二语音信号进行固定波束形成，得到第二固定波束形成输出。

圆型麦克风阵列采集的第二语音信号是时域信号，在固定波束形成时，可以先将时域信号转换为频域信号，再根据频域信号进行固定波束形成。

具体的，对时域信号进行分帧加窗处理，再做傅里叶变换，得到频域信号。具体过程与现有技术相同，在此不再详述。傅里叶变换后，第二语音信号x_C,1(n),…,x_C,M2(n)对应的频域信号记为X_C,1(ω,l),…,X_C,M2(ω,l)。

在对第二语音信号进行固定波束形成时，如图5所示，将圆形麦克风阵列对应的空间均匀划分为N2个空间区域，θ_C,1,θ_C,2,…θ_C,N2为每个空间区域的中心方向，第n个空间区域的角度范围可以表示为[θ_C,n-Δθ,θ_C,n+Δθ]，其中Δθ＝180/N2。

类似第一语音信号的固定波束形成，在对第二语音信号进行固定波束形成时，也对上述的N2个空间区域的每个方向进行固定波束形成，得到每个方向的固定波束输出，具体在得到每个方向的固定波束输出时，采用固定波束系数对频域信号进行加权求和后得到。

圆型麦克风阵列的固定波束系数的求解采用LCMV算法，对于第n个固定波束，约束条件为中心方向θ_C,n响应为1，边界方向θ_C,n-Δθ和θ_C,n+Δθ的响应大于1-δ，其中δ为小于1的正实数。圆型麦克风阵列的第n个方向的固定波束输出记为Y_C,n(w,l),n＝1,2,…,N2。具体波束形成方法与现有技术相同，在此不再详述。

S34：对当前说话人的方向进行声源定位，定位出声源方向。

其中，声源方向可以用当前说话人的方向相对于圆型麦克风阵列的方向表示，即假设定位出的声源个数为N_Speaker个，声源方向的标号用{Index_1,…,Index_N_Speaker}表示，则{Index_1,…,Index_N_Speaker}是{1,2,…,N2}的子集。

具体的，先应用时频掩码算法对频率点进行分类，然后对分类后的频率点做声源定位，可应用相位传输广义互相关算法(Generalized Cross Correlation with PhaseTransform，GCC-PHAT)，定位出一个或多个声源方向。如图6为声源定位示意图，假设被审讯人员和审讯人员相对于圆型麦克风阵列的声源方向分别为圆型麦克风阵列区域划分的第1区域和第3区域，当审讯人员和被审讯人员同时说话时，可以定位到两个声源方向，即定位到的声源方向数N_Speaker＝2，定位到的声源方向标号与圆型麦克风阵列波束方向标号对应关系为{Index_1,…,Index_2}＝{1,3}。

S35：选择定位出的声源方向上的第二固定波束形成输出。

在定位出声源方向后，可以从N2个方向的第二固定波束形成输出中选择声源方向的第二固定波束形成输出，如定位出的声源方向{Index_1,…,Index_2}＝{1,3}时，则选择第1区域方向和第3区域方向的第二固定波束形成输出。

S36：获取选择出的第二固定波束形成输出与第一方说话人方向上的第一固定波束形成输出之间的相关系数。

如上述所示，θ_G,1方向为被审讯人所在方向，即第一方说话人方向，则第一方说话人方向上的第一固定波束形成输出为Y_G,1(w,l)，即枪型麦克风阵列第一方向上的固定波束形成输出。

选择出的第二固定波束形成输出用Y_C,n(w,l),n＝Index_1,Index_2,…,Index_N_Speaker表示，则上述的相关系数的计算公式为：

可以理解的是，在得到N2个第二固定波束形成输出后，也可以分别计算N2个第二固定波束形成输出中每个第二固定波束形成输出与第一方说话人方向上的第一固定波束形成输出之间的相关系数，从而得到N2个相关系数，之后再从N2个相关系数中选择出N_Speaker个声源方向对应的相关系数。

S37：根据当前说话人角色、选择出的第二固定波束形成输出、定位出的声源方向个数以及获取的相关系数，确定第二方说话人方向。

如上所示，根据第一波束形成输出可以确定出当前说话人角色；根据声源定位技术可以确定出声源方向及确定声源方向个数；根据定位出的声源方向可以在第二固定波束形成输出中选择出声源方向上的第二固定波束形成输出；根据选择出的第二固定波束形成输出与第一方说话人方向上的第一固定波束形成输出可以计算出相关系数。

在得到上述各参数后，可以据此确定第二方说话人方向，如确定审讯人员方向。

具体的，分为如下情况：

(1)当Speaker(l)＝-1时，表示当前说话人为被审讯人，审讯人员方向使用上一次定位到的审讯人员方向；

(2)当Speaker(l)＝1时，表示当前说话人为审讯人员，从选择出的N_Speaker个声源方向上的第二固定波束形成输出中选取波束能量最大的第二固定波束形成输出，将选取的第二固定波束形成输出对应的方向作为审讯人员方向；

(3)当Speaker(l)＝0且N_Speaker＝1时(即只定位出一个声源方向)，如果ρ_{Index_1}(l)>δ_ρ，即定位出的声源方向上的第二固定波束形成输出与被审讯人方向上的第一固定波束形成输出之间的相关度较高，则认为定位出的方向是被审讯人方向；审讯人员方向使用上一次定位到的审讯人员方向；否则，审讯人员方向为定位到的方向，即Index_1方向。其中δ_ρ是设定的相关系数阈值，具体取值根据实验结果或应用需求确定，满足0<δ_ρ<1。

(4)当Speaker(l)＝0且N_Speaker>1时，在选择出的第二固定波束形成输出中去除上述相关系数最大的第二固定波束形成输出，在剩余的第二固定波束形成输出中选取波束能量最大的第二固定波束形成输出，将选取的第二固定波束形成输出对应的方向作为审讯人员方向。

上述确定出的第二方说话人方向用相对于圆型麦克风阵列的方向表示，所述定位出的声源方向标号与圆型麦克风阵列的方向对应，如用Index_T表示，Index_T是1,2,…,N2中的任一值。

通过图3所示的流程可以确定出第二方说话人方向，如审讯人员方向。由于第一方的人数是一人且已知，因此第一方说话人方向是已知的。在确定出第一方说话人方向和第二方说话人方向后，可以根据这两个说话人方向进行说话人语音分离，得到第一方的语音信号和第二方的语音信号，如分离后的语音信号包含两路输出，一路仅包含被审讯人语音，另一路仅包含审讯人员语音。

具体的，可以采用两个广义旁瓣消除(Generalized Side lobe Canceller，GSC)进行语音分离，每个GSC模块可以得到一路分离后的语音信号。

具体的，分别将第一方说话人方向和第二方说话人方向作为目标说话人方向，获取目标说话人方向的固定波束输出作为目标波束，以及获取非目标说话人方向的固定波束输出作为参考波束；将目标波束和参考波束作为GSC模块的输入，与GSC模块的阻塞系数和自适应噪声消除系数运算后得到GSC模块的输出，将输出作为分离后的目标说话人的语音信号。

单个GSC模块的示意图如图7所示，图中省略了角频率和帧序号(ω,l)。

如图7所示，如图7所示，目标波束用Y_T(ω,l)表示，参考波束用Y_R,k(ω,l),k＝1,2,…,K表示，共有K个参考波束。

假设第一个GSC模块的输出目标是被审讯人的语音，第二个GSC模块的输出目标是审讯人员的语音。

相应的，第一个GSC模块的目标波束是第一个GSC模块的目标说话人方向的固定波束输出，即被审讯人方向的第一固定波束输出，即Y_G,1(w,l)；第一个GSC模块的参考波束是第一个GSC模块的非目标说话人方向的固定波束输出，即从除Y_G,1(w,l)之外的第一固定波束输出和第二固定波束输出中选取。进一步的，为了消除审讯人员的语音，第一个GSC模块的参考波束中需包含第二方说话人方向的第二固定波束输出，即包含Y_{C,Index_T}(w,l)。

相应的，第二个GSC模块的目标波束是第二个GSC模块的目标说话人方向的固定波束输出，即审讯人员方向的第二固定波束输出，即Y_{C,Index_T}(w,l)；第二个GSC模块的参考波束是第二个GSC模块的非目标说话人方向的固定波束输出，即从除Y_{C,Index_T}(w,l)之外的第二固定波束输出和第一固定波束输出中选取。进一步的，为了消除被审讯人的语音，第二个GSC模块的参考波束中需包含第一方说话人方向的第一固定波束输出，即包含Y_G,1(w,l)。

如图7所示，GSC模块的参数包括阻塞系数和自适应噪声消除系数GSC模块的输入与上述系数的运算过程包括：

首先用阻塞系数消除参考波束里面泄露的目标信号，得到噪声参考，如下式：

E_R,k(ω,l)＝Y_R,k(ω,l)-w_Block,k(ω,l)Y_T(ω,l)

然后用自适应噪声消除系数消除目标波束包含的噪声成分，得到增强的目标语音，如下式：

上述的GSC模块的输出E_T(ω,l)就是目标说话人的语音信号，如，第一个GSC模块的输出是被审讯人的语音信号，第二个GSC模块的输出是审讯人员的语音信号。

进一步的，上述的阻塞系数和自适应噪声消除系数可以根据输入信号实时更新(一般初始值全设置为0)。

具体的，如果当前信号为目标语音信号时，按下式更新阻塞系数：

w_Block,k(ω,l+1)＝w_Block,k(ω,l)+μ₁E_R,k(ω,l)Y_R,k(ω,l)

其中μ₁为设定的更新步长。

如果当前信号为干扰语音信号时，按下式更新自适应噪声消除系数：

w_ANC,k(ω,l+1)＝w_ANC,k(ω,l)+μ₂E_T(ω,l)E_R,k(ω,l)

其中μ₂为设定的更新步长。

上述的目标语音信号和干扰语音信号的判断可以依据当前说话人角色进行判定。再结合第一个GSC模块的目标输出是被审讯人的语音，第二个GSC模块的目标输出是审讯人员的语音，因此，当Speaker(l)＝-1时更新第一个GSC模块的阻塞系数和第二个GSC模块的自适应噪声消除系数，当Speaker(l)＝1时更新第一个GSC模块的自适应噪声消除系数和第二个GSC模块的阻塞系数。

图8是本申请一个实施例提出的录音装置的结构示意图。

如图8所示，本实施例的装置80包括：获取模块81、确定模块82和分离模块83。

获取模块81，用于获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；

确定模块82，用于对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人；

分离模块83，用于根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。

一些实施例中，参见图9，所述确定模块82包括：

第一波束形成子模块821，用于对第一语音信号进行固定波束形成，得到第一固定波束形成输出；

角色确定子模块822，用于根据第一固定波束形成输出确定当前说话人角色；

第二波束形成子模块823，用于对第二语音信号进行固定波束形成，得到第二固定波束形成输出；

声源定位子模块824，用于对当前说话人的方向进行声源定位，定位出声源方向；

选择子模块825，用于选择定位出的声源方向上的第二固定波束形成输出；

相关系数获取子模块826，用于获取选择出的第二固定波束形成输出与第一方说话人方向上的第一固定波束形成输出之间的相关系数；

说话人方向确定子模块827，用于根据当前说话人角色、选择出的第二固定波束形成输出、定位出的声源方向个数以及获取的相关系数，确定第二方说话人方向。

一些实施例中，所述角色确定子模块822具体用于：

分别计算第一方说话人方向的第一固定波束形成输出的波束能量和其它方向的第一固定波束形成输出的波束能量和；

计算所述波束能量与所述波束能量和之间的比值；

在所述比值大于或等于第一能量阈值时，确定当前说话人为第一方；

在所述比值小于或等于第二能量阈值时，确定当前说话人为第二方；

在所述比值大于第二能量阈值且小于第一能量阈值时，确定当前说话人为第一方和第二方。

一些实施例中，所述说话人方向确定子模块827具体用于：

如果当前说话人为第一方，则确定第二方说话人方向为上一次定位到的第二方说话人方向；

如果当前说话人为第二方，在选择出的第二固定波束形成输出中选取波束能量最大的第二固定波束形成输出，将选取出的第二固定波束形成输出对应的方向确定为第二方说话人方向；

如果当前说话人为第一方和第二方，且声源方向为一个，则当所述相关系数大于相关系数阈值时，则确定第二方说话人方向为上一次定位到的第二方说话人方向；当所述相关系数小于或等于相关系数阈值时，则将选择出的第二固定波束形成输出对应的方向确定为第二方说话人方向；

如果当前说话人为第一方和第二方，且声源方向大于一个，在选择出的第二固定波束形成输出中去除所述相关系数最大的第二固定波束形成输出，在剩余的第二固定波束形成输出中选取波束能量最大的第二固定波束形成输出，将选取的第二固定波束形成输出对应的方向确定为第二方说话人方向。

一些实施例中，所述分离模块83具体用于：

分别将第一方说话人方向和第二方说话人方向作为目标说话人方向，获取目标说话人方向的固定波束输出作为目标波束，以及获取非目标说话人方向的固定波束输出作为参考波束；

将目标波束和参考波束作为GSC模块的输入，与GSC模块的阻塞系数和自适应噪声消除系数运算后得到GSC模块的输出，将输出作为分离后的目标说话人的语音信号。

一些实施例中，当目标说话人方向为第一方说话人方向时，所述参考波束包括：第二语音信号对应的波束形成输出中第二方说话人方向的波束形成输出；

当目标说话人方向为第二方说话人方向时，所述参考波束包括：第一语音信号对应的波束形成输出中第一方说话人方向的波束形成输出。

一些实施例中，所述阻塞系数或自适应噪声消除系数是根据当前说话人角色进行更新的。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种录音方法，其特征在于，包括：

获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；所述枪型麦克风阵列是由多个麦克风组成的线性阵列；所述圆型麦克风阵列为单个环形的麦克风阵列，或者多个同心圆环麦克风阵列；

对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人；

根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，包括：

对第一语音信号进行固定波束形成，得到第一固定波束形成输出；

根据第一固定波束形成输出确定当前说话人角色；

对第二语音信号进行固定波束形成，得到第二固定波束形成输出；

对当前说话人的方向进行声源定位，定位出声源方向；

选择定位出的声源方向上的第二固定波束形成输出；

获取选择出的第二固定波束形成输出与第一方说话人方向上的第一固定波束形成输出之间的相关系数；

根据当前说话人角色、选择出的第二固定波束形成输出、定位出的声源方向个数以及获取的相关系数，确定第二方说话人方向。

3.根据权利要求2所述的方法，其特征在于，所述根据第一固定波束形成输出确定当前说话人角色，包括：

计算所述波束能量与所述波束能量和之间的比值；

4.根据权利要求2所述的方法，其特征在于，所述根据当前说话人角色、选择出的第二固定波束形成输出、定位出的声源方向个数以及获取的相关系数，确定第二方说话人方向，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号，包括：

6.根据权利要求5所述的方法，其特征在于，

当目标说话人方向为第一方说话人方向时，所述参考波束包括：第二语音信号对应的波束形成输出中第二方说话人方向的波束形成输出；

7.根据权利要求5所述的方法，其特征在于，所述阻塞系数或自适应噪声消除系数是根据当前说话人角色进行更新的。

8.一种录音装置，其特征在于，包括：

获取模块，用于获取枪型麦克风阵列采集的第一语音信号和圆型麦克风阵列采集的第二语音信号，其中，所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；所述枪型麦克风阵列是由多个麦克风组成的线性阵列；所述圆型麦克风阵列为单个环形的麦克风阵列，或者多个同心圆环麦克风阵列；

确定模块，用于对所述第一语音信号和所述第二语音信号分别进行波束形成，根据波束形成输出确定待录音的第二方说话人方向，其中，所述第二方的人数为一人或多人；

分离模块，用于根据第一方说话人方向和所述第二方说话人方向进行说话人语音分离，得到第一方和第二方分离后的录制语音信号。

9.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

第一波束形成子模块，用于对第一语音信号进行固定波束形成，得到第一固定波束形成输出；

角色确定子模块，用于根据第一固定波束形成输出确定当前说话人角色；

第二波束形成子模块，用于对第二语音信号进行固定波束形成，得到第二固定波束形成输出；

声源定位子模块，用于对当前说话人的方向进行声源定位，定位出声源方向；

选择子模块，用于选择定位出的声源方向上的第二固定波束形成输出；

相关系数获取子模块，用于获取选择出的第二固定波束形成输出与第一方说话人方向上的第一固定波束形成输出之间的相关系数；

说话人方向确定子模块，用于根据当前说话人角色、选择出的第二固定波束形成输出、定位出的声源方向个数以及获取的相关系数，确定第二方说话人方向。

10.根据权利要求9所述的装置，其特征在于，所述角色确定子模块具体用于：

计算所述波束能量与所述波束能量和之间的比值；

11.根据权利要求9所述的装置，其特征在于，所述说话人方向确定子模块具体用于：

12.根据权利要求8所述的装置，其特征在于，所述分离模块具体用于：

13.根据权利要求12所述的装置，其特征在于，

14.根据权利要求12所述的装置，其特征在于，所述阻塞系数或自适应噪声消除系数是根据当前说话人角色进行更新的。

15.一种录音系统，其特征在于，包括：

枪型麦克风阵列、圆型麦克风阵列和录音装置；

所述枪型麦克风阵列端向指向待录音的第一方，所述第一方的人数为一人；

所述枪型麦克风阵列和圆型麦克风阵列分别用于采集所述第一方和/或待录音的第二方的语音信号，所述第二方的人数为一人或多人；所述枪型麦克风阵列是由多个麦克风组成的线性阵列；所述圆型麦克风阵列为单个环形的麦克风阵列，或者多个同心圆环麦克风阵列；

所述录音装置用于对枪型麦克风阵列采集的语音信号和圆型麦克风阵列采集的语音信号进行语音信号处理，得到说话人分离的第一方的录制语音信号和第二方的录制语音信号。