CN110310683A

CN110310683A - 录音处理方法及装置

Info

Publication number: CN110310683A
Application number: CN201910585776.7A
Authority: CN
Inventors: 徐东阳; 马峰; 王海坤; 黄磊
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-08
Anticipated expiration: 2039-07-01
Also published as: CN110310683B

Abstract

本发明实施例提供一种录音处理方法及装置，属于语音处理技术领域。包括：对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。由于可以避免因为某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

Description

录音处理方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种录音处理方法及装置。

背景技术

目前司法机关在庭审过程中需要对庭审情况和问答内容进行记录，需要耗费相当的人力，语音识别技术的发展为解决这个问题提供了有效的途径。在相关技术中，一般是直接通过普通录音设备进行录音记录。而现实庭审环境中的声学现象比较复杂：首先，对于一些空间大而导致混响严重的庭审现场，空调、功放及旁听噪声等环境噪声会使得录音信噪比较低。其次，发言人一般包括法官、辩护人、原告及被告等不同角色，彼此距离比较分散，录音设备无法兼顾到每一个人，录音数据会存在较大混响，大大降低了录音的清晰度及可懂度。最后，庭审中存在多人发言，普通录音设备记录的多人发言内容是混在一起的，导致庭审记录和录音的回看回听比较耗时。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的录音处理方法及装置。

根据本发明实施例的第一方面，提供了一种录音处理方法，包括：

对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；

根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。

根据本发明实施例的第二方面，提供了一种录音处理装置，包括：

第一获取模块，用于对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；

确定模块，用于根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的录音处理方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的录音处理方法。

本发明实施例提供的录音处理方法及装置，由于每位发言人对应一路通道，且对于多路通道各自采集到的语音信号，可确定主通道，并进一步在多路通道中确定目标通道，以使得任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多麦克风多说话人的应用场景示意图；

图2为本发明实施例提供的一种录音处理方法的流程示意图；

图3为本发明实施例提供的一种主通道的切换示意图；

图4为本发明实施例提供的一种录音处理方法的流程示意图；

图5为本发明实施例提供的一种录音处理方法的流程示意图；

图6为本发明实施例提供的一种录音处理方法的流程示意图；

图7为本发明实施例提供的一种录音处理方法的流程示意图；

图8为本发明实施例提供的一种录音处理装置的结构示意图；

图9为本发明实施例提供的一种电子设备的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在相关技术中，首先，录音设备距离发言人距离都较远，容易受到环境噪声和房间混响的影响，从而导致录音清晰度和可懂度不高，整体质量较差；其次，不管是一个录音器还是多个录音器，都会同时录制所有人的语音，无法对语音进行发言人分离，从而在进行录音转写时无法实现角色分离，这也为后续的回听回看造成很大的不方便。针对相关技术中的问题，本发明实施例提供了一种多麦克风多说话人的应用场景(该应用场景可以为庭审系统，也可以为会议系统等)，具体可参考图1。在图1中，该应用场景下中每一成员均对应配置有一个麦克风，麦克风通过连接声卡进行录音。这样相较于只使用一个录音器或者是多个录音器，由于麦克风距离发言人距离比较近，从而录音时不容易受到环境噪声和房间混响的影响，录音清晰度和可懂度较高，整体质量高。但在庭审现场中，每位发言人前面都会放有一个麦克风用于收音以及送给音响扩音，当某人在发言时，不仅仅当前发言人所对应的麦克风可以接收到语音信号，临近该发言人的麦克风也能收到，甚至当扩音音量比较大时，距离扩音音响较近的麦克风也能接收到声音。如果直接将麦克风接收到的语音信号送给后端识别系统进行转写，那么极有可能出现多路转写的情况，这样将导致转写的文字与发言人无法一一对应，无法实现角色分离，达不到高效地回看回听。

针对目前庭审系统中存在的问题，本发明实施例提供了一种录音处理方法。需要说明的是，该方法可以用于上述庭审系统，还可以用于其它多人发言的录音场景，本发明实施例对此不作具体限定。参见图2，该方法包括：

201、对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；202、根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。

其中，N个声卡是用来负责对麦克风采集的语音信号进行录音的。具体地，1个声卡可连接M个麦克风，也即1个声卡对应的M路通道，1个麦克风对应一路通道；相应地，预设数量为M。若一共有4M个麦克风，则可以通过4个声卡进行连接。对于庭审系统，某一时刻一般只有一位发言人在说话。此时，该发言人面前的麦克风应当是离该发言人最近的，从而该麦克风对应的通道可以作为主通道。

需要说明的是，实际实施过程中，对于任一声卡对应的M路通道，在从该M路通道中确定主通道(也即对应实际说话人对应的麦克风)时，可以通过如下过程实现：对于M路通道中的每一通道，计算每路通道同一时刻采集到的语音信号帧对应的高频信噪比；选取最大高频信噪比对应的通道作为主通道。其中，将语音信号帧中的高频成分能量除以噪声中的高频成分能量即可得到语音信号帧对应的高频信噪比。对于M路通道，计算得到的高频信噪比可以分别记为SNR₁…SNR_M。另外，对于任一声卡对应的M路通道，上述201中通道t并非是具体指代M路通道中第t路通道，而是用来指代M路通道中被作为主通道的某一路通道。

还需要说明的是，为了保持系统稳定，避免随意及无效的主通道切换。在上述过程中，可选取最大高频信噪比对应的通道作为候选主通道。只有某一通道保持连续预设数量帧均为候选主通道时才被正式选为主通道，否则将继续沿用当前通道作为主通道。对于作为主通道的某一路通道(如通道t)，其被作为主通道通常也会延续一段时间，该段时间即为该通道t被作为主通道时的持续时间段，并可获取该持续时间段的持续时长。

对于被作为主通道的某一路通道(如通道t)，在得到该通道t被作为主通道时的持续时长后，则对于任一声卡对应的M路通道，可根据持续时长，从该M路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号作为该声卡在持续时间段内唯一录入的语音信号。其中，目标通道即为持续时间段内作为唯一录入语音信号的通道。另外，对于M路通道中除目标通道之外的其它通道，可将其它通道在持续时间段内采集到的语音信号进行抹零处理，本发明实施例对此不作具体限定。

另外，对于任一路通道，其在采集语音信号时，都可以对语音信号作预处理。具体地，通过桌上的麦克风可采集发言人的语音信号，得到原始语音信号，记为x₁(t)…x_M(l)。考虑到语音信号需要为短时平稳信号，从而可对语音信号中的时域信号进行分帧加窗预处理，再对每帧语音信号进行短时傅里叶变换后得到时频域语音信号，记为X₁(ω,l)…X_M(ω,l)，其中，ω表示傅里叶变换的角频率，l表示语音信号的帧序号。

语音信号在经过加窗分帧处理后，可利用神经网络模型对已经对齐的通道采集到的语音信号进行解混响处理。其中，输入为原始混响信号，输出为纯净信号。一方面，基于去除混响成分的目的，可利用回归模型，基于均方误差准则训练模型参数。另一方面，基于语音识别目的，利用声学模型，也可以对回归模型的参数进行指导。为了更好的提高识别准确率，本发明实施例可采用联合训练的方式进行最终的网络模型训练。

本发明实施例提供的方法，由于每位发言人对应一路通道，且对于多路通道各自采集到的语音信号，可确定主通道，并进一步在多路通道中确定目标通道，以使得任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

考虑到实际应用过程中，某些无效声音经常会引起主通道不必要的切换，这些无效声音通常很短暂，比如咳嗽声、座椅移动音、开关门声等，这会导致转写漏字，严重影响到系统性能。针对该问题，基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道的方式作具体限定，包括但不限于：对于预设数量路通道中被作为主通道的一路通道，若持续时长不小于预设阈值，则将该一路通道作为目标通道。其中，预设阈值Δt的大小可根据需求进行设置，本发明实施例对此不作具体限定。

例如，若某一声卡对应M路通道，在t0到t1这个时间段内，是将通道M1作为主通道。在t1到t2这个时间段内，是将通道M2作为主通道。而在t2到t3这个时间段内，是将通道M3作为主通道。而对于t1到t2这个时间段，该时间段是M2被作为主通道时的持续时间段，若在该持续时间段的持续时长(t2-t1)不小于预设阈值Δt，则可将通道M2作为目标通道，并将通道M2在t1到t2这个时间段内采集到的语音信号作为该声卡在持续时间段内唯一录入的语音信号。

本发明实施例提供的方法，由于可以根据通道被作为主通道时的持续时长来决定声卡在持续时间段内实际录入的语音信号，从而可以避免因无效声音而导致主通道切换，并录入了无效声音。

基于上述实施例的内容，作为一种可选实施例，在持续时间段的起始时刻，主通道由预设数量路通道中除通道t之外的其它通道切入至通道t；在持续时间段的结束时刻，主通道由通道t切出至预设数量路通道中除通道t之外的其它通道。需要说明的是，对于任一声卡对应的M路通道(预设数量路通道)，上述说明中的通道t并非是具体指代M路通道中第t路通道，而是用来指代M路通道中被作为主通道的某一路通道。

例如，若在t0到t1这个时间段内，是将通道M1作为主通道。在t1到t2这个时间段内，是将通道M2作为主通道。而在t2到t3这个时间段内，是将通道M3作为主通道。对于t1到t2这个时间段，在起始时刻t1是由通道M1切入至通道M2，在结束时刻t2是由通道M2切出至通道M1。

本发明实施例提供的方法，在多路通道相互切入切出的情形下，可使得任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道的方式作具体限定，包括但不限于：若持续时长小于预设阈值，则根据切入通道在持续时间段内采集到的第一语音信号、切出通道在持续时间段内采集到的第二语音信号及通道t在持续时间段内采集到的第三语音信号，从切入通道、切出通道及通道t中确定目标通道；其中，切入通道指的是在起始时刻上，除通道t之外的其它通道中，切入至通道t的通道；切出通道指的是在结束时刻上，除通道t之外的其它通道中，由通道t切出至的通道。其中，通道t可参考上述实施例的解释说明。

例如，对于t1到t2这个时间段，在起始时刻t1是由通道M1切入至通道M2，在结束时刻t2是由通道M2切出至通道M1。结合上述定义，切入通道指的是在起始时刻t1上，除通道M2之外的其它通道中，切入至通道M2的通道，也即为通道M1。切出通道指的是在结束时刻t2上，除通道M2之外的其它通道中，由通道M2切出至的通道，也即同样为通道M1。在上述示例中，通道t具体为通道M2，切入通道为M1，切出通道也为M1。其中，主通道切换的过程可参考图3。

需要说明的是，实际实施过程中，该过程可以理解为一种“软切换”。具体地，在t0到t1这个时间段内，是将通道M1作为主通道。而在此过程中，可实时检测M路通道中当前哪一路通道符合切换主通道的条件。若在t1这个时刻检测到通道M2可以作为主通道，则此时并不立即直接对通道M1在t1时刻后采集到的语音信号作抹零处理。而是将主通道切换至通道M2的同时，在t1时刻后同时保留通道M1及通道M2采集到的语音信号，并继续实时检测M路通道中当前哪一路通道符合切换主通道的条件。若在t2这个时刻检测到通道M1可以作为主通道，在前面则已经保留了t1至t2这个时间段内，通道M1采集到的语音信号。由于在该示例中切入通道与切出通道均为通道M1，通道M1在t1至t2这个时间段内采集到的语音信号，也即第一语音信号与第二语音信号是相同的。因此，可根据通道M1在持续时间段内采集到的第一语音信号、通道M2在持续时间段内采集到的第三语音信号，从通道M1及通道M2中确定目标通道。

同理，若在t2这个时刻检测到通道M3可以作为主通道，则在t1时刻后可同时保留通道M1、通道M2及通道M3采集到的语音信号。需要说明的是，由于并不一定能够预知在t2时刻会发生主通道切换，也不一定可预知t2时刻会切换至哪个通道，从而针对该情形，在t1时刻后可同时保留所有通道采集到的语音信号。此时，切入通道为M1，切出通道为M3。根据切入通道M1在持续时间段内采集到的第一语音信号、切出通道M3在持续时间段内采集到的第二语音信号及通道M2在持续时间段内采集到的第三语音信号，可从通道M1、通道M2及通道M3中确定目标通道。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据切入通道在持续时间段内采集到的第一语音信号、切出通道在持续时间段内采集到的第二语音信号及通道t在持续时间段内采集到的第三语音信号，从切入通道、切出通道及通道t中确定目标通道的方式作具体限定，包括但不限于：分别获取第一语音信号、第二语音信号及第三语音信号对应的评价指数，并根据评价指数确定目标通道。

其中，评价指数主要是用于评价语音信号的质量。对于任一声卡，在该声卡的M路通道中确定目标通道后，可将目标通道在持续时间段内采集到的语音信号作为该声卡在持续时间段内唯一录入的语音信号。需要说明的是，上述过程相当于防串音处理，对于经由上述过程得到的语音信号，可将这些语音信号进行短时傅里叶反变换得到时域信号，并将时域信号送入后端转写系统生成转写文字。

本发明实施例提供的方法，通过分别获取第一语音信号、第二语音信号及第三语音信号对应的评价指数，并根据评价指数确定目标通道。由于可根据语音信号的评价指数，在任一时间段确定一路通道作为目标通道，并在任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，从而可避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

基于上述实施例的内容，作为一种可选实施例，评价指数为语音信号的信噪比或者为将语音信号转写为文本后的文本评分。以评价指数为语音信号的信噪比为例，在分别获取第一语音信号、第二语音信号及第三语音信号对应的信噪比后，可确定最大信噪比对应的语音信号，并将该语音信号对应的通道确定为目标通道。

本发明实施例提供的方法，由于可根据语音信号的信噪比或语音信号转写为文本后的文本评分，在任一时间段内确定一路通道作为目标通道，并在任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，从而可避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

基于上述实施例的内容，作为一种可选实施例，切入通道与切出通道为相同的通道或者不同的通道。

本发明实施例提供的方法，针对不同的主通道切换情形，均可使得任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

由上述实施例内容可知，1个声卡可连接M个麦克风，也即1个声卡对应的M路通道，1个麦克风对应一路通道。实际实施过程中，对于十人以内的小型会议室，单个声卡基本可以满足通道需求。但大多数情况下，出席会议人数少则十几人，多则几十人甚至上百人，需要用到多个声卡协同工作，同时接收所有音频，然后一并传给系统进行防串音处理，也即执行上述实施例提供的方法。一般而言，每个声卡的启动时间是不一致的。

另外，由于不受同一晶振控制，每个声卡的采样率不能做到完全一致，这将导致同一时间内数据采样点数不相同，该差异将随着时间的增长而变大。以上两种情况将导致不同声卡采集到的语音信号越来越无法对齐，无法达到区分说话人角色的目的。为了解决这个问题，需要对声卡数据进行校准对齐，且为实时对齐。以使得在执行上述实施例提供的方法时，N个声卡是已经校准对齐的。

基于上述实施例的内容，作为一种可选实施例，N个声卡中每一声卡均设置有预设数量路通道，每一声卡的预设数量路通道均按照相同的编号方式进行编号；相应地，参见图4，该方法还包括：401、选定一个通道编号，将每一声卡中通道编号对应的通道作为指定通道，并向每一声卡中的指定通道接入同源音频信号；402、根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵；403、根据每一声卡对应的特征矩阵，对N个声卡进行校准对齐。

其中，上述步骤401至步骤403可以在上述方法实施例中步骤201至步骤202之前执行。例如，以每一声卡都连接5个不同的麦克风为例，则每一声卡均设置有5路通道，分别为通道M1、通道M2、通道M3、通道M4及通道M5。可选定一个通道编号，如通道M1，将每一声卡的通道M1作为指定通道，并向每一声卡的通道M1接入同源音频信号。

需要说明的是，为了保证每一声卡的通道M1接入的是同源音频信号，可选定另一个通道编号，如通道M2，将通道M2输出的音频信号分别接入每一声卡的通道M1，本发明实施例对此不作具体限定。如此以来，所有声卡的通道M1的输出信号除了幅度上少许差异以外(主要是由各个声卡增益不同引起)，只存在时间上的差异，该时间上的差异恰好是由于声卡开机时间和声卡采样率差异引起的。

在向每一声卡中的指定通道接入同源音频信号后，可根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵。其中，不同声卡对应的特征矩阵之间的差异可以用来反映不同声卡由于开机时间和声卡采样率差异引起的时延。根据每一声卡对应的特征矩阵，即可对N个声卡进行校准对齐。

本发明实施例提供的方法，通过向每一声卡中的指定通道接入同源音频信号。根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵。根据每一声卡对应的特征矩阵，对N个声卡进行校准对齐。由于可以预先对每一声卡进行校准对齐，从而可避免不同声卡由于开机时间和声卡采样率差异引起的时延。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵的方式作具体限定。参见图5，包括但不限于：501、对于任一声卡中的指定通道接入的第n帧至第m帧，在第n帧至第m帧中的每一帧中提取K个特征频点；502、根据每一帧中的K个特征频点，确定每一帧对应的特征向量，并将每一帧对应的特征向量组合成任一声卡对应的特征矩阵。

例如，以声卡为声卡1且指定通道为通道M1为例。对于声卡1的通道M1接入的第n帧音频信号帧至第m帧音频信号帧，可在第n帧至第m帧中的每一帧中提取K个特征频点。其中，每一帧的帧长一致，特征频点可以基于时间点进行选取，本发明实施例对此不作具体限定。对于任一帧，该帧中每一特征频点上的语音信号均能反映其语音信号特征，将该帧中K个特征频点上的语音信号特征进行组合，即可得到每一帧对应的特征向量。将第n帧至第m帧中每一帧的特征向量进行组合，即可得到声卡1对应的特征矩阵。对于其它声卡的通道M1，也可以采样上述相同的方式，得到其它每一声卡对应的特征矩阵。

本发明实施例提供的方法，由于可以预先根据每一声卡对应的特征矩阵，对每一声卡进行校准对齐，从而可避免不同声卡由于开机时间和声卡采样率差异引起的时延。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据每一帧中的K个特征频点，确定每一帧对应的特征向量的方式作具体限定。参见图6，包括但不限于：601、对于任一帧中的K个特征频点，获取K个特征频点中每一特征频点的瞬时能量，并获取每一特征频点的加权能量；602、根据每一特征频点的瞬时能量及加权能量，确定每一特征频点的特征值，根据K个特征频点中每一特征频点的特征值，确定任一帧对应的特征向量。

例如，对于声卡1的通道M1接入的第n帧至第m帧，这些帧中的第l帧，可先提取第l帧中的K个特征频点。对于这K个特征频点中的每一特征频点，每一特征频点的瞬时能量可通过如下公式表示：

在上述公式中，表示第l帧中第k个特征频点的瞬时能量，表示的二范数，表示第l帧中第k个特征频点的时频域音频信号。将二范数取平方即可得到瞬时能量。

加权能量可以用来反映第n帧至第m帧中在第l帧之前的某一帧，如第(l-j+1)帧(也即第l帧的前j帧)，该帧至第l帧中每一帧的第k个特征频点的瞬时能量加权和，从而得到第l帧中第k个特征频点的加权能量。通过上述过程可以得到第l帧中第k个特征频点的瞬时能量和加权能量。根据第k个特征频点的瞬时能量及加权能量，可确定第k个特征频点的特征值。同理，按照上述流程可以确定第l帧中每一特征频点的特征值，从而可以得到第l帧对应的特征向量。同理，第n帧至第m帧中的每一帧均可以按照上述过程计算得到特征向量。

本发明实施例提供的方法，由于后续可以预先根据每一声卡对应的特征矩阵，对每一声卡进行校准对齐，从而可避免不同声卡由于开机时间和声卡采样率差异引起的时延。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对获取每一特征频点的加权能量的方式作具体限定，包括但不限于：对于任一帧中K个特征频点中的任一特征频点，将任一特征频点记为第k个特征频点，对任一帧的第k个特征频点的瞬时能量，以及任一帧的前j帧中每一帧的第k个特征频点的瞬时能量，进行加权求和，得到任一帧中第k个特征频点的加权能量。

例如，对于第l帧中的第k个特征频点，对第l帧中的第k个特征频点的瞬时能量，以及第(l-j+1)帧至第l帧中每一帧的第k个特征频点的瞬时能量，也即第l帧的前j帧中每一帧的第k个特征频点的瞬时能量，进行加权求和，从而得到第l帧中的第k个特征频点的加权能量。其中，第l帧中的第k个特征频点的加权能量可通过如下公式进行表示：

在上述公式中，加权系数α_j需满足条件表示第l帧中的第k个特征频点的加权能量，表示第(l-j+p)帧中的第k个特征频点的瞬时能量。

对于第l帧中K个特征频点的每一特征频点，可按照上述过程计算每一特征频点的加权能量。同理，对于第n帧至第m帧中的每一帧，每一帧中每一特征频点的加权能量均可以按照上述过程计算。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据每一特征频点的瞬时能量及加权能量，确定每一特征频点的特征值的方式作具体限定，包括但不限于：对于任一帧中K个特征频点中的任一特征频点，若任一特征频点的瞬时能量大于任一特征频点的加权能量，则确定任一特征频点的特征值为第一预设值，若任一特征频点的瞬时能量不大于任一特征频点的加权能量，则确定任一特征频点的特征值为第二预设值，第一预设值与第二预设值的取值不同。

例如，对于第l帧中K个特征频点中的第k个特征频点，若第k个特征频点的瞬时能量大于第k个特征频点的加权能量，则确定第k个特征频点的特征值为第一预设值，若第k个特征频点的瞬时能量不大于第k个特征频点的加权能量，则确定第k个特征频点的特征值为第二预设值。其中，第一特征值可以取1，第二特征值可以取0，也可以反过来，本发明实施例对此不作具体限定。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据每一声卡对应的特征矩阵，对N个声卡进行校准对齐的方式作具体限定。参见图7，包括但不限于：701、对于N个声卡中除任一声卡之外的其它每一声卡，根据其它每一声卡对应的特征矩阵与任一声卡对应的特征矩阵之间在不同时延差下的相关性，确定其它每一声卡与任一声卡之间的最终时延差；702、根据其它每一声卡与任一声卡之间的最终时延差，将其它每一声卡向任一声卡进行校准对齐。

具体地，若上述实施例中第n帧至第m帧具体为第(l-L+1)帧至第l帧，则对于声卡n，其特征矩阵可以表示为Aⁿ(l)＝[Rⁿ(l-L+1),…,Rⁿ(l)]。其中，Rⁿ(l)即表示第l帧的特征向量。假设Lc为最大时延差(单位为帧)，以计算第n个声卡与第l个声卡之间的最终时延差为例，可先计算第n个声卡对应的特征矩阵与第l个声卡对应的特征矩阵之间在不同时延差下的相关性，具体可参考如下公式：

在上述公式中，D^n,1(i)表示第n个声卡对应的特征矩阵与第l个声卡对应的特征矩阵之间在时延差i(单位为帧)下的相关性。具体地，上面一个公式表示第l个声卡对应的特征矩阵向前偏移i帧与第n个声卡对应的特征矩阵之间的相关性，下面一个公式表示第n个声卡对应的特征矩阵向前偏移i帧与第l个声卡对应的特征矩阵之间的相关性。通过上述计算公式，可以计算得到第n个声卡对应的特征矩阵与第l个声卡对应的特征矩阵之间相互偏移多少帧，两者的相关性是最大的，从而可以得到第n个声卡与第l个声卡之间的最终时延差。

其中，使得D^n,1取值最大的最终时延差可记为若I_n取值大于Lc+1，则声卡n相对于声卡1的最终时延差可记为d^n,1＝I_n-Lc-1。按照上述流程，可以计算得到N个声卡中每一声卡与声卡l之间的最终时延差。最终，根据各个声卡与声卡l之间的最终时延差，调整各个声卡的数据流，可完成声卡间的数据对齐。

基于上述实施例的内容，本发明实施例提供了一种录音处理装置，该录音处理用于执行上述方法实施例中提供的录音处理方法。参见图8，该装置包括：

第一获取模块801，用于对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；

确定模块802，用于根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。

作为一种可选实施例，在持续时间段的起始时刻，主通道由预设数量路通道中除通道t之外的其它通道切入至通道t；在持续时间段的结束时刻，主通道由通道t切出至预设数量路通道中除通道t之外的其它通道。

作为一种可选实施例，确定模块802，用于当持续时长小于预设阈值时，则根据切入通道在持续时间段内采集到的第一语音信号、切出通道在持续时间段内采集到的第二语音信号及一路通道通道t在持续时间段内采集到的第三语音信号，从切入通道、切出通道及一路通道通道t中确定目标通道；其中，切入通道指的是在起始时刻上，除一路通道通道t之外的其它通道中，切入至一路通道通道t的通道；切出通道指的是在结束时刻上，除一路通道通道t之外的其它通道中，由一路通道通道t切出至的通道。

作为一种可选实施例，确定模块802，用于分别获取第一语音信号、第二语音信号及第三语音信号对应的评价指数，并根据评价指数确定目标通道。

作为一种可选实施例，评价指数为语音信号的信噪比或者为将语音信号转写为文本后的文本评分。

作为一种可选实施例，切入通道与切出通道为相同的通道或者不同的通道。

作为一种可选实施例，N个声卡中每一声卡均设置有预设数量路通道，每一声卡的预设数量路通道均按照相同的编号方式进行编号；相应地，该装置还包括：

接入模块，用于选定一个通道编号，将每一声卡中通道编号对应的通道作为指定通道，并向每一声卡中的指定通道接入同源音频信号；

第二获取模块，用于根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵；

校准对齐模块，用于根据每一声卡对应的特征矩阵，对N个声卡进行校准对齐。

作为一种可选实施例，第二获取模块，包括：

提取单元，用于对于任一声卡中的指定通道接入的第n帧至第m帧，在第n帧至第m帧中的每一帧中提取K个特征频点；

确定单元，用于根据每一帧中的K个特征频点，确定每一帧对应的特征向量，并将每一帧对应的特征向量组合成任一声卡对应的特征矩阵。

作为一种可选实施例，确定单元，包括：

第一获取子单元，用于对于任一帧中的K个特征频点，获取K个特征频点中每一特征频点的瞬时能量；

第二获取子单元，用于获取每一特征频点的加权能量；

第一确定子单元，用于根据每一特征频点的瞬时能量及加权能量，确定每一特征频点的特征值；

第二确定子单元，用于根据K个特征频点中每一特征频点的特征值，确定任一帧对应的特征向量。

作为一种可选实施例，第二获取子单元，用于对于任一帧中K个特征频点中的任一特征频点，将任一特征频点记为第k个特征频点，对任一帧的第k个特征频点的瞬时能量，以及任一帧的前j帧中每一帧的第k个特征频点的瞬时能量，进行加权求和，得到任一帧中第k个特征频点的加权能量。

作为一种可选实施例，第一确定子单元，用于对于任一帧中K个特征频点中的任一特征频点，若任一特征频点的瞬时能量大于任一特征频点的加权能量，则确定任一特征频点的特征值为第一预设值，若任一特征频点的瞬时能量不大于任一特征频点的加权能量，则确定任一特征频点的特征值为第二预设值，第一预设值与第二预设值的取值不同。

作为一种可选实施例，校准对齐模块，用于对于N个声卡中除任一声卡之外的其它每一声卡，根据其它每一声卡对应的特征矩阵与任一声卡对应的特征矩阵之间在不同时延差下的相关性，确定其它每一声卡与任一声卡之间的最终时延差；根据其它每一声卡与任一声卡之间的最终时延差，将其它每一声卡向任一声卡进行校准对齐。

本发明实施例提供的装置，由于每位发言人对应一路通道，且对于多路通道各自采集到的语音信号，可确定主通道，并进一步在多路通道中确定目标通道，以使得任一时间段内只将目标通道采集到的语音信号作为该时间段内唯一录入的语音信号，避免由于某位发言人对着某路通道讲话，其它路通道也采集到该发言人的讲话而导致讲话内容混乱的问题。与此同时，可以使得录入的讲话内容与发言人一一对应，从而实现角色分离，以便于后续高效地回看回听。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行如下方法：对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：对于已校准数据对齐的N个声卡中的任一声卡，若任一声卡的预设数量路通道中通道t被作为主通道，则获取通道t被作为主通道的持续时长；根据持续时长，从任一声卡的预设数量路通道中确定一路目标通道，并将目标通道在持续时间段内采集到的语音信号，作为任一声卡在持续时间段内唯一录入的语音信号，持续时间段为通道t被作为主通道的时间段。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种录音处理方法，其特征在于，包括：

对于已校准数据对齐的N个声卡中的任一声卡，若所述任一声卡的预设数量路通道中通道t被作为主通道，则获取所述通道t被作为主通道的持续时长；

根据所述持续时长，从所述任一声卡的预设数量路通道中确定一路目标通道，并将所述目标通道在持续时间段内采集到的语音信号，作为所述任一声卡在所述持续时间段内唯一录入的语音信号，所述持续时间段为所述通道t被作为主通道的时间段。

2.根据权利要求1所述的录音处理方法，其特征在于，在所述持续时间段的起始时刻，主通道由所述预设数量路通道中除所述通道t之外的其它通道切入至所述通道t；在所述持续时间段的结束时刻，主通道由所述通道t切出至所述预设数量路通道中除所述通道t之外的其它通道。

3.根据权利要求2所述的录音处理方法，其特征在于，所述根据所述持续时长，从所述任一声卡的预设数量路通道中确定一路目标通道，包括：

若所述持续时长小于预设阈值，则根据切入通道在所述持续时间段内采集到的第一语音信号、切出通道在所述持续时间段内采集到的第二语音信号及所述通道t在所述持续时间段内采集到的第三语音信号，从所述切入通道、所述切出通道及所述通道t中确定所述目标通道；其中，所述切入通道指的是在所述起始时刻上，除所述通道t之外的其它通道中，切入至所述通道t的通道；所述切出通道指的是在所述结束时刻上，除所述通道t之外的其它通道中，由所述通道t切出至的通道。

4.根据权利要求3所述的录音处理方法，其特征在于，所述根据切入通道在所述持续时间段内采集到的第一语音信号、切出通道在所述持续时间段内采集到的第二语音信号及所述通道t在所述持续时间段内采集到的第三语音信号，从所述切入通道、所述切出通道及所述通道t中确定所述目标通道，包括：

分别获取所述第一语音信号、所述第二语音信号及所述第三语音信号对应的评价指数，并根据所述评价指数确定所述目标通道。

5.根据权利要求4所述的录音处理方法，其特征在于，所述评价指数为语音信号的信噪比或者为将语音信号转写为文本后的文本评分。

6.根据权利要求3至5中任一项所述的录音处理方法，其特征在于，所述切入通道与所述切出通道为相同的通道或者不同的通道。

7.根据权利要求1所述的录音处理方法，其特征在于，所述N个声卡中每一声卡均设置有预设数量路通道，每一声卡的预设数量路通道均按照相同的编号方式进行编号；相应地，所述方法还包括：

选定一个通道编号，将每一声卡中所述通道编号对应的通道作为指定通道，并向每一声卡中的指定通道接入同源音频信号；

根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵；

根据每一声卡对应的特征矩阵，对所述N个声卡进行校准对齐。

8.根据权利要求7所述的录音处理方法，其特征在于，所述根据每一声卡中的指定通道接入的音频信号帧，获取每一声卡对应的特征矩阵，包括：

对于所述任一声卡中的指定通道接入的第n帧至第m帧，在第n帧至第m帧中的每一帧中提取K个特征频点；

根据每一帧中的K个特征频点，确定每一帧对应的特征向量，并将每一帧对应的特征向量组合成所述任一声卡对应的特征矩阵。

9.根据权利要求8所述的录音处理方法，其特征在于，所述根据每一帧中的K个特征频点，确定每一帧对应的特征向量，包括：

对于任一帧中的K个特征频点，获取所述K个特征频点中每一特征频点的瞬时能量，并获取每一特征频点的加权能量；

根据每一特征频点的瞬时能量及加权能量，确定每一特征频点的特征值，根据所述K个特征频点中每一特征频点的特征值，确定所述任一帧对应的特征向量。

10.根据权利要求9所述的录音处理方法，其特征在于，所述获取每一特征频点的加权能量，包括：

对于所述任一帧中K个特征频点中的任一特征频点，将所述任一特征频点记为第k个特征频点，对所述任一帧的第k个特征频点的瞬时能量，以及所述任一帧的前j帧中每一帧的第k个特征频点的瞬时能量，进行加权求和，得到所述任一帧中第k个特征频点的加权能量。

11.根据权利要求9所述的录音处理方法，其特征在于，所述根据每一特征频点的瞬时能量及加权能量，确定每一特征频点的特征值，包括：

对于所述任一帧中K个特征频点中的任一特征频点，若所述任一特征频点的瞬时能量大于所述任一特征频点的加权能量，则确定所述任一特征频点的特征值为第一预设值，若所述任一特征频点的瞬时能量不大于所述任一特征频点的加权能量，则确定所述任一特征频点的特征值为第二预设值，所述第一预设值与所述第二预设值的取值不同。

12.根据权利要求7所述的录音处理方法，其特征在于，所述根据每一声卡对应的特征矩阵，对所述N个声卡进行校准对齐，包括：

对于所述N个声卡中除所述任一声卡之外的其它每一声卡，根据其它每一声卡对应的特征矩阵与所述任一声卡对应的特征矩阵之间在不同时延差下的相关性，确定其它每一声卡与所述任一声卡之间的最终时延差；

根据其它每一声卡与所述任一声卡之间的最终时延差，将其它每一声卡向所述任一声卡进行校准对齐。

13.一种录音处理装置，其特征在于，包括：

第一获取模块，用于对于已校准数据对齐的N个声卡中的任一声卡，若所述任一声卡的预设数量路通道中通道t被作为主通道，则获取所述通道t被作为主通道的持续时长；

确定模块，用于根据所述持续时长，从所述任一声卡的预设数量路通道中确定一路目标通道，并将所述目标通道在持续时间段内采集到的语音信号，作为所述任一声卡在所述持续时间段内唯一录入的语音信号，所述持续时间段为所述通道t被作为主通道的时间段。

14.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至12任一所述的方法。

15.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至12任一所述的方法。