CN108769874A

CN108769874A - 一种实时分离音频的方法和装置

Info

Publication number: CN108769874A
Application number: CN201810608988.8A
Authority: CN
Inventors: 王泽龙; 陈昊亮
Original assignee: Guangzhou National Sound Technology Co Ltd
Current assignee: Shanghai Guoyin Intelligent Technology Co.,Ltd.
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-06
Anticipated expiration: 2038-06-13
Also published as: CN108769874B

Abstract

本申请公开了一种实时分离音频的方法和装置，通过从含有复数个麦克风的录音装置中获取待声音分离的音频，每个麦克风所录制到的声音占一个声道，计算出声源到达圆周上处于同一直径上的两个麦克风的时间差和采样频率；每一段音频，都有对应的声谱图，直接获取到待声音分离的音频的声谱图，在声谱图中每个采样点都有对应的能量值，计算在时间t内声源到达每个麦克风的所有采样点的总能量和声源到达与该麦克风处于同一直径上的所有采样点的总能量的余弦值，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取该声道的音频生成音频文件。解决了现有的声音分离方法不具备实时性，耗费时间，效率低下，人工成本高的技术问题。

Description

一种实时分离音频的方法和装置

技术领域

本申请涉及信息技术领域，尤其涉及一种实时分离音频的方法和装置。

背景技术

声音是由物体振动产生的声波，是通过介质传播并能被人或动物听觉器官所感知的波动现象。物理中的声音是由物体振动发生的，正在发声的物体叫做声源。在采集现场音频的时候，通常音频涵盖有不同时间段的不同声音，比如：一段采访音频，若需要对音频文里面的多个角色的声音进行分离，目前的做法是通过剪辑师利用剪辑软件对音频文件进行后期剪辑，把所需要的声音分离出来，但是，这种通过人工手动将音频文件中分离出需要的声音的方法，不具备实时性，耗费时间，效率低下，又提高了人工成本。

申请内容

本申请实施例提供了一种实时分离音频的方法和装置，解决了现有的声音分离方法不具备实时性，耗费时间，效率低下，人工成本高的技术问题。

有鉴于此，本申请第一方面提供了一种实时分离音频的方法，所述方法包括：

101、通过含有复数个麦克风的录音装置实时获取待声音分离的音频，所述录音装置的复数个所述麦克风分别设置在同一个圆周的复数个等分点上，每个所述麦克风各占一个声道；

102、对所述音频中的声源进行定位，计算所述声源到达所述圆周上处于同一直径上的两个麦克风的时间差T，根据所述时间差T计算所述声源的采样频率f；

103、根据所述采样频率f计算时间t内的对所述音频采样的采样点个数，并获取所述音频的声谱图，根据所述声谱图获取每个采样点的能量，计算所述声源到每个所述麦克风采样点的总能量和所述声源到与所述每个麦克风在同一直径上的所述麦克风的采样点的总能量的余弦值，比较所有余弦值的大小，分离出余弦值最大时对应的所述麦克风所在的声道作为所述声源的声道，提取所述声道的音频生成音频文件，所述t≤T。

优选地，步骤102具体包括：

对所述音频中的声源进行定位，计算所述圆周的直径d，根据所述直径d和声音在空气中传播的速度v，计算所述圆周上处于同一直径上的两个麦克风的时间差T，根据所述时间差T计算所述声源的采样频率f。

优选地，所述麦克风的数量为至少6个。

优选地，所述时间t为T/4。

本申请第二方面提供一种实时分离音频的装置，包括：

获取模块，用于通过含有复数个麦克风的录音装置实时获取待声音分离的音频，所述录音装置的复数个所述麦克风分别设置在同一个圆周的复数个等分点上，每个所述麦克风各占一个声道；

计算模块，用于对所述音频中的声源进行定位，计算所述声源到达所述圆周上处于同一直径上的两个麦克风的时间差T，根据所述时间差T计算所述声源的采样频率f；

分离模块，用于根据所述采样频率f计算时间t内的对所述音频采样的采样点个数，并获取所述音频的声谱图，根据所述声谱图获取每个采样点的能量，计算所述声源到每个所述麦克风采样点的总能量和所述声源到与所述每个麦克风在同一直径上的所述麦克风的采样点的总能量的余弦值，比较所有余弦值的大小，分离出余弦值最大时对应的所述麦克风所在的声道作为所述声源的声道，提取所述声道的音频生成音频文件，所述t≤T。

优选地，所述计算模块具体用于：

优选地，所述麦克风的数量为至少6个。

优选地，所述时间t为T/4。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供的一种实时分离音频的方法，通过从含有复数个麦克风的录音装置中实时获取待声音分离的音频，每个麦克风所录制到的声音占一个声道，因为该录音装置的复数个麦克风分别设置在同一个圆周的复数个等分点上，所以，每个麦克风都有与其对应的在同一直径上的麦克风，因此，可以计算出声源到达圆周上处于同一直径上的两个麦克风的时间差和采样频率；每一段音频，都有对应的声谱图，可以直接获取到待声音分离的音频的声谱图，在声谱图中每个采样点都有对应的能量值，计算在时间t内声源到达每个麦克风的所有采样点的总能量和声源到达与该麦克风处于同一直径上的所有采样点的总能量的余弦值，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取该声道的音频生成音频文件，即实现了音频的实时分离。本申请提供的方法，在录制音频时即可对音频进行声音分离，具备实时性，不需要等到音频录制结束之后再进行人工剪辑分离，效率较高，减少了人工成本。解决了现有的声音分离方法不具备实时性，耗费时间，效率低下，人工成本高的技术问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种实时分离音频的方法的一个实施例的流程示意图；

图2为本申请提供的一种实时分离音频的方法的另一个实施例的流程示意图；

图3为本申请提供的一种实时分离音频的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在缺少做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请设计了一种实时分离音频的方法和装置，从含有复数个麦克风的录音装置中获取待声音分离的音频，每个麦克风所录制到的声音占一个声道，计算出声源到达圆周上处于同一直径上的两个麦克风的时间差和采样频率；每一段音频，都有对应的声谱图，直接获取到待声音分离的音频的声谱图，在声谱图中每个采样点都有对应的能量值，计算在时间t内声源到达每个麦克风的所有采样点的总能量和声源到达与该麦克风处于同一直径上的所有采样点的总能量的余弦值，分离出余弦值最大时对应的麦克风的声道，提取该声道的音频生成音频文件。解决了现有的声音分离方法不具备实时性，耗费时间，效率低下，人工成本高的技术问题。

为了便于理解，请参阅图1，本申请提供的一种实时分离音频的方法的一个实施例，包括：

步骤101：通过含有复数个麦克风的录音装置获取待声音分离的音频，录音装置的复数个麦克风分别设置在同一个圆周的复数个等分点上，每个麦克风各占一个声道。

需要说明的是，为使得获取到的音频具有更好的准确性，需要进行多方位的音频获取，本申请实施例中所获取到的待声音分离的音频是通过含有复数个麦克法的录音装置获取到的，该录音装置的复数个麦克风分别设置在同一个圆周的复数个等分点上，每个麦克风所录制到的声音占一个声道。

步骤102：对音频中的声源进行定位，计算声源到达圆周上处于同一直径上的两个麦克风的时间差T，根据时间差T计算声源的采样频率f。

需要说明的是，对音频中的声源进行定位的方式可以是基于可控波束形成的声源定位或基于高分辨率谱估计的声源定位或基于到达时间差的声源定位，本申请不对声源定位的方式做具体限定，只要实现对声源定位的功能即可。圆周上的最远距离为直径两端点的距离，因此，计算声源到达其中一个麦克风和与声源到达该麦克风在同一直径上的另一麦克风的时间差，即可视为声源的传播周期，通过计算时间差，即可求出声源到所有麦克风的采样频率。

步骤103：根据采样频率f计算时间t内的对音频采样的采样点个数，并获取音频的声谱图，根据声谱图获取采样点的能量，计算声源到每个麦克风采样点的总能量和声源到与每个麦克风在同一直径上的麦克风的采样点的总能量的余弦值，比较所有余弦值的大小，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取声道的音频生成音频文件，t≤T。

需要说明的是，根据采样频率可以计算音频在时间t内的采样点个数，每段音频都有相对应的声谱图，可以直接获取，声谱图中的横坐标即为时间t，纵坐标即为采样点能量，计算时间t内，声源到达每个麦克风的采样点的总能量，求出声源到任意一个麦克风采样点的总能量和声源到与该麦克风在同一直径上的麦克风的采样点的总能量的余弦值，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取该声道的音频生成音频文件，即实现了声音的分离。可以理解的是，每个不同的声源都会相应地生成不同的音频文件，例如，现场采集到的一段时长为t的采访音频，时长t可分为t1、t2、t3和t4四个时间段，在t1时间段内是A声源的声音，在t2时间段内是B声源的声音，在t3时间段内是A声源的声音，在t4时间段内是C声源的声音，那么在采访结束过程中即可分离出来，在采访结束的同时生成的音频文件就应该有3个，一个音频文件仅包含有t1时间段和t3时间段的A声源的声音，一个音频文件仅包含有t2时间段的B声源的声音，另外一个则仅包含有t4时间段的C声源的声音的音频文件。

本申请实施例中，提供了一种实时分离音频的方法，通过从含有复数个麦克风的录音装置中实时获取待声音分离的音频，每个麦克风所录制到的声音占一个声道，因为该录音装置的复数个麦克风分别设置在同一个圆周的复数个等分点上，所以，每个麦克风都有与其对应的在同一直径上的麦克风，因此，可以计算出声源到达圆周上处于同一直径上的两个麦克风的时间差和采样频率；每一段音频，都有对应的声谱图，可以直接获取到待声音分离的音频的声谱图，在声谱图中每个采样点都有对应的能量值，计算在时间t内声源到达每个麦克风的所有采样点的总能量和声源到达与该麦克风处于同一直径上的所有采样点的总能量的余弦值，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取该声道的音频生成音频文件，即实现了音频的实时分离。本申请提供的方法，在录制音频时即可对音频进行声音分离，具备实时性，不需要等到音频录制结束之后再进行人工剪辑分离，效率较高，减少了人工成本。解决了现有的声音分离方法不具备实时性，耗费时间，效率低下，人工成本高的技术问题。

为了便于理解，请参阅图2，本申请提供的一种实时分离音频的方法的另一个实施例，包括：

步骤201：通过含有复数个麦克风的录音装置获取待声音分离的音频，录音装置的复数个麦克风分别设置在同一个圆周的复数个等分点上，每个麦克风各占一个声道。

需要说明的是，步骤201与步骤101一致，在此不进行详细赘述。

步骤202：对音频中的声源进行定位，计算圆周的直径d，根据直径d和声音在空气中传播的速度v，计算圆周上处于同一直径上的两个麦克风的时间差T，根据时间差T计算声源的采样频率f。

需要说明的是，根据时间、路程和速度之间的关系，已知路程和速度，即可求出时间，由于麦克风处在同一个圆周上，且分布在圆周的等分点上，因此，计算在同一圆周直径上的两个麦克风的距离即为圆周的直径，声音在空气中的传播速度是公知的，v＝340m/s，因此，可以计算出时间差T，采样频率即为时间差T的倒数。

步骤203：根据采样频率f计算时间t内的对音频采样的采样点个数，并获取音频的声谱图，根据声谱图获取采样点的能量，计算声源到每个麦克风采样点的总能量和声源到与每个麦克风在同一直径上的麦克风的采样点的总能量的余弦值，比较所有余弦值的大小，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取声道的音频生成音频文件，t≤T。

需要说明的是，步骤203与步骤103一致，在此不进行详细赘述。

进一步地，麦克风的数量为至少6个。

需要说明的是，麦克风的数量会影响到录制到的音频的声音分离精度，如表1所示。

表1

进一步地，时间t为T/4。

需要说明的是，音频声音的截取时间t也会影响到音频声音的分离，本申请中，所选择的时间t为T/4，表2中提供了本申请的截取时间与音频声音分离的关系。

表2

截取的时间t	分离情况
		T/2	测试了10段音频,6段不能准确的分离
T/3	测试了10段音频,4段不能准确的分离
		T/4	测试了10段音频,1段不能准确的分离
T/8	测试了10段音频,2段不能准确的分离

为了便于理解，请参阅图3，本申请提供的一种实时分离音频的装置的一个实施例，包括：

获取模块301，用于通过含有复数个麦克风的录音装置实时获取待声音分离的音频，录音装置的复数个麦克风分别设置在同一个圆周的复数个等分点上，每个麦克风各占一个声道。

计算模块302，用于对音频中的声源进行定位，计算声源到达圆周上处于同一直径上的两个麦克风的时间差T，根据时间差T计算声源的采样频率f。

分离模块303，用于根据采样频率f计算时间t内的对音频采样的采样点个数，并获取音频的声谱图，根据声谱图获取每个采样点的能量，计算声源到每个麦克风采样点的总能量和声源到与每个麦克风在同一直径上的麦克风的采样点的总能量的余弦值，比较所有余弦值的大小，分离出余弦值最大时对应的麦克风所在的声道作为声源的声道，提取声道的音频生成音频文件，t≤T。

进一步地，计算模块302具体用于：

对音频中的声源进行定位，计算圆周的直径d，根据所直径d和声音在空气中传播的速度v，计算圆周上处于同一直径上的两个麦克风的时间差T，根据所时间差T计算声源的采样频率f。

进一步地，装置的麦克风的数量为至少6个。

进一步地，时间t为T/4。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种实时分离音频的方法，其特征在于，包括：

2.根据权利要求1所述的声音分离的方法，其特征在于，步骤102具体包括：

3.根据权利要求1所述的声音分离的方法，其特征在于，所述麦克风的数量为至少6个。

4.根据权利要求1所述的声音分离的方法，其特征在于，所述时间t为T/4。

5.一种实时分离音频的装置，其特征在于，包括：

6.根据权利要求5所述的声音分离的装置，其特征在于，所述计算模块具体用于：

7.根据权利要求5所述的声音分离的装置，其特征在于，所述麦克风的数量为至少6个。

8.根据权利要求5所述的声音分离的装置，其特征在于，所述时间t为T/4。