CN117295004B

CN117295004B - 一种转换多声道环绕声的方法、装置及音响系统

Info

Publication number: CN117295004B
Application number: CN202311558204.2A
Authority: CN
Inventors: 谭波; 刘少鹏
Original assignee: Suzhou Lingjing Av Technology Co ltd
Current assignee: Suzhou Lingjing Av Technology Co ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-09
Anticipated expiration: 2043-11-22
Also published as: CN117295004A

Abstract

本发明公开了一种转换多声道环绕声的方法、装置及音响系统，方法包括以下步骤：获取待转换的目标音频信号；将所述目标音频信号分离得到不同的音频元素，并按照预设的分类标签对分离得到的音频元素进行特征标记，所述分类标签有两种以上；按照预设的不同环绕声轨道与不同分类标签之间的关联映射关系，将所述分离得到的音频元素分配到其被特征标记的分类标签所关联的环绕声轨道；按照各个环绕声轨道被分配到音频元素的信息，生成多声道环绕声音频文件。本发明能够从单声道音频信号或立体声音频信号中分离出不同的音频元素，并将其分布到合适的声道而转换成环绕声格式的声音，使用户获得优质的音频体验。

Description

一种转换多声道环绕声的方法、装置及音响系统

技术领域

本发明涉及环绕声音频技术领域，尤其涉及一种转换多声道环绕声的方法、装置及音响系统。

背景技术

目前人们获取的音乐或电影等媒体作品通常以立体声格式进行播放，但立体声通常只有左右两个声道，因此音场表达能力有限，无法给用户带来一种沉浸式的体验效果。

相比于双声道的立体声系统，环绕声系统能够给用户一种从收听环境周围不同位置来接收声音的印象，其通过处理发送到各种/各处扬声器的音频信号，使听众感觉被空间立体音乐环绕。

然而，目前环绕声格式的音源比较少，所以目前主流的做法是通过把立体声翻转（stereo flip），再相减（Subtract）的方式生成左右和环绕声道，提取相减的部分作为为中置声道。这种上混方式对音质有较大损失，效果不好，体验感较差。上混得到的环绕声轨道内的音频信号都雷同，呈现出来的结果无层次、无沉浸、无环绕感，成为比较劣质的“虚假环绕声”，且无法对单声道声音内容进行环绕声转换。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，也不必然会给出技术教导；在没有明确的证据表明上述内容在本专利申请的申请日之前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的目的是提供一种将单声道音频信号或立体声音频信号转换成环绕声格式的技术方案，使用户获得优质的音频体验。

本发明可通过智能音源分离和自动声道分配技术，解决了现有上混技术中无法实现环绕感的问题，实现了立体声到多声道环绕声的全自动高品质转换，为汽车环绕声、家庭影院等环绕声系统提供了丰富的多声道内容，是当前该领域的重要突破。

为达到上述目的，本发明采用的技术方案如下：

一种转换多声道环绕声的方法，包括以下步骤：

获取待转换的目标音频信号；

将所述目标音频信号分离得到不同的音频元素，并按照预设的分类标签对分离得到的音频元素进行特征标记，所述分类标签有两种以上；

按照预设的不同环绕声轨道与不同分类标签之间的关联映射关系，将所述分离得到的音频元素分配到其被标记的分类标签所关联的环绕声轨道；

按照各个环绕声轨道被分配到音频元素的信息，生成多声道环绕声音频文件。

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式将所述目标音频信号分离得到不同的音频元素：

使用卷积神经网络和长短期记忆神经网络的结构，构建一编码器-解码器模型，其被配置为学习音乐时间结构，并解析目标音频信号中的多个单音源对应的分离波形；

识别该分离波形所匹配的音源属性，所述音源属性包括频率、音色、响度、音调中的一种或多种；

根据解析得到的各个单音源的分离波形，并结合与其匹配的音源属性，从所述目标音频信号中分离出多个音频元素。

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式构建编码器-解码器模型：

收集人声、背景乐和/或多类乐器的分离波形及混合音频的全波形，并人工对分离波形和全波形分别标注分类标签，作为模型训练和验证的学习样本集；

将所述学习样本集输入基于所述卷积神经网络和长短期记忆神经网络的初始模型，学习提取人声、背景乐和/或乐器的时频特征，通过时间-频率掩码的方式实现所述初始模型的多目标学习，以得到能够预测分离波形的所述编码器-解码器模型。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述初始模型配置有多个CNN层和多个LSTM层，利用所述CNN层提取输入信号中各区段的特征，生成各区段的CNN特征，并基于所述CNN特征对所述输入信号的各区段执行空间建模；

利用所述LSTM层处理所述CNN特征以生成各区段的LSTM特征，并基于所述LSTM特征对所述CNN特征和各区段执行时间建模；

所述初始模型基于完成空间建模和时间建模的信息被联合训练提取人声、背景乐和/或乐器的时频特征，以生成所述编码器-解码器模型。

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式按照预设的分类标签对分离得到的音频元素进行特征标记：

所述编码器-解码器模型输出分离波形的预测结果的同时，还输出该分离波形对应的分类标签；

在分离出多个音频元素后，将各个音频元素各自对应的分离波形对应的分类标签与该音频元素进行关联。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述不同环绕声轨道与不同分类标签之间的关联映射关系通过以下方式预先确定：

设置多种关联映射方案，不同的关联映射方案中环绕声轨道与分类标签之间的关联映射关系不完全相同；

遍历测试相同的音频元素测试样本在各种关联映射方案下，得到不同的多声道环绕音频测试结果；

按照预设的考核标准，从所述多声道环绕音频测试结果中考核出最优测试结果；

采用所述最优测试结果对应的关联映射方案中的关联映射关系。

利用人机交互装置设定一种或多种关联映射方案，不同的关联映射方案中环绕声轨道与分类标签之间的关联映射关系不完全相同；

利用人机交互装置从中选择其中一种关联映射方案，以确定当前不同环绕声轨道与不同分类标签之间的关联映射关系。

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式生成多声道环绕声音频文件：

所述分离得到的音频元素带有时间戳，根据各个环绕声轨道被分配到的音频元素的时间戳，生成各个环绕声轨道对应的单轨音频文件，将各个单轨音频文件合成得到所述多声道环绕声音频文件。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述目标音频信号为立体声音频信号或者单声道音频信号；

所述环绕声轨道包括左前置音轨、中心前置音轨、右前置音轨、左侧置音轨、右侧置音轨、左后置音轨、右后置音轨，所述多声道环绕声音频文件为7.1声音格式的音频文件；或者，所述环绕声轨道包括左前置音轨、中心前置音轨、右前置音轨、左后置音轨、右后置音轨，所述多声道环绕声音频文件为5.1声音格式的音频文件。

根据本发明的另一方面，提供了一种转换多声道环绕声的装置，包括以下模块：

原音频获取模块，其被配置为获取待转换的目标音频信号；

音频分离模块，其被配置为将所述目标音频信号分离得到不同的音频元素；

特征标记模块，其被配置为按照预设的分类标签对分离得到的音频元素进行标记，所述分类标签有两种以上；

映射模块，其被配置为建立不同环绕声轨道与不同分类标签之间的关联映射关系；

音轨分配模块，其被配置为将所述分离得到的音频元素分配到其被标记的分类标签所关联的环绕声轨道；

环绕声生成模块，其被配置为按照各个环绕声轨道被分配到音频元素的信息，生成多声道环绕声音频文件。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述音频分离模块配置有一编码器-解码器模型，其使用卷积神经网络和长短期记忆神经网络的结构而构建得到，所述编码器-解码器模型被配置为：

学习音乐时间结构，并解析目标音频信号中的多个单音源对应的分离波形；

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述编码器-解码器模型被配置为通过以下方式构建：

基于所述卷积神经网络和长短期记忆神经网络构建一初始模型，所述初始模型配置有多个CNN层和多个LSTM层，利用所述CNN层提取输入信号中各区段的特征，生成各区段的CNN特征，并基于所述CNN特征对所述输入信号的各区段执行空间建模；利用所述LSTM层处理所述CNN特征以生成各区段的LSTM特征，并基于所述LSTM特征对所述CNN特征和各区段执行时间建模；

将所述学习样本集输入完成空间建模和时间建模的初始模型，所述初始模型学习提取人声、背景乐和/或乐器的时频特征，通过时间-频率掩码的方式实现所述初始模型的多目标学习，以得到能够预测分离波形的所述编码器-解码器模型。

根据本发明的再一方面，提供了一种音响系统，包括扬声器以及如上所述的转换多声道环绕声的装置，所述扬声器为有源5.1扬声器或有源7.1扬声器，其中所述转换多声道环绕声的装置的输出端与所述扬声器的输入端电连接。

本发明提供的技术方案带来的有益效果如下：

a. 通过将单声道音频信号或立体声音频信号转换为环绕声格式的音频，缓解了目前环绕声格式音源稀少的问题，改善用户在接收音乐时的沉浸式体验；

b. 训练模型以自动分离音频元素,解决人工分离的难点和低效问题；

c. 以合理布局声音向位的原则分配声道，合成自然沉浸音轨，实现立体声到环绕声的全自动高品质转换，使用户易于获得更优质的音频体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个示例性实施例提供的转换多声道环绕声的方法流程示意图；

图2为本发明的一个示例性实施例提供的转换多声道环绕声的概念图；

图3为本发明的一个示例性实施例提供的乐曲全波形的计算机界面示意图；

图4为从图3中分离出的人声的分离波形的计算机界面示意图；

图5为从图3中分离出的鼓乐的分离波形的计算机界面示意图；

图6为从图3中分离出的吉他的分离波形的计算机界面示意图；

图7为从图3中分离出的钢琴的分离波形的计算机界面示意图；

图8为从图3中分离出的贝斯的分离波形的计算机界面示意图；

图9为本发明的一个示例性实施例提供的转换多声道环绕声的装置模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本发明的一个实施例中，提供了一种转换多声道环绕声的方法，参见图1和图2，转换方法包括以下步骤：

第一步、转换装置获取待转换的目标音频信号；

具体地，目标音频信号为目标音频信号为立体声音频信号或者单声道音频信号。

第二步、将所述目标音频信号分离得到不同的音频元素，并按照预设的分类标签对分离得到的音频元素进行特征标记，所述分类标签有两种以上；

具体地，通过以下方式将所述目标音频信号分离得到不同的音频元素：

所述转换装置识别该分离波形所匹配的音源属性，所述音源属性包括频率、音色、响度、音调中的一种或多种；

所述转换装置根据解析得到的各个单音源的分离波形，并结合与其匹配的音源属性，从所述目标音频信号中分离出多个音频元素。

其中，所述编码器-解码器模型被配置为通过以下方式构建：

收集人声和/或多类乐器的分离波形及混合音频的全波形，并人工对分离波形和全波形分别标注分类标签，作为模型训练和验证的学习样本集；比如针对各种曲目，由音频工程师手工分离出人声、背景乐和各种乐器的波形，并对各种波形进行标注，比如标注一种波形为钢琴，标注另一种波形为人声，等等。比如参见图3，其为一首曲目的全波形，其中包含了Vocals（人声）、Drums（鼓乐）、Guitar（吉他）、Piano（钢琴）、Bass（贝斯）五种单音源的分离波形，通过人工识别和分离，得到其各自的分离波形分别如图4、图5、图6、图7、图8所示。

将所述学习样本集输入完成空间建模和时间建模的初始模型，所述初始模型学习提取人声、背景乐和/或乐器的时频特征，即模型学习从全波形中分辨出各种不同的波形，通过时间-频率掩码的方式实现所述初始模型的多目标学习，以得到能够预测分离波形的所述编码器-解码器模型。

所述编码器-解码器模型输出分离波形的预测结果的同时，还输出该分离波形对应的分类标签；这样使得转换装置可以根据对应的分类标签来识别一分离波形所匹配的音源属性，进而分离出相应的音频元素，并将该音频元素与该分类标签进行关联，即实现上述的按照预设的分类标签对分离得到的音频元素进行特征标记。

第三步、按照预设的不同环绕声轨道与不同分类标签之间的关联映射关系，将所述分离得到的音频元素分配到其被标记的分类标签所关联的环绕声轨道；

在一个实施例中，所述关联映射关系为人为预设，具体地，利用人机交互装置设定一种或多种关联映射方案，不同的关联映射方案中环绕声轨道与分类标签之间的关联映射关系不完全相同；利用人机交互装置从中选择其中一种关联映射方案，以确定当前不同环绕声轨道与不同分类标签之间的关联映射关系。比如，人声的分类标签与中心前置音轨相关联映射，背景音乐的分类标签与左后置音轨、右后置音轨相关联映射，高低类乐器的分类标签与左前置音轨相关联映射，高低类乐器的分类标签与右前置音轨相关联映射。

在另一个实施例中，关联映射关系可以通过以下方式自动设定：设置多种关联映射方案，不同的关联映射方案中环绕声轨道与分类标签之间的关联映射关系不完全相同；遍历测试相同的音频元素测试样本在各种关联映射方案下，得到不同的多声道环绕音频测试结果；按照预设的考核标准，从所述多声道环绕音频测试结果中考核出最优测试结果；采用所述最优测试结果对应的关联映射方案中的关联映射关系。

第四步、按照各个环绕声轨道被分配到音频元素的信息，生成多声道环绕声音频文件；

具体地，环绕声轨道包括左前置音轨、中心前置音轨、右前置音轨、左后置音轨、右后置音轨，分离得到的音频元素带有时间戳，根据各个环绕声轨道被分配到的音频元素的时间戳，生成各个环绕声轨道对应的单轨音频文件，将各个单轨音频文件合成得到所述多声道环绕声音频文件，即5.1声音格式的音频文件。

在另一实施例中，如图2所示，环绕声轨道包括左前置音轨（图2中以L表示）、中心前置音轨（图2中以C表示）、右前置音轨（图2中以R表示）、左侧置音轨（图2中以Ls表示）、右侧置音轨（图2中以Rs表示）、左后置音轨（图2中以Lsr表示）、右后置音轨（图2中以Rsr表示），图2中LFE表示低频效果声道。相应地，将各个单轨音频文件合成得到所述多声道环绕声音频文件，即7.1声音格式的音频文件。

在本发明的一个实施例中，提供了一种转换多声道环绕声的装置，如图9所示，转换装置包括以下模块：

原音频获取模块，其被配置为获取待转换的目标音频信号；

音频分离模块，其被配置为将所述目标音频信号分离得到不同的音频元素；所述音频分离模块配置有一编码器-解码器模型，其使用卷积神经网络和长短期记忆神经网络的结构而构建得到，所述编码器-解码器模型被配置为：学习音乐时间结构，并解析目标音频信号中的多个单音源对应的分离波形；识别该分离波形所匹配的音源属性，所述音源属性包括频率、音色、响度、音调中的一种或多种；根据解析得到的各个单音源的分离波形，并结合与其匹配的音源属性，从所述目标音频信号中分离出多个音频元素。

具体地，所述编码器-解码器模型被配置为通过以下方式构建：

本发明实施例提供的转换多声道环绕声的装置与上述实施例提供的转换多声道环绕声的方法属于相同的发明构思，在此通过引用的方式将上述转换多声道环绕声的方法实施例的全部内容并入本转换多声道环绕声的装置实施例，不再赘述。

在本发明的一个实施例中，提供了一种音响系统，包括扬声器以及如上所述的转换多声道环绕声的装置，所述扬声器为有源5.1扬声器或有源7.1扬声器，其中所述转换多声道环绕声的装置的输出端与所述扬声器的输入端电连接。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种转换多声道环绕声的方法，其特征在于，包括以下步骤：

获取待转换的目标音频信号；

将所述目标音频信号分离得到不同的音频元素，并按照预设的分类标签对分离得到的音频元素进行特征标记，所述分类标签有两种以上；通过以下方式将所述目标音频信号分离得到不同的音频元素：

根据解析得到的各个单音源的分离波形，并结合与其匹配的音源属性，从所述目标音频信号中分离出多个音频元素；

2.根据权利要求1所述的转换多声道环绕声的方法，其特征在于，通过以下方式构建编码器-解码器模型：

3.根据权利要求2所述的转换多声道环绕声的方法，其特征在于，所述初始模型配置有多个CNN层和多个LSTM层，利用所述CNN层提取输入信号中各区段的特征，生成各区段的CNN特征，并基于所述CNN特征对所述输入信号的各区段执行空间建模；

4.根据权利要求2至3中任一项所述的转换多声道环绕声的方法，其特征在于，通过以下方式按照预设的分类标签对分离得到的音频元素进行特征标记：

5.根据权利要求1所述的转换多声道环绕声的方法，其特征在于，所述不同环绕声轨道与不同分类标签之间的关联映射关系通过以下方式预先确定：

6.根据权利要求1所述的转换多声道环绕声的方法，其特征在于，所述不同环绕声轨道与不同分类标签之间的关联映射关系通过以下方式预先确定：

7.根据权利要求1所述的转换多声道环绕声的方法，其特征在于，通过以下方式生成多声道环绕声音频文件：

8.根据权利要求1所述的转换多声道环绕声的方法，其特征在于，所述目标音频信号为立体声音频信号或者单声道音频信号；

9.一种转换多声道环绕声的装置，其特征在于，包括以下模块：

原音频获取模块，其被配置为获取待转换的目标音频信号；

音频分离模块，其被配置为将所述目标音频信号分离得到不同的音频元素；所述音频分离模块配置有一编码器-解码器模型，其使用卷积神经网络和长短期记忆神经网络的结构而构建得到，所述编码器-解码器模型被配置为：

10.根据权利要求9所述的转换多声道环绕声的装置，其特征在于，所述编码器-解码器模型被配置为通过以下方式构建：

11.一种音响系统，其特征在于，包括扬声器以及如权利要求9至10中任一项所述的转换多声道环绕声的装置，所述扬声器为有源5.1扬声器或有源7.1扬声器，其中所述转换多声道环绕声的装置的输出端与所述扬声器的输入端电连接。