CN104581602B

CN104581602B - 录音数据训练方法、多轨音频环绕方法及装置

Info

Publication number: CN104581602B
Application number: CN201410583930.4A
Authority: CN
Inventors: 王宇飞
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2019-09-27
Anticipated expiration: 2034-10-27
Also published as: CN104581602A

Abstract

本发明公开了一种录音数据训练、多轨音频环绕方法及装置，属于音频处理领域。所述录音数据训练方法包括：根据用户的实际听音环境建模得到虚拟听音模型；根据用户的头部生理数据建模得到虚拟假人头模型；计算得到每个声道的直达波所对应的双耳时间差ITD；计算得到每个声道的直达波所对应的双耳声级差ILD；所述多轨音频环绕方法包括：获取原始的多轨音频内容；根据录音数据训练方法得到的ITD和ILD对多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容。

Description

录音数据训练方法、多轨音频环绕方法及装置

技术领域

本发明涉及音频处理领域，特别涉及一种录音数据训练方法、多轨音频环绕方法及装置。

背景技术

多轨音频内容是指5.1声道音频内容、7.1声道音频内容等。多轨音频内容可以使用户收听到来自不同方位的音频，形成环绕立体声的效果。

以使用5.1声道的音箱播放5.1声道的多轨音频为例，用户可以同时收听到由前置左音箱、中置音箱、前置右音箱、后置左音箱、后置右音箱和低音炮音箱共6个音箱所播放的声音，增加了声音的空间感，可以产生环绕立体声的效果。

在实现本发明实施例的过程中，发明人发现上述技术至少存在以下问题：多轨音频内容只有通过对应的5.1声道音箱或7.1声道音箱才能起到最好的播放效果，如果用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果。

发明内容

为了解决用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果的问题，本发明实施例提供了一种录音数据训练方法、多轨音频环绕方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种录音数据训练方法，所述方法包括：

根据用户的实际听音环境建模得到虚拟听音模型，所述虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置、所述用户在所述虚拟房间中的头部听音位置；

根据用户的头部生理数据建模得到虚拟假人头模型，所述虚拟假人头模型包括与所述用户对应的人头外部轮廓、双耳位置和双耳间距；

根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离，计算得到每个声道的直达波所对应的双耳时间差(ITD，Interaural Time Difference)；

根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离、以及所述人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的双耳声级差(ILD,Interaural Level Difference)；

其中，所述双耳时间差和所述双耳声级差用于将多轨音频内容转换为立体声音频内容。

根据本发明实施例的第二方面，提供一种多轨音频环绕方法，所述方法包括：

获取原始的多轨音频内容，所述多轨音频内容包括至少三个声道的声音数据；

根据预设的ITD和ILD对所述多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；

将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；

其中，所述ITD和所述ILD是通过第一方面所述的方法所计算得到的。

根据本发明实施例的第三方面，提供一种录音数据训练装置，所述装置包括：

环境建模模块，用于根据用户的实际听音环境建模得到虚拟听音模型，所述虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置、所述用户在所述虚拟房间中的头部听音位置；

假人头建模模块，用于根据用户的头部生理数据建模得到虚拟假人头模型，所述虚拟假人头模型包括与所述用户对应的人头外部轮廓、双耳位置和双耳间距；

第一双耳时间差计算模块，用于根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离，计算得到每个声道的直达波所对应的ITD；

第一双耳声级差计算模块，用于根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离、以及所述人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的ILD；

其中，所述ITD和所述ILD用于将多轨音频内容转换为立体声音频内容。

根据本发明实施例的第四方面，提供一种多轨音频环绕装置，所述装置包括：

多轨音频获取模块，用于获取原始的多轨音频内容，所述多轨音频内容包括至少三个声道的声音数据；

声音数据转换模块，用于根据预设的ITD和ILD对所述多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；

音频生成模块，用于将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；

其中，所述ITD和所述ILD是通过第三方面所述的装置所计算得到的。

本发明实施例提供的技术方案带来的有益效果是：

通过获取原始的多轨音频内容，该多轨音频内容包括至少三个声道的声音数据；根据预设的ITD和ILD对多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；解决了用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果的问题；达到了使用仅支持双声道的立体声耳机播放利用ITD和ILD处理多轨音频内容得到的立体声音频，也能获得类似播放多轨音频内容的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的录音数据训练方法的方法流程图；

图2是本发明一个实施例提供的多轨音频环绕方法的方法流程图；

图3是本发明一个实施例提供的录音数据训练、多轨音频环绕方法的方法流程图；

图4A是本发明一个实施例提供的录音数据训练、多轨音频环绕方法所涉及的界面示意图；

图4B是本发明一个实施例提供的录音数据训练、多轨音频环绕方法所涉及的界面示意图；

图4C是本发明一个实施例提供的录音数据训练、多轨音频环绕方法所涉及的界面示意图；

图5是本发明一个实施例提供的录音数据训练、多轨音频环绕方法的实施示意图；

图6是本发明一个实施例提供的录音数据训练、多轨音频环绕方法的实施示意图；

图7是本发明一个实施例提供的录音数据训练装置的结构方框图；

图8是本发明另一实施例提供的录音数据训练装置的结构方框图；

图9是本发明一个实施例提供的多轨音频环绕装置的结构方框图；

图10是本发明另一实施例提供的多轨音频环绕装置的结构方框图；

图11是本发明一个实施例提供的电子设备的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明各个实施例提供的录音数据训练方法、多轨音频环绕方法，可以由音频播放器来实现。该音频播放器可以是具有音频播放能力的应用程序或者具有音频播放能力的电子设备来实现。该电子设备可以是智能手机、智能电视、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机(相机、摄像机)等等。

为了简化描述，下文中仅以录音数据训练方法、多轨音频环绕方法由音频播放器执行来举例说明，但对此不构成限定。

请参考图1，其示出了本发明一个实施例提供的录音数据训练方法的方法流程图。该方法包括：

步骤102，根据用户的实际听音环境建模得到虚拟听音模型，该虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在虚拟房间中的摆放位置、用户在虚拟房间中的头部听音位置；

步骤104，根据用户的头部生理数据建模得到虚拟假人头模型，该虚拟假人头模型包括与用户对应的人头外部轮廓、双耳位置和双耳间距；

步骤106，根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离，计算得到每个声道的直达波所对应的ITD；

步骤108，根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离、以及人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的ILD。

综上所述，本实施例提供的录音数据训练方法，通过根据用户的实际听音环境建模得到虚拟听音模型；根据用户的头部生理数据建模得到虚拟假人头模型；根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离，计算得到每个声道的直达波所对应的ITD；根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离、以及人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的ILD；解决了用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果的问题；达到了使用仅支持双声道的立体声耳机播放利用ITD和ILD处理多轨音频内容得到的立体声音频，也能获得类似播放多轨音频内容的效果。

本实施例还通过根据用户的实际听音环境和用户的头部生理数据建模得到虚拟听音模型和虚拟假人头模型，使通过该虚拟听音模型和虚拟假人头模型计算得到的ITD和ILD数据更加符合实际听音情况，达到了收听的效果更加接近真实情况的效果。

请参考图2，其示出了本发明一个实施例提供的多轨音频环绕方法的方法流程图。该方法包括：

步骤202，获取原始的多轨音频内容，该多轨音频内容包括至少三个声道的声音数据；

步骤204，根据预设的ITD和ILD对多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；

其中，ITD和ILD可以是通过图1所示的录音数据训练方法所计算得到的；

步骤206，将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；

综上所述，本实施例提供的多轨音频环绕方法，通过获取原始的多轨音频内容，多轨音频内容包括至少三个声道的声音数据；根据预设的ITD和ILD对多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；解决了用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果的问题；达到了使用仅支持双声道的立体声耳机播放利用ITD和ILD处理多轨音频内容得到的立体声音频，也能获得类似播放多轨音频内容的效果。

在具体的实施过程中，5.1声道的音频作为一种常见的多轨音频，可以通过本公开的录音数据训练和多轨音频环绕方法转换成立体声音频，使用户使用耳机就能获得良好的收听效果，下面将采用一个实施例进行说明。

请参考图3，其示出了本发明一个实施例提供的录音数据训练方法及多轨音频的环绕方法的方法流程图。该方法包括：

步骤301，根据用户的实际听音环境建模得到虚拟听音模型，虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在虚拟房间中的摆放位置、用户在虚拟房间中的头部听音位置。

音频播放器接收用户设置的实际听音环境，为该实际听音环境建模，得到虚拟听音模型。该虚拟听音模型中包括影响听音效果的参数，包括虚拟房间的尺寸、多声道音箱中各个声道的音箱在虚拟房间中的摆放位置以及用户在虚拟房间中的头部听音位置。音频播放器可以根据用户在设置界面输入参数或是用户的选择信号，建立相应的虚拟环境模型。

比如，用户期望达到在在客厅的环境下收听5.1声道的音频的效果，如图4A所示，用户在音频播放器的虚拟环境设置界面41中，根据实际的客厅的尺寸，设置虚拟房间的尺寸42，并设置5.1声道的音频对应的多声道音箱中左前声道音箱摆放位置43a，中置声道音箱摆放位置43b，右前声道音箱摆放位置43c，左后声道音箱摆放位置43d，右后声道音箱摆放位置43e，低音炮声道音箱摆放位置43f，，然后设置用户在虚拟房间中的头部听音位置44，设置完成后点击确定按钮45，完成虚拟房间的建模，生成如图4B所示的虚拟房间。

步骤302，根据用户的头部生理数据建模得到虚拟假人头模型，虚拟假人头模型包括与用户对应的人头外部轮廓、双耳位置和双耳间距。

为了模拟得到真实的听音效果，音频播放器将会根据用户的头部生理数据建模得到虚拟假人头模型，该虚拟假人头模型中包括该用户的人头外部轮廓参数、双耳位置参数以及双耳间距参数。该人头外部轮廓参数可以包括用户的头直径和用户左右耳的直径。音频播放器可以根据用户在设置界面输入参数或是用户的选择信号，建立相应的虚拟假人头模型。

需要说明的是，该用户头部生理数据也可以是根据统计数据以及用户输入的性别和年龄，为用户生成的适宜的头部生理参数，对本发明并不构成限定。

需要说明的是，步骤302和上述步骤301之间不存在严格的先后关系，本实施例仅以步骤301在步骤302之前执行进行举例说明，并不对本发明构成限定。

比如，如图4C所示，用户在音频播放器的虚拟假人头设置界面46中，选择用户实际的人头外部轮廓47，设置双耳位置48和双耳间距49，完成该用户对应的虚拟假人头模型的建模。

需要说明的是，音频播放器可以通过摄像头采集用户头部的照片，也可以根据用户上传的人头外部轮廓的照片，获得用户的头部生理数据，并根据该用户的头部生理数据建模得到虚拟假人头模型，对本发明并不构成限定。

步骤303，根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离，计算得到每个声道的直达波所对应的ITD。

音频播放器根据用户设置的每个声道的音箱在虚拟房间中的摆放位置，分别计算出该音箱到用户左右耳的距离，并根据声波在空气中的传播速度，计算得到每个声道的直达波达到用户双耳的时间差ITD。

比如，如图5所示，根据用户设置的虚拟听音模型51，计算得到左前声道的音箱52到用户左耳的距离为L1，到用户右耳的距离为L2，声波在空气中传播的速度为S，计算得到左前声道的直达波达到用户双耳的时间差ITD为(L2-L1)/S，表示左前声道的声波到达右耳的时间比达到左耳的时间延迟(L2-L1)/S。

步骤304，根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离、以及人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的ILD。

音频播放器根据虚拟假人头模型的人头外部轮廓和双耳间距以及每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离，计算得到每个声道的声波从对应音箱到虚拟假人头模型双耳的传播路径中被虚拟假人头模型遮挡的波长和响度，然后使用标准双二阶低通滤波器对该波长和响度进行处理，得到每个声道的直达波所对应的ILD。

比如，该左声道的直达波到达虚拟假人头模型左右耳的ILD为a，即表示左前声道的直达波达到虚拟假人头模型右耳的声级较直达波达到虚拟假人头模型左耳的声级小a个声级单位。

步骤305，确定每个声道所对应的音箱的反射波数量。

由于声波在虚拟听音模型中会发生反射形成反射波，所以需要确定每个声道所对应的音箱的反射波数量。本步骤可以包含下述两种实现方式：

第一种方式、接收设定信号，根据该设定信号设置每个声道所对应的音箱的反射波数量；

音频播放器接收用户自定义的反射波数量，并根据设定信号设置每个声道所对应的音箱的反射波数量。

第二种方式、根据虚拟房间的体积计算虚拟房间的最长回音时间；将最长回音时间除以每个声道所对应的单次反射时间得到每个声道对应的反射波数量，单次反射时间是每个声道的音箱所发出的声波在虚拟房间中反射一次所耗费的时间。

音频播放器根据虚拟房间的体积，计算出在该虚拟房间中声波的最长回音时间，即该声波在虚拟房间内的持续时间。并将每个声道的音箱所发出的声波在虚拟房间内反射一次所消耗的时间作为单次反射时间，用该虚拟房间中声波的最长回音时间除以单次反射时间，即得到每个声道的音箱所发出的声波在虚拟听音模型中反射波的数量。

需要说明的是，当处理反射波的数量需要的性能大于当前设备的处理数据的性能，音频播放器将会根据当前设备的处理数据的性能，设置适应当前设备的反射波数量。

步骤306，对于每个声道对应的每个反射波，根据声道的音箱在虚拟房间中的摆放位置确定反射波到达双耳位置的两个反射路径，根据两个反射路径计算得到反射波所对应的ITD。

由于反射波在虚拟房间中的传播路径大于对应的直达波的传播路径，所以反射波传入人耳相比对应的直达波传入人耳将会产生延迟。音频播放器根据反射波的反射路径和对应直达波反射路径的差值以及声波在空气中传播的速度，计算得到该反射波所对应的ITD。

比如，如图6所示，中置声道的直达波到达虚拟假人头模型左耳的距离为L1，该直达波对应的反射波到达虚拟假人头模型左耳的反射路径为L2，声波在空气中传播的速度为S，计算得到该反射波的ITD为(L2-L1)/S，表示中置声道的反射波到达左耳的时间比达到直达波到达左耳的时间延迟(L2-L1)/S。

步骤307，对于每个声道对应的每个反射波，根据声道的音箱在虚拟房间中的摆放位置确定反射波到达双耳位置的两个反射路径、根据两个反射路径以及人头外部轮廓和双耳间距，计算得到反射波所对应的ILD。

由于反射波在反射的过程中会被假人头和双耳的耳廓遮挡，从而影响了反射波的波长和响度，所以反射波传入人耳与对应的直达波传入人耳将会形成声级差。音频播放器根据虚拟声道的音箱在虚拟房间中的摆放位置确定反射波到达人耳的反射路径，计算得到每个声道的声波在该反射路径中被虚拟假人头模型遮挡的波长和响度，然后使用标准双二阶低通滤波器对该波长和响度进行处理，得到每个声道的反射波对应的ILD。

比如，中置声道反射波到达左耳的与对应直达波到达左耳的ILD为a，即表示中置声道的反射波达到虚拟假人头模型左耳的声级较直达波达到虚拟假人头模型左耳的声级小a个声级单位。

通过上述步骤可以根据虚拟听音模型和虚拟假人头模型得到对应的ITD和ILD数据，该ITD和ILD数据可以仅包含直达波的ITD和ILD数据，也可以包含直达波ITD和ILD数据和至少一个反射波的ITD和ILD数据，根据该ITD和ILD数据对多轨音频内容进行处理，可以通过下述步骤得到对应的立体声音频内容。

步骤308，获取原始的多轨音频内容，多轨音频内容包括至少三个声道的声音数据。

音频播放器获取原始的多轨音频内容，该多轨音频内容可以由用户上传，也可以从互联网获取。该多轨音频内容至少包括三个声道的声音数据，即该多轨音频可以是3.1声道音频、5.1声道音频或7.1声道音频等等。下述步骤一该多轨音频内容为5.1声道音频为例进行说明，并不对本公开构成限定。

步骤309，根据预设的ITD和ILD对多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据。

音频播放器根据虚拟听音模型和虚拟假人头模型计算得到的ITD和ILD，对获取到的多轨音频内容中的每个声道的声音数据进行处理，得到每个声道在立体声音频内容中对应的左声道数据和右声道数据，本步骤可以包括如下子步骤：

一、对于每个声道的声音数据，当ITD和ILD包括声道的直达波所对应的ITD和ILD时，根据直达波所对应的ITD和ILD计算得到声道所对应的直达波左声道数据和直达波右声道数据；

比如，以该多轨音频内容为5.1声道音频内容为例，根据虚拟听音模型和虚拟假人头模型计算得到左前声道的直达波到达双耳的时间差ITD和声级差ILD分别为10ms和5db，根据该ITD和ILD对多轨音频内容进行计算，得到该左前声道对应的直达波左声道数据和直达波右声道数据，该直达波左声道数据较直达波右声道数据播放时间提前10ms，且播放响度高5db。

相似的，根据中置声道的直达波所对应的ITD和ILD计算得到中置声道所对应的直达波左声道数据和直达波右声道数据；根据右前声道的直达波所对应的ITD和ILD计算得到右前声道所对应的直达波左声道数据和直达波右声道数据；根据左后声道的直达波所对应的ITD和ILD计算得到左后声道所对应的直达波左声道数据和直达波右声道数据；根据右后声道的直达波所对应的ITD和ILD计算得到右后声道所对应的直达波左声道数据和直达波右声道数据；根据低音炮声道的直达波所对应的ITD和ILD计算得到低音炮声道所对应的直达波左声道数据和直达波右声道数据。

二、当ITD和ILD包括声道的至少一个反射波所对应的ITD和ILD，每组反射波各自对应一组ITD和ILD时，根据每组反射波所对应的ITD和ILD计算得到声道所对应的至少一组反射波左声道数据和反射波右声道数据；

比如，以该多轨音频内容为5.1声道音频内容为例，根据虚拟听音模型和虚拟假人头模型计算得到中置声道的反射波与对应的直达波到达左耳的时间差ITD和声级差ILD分别为20ms和15db，根据该ITD和ILD对多轨音频内容进行计算，得到该左前声道对应的反射波左声道数据，该反射波左声道数据较对应的直达波左声道数据播放时间延迟20ms，且播放响度第15db；中置声道的反射波与对应的直达波到达右耳的时间差ITD和声级差ILD分别为25ms和18db，根据该ITD和ILD对多轨音频内容进行计算，得到该左前声道对应的反射波右声道数据，该反射波右声道数据较对应的直达波右声道数据播放时间延迟25ms，且播放响度第18db。

相似的，根据左前声道的反射波所对应的ITD和ILD计算得到左前声道所对应的反射波左声道数据和反射波右声道数据；根据右前声道的反射波所对应的ITD和ILD计算得到右前声道所对应的反射波左声道数据和反射波右声道数据；根据左后声道的反射波所对应的ITD和ILD计算得到左后声道所对应的反射波左声道数据和反射波右声道数据；根据右后声道的反射波所对应的ITD和ILD计算得到右后声道所对应的反射波左声道数据和反射波右声道数据；根据低音炮声道的反射波所对应的ITD和ILD计算得到低音炮声道所对应的反射波左声道数据和反射波右声道数据。

三、将声道所对应的直达波左声道数据和/或至少一个反射波左声道数据混合为声道所对应的左声道数据；将声道所对应的直达波右声道数据和/或至少一个反射波右声道数据混合为声道所对应的右声道数据。

以该多轨音频内容为5.1声道音频内容为例：

音频播放器将左前声道的直达波左声道数据和/或至少一个反射波左声道数据混合为左前声道所对应的左声道数据，将左前声道的直达波右声道数据和/或至少一个反射波右声道数据混合为左前声道所对应的右声道数据；

音频播放器将中置声道的直达波左声道数据和/或至少一个反射波左声道数据混合为中置声道所对应的左声道数据，将中置声道的直达波右声道数据和/或至少一个反射波右声道数据混合为中置声道所对应的右声道数据；

音频播放器将右前声道的直达波左声道数据和/或至少一个反射波左声道数据混合为右前声道所对应的左声道数据，将右前声道的直达波右声道数据和/或至少一个反射波右声道数据混合为右前声道所对应的右声道数据；

音频播放器将左后声道的直达波左声道数据和/或至少一个反射波左声道数据混合为左后声道所对应的左声道数据，将左后声道的直达波右声道数据和/或至少一个反射波右声道数据混合为左后声道所对应的右声道数据；

音频播放器将右后声道的直达波左声道数据和/或至少一个反射波左声道数据混合为右后声道所对应的左声道数据，将右后声道的直达波右声道数据和/或至少一个反射波右声道数据混合为右后声道所对应的右声道数据；

音频播放器将低音炮声道的直达波左声道数据和/或至少一个反射波左声道数据混合为低音炮声道所对应的左声道数据，将低音炮声道的直达波右声道数据和/或至少一个反射波右声道数据混合为低音炮声道所对应的右声道数据。

步骤310，将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容。

将混合得到的各个声道所对应的左声道数据混合为目标左声道数据，将混合得到的各个声道所对应的右声道数据混合为目标右声道数据，并将混合得到的目标左声道数据作为立体声音频内容的左声道数据，将混合得到的目标右声道数据作为立体声音频内容的右声道数据，组合得到立体声音频。

本实施例还通过根据实际听音环境建模得到虚拟听音模型，根据用户的头部生理数据建模得到虚拟假人头模型，并根据虚拟听音模型和虚拟假人头模型计算得到ITD和ILD，利用该ITD和ILD对多轨音频内容进行处理，达到了经过处理后得到的立体声音频更加真实的效果。

在具体的实施过程中，当多轨音频内容为3.1声道的多轨音频、4.0声道的多轨音频、4.1声道的多轨音频、5.0声道的多轨音频、6.1声道的多轨音频、7.1声道的多轨音频、8.1声道的多轨音频、9.1声道的多轨音频或12.1声道的多轨音频时，也可以采用上述方法对多轨音频内容进行处理，生成立体声音频内容，本实施例仅以该多轨音频内容为5.1声道的多轨音频进行说明，并不对本发明构成限定。

请参考图7，其示出了本发明一个实施例所提供的录音数据训练装置的结构方框图。该录音数据训练装置可以通过软件、硬件或者两者的结合实现成为音频播放器的全部或者一部分。该录音数据训练装置，包括：

环境建模模块702，用于根据用户的实际听音环境建模得到虚拟听音模型，所述虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置、所述用户在所述虚拟房间中的头部听音位置；

假人头建模模块704，用于根据用户的头部生理数据建模得到虚拟假人头模型，所述虚拟假人头模型包括与所述用户对应的人头外部轮廓、双耳位置和双耳间距；

第一双耳时间差计算模块706，用于根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离，计算得到每个声道的直达波所对应的ITD；

第一双耳声级差计算模块708，用于根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离、以及所述人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的ILD。

综上所述，本实施例提供的录音数据训练装置，通过根据用户的实际听音环境建模得到虚拟听音模型；根据用户的头部生理数据建模得到虚拟假人头模型；根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离，计算得到每个声道的直达波所对应的ITD；根据每个声道的音箱在虚拟房间中的摆放位置与双耳位置之间的距离、以及人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的ILD；解决了用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果的问题；达到了使用仅支持双声道的立体声耳机播放利用ITD和ILD处理多轨音频内容得到的立体声音频，也能获得类似播放多轨音频内容的效果。

请参考图8，其示出了本发明另一个实施例所提供的录音数据训练装置的结构方框图。该录音数据训练装置可以通过软件、硬件或者两者的结合实现成为音频播放器的全部或者一部分。该录音数据训练装置，包括：

可选地，该装置，还包括：

反射波数量确定模块709，用于确定每个声道所对应的音箱的反射波数量；

第二双耳时间差计算模块710，用于对于每个声道对应的每个反射波，根据所述声道的音箱在所述虚拟房间中的摆放位置确定所述反射波到达所述双耳位置的两个反射路径，根据所述两个反射路径计算得到所述反射波所对应的ITD；

第二双耳声级差计算模块711，用于对于每个声道对应的每个反射波，根据所述声道的音箱在所述虚拟房间中的摆放位置确定所述反射波到达所述双耳位置的两个反射路径、根据所述两个反射路径以及所述人头外部轮廓和双耳间距，计算得到所述反射波所对应的ILD。

可选地，反射波数量确定模块709，包括：

反射波数量设置单元709a，用于接收设定信号；根据所述设定信号设置每个声道所对应的音箱的反射波数量；

或，

反射波数量计算单元709b，用于根据所述虚拟房间的体积计算所述虚拟房间的最长回音时间；将所述最长回音时间除以每个声道所对应的单次反射时间得到每个声道对应的反射波数量，所述单次反射时间是每个声道的音箱所发出的声波在所述虚拟房间中反射一次所耗费的时间。

请参考图9，其示出了本发明一个实施例所提供的多轨音频的环绕装置的结构方框图。该录音数据训练装置可以通过软件、硬件或者两者的结合实现成为音频播放器的全部或者一部分。该多轨音频的环绕装置，包括：

多轨音频获取模块902，用于获取原始的多轨音频内容，所述多轨音频内容包括至少三个声道的声音数据；

声音数据转换模块904，用于根据预设的ITD和ILD对所述多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；

音频生成模块906，用于将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；

其中，所述ITD和所述ILD是通过图8所述的装置所计算得到的。

综上所述，本实施例提供的多轨音频环绕装置，通过获取原始的多轨音频内容，多轨音频内容包括至少三个声道的声音数据；根据预设的ITD和ILD对多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；将各个声道所对应的左声道数据混合为目标左声道数据，将各个声道所对应的右声道数据混合为目标右声道数据，生成立体声音频内容；解决了用户使用仅支持双声道的立体声耳机播放多轨音频内容，并不能获得良好的收听效果的问题；达到了使用仅支持双声道的立体声耳机播放利用ITD和ILD处理多轨音频内容得到的立体声音频，也能获得类似播放多轨音频内容的效果。

请参考图10，其示出了本发明另一个实施例所提供的多轨音频的环绕装置的结构方框图。该录音数据训练装置可以通过软件、硬件或者两者的结合实现成为音频播放器的全部或者一部分。该多轨音频的环绕装置，包括：

可选地，所述声音数据转换模块904，包括：

第一计算单元904a，用于对于每个声道的声音数据，当所述ITD和所述ILD包括所述声道的直达波所对应的ITD和ILD时，根据所述直达波所对应的ITD和ILD计算得到所述声道所对应的直达波左声道数据和直达波右声道数据；

第二计算单元904b，用于当所述ITD和所述ILD包括所述声道的至少一个反射波所对应的ITD和ILD，每组反射波各自对应一组ITD和ILD时，根据每组所述反射波所对应的ITD和ILD计算得到所述声道所对应的至少一组反射波左声道数据和反射波右声道数据；

数据混合单元904c，用于将所述声道所对应的直达波左声道数据和/或至少一个反射波左声道数据混合为所述声道所对应的左声道数据；将所述声道所对应的直达波右声道数据和/或至少一个反射波右声道数据混合为所述声道所对应的右声道数据。

本实施例还通过根据实际听音环境建模得到虚拟听音模型，根据用户的头部生理数据建模得到虚拟假人头模型，并根据虚拟听音模型和虚拟假人头模型计算得到ITD和ILD，利用该ITD和ILD对多轨音频内容进行处理，达到了经过处理后得到的立体声音频更加符合实际听音环境的效果。

需要说明的是：上述实施例提供的录音数据训练、多轨音频环绕装置在对多轨音频进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将音频播放器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的录音数据训练、多轨音频环绕装置与录音数据训练、多轨音频环绕方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图11，其示出了本发明一个实施例提供的电子设备的结构方框图。该电子设备用于实施上述实施例中提供的录音数据训练、多轨音频环绕方法。具体来讲：

电子设备1100可以包括RF(Radio Frequency，射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、WiFi(wireless fidelity，无线保真)模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1180处理；另外，将涉及上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备1100的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器1180和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括图像输入设备1131以及其他输入设备1132。图像输入设备1131可以是摄像头，也可以是光电扫描设备。除了图像输入设备1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及电子设备1100的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1141。

电子设备1100还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在电子设备1100移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与电子设备1100之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一电子设备，或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔，以提供外设耳机与电子设备1100的通信。

WiFi属于短距离无线传输技术，电子设备1100通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于电子设备1100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是电子设备1100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行电子设备1100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理核心；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

电子设备1100还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备1100还可以包括蓝牙模块等，在此不再赘述。

具体在本实施例中，电子设备1100还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于进行本发明实施例提供的录音数据训练、多轨音频环绕方法的指令。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种录音数据训练方法，其特征在于，所述方法包括：

根据用户的实际听音环境建模得到虚拟听音模型，所述虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置、所述用户在所述虚拟房间中的头部听音位置，其中所述虚拟房间的尺寸为实际客厅的尺寸，所述虚拟房间的尺寸、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置以及用户在所述虚拟房间中的头部听音位置均根据用户在设置界面的输入参数或用户的选择信号进行设置；

根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离，计算得到每个声道的直达波所对应的双耳时间差ITD；

根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离、以及所述人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的双耳声级差ILD；

其中，所述ITD和所述ILD用于将多轨音频内容转换为立体声音频内容，

所述根据用户的头部生理数据建模得到虚拟假人头模型，所述虚拟假人头模型包括与所述用户对应的人头外部轮廓、双耳位置和双耳间距，包括：

通过摄像头采集用户头部的照片或根据用户上传的人头外部轮廓的照片，获得用户的头部生理数据，并根据该用户的头部生理数据建模得到虚拟假人头模型，

所述方法还包括：

确定每个声道所对应的音箱的反射波数量；

对于每个声道对应的每个反射波，计算所述反射波所对应的ITD和ILD，

所述确定每个声道所对应的音箱的反射波数量，包括：

接收设定信号；根据所述设定信号设置每个声道所对应的音箱的反射波数量，所述设定信号反映了用户自定义的反射波数量。

2.根据权利要求1所述的方法，其特征在于，所述对于每个声道对应的每个反射波，计算所述反射波所对应的ITD和ILD包括：

对于每个声道对应的每个反射波，根据所述声道的音箱在所述虚拟房间中的摆放位置确定所述反射波到达所述双耳位置的两个反射路径，根据所述两个反射路径计算得到所述反射波所对应的ITD；

对于每个声道对应的每个反射波，根据所述声道的音箱在所述虚拟房间中的摆放位置确定所述反射波到达所述双耳位置的两个反射路径、根据所述两个反射路径以及所述人头外部轮廓和双耳间距，计算得到所述反射波所对应的ILD。

3.一种多轨音频环绕方法，其特征在于，所述方法包括：

根据预设的双耳时间差ITD和双耳声级差ILD对所述多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；

其中，所述ITD和所述ILD是通过权利要求1至2任一所述的方法所计算得到的。

4.根据权利要求3所述的方法，其特征在于，所述根据预设的双耳时间差ITD和双耳声级差ILD对所述多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据，包括：

对于每个声道的声音数据，当所述ITD和所述ILD包括所述声道的直达波所对应的ITD和ILD时，根据所述直达波所对应的ITD和ILD计算得到所述声道所对应的直达波左声道数据和直达波右声道数据；

当所述ITD和所述ILD包括所述声道的至少一个反射波所对应的ITD和ILD，每组反射波各自对应一组ITD和ILD时，根据每组所述反射波所对应的ITD和ILD计算得到所述声道所对应的至少一组反射波左声道数据和反射波右声道数据；

将所述声道所对应的直达波左声道数据和/或至少一个反射波左声道数据混合为所述声道所对应的左声道数据；将所述声道所对应的直达波右声道数据和/或至少一个反射波右声道数据混合为所述声道所对应的右声道数据。

5.一种录音数据训练装置，其特征在于，所述装置包括：

环境建模模块，用于根据用户的实际听音环境建模得到虚拟听音模型，所述虚拟听音模型包括虚拟房间、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置、所述用户在所述虚拟房间中的头部听音位置，其中所述虚拟房间的尺寸为实际客厅的尺寸，所述虚拟房间的尺寸、多声道音箱中各个声道的音箱在所述虚拟房间中的摆放位置以及用户在所述虚拟房间中的头部听音位置均根据用户在设置界面的输入参数或用户的选择信号进行设置；

第一双耳时间差计算模块，用于根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离，计算得到每个声道的直达波所对应的双耳时间差ITD；

第一双耳声级差计算模块，用于根据每个声道的音箱在所述虚拟房间中的摆放位置与所述双耳位置之间的距离、以及所述人头外部轮廓和双耳间距，计算得到每个声道的直达波所对应的双耳声级差ILD,

所述假人头建模模块，还用于通过摄像头采集用户头部的照片或根据用户上传的人头外部轮廓的照片，获得用户的头部生理数据，并根据该用户的头部生理数据建模得到虚拟假人头模型，

所述装置还包括：

反射波数量确定模块，用于确定每个声道所对应的音箱的反射波数量，对于每个声道对应的每个反射波，计算所述反射波所对应的ITD和ILD；

所述反射波数量确定模块，包括：

反射波数量设置单元，用于接收设定信号；根据所述设定信号设置每个声道所对应的音箱的反射波数量，所述设定信号反映了用户自定义的反射波数量。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二双耳时间差计算模块，用于对于每个声道对应的每个反射波，根据所述声道的音箱在所述虚拟房间中的摆放位置确定所述反射波到达所述双耳位置的两个反射路径，根据所述两个反射路径计算得到所述反射波所对应的ITD；

第二双耳声级差计算模块，用于对于每个声道对应的每个反射波，根据所述声道的音箱在所述虚拟房间中的摆放位置确定所述反射波到达所述双耳位置的两个反射路径、根据所述两个反射路径以及所述人头外部轮廓和双耳间距，计算得到所述反射波所对应的ILD。

7.一种多轨音频环绕装置，其特征在于，所述装置包括：

声音数据转换模块，用于根据预设的双耳时间差ITD和双耳声级差ILD对所述多轨音频内容中的每个声道的声音数据进行转换，转换得到每个声道所对应的左声道数据和右声道数据；

其中，所述ITD和所述ILD是通过权利要求5至6任一所述的装置所计算得到的。

8.根据权利要求7所述的装置，其特征在于，所述声音数据转换模块，包括：

第一计算单元，用于对于每个声道的声音数据，当所述ITD和所述ILD包括所述声道的直达波所对应的ITD和ILD时，根据所述直达波所对应的ITD和ILD计算得到所述声道所对应的直达波左声道数据和直达波右声道数据；

第二计算单元，用于当所述ITD和所述ILD包括所述声道的至少一个反射波所对应的ITD和ILD，每组反射波各自对应一组ITD和ILD时，根据每组所述反射波所对应的ITD和ILD计算得到所述声道所对应的至少一组反射波左声道数据和反射波右声道数据；

数据混合单元，用于将所述声道所对应的直达波左声道数据和/或至少一个反射波左声道数据混合为所述声道所对应的左声道数据；将所述声道所对应的直达波右声道数据和/或至少一个反射波右声道数据混合为所述声道所对应的右声道数据。