CN104200827B

CN104200827B - 一种获得互联网音频文件的方法及装置

Info

Publication number: CN104200827B
Application number: CN201410452378.5A
Authority: CN
Inventors: 赵平; 陈曦; 董湘辉; 陈玉鹏
Original assignee: Individual
Current assignee: Chen Xi; Zhao ping
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2017-04-19
Anticipated expiration: 2034-09-05
Also published as: CN104200827A

Abstract

本发明提供一种获得互联网音频文件的方法及装置。获得互联网音频文件的方法包括：利用拾音装置拾取第一声音信号；对第一声音信号进行混音处理，获得第二声音信号；对第二声音信号的音频进行预补偿，获得第三声音信号；对第三声音信号进行压缩编码，获得互联网音频文件，其中，所述压缩编码对所述第三声音信号产生的音频部分的损失中包含所述预补偿的音频。本发明实施例在对声音信号压缩编码前，采用预补偿的方式补偿声音信号中损失的音频信号，从而在该声音信号经过压缩编码后获得的互联网音频文件最大程度的保留了声音信号的原音，从而可以在获得互联网音频文件的过程中减小压缩编码对声音信号带来的损失，提高互联网音频文件的声音品质。

Description

一种获得互联网音频文件的方法及装置

技术领域

本申请涉及声音信号处理技术领域，尤其涉及一种获得互联网音频文件的方法及装置。

背景技术

随着互联网技术的不断发展，人们越来越多的采用网络下载或网络在线接听的方式来获取音频文件，例如音乐等。互联网音乐的主要特点是：经过压缩编码的小数据音频文件和耳机收听方式。众所周知高端的音频文件格式有CD(Compact Disk，激光唱片)、DSD(Direct Stream Digital，直接比特流数字唱片)等，这些音频文件格式数据量很大，存储成本和传输成本都不适合在互联网领域应用。为了适合互联网，近年来出现了很多压缩编码的音频文件格式，例如：MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3编码)等。但所有的压缩编码格式在大幅减少数据量的同时都带来了不同程度的音质损失。

目前，在通过网络向服务器上传音频文件之前，通常需要进行以下处理过程获得音频文件：首先，要通过一支或多支话筒等拾音装置拾取声音信号；然后，对声音信号进行混音处理，该混音处理可以包含多种后期制作方法，例如，通过调音台的声像定位器调整声音信号到达两个扬声器的音量差，实现声像定位；最后，将处理后的声音信号进行压缩编码，使之成为适合传播的小码率音频格式，通常的方法是将混音后制作完成的音频文件通过转码软件进行压缩编码，从而获得可以通过网络传输的音频文件。

然而，上述整个过程中的多个步骤都会对最开始采集到的声音信号带来损失，尤其是在压缩编码过程，极易过滤掉声音信号中的部分音频，例如高频信息和空间信息。因此，用户最终获得的音频文件的声音品质较差。

发明内容

为解决上述技术问题，本申请实施例提供一种获得互联网音频文件的方法及装置，能够在获得互联网音频文件的过程中减小压缩编码对声音信号带来的音质损失，提高互联网音频文件的声音品质。技术方案如下：

第一方面，提供一种获得互联网音频文件的方法，包括：

利用拾音装置拾取第一声音信号；

对所述第一声音信号进行混音处理，获得第二声音信号；

对所述第二声音信号的音频进行预补偿，获得第三声音信号；

对所述第三声音信号进行压缩编码，获得互联网音频文件，其中，所述压缩编码对所述第三声音信号产生的音频部分的损失中包含所述预补偿的音频。

进一步，所述对所述第二声音信号的音频进行预补偿，获得第三声音信号之前，包括：

获得对所述第二声音信号的音频预补偿。

进一步，所述获得对所述第二声音信号的音频预补偿，包括：

将所述第二声音信号进行压缩编码，获得第四声音信号；

将所述第四声音信号上传至网络服务器；

从所述网络服务器中下载所述第四声音信号；

比较所述第二声音信号与下载的第四声音信号的音频，获得对所述第二声音信号的音频预补偿。

进一步，所述利用拾音装置拾取第一声音信号，包括：

利用全向拾音装置拾取所述第一声音信号。

第二方面，提供一种获取互联网音频文件的装置，包括：

信号采集单元，用于拾取第一声音信号；

信号处理单元，用于对所述第一声音信号进行混音处理，获得第二声音信号；

预补偿单元，用于对所述第二声音信号的音频进行预补偿，获得第三声音信号；

压缩编码单元，用于对所述第三声音信号进行压缩编码，获得互联网音频文件，其中，所述压缩编码对所述第三声音信号产生的音频部分的损失中包含所述预补偿的音频。

进一步，所述装置还包括：

预补偿获取单元，用于在所述预补偿单元对所述第二声音信号的音频进行预补偿，获得第三声音信号之前，获得对所述第二声音信号的音频预补偿。

进一步，所述预补偿获取单元包括：

压缩子单元，用于将所述第二声音信号进行压缩编码，获得第四声音信号；

上传子单元，用于将所述第四声音信号上传至网络服务器；

下载子单元，用于从所述网络服务器中下载所述第四声音信号；

比较子单元，用于比较所述第二声音信号与下载的第四声音信号的音频，获得对所述第二声音信号的音频预补偿。

进一步，所述信号采集单元与全向拾音装置连接，所述信号采集单元具体用于通过所述全向拾音装置拾取所述第一声音信号。

进一步，所述全向拾音装置用于针对耳机收听方式进行拾音，所述全向拾音装置包括一支撑体和与所述支撑体相连接两个话筒，所述两个话筒对称的设置在所述支撑体的两侧，所述支撑体内充满可流动介质，所述可流动介质为液体或固体。

进一步，所述支撑体为球形。

进一步，所述支撑体为圆柱形，所述话筒位于所述支撑体的旋转面上。

进一步，所述支撑体的外壳材料为橡胶。

进一步，所述支撑体内充满的所述可流动介质为下列之一：

水、盐、沙子。

进一步，所述两个话筒之间的间距为25～30cm。

进一步，所述支撑体的质量为4～10kg。

进一步，所述话筒是指向性为心形的话筒。

进一步，所述两个话筒相互平行地设置在所述支撑体的两侧。

本发明实施例至少具有以下有益效果：

本发明实施例通过在对声音信号进行压缩编码之前，采用预补偿的方式补偿声音信号中最容易损失的音频信号，从而在该声音信号经过压缩编码后获得的音频文件最大程度的保留了声音信号的原音，从而可以在获得互联网音频文件的过程中减小压缩编码对声音信号带来的损失，提高互联网音频文件的声音品质。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1为本发明实施例一种获得互联网音频文件的方法流程图；

图2为本发明实施例中获得对第二声音信号的音频预补偿的方法流程图；

图3为本发明实施例一种获得互联网音频文件的装置结构示意图；

图4为本发明实施例另一种获得互联网音频文件的装置结构示意图；

图5为本发明实施例中一种预补偿获取单元的装置结构示意图；

图6a为本发明实施例一种全向拾音装置的正视示意图；

图6b为图6a所示的全向拾音装置的俯视示意图；

图6c为图6a所示的全向拾音装置的侧视示意图；

图7a为本发明实施例另一种全向拾音装置的立体结构示意图；

图7b为图7a所示的全向拾音装置的正视示意图；

图7c为图7a所示的全向拾音装置的俯视示意图；

图8为现有技术中ORTF的俯视结构示意图；

图9为时间差实验中拾音装置与声源之间的位置关系示意图；

图10为音量差实验中测试距离为1m测试频率为3000HZ的测试曲线；

图11为音量差实验中测试距离为2m测试频率为3000HZ的测试曲线；

图12为音色差实验中测试距离为2m测试频率为200HZ的测试曲线；

图13为音色差实验中测试距离为2m测试频率为1000HZ的测试曲线；

图14为音色差实验中测试距离为2m测试频率为10000HZ的测试曲线。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示装置结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

参见图1，为本发明实施例一种获得互联网音频文件的方法流程图。

该方法可以包括：

步骤101，拾取第一声音信号。

该拾取第一声音信号的方法可以是采用普通的拾音装置，例如一个或多个话筒，还可以采用ORTF(法国广播电视局(ORTF)设计的麦克风系统)，还可以采用特制的专门针对耳机收听方式设计的全向拾音装置，具体请参见后续实施例的描述。

该第一声音信号为拾取的原始素材，“第一”仅为与其它声音信号进行区分，并非特指某种声音信号。

步骤102，对第一声音信号进行混音处理，获得第二声音信号。

在获得第一声音信号后，在本步骤中对该第一声音信号进行常规的混音处理，该混音处理包括一种或多种常用的后期制作方法，例如，通过调音台的PANPOT(声像定位器)调整声源左右两只扬声器的音量差实现声像定位；对于声源的声像定位在采用音量差的同时，通过调音台的EQ(均衡器)调整左右两只扬声器的音色差；以及通过调音台的DELAY(延时器)调整左右两只扬声器时间差；加上声音采集时的空间信息，再现或重塑一个完整的声场等。此处不再一一列举。

该第二声音信号为混合录音后的声音信号，“第二”仅为与其它声音信号进行区分，并非特指某种声音信号。

步骤103，对第二声音信号的音频进行预补偿，获得第三声音信号。

在处理获得第二声音信号后，本发明实施例不是直接对第二声音信号进行压缩编码，而是首先对第二声音信号的音频进行预补偿。

由于在对声音信号压缩编码的过程中会对声音信号带来损失，该损失主要是音频部分的损失，具体的，会丢失部分音频信号，例如高频信息或空间信息，因此在压缩编码之前，首先在该第二声音信号中容易损失的音频部分进行预补偿，这样在后续压缩编码的损失，即可把预补偿的部分抵消，从而获得正常无损的第二声音信号，进而可以提高音频文件的声音品质。

该预补偿的具体数值，例如补偿频率和具体补偿值等，既可以根据所要采用的压缩编码方式预设经验值，也可以是通过其它方式预先获得，例如预先比对压缩前后的声音信号获得补偿值及补偿频率，具体请参见后续实施例的描述。

该第三声音信号是对混合录音后的信号进行预补偿后的声音信号，“第三”仅为与其它声音信号进行区分，并非特指某种声音信号。

步骤104，对第三声音信号进行压缩编码，获得互联网音频文件。

在预补偿获得第三声音信号后，即可在本步骤对第三声音信号进行压缩编码，该压缩编码过程对第三声音信号产生的音频部分的损失中包含或等同于上步骤中预补偿的音频。

在获得互联网音频文件后，即可将该音频文件上传至网络服务器，用户即可从该网络服务器下载音频文件。

在本发明的另一实施例中，在执行步骤103对第二声音信号的音频进行预补偿，获得第三声音信号之前，可以预先获得对第二声音信号的音频预补偿。该获得方法有多种，例如查找预设的经验值，或者预先比对压缩前后的声音信号获得补偿值及补偿频率等，其中一种方式，如图2所示，该获得对第二声音信号的音频预补偿的方法可以包括：

步骤201，将第二声音信号进行压缩编码，获得第四声音信号。

首先按照现有的压缩编码方式对第二声音信号进行压缩编码，获得第四声音信号。该压缩编码过程可以采用转码软件完成。

该第四信号是对混合录音后的信号直接进行压缩编码后的信号，“第四”仅为与其它声音信号进行区分，并非特指某种声音信号。

步骤202，将第四声音信号上传至网络服务器。

将该第四声音信号通过无线或有线等方式上传至网络服务器。

步骤203，从网络服务器中下载第四声音信号。

上述步骤201～203与现有对声音信号进行压缩编码及上传和下载的过程相同。

步骤204，比较第二声音信号与下载的第四声音信号的音频，获得对第二声音信号的音频预补偿。

在下载第四声音信号后，通过比对压缩编码前的第二声音信号以及下载的第四声音信号，即可获知在压缩编码过程中第二声音信号损失了哪些音频部分，从而可以确定出音频预补偿，可以包括补偿频率和补偿值等。其中，不同的音频文件即使经过相同的压缩编码过程也有可能损失的音频部分不同，从而需要做出的音频预补偿也就不同。

在确定出音频预补偿后即可应用该音频预补偿对第二声音信号执行前述步骤103，具体的可以通过调音台，均衡器，延时器等调音设备进行音频补偿，包括高频信息和/或空间信息等。

通过上述方法获得的音频预补偿会更加准确，在对第二声音信号预补偿后，再经过压缩编码获得的互联网音频文件就可以最大程度的保留第二声音信号的原音，从而互联网音频文件可以具有较高的声音品质。

以上压缩编码后获得的音频文件的音频格式可以是MP3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3编码)、WAV(Microsoft Windows Audio，微软公司开发的一种声音文件格式)，优选AAC(AdvancedAudio Coding，高级音频编码技术)格式。

在上述过程中，如果在步骤101中拾取第一声音信号时采用的是专门针对耳机收听方式设计的全向拾音装置，则在执行步骤204时，可以在耳机收听的场景下比较获得音频预补偿。该全向拾音装置的结构可以实现立体声定位信息中时间差，音量差和音色差的放大，从而可以使得在耳机收听中再现的声场效果更真实，定位更精确，可以还原更完整的声场信息，改善耳机收听效果。因此，在采用上述拾音装置拾取声音信号，并对声音信号进行处理，预补偿，压缩编码及上传网络后，用户在后续从网络服务器下载该对应的音频文件时也就可以用耳机收听到更完整的声场信息，获得低码率、高音质和全方向感的音频文件。该方法利用该全向拾音装置和混合录音的工艺配合改善了耳机收听的效果。

该技术是发明人经过三年多的实验获得的，其技术效果受到本领域专业人员及本领域权威机构的高度评价和高度认可。

以上是对本发明方法实施例的说明，下面对实现上述方法的装置进行介绍。

参见图3，为本发明实施例一种获取互联网音频文件的装置结构示意图。

该装置可以包括：

信号采集单元301，用于拾取第一声音信号。

信号处理单元302，用于对第一声音信号进行混音处理，获得第二声音信号。

预补偿单元303，用于对第二声音信号的音频进行预补偿，获得第三声音信号。

压缩编码单元304，用于对第三声音信号进行压缩编码，获得互联网音频文件，其中，该压缩编码对第三声音信号产生的音频部分的损失中包含预补偿的音频。

该装置通过上述单元在对声音信号进行压缩编码之前，采用预补偿的方式补偿声音信号中最容易损失的音频信号，从而在该声音信号经过压缩编码后获得的音频文件最大程度的保留了声音信号的原音，从而可以在获得互联网音频文件的过程中减小压缩编码对声音信号带来的损失，提高互联网音频文件的声音品质。

在本发明的另一实施例中，该装置除了可以包括信号采集单元301，信号处理单元302，预补偿单元303和压缩编码单元304之外，如图4所示，还可以包括：

预补偿获取单元401，用于在预补偿单元303对第二声音信号的音频进行预补偿，获得第三声音信号之前，获得对所述第二声音信号的音频预补偿。

如图5所示，预补偿获取单元401又进一步包括：

压缩子单元501，用于将所述第二声音信号进行压缩编码，获得第四声音信号。

上传子单元502，用于将所述第四声音信号上传至网络服务器。

下载子单元503，用于从所述网络服务器中下载所述第四声音信号。

比较子单元504，用于比较所述第二声音信号与下载的第四声音信号的音频，获得对所述第二声音信号的音频预补偿。

在另一实施例中，信号采集单元301与全向拾音装置连接，信号采集单元301具体用于通过该全向拾音装置拾取所述第一声音信号。

该全向拾音装置是专门针对耳机收听方式设计的，其结构可以实现立体声定位信息中时间差，音量差和音色差的放大，从而可以使得在耳机收听中再现的声场效果更真实，定位更精确，可以还原更完整的声场信息，改善耳机收听效果。因此，在采用上述拾音装置拾取声音信号，并对声音信号进行处理，预补偿，压缩编码及上传网络后，用户在后续从网络服务器下载该对应的音频文件时也就可以用耳机收听到更完整的声场信息，获得低码率、高音质和全方向感的音频文件。

下面对该全向拾音装置进行介绍。

首先，人依靠两只耳朵通过音量差、音色差、时间差三个主要的要素实现对声源的定位。对于音量差，两耳之间的距离虽然很近，但由于人体头部对声音的阻隔作用，声音到达两耳的声级就可能不同。如果声源偏左，则左耳感觉声级大一些，而右耳声级小一些。对于音色差，由于波的绕射能力同波长与障碍物尺度之间的比例有关，同一个声音中的不同频率绕过头部的能力各不相同，频率越高的声音衰减越明显，于是当声波从人头部偏左侧或偏右侧传播时，左耳听到的音色同右耳听到音色就有差异，只有从头部正前方(或正后方)来的声音，两耳听到声音才没有音色差。对于时间差，由于左右两耳之间有一定的距离，因此，除了来自前方(或正后方)的声音之外，由其他方向传来的声音到达两耳的时间就有先后，从而造成时间差。现有技术中的大部分拾音装置无论是后期调制为立体声还是现场立体声录音都只关注了音量差，而没有考虑到音色差和时间差，因此不能很好的模拟人在真实环境中耳朵所感受的结果，在用耳机收听时也就无法还原更完整的声场信息。

基于此，本发明实施例专门针对耳机收听方式设计了全向拾音装置。该装置包括一个支撑体和与该支撑体相连接的两个话筒，话筒与支撑体之间的连接方式有多种，例如通过粘胶粘合，或通过绳索固定，或通过支架固定等。

其中，两个话筒对称地设置在该支撑体的两侧，具体的可以是两个话筒关于该支撑体的对称轴对称或关于该支撑体的中心点对称。两个话筒可以相互平行或近似平行设置，也即两话筒的开角为0°或接近0°，例如夹角在0°～5°范围内；两话筒也可以呈180°夹角设置等。两个话筒可以是同类型的话筒，也可以是不同类型的话筒，例如，两话筒均为普通话筒，具体可以是指向性为心形的话筒。

该支撑体可以有多种形状，例如球形，圆柱形，椭球型等规则几何外形或类似于人头形状的非规则几何外形。该支撑体的材质可以是橡胶或其他弹性材料，还可以是纸质材料等，该支撑体的材质不易在拾音时产生共振。支撑体的尺寸和重量与人体头部的尺寸和重量类似，例如，尺寸可以是25～30cm，重量可以是4～10kg等。

该支撑体内充满可流动介质，该介质需满足两个条件，一方面是要充满该支撑体，二是可流动的，不能是实体或实心的。该可流动介质可以是多种现有公知的可以流动的液体或固体，例如水、盐、细砂粒或其他小颗粒状固体。该可流动介质不仅可以避免支撑体在拾音时产生共振，而且可以在两个话筒之间对声音起到屏蔽和遮挡作用，从而可以实现立体声定位信息中音量差和音色差的放大，进而可以使得在耳机收听中再现的声场效果更真实，定位更精确，可以还原更完整的声场信息，改善耳机收听效果。

下面结合附图和实施例，对本发明的具体实施方案进行描述。

参见图6a～6c，为本发明实施例一种全向拾音装置的结构示意图。

该全向拾音装置包括支撑体11、话筒12和话筒13。

如图6a，6b所示，话筒12和话筒13对称的设置在支撑体11的两侧，话筒12和话筒13通过粘合剂粘合在支撑体11上，话筒12和话筒13相互平行，两话筒的收音的一端朝向同一方向。话筒12和话筒13均为指向性为心形的话筒。如图6c所示，话筒12和话筒13的外围没有任何遮挡，这样可以拾取完整的声场信息。

该支撑体11的形状为球形，话筒12和话筒13位于该球形支撑体11的直径的两端。该支撑体11的外壳的材质为橡胶，类似于篮球，该支撑体11内充满水，该设置不仅可以避免支撑体在拾音时产生共振，而且水可以在两个话筒之间对声音起到很好的屏蔽和遮挡作用，从而可以实现立体声定位信息中音量差和音色差的放大。

该支撑体11的直径大约为25～30cm，也即话筒12与话筒13之间的间距为25～30cm，优选为25cm。该尺寸设置可以更好的实现立体声的定位信息中时间差的放大。

该全向拾音装置通过上述支撑体和话筒的设置可以拾取完整的声场信息，并可以实现立体声定位信息中时间差，音量差和音色差的放大，从而可以使得在耳机收听中再现的声场效果更真实，定位更精确，可以还原更完整的声场信息，改善耳机收听效果。

参见图7a～7c，为本发明实施例另一种全向拾音装置的结构示意图。

该全向拾音装置包括支撑体21、话筒22和话筒23。

本实施例中，如图7a～7b所示，该支撑体21的形状为圆柱形，话筒22和话筒23位于该圆柱形支撑体21的旋转面上，且位于该支撑体21横截面的直径的两端，如图7c所示。该支撑体21的外壳的材质为橡胶，该支撑体21内可以装满盐或细沙，该设置不仅可以避免支撑体在拾音时产生共振，而且也可以在两个话筒之间对声音起到很好的屏蔽和遮挡作用，从而可以实现立体声定位信息中音量差和音色差的放大。

该支撑体21的直径大约为25～30cm，也即话筒22与话筒23之间的间距为25～30cm，优选为27cm。该尺寸设置可以更好的实现立体声的定位信息中时间差的放大。

如图7a，7b所示，话筒22和话筒23对称的设置在支撑体21的两侧，话筒22和话筒23通过粘合剂粘合在支撑体21上，话筒22和话筒23相互平行，两话筒的收音的一端朝向同一方向。话筒22和话筒23均为指向性为心形的话筒。如图7c所示，话筒22和话筒23的外围没有任何遮挡，这样可以拾取完整的声场信息。

上述支撑体可以放置或固定在一刚性支撑杆或支撑架上，例如话筒杆，用于支撑该支撑体及话筒，该刚性支撑杆或支撑架可以实现高度可调和角度可调等位置调节。两话筒的末端可以以无线或有线的方式与控制设备连接，以便对话筒采集到的声音进行后续处理，该控制设备包含常用的声音处理设备，此处不再一一列举。

下面分别在时间差，音量差和音色差上对本发明实施例的全向拾音装置与ORTF进行对比测试。

首先，ORTF是由法国广播电视局(ORTF)设计的麦克风系统，其结构如图8所示，中间的支撑架31为刚性实体杆，用于支撑位于支撑架31两端的话筒32，两话筒32之间的夹角为40°-45°。

1)时间差实验：

方法：将节拍器的声音作为测试内容录制，其中左声道为无延时声，右声道延时0ms-40ms，1ms为一档，单话筒录音，左右声道的记录电平完全一致。

用扬声器监听：

录音棚监听扬声器要求：位置对称、音量相等、特性一致。

当延时出现时，声音逐步向左扬声器偏移，当延时12ms时右边扬声器的存在完全被掩蔽；当延时20ms时察觉到2个节拍器的声音，随着延时量的增加逐步趋于明显。

用耳机监听：

耳机要求：专业监听级耳机。

当延时出现时，声音逐步向左耳机偏移，当延时5ms时右边耳机的存在完全被掩蔽；当延时10ms时察觉到2个节拍器的声音，随着延时量的增加逐步趋于明显。

ORTF呈直线排列，两只话筒的中心距离为17cm，全向拾音装置(球形)两只话筒的中心距离为25cm，全向拾音装置(圆柱形)两只话筒的中心距离为27cm。如图9所示，如果各拾音装置距离声源41的位置均为呈60°夹角、距离1m，并以ORTF两只话筒的时间差作为基数1，则全向拾音装置(球形)为：1.47；全向拾音装置(圆柱形)为：1.58。

以球形全向拾音装置计算为例：声音在空气中传播速度：340m/s。以全向拾音装置(球形)中心向左1m，向正前方移动0.6m，此点以正前方为原点的60°。由于全向拾音装置(球形)的直径为25cm，此点与左耳的距离为1.05m；此点与右耳的距离为1.3m；转换为左右耳的时间差即为0.73ms。而ORTF以同样的方法计算左右耳的时间差小于为0.5ms，可见，全向拾音装置在人耳接受的范围内将左右耳的时间差有效地放大了。

由此可以得出结论：时间差在声像定位中的作用在扬声器监听和耳机监听之间是有区别的，时间差对耳机监听更明显。由于全向拾音装置的两只话筒的中心距离以及全向拾音装置支撑体的遮挡掩蔽的综合作用，时间差定位效果大大优于ORFT。

2)音量差实验：

方法：在录音棚通过扬声器发出正弦波信号，分别将需要测试的话筒在1m、2m的位置进行测试，其中，1m是扬声器以及话筒出厂时的测试标准，2m更接近于实际使用的环境；测试频率3000Hz，因为人耳对这个频率最为敏感；用调音台的电平表记录在不同角度同样距离的电平变化。

测得的音量差曲线如图10、11所示，其中，横坐标为拾音装置与声源之间的连线与水平方向的夹角，纵坐标为音量差，图10为测试距离为1m，测试频率为3000HZ的测试曲线，图11为测试距离为2m，测试频率为3000HZ的测试曲线。其中，L1为ORTF的左话筒测试曲线，R1为ORTF的右话筒测试曲线；L2为全向拾音装置(球形)的左话筒测试曲线，R2为全向拾音装置(球形)的右话筒测试曲线；L3为全向拾音装置(圆柱形)的左话筒测试曲线，R3为全向拾音装置(圆柱形)的右话筒测试曲线。

由测试曲线可以得出结论：ORTF的敏感角度为60°；全向拾音装置的敏感角度为30°。人耳的掩蔽效应证明只要左右两个扬声器的音量差存在时，声像向音量大的扬声器偏移，当音量差达到50％时，音量小的扬声器的声音将被完全的屏蔽。ORTF双话筒的音量差及全向拾音装置的双话筒的音量差在超过30°部分完全满足了声像定位的条件。而且，全向拾音装置的音量差曲线比ORTF的音量差曲线更加平缓，人用耳机收听全向拾音装置拾取的声音时会感觉更自然。

3)音色差实验：

方法：在录音棚通过扬声器发出正弦波信号，分别将需要测试的话筒在2m的位置进行测试，测试频率200Hz、1000Hz、3000Hz、10000Hz；用调音台的电平表记录在不同角度同样距离的、左右两只话筒的电平变化。

测得的曲线如图11、12、13、14所示，其中，横坐标为拾音装置与声源之间的连线与水平方向的夹角，纵坐标为音量差，图11为测试距离为2m，测试频率为3000HZ的测试曲线；图12为测试距离为2m，测试频率为200HZ的测试曲线；图13为测试距离为2m，测试频率为1000HZ的测试曲线；图14为测试距离为2m，测试频率为10000HZ的测试曲线。其中，L1为ORTF的左话筒测试曲线，R1为ORTF的右话筒测试曲线；L2为全向拾音装置(球形)的左话筒测试曲线，R2为全向拾音装置(球形)的右话筒测试曲线；L3为全向拾音装置(圆柱形)的左话筒测试曲线，R3为全向拾音装置(圆柱形)的右话筒测试曲线。

通过对比两种拾音设备在不同测试频率下的测试曲线可以得出结论：由于ORTF双话筒的开角为40°-45°，所以所有频点30°-90°位置均有提升，以此增强声像定位的效果。全向拾音装置仅在30°角有微小的提升，其它角度均接近理想的心形话筒的指向性，而这种指向性也最接近人耳的指向性。实现接近人耳的指向性完全靠全向拾音装置支撑体的遮挡和掩蔽效应。所以从耳机听觉检验，全向拾音装置的定位准确度略好于ORTF。

由以上实验结果可知，本发明实施例的全向拾音装置可以实现立体声定位信息中时间差，音量差和音色差的放大，从而可以使得在耳机收听中再现的声场效果更真实，定位更精确，可以还原更完整的声场信息，改善耳机收听效果。

以上实施例中，各部件的形状和结构仅为示例，并非限定。并且，以上各部件还可以用其它具有相同功能的元件来分别替换，以组合形成更多的技术方案，且这些替换后形成的技术方案均应在本发明技术方案保护的范围之内。

以上装置中的各单元的具体实现过程请参见方法实施例的相应描述，此处不再赘述。上述“第一”、“第二”、“第三”“第四”仅为区分不同的声音信号，并非特指或限定。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。

虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种获得互联网音频文件的方法，其特征在于，包括：

利用针对耳机收听方式设计的全向拾音装置拾取第一声音信号，所述全向拾音装置包括一个支撑体和与所述支撑体相连接的两个话筒；所述两个话筒对称地设置在所述支撑体的两侧；所述支撑体内充满可流动介质，以在所述两个话筒之间对声音起到屏蔽和遮挡作用；

对所述第一声音信号进行混音处理，获得第二声音信号；

获得对所述第二声音信号的音频预补偿，包括：

将所述第二声音信号进行压缩编码，获得第四声音信号；

将所述第四声音信号上传至网络服务器；

从所述网络服务器中下载所述第四声音信号；

比较所述第二声音信号与下载的第四声音信号的音频，获得对所述第二声音信号的音频预补偿；

对所述第三声音信号进行压缩编码，获得用于耳机收听的互联网音频文件，其中，所述压缩编码对所述第三声音信号产生的音频部分的损失中包含所述预补偿的音频。

2.一种获得互联网音频文件的装置，其特征在于，包括：

信号采集单元，与全向拾音装置连接，用于通过所述全向拾音装置拾取第一声音信号，所述全向拾音装置包括一个支撑体和与所述支撑体相连接的两个话筒；所述两个话筒对称地设置在所述支撑体的两侧；所述支撑体内充满可流动介质，以在所述两个话筒之间对声音起到屏蔽和遮挡作用；

预补偿获取单元，用于在所述预补偿单元对所述第二声音信号的音频进行预补偿，获得第三声音信号之前，获得对所述第二声音信号的音频预补偿，包括：

上传子单元，用于将所述第四声音信号上传至网络服务器；

比较子单元，用于比较所述第二声音信号与下载的第四声音信号的音频，获得对所述第二声音信号的音频预补偿；

压缩编码单元，用于对所述第三声音信号进行压缩编码，获得用于耳机收听的互联网音频文件，其中，所述压缩编码对所述第三声音信号产生的音频部分的损失中包含所述预补偿的音频。

3.根据权利要求2所述的装置，其特征在于，所述支撑体为球形。

4.根据权利要求2所述的装置，其特征在于，所述支撑体为圆柱形，所述话筒位于所述支撑体的旋转面上。

5.根据权利要求2所述的装置，其特征在于，所述支撑体的外壳材料为橡胶。

6.根据权利要求2所述的装置，其特征在于，所述支撑体内充满的所述可流动介质为下列之一：

水、盐、沙子。

7.根据权利要求2所述的装置，其特征在于，所述两个话筒之间的间距为25～30cm。

8.根据权利要求2所述的装置，其特征在于，所述支撑体的质量为4～10kg。

9.根据权利要求2所述的装置，其特征在于，所述话筒是指向性为心形的话筒。

10.根据权利要求2所述的装置，其特征在于，所述两个话筒相互平行地设置在所述支撑体的两侧。