CN113971969B

CN113971969B - 一种录音方法、装置、终端、介质及产品

Info

Publication number: CN113971969B
Application number: CN202110925408.XA
Authority: CN
Inventors: 刘智辉; 余艳辉
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-03-24
Anticipated expiration: 2041-08-12
Also published as: CN113971969A

Abstract

本申请公开了一种录音方法、装置、终端及介质、产品，该方法应用于终端，终端通过根据第一录音参数初始化WAV封装器，获取按照第二录音参数采集的音频数据流，其中第二录音参数包括采样位深，并根据录音算法对音频数据流进行增益处理后，通过WAV封装器将处理后的音频数据流封装为WAV文件，获得具有高清晰度录音文件，如此，该方法能够保留录音的较多细节，获得高清晰度录音文件。

Description

一种录音方法、装置、终端、介质及产品

技术领域

本申请涉及终端领域，尤其涉及一种录音方法、装置、终端以及计算机可读存储介质以及计算机程序产品。

背景技术

目前，智能手机、平板电脑、智能穿戴设备(例如智能手表)等终端已经在生产和生活中得到广泛应用。上述终端设备通常具有录音功能，以便于用户在需要录音时为用户提供相应的服务。

智能终端通常是通过应用层的录音应用实现录音功能。具体地，应用层的录音应用通过框架层的录制器(media recorder)设置编码参数和封装参数，例如设置编码格式为高级音频编码(advanced audio coding，AAC),设置封装格式为动态影像专家组第四版编码标准(moving picture experts group4，MPEG4)。相应地，框架层的录制器根据上述参数初始化AAC编码器和MPEG4封装器。

录音应用启动录音后，麦克风可以采集音频，数字信号处理器(digital signalprocessor，DSP)将采集的音频进行数字化，然后硬件抽象层对数字化的音频数据进行增益和降噪，然后输出音频数据流至录音线程。录音线程将音频数据流输出至音频源。AAC编码器可以以音频源中的音频数据流为输入进行编码，然后MPEG4封装器以编码器输入为输入，按照MPEG4标准进行封装，得到录音文件。

然而，上述方法获得的录音文件的清晰度较低，损失了一些细节，难以满足业务的需求。

发明内容

本申请提供一种录音方法，该录音方法能够保留音频数据流的较多细节，减少了细节损失，提高了录音文件的清晰度。本申请还提供了上述录音方法对应的装置、终端、计算机可读存储介质以及计算机程序产品。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供了一种录音方法，该方法可以由具有录音功能的电子设备(例如智能手机、智能手表等终端)执行。具体地，录制器根据第一录音参数初始化WAV封装器，在音频源获取按照第二录音参数采集的音频数据流后，根据录音算法对该音频数据流进行增益处理，然后通过该WAV封装器将获取的音频数据流封装为WAV文件，从而，获取具有高清晰度的录音文件。根据第一录音参数初始化后的WAV封装器，能够在封装时最大程度的保留音频数据流的清晰度，而按照第二录音参数采集的音频数据流，在数据采集时具有高清晰度，因此该WAV封装器将该音频数据流封装为的WAV文件，一方面，音频数据流在采集时即具有较高的清晰度，另一方面，WAV封装器不对该音频数据流进行压缩，保留音频数据流的较多细节，减少封装过程中细节的损失，保持音频数据流的清晰度。因此WAV 文件具有高清晰度，能够满足用户的进一步需求。

在一种可能的设计中，该第二录音参数包括采样位深，采样位深被设置为N比特，所述N大于第一阈值。其中，采样位深可以被设置为24比特。

如此，可以按照N比特的采样位深进行音频数据流的采样，高采样位深对应较大的音频动态范围，因此采集的音频数据流能够反应较大的音频动态范围，以及更多的低电平细节。采样位深为24比特对应-144db至0db的音频动态范围，能够反应更多的低电平细节。

在一种可能的设计中，该方法还包括：

录音应用通过框架层提供的第一录音接口设置第一录音参数。

如此，框架层可以通过第一录音接口从应用层获取第一录音参数，从而能够根据第一录音参数初始化WAV封装器。

在一种可能的设计中，第一录音参数包括编码格式和封装格式，其中，封装格式被设置为扩展的WAV格式，扩展的WAV格式支持多种采样位深。

如此，初始化后的WAV封装器能够封装具有高采样位深的音频数据流，从而获得具有高清晰度的WAV文件。

在一种可能的设计中，第二录音参数包括采样格式、录音源、采样率、声道数和缓冲区大小中的一种或多种。

如此，麦克风可以按照采样格式、录音源、采样率、声道数和缓冲区大小中的一种或多种的第二录音参数采集音频数据流，采集获得具有高清晰度的音频数据流。

在一种可能的设计中，终端根据录音算法对音频数据流进行增益处理，包括

终端根据录音算法对音频数据流进行预处理，得到浮点型数据；

终端根据录音算法对所述浮点型数据进行后处理，得到处理后的音频数据流，其中，处理后的音频数据流的采样位深等于处理前的音频数据流的采样位深。

如此，通过将音频数据流转化为浮点型数据，能够复用录音算法，降低该录音方法的研发成本以及储存空间。将音频数据流经过录音算法处理后转化为与处理前的音频数据流采样位深相同的采样位深，保证该音频数据流采样位深恒定，保证音频数据流清晰度不受影响。

在一种可能的设计中，该方法还包括：

终端接收第一操作；

终端响应第一操作，暂停获取音频数据流，以及暂停通过WAV封装器将所述音频数据流封装为WAV文件。

在一种可能的设计中，该方法还包括：

终端接收第二操作；

终端响应所述第二操作，恢复获取音频数据流，以及恢复通过WAV封装器将音频数据流封装为WAV文件。

如此，WAV封装器能够根据用户的暂停操作，暂停获取音频数据流，以及暂停对于音频数据流的封装，提高了WAV封装器封装音频数据流的灵活性。在WAV封装器暂停获取音频数据流，以及暂停对于音频数据流的封装之后，用户还可以根据自身需要选择触发恢复操作，WAV封装器恢复获取音频数据流，以及恢复通过WAV封装器将所述音频数据流的封装，进一步提高WAV封装器的灵活性。

第二方面，本申请提供了一种录音装置，包括：

初始化模块，用于根据第一录音参数初始化波形音频文件格式WAV封装器；

获取模块，用于获取按照第二录音参数采集的音频数据流，所述第二录音参数包括采样位深，所述采样位深被设置为N比特，所述N大于第一阈值；

处理模块，用于根据录音算法对所述音频数据流进行增益处理；

封装模块，用于通过所述WAV封装器将处理后的所述音频数据流封装为WAV文件。

在一种可能的设计中，采样位深被设置为24比特。

在一种可能的设计中，该装置还包括：

设置模块，用于通过第一录音接口设置所述第一录音参数。

在一种可能的设计中，所述第一录音参数包括编码格式和封装格式，其中，所述封装格式被设置为WAV格式，所述WAV格式支持多种采样位深。

在一种可能的设计中，所述第二录音参数还包括采样格式、录音源、采样率、声道数和缓冲区大小中的一种或多种。

在一种可能的设计中，所述处理模块具体用于：

根据录音算法对所述音频数据流进行预处理，得到浮点型数据；

根据所述录音算法对所述浮点型数据进行后处理，得到处理后的所述音频数据流，其中，处理后的所述音频数据流的采样位深等于处理前的所述音频数据流的采样位深。

在一种可能的设计中，所述装置还包括暂停模块，所述暂停模块用于：

接收第一操作；

响应所述第一操作，暂停获取所述音频数据流，以及暂停通过所述WAV封装器将所述音频数据流封装为WAV文件。

在一种可能的设计中，所述装置还包括恢复模块，所述恢复模块用于：

接收第二操作；

响应所述第二操作，恢复获取所述音频数据流，以及恢复通过所述WAV封装器将所述音频数据流封装为WAV文件。

第三方面，本申请提供了一种终端，该终端包括麦克风、处理器和存储器；所述麦克风用于采集音频数据流；其中，在所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令；当所述指令被所述处理器执行时，使得所述电子设备执如上述第一方面中任一种可能的设计中所述的录音方法。

第四方面，本申请提供了一种计算机存储介质，该计算机存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，所述电子设备执行如上述第一方面中任一种可能的设计中所述的录音方法。

第五方面，本申请提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，所述计算机执行上述第一方面中任一种可能的设计中所述的录音方法。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

图1为本申请提供的一种电子设备的组成示例图；

图2为本申请提供的一种电子设备的软件结构实例图；

图3为本申请提供的一种录音方法的流程示意图；

图4为本申请提供的一种录音方法的初始化流程示意图；

图5为本申请提供的一种录音方法的采集流程示意图；

图6为本申请实施例提供的一种终端的结构示意图；

图7为本申请实施例提供的一种录音装置的结构示意图。

具体实施方式

本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

随着用户对于录音需求的不断增长，用户对于录音清晰度的要求也在不断提高。通常情况下，录音应用启动录音后，麦克风所采集的数据经数字信号处理、增益降噪处理后，在框架层经过编码格式为AAC的编码器压缩后会损失较多录音细节，降低录音的清晰度。

有鉴于此，本申请提供了一种录音方法，该方法可以应用于电子设备，在该方法中，电子设备根据第一录音参数初始化波形音频文件格式(waveform audio，WAV)封装器，WAV 封装器是一种高清封装器，能够支持各种清晰度音频的封装，并且不会降低清晰度，然后通过录音通路获取按照第二录音参数采集的音频数据流，其中第二录音参数为具有较高采样位深的录音参数，所采集的音频数据流清晰度较高，能够保留音频数据流的较多细节，最后通过WAV封装器将该音频数据流封装为WAV文件，减少封装过程中对于音频数据流细节的损失，实现了对于所采集的具有较高清晰度的音频数据流的完整保存，从而提高了录音的清晰度。

具体地，录制器根据从录音应用获取的包括编码格式和封装格式的第一录音参数，初始化WAV封装器，录音通路根据第二录音参数，通过麦克风采集音频数据流，其中第二录音参数包括采样位深，进一步可以包括采样格式、录音源、采样率、声道数和缓冲区大小中的一种或多种。音频数据流经模数转换器转化为可以处理的数字信号后，在驱动层经过Linux内核的音频驱动，再在框架层通过录音线程进行增益处理后，被录音线程输出至音频源。WAV封装器将处理后的音频数据流封装为WAV文件。如此，一方面，音频数据流在采集时便具有较高的清晰度，具有更多细节，另一方面，WAV封装器不会对该音频数据流进行压缩，能够保留音频数据流的更多细节，减少封装过程中细节的损失，从而能够实现对于音频数据流的完整保存，提高了录音的清晰度。

在一些实施例中，电子设备可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer，UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant，PDA)、可穿戴电子设备、智能手表等终端，本申请对上述终端的具体形式不做特殊限制。在本实施例中，终端的结构可以如图1所示，图1为本申请实施例提供的一种终端的结构示意图。

如图1所示，终端可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，按键190，显示屏194等。可以理解的是，本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit， GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。例如，在本申请中，处理器可以执行以下步骤：控制录制器根据第一录音参数初始化波形音频文件格式WAV封装器；获取按照第二录音参数采集的音频数据流；通过所述WAV封装器将所述音频数据流封装为WAV文件。

其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110 中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组 I2C总线。I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170 之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备充电，也可以用于电子设备与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode， OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic l ight emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)， Miniled，MicroLed，Micro-oled，量子点发光二极管(quantum dot lightemitting diodes， QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备的显示屏194上可以显示一系列图形用户界面(graphical userinterface， GUI)，这些GUI都是该电子设备的主屏幕。一般来说，电子设备的显示屏194的尺寸是固定的，只能在该电子设备的显示屏194中显示有限的控件。控件是一种GUI元素，它是一种软件组件，包含在应用程序中，控制着该应用程序处理的所有数据以及关于这些数据的交互操作，用户可以通过直接操作(direct manipulation)来与控件交互，从而对应用程序的有关信息进行读取或者编辑。一般而言，控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备的各种功能应用以及数据处理。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中，电子设备可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。在本实施例中，终端可以部署多个麦克风，例如，终端底部具有一个麦克风，背部也具有一个麦克风时，触发终端的不同功能，调用终端的不同麦克风。具体地，录像时，位于手机背部的麦克风用于收音，而仅进行录音时，底部麦克风收音。本实施例中的麦克风，可以采集采样位深为24比特的音频数据流。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm 的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。

另外，在上述部件之上，运行有操作系统。例如苹果公司所开发的

操作系统，谷歌公司所开发的/>

开源操作系统，微软公司所开发的/>

操作系统，华为公司所开发的/>

操作系统等。在该操作系统上可以安装运行应用程序。

电子设备的操作系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的

系统为例，示例性说明电子设备的软件结构，如图2所示。其中，录音应用向录制器下发包括第一录音参数的控制流指令，录制器根据第一录音参数初始化封装器，该指令还被下发至音频源，以便录音线程和硬件抽象层协商设置第二录音参数。麦克风根据第二录音参数所采集的音频数据流经过模数转化处理、驱动层驱动处理、录音算法处理后，进入录音线程，录音线程读取该音频数据流，将满足第二录音参数的音频数据流输出至音频源，完成对于音频数据流的采集。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用层，框架层，硬件抽象层和驱动层。

录音应用在应用层设置的第一录音参数向下传递至框架层录制器，再通过控制器对WAV 封装器进行初始化。其中，第一录音参数包括编码格式和封装格式。编码格式和封装格式用于对WAV封装器进行初始化。并且，录制器还可以将第一录音参数中的采样位深、采样格式、录音源、采样率、声道数和缓冲区大小等传递至音频源，以便录音线程和硬件抽象层协商设置第二录音参数。第二录音参数包括被设置为N比特的采样位深，以及采样格式、录音源、采样率、声道数和缓冲区大小中的一种或多种。

麦克风根据第二录音参数采集音频数据流后，再将音频数据流通过模数转化器转化为可以进行处理的数字信号，进入驱动层。音频数据流在驱动层经过Linux内核的音频驱动，然后进入硬件抽象层进行录音算法处理。框架层的录音线程读取经过录音算法处理后的音频数据流，将满足第二录音参数的音频数据流输出至音频源，完成对于音频数据流的采集。

应用层包括录音应用，录音应用用于通过框架层的录制器设置录音参数。本实施例中，框架层向应用层提供第一录音接口，使应用层的录音应用能够通过该第一录音接口设置第一录音参数。第一录音参数为高清录音参数，录音应用可以通过设置第一录音参数实现对于高清晰度录音文件的获取。

框架层包括录制器、音频源、封装器和录音线程。本实施例中，框架层向应用层提供一个扩展的第一录音接口，框架层能够根据该第一录音接口获取应用层设置的第一录音参数。录制器根据该第一录音参数初始化WAV封装器。录音线程和硬件抽象层协商设置第二录音参数，在第二录音参数确定后打开录音通路，开始对于音频数据流的采样。录音通路打开后，录音线程以固定时间间隔为周期，连续从硬件抽象层读取音频数据流，当从硬件抽象层所获取的音频数据流从采样位深与协商设置的第二录音参数中的采样位深一致时，录音线程将该音频数据流发送至音频源，是WAV封装器将该音频数据流封装为WAV文件。

硬件抽象层用于对转换为数字信号的音频数据流通过录音算法进行增益与降噪。录音算法是指对于音频数据进行数据处理以实现对于音频数据的增益、降噪、回声消除等效果的算法，也称音频算法。录音算法可以对于音频数据流的某一方面进行处理，例如增益控制(automatic gain control，AGC)算法、降噪(active noise control，ANC)算法、回声消除(acoustic echo cancellation，AEC)算法、声反馈消除(acoustic feedbackcancellation，AFC)算法、混响去除(dereverberation)算法等。

在一些可能的实现方式中，录音算法可以通过复用上述录音算法的一种或者多种，以实现对于音频数据流的处理。通常情况下，为了使录音算法具有较高的复用性，音频数据流在通过录音算法进行增益与降噪处理时，需要先进行预处理转化为浮点型(float)数据，录音算法对float数据进行增益与降噪处理后，再通过后处理转化为原数据类型。

驱动层用于对数据流进行Linux内核的音频驱动，使数据流进入硬件抽象层进行录音算法处理。

本实施例还包括硬件麦克风(microphone，MIC)和模数转换器(analog todigital converter，ADC)。其中，MIC用于按照第二录音参数采集音频数据。ADC用于对MIC采集的音频数据进行模数转换，将采集的模拟信号转换为能够进行后续处理的数字信号。

在一些可能的实现方式中，第二录音参数包括采样位深，采样位深可以被设置为N比特，例如可以是24。

由于上述录音方法中对于WAV封装器的初始化在电子设备的框架层，因此能够提供一种系统级的录音方法，该方法可以应用在安装在该系统上的任意应用中。

以上对于录音方法的架构进行了简单介绍，下面结合图3介绍本实施例中录音方法的具体步骤。

S302：录制器根据第一录音参数初始化WAV封装器。

具体地，终端应用层的录音应用向框架层中的录制器发送第一录音参数，录制器根据该第一录音参数初始化WAV封装器。

其中，框架层向应用层提供扩展的第一录音接口，该第一录音接口为高清录音接口，用于接收应用层设置的高清录音参数。应用层的录音应用可以通过第一录音接口向框架层发送的高清录音参数。

WAV文件是一种Windows多媒体音频格式，具有广泛的应用范围。WAV使用三个参数来表示声音：采样位深、采样频率和声道数。本实施例中，通过WAV封装器可以将音频数据流封装为WAV文件。

高清录音参数用于初始化WAV封装器。WAV封装器能够封装多种类型的数据，经过高清参数初始化后的WAV封装器能够封装高清的音频数据流，并且不改变音频数据流的清晰度。

S304：音频源获取按照第二录音参数采集的音频数据流。

第二录音参数可以包括采样位深，采样格式、录音源、采样率、声道数和缓冲区大小等。其中，采样位深可以被设置为24比特(bit)。

位深度也称位深，是指在记录数字图像或数字音频的清晰度时，计算机实际上是用每个点需要的位深度来表示的。例如，计算机在记录颜色时，采用了一种称作“位”(bit)的记数单位来记录来表示颜色的数据。当这些数据按照一定的编排方式被记录在计算机中，就构成了一个数字图像的计算机文件。“位”(bit)是计算机存储器里的最小单元，用来记录每一个像素颜色的值。在图像拍摄中，图像的色彩越丰富，“位”就越多。同样地，在音频录制中，音质清晰度越高，“位”就越多。位深越大，信噪比和动态范围越好，音色也就越真实、生动。

通常情况下，音频录制采用16bit的位深。16bit采样位深的音频的动态范围为-96db 至0db，能够比较完整的收录录音现场的动态变化。但是随着用户对于录音清晰度的进一步需求，在某些技术中，音频的采样位深可以被设置为24bit，对应地，24bit采样位深的音频动态范围可以达到-144db至0db，提高了音频的动态范围。

采样位深从16bit到24bit，对应地，音频的动态范围从-96db至0db扩大为-144db至 0db，因此，24bit的采样位深具有更大的动态范围，在低电平部分，能够将低电平范围从-96db扩大至-144db，因此能够记录更多低电平的细节。

在对音频数据流采集之前，录音线程向硬件抽象层协商设置第二录音参数，第二录音参数确定后，打开录音通路，终端按照第二录音参数采集音频数据流。

具体地，MIC可以通过unprocessed采集24bit的音频数据流，并将该音频数据流发送至ADC，ADC对该音频数据流进行模数转换，将音频数据流从模拟信号转换为数字信号后发送至硬件抽象层。硬件抽象层使用录音算法对音频数据流进行增益和降噪，其中，录音算法可以复用对于16bit采样位深的音频数据流所采用的录音算法。具体地，将采样位深为24bit的音频数据流转化为float数据，复用录音算法进行增益降噪处理后，再将float 数据转化为采样位深为24bit的数据。录音线程读取硬件抽象层经过增益降噪处理后的音频数据流，当音频数据流的采样位深与预先设置的第二录音参数一致时，向音频源输出数据流，完成对按照第二录音参数采集的音频数据流的获取。

S306：录音算法对音频数据流进行增益处理。

对音频数据流进行增益处理能够调整音频数据流的信噪比，使音频数据流具有较好的清晰度。录音算法可以对于音频数据流的某一方面进行处理，例如增益控制(automatic gain control，AGC)算法、降噪(active noise control，ANC)算法、回声消除(acoustic echo cancellation，AEC)算法、声反馈消除(acoustic feedbackcancellation，AFC)算法、混响去除(dereverberation)算法等。

S308：WAV封装器将该音频数据流封装为WAV文件。

WAV封装器能够封装多种类型的数据，经过高清参数初始化后的WAV封装器能够封装高清的音频数据流，并且不改变音频数据流的清晰度。

本实施例中的WAV封装器具有自己的工作线程，能够实现WAV封装器内部的逻辑状态管理，因此本实施例中的WAV封装器的不仅支持任意采样位深的音频数据流的封装，并且能够支持音频数据的暂停与继续。

具体地，WAV封装器可以接收用户对于终端的暂停操作，暂停对于音频数据流的获取，以及暂停对于音频数据流的封装。当用户触发继续操作时，WAV封装器恢复对于音频数据流的获取，以及恢复对于音频数据流的封装。

本实施例中，通过WAV封装器将按照第二录音参数采集的音频数据流封装为WAV文件。其中WAV文件为扩展的WAV格式，扩展的WAV格式支持多种采样位深，包括24bit的采样位深。如此，封装后的WAV文件为没有经过压缩的按照第二录音参数采集的音频文件。该音频文件的采样位深为24bit，具有较高的清晰度。

综上所述，本实施例提供了一种录音方法，在该方法中，终端根据第一录音参数初始化WAV封装器，使该WAV封装器能够最大程度的保证封装数据的清晰度。终端获取按照第二录音参数采集的音频数据流，因此在采集时即具有较高的清晰度。最后终端通过WAV封装器将该音频数据流封装为WAV文件，从而实现了高清晰度的采集以及高清晰度的封装，从而保证了录音的清晰度，满足用户对于录音清晰度的要求。

以上对于本实施例中的录音方法的完整过程进行了介绍，下面参见图4，对于终端根据第一录音参数初始化WAV封装器的过程进行详细介绍。

S402：录音应用设置第一参数。

框架层通过扩展接口，向应用层提供第一录音接口。应用层能够通过该第一录音接口设置第一录音参数。该第一录音接口为高清录音接口，第一录音参数用于初始化WAV封装器。

框架层录音应用可以通过扩展的第一录音接口为录制器设置编码参数为扩展的WAV_PCM、封装格式为扩展的WAV。录音应用还可以通过新增的高清录音接口设置使用高清录音通路

在一些可能的实现方式中，框架层还可以向应用层提供第二录音接口，第二录音接口为普通录音接口，普通录音接口用于设置非高清录音通路，例如可以通过第二录音接口设置编码参数为AAC、封装格式为MPEG4，以及包括保存文件路径、采样率和声道数等录音参数。

S404：录制器根据第一录音参数初始化WAV封装器。

经过高清参数初始化后的WAV封装器能够封装高清的音频数据流，并且不改变音频数据流的清晰度。

如此，终端能够通过框架层向应用层提供的扩展的第一录音接口，使应用层的录音应用通过该第一录音接口为框架层设置第一录音参数，框架层的录制器根据该第一录音参数对WAV封装器进行初始化，从而获得能够不降低音频数据流清晰度的WAV封装器。

接下来，参照图5，对终端获取按照第二录音参数采集的音频数据流的过程进行详细介绍。

S502：录音线程向硬件抽象层协商设置第二录音参数，打开录音通路。

在对音频数据流采集之前，录音线程向硬件抽象层协商设置第二录音参数，第二录音参数确定后，打开录音通路，使终端可以按照第二录音参数采集音频数据流。

第二录音参数包括采样格式、录音源、采样率、声道数和缓冲区大小等，例如，采样格式可以为PCM_24_BIT_PACKED，录音源可以为unprocessed。

具体地，录音线程向硬件抽象层协商设置第二录音参数，设置完成后，录音通路打开，终端能够按照第二录音参数采集音频数据流。

S504：麦克风采集初始音频数据流。

具体地，在录制过程中，MIC以24bit的采样位深，采集初始音频数据流，该初始音频数据流具有较高的清晰度。

在一些可能的实现方式中，在MIC的软件层面可以定义一个可以影响软件录音的行为模式的参数，例如可以为audio source，当该参数为camcorder和unprocessed时，MIC的采样位深可以为24bit。其中，camcorder可以用于录像录音，unprocessed通常用于常规音频录制。例如，当手机底部具有一个MIC，背部也具有一个MIC时，使用camcorder进行录像时，位于手机背部的MIC用于收音，而使用unprocessed进行录音时，底部MIC收音。

S506：模数转换器对音频数据流进行处理。

模拟信号只有通过A/D转换为数字信号后才能用软件进行处理，因此需要通过A/D转换器(ADC)对所采集的音频数据流进行模数转换。

S508：录音算法对音频数据流进行增益和降噪。

对音频数据流进行增益与降噪处理能够调整音频数据流的信噪比，使音频数据流具有较好的清晰度。

基于产品的芯片平台，硬件抽象层可以在录音源参数为camcorder和unprocessed的情况下支持录制采样位深为24bit的音频数据，因此一些实施例中，可以仅对录音源为24bit 的音频数据流进行算法处理。

为了保持

录音框架的录音策略，扩展的高清录音通路需要通过录音算法进行增益。具体地，对于采样位深为24bit的数据流进行录音算法处理。

对所采集的24bit的音频数据流进行增益与降噪的录音算法可以复用对16bit的音频数据流进行增益与降噪的录音算法。因此需要将24bit的音频数据流通过预处理转化为 float数据，录音算法用于对float数据进行增益与降噪。在录音算法处理完毕后，再通过后处理将处理之后的float数据转换为24bit数据。

录音算法通过float数据进行降噪与增益，不仅能够适用于采样位深为16bit的数据，而且可以适用于位深为24bit的数据。

S510：录音线程读取音频数据流，并向音频源输出。

具体地，录音线程循环工作，以读取硬件抽象层经过增益降噪处理后的音频数据流。

在一些可能的实现方式中，可能存在用户在使用能够采集采样位深为24bit数据的MIC 进行录音中，连接不能采集采样位深为24bit数据的数字耳机，为了保护录音的连续性，框架层会向硬件抽象层以PCM_16_BIT的采样格式重新打开通路，录音线程将16bit格式的数据重采样为24bit格式的数据向音频源输出。

重采样是指对于采样所获得的数据进一步进行采样处理，以提高采样精度或者降低采样精度。音频重采样分为上采样和下采样，即插值和抽取。在本实施例中，需要将16bit采样精度的数据转化为24bit采样精度的数据，因此需要采用内插法。常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinearinterpolation)和三次卷积法内插(cubic convolution interpolation)。

对应地，框架层会向硬件抽象层以PCM_16_BIT的采样格式重新打开通路，数字耳机采集采样位深为16bit的数据流，数字信号处理单元将该数据流通过模数转换为能够进行数字信号处理的数据流。硬件抽象层对16bit的数据流进行预处理，将数据流转化为float 格式，然后通过录音算法进行增益、降噪后，通过后处理转化为16bit的数据流。录音线程读取该数据流数据之后，对数据流进行重采样，获得24bit的数据，向音频源输出。

但是，原始采集位深为16bit的数据，尽管经过重采样后位深变为24bit，但是这24bit 是根据对16bit数据进行重采样之后得到的，因此其精度依然是16bit时的精度，而不满足采样24bit的精度要求。

如此，通过MIC按照第二录音参数对于音频数据流的采集，ADC进行模数转换，录音线程对于音频数据流的增益与降噪以及录音线程对于音频数据流采样位深的判断，使音频源能够获取按照第二录音参数采集的音频数据流。进一步地，初始化的WAV封装器将该音频数据流封装为WAV文件，能够较高程度地保存音频数据流的清晰度。

本申请实施例还提供了一种终端，如图6所示，该终端可以包括：麦克风611、一个或多个处理器620、存储器630、一个或多个计算机程序640、以及显示屏660，上述各器件可以通过一个或多个通信总线650连接。其中该一个或多个计算机程序640被存储在上述存储器630中，并被配置为被该一个或多个处理器620执行，该一个或多个计算机程序640 包括指令，上述指令可以用于执行如图3相应实施例中终端执行的各个步骤。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图7示出了上述和实施例中涉及的终端的一种可能的组成示意图，该终端执行本申请各方法实施例中任一方法实施例中的步骤。如图7所示，所述终端可以包括：初始化模块702，用于根据第一录音参数初始化波形音频文件格式WAV封装器；获取模块704，用于获取按照第二录音参数采集的音频数据流，所述第二录音参数包括采样位深，所述采样位深被设置为N比特，所述N大于第一阈值；处理模块706，用于根据录音算法对所述音频数据流进行增益处理；封装模块708，用于通过所述WAV封装器将处理后的所述音频数据流封装为WAV文件。

在一种可能的设计中，采样位深被设置为24比特。

在一种可能的设计中，该装置还包括：

设置模块710，用于通过第一录音接口设置所述第一录音参数。

在一种可能的设计中，所述处理模块706具体用于：

接收第一操作；

接收第二操作；

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到电子设备，以使电子设备执行相应方法，在此不再赘述。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中包括指令，当上述指令在电子设备上运行时，使得该电子设备执行图3中的相关方法步骤，以实现上述实施例中的方法。

本实施例还提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如图3中的相关方法步骤，以实现上述实施例中的方法。

在本实施例所提供的几个实施例中，应该理解到，所揭露的电子设备和方法，可以通过其它的方式实现。例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)或处理器执行各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种录音方法，其特征在于，包括：

终端中的框架层通过第一录音接口接收所述终端中应用层发送的第一录音参数；所述第一录音参数包括编码格式和封装格式，其中，所述封装格式被设置为扩展的WAV格式，所述扩展的WAV格式支持多种采样位深；

所述终端的框架层根据第一录音参数初始化波形音频文件格式WAV封装器；

所述终端获取按照第二录音参数采集的音频数据流，所述第二录音参数包括采样位深，所述采样位深被设置为N比特，所述N大于第一阈值；

所述终端根据录音算法对所述音频数据流进行增益处理；

所述终端通过所述WAV封装器将处理后的所述音频数据流封装为WAV文件。

2.根据权利要求1所述的方法，其特征在于，所述采样位深被设置为24比特。

3.根据权利要求1或2所述的方法，其特征在于，所述第二录音参数还包括采样格式、录音源、采样率、声道数和缓冲区大小中的一种或多种。

4.根据权利要求1或2所述的方法，其特征在于，所述终端根据录音算法对所述音频数据流进行增益处理，包括

所述终端根据录音算法对所述音频数据流进行预处理，得到浮点型数据；

所述终端根据所述录音算法对所述浮点型数据进行后处理，得到处理后的所述音频数据流，其中，处理后的所述音频数据流的采样位深等于处理前的所述音频数据流的采样位深。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述终端接收第一操作；

所述终端响应所述第一操作，暂停获取所述音频数据流，以及暂停通过所述WAV封装器将所述音频数据流封装为WAV文件。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

所述终端接收第二操作；

所述终端响应所述第二操作，恢复获取所述音频数据流，以及恢复通过所述WAV封装器将所述音频数据流封装为WAV文件。

7.一种录音装置，其特征在于，应用于终端，所述终端的框架层包括接收模块和初始化模块，包括：

所述接收模块，用于通过第一录音接口接收所述终端中应用层发送的第一录音参数；所述第一录音参数包括编码格式和封装格式，其中，所述封装格式被设置为扩展的WAV格式，所述扩展的WAV格式支持多种采样位深；

所述初始化模块，用于根据第一录音参数初始化波形音频文件格式WAV封装器；

8.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，所述电子设备执行如权利要求1-6中任一项所述的录音方法。

9.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，所述计算机执行如权利要求1-6中任一项所述的录音方法。