CN113593619B

CN113593619B - 用于录制音频的方法、装置、设备和介质

Info

Publication number: CN113593619B
Application number: CN202110870066.6A
Authority: CN
Inventors: 李占学
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2022-08-09
Anticipated expiration: 2041-07-30
Also published as: CN113593619A

Abstract

本公开提供了一种录制音频的方法及装置、计算设备和介质，涉及人工智能技术领域，尤其涉及语音测试集的录制。实现方案为：控制录音设备录制音频片段集合；对音频片段集合中的至少一个音频片段中的每个音频片段执行操作，操作包括：基于与该音频片段相对应的第一时间和第二时间以及声音在预定距离上的传播时延，标注该音频片段的音频在该音频片段内的开始时间；以及基于与该音频片段相对应的第一时间和第四时间、预定超时时间以及传播时延，标注该音频片段的音频在该音频片段内的结束时间。

Description

用于录制音频的方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语音测试集的录制。具体地，本公开提供了一种音频录制方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

录制音频的过程，主要的步骤是语音录制、语音标注及测试集音频质量，并且三个步骤按次序依次独立进行。即首先进行语音录制，录制完成后需要人工进行听音并进行时间标注(标注人声的起始时间位置及发声的内容)，最后进行人工音频质量检测。最后完成一个完整的音频录制过程。

现有的音频录制过程中，在进行时间标注时全部依靠人工进行，这就会带来录制效率低以及时间标注误差偏大的问题。同时通过人工进行的音频质量检查也会带来音频录制的效率低、周期长、容易出错等问题。

发明内容

本公开提供了一种用于录制音频的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种用于录制音频的方法，包括：控制录音设备录制音频片段集合，其中，音频片段集合中的每个音频片段的录制包括：响应于接收到来自录音控制器的录制开始信号，记录接收到录制开始信号时的第一时间，并控制录音设备开始录制；响应于接收到来自录音控制器的指示音频已开始的音频开始信号，记录接收到音频开始信号时的第二时间，其中，音频从与录音设备相距预定距离的声源发出；响应于接收到来自录音控制器的指示音频已结束的音频结束信号，记录接收到音频结束信号时的第三时间，并在第三时间之后等待预定超时时间；以及响应于在预定超时时间内未再接收到音频开始信号和音频结束信号中的任一个，记录预定超时时间到期时的第四时间；以及对音频片段集合中的至少一个音频片段中的每个音频片段执行操作，包括：基于与该音频片段相对应的第一时间和第二时间以及声音在预定距离上的传播时延，标注该音频片段的音频在该音频片段内的开始时间；以及基于与该音频片段相对应的第一时间和第四时间、预定超时时间以及传播时延，标注该音频片段的音频在该音频片段内的结束时间。

根据本公开的一方面，提供了一种用于录制音频的方法，包括：响应于接收到指示开始录制音频的用户操作，向中央控制器发送录制开始信号，以使得中央控制器控制录音设备开始录制；利用声音拾取设备在声源处采集音频信号，其中，声源与录音设备相距预定距离；执行音频开始检测，音频开始检测包括：从采集到的音频信号中检测目标音频；响应于确定目标音频满足预定条件，向中央控制器发送音频开始信号；以及响应于确定目标音频不满足预定条件，继续目标音频的检测；以及响应于已发送音频开始信号，执行音频结束检测，音频结束检测包括：从采集到的音频信号中检测目标音频；响应于确定目标音频满足预定条件，继续目标音频的检测；以及响应于确定目标音频不满足预定条件，向中央控制器发送音频结束信号；以及响应于已发送音频结束信号，继续执行音频开始检测。

根据本公开的另一方面，提供了一种用于录制音频的装置，包括：用于控制录音设备录制音频片段集合的模块，其中，所述音频片段集合中的每个音频片段的录制包括：响应于接收到来自录音控制器的录制开始信号，记录接收到所述录制开始信号时的第一时间，并控制所述录音设备开始录制；响应于接收到来自所述录音控制器的指示音频已开始的音频开始信号，记录接收到所述音频开始信号时的第二时间，其中，所述音频从与所述录音设备相距预定距离的声源发出；响应于接收到来自所述录音控制器的指示所述音频已结束的音频结束信号，记录接收到所述音频结束信号时的第三时间，并在所述第三时间之后等待预定超时时间；以及响应于在所述预定超时时间内未再接收到所述音频开始信号和所述音频结束信号中的任一个，记录所述预定超时时间到期时的第四时间；以及用于对所述音频片段集合中的至少一个音频片段中的每个音频片段执行操作的模块，所述操作包括：基于与该音频片段相对应的所述第一时间和所述第二时间以及声音在所述预定距离上的传播时延，标注该音频片段的音频在该音频片段内的开始时间；以及基于与该音频片段相对应的所述第一时间和所述第四时间、所述预定超时时间以及所述传播时延，标注该音频片段的音频在该音频片段内的结束时间。

根据本公开的另一方面，提供了一种用于录制音频的装置，包括：用于响应于接收到指示开始录制音频的用户操作，向中央控制器发送录制开始信号的模块，以使得所述中央控制器控制录音设备开始录制；用于利用声音拾取设备在声源处采集音频信号的模块，其中，所述声源与所述录音设备相距预定距离；用于执行音频开始检测的模块，所述音频开始检测包括：从采集到的音频信号中检测目标音频；响应于确定所述目标音频满足预定条件，向所述中央控制器发送音频开始信号；以及响应于确定所述目标音频不满足所述预定条件，继续所述目标音频的检测；以及用于响应于已发送所述音频开始信号，执行音频结束检测的模块，所述音频结束检测包括：从采集到的音频信号中检测所述目标音频；响应于确定所述目标音频满足所述预定条件，继续所述目标音频的检测；以及响应于确定所述目标音频不满足所述预定条件，向所述中央控制器发送音频结束信号；以及用于响应于已发送所述音频结束信号，继续执行所述音频开始检测的模块。

根据本公开的又一方面，提供了音频录制系统，包括：录音设备；中央控制器，被配置为执行如第一方面所述的方法；以及录音控制器，被配置为执行如第二方面所述的方法。

根据本公开的又一方面，提供了一种计算机设备，包括：存储器、处理器以及存储在存储器上的计算机程序，其中，处理器被配置为执行计算机程序以实现如本公开中所述的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开中所述的方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序被处理器执行时实现如本公开中所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的一种音频录制方法的流程图；

图3示出了根据本公开的实施例的一种音频录制方法的流程图；

图4示出了根据本公开的实施例的一种音频录制方法的流程图；

图5示出了根据本公开的实施例的在图4的方法中检测目标音频的示例过程的流程图；

图6示出了根据本公开的实施例的录音控制器与中央控制器之间的交互过程的流程图；

图7示出了根据本公开的实施例的一种音频录制装置的结构框图；

图8示出了根据本公开的实施例的一种音频录制装置的结构框图；

图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

现有技术方案将音频录制分为了三个步骤，即语音录制、语音标注及录制语音的音频质量检测，并且三个步骤只能按顺序执行，同时在语音标注和语音音频质量检测上依赖人工操作，造成音频录制效率偏低以及最后产出的录音文件质量偏低。

为了解决现有技术中的上述问题，本公开提出了一种集成了语音录制、语音标注和音频质量三种功能的音频录制的系统及配套的技术方法。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括中央控制器110、台词提示屏120、噪声发生器130、录音设备140以及录音控制器160。

中央控制器110可以通过内置处理软件来控制台词提示屏120，噪声发生器130以及录音设备140。中央控制器110可以是任何类型的移动计算机设备，包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备，包括智能眼镜，等)或其他类型的移动设备。在一些实施例中，中央控制器110可以替换地是固定式计算机设备，例如台式机、服务器计算机或其他类型的固定式计算机设备。

录音控制器160与中央控制器110通过例如无线通信进行信号传输。在一些实例中，该无线通信包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如无线电之类的通信网络的组合。录音控制器160通过内部的传感器产生不同控制信号并传递给中央控制器110。在一些实施例中，录音控制器160内部传感器可以是麦克风阵列，用来感知音频信号。

为了本公开实施例的目的，在图1的示例中，录音控制器160可以通过感知外界信号，产生对应控制信号并传递给中央控制器110。与此相应，中央控制器110可以响应于接收到来自录音控制器的不同控制信号，执行音频录制任务。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

图2是示出根据本公开示例性实施例的音频录制方法200的流程图。方法200可以应用于图1的中央控制器110。方法200可以包括：控制录音设备录制音频片段集合；以及对所述音频片段集合中的至少一个音频片段中的每个音频片段执行操作。

在一些实施例中，音频片段集合中的每个音频片段的录制包括步骤210至240。

步骤210、响应于接收到来自录音控制器160的录制开始信号，记录接收到录制开始信号时的第一时间T1。

根据一些实施例，用户150准备就绪后，通过录音控制器160发送录制开始信号到中央控制器110，中央控制器110控制录音设备140开始录音，并记录当前系统时间为第一时间。

在示例中，用户150可以通过多种方式通过录音控制器160发送录制开始信号到中央控制器110。在一些实施例中，可以通过按键等多种方式使录音控制器150发送录制开始信号到中央控制器110。

根据一些实施例，响应于接收到录制开始信号，中央控制器110控制台词提示屏120显示至少一段需要发声的台词，以使得发声者(例如，用户150)根据台词发出对应语音。

根据一些实施例，响应于接收到录制开始信号，中央控制器110控制噪声发生器130产生一定声压级的噪声信号，仿真测试环境。

步骤220、响应于接收到来自录音控制器160的指示音频已开始的音频开始信号，记录接收到音频开始信号时的第二时间T2。

步骤230、响应于接收到来自录音控制器160的指示音频已结束的音频结束信号，记录接收到音频结束信号时的第三时间T3，并在第三时间T3之后等待预定超时时间Tto。

在一个示例中，假设接收到音频结束信号的系统时间为第15秒，预定超时时间为2秒。即在系统时间第15秒接收到指示音频已结束的音频结束信号时，仍需等待2秒。

步骤240、响应于在预定超时时间内未再接收到音频开始信号和音频结束信号中的任一个，记录预定超时时间到期时的第四时间T4。

在一些实施例中，对所述音频片段集合中的至少一个音频片段中的每个音频片段执行的操作包括步骤250至260。根据一些实施例，该至少一个音频片段是基于音频音质检测的结果得到的。即选择性地舍弃在步骤210至240中得到的音频片段集合中不符合音质标准的音频片段，保留符合音质标准的录音片段。根据一些实施例，音质标准的标准包含从以下各项所组成的组中选择的至少一项：音频的噪音小于噪音阈值、音频未被限幅和音频的音量大于音量阈值。

步骤250、基于与录制音频片段相对应的第一时间T1和第二时间T2以及声音在预定距离上的传播时延Td，标注该音频片段的音频在该音频片段内的开始时间Ts。

在一个示例中，假设第一时间T1为系统时间第5秒，第二时间T2为系统时间第8秒并且声源距离录音设备的距离是340m。根据一些实施例，基于公式Ts＝T2-T1+Td和Td＝距离/声速，可以得到音频片段的音频在该音频片段内的开始时间Ts，其中，Td表示传播时延。在该示例中，可得Ts＝4秒，即该音频片段的音频在该音频片段内的开始时间为第4秒。

步骤260、基于与录制音频片段相对应的第一时间T1和第四时间T4、预定超时时间Tto以及传播时延Td，标注该音频片段的音频在该音频片段内的结束时间Te。

根据一些实施例，利用公式Te＝T4-T1-Tto+Td可得该音频片段的音频在该音频片段内的结束时间Te，其中，T4表示第四时间并且Tto表示预定超时时间。继续上面的示例，基于S230的假设，第四时间T4为第17秒，并且Tto为2秒，可得Te＝11秒，即该音频片段的音频在该音频片段内的结束时间为第11秒。

根据一些实施例，将已标注所述开始时间和所述结束时间的所述至少一个音频片段与对应的台词文本进行同步。

图3是示出根据本公开示例性实施例的音频录制方法300的流程图。方法300可以应用于图1的中央控制器110。

步骤310、320、360和370与上面关于图2描述的方法200中的步骤210、220、250和260类似，并且为了简洁起见，在此不再赘述。下面详细描述步骤330至350。

步骤330、判断是否在预定超时时间Tto内接收到音频开始信号或音频结束信号中的任一个。

步骤340、响应于预定超时时间Tto内接收到音频开始信号或音频结束信号中的任一个，将第三时间T3更新为当前时间。

继续上面的示例，假设在系统时间第16秒接收到音频开始信号或音频结束信号中的任一个，则更新第三时间T3为系统时间的第16秒。同时，继续等待预定超时时间。方法300继续至步骤330。

步骤350、响应于预定超时时间Tto内未再接收到音频开始信号或音频结束信号中的任一个，记录预定超时时间Tto到期时的第四时间T4。

图4示出了根据本公开的实施例的一种音频录制方法400的流程图。方法400可以应用于图1的录音控制器160。方法400可以包括以下步骤。

步骤410、响应于接收到指示开始录制音频的用户操作，向中央控制器110发送录制开始信号，以使得中央控制器110控制录音设备140开始录制。

步骤420、利用声音拾取设备在声源处采集音频信号。

根据一些实施例，声音拾取设备包括一个多个麦克风阵列，来进行音频信号的采集。

步骤430、执行音频开始检测，从采集到的音频信号检测目标音频。

根据一些实施例，录音控制器160执行音频检测任务，基于步骤420采集到的音频信号，检测目标音频。

在一个示例中，所述目标音频可以为人声音频。

步骤440、判断目标音频是否满足预定条件。

根据一些实施例，响应于确定目标音频满足预定条件，执行步骤450；响应于确定目标音频不满足预定条件，则重复进行步骤430与440，执行音频开始检测，再次进行目标音频的检测。

步骤450、向中央控制器110发送音频开始信号。

步骤460、执行音频结束检测，从采集到的音频信号检测目标音频。

步骤470、判断目标音频是否满足预定条件。

根据一些实施例，响应于目标音频不满足预定条件，执行步骤480，向中央控制器110发送音频结束信号。响应于目标音频满足预定条件，则重复步骤460，即执行音频结束检测，再次进行目标音频的检测。

步骤480、向中央控制器110发送音频结束信号。

图5示出了根据本公开的实施例的在方法400中的步骤430和460中检测目标音频的示例过程500的流程图。过程500可以包括以下步骤。

步骤510、对音频信号进行信号处理以得到经处理的音频信号。

根据一些实施例，音频信号经过回声消除算法和去噪算法得到经处理的音频信号。回声消除算法主要去除回声信号对录音造成的影响；去噪算法主要去除当前环境本身的噪声信号，减少对录音造成的影响。采集到的全部音频信号记为S1，回声信号和当前环境本身的噪声信号的并集记为S2，得到目标音频S＝S1-S2。

步骤520、判断经处理的音频信号的音量是否大于等于音量阈值。

根据一些实施例，响应于目标音频S的音量大于音量阈值，执行步骤530；响应于目标音频S的音量小于所述音量阈值且大于零，执行步骤540。

步骤530、确定目标音频满足预定条件。

步骤540、确定目标音频不满足预定条件。

图6是本公开实施例提供的一种示例性的录音控制器160与中央控制器110之间的交互过程600的流程图。

步骤601：响应于接收到指示开始录制音频的用户操作，录音控制器160向中央控制器110发送录制开始信号602。

步骤603：中央控制器110记录接收到录制开始信号602时的第一时间。

步骤604：录音控制器160从采集到的音频信号中检测目标音频，响应于确定目标音频满足预定条件，向中央控制器110发送音频开始信号605。

步骤606：中央控制器110记录接收到音频开始信号605时的第二时间。

步骤607：录音控制器160从采集到的音频信号中检测所述目标音频，响应于确定目标音频不满足预定条件，向中央控制器110发送音频结束信号608。

步骤609：中央控制器110记录接收到音频结束信号608时的第三时间。

步骤610：录音控制器160在预定超时时间内发送音频开始信号和音频结束信号中的任一个611。

步骤612：中央控制器110在预定超时时间内接收到音频开始信号和音频结束信号中的任一个，将第三时间更新为当前时间，并且在已更新的第三时间之后继续等待预定超时时间。

步骤613：中央控制器110在预定超时时间内未再接收到音频开始信号和音频结束信号中的任一个，记录超时时间到期时的第四时间。

根据本公开的另一方面，还提供一种音频录制装置700。音频录制装置700可以被实施以执行图1的中央控制器110的功能。

在一些实施例中，装置700包括用于控制录音设备140录制音频片段集合的模块701。模块701包括：

第一时间记录模块702，响应于接收到来自录音控制器的录制开始信号，记录接收到录制开始信号时的第一时间，并控制录音设备开始录制。

第二时间记录模块703，响应于接收到来自录音控制器的指示音频已开始的音频开始信号，记录接收到音频开始信号时的第二时间，其中，音频从与录音设备相距预定距离的声源发出。

第三时间记录模块704，响应于接收到来自录音控制器的指示音频已结束的音频结束信号，记录接收到音频结束信号时的第三时间，并在第三时间之后等待预定超时时间。

第四时间记录模块705，响应于在预定超时时间内未再接收到音频开始信号和音频结束信号中的任一个，记录预定超时时间到期时的第四时间。

在一些实施例中，装置700还包括用于对音频片段集合中的至少一个音频片段中的每个音频片段执行操作的模块706。模块706包括：

音频开始时间标注模块707，基于与该音频片段相对应的第一时间和第二时间以及声音在预定距离上的传播时延，标注该音频片段的音频在该音频片段内的开始时间。

音频结束时间标注模块708，基于与该音频片段相对应的第一时间和第四时间、预定超时时间以及传播时延，标注该音频片段的音频在该音频片段内的结束时间。

在一些实施例中，装置700还包括用于检测所述音频片段集合中的音频片段的音质，以及基于所述检测的结果，选择性地舍弃不符合音质标准的音频片段，以得到所述音频片段集合中的所述至少一个音频片段的模块709。

应当理解，图7中所示装置700的各个模块可以与参考图2描述的方法200中的各个步骤相对应。由此，上面针对方法200描述的操作、特征和优点同样适用于装置700及其包括的模块。为了简洁起见，某些操作、特征和优点在此不再赘述。

根据本公开的另一方面，还提供一种音频录制装置800。音频录制装置800可以被实施以执行图1的录音控制器160的功能。

在一些实施例中，装置800包括：

用于响应于接收到指示开始录制音频的用户操作，向中央控制器发送录制开始信号的模块801，以使得中央控制器控制录音设备开始录制。

用于利用声音拾取设备在声源处采集音频信号的模块802，其中，声源与录音设备相距预定距离。

用于执行音频开始检测的模块803。音频开始检测包括：从采集到的音频信号中检测目标音频；响应于确定目标音频满足预定条件，向中央控制器发送音频开始信号；响应于确定目标音频不满足预定条件，继续目标音频的检测。

用于响应于已发送音频开始信号，执行音频结束检测的模块804。音频结束检测包括：从采集到的音频信号中检测目标音频；响应于确定目标音频满足预定条件，继续目标音频的检测；响应于确定目标音频不满足预定条件，向中央控制器发送音频结束信号。

用于响应于已发送音频结束信号，继续执行音频开始检测的模块805。

应当理解，图8中所示装置800的各个模块可以与参考图4描述的方法400中的各个步骤相对应。由此，上面针对方法400描述的操作、特征和优点同样适用于装置800及其包括的模块。为了简洁起见，某些操作、特征和优点在此不再赘述。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作，或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此，执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。

还应当理解，本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图7和图8描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如，这些模块可以被实现为计算机程序代码/指令，该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地，这些模块可以被实现为硬件逻辑/电路。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图9，现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向设备900输入信息的任何类型的设备，输入单元906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如方法200及其变型。例如，在一些实施例中，方法200、300和400及其变型可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的方法200、300和400及其变型的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300和400及其变型。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种用于录制音频的方法，包括：

控制录音设备录制音频片段集合，其中，所述音频片段集合中的每个音频片段的录制包括：

响应于接收到来自录音控制器的录制开始信号，记录接收到所述录制开始信号时的第一时间，并控制所述录音设备开始录制；

响应于接收到来自所述录音控制器的指示音频已开始的音频开始信号，记录接收到所述音频开始信号时的第二时间，其中，所述音频从与所述录音设备相距预定距离的声源发出；

响应于接收到来自所述录音控制器的指示所述音频已结束的音频结束信号，记录接收到所述音频结束信号时的第三时间，并在所述第三时间之后等待预定超时时间；以及

响应于在所述预定超时时间内未再接收到所述音频开始信号和所述音频结束信号中的任一个，记录所述预定超时时间到期时的第四时间；以及

对所述音频片段集合中的至少一个音频片段中的每个音频片段执行操作，所述操作包括：

基于与该音频片段相对应的所述第一时间和所述第二时间以及声音在所述预定距离上的传播时延，标注该音频片段的音频在该音频片段内的开始时间；以及

基于与该音频片段相对应的所述第一时间和所述第四时间、所述预定超时时间以及所述传播时延，标注该音频片段的音频在该音频片段内的结束时间。

2.如权利要求1所述的方法，其中，所述标注该音频片段的音频在该音频片段内的开始时间包括：

计算所述开始时间为：Ts＝T2-T1+Td，

其中，Ts表示所述开始时间，T2表示所述第二时间，T1表示所述第一时间，并且Td表示所述传播时延。

3.如权利要求1所述的方法，其中，所述标注该音频片段的音频在该音频片段内的结束时间包括：

计算所述结束时间为：Te＝T4-T1-Tto+Td，

其中，Te表示所述结束时间，T4表示所述第四时间，T1表示所述第一时间，Tto表示所述预定超时时间，并且Td表示所述传播时延。

4.如权利要求1所述的方法，还包括：

响应于在所述预定超时时间内接收到所述音频开始信号和所述音频结束信号中的任一个：

将所述第三时间更新为当前时间；以及

在已更新的所述第三时间之后继续等待所述预定超时时间。

5.如权利要求1所述的方法，还包括：

检测所述音频片段集合中的音频片段的音质；以及

基于所述检测的结果，选择性地舍弃不符合音质标准的音频片段，以得到所述音频片段集合中的所述至少一个音频片段。

6.如权利要求5所述的方法，其中，所述音质标准包括从以下各项所组成的组中选择的至少一项：

音频的噪音小于噪音阈值；

音频未被限幅；和

音频的音量大于音量阈值。

7.如权利要求1所述的方法，其中，所述声源为发声者，并且所述音频为所述发声者发出的语音，所述方法还包括：

响应于接收到所述录制开始信号，控制台词提示屏显示台词，以使得所述发声者根据所述台词发出所述语音。

8.如权利要求7所述的方法，还包括：

将已标注所述开始时间和所述结束时间的所述至少一个音频片段与对应的台词文本进行同步。

9.如权利要求1至8中任一项所述的方法，还包括：

响应于接收到所述录制开始信号，控制噪声发生器产生噪声信号。

10.一种用于录制音频的方法，包括：

响应于接收到指示开始录制音频的用户操作，向中央控制器发送录制开始信号，以使得所述中央控制器控制录音设备开始录制；

利用声音拾取设备在声源处采集音频信号，其中，所述声源与所述录音设备相距预定距离；

执行音频开始检测，所述音频开始检测包括：

从采集到的音频信号中检测目标音频；

响应于确定所述目标音频满足预定条件，向所述中央控制器发送音频开始信号；以及

响应于确定所述目标音频不满足所述预定条件，继续所述目标音频的检测，其中，所述从采集到的音频信号中检测目标音频包括：对所述音频信号进行信号处理以得到经处理的音频信号；响应于所述经处理的音频信号的音量大于等于音量阈值，确定所述目标音频满足所述预定条件；以及响应于所述经处理的音频信号的音量小于所述音量阈值且大于零，确定所述目标音频不满足所述预定条件；

响应于已发送所述音频开始信号，执行音频结束检测，所述音频结束检测包括：

从采集到的音频信号中检测所述目标音频；

响应于确定所述目标音频满足所述预定条件，继续所述目标音频的检测；以及

响应于确定所述目标音频不满足所述预定条件，向所述中央控制器发送音频结束信号；以及

响应于已发送所述音频结束信号，继续执行所述音频开始检测。

11.如权利要求10所述的方法，其中，所述信号处理包括回声消除和去噪。

12.一种用于录制音频的装置，包括：

用于控制录音设备录制音频片段集合的模块，其中，所述音频片段集合中的每个音频片段的录制包括：

用于对所述音频片段集合中的至少一个音频片段中的每个音频片段执行操作的模块，所述操作包括：

13.一种用于录制音频的装置，包括：

用于响应于接收到指示开始录制音频的用户操作，向中央控制器发送录制开始信号的模块，以使得所述中央控制器控制录音设备开始录制；

用于利用声音拾取设备在声源处采集音频信号的模块，其中，所述声源与所述录音设备相距预定距离；

用于执行音频开始检测的模块，所述音频开始检测包括：

从采集到的音频信号中检测目标音频；

用于响应于已发送所述音频开始信号，执行音频结束检测的模块，所述音频结束检测包括：

从采集到的音频信号中检测所述目标音频；

用于响应于已发送所述音频结束信号，继续执行所述音频开始检测的模块。

14.一种音频录制系统，包括：

录音设备；

中央控制器，被配置为执行如权利要求1-9中任一项所述的方法；以及

录音控制器，被配置为执行如权利要求10-11中任一项所述的方法。

15.一种计算机设备，包括：

存储器、处理器以及存储在所述存储器上的计算机程序，

其中，所述处理器被配置为执行所述计算机程序以实现权利要求1-11中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令被计算机执行时使所述计算机执行根据权利要求1-11中任一项所述的方法。