CN111210833A

CN111210833A - 音频处理方法、电子设备和介质

Info

Publication number: CN111210833A
Application number: CN201911422576.6A
Authority: CN
Inventors: 李焱
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-29

Abstract

本公开提供了一种音频处理方法，包括在输出第一音频的情况下，采集来自环境的第二音频，处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高，合成所述第三音频和所述第一音频得到第四音频。本公开还提供了一种电子设备以及一种计算机可读存储介质。

Description

音频处理方法、电子设备和介质

技术领域

本公开涉及一种音频处理方法、电子设备和介质。

背景技术

当前一些音频录制的应用程序在录制好之后通过用户回听，主观上辨别录制内容的质量，然后在一定程度内对录制内容进行调整，改善录制内容的质量。然而，通过这种调整方式调整后的内容难以达到用户预期。

发明内容

本公开的一个方面提供了一种音频处理方法，包括在输出第一音频的情况下，采集来自环境的第二音频，处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高，合成所述第三音频和所述第一音频得到第四音频。

可选地，所述处理所述第二音频得到第三音频包括基于所述第一音频，去除所述第二音频中的干扰音频，以及/或者，获得基准数据，并至少基于所述基准数据，处理所述第二音频得到第三音频。

可选地，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的内容调整至所述处理时间。

可选地，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定多个处理时间，将所述第二音频分割为多个部分，基于所述多个处理时间分别处理所述多个部分，将经处理的多个部分拼接为第三音频。

可选地，所述基于所述多个处理时间分别处理所述多个部分包括确定两个相邻的处理时间，基于所述基准数据，确定与所述两个相邻的处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源起始时间和源终止时间，基于所述源起始时间和源终止时间之间的时长，确定处理方式，所述处理方式包括平移、拉伸或压缩中的一种或多种，基于所述处理方式对所述第二音频中从所述源起始时间到所述源终止时间之间的内容进行处理，以便将所述源起始时间和所述源终止时间对齐至所述两个相邻的处理时间。

可选地，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定一个处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的内容调整至所述处理时间，并相应调整所述第二音频中的全部其他内容。

可选地，所述确定处理时间包括根据用户输入确定处理时间，基于固定的时间间隔确定多个处理时间，以及/或者，基于与所述第二音频匹配的文本内容确定一个或多个处理时间。

可选地，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的声音振动频率调整至所述基准数据中的处理时间的声音振动频率。

本公开的另一方面提供了一种音频处理装置，包括采集模块、处理模块以及合成模块。采集模块，用于在输出第一音频的情况下，采集来自环境的第二音频。处理模块，用于处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高。合成模块，用于合成所述第三音频和所述第一音频得到第四音频。

本公开的另一个方面提供了一种电子设备，包括处理器以及存储器。存储器上存储有计算机可读指令，所述指令被处理器执行时用于实现如上所述的方法。

本公开的另一方面提供了一种非易失性存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的音频处理方法的流程图；

图2示意性示出了根据本公开实施例的至少基于所述基准数据，处理所述第二音频得到第三音频的流程图；

图3示意性示出了根据本公开另一实施例的至少基于所述基准数据，处理所述第二音频得到第三音频的流程图；

图4示意性示出了根据本公开实施例的音频处理装置的框图；以及

图5示意性示出了根据本公开实施例的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本公开的实施例提供了一种音频处理方法，包括在输出第一音频的情况下，采集来自环境的第二音频，处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高，合成所述第三音频和所述第一音频得到第四音频。

图1示意性示出了根据本公开实施例的音频处理方法的流程图。

如图1所示，该方法包括操作S110～S130。

在操作S110，在输出第一音频的情况下，采集来自环境的第二音频。根据本公开实施例，第一音频可以由一个或多个音轨组成，第二音频例如可以是人声、乐器或者人声和乐器的组合，若将第一音频和第二音频叠加，可以得到合成后的音频。例如，第一音频可以是歌曲的伴奏，第二音频可以是用户演唱的部分。

根据本公开实施例，第一音频和第二音频之间在节奏和旋律上具有较强的相关性。第一音频与第二音频的匹配程度越高，则录制的第二音频的质量越好。

在操作S120，处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高。

根据本公开实施例，处理所述第二音频得到第三音频例如可以包括基于所述第一音频，去除所述第二音频中的干扰音频。例如，可以基于播放的第一音频，去除第一音频的回声，以提高录制质量。根据本公开实施例，还可以基于降噪技术处理至少部分地消除第一音频中存在的噪声。

根据本公开实施例，可以无需人工操作，通过自动识别第二音频的特征，基于识别到的特征处理第二音频得到第三音频，处理后的第三音频与第一音频的匹配程度更高。

例如，用户在录制第二音频的过程中，由于软件或硬件的延迟导致录制的第二音频相对于第一音频整体滞后0.5秒，可以通过基准数据将第二音频前移0.5秒得到第三音频，以提高匹配程度。

在操作S130，合成所述第三音频和所述第一音频得到第四音频。合成后的第四音频例如可以是包含人声和伴奏的完整的歌曲录制作品。

本公开实施例的方法通过自动识别第二音频的特征，基于识别到的特征处理第二音频得到第三音频，处理后的第三音频与第一音频的匹配程度更高，无需人工调整，提高用户体验。

根据本公开实施例，所述处理所述第二音频得到第三音频包括获得基准数据，并至少基于所述基准数据，处理所述第二音频得到第三音频。例如，用于调整节奏的基准数据可以是含伴奏的原唱、不含伴奏的人声音频或者只有校准点的内容和相对应的时间的其他基准数据，例如LRC歌词。

图2示意性示出了根据本公开实施例的至少基于所述基准数据，处理所述第二音频得到第三音频的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，确定处理时间。例如，可以根据用户输入确定一个或多个处理时间。

在操作S220，基于所述基准数据，确定与所述处理时间相对应的内容。

在操作S230，从所述第二音频中确定匹配所述内容的源时间。

在操作S240，将所述第二音频中的源时间的内容调整至所述处理时间。

例如，可以确定处理时间为1分钟的位置，从基准数据中确定1分钟时对应的歌词是一个“我”字，可以在第二音频中在1分钟附近的位置匹配出现“我”字的源时间，例如59秒，基于该源时间可以向后调整第二音频，使得“我”字出现在1分钟的位置，得到第三音频。

根据本公开实施例，处理时间可以是一个，也可以是多个。在仅有一个处理时间的情况下，可以根据该处理时间将所述第二音频中的源时间的内容调整至所述处理时间，并相应调整所述第二音频中的全部其他内容；在存在多个处理时间的情况下，可以根据多个处理时间分别处理第二音频中的多个部分的数据。

图3示意性示出了根据本公开另一实施例的至少基于所述基准数据，处理所述第二音频得到第三音频的流程图。

如图3所示，该方法包括操作S310～S340。

在操作S310，确定多个处理时间。

根据本公开实施例，可以基于固定的时间间隔确定多个处理时间，例如，可以以5秒为一个间隔，确定5秒、10秒、15秒……等多个处理时间。或者，可以基于与所述第二音频匹配的文本内容确定一个或多个处理时间，例如，在录歌的场景下，与第二音频匹配的文本内容可以是歌曲的歌词，可以根据每一句歌词的开始位置确定多个处理时间。

在操作S320，将所述第二音频分割为多个部分。

根据本公开实施例，例如可以根据歌词的分句将第二音频划分为多个部分，歌曲的间奏可以单独划分为一个部分等。

在操作S330，基于所述多个处理时间分别处理所述多个部分。

根据本公开实施例，可以基于每个部分中的处理时间调整该部分的音频内容，使之与第一音频更佳匹配。根据本公开实施例，可以确定两个相邻的处理时间，基于所述基准数据，确定与所述两个相邻的处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源起始时间和源终止时间，基于所述源起始时间和源终止时间之间的时长，确定处理方式，所述处理方式包括平移、拉伸或压缩中的一种或多种，基于所述处理方式对所述第二音频中从所述源起始时间到所述源终止时间之间的内容进行处理，以便将所述源起始时间和所述源终止时间对齐至所述两个相邻的处理时间。

例如，两个相邻的处理时间为25秒和30秒，基于基准数据，确定在25秒时的声音特征A和在30秒时的声音特征B，在第二音频所划分的多个部分中在25秒附近匹配声音特征A，在30秒附近匹配声音特征B，获得匹配的声音的时间位置。例如，第二音频中出现声音特征A的位置为25.5秒，声音特征B的位置为30.5秒，则可以通过平移该部分声音使之与第一音频匹配。又如，如果第二音频中出现声音特征A的位置为25.5秒，声音特征B的位置为30秒，则可以通过拉伸的方式使两个位置匹配。又如，如果第二音频中出现声音特征A的位置为24.5秒，声音特征B的位置为30.5秒，则可以通过压缩的方式使两个位置匹配。在使用压缩或拉伸的场景中，通常还可以结合平移操作使位置对齐。

在操作S340，将经处理的多个部分拼接为第三音频。例如，可以将每一句歌词的调整结果拼接为第三音频。

对于普通用户唱歌时节奏卡不准，现有技术整体调整也无法解决的问题，本公开实施例的方法通过将第二音频拆分为多个部分分别处理，然后拼接得到第三音频的方式，解决了这一问题。

根据本公开实施例，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的声音振动频率调整至所述基准数据中的处理时间的声音振动频率。通过调整声音振动频率，可以解决用户音调不准的问题。

根据本公开实施例，还可以基于基准数据调整第二音频中的其他声音参数，例如音色或音量等。例如，可以检测伴奏和人声的音量相对大小，如果人声音量相对于伴奏音量的较小时，可以整体或部分地提高第二音频的音量。又如，可以智能地识别歌曲的风格，从而修正用户声音的音色，修改得更加明亮或是更加低沉，甚至增加电音效果等等。

本公开还提供了一种音频处理装置，下面参照图4对本公开实施例的音频处理装置进行说明。

图4示意性示出了根据本公开实施例的音频处理装置400的框图。

如图4所示，该音频处理装置400包括采集模块410、处理模块420以及合成模块430。该装置400可以执行上面参考图1描述的各种方法。

采集模块410，例如执行上文参考图1所描述的操作S110，用于在输出第一音频的情况下，采集来自环境的第二音频。

处理模块420，例如执行上文参考图1所描述的操作S120，用于处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高。

合成模块430，例如执行上文参考图1所描述的操作S130，用于合成所述第三音频和所述第一音频得到第四音频。

根据本公开实施例，处理模块420用于基于所述第一音频，去除所述第二音频中的干扰音频，以及/或者，获得基准数据，并至少基于所述基准数据，处理所述第二音频得到第三音频。

根据本公开实施例，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的内容调整至所述处理时间。

根据本公开实施例，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定多个处理时间，将所述第二音频分割为多个部分，基于所述多个处理时间分别处理所述多个部分，将经处理的多个部分拼接为第三音频。

根据本公开实施例，所述基于所述多个处理时间分别处理所述多个部分包括确定两个相邻的处理时间，基于所述基准数据，确定与所述两个相邻的处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源起始时间和源终止时间，基于所述源起始时间和源终止时间之间的时长，确定处理方式，所述处理方式包括平移、拉伸或压缩中的一种或多种，基于所述处理方式对所述第二音频中从所述源起始时间到所述源终止时间之间的内容进行处理，以便将所述源起始时间和所述源终止时间对齐至所述两个相邻的处理时间。

根据本公开实施例，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定一个处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的内容调整至所述处理时间，并相应调整所述第二音频中的全部其他内容。

根据本公开实施例，所述确定处理时间包括根据用户输入确定处理时间，基于固定的时间间隔确定多个处理时间，以及/或者，基于与所述第二音频匹配的文本内容确定一个或多个处理时间。

根据本公开实施例，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括确定处理时间，基于所述基准数据，确定与所述处理时间相对应的内容，从所述第二音频中确定匹配所述内容的源时间，将所述第二音频中的源时间的声音振动频率调整至所述基准数据中的处理时间的声音振动频率。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，采集模块410、处理模块420以及合成模块430中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，采集模块410、处理模块420以及合成模块430中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，采集模块410、处理模块420以及合成模块430中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图5示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图5示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括处理器510和计算机可读存储介质520。该计算机系统500可以执行根据本公开实施例的方法。

具体地，处理器510例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器510还可以包括用于缓存用途的板载存储器。处理器510可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质520，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质520可以包括计算机程序521，该计算机程序521可以包括代码/计算机可执行指令，其在由处理器510执行时使得处理器510执行根据本公开实施例的方法或其任何变形。

计算机程序521可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序521中的代码可以包括一个或多个程序模块，例如包括521A、模块521B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器510执行时，使得处理器510可以执行根据本公开实施例的方法或其任何变形。

根据本公开实施例，采集模块410、处理模块420以及合成模块430中的至少一个可以实现为参考图5描述的计算机程序模块，其在被处理器510执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种音频处理方法，包括：

在输出第一音频的情况下，采集来自环境的第二音频；

处理所述第二音频得到第三音频，其中，所述第三音频与所述第一音频的匹配程度比所述第二音频与所述第一音频的匹配程度高；

合成所述第三音频和所述第一音频得到第四音频。

2.根据权利要求1所述的方法，其中，所述处理所述第二音频得到第三音频包括：

基于所述第一音频，去除所述第二音频中的干扰音频；以及/或者

获得基准数据，并至少基于所述基准数据，处理所述第二音频得到第三音频。

3.根据权利要求2所述的方法，其中，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括：

确定处理时间；

基于所述基准数据，确定与所述处理时间相对应的内容；

从所述第二音频中确定匹配所述内容的源时间；

将所述第二音频中的源时间的内容调整至所述处理时间。

4.根据权利要求3所述的方法，其中，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括：

确定多个处理时间；

将所述第二音频分割为多个部分；

基于所述多个处理时间分别处理所述多个部分；

将经处理的多个部分拼接为第三音频。

5.根据权利要求4所述的方法，其中，所述基于所述多个处理时间分别处理所述多个部分包括：

确定两个相邻的处理时间；

基于所述基准数据，确定与所述两个相邻的处理时间相对应的内容；

从所述第二音频中确定匹配所述内容的源起始时间和源终止时间；

基于所述源起始时间和源终止时间之间的时长，确定处理方式，所述处理方式包括平移、拉伸或压缩中的一种或多种；

基于所述处理方式对所述第二音频中从所述源起始时间到所述源终止时间之间的内容进行处理，以便将所述源起始时间和所述源终止时间对齐至所述两个相邻的处理时间。

6.根据权利要求3所述的方法，其中，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括：

确定一个处理时间；

基于所述基准数据，确定与所述处理时间相对应的内容；

从所述第二音频中确定匹配所述内容的源时间；

将所述第二音频中的源时间的内容调整至所述处理时间，并相应调整所述第二音频中的全部其他内容。

7.根据权利要求3所述的方法，其中，所述确定处理时间包括：

根据用户输入确定处理时间；

基于固定的时间间隔确定多个处理时间；以及/或者

基于与所述第二音频匹配的文本内容确定一个或多个处理时间。

8.根据权利要求2所述的方法，其中，所述至少基于所述基准数据，处理所述第二音频得到第三音频包括：

确定处理时间；

基于所述基准数据，确定与所述处理时间相对应的内容；

从所述第二音频中确定匹配所述内容的源时间；

将所述第二音频中的源时间的声音振动频率调整至所述基准数据中的处理时间的声音振动频率。

9.一种电子设备，包括：

处理器；以及

存储器，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器：

在输出第一音频的情况下，采集来自环境的第二音频；

合成所述第三音频和所述第一音频得到第四音频。

10.一种计算机可读存储介质，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器：

在输出第一音频的情况下，采集来自环境的第二音频；

合成所述第三音频和所述第一音频得到第四音频。