CN107978310B

CN107978310B - 音频处理方法和装置

Info

Publication number: CN107978310B
Application number: CN201711233804.6A
Authority: CN
Inventors: 程龙; 汤标
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2022-11-25
Anticipated expiration: 2037-11-30
Also published as: CN107978310A

Abstract

本发明公开了一种音频处理方法和装置，其中，方法包括：将目标音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本；按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作；将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。由此，扩展了音频处理的方式，使得音频可以根据用户的个性化需求进行编辑合成，提高了音频的趣味性。

Description

音频处理方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种音频处理方法和装置。

背景技术

随着计算机技术的发展，为用户的生产和生活带来了多样化的变化，比如，用户可以在微信、QQ等社交软件中发送音频进行信息交互等。目前，随着网上社交的普及，用户对社交软件的各种功能需求也越来越多元化，比如，对于一些95后、00后的用户，可能希望对发送的音频文件进行一些个性化的鬼畜处理等。

相关技术中，缺乏对相关音频的处理方式，仅仅基于音频源文件进行发送，因此，亟需一种能够对音频文件进行个性化处理的方式。

发明内容

本发明提供一种音频处理方法和装置，以解决现有技术中，对音频的处理方式单一，无法满足用户的个性化需求的技术问题。

本发明实施例提供一种音频处理方法，包括以下步骤：将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本；按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作；将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。

本发明另一实施例提供一种音频处理装置，包括：拆解模块，用于将原始音频拆解成多个子音频；第一显示模块，用于在应用前台显示与每个子音频对应的子文本；编辑模块，用于按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作；处理模块，用于将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。

本发明又一实施例提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本发明实施例所述的音频处理方法。本发明还一实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的音频处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

通过将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作，进而，将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。由此，扩展了音频处理的方式，使得音频可以根据用户的个性化需求进行编辑合成，提高了音频的趣味性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的音频处理方法的流程图；

图2是根据本发明一个实施例的原始音频获取方法的界面示意图；

图3是根据本发明另一个实施例的原始音频获取方法的界面示意图；

图4是根据本发明又一个实施例的原始音频获取方法的界面示意图；

图5(a)是根据本发明一个实施例的子音频对应的子文本的显示效果示意图；

图5(b)是根据本发明另一个实施例的子音频对应的子文本的显示效果示意图；

图5(c)是根据本发明又一个实施例的子音频对应的子文本的显示效果示意图；

图6是根据本发明一个实施例的根据音频编辑策略对子音频进行编辑的流程图；

图7是根据本发明一个实施例的根据音频编辑策略对子音频进行编辑的后台处理效果示意图；

图8是根据本发明另一个实施例的根据音频编辑策略对子音频进行编辑的后台处理效果示意图；

图9是根据本发明又一个实施例的根据音频编辑策略对子音频进行编辑的后台处理效果示意图；

图10是根据本发明一个具体实施例的音频处理方法的流程图；

图11(a)是根据本发明一个具体实施例的音频处理方法的界面示意图；

图11(b)是根据本发明一个具体实施例的音频处理方法的后台处理效果示意图；

图11(c)是根据本发明一个具体实施例的另一个音频处理方法的后台处理效果示意图；

图11(d)是根据本发明一个具体实施例的另一个音频处理方法的界面示意图；

图12是根据本发明一个实施例的音频处理装置的结构示意图；

图13是根据本发明另一个实施例的音频处理装置的结构示意图；以及

图14是根据本发明一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面结合附图描述本发明实施例的音频处理方法和装置。

图1是根据本发明一个实施例的音频处理方法的流程图，如图1所示，该方法包括：

步骤101，将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本。

其中，原始音频是用户希望进行个性化操作处理的音频，可以是用户通过终端设备的麦克风等装置录制的，也可以是在拍摄的视频中根据需要截取的等。

当然，为了能够进一步满足用户的个性化需求，在本发明的一个实施例中，原始音频也可是预先设置的一些包含个性化音频的音频素材合集。

具体而言，可在应用前台显示与应用场景对应的音频素材集合，从而，获取用户从音频素材集合中选择的原始音频作为原始音频。

应当理解的是，根据应用场景的不同，上述与应用场景对应的音频素材集合中包含的音频不同，举例说明如下：

第一种示例：

在本示例中，音频素材集合中包含各种明星的音频素材，从而，用户在聊天等应用界面中，触发相应的菜单选项后，可以从在应用前台显示的与应用场景对应的音频素材集合，选择其喜欢的明星的音频作为原始音频。

举例而言，如图2左图所示，在使用聊天应用A在聊天群组聊天时，如果群组中其他用户发送了聊天消息“好无聊啊，一起玩游戏吧”，则用户触发如2左图所示的“魔音”菜单选项后，如图2右图所示，在应用界面上显示多个明星的具有代表性的音频，从而，将用户触发选中的音频作为原始音频，比如，用户触发明星1对应的音频“还有sei”，则原始音频为明星1的说出的音频“还有sei”。

第二种示例：

在本示例中，音频素材集合中包含各种卡通人物的音频素材，从而，用户在聊天等应用界面中，触发相应的菜单选项后，可以从在应用前台显示的与应用场景对应的音频素材集合，选择其喜欢的卡通人物的音频作为原始音频。

举例而言，如图3左图所示，在使用聊天应用A在聊天群组聊天时，如果群组中用户1发送了聊天消息“好无聊啊，一起玩游戏吧”，则用户触发如图3左图所示的“魔音”菜单选项后，如图3右图所示，在应用界面上显示多个卡通人物的具有代表性的音频，从而，将用户触发选中的音频作为原始音频，比如，用户触发卡通人物1对应的音频“小伙伴们，一起来玩吧”，则原始音频为卡通人物1的说出的音频“一起来玩吧”。

第三种示例：

在本示例中，音频素材集合中包含各种年龄段不同性别的用户对应的音频素材，从而，用户在聊天等应用界面中，触发相应的菜单选项后，可以从在应用前台显示的与应用场景对应的音频素材集合，选择其需要的性别和年龄段的音频作为原始音频。

举例而言，如图4左图所示，在使用聊天应用A在聊天群组聊天时，如果群组中用户1发送了聊天消息“好无聊啊，一起玩游戏吧”，则用户触发如图4左图所示的“魔音”菜单选项后，如图4右图所示，在应用界面上显示年龄段不同性别的用户对应的具有代表性的音频，从而，将用户触发选中的音频作为原始音频，比如，用户触发中年女性对应的音频“回家吃饭去”，则原始音频为中年女性说出的音频“回家吃饭去”。

进一步地，在本发明的实施例中，在获取原始音频后，为了进一步满足用户的个性化需求，还进一步对原始音频进行音效处理。

具体而言，将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，以便于后续可以对音频中的每个字进行相关处理。

需要说明的是，根据应用场景的不同，可采用不同的方式实现将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，举例说明如下：

第一种示例：

在本示例中，将原始音频拆解成多个单音节子音频，并在应用前台显示与每个单音节子音频对应的子文本，也就是说，在本示例中，将原始音频拆解成与每个单音节子音频对应的子文本，从而可以对每一个单音节子音频进行处理。

第二种示例：

在本示例中，将原始音频转换成文本信息，对文本信息进行切词生成多个分词，将原始音频转换成文本信息，对文本信息进行切词生成多个分词。也就是说，在本示例中，将原始音频拆解成与一个或多个单音节子音频对应的分词，从而可以对一个或多个音节子音频进行处理。

基于上述描述，在实际执行过程中，可根据应用场景的不同，以不同的方式在应用前台显示与每个子音频对应的子文本，作为一种可能的实现方式，如图5(a)所示，以对话框的形式显示出所有子音频对应的子文本，其中，为了区分不同的子文本，可以如图5(a)所示的以间隔的形式区分，或者也可以通过颜色、字体等进行区分，当然，也可以如图5(b)所示，将每一个子音频对应的子文本显示在一个对话框中。

作为另一种可能的实现方式，如图5(c)所示，以气泡动画的形式将每一个子音频对应的子文本显示在一个气泡中。

步骤102，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作。

步骤103，将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。

具体地，在将原始音频转换为对应的子文本以后，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作，进而，将编辑好的子音频进行合成处理生成目标音频并发送给目标用户，从而，目标用户可以接收到处理后的目标音频，增加了用户之间通信的趣味性，满足了用户的个性化需求，将该方法应用于聊天应用软件可以增加用户和产品的粘性。

其中，预设的音频编辑策略用以满足用户对目标音频的个性化处理需求，根据具体应用场景的不同，可以包含不同的内容，举例说明下如下：

第一种示例：

在本示例中，预设的音频编辑策略对应于根据点击次数重复被点击的子文本对应的子音频。

具体而言，获知用户对子文本进行的点击操作，按照点击次数对匹配的子音频进行重复编辑操作，其中，重复次数与点击次数匹配，比如用户点击“我”、“想”、“吃”、“蛋”、“糕”中的子文本“吃”3次，则该子文本对应的子音频被重复3次，对编辑后的自音频合成后，发送给目标用户的目标音频为“我想吃吃吃蛋糕”。

举例而言，如图6所示，在本示例中，对格式为mp3的原始音频拆解成子音频1、2、3和4，进而，在相关应用前台显示与每一个自音频对应的子文本(图中未示出)，分别获取用户对子音频1、2、3和4对应的子文本的点击次数，按照点击次数对匹配的子音频进行重复编辑操作，获取编辑处理后的子音频1’、2’、3’和4’，进而对子音频1’、2’、3’和4’进行合成处理生成目标音频并发送给目标用户。

第二种示例：

在本示例中，预设的音频编辑策略对应于根据对子文本的滑动操作对被滑动的子文本对应的子音频进行删除操作。

举例而言，如图7所示，将与每个子音频对应的子文本“我”、“想”、“吃”、“蛋”、“糕”显示在应用平台上，用户根据需要将“糕”所在子文本区域进行滑动，则删除了子音频“糕”，对编辑后的自音频合成后，发送给目标用户的目标音频为“我想吃蛋”。

第三种示例：

在本示例中，预设的音频编辑策略对应于根据对子文本之间的移位操作，根据移位操作对子文本对应的自音频进行移位。

具体而言，当获知用户对第一子文本和第二子文本进行移位操作，对匹配的第一子音频和第二子音频进行移位操作。其中，移位操作可以是拖动操作等。

举例而言，如图8所示，将与每个子音频对应的子文本“我”、“爱”、“你”显示在应用平台上，用户根据需要将第一子文本“我”和第二子文本“你”所在子文本区域进行移位，比如将“我”对应的区域拖动“爱”后，将“你”对应的区域拖动“爱”前，对编辑后的自音频合成后，发送给目标用户的目标音频为“你爱我”。

第四种示例：

在本示例中，预设的音频编辑策略对应于根据对子文本的移位操作，根据移位操作对子文本对应的自音频进行移位。

具体而言，当获知用户对子文本进行移位操作，对匹配的子音频进行移位操作。其中，移位操作可以是拖动操作等。

举例而言，如图9所示，将与每个子音频对应的子文本“我”、“想”、“吃”、“蛋”、“糕”显示在应用平台上，用户根据需要将子文本“我”对应的区域拖动“爱”后，将“你”对应的区域拖动“吃”前，对编辑后的自音频合成后，发送给目标用户的目标音频为“想吃我蛋糕”。

需要强调的是，上述示例示出的预设的音频编辑策略的包含的内容，仅仅是示例性的，在实际操作过程中，该预设的音频编辑可以包含任意满足用户对音频的个性化处理需求的内容，且多种示例示出的音频编辑策略的包含的内容可以单独执行，也可以结合执行，比如，上述第一种示例示出的方式可以和第四种示例示出的方式结合，可以将原始音频“你是不是想吃蛋糕呀”处理为目标音频“是不是你想想想吃蛋糕了”。

应当理解的是，本发明实施例的音频处理方法，可以应用在视频播放、社交聊天应用中等，为了使得本领域的技术人员，能够更加清楚的了解本发明实施例的音频处理方法，下面分别结合其在视频播放和社交聊天应用中的实施流程进行举例说明。

首先，举例描述本发明实施例的音频处理方法，在视频播放应用场景下的应用：

如图10所示，拍摄一段视频后，在应用前台将视频分段显示给用户等，用户选择需要编辑的视频段和不需要的编辑的视频段，进而，对需要编辑段的音频进行提取作为原始音频，以便于对该原始音频对应的子音频进行处理，将编辑后的子音频进行合成处理，进而，将合成后的目标音频和不需要编辑的视频段进行和成，生成新的视频，该视频的音频播放效果满足了用户的个性化需求，趣味性较强。

其次，举例描述本发明实施例的音频处理方法，在社交聊天应用场景下的应用：

针对聊点群组中其他用户发送的“一起来玩游戏吧”的聊天信息，当然用户选择的原始音频为“你们这是要搞事情啊”，则对该如图11(a)所示，将该原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本“你们这是要搞事情啊”。

用户对子文本“搞”点击3次，对子文本“事”点击2次，则后台对电机的子音频进行重复操作，如图11(b)所示，后台将子音频“搞”重复3次，对子音频“事”重复2次，如图11(c)所示，编辑后的音频为“你们要搞搞搞事事情啊”，从而如图11(d)所示将编辑后的子音频进行合成处理生成目标音频“你们要搞搞搞事事情啊”以语音的形式发送给目标用户。

综上所述，本发明实施例的音频处理方法，将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作，进而，将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。由此，扩展了音频处理的方式，使得音频可以根据用户的个性化需求进行编辑合成，提高了音频的趣味性。

为了实现上述实施例，本发明还提出了一种音频处理装置，图12是根据本发明一个实施例的音频处理装置的结构示意图，如图12所示，该装置包括：拆解模块100、第一显示模块200、编辑模块300和处理模块400。

其中，拆解模块100，用于将原始音频拆解成多个子音频。

需要说明的是，根据应用需求的不同，拆解模块100可采用不同的方式将原始音频拆解成多个子音频，作为一种可能的实现方式，拆解模块100将原始音频拆解成多个单音节子音频，并在应用前台显示与每个单音节子音频对应的子文本。

其中，获取的原始视频根据应用场景的不同，获取方式不同，在本发明的一个实施例中，为了进一步满足用户的个性化需求，作为一种可能的实现方式，如图13所示，在如图12所示的基础上，该音频处理装置还包括第二显示模块500和获取模块600。

在本示例中，第二显示模块500，用于在应用前台显示与应用场景对应的音频素材集合。

获取模块600，用于获取用户从音频素材集合中选择的原始音频。

第一显示模块200，用于在应用前台显示与每个子音频对应的子文本。

编辑模块300，用于按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作。

处理模块400，用于将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。

需要说明的是，前述对音频处理方法的解释说明，也适用于本发明实施例的音频处理装置，本发明实施例中未公布的细节，在此不再赘述。

上述音频处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将音频处理装置按照需要划分为不同的模块，以完成上述音频处理装置的全部或部分功能。

综上所述，本发明实施例的音频处理装置，将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作，进而，将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。由此，扩展了音频处理的方式，使得音频可以根据用户的个性化需求进行编辑合成，提高了音频的趣味性。

为了实现上述实施例，本发明还提出了一种计算机设备，图14是根据本发明一个实施例的计算机设备的结构示意图，如图14所示，存储器接收并存储原始音频，将原始音频发送给处理器，处理器读取存储在存储器上并可在处理器上运行的计算机程序，将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，进而，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作，将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。

综上所述，本发明实施例的计算机设备，将原始音频拆解成多个子音频，并在应用前台显示与每个子音频对应的子文本，按照预设的音频编辑策略，根据用户对子文本的触控操作对匹配的子音频进行相应的编辑操作，进而，将编辑后的子音频进行合成处理生成目标音频并发送给目标用户。由此，扩展了音频处理的方式，使得音频可以根据用户的个性化需求进行编辑合成，提高了音频的趣味性。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所描述的音频处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种音频处理方法，其特征在于，包括以下步骤：

获取用户从音频素材集合中选择的原始音频；

显示所述原始音频的多个子音频对应的子文本；

获取所述用户对所述子文本进行的触控操作，对所述子音频进行重复编辑操作；

生成目标音频并发送给目标用户。

2.如权利要求1所述的方法，其特征在于，在所述显示所述原始音频的多个子音频对应的子文本之前，所述方法还包括：

将所述原始音频拆解成多个单音节子音频，并在应用前台显示与每个单音节子音频对应的子文本。

3.如权利要求1所述的方法，其特征在于，在所述显示所述原始音频的多个子音频对应的子文本之前，所述方法还包括：

将所述原始音频转换成文本信息，对所述文本信息进行切词生成多个分词；

将所述原始音频拆解成与所述多个分词对应的多个子音频，并在应用前台显示与每个子音频对应的分词文本。

4.如权利要求1所述的方法，其特征在于，在所述显示所述原始音频的多个子音频对应的子文本之后，所述方法还包括：

当获知用户对子文本进行点击操作，按照点击次数对匹配的子音频进行重复编辑操作，其中，重复次数与点击次数匹配；

和/或；

当获知用户对子文本进行滑动操作，对匹配的子音频进行删除操作；

和/或；

当获知用户对第一子文本和第二子文本进行移位操作，对匹配的第一子音频和第二子音频进行移位操作。

5.如权利要求1所述的方法，其特征在于，还包括：

在应用前台显示与应用场景对应的音频素材集合。

6.一种音频处理装置，其特征在于，包括：

获取模块，用于获取用户从音频素材集合中选择的原始音频；

第一显示模块，用于显示所述原始音频的多个子音频对应的子文本；

编辑模块，用于获取所述用户对所述子文本进行的触控操作，对所述子音频进行重复编辑操作；

处理模块，用于生成目标音频并发送给目标用户。

7.如权利要求6所述的装置，其特征在于，还包括：

拆解模块，用于将所述原始音频拆解成多个单音节子音频，并在应用前台显示与每个单音节子音频对应的子文本。

8.如权利要求6所述的装置，其特征在于，还包括：

第二显示模块，用于在应用前台显示与应用场景对应的音频素材集合。

9.一种计算机设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-5任一所述的音频处理方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的音频处理方法。