CN111445927A

CN111445927A - 一种音频处理方法及电子设备

Info

Publication number: CN111445927A
Application number: CN202010167788.0A
Authority: CN
Inventors: 胡吉祥
Original assignee: Vivo Software Technology Co Ltd
Current assignee: Vivo Software Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-24
Anticipated expiration: 2040-03-11
Also published as: US20230005506A1; CN111445927B; EP4120268A1; KR20220149570A; WO2021179991A1; EP4120268A4

Abstract

本发明实施例提供了一种音频处理方法及电子设备，该方法会先获取待处理音频对应的文本信息，其中，文本信息包括待处理文本及待处理文本中各个字段对应的播放时段，再接收针对待处理文本的第一输入，响应于该第一输入，将待处理文本中第一输入指示的字段确定为待处理字段，接着，接收针对待处理字段的第二输入，响应于该第二输入，获取目标音频段，最后，根据目标音频段，对待处理字段对应的播放时段处的音频段进行修改，得到目标音频。这样，无需手动调整进度条，即可实现对音频的修改，因此可以提高音频处理效率。

Description

一种音频处理方法及电子设备

技术领域

本发明涉及通信技术领域，尤其涉及一种音频处理方法及电子设备。

背景技术

生活中人们经常会录制音频，但在录制的过程中，往往会出现说错话、多次出现口头禅等问题，这就需要对音频内容进行修改，处理掉用户不想要的片段。

传统技术中，往往是用户手动调整音频的进度条，以寻找需要修改的音频片段所在的播放时段，然后对该播放时段处的音频片段进行修改。在操作过程中，用户经常需要反复调整进度条，才能准确定位到需要修改的音频片段所在的播放时段，整个操作过程较为繁琐，音频处理的效率较低。

发明内容

本发明实施例提供一种音频处理方法及电子设备，以解决在修改音频内容时，操作过程较为繁琐，音频处理的效率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供一种音频处理方法，应用于电子设备，所述方法包括：

获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段；

接收针对所述待处理文本的第一输入；

响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段；

接收针对所述待处理字段的第二输入；

根据所述第二输入，获取目标音频段；

根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

第二方面，本发明实施例还提供了一种电子设备，包括：

第一获取模块，用于获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段；

第一接收模块，用于接收针对所述待处理文本的第一输入；

第一确定模块，用于响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段；

第二接收模块，用于接收针对所述待处理字段的第二输入；

第二获取模块，用于根据所述第二输入，获取目标音频段；

第二确定模块，用于根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

第三方面，本发明实施例提供了一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的音频处理程序，所述音频处理程序被所述处理器执行时实现如第一方面所述的音频处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储音频处理程序，所述音频处理程序被处理器执行时实现如第一方面所述的音频处理方法的步骤。

综上所述，本发明实施例提供的音频处理方法，会先获取待处理音频对应的文本信息，其中，文本信息包括待处理文本及待处理文本中各个字段对应的播放时段，再接收针对待处理文本的第一输入，响应于该第一输入，将待处理文本中第一输入指示的字段确定为待处理字段，接着，接收针对待处理字段的第二输入，响应于该第二输入，获取目标音频段，最后，根据目标音频段，对待处理字段对应的播放时段处的音频段进行修改，得到目标音频。这样，无需手动调整进度条，即可实现对音频的修改，因此可以提高音频处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例提供的一种音频处理方法的步骤流程图；

图2-1表示本发明实施例的另一种音频处理方法的步骤流程图；

图2-2表示本发明实施例提供的一种显示待处理文本的示意图；

图2-3表示本发明实施例提供的另一种显示待处理文本的示意图；

图2-4表示本发明实施例提供的一种编辑待处理文本的示意图；

图2-5表示本发明实施例提供的另一种编辑待处理文本的示意图；

图2-6表示本发明实施例提供的又一种编辑待处理文本的示意图；

图3表示本发明实施例提供的又一种音频处理方法的步骤流程图；

图4表示本发明实施例提供的一种电子设备的结构框图；

图5表示本发明实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种音频处理方法的步骤流程图，该方法可以应用于电子设备，如图1所示，该方法可以包括：

步骤101，获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段。

本发明实施例中，待处理音频可以是存储在本地的音频，也可以是从网上下载得到的需要修改的音频，待处理音频可以是通过音频录制直接得到的，也可以是录制视频过程中录制的，即，待处理音频可以是从视频中提取出的音频。进一步地，待处理文本可以是待处理音频所对应的文本，该对应的文本可以是根据音频转文字的方法，对待处理音频进行转换得到的。待处理文本中各个字段对应的播放时段，可以是该字段对应的音频在待处理音频中对应的播放时段。示例的，假设待处理文本中字段“好心情”对应的音频在待处理音频中对应的播放时段为第5.1秒至第5.9秒，那么可以将播放时段“第5.1秒至第5.9秒”确定为字段“好心情”对应的播放时段。

步骤102，接收针对所述待处理文本的第一输入。

本发明实施例中，针对待处理文本的第一输入，可以是在显示待处理文本的界面上，对待处理文本中需要修改的字段进行选择的操作。该操作可以是单击、双击等等。

步骤103，响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段。

本发明实施例中，第一输入指示的字段指的是用户通过第一输入选择的字段，即，用户需要修改的音频所对应的字段，因此，可以根据第一输入指示的字段，确定待处理字段。根据第一输入指示的字段，确定待处理文本中的待处理字段时，可以是将待处理文本中第一输入指示的字段作为待处理字段。

步骤104，接收针对所述待处理字段的第二输入。

本发明实施例中，针对待处理字段的第二输入，可以是在显示待处理文本的界面上执行的，第二输入可以是用户根据对待处理字段对应的音频段的修改需求执行的。例如，该第二输入可以是针对待处理字段的删除操作，或者是输入用于替换待处理字段的操作，或者是输入需要添加的字段的操作，又或者是输入用于替换待处理字段所对应音频段的音频段的操作。

步骤105，响应于所述第二输入，获取目标音频段。

本发明实施例中，目标音频段可以是用户最终想要的音频段。该目标音频段可以是用户直接输入的，也可以是电子设备通过对待处理字段进行编辑，获取到的。其中，对待处理字段编辑的具体方式可以是根据第二输入决定的。例如，可以在第二输入是输入需要添加的字段的操作时，为待处理字段中添加新的字段。在第二输入是针对待处理字段的删除操作时，删除待处理字段，等等。由于第二输入是用户根据对待处理字段对应的音频段的修改需求执行的，因此，通过对待处理字段进行编辑，可以确保获取到的目标音频段即为用户最终想要的音频对应的字段。

步骤106，根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

本发明实施例中，根据目标音频段进行修改时，可以在文本信息中包含的各个字段对应的播放时段中，读取待处理字段对应的播放时段，然后将待处理字段对应的播放时段处的音频段修改为目标音频段，进而实现对待处理音频的修改。

综上所述，本发明实施例提供的音频处理方法，会先获取待处理音频对应的文本信息，其中，文本信息包括待处理文本及待处理文本中各个字段对应的播放时段，再接收针对待处理文本的第一输入，响应于该第一输入，根据第一输入指示的字段，确定待处理文本中的待处理字段，接着，接收针对待处理字段的第二输入，响应于该第二输入，获取目标音频段，最后，根据目标音频段，对待处理字段对应的播放时段处的音频段进行修改，得到目标音频。这样，无需手动调整进度条，即可实现对音频的修改，因此可以提高音频处理效率。

图2-1是本发明实施例提供的另一种音频处理方法的步骤流程图，该方法可以应用于电子设备，如图2-1所示，该方法可以包括：

步骤201、获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段。

本发明实施例中，电子设备可以通过下述步骤2011～步骤2013实现获取待处理音频对应的文本信息：

步骤2011、检测是否存在与所述待处理音频匹配的字幕文件；所述字幕文件包括字幕文本及所述字幕文本中各个字段对应的播放时段。

本发明实施例中，待处理音频可以是视频中的音频，相应地，字幕文件可以是与视频匹配的字幕文件。待处理音频也可以是独立的音频，比如，歌曲等，相应地，字幕文件可以是与歌曲相匹配的歌词文件。检测是否存在与待处理音频匹配的字幕文件，可以是在网上搜索是否有与待处理音频相匹配的字幕文件，也可以是在本地搜索是否有匹配的字幕文件。

步骤2012、若存在与所述待处理音频匹配的字幕文件，则将所述字幕文件作为所述待处理音频对应的文本信息。

本发明实施例中，将字幕文件作为待处理音频对应的文本信息，可以是将字幕文件中包含的字幕文本作为待处理音频对应的待处理文本，并将字幕文本中各个字段对应的播放时段作为该字段在待处理音频中的播放时段。通过检测是否存在匹配的字幕文件，在存在字幕文件的情况下，将字幕文件作为待处理音频对应的文本信息，可以省去根据音频生成文本的步骤，进而一定程度上节省音频处理的时间。

步骤2013、若不存在与所述待处理音频匹配的字幕文件，则将所述待处理音频中包含的音频转换为文本，并根据所述待处理音频中音频段播放的时间信息，生成所述文本中各个字段对应的播放时段；将所述文本与所述文本中各个字段对应的播放时段，作为所述待处理音频对应的文本信息。

本发明实施例中，将待处理音频转换为文本，可以是利用语音转文字的方法实现的。具体的，可以先对音频进行处理，以去除音频中的杂音，避免对转换过程造成干扰，然后，再提取音频中的特征值，并将音频划分为更小的音频段，使得该音频段中包含一个或多个特征值，根据音频段的特征值与音频模型库中的模型特征值进行匹配，将匹配得到的模型特征值对应的文字，确定为该音频段对应的文本。生成文本中各个字段对应的播放时段，可以是在音频转换为文本的过程中，读取将划分的音频段对应的播放时段，然后，将划分的音频段对应的播放时段，作为该字段对应的播放时段。这样，在不存在字幕文件的时候，通过音频生成对应的文本，可以得到与待处理音频相匹配的文本内容，进而确保能够为后续提供到准确的文本信息。

步骤202、接收针对所述待处理文本的第一输入。

本发明实施例中，可以接收针对待处理文本的第一输入之前，通过下述步骤实现显示待处理文本：

显示预设画面，并在所述预设画面中显示所有的所述待处理文本；或者，显示所述待处理视频的各个视频画面；在所述视频画面中显示与所述视频画面对应的待处理文本。

具体的，预设画面可以是根据实际情况预先设置的，示例的，预设画面可以与待处理音频存在关联的画面，例如，可以是待处理音频所属视频的视频封面，或者是待处理音频所属的音频专辑的封面，又或者是待处理音频的演唱者的照片，等等，本发明实施例对此不作限定。进一步地，通过在预设画面中显示所有的待处理文本，可以方便用户直观看到完整待处理文本，同时使用与待处理文本相关的预设画面，可以提高用户的观看体验。示例的，图2-2是本发明实施例提供的一种显示待处理文本的示意图，如图2-2所示，在包含演唱过待处理音频的某一演唱者的相关画面中，显示所有的待处理文本。需要说明的是，实际应用场景中，待处理文本的数量可能较多，而受到电子设备屏幕尺寸的限制，可能无法一次性显示出完整的待处理文本，因此，可以在对待处理文本进行滚动显示，以确保能够完整显示。

进一步地，也可以显示视频画面，并在视频画面中显示对应的待处理文本。其中，视频画面对应的待处理文本，可以是播放时段与该视频画面所在播放时段相同的文本。由于视频画面的内容与视频画面对应的待处理文本往往具有较强的关联，因此，这样，分别在视频画面中显示的方式，可以方便用户同时观察到视频画面的内容及文本内容，进而方便用户进行选择。具体在显示时，可以是在视频画面上生成文本显示框，在文本显示框中显示待处理文本，该显示框的具体形式可以根据实际情况预先设定。示例的，图2-3是本发明实施例提供的另一种显示待处理文本的示意图，如图2-3所示，在视频画面中显示有对应的待处理文本，即“让我掉下眼泪的不止昨夜的酒”。

相应地，电子设备可以通过接收对显示的待处理文本的选择输入，实现接收第一输入。这样，通过在预设画面或视频画面中显示待处理文本，可以为用户提供可视化的选择场景以及丰富的信息，使用户能够便捷的选择出待处理文本，提高选择效率。

步骤203、响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段。

具体的，将待处理文本中第一输入指示的字段确定为待处理字段时，可以是从所有待处理文本中搜索包含的所有第一输入指示的字段，然后将搜索到的字段确定为待处理字段；其中，第一输入指示的字段可以是用户针对显示的待处理文本的选择输入所选中的字段。或者，第一输入可以是通过预设搜索区域执行，第一输入指示的字段可以是通过该搜索区域输入的。相应地，电子设备可以在本步骤之前，显示搜索区域；然后接收用户通过所述搜索区域执行的第一输入。这样，用户仅需选择一次，即可实现控制电子设备对所有相同字段的进行修改，进而可以提高选择效率。

进一步地，在执行步骤203之后还可以通过下述步骤A～步骤C实现调整音频音量。

步骤A、接收针对所述待处理文本的第三输入。

本发明实施例中，针对待处理文本的第三输入，可以是在显示待处理文本的界面上执行的，第三输入可以是对待处理文本字体的调整操作。用户可以在需要对待处理文本字体进行调整时，执行第三输入，相应地，电子设备可以接收该第三输入。

步骤B、响应于所述第三输入，对所述第三输入所指示的待调整字段的字体大小进行调整，得到调整后的待调整字段。

本发明实施例中，对第三输入所指示的待调整字段的字体大小进行调整，可以是根据第三输入指示的调整操作，对待调整字段字体大小进行放大或缩小，得到调整后的待调整字段。

步骤C、根据所述调整后的待调整字段的字体大小，调整所述待调整字段对应音频的音量大小；其中，所述调整后的待调整字段的字体越大，所述待调整字段对应音频的音量越大。

本发明实施例中，根据调整后的待调整字段的字体大小，调整待调整字段对应音频的音量大小时，可以是先确定调整后的待调整字段的字体大小，然后根据预设的字体大小与音量大小对应关系，确定调整后的待调整字段的字体大小所对应的音量，最后，将该待调整字段对应音频的音量大小设置为该待调整字段对应音频的音量，进而实现音量调整。其中，该预设的字体大小与音量大小对应关系中，字体越大，音量越大。

示例的，假设调整后的待调整字段的字体大小为四号，四号字体对应的音量为60分贝，那么相应地，可以将该待调整字段对应音频的音量大小设置为该60分贝。这样，用户仅需对文本字体大小进行调整，即可相应地控制调整对应音频的音量大小，使得音频音量调整的过程更为简便，进而可以提高调整效率。

进一步地，本发明实施例还可以预先设置用于调整字体大小的曲线。相应地，用户可以从待处理文本中选择需要调整字体大小的待调整字段，然后调整该曲线的形状，进而实现输入第二输入。进一步地，在对字体大小进行调整时，可以根据调整后的曲线的各个分段的高度，依次对待调整字段中包含的各个字的大小进行调整；其中，分段的高度可与该字的大小成正比，或成反比。这样，用户只需对曲线形状进行调整，就可实现对应音频段的音量大小。同时，由于曲线形状的多样性，使得待处理字段对应的音频段的音量大小具有多种可能，例如，用户可以通过将曲线调整为波浪形，控制待调整字段对应的音量忽大忽小，进而可以提高音频的趣味性。

步骤204、接收针对所述待处理字段的第二输入。

具体的，本步骤的实现方式可以参照前述步骤104，本发明实施例对此不作限定。

步骤205、根据所述第二输入，对所述待处理字段进行编辑，得到目标字段。

本发明实施例中，若所述第二输入为删除输入，则可以认为用户需要删掉待处理字段，因此，可以将所述待处理字段删除，并将删除后得到的空白字段确定为所述目标字段。

进一步地，若所述第二输入为替换输入，则可以认为用户需要对待处理字段进行替换，因此，可以获取所述第二输入对应的待替换字段；将所述待处理字段删除并在所述待处理字段的位置，添加所述待替换字段，得到所述目标字段。其中，获取第二输入对应的待替换字段，可以是提取第二输入中包含的字段，将该字段作为待替换字段，也可以是提取第二输入中包含的语音，并根据语音转文字的方法得到该语音对应的文字，将得到的文字作为待替换字段。

进一步地，若所述第二输入为增加输入，则可以认为用户需要对待处理字段添加新的字段，因此，可以获取所述第二输入对应的待增加字段；在所述待处理字段的位置，添加所述待增加字段，得到所述目标字段。本发明实施例中，获取第二输入对应的待增加字段，可以是提取第二输入中包含的字段，将该字段作为待增加字段，也可以是提取第二输入中包含的语音，并根据语音转文字的方法得到该语音对应的文字，将得到的文字作为待增加字段。在本发明实施例中，通过根据不同的第二输入可以执行相应的编辑操作，进而可以满足用户多种的修改需求，提高音频修改效果。

需要说明的是，还可以为显示的待处理字段增加预设标记，以及，根据待处理字段对应的显示位置，显示待替换字段或待增加字段。具体的，预设标记可以是反映对待处理字段执行的具体编辑操作的标记，不同的编辑操作对应的预设标记不同。示例的，若编辑操作为将待处理字段删除，则预设标记可以为在待处理字段上添加的删除线，也可以为在待处理字段上添加表示该字段被删除的文字标记。若编辑操作为替换待处理字段，则预设标记可以为在待处理字段上添加的下划线，也可以为在待处理字段上添加表示该字段被替换的文字标记，并在待处理字段旁显示待替换字段，具体的显示位置可以根据实际情况设定。若编辑操作为在待处理字段的位置增加字段，则预设标记可以为在待处理字段对应的位置处添加增加字段标记，比如箭头等，以指示在该位置处添加字段。同时可以显示添加的待增加字段，以方便用户获知具体添加了什么字段。具体的标记方式可以是多样的，本发明实施例对此不作限制。通过在待处理字段上添加预设标记，可以使得用户可以更清楚的获知示被修改的待处理字段所在位置，以及具体对其所执行的编辑操作。

进一步地，显示位置可以是根据实际需求预先设定，示例的，该显示位置可以是待删除字段的下方。这样，通过在待删除字段对应的显示位置中显示待替换字段或待增加字段，可以方便用户快速获知具体修改的内容，进而方便用户之后进行检查。

示例的，图2-4是本发明实施例提供的一种编辑待处理文本的示意图，如图2-4所示，待处理字段为“让我掉下眼泪的”，而第二输入为删除输入，则删除待处理字段，即在“让我掉下眼泪的”上添加删除线并删除。

图2-5是本发明实施例提供的另一种编辑待处理文本的示意图，如图2-5所示，待处理字段为“眼泪”，而第二输入为替换输入，则删除待处理字段并显示待替换字段，即在“眼泪”上添加删除线，待处理字段下方的“口水”为待替换字段。

图2-6是本发明实施例提供的又一种编辑待处理文本的示意图，如图2-6所示，待处理字段指示的位置为“我”和“掉”之间，而第二输入为增加输入，则用箭头指示待处理字段的位置，箭头下方的“今天”为待增加字段。

步骤206、将所述目标字段对应的音频，确定为所述目标音频段。

具体的，可以先对文本进行语言学分析将目标字段切分为词语，再根据切分得到的词语，从语音合成库中提取匹配的字段对应的音频波形段，将各个词语对应的音频波形段合成，得到该文本对应的音频段。也可以是在待处理音频中检索是否存在与目标字段相同的字段，若存在，则提取该相同字段对应的音频段，作为目标字段对应的音频，进而得到目标音频段。

步骤207、根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

具体的，本步骤中可以先从各个字段对应的播放时段中获取待处理字段对应的播放时段，然后，获取所述待处理音频对应的音频波形图，最后，将待处理字段对应的播放时段在音频波形图中的对应波段，修改为目标音频段对应的音频波段，得到目标音频。

其中，获取待处理字段对应的播放时段时，可以从各个字段中查找该待处理字段，然后读取该待处理字段对应的播放时段。获取待处理音频对应的音频波形图时，可以是通过提取音频中包含的特征，比如振动频率等，对该特征进行处理，比如归一化处理等，得到根据播放时间显示音频特征的波形图。

进一步地，将待处理字段对应的播放时段在音频波形图中的对应波段，修改为目标音频段对应的空白波段时，可以使用该空白波段对该对应波段进行替换，以实现修改。或者，也可以是直接将该对应波段删除，以实现修改。需要说明的是，在删除时，可以是去掉该对应波段的波形显示，将其改成直线，以示声音被删除。

若目标字段为待替换字段，可以直接使用目标音频段对应的音频波段对该对应波段进行替换，也可以是先将该对应波段删除，然后在删除的位置上添加目标音频段对应的音频波段中待替换字段对应的音频波段。若目标字段为待增加字段，可以直接使用目标音频段对应的音频波段对该对应波段进行替换，也可以根据待处理字段对应的播放时段在音频波形图中对应波段的位置，添加目标音频段对应的音频波段中待增加字段对应的音频波段，将合成得到的音频波段作为目标音频。这样，通过在音频波形图中对应修改待处理音频的波段，实现对待处理音频的修改，可以使得修改过程更加精准，进而可以提高修改的准确性。

需要说明的是，电子设备还可以在获取到音频波形图之后，执行下述操作：

显示所述待处理音频对应的音频波形图；对所述待处理字段对应的播放时段在所述音频波形图中的对应波段，进行标记。其中，标记可以是将对应波段填充不同的颜色，也可以是在对应波段的位置处添加标注，具体的标记形式本发明实施例不作限制。这样，通过显示待处理音频对应的音频波形图，并在在音频波形图中标记待处理字段对应的波段，可以方便用户查看被修改的音频波段。

需要说明的是，在修改音频波段之前，还可以对待处理音频进行处理，将待处理音频中的人声与背景音进行分离，然后，提取待处理音频中的人声，并对该人声对应的音频波段进行相应地修改，最后，将修改后的人声与背景音合成，得到目标音频。这样，通过只针对人声的修改，而保留音频中的背景音，可以极大地减少对音频的修改程度，使得修改后的音频更加自然，连贯。

综上所述，本发明实施例提供的音频处理方法，会先获取待处理音频对应的文本信息，其中，文本信息包括待处理文本及待处理文本中各个字段对应的播放时段，再接收针对待处理文本的第一输入，响应于该第一输入，根据第一输入指示的字段，确定待处理文本中的待处理字段，接着，接收针对待处理字段的第二输入，根据该第二输入，对待处理字段进行编辑，得到目标字段，将目标字段对应的音频，确定为目标音频段，最后，根据目标音频段，对待处理字段对应的播放时段处的音频段进行修改，得到目标音频。这样，通过根据不同的第二输入可以执行相应的编辑操作，进而可以满足用户多种的修改需求，提高音频的修改效果。同时，用户无需手动调整进度条，即可实现对音频的修改，因此可以提高音频处理效率。

图3是本发明实施例提供的又一种音频处理方法的步骤流程图，该方法可以应用于电子设备，如图3所示，该方法可以包括：

步骤301、获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段。

具体的，本步骤的实现方式可以参照前述步骤201，本发明实施例对此不作限定。

步骤302、接收针对所述待处理文本的第一输入。

具体的，本步骤的实现方式可以参照前述步骤202，本发明实施例对此不作限定。

步骤303、响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段。

具体的，本步骤的实现方式可以参照前述步骤203，本发明实施例对此不作限定。

步骤304、接收针对所述待处理字段的第二输入。

步骤305、提取所述第二输入中携带的音频段。

本发明实施例中，第二输入可以为音频录制操作，相应地，第二输入中携带的音频段可以是用户录制的语音段。第二输入也可以为音频上传操作，相应地，第二输入中携带的音频段，也可以是用户选择要上传的音频段。

步骤306、将所述音频段确定为所述目标音频段。

本发明实施例中，由于第二输入往往是根据用户对待处理字段对应的音频段的修改需求执行的，即，第二输入中携带的音频段即为用户最终想要的音频段。因此，可以直接将该音频段确定为目标音频段。

需要说明的是，本发明实施例中，还可以在将输入的音频段确定为目标音频段之前，提示用户是否要对输入的音频段进行处理，若是，根据用户操作对输入的音频段进行截取，将截取得到的音频段作为目标音频段。这样，通过提示用户是否处理输入的音频段，可以进一步提高目标音频段的质量。

步骤307、根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

具体的，本步骤的实现方式可以参照前述步骤207，本发明实施例对此不作限定。

综上所述，本发明实施例提供的音频处理方法，会先获取待处理音频对应的文本信息，其中，文本信息包括待处理文本及待处理文本中各个字段对应的播放时段，再接收针对待处理文本的第一输入，响应于该第一输入，根据第一输入指示的字段，确定待处理文本中的待处理字段，接着，接收针对待处理字段的第二输入，提取该第二输入中携带的音频段，将音频段确定为目标音频段，最后，根据目标音频段，对待处理字段对应的播放时段处的音频段进行修改，得到目标音频。这样，通过直接提取第二输入中携带的音频段，即可便捷的得到目标音频段，因此，可以提高处理效率。同时，用户无需手动调整进度条，即可实现对音频的修改，进而可以进一步提高音频处理效率。

以上介绍了本发明实施例提供的音频处理方法，下面将结合附图介绍本发明实施例提供的电子设备。

参见图4，本发明实施例还提供了一种电子设备的结构框图，如图4所示，该电子设备40可以包括：

第一获取模块401，用于获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段。

第一接收模块402，用于接收针对所述待处理文本的第一输入。

第一确定模块403，用于响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段。

第二接收模块404，用于接收针对所述待处理字段的第二输入。

第二获取模块405，用于根据所述第二输入，获取目标音频段。

第二确定模块406，用于根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

可选的，所述第二获取模块405，用于：

根据所述第二输入，对所述待处理字段进行编辑，得到目标字段；将所述目标字段对应的音频，确定为所述目标音频段；或者，

提取所述第二输入中携带的音频段；将所述音频段确定为所述目标音频段。

可选的，所述第二获取模块405，还用于：

若所述第二输入为删除输入，则将所述待处理字段删除，并将删除后得到的空白字段确定为所述目标字段；

若所述第二输入为替换输入，则获取所述第二输入对应的待替换字段；将所述待处理字段删除并在所述待处理字段的位置，添加所述待替换字段，得到所述目标字段；

若所述第二输入为增加输入，则获取所述第二输入对应的待增加字段；在所述待处理字段的位置，添加所述待增加字段，得到所述目标字段。

可选的，所述电子设备40还包括：

第一显示模块，用于显示预设画面，并在所述预设画面中显示所有的所述待处理文本；或者，显示所述待处理视频的各个视频画面；在所述视频画面中显示与所述视频画面对应的待处理文本。

所述第一接收模块402，还用于：

接收对显示的待处理文本的选择输入。

可选的，所述电子设备40还包括：

第二显示模块，用于为显示的所述待处理字段增加预设标记，以及，根据所述待处理字段对应的显示位置，显示所述待替换字段或待增加字段。

可选的，所述第二确定模块406，用于：

从所述各个字段对应的播放时段中获取所述待处理字段对应的播放时段；

获取所述待处理音频对应的音频波形图；

将所述待处理字段对应的播放时段在所述音频波形图中的对应波段，修改为所述目标音频段对应的音频波段，得到所述目标音频。

可选的，所述电子设备40还包括：

第三接收模块，用于接收针对所述待处理文本的第三输入。

第一调整模块，用于响应于所述第三输入，对所述第三输入所指示的待调整字段的字体大小进行调整，得到调整后的待调整字段。

第二调整模块，用于根据所述调整后的待调整字段的字体大小，调整所述待调整字段对应音频的音量大小；其中，所述调整后的待调整字段的字体越大，所述待调整字段对应音频的音量越大。

可选的，所述第一获取模块401，用于：

检测是否存在与所述待处理音频匹配的字幕文件；所述字幕文件包括字幕文本及所述字幕文本中各个字段对应的播放时段；

若存在与所述待处理音频匹配的字幕文件，则将所述字幕文件作为所述待处理音频对应的文本信息；

若不存在与所述待处理音频匹配的字幕文件，则将所述待处理音频中包含的音频转换为文本，并根据所述待处理音频中音频段播放的时间信息，生成所述文本中各个字段对应的播放时段；将所述文本与所述文本中各个字段对应的播放时段，作为所述待处理音频对应的文本信息。

图5为实现本发明各个实施例的一种电子设备的硬件结构示意图；

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器510，用于获取待处理音频对应的文本信息；所述文本信息包括待处理文本及所述待处理文本中各个字段对应的播放时段。

处理器510，用于接收针对所述待处理文本的第一输入。

处理器510，用于响应于所述第一输入，根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段。

处理器510，用于接收针对所述待处理字段的第二输入。

处理器510，用于响应于所述第二输入，获取目标音频段。

处理器510，用于根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频。

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

电子设备500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在电子设备500移动到耳边时，关闭显示面板5061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中，触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与电子设备500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

电子设备500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源611可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备500包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器510，存储器509，存储在存储器509上并可在所述处理器510上运行的音频处理程序，该音频处理程序被处理器510执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有音频处理程序，该音频处理程序被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频处理方法，应用于电子设备，其特征在于，所述方法包括：

接收针对所述待处理文本的第一输入；

接收针对所述待处理字段的第二输入；

根据所述第二输入，获取目标音频段；

2.根据权利要求1所述的方法，其特征在于，所述响应于所述第二输入，获取目标音频段，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二输入，对所述待处理字段进行编辑，得到目标字段，包括：

4.根据权利要求3所述的方法，其特征在于，所述待处理音频为待处理视频中包含的音频；所述接收针对所述待处理文本的第一输入之前，所述方法还包括：

显示预设画面，并在所述预设画面中显示所有的所述待处理文本；或者，显示所述待处理视频的各个视频画面；在所述视频画面中显示与所述视频画面对应的待处理文本；

所述接收针对所述待处理文本的第一输入，包括：

接收对显示的待处理文本的选择输入。

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述目标音频段，对所述待处理字段对应的播放时段处的音频段进行修改，得到目标音频，包括：

获取所述待处理音频对应的音频波形图；

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一输入指示的字段，确定所述待处理文本中的待处理字段之后，所述方法还包括：

接收针对所述待处理文本的第三输入；

响应于所述第三输入，对所述第三输入所指示的待调整字段的字体大小进行调整，得到调整后的待调整字段；

根据所述调整后的待调整字段的字体大小，调整所述待调整字段对应音频的音量大小；其中，所述调整后的待调整字段的字体越大，所述待调整字段对应音频的音量越大。

7.一种电子设备，其特征在于，所述电子设备包括：

第一接收模块，用于接收针对所述待处理文本的第一输入；

第二接收模块，用于接收针对所述待处理字段的第二输入；

第二获取模块，用于根据所述第二输入，获取目标音频段；

8.根据权利要求7所述的电子设备，其特征在于，所述第二获取模块，用于：

9.根据权利要求8所述的电子设备，其特征在于，所述第二获取模块，还用于：

10.根据权利要求9所述的电子设备，其特征在于，所述电子设备还包括：

第一显示模块，用于显示预设画面，并在所述预设画面中显示所有的所述待处理文本；或者，显示所述待处理视频的各个视频画面；在所述视频画面中显示与所述视频画面对应的待处理文本；

所述第一接收模块，还用于：

接收对显示的待处理文本的选择输入。

11.根据权利要求7至10任一所述的电子设备，其特征在于，所述第二确定模块，用于：

获取所述待处理音频对应的音频波形图；

12.根据权利要求7所述的电子设备，其特征在于，所述电子设备还包括：

第三接收模块，用于接收针对所述待处理文本的第三输入；

第一调整模块，用于响应于所述第三输入，对所述第三输入所指示的待调整字段的字体大小进行调整，得到调整后的待调整字段；