CN112102841A

CN112102841A - 一种音频编辑方法、装置和用于音频编辑的装置

Info

Publication number: CN112102841A
Application number: CN202010964002.8A
Authority: CN
Inventors: 张之硕; 郎勇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18
Anticipated expiration: 2040-09-14
Also published as: CN112102841B

Abstract

本发明实施例提供了一种音频编辑方法、装置和用于音频编辑的装置。其中的方法包括：获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。本发明实施例可以实现对音频和其对应文本的联动编辑，提高音频编辑的效率和精准度。

Description

一种音频编辑方法、装置和用于音频编辑的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种音频编辑方法、装置和用于音频编辑的装置。

背景技术

目前，利用录音保存用户需要的语音内容已经很常见，很多应用以及硬件产品还提供将语音转写为对照文本的服务。但是，对于大量的录音内容，并不一定都是用户需要的，例如，对于录制的课程类音频，用户往往只想保存自己感兴趣的部分，以及一些支持上传音频内容的应用，用户在上传之前希望能像编辑文本内容一样对音频内容进行编辑。

然而，在音频编辑的过程中，用户需要反复拖动音频的进度条并收听当前进度的内容，以准确找到需要编辑的时间点，通过反复多次的编辑调整，完成音频编辑的过程。此外，为了能够保证编辑后的音频与转写文字仍然保持对应的关系，需要再对音频对应的文字进行单独编辑，不仅导致音频编辑的过程较为复杂，编辑效率较低，而且难以保证编辑后的音频和文字的对应精度。

发明内容

本发明实施例提供一种音频编辑方法、装置和用于音频编辑的装置，可以实现对音频和其对应文本的联动编辑，提高音频编辑的效率和精准度。

为了解决上述问题，本发明实施例公开了一种音频编辑方法，所述方法包括：

获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；

响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。

可选地，所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

响应对所述文本内容的第一输入，获取所述第一输入在所述文本内容中选中的第一文本；

根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述第一文本对应的第一音频段；

对所述第一文本和所述第一音频段分别执行所述第一输入对应的编辑操作。

可选地，所述关联关系包括时间戳关联关系。

可选地，所述关联关系为时间戳关联关系，所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

响应对所述文本内容的第一输入，在所述文本内容中显示光标位置；

根据所述音频内容和所述文本内容之间的时间戳关联关系，在所述音频内容中确定与所述光标位置的进度相对应的时间点；

响应所述第一输入对应的编辑操作，在所述光标位置插入第二文本，以及在所述时间点插入所述第二文本对应的第二音频段。

可选地，所述在所述光标位置插入第二文本，以及在所述时间点插入所述第二文本对应的第二音频段之后，所述方法还包括：

响应对所述第二音频段的第二输入，设置所述第二音频段的播放参数，所述播放参数包括播放声音、播放速度中的至少一项。

可选地，所述获取待编辑的文本内容之前，所述方法还包括：

对照显示所述音频内容和所述音频内容对应的文本内容；

所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容同步执行所述第一输入对应的编辑操作。

可选地，所述对照显示所述音频内容和所述音频内容对应的文本内容，包括：

对照显示所述音频内容当前的播放进度和所述文本内容当前的显示进度，其中，所述音频内容中的停顿内容在所述文本内容中以预设的空位字符显示。

可选地，所述对照显示所述音频内容当前的播放进度和所述文本内容当前的显示进度之后，所述方法还包括：

响应用于调节所述播放进度或所述显示进度的第三输入，同步更新所述多媒体内容的播放进度和所述对照文本的显示进度。

显示所述音频内容对应的文本内容；

响应对所述文本内容的第一输入，对所述文本内容执行所述第一输入对应的编辑操作；

根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容执行所述第一输入对应的编辑操作。

可选地，所述编辑操作包括如下一项或多项操作：剪切、复制、粘贴、插入、删除、修改、翻译、变声、隐藏。

另一方面，本发明实施例公开了一种音频编辑装置，所述装置包括：

获取模块，用于获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；

编辑模块，用于响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。

可选地，所述编辑模块，包括：

文本获取子模块，用于响应对所述文本内容的第一输入，获取所述第一输入在所述文本内容中选中的第一文本；

音频确定子模块，用于根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述第一文本对应的第一音频段；

编辑子模块，用于对所述第一文本和所述第一音频段分别执行所述第一输入对应的编辑操作。

可选地，所述关联关系包括时间戳关联关系。

可选地，所述关联关系为时间戳关联关系，所述编辑模块，包括：

光标显示子模块，用于响应对所述文本内容的第一输入，在所述文本内容中显示光标位置；

时间点确定子模块，用于根据所述音频内容和所述文本内容之间的时间戳关联关系，在所述音频内容中确定与所述光标位置的进度相对应的时间点；

同步插入子模块，用于响应所述第一输入对应的编辑操作，在所述光标位置插入第二文本，以及在所述时间点插入所述第二文本对应的第二音频段。

可选地，所述装置还包括：

参数设置模块，用于响应对所述第二音频段的第二输入，设置所述第二音频段的播放参数，所述播放参数包括播放声音、播放速度中的至少一项。

可选地，所述装置还包括：

对照显示模块，用于对照显示所述音频内容和所述音频内容对应的文本内容；

所述编辑模块，具体用于响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容同步执行所述第一输入对应的编辑操作。

可选地，所述对照显示模块，具体用于对照显示所述音频内容当前的播放进度和所述文本内容当前的显示进度，其中，所述音频内容中的停顿内容在所述文本内容中以预设的空位字符显示。

可选地，所述装置还包括：

进度调节模块，用于响应用于调节所述播放进度或所述显示进度的第三输入，同步更新所述多媒体内容的播放进度和所述对照文本的显示进度。

可选地，所述装置还包括：

文本显示模块，用于显示所述音频内容对应的文本内容；

所述编辑模块，包括：

第一编辑子模块，用于响应对所述文本内容的第一输入，对所述文本内容执行所述第一输入对应的编辑操作；

第二编辑子模块，用于根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容执行所述第一输入对应的编辑操作。

再一方面，本发明实施例公开了一种用于音频编辑的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

可选地，所述关联关系包括时间戳关联关系。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对照显示所述音频内容和所述音频内容对应的文本内容；

显示所述音频内容对应的文本内容；

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的音频编辑方法。

本发明实施例包括以下优点：

本发明实施例在获取待编辑的文本内容之后，可以响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。其中，待编辑的文本内容为与音频内容关联的文本内容。本发明实施例根据用户对文本内容的编辑操作，对相关联的音频内容执行相应编辑操作，由于在编辑文本时，可以直观地定位需要编辑的位置，用户无需反复拖动音频的进度条并收听当前进度的内容，以准确找到需要编辑的时间点，可以降低音频编辑的难度，提高编辑效率。此外，本发明实施例根据所述音频内容和所述文本内容之间的关联关系，可以实现对文本内容和关联的音频内容的联动编辑，能够保证编辑后的音频与文字仍然保持对应的关系，进而可以保证编辑后的音频和文字的对应精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种音频编辑方法实施例的步骤流程图；

图2是本发明的一种音频编辑装置实施例的结构框图；

图3是本发明的一种用于音频编辑的装置800的框图；

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种音频编辑方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；

步骤102、响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。

本发明实施例提供的方法可应用于电子设备，所述电子设备包括但不限于：服务器、智能手机、录音笔、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

在本发明实施例中，所述音频内容可以是一段连续的语音，例如一个句子、一段话等。本发明实施例对所述音频内容的来源不加以限制。所述音频内容可以来源于任务提醒、课堂笔记、记者采访、会议记录、文学创作、电子日记、歌曲、有声故事等。一个示例中，所述音频内容可以是通过所述电子设备的录音功能实时采集的语音片段；或者，所述音频内容可以是所述电子设备回放的已录制的语音片段，或者，所述音频内容可以是从网络下载的音频文件，如歌曲、有声故事等；或者，所述音频内容还可以是用户通过即时通讯应用输入或发送或接收的语音信息等。

所述待编辑的文本内容为与所述音频内容关联的文本内容，例如，可以是与所述音频内容相匹配的对照文本，所述对照文本可以是对所述音频内容进行语音识别得到的文本信息。在通过所述电子设备播放所述音频内容的过程中，可以对照显示所述音频内容对应的文本内容，以供用户对照查看。

本发明实施例基于所述音频内容和所述文本内容之间的关联关系，通过对文本内容的编辑操作即可实现对音频内容的编辑操作。其中，第一输入可用于触发待编辑的文本内容进入编辑状态，在编辑状态下接收用户对文本内容的编辑操作，本发明实施例根据用户对文本内容的编辑操作，对音频内容执行相应的编辑操作，使得编辑后的文本内容和音频内容仍然保持一致。

可以理解，本发明实施例对所述第一输入的操作类型不加以限制。所述第一输入可以为预设的操作或操作序列，例如，所述第一输入可以包括点击(包括单击、双击、三连击)操作、长按操作、滑动操作、拖拽操作、先选中再右键再点击的操作序列等。

在本发明的一种可选实施例中，步骤101所述获取待编辑的文本内容之前，所述方法还可以包括：

显示所述音频内容对应的文本内容；

步骤102所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

在对所述文本内容执行所述第一输入对应的编辑操作之后，为了保证文本内容和音频内容始终保持一致，本发明实施例根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容也执行所述第一输入对应的编辑操作。

后台在对文本内容执行所述第一输入对应的编辑操作之后，可以自动触发对关联的音频内容执行所述第一输入对应的编辑操作。

可选地，后台在对文本内容执行所述第一输入对应的编辑操作之后，还可以输出询问消息，以提示用户该文本内容存在关联的音频内容，是否需要对该音频内容执行相应的编辑操作。如果接收到用户对该询问消息的同意响应消息，则后台直接对所述音频内容执行所述第一输入对应的编辑操作。

进一步地，在下次播放所述音频内容时，可以输出该音频内容已基于文本内容进行关联修改的提示信息。

需要说明的是，在具体实施中，在接收到对所述文本内容的第一输入的情况下，可以先对文本内容执行所述第一输入对应的编辑操作，再根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容执行相应的编辑操作，或者，还可以对文本内容和音频内容同步执行所述第一输入对应的编辑操作。本发明实施例对此不做限制。为便于描述，本发明实施例中均以对关联的文本内容和音频内容同步执行编辑操作为例进行说明。

对照显示所述音频内容和所述音频内容对应的文本内容；

可选地，在播放音频内容的过程中可以对照显示所述音频内容对应的文本内容，第一输入可用于触发当前正在播放的音频内容以及对照显示的文本内容进入编辑状态。

其中，在编辑状态下，文本内容和音频内容均处于可编辑的状态，且音频内容暂停播放。可选地，本发明实施例可以对当前显示的已有的文本内容进行编辑，并且响应对已有的文本内容的编辑操作，对音频内容同步执行相应的编辑操作；或者，本发明实施例还可以在已有的文本内容中插入新文本，响应在已有的文本内容中插入新文本的编辑操作，在音频内容中的相应位置同步插入与该新文本相对应的新音频段。

在本发明的一种可选实施例中，所述编辑操作可以包括如下一项或多项操作：剪切、复制、粘贴、插入、删除、修改、翻译、变声、隐藏。

其中，剪切、复制、粘贴、删除、修改、翻译、变声、隐藏等操作是对当前显示的已有的文本内容的编辑操作。例如，对所述文本内容中的选中文本进行剪切、复制、粘贴、删除、修改、翻译、变声、隐藏等，同时，在所述音频内容中对所述选中文本对应的音频段进行剪切、复制、粘贴、删除、修改、翻译、变声、隐藏等。插入操作是指在已有的文本内容中插入新文本，并且在音频内容中的相应位置同步插入与该新文本相对应的新音频段。

一个示例中，响应第一输入，暂停播放音频内容，且音频内容和文本内容进入编辑状态。在编辑状态下，接收到用户对文本内容中某句话的删除操作，则在文本内容中删除该句话，并且在音频内容中删除与该句话相对应的音频段。可以理解，上述列举的编辑操作仅作为本发明实施例的应用示例，本发明实施例对编辑操作的具体类型不加以限制。

本发明实施例通过编辑文本即可实现对音频的同步编辑，在编辑文本时，可以直观地定位需要编辑的位置，用户无需反复拖动音频的进度条并收听当前进度的内容，以准确找到需要编辑的时间点。此外，本发明实施例根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容同步执行所述第一输入对应的编辑操作，能够保证编辑后的音频与文字仍然保持对应的关系，无需再对音频对应的文字进行单独编辑，不仅可以降低音频编辑的难度，提高编辑效率，而且可以保证编辑后的音频和文字的对应精度。

在本发明的一种可选实施例中，步骤102所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

步骤S11、响应对所述文本内容的第一输入，获取所述第一输入在所述文本内容中选中的第一文本；

步骤S12、根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述第一文本对应的第一音频段；

步骤S13、对所述第一文本和所述第一音频段分别执行所述第一输入对应的编辑操作。

步骤S11～步骤S13为对当前显示的已有的文本内容进行编辑，并且对音频内容同步执行相应的编辑操作的具体过程。首先，响应对所述文本内容的第一输入，获取所述第一输入在所述文本内容中选中的第一文本。选中的第一文本可以为段落、句子、短语、字词等。

根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述第一文本对应的第一音频段。可选地，本发明实施例可以在所述音频内容的播放界面中对所述第一文本以及所述第一音频段进行突出显示，以使用户可以对照查看待执行编辑操作的第一文本和第一音频段之间的对应关系。

在本发明实施例中，所述关联关系可以包括时间戳关联关系。当然，本发明实施例对所述音频内容和所述文本内容之间关联关系的具体类型不做限制。

进一步地，本发明实施例可以建立所述音频内容的总时长与所述文本内容的总长度之间的对应关系。这样，根据第一文本在所述文本内容中的位置，以及所述音频内容的总时长与所述文本内容的总长度之间的对应关系，可以确定所述第一文本对应所述音频内容中的时间点，根据该时间点以及第一文本的长度，即可在所述音频内容中确定所述第一文本对应的第一音频段。

假设音频内容的总时长为T(秒)，文本内容的总长度为L(字节)，在确定了文本内容中选中的第一文本的位置p的情况下，即可确定该位置在音频内容中对应的时间点t。具体计算过程如下：

t＝(p×T)/L (1)

需要说明的是，文本内容中选中的第一文本的位置p可以为第一文本中第一个字的位置。

在本发明的一种可选实施例中，步骤S13所述对所述第一文本和所述第一音频段分别执行所述第一输入对应的编辑操作，包括：

步骤S131、显示编辑菜单，所述编辑菜单中包括菜单项；

步骤S132、响应对所述编辑菜单中目标菜单项的触发操作，对所述第一文本和所述第一音频段分别执行所述目标菜单项对应的编辑操作。

一个示例中，响应第一输入，获取所述第一输入在所述文本内容中选中的第一文本，并且根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述第一文本对应的第一音频段。

在选中第一文本之后，可以显示编辑菜单。可选地，可以在接收到选中第一文本的操作之后自动弹出编辑菜单，或者，可以在接收到用于触发显示编辑菜单的预设操作(如右键操作等)之后，响应该预设操作，弹出编辑菜单。所述编辑菜单中包括菜单项，每个菜单项对应一个编辑操作。可以理解，本发明实施例对所述编辑菜单的具体形式不加以限制。例如，所述编辑菜单可以是浮窗、气泡栏等形式。

响应对所述编辑菜单中目标菜单项的触发操作，对所述第一文本和所述第一音频段分别执行所述目标菜单项对应的编辑操作。例如，在选中第一文本之后，显示编辑菜单，编辑菜单中包括如下菜单项：“复制”、“粘贴”、“翻译”、“隐藏”、“删除”等。假设接收到对该编辑菜单中目标菜单项为“删除”的触发操作，对所述第一文本和所述第一音频段分别执行所述目标菜单项对应的编辑操作。具体地，在文本内容中删除第一文本，以及在音频内容中删除第一音频段。

又一个示例中，假设接收到对编辑菜单中目标菜单项为“翻译”的触发操作，则将所述第一文本翻译为目标语言的翻译后文本，并且在第一文本的相关位置显示该翻译后文本。所述相关位置可以为第一文本之后，例如，显示第一文本之后即显示该翻译后文本。在接收到对编辑菜单中目标菜单项为“翻译”的触发操作之后，同步对所述第一文本对应的第一音频段执行翻译操作，得到第一音频段对应的翻译后音频段，并且将翻译后音频段插入在第一音频段的相关位置，如第一音频段之后。其中，翻译后音频段可以通过对翻译后文本进行语音合成得到。

可选地，所述目标语言可以预先设置，还可以在接收到对编辑菜单中目标菜单项为“翻译”的触发操作之后，显示用于设置翻译语言的菜单，以实时设置目标语言。

在本发明的一种可选实施例中，所述关联关系为时间戳关联关系，步骤102所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

步骤S21、响应对所述文本内容的第一输入，在所述文本内容中显示光标位置；

步骤S22、根据所述音频内容和所述文本内容之间的时间戳关联关系，在所述音频内容中确定与所述光标位置的进度相对应的时间点；

步骤S23、响应所述第一输入对应的编辑操作，在所述光标位置插入第二文本，以及在所述时间点插入所述第二文本对应的第二音频段。

步骤S21～步骤S23为在已有的文本内容中插入新文本，并且在音频内容中的相应位置同步插入与该新文本相对应的新音频段的具体过程。

其中，第二文本指在已有的文本内容中插入的新文本，第二音频段为所述第二文本对应的音频段，也即在已有的音频内容中插入的新音频段。所述第二音频段可以通过对第二文本进行语音合成得到。需要说明的是，插入的新文本可以是实时输入的文本，也可以是复制或剪切的文本等。

一个示例中，响应对所述文本内容的第一输入(如点击操作)，在所述文本内容中显示光标位置，点击操作的位置即为光标位置。响应用于触发显示编辑菜单的预设操作(如右键操作)，弹出编辑菜单。假设接收到对编辑菜单中目标菜单项为“插入”的触发操作，在所述光标位置插入用户实时输入的第二文本。

可选地，所述在所述音频内容中确定与所述光标位置的进度相对应的时间点之后，所述方法还可以包括：在所述音频内容的播放进度条中显示所述时间点。

可选地，本发明实施例可以在所述音频内容的播放界面中对所述光标位置以及所述时间点进行对照显示，以使用户可以对照查看待插入的第二文本和待插入的第二音频段之间的对应关系。进一步地，在接收到对所述光标位置的移动操作的情况下，响应该移动操作，移动所述文本内容中的光标位置，同时，根据所述光标位置的改变，更新所述播放界面中显示的该光标位置对应的音频内容的时间点。

又一个示例中，响应第一输入(如选择操作)，获取所述第一输入在所述文本内容中选中的第一文本。响应用于触发显示编辑菜单的预设操作(如右键操作)，弹出编辑菜单。假设接收到对编辑菜单中目标菜单项为“复制”的触发操作，将第一文本复制在剪贴板中，并且根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述第一文本对应的第一音频段，将第一音频段复制在剪贴板中。接下来，响应移动光标的操作，在文本内容中移动光标位置，并且在所述文本内容中显示光标位置。响应用于触发显示编辑菜单的预设操作(如右键操作)，弹出编辑菜单。假设接收到对编辑菜单中目标菜单项为“粘贴”的触发操作，则在光标位置插入第二文本(也即剪贴板中的第一文本)，以及根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定与所述光标位置的进度相对应的时间点，在所述时间点插入该第二文本对应的第二音频段(也即剪贴板中的第一音频段)。

可选地，编辑菜单中各菜单项对应的编辑操作可以设置有快捷键。例如，复制操作的快捷键为同时按住“Ctrl”键和“C”键。粘贴操作的快捷键为同时按住“Ctrl”键和“V”键等。例如，在接收到用户同时按住“Ctrl”键和“C”键的操作时，可以认为接收到用户对编辑菜单中目标菜单项为“复制”的触发操作。

可以理解，上述基于预设的编辑菜单对文本内容和音频内容触发执行编辑操作，仅作为本发明的一种应用示例，本发明实施例对具体的触发方式不做限制。例如，还可以通过语音助手接收用于触发编辑操作的语音指令，或者通过电子设备的触摸屏接收用于触发编辑操作的预设手势，或者通过后台进行自动触发等。

在本发明的一种可选实施例中，步骤S23所述在所述光标位置插入第二文本，以及在所述时间点插入所述第二文本对应的第二音频段之后，所述方法还可以包括：

在所述音频内容中插入第二音频段之后，还可以设置第二音频段的播放参数，例如设置第二音频段的播放声音、播放速度等。其中，播放声音可以为系统提供的预设声音，或者，还可以为所述音频内容的原始声音。

可选地，在所述音频内容中插入第二音频段之后，可以接收用于设置播放参数的第二输入，响应第二输入，可以显示参数设置菜单。所述参数设置菜单中可以包括设置项，通过触发不同的设置项进入不同的参数设置界面。例如在设置播放声音的参数设置界面中，可以选择不同的播放声音。在设置播放速度的参数设置界面中，可以设置不同的播放速度等。

可选地，本发明实施例除了可以对插入的第二音频段设置播放参数，还可以对所述音频内容中原有的任意音频段设置播放参数。进一步地，设置所述音频内容中任意音频段的播放参数，可以通过对文本内容的选择操作或者通过对音频内容的选择操作，选择需要设置播放参数的音频段。

一个示例中，响应对所述文本内容的选择操作，获取在所述文本内容中选中的待设置文本，根据所述音频内容和所述文本内容之间的关联关系，在所述音频内容中确定所述待设置文本对应的待设置音频段。响应用于触发显示参数设置菜单的预设操作，弹出参数设置菜单，通过该参数设置菜单设置待设置音频段的播放参数。

所述待设置文本可以是所述文本内容中的已有文本或者所述文本内容中插入的新文本，插入的新文本可以是实时输入的新文本、粘贴的新文本、插入的翻译后文本等。

在本发明的一种可选实施例中，所述对照显示所述音频内容对应的文本内容，包括：

具体地，本发明实施例在通过所述电子设备播放所述音频内容的过程中，根据所述音频内容和所述文本内容之间的关联关系，可以对照显示所述音频内容当前的播放进度和所述文本内容当前的显示进度，以供用户对照查看。

在实际应用中，音频内容中通常会存在停顿内容，为了使得音频内容的播放进度和文本内容的显示进度相对应，本发明实施例在播放到音频内容中的停顿内容时，在文本内容中显示预设的空位字符。

其中，空位字符可以是预设符号，如空格、省略号等。通过在文本内容中显示空位字符，可以提示用户音频内容中对应为停顿内容。进一步地，通过在文本内容中显示空位字符，使得用户可以对空位字符执行编辑操作，进而可以对音频内容中的停顿内容执行相应的编辑操作。例如，通过删除文本内容中的空位字符，可以删除音频内容中的停顿内容。又如，通过修改文本内容中的空位字符，可以修改音频内容中的停顿内容等。

在本发明的一种可选实施例中，所述对照显示所述音频内容当前的播放进度和所述文本内容当前的显示进度之后，所述方法还可以包括：

本发明实施例在播放音频内容的过程中，对照显示所述音频内容当前的播放进度和所述文本内容当前的显示进度。音频内容当前的播放进度和所述文本内容当前的显示进度之间具有关联关系，调整其一即可实现对二者的同步更新。

在播放所述音频内容的过程中，可以接收用于调节所述音频内容当前的播放进度和所述文本内容当前的显示进度的第三输入。可以理解，本发明实施例对所述第三输入的操作类型不加以限制。例如，所述第三输入可以为针对所述音频内容的进度条的拖动、点击等操作，以调节音频内容当前的播放进度；或者，所述第三输入可以为针对所述文本内容的拖动、点击等操作，以调节所述文本内容当前的显示进度。

在接收到第三输入后，本发明实施例可以获取所述第三输入的调节进度。例如，获取拖动音频内容的进度条后的当前播放进度，或者，获取拖动文本内容后的当前显示进度。此外，本发明实施例还可以建立所述音频内容的总时长与文本内容的总长度之间的对应关系，进而可以得到所述音频内容和所述文本内容之间的关联关系，这样，在接收到用于调节所述播放进度或所述显示进度的第三输入时，可以根据调节后的进度以及所述关联关系，对音频内容的播放进度和文本内容的显示进度进行同步更新，以避免当前播放的音频内容和当前显示的文本不对应的情况发生。

在本发明的一种可选实施例中，所述对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作之后，所述方法还可以包括：导出编辑后的音频内容以及编辑后的文本内容。

其中，编辑后的音频内容以及编辑后的文本内容指原始的音频内容和原始的文本内容已被修改。例如，在音频内容中删除第一音频段以及在文本内容中删除第一文本之后，导出编辑后的音频内容以及编辑后的文本内容，则导出的编辑后的音频内容中已删除第一音频段，以及导出的编辑后的文本内容中已删除第一文本。

可选地，本发明实施例对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作之后，还可以保存编辑后的音频内容以及编辑后的文本内容对应的源文件。

所述源文件中可以保存有原始未修改的音频内容和文本内容，以及保存有已编辑的状态。由此，可以保持所述音频内容和所述文本内容的完整性，在下次打开该源文件的时候，可以显示所述音频内容和所述文本内容未修改的原始内容，以及显示已编辑的状态，以使用户可以在当前已编辑的状态的基础上继续执行编辑操作。

综上，本发明实施例在获取待编辑的文本内容之后，可以响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。其中，待编辑的文本内容为与音频内容关联的文本内容。本发明实施例根据用户对文本内容的编辑操作，对相关联的音频内容执行相应编辑操作，由于在编辑文本时，可以直观地定位需要编辑的位置，用户无需反复拖动音频的进度条并收听当前进度的内容，以准确找到需要编辑的时间点，可以降低音频编辑的难度，提高编辑效率。此外，本发明实施例根据所述音频内容和所述文本内容之间的关联关系，可以实现对文本内容和关联的音频内容的联动编辑，能够保证编辑后的音频与文字仍然保持对应的关系，进而可以保证编辑后的音频和文字的对应精度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种音频编辑装置实施例的结构框图，所述装置可以包括：

获取模块201，用于获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；

编辑模块202，用于响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。

可选地，所述编辑模块202，包括：

可选地，所述编辑子模块，包括：

菜单显示单元，用于显示编辑菜单，所述编辑菜单中包括菜单项；

编辑单元，用于响应对所述编辑菜单中目标菜单项的触发操作，对所述第一文本和所述第一音频段分别执行所述目标菜单项对应的编辑操作。

可选地，所述关联关系包括时间戳关联关系。

可选地，所述装置还包括：

文本显示模块，用于显示所述音频内容对应的文本内容；

所述编辑模块，包括：

本发明实施例根据用户对文本内容的编辑操作，对相关联的音频内容也执行所述编辑操作，由于在编辑文本时，可以直观地定位需要编辑的位置，用户无需反复拖动音频的进度条并收听当前进度的内容，以准确找到需要编辑的时间点，可以降低音频编辑的难度，提高编辑效率。此外，本发明实施例根据所述音频内容和所述文本内容之间的关联关系，可以实现对文本内容和关联的音频内容的联动编辑，能够保证编辑后的音频与文字仍然保持对应的关系，进而可以保证编辑后的音频和文字的对应精度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于音频编辑的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。

图3是根据一示例性实施例示出的一种用于音频编辑的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以音频编辑装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的音频编辑方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种音频编辑方法，所述方法包括：获取待编辑的文本内容，所述文本内容为与音频内容关联的文本内容；响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种音频编辑方法、一种音频编辑装置和一种用于音频编辑的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频编辑方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

3.根据权利要求1所述的方法，其特征在于，所述关联关系包括时间戳关联关系。

4.根据权利要求3所述的方法，其特征在于，所述关联关系为时间戳关联关系，所述响应对所述文本内容的第一输入，根据所述音频内容和所述文本内容之间的关联关系，对所述音频内容和所述文本内容执行所述第一输入对应的编辑操作，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述光标位置插入第二文本，以及在所述时间点插入所述第二文本对应的第二音频段之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述获取待编辑的文本内容之前，所述方法还包括：

对照显示所述音频内容和所述音频内容对应的文本内容；

7.根据权利要求6所述的方法，其特征在于，所述对照显示所述音频内容和所述音频内容对应的文本内容，包括：

8.一种音频编辑装置，其特征在于，所述装置包括：

9.一种用于音频编辑的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的音频编辑方法。