CN114915836A

CN114915836A - 用于编辑音频的方法、装置、设备和存储介质

Info

Publication number: CN114915836A
Application number: CN202210489421.XA
Authority: CN
Inventors: 郑炜明; 楚书廷; 黄攀; 王进进
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-16
Also published as: WO2023213314A1

Abstract

根据本公开的实施例，提供了音频编辑的方法、装置、设备和存储介质。该方法包括：呈现与音频对应的文本；响应于检测到针对文本的第一预定输入，基于与第一预定输入相关联的第一位置来确定文本的多个文本分段；以及至少部分地基于多个文本分段，启用对音频的分段编辑。以此方式，可以通过划分文本来对音频进行分段编辑。

Description

用于编辑音频的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体上涉及音频处理领域，并且特别地，涉及用于编辑音频的方法、装置、设备和计算机可读存储介质。

背景技术

音频数据是日常生活、工作和社交中常见的信息载体。人们可以通过生产和获得音频数据来传播信息和内容。为了输出高质量的音频，期望对音频数据执行各种编辑操作，诸如，变速、降噪、调节音量和音色等等。在一些情况下，还期望能够对一段音频的不同部分进行多元化、差异性的编辑，以丰富视听体验。

发明内容

根据本公开的示例实施例，提供了一种用于编辑音频的方案，以帮助用户基于文本对音频进行分段编辑。

在本公开的第一方面，提供了一种用于编辑音频的方法。该方法包括：呈现与音频对应的文本；响应于检测到针对文本的第一预定输入，基于与第一预定输入相关联的第一位置来确定文本的多个文本分段；以及至少部分地基于多个文本分段，启用对音频的分段编辑。

在本公开的第二方面，提供了一种用于编辑音频的装置。该装置包括：文本呈现模块，被配置为呈现与音频对应的文本；分段确定模块，被配置为响应于检测到针对文本的第一预定输入，基于与第一预定输入相关联的第一位置来确定文本的多个文本分段；以及分段编辑模块，被配置为至少部分地基于多个文本分段，启用对音频的分段编辑。

在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，程序被处理器执行时实现第一方面的方法。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的用于编辑音频的过程的流程图；

图3A至图3I示出根据本公开的一些实施例的用于编辑音频的用户界面的交互示例的示意图；

图4A和图4B示出了根据本公开的一些实施例的用于编辑音频的用户界面的交互示例的示意图；

图5示出了根据本公开的一些实施例的用于编辑音频的过程的流程图；

图6A至图6E示出根据本公开的一些实施例的用于编辑音频的用户界面的交互示例的示意图；

图7示出了根据本公开的一些实施例的用于音频编辑的装置的框图；以及

图8示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限制性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式，例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其他满足相关法律法规的方式也可应用于本公开的实现方式中。

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，终端设备110中安装有应用112，用于对音频114进行编辑。例如，应用112可以基于用户102的操作对音频114进行编辑。应用112可以是音视频编辑应用或具有音视频编辑功能的内容共享应用，其能够向用户102提供与多媒体内容消费相关服务，包括多媒体内容的创作(例如，拍摄和/或编辑)、发布等等。在本文中，要编辑的音频114可以采用任何音频格式，并且可以具有任何适当的时长。作为示例，音频114可以是播客、短视频对应的音频、广播剧、有声书、会议或访谈录音、有声课程、录音笔记等等。

在一些实施例中，音频114可以由音频采集设备105(例如，具有麦克风的设备)采集，并且被提供到应用112进行编辑。例如，音频采集设备105可以从至少用户104采集音频。在一些实施例中，应用112可以提供音频录制功能，用于录制经由音频采集设备105采集的音频114。在一些实施例中，应用112所编辑的音频114可以来自任何其他数据源，例如可以是从其他设备下载或接收到的音频114。本公开的实施例在此方面不受限制。

可以理解，虽然示出对音频114进行编辑操作的用户102和输出音频114的用户104，但这些用户可以是相同用户，这在本文中不做限制。还可以理解，虽然被示出为分离的设备，但音频采集设备105可以与终端设备110集成。在其他实现中，音频采集设备105可以以其他方式与终端设备110通信连接以提供所采集的音频114。

终端设备110可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。在一些实施例中，终端设备110也能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

在一些实施例中，终端设备110可以与远端的计算设备122通信，以实现对音频数据114的编辑和处理。举例而言，计算设备122可以提供对音频数据114的存储功能、语音识别、特定分析任务等等，以扩展终端设备110的存储和处理能力。计算设备122可以是能够提供计算能力的各种类型的计算系统/服务器，包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。在图1示出的示例中，计算设备122可以位于云环境120中。

应当理解，仅出于示例性的目的描述环境100的结构和功能，而不暗示对于本公开的范围的任何限制。例如，终端设备110可以不与远端的计算设备122通信。又例如，用户104和音频采集设备105也可以从环境100中省略，等等。

在传统的音频编辑场景中，受限于录制设备、环境噪音等因素或是出于丰富视听体验的目的，用户可能需要将音频分割为音频分段以在局部进行诸如音量调节、速度调节(例如，变速)等编辑。音频的波形图可以用来表征音频数据随时间的变化。然而，用户无法通过波形图了解各时间单位(例如，时刻或时间段)的具体内容，也很难直接从波形图上定位出需要编辑的音频分段。一种简单的方式是播放整段音频，由用户手动记录需要编辑的音频分段所对应的时间单位，进而逐段进行编辑。有时用户需要反复播放音频才能确定音频分段的时间单位。显然，这种方式大大降低了编辑效率，增加了时间成本，且手动定位的精确度较差。

随着语音识别技术的发展，当前已经能够将自然语音转换成文本，诸如，文字。特别地，利用自动语音识别(ASR)技术，甚至可以在录制音频时实时地将音频转换为对应的文本。这样，用户可以基于文本直观地了解每段音频的具体内容。如果能够借助于文本实现对音频的局部编辑，将大大简化音频编辑流程。

本公开的实施例提出了一种用于编辑音频的方案。在该方案中，音频被转化为对应的文本，通过建立音频时间戳与文本在用户界面中的呈现位置之间的关联，可以基于对文本的分割来启用对音频的分段编辑。例如，用户可以通过操作文本分段来编辑音频的对应部分，而不是全部音频。在一些情况下，音频时间戳可以精确到字或词级别。由此，可以快速而准确地定位、编辑音频分段，显著提升了编辑效率，节约了编辑音频的时间成本。此外，该方案可以简化音频编辑流程，降低对录制环境、录制设备、音频编辑工具的要求。

在下文描述中将参考若干用户界面(UI)的示例状态来描述实施例。这些UI中包括的控件可以用任何目前已知或者将来开发的UI元素和技术来实现。此外，这些控件的类型、形式、操作方式、在UI中的布局、排列等都是示意性的，并且无意以任何形式限制本公开的范围。

图2示出了根据本公开的一些实施例的用于编辑音频的过程200的流程图。过程200可以在终端设备110处实现，当然，也可以在任何适当的设备处实现。为了便于讨论，将参考图1的环境100并结合图3A至3I来描述过程200。

在框210，终端设备110呈现与音频114对应的文本。在一些实施例中，文本可以被呈现在应用112的用户界面中。下面参考图3A，其示出了用于音频编辑的用户界面300的示意图。

在图3A的示例中，音频114的时长为一分钟(即，从00:00至00:59)，与音频114对应的文本被识别为“今天来讲讲发明专利申请文件的撰写。在申请发明专利的时候，要准备说明书、摘要、权利要求书，一般还需要有附图。我们都知道说明书和附图的作用是为了全面、完整、清楚地描述申请人要保护的发明。权利要求是最重要、最核心的部分，关系到专利保护的范围，所以这个部分后面我们我们我们还要作为专题来探讨。”。应当理解，出于说明的目的，在本公开的附图中呈现了特定的音频的声波表征和文本，但这不构成对本公开的实施例的任何限制。

在图3A所示的用户界面300中，与音频114对应的文本被呈现在区域310中。用户界面300还可以呈现与音频114相关联的音频信息(也称为音频114的关联信息)，包括但不限于，音频114的声波表征320(例如，波形图)以及时间长度信息330。如图3A所示，定位符322可以用于指示与当前播放的音频单元对应的声波表征320中的位置。作为示例，在播放音频时，可以随时间突出呈现当前被播放的文本单元(例如，字、词或标点符号)，并且利用定位符322来指示波形图上与该文本单元对应的波形。突出呈现的方式可以包括突出显示文本单元，例如，用亮色渲染文本单元的背景、改变文本单元的颜色、在文本单元下添加用于指示的下划线或圆点等等。当然，其他突出呈现的方式也适用于本公开的实施例，因此，本公开的范围在这方面不受限制。在其他实施例中，用户界面300也可以不呈现这些音频信息中一者或多者或者呈现除这些音频信息之外的其他信息。

用户界面300还可以提供用于编辑音频的一个或多个编辑控件。在图3A中示意性地示出了“分割”控件340、“音量调节”控件342、“一键去水”控件344、“变速”控件346以及“删除”控件348。当然，在实际应用中，可以根据需求提供更多或更少的编辑控件。

“分割”控件340用于将与音频114对应的文本分割为多个文本分段，以用于对音频进行分段式编辑。在本文中，术语“分段式编辑”或“分段编辑”是指通过操作文本分段来编辑音频的对应部分，例如音频分段，而不是编辑整段音频。与音频分段对应的文本分段可以被独立地呈现在区域310中，并且基于对各个文本分段的选择可以实现针对相应音频分段的全局编辑。例如，可以针对选择的音频分段进行音量调节、一键去水、变速或删除，这将在下文进行详细描述。

“一键去水”控件344用于删除音频114或音频114的音频分段中不期望出现的字或词。在本文中，这类的字或词可以被称为“无效字符”、“无效词”、“水词”或“废词”等等，并且可以是任意尺寸的文本单元，例如单个字、词或词组，这可能取决于所识别的自然语言。在一些实施例中，不期望出现的字或词可以是对于音频114的内容无意义或者重复的字或词，例如，口语表达中出现的“啊”、“额”等语气词，或者“这个”、“那个”之类的口头禅。在一些实施例中，不期望出现的字或词可以是敏感词或违规词。在不同应用场景下的敏感词和违规词可能不同，这可以根据需要确定和设置。

“音量调节”控件342用于调节音频114或音频114的音频分段的音量，包括增加音量、减小音量等等。“变速”控件346用于调节音频114或音频114的音频分段的速度，包括加速、减速等等。“删除”控件348用于删除音频114或者音频114的音频分段。用户界面300还呈现“暂停”控件350和“播放”控件之一。具体地，对“暂停”控件350的激活可以从对应位置停止播放音频114，而对“暂停”控件350的解激活可以激活“播放”控件(在附图中被示为“播放”控件352)，以从对应位置播放音频114。

在本文中，对功能的启用可以包括，例如激活相应功能的用户界面控件，对功能的禁用可以包括解激活或者灰化相应控件，使其不可操作。

在本公开的实施例中，从音频114识别的对应文本用于辅助对音频114的编辑。在一些实施例中，可以利用ASR技术识别与音频114对应的文本。语音识别可以在终端设备110处执行。在其他实施例中，语音识别可以由远端的计算设备，例如环境100中的计算设备122来执行。例如，用户104可以将录制的音频上传至计算设备122，或者在获得音频114之后由用户102上传至计算设备122，并且终端设备110可以从计算设备122接收所识别的文本。

在框220，终端设备110检测针对文本的第一预定输入。在一些实施例中，针对文本的预定输入可以对应于在用户界面300内对文本中的位置或文本单元的选择。作为示例，第一预定输入的方式可以包括但不限于，长按、单击、双击等等。例如，预定输入可以是针对文本中的文本单元或文本单元之间的位置的点击或点触。

在其他实施例中，第一预定输入可以包括对“暂停”控件350的激活。例如，响应于音频114播放至第一位置时，“暂停”控件350被激活，则终端设备110检测到第一预定输入。

响应于检测到针对文本的第一预定输入，在框230，终端设备110基于与第一预定输入相关联的第一位置来确定文本的多个文本分段。作为示例，多个文本分段至少包括第一文本分段和第二文本分段。在本文中，第一位置可以是文本中的相对位置，也可以是用户界面300上的位置，其可以利用坐标信息来表征。

下面参考图3B，其示出了用于音频编辑的用户界面300的交互示例的示意图。在图3B的示例中，针对文本中的文本单元“我”字的第一预定输入被检测到。相应地，在用户界面300中可以突出呈现与第一预定输入相关联的第一位置，即文本单元“我”字的背景。附加地，定位符322可以被定位在声波表征320中与第一位置对应的音频单元的波形处，例如，对应于00:09处的波形。

在一些实施例中，文本可以相对于第一位置被划分为多个文本分段。例如，文本在第一位置之前的部分“今天来讲讲发明专利申请文件的撰写。在申请发明专利的时候，要准备说明书、摘要、权利要求书，一般还需要有附图。”可以被划分为第一文本分段，并且在第一位置之后的部分“我们都知道说明书和附图的作用是为了全面、完整、清楚地描述申请人要保护的发明。权利要求是最重要、最核心的部分，关系到专利保护的范围，所以这个部分后面我们我们我们还要作为专题来探讨。”可以被划分为第二文本分段。

但是，应当理解，在本文中对“第一”、“第二”等词语的使用仅仅为了在不同元素、对象、目标、单元之间进行区分，而不暗示这些元素、对象、目标、单元在时间、空间、优先级上的顺序或差异。例如，在其他实施例中，也可以将文本在第一位置之前的部分划分为第二文本分段，而将第一位置之后的部分划分为第一文本分段。

继续参考图2，在框240，终端设备110至少部分地基于多个文本分段，启用对音频114的分段编辑。在本公开的实施例中，术语“启用”包括激活用户界面上相应功能的元素或者控件。

作为框240的示例实现，终端设备110可以在用户界面300上呈现第一文本分段，并且记录第一文本分段中的各文本单元在用户界面300上的呈现位置与对应的各音频单元在音频114中的时间戳之间的关联。在本文中，呈现位置可以是第一文本分段中的各文本单元在文本中的相对位置，也可以利用用户界面300中的坐标信息来表征。

在一些实施例中，终端设备110确定第一文本分段中与第一位置对应的第一文本单元。基于第一文本单元的呈现位置和记录的关联，终端设备110可以确定与第一文本单元对应的第一音频单元在音频中的第一时间戳。终端设备110可以根据第一时间戳来对音频114进行分段编辑。

在一些实施例中，对音频114的分段编辑可以由用户输入触发。下面参考图3C，其示出了针对分段编辑的示例用户输入的示意图。如图3C所示，用户可以通过点击或点触“分割”控件340的按钮来启用对音频114的分段编辑。出于说明的目的，在图3C和后续一些实施例及附图中示出了基于触控手势的用户输入。但是，应当理解，取决于终端设备110的能力，可以存在接收用户输入的其他方式，诸如鼠标选中、语音控制等等。本公开的范围在此方面不受限制。

在其他实施例中，对音频114的分段编辑也可以由第一预定输入触发。例如，响应于检测到第一预定输入为针对第一位置处的长按，终端设备110可以在确定多个文本分段后直接启用用于音频114的至少一个音频分段的编辑功能，而无需针对“分割”控件340的用户输入。

终端设备110可以将文本的多个文本分段分别呈现在独立区域中。在一些实施例中，终端设备110可以将多个文本分段中的第一文本分段独立地呈现在用户界面300的第一区域中，其中第一文本分段对应于音频114中的第一音频分段。类似地，第二文本分段可以被独立地呈现在用户界面300的第二区域中，其中第二文本分段对应于音频114中的第二音频分段。如图3D所示，第一文本分段和第二文本分段分别独立地呈现在用户界面300的第一区域312和第二区域314中。在一些实施例中，第一区域312和第二区域314可以采用各种呈现样式，包括但不限于，卡片、气泡、窗口等等。

附加地或备选地，在独立区域中还可以呈现相应音频分段的时间长度信息。作为示例，第一区域312中呈现第一音频分段的时间长度信息332，并且第二区域314中呈现第二音频分段的时间长度信息334。

下面结合图3E至图3G详细描述过程200中的框220至240的备选实现方式。除了上文讨论的针对文本中的单个位置或文本单元的选择之外，针对文本的预定输入还可以对应于在用户界面300内对文本中的多个连续文本单元的选择。

在一些实施例中，响应于除第一预定输入外还检测到第二预定输入，终端设备110基于第一位置以及与第二预定输入相关联的第二位置，确定文本的第一文本分段、第二文本分段、以及第三文本分段，其中第二文本分段可以处于第一文本分段和第三文本分段之间，并且由第一位置和第二位置限定。

作为示例，终端设备110可以在检测到第一预定输入之后的预定时段(例如，若干秒内)内针对第二预定输入进行检测。如果终端设备110在该预定时段内检测到第二预定输入，则第一位置和第二位置可以用于确定文本的多个文本分段。如图3E所示，除了针对文本单元“我”字的第一预定输入，终端设备110还检测到针对文本单元“明”的第二预定输入。相应地，可以在用户界面300中可以突出呈现第一位置和第二位置。

在一些实施例中，对文本中的多个连续文本单元的选择可以包括长按拖动手势等等。如图3F所示，第一预定输入对应于在第一位置处长按拖动，第二预定输入对应于在第二位置处解除长按状态。通过这种方式，可以选中文本中位于第一位置和第二位置之间的连续文本单元。相应地，可以在用户界面300中可以突出呈现选中的连续文本单元。

与第一位置的定义类似，第二位置可以是文本单元在文本中的相对位置，也可以利用用户界面300中的坐标信息来表征。在图3E和图3F的示例中，终端设备110可以基于第一位置和第二位置，将第一位置之前的部分“今天来讲讲发明专利申请文件的撰写。在申请发明专利的时候，要准备说明书、摘要、权利要求书，一般还需要有附图。”划分为第一文本分段，将第一位置之后且第二位置之前的部分“我们都知道说明书和附图的作用是为了全面、完整、清楚地描述申请人要保护的发明。”划分为第二文本分段，并将第二位置之后的部分，即“权利要求是最重要、最核心的部分，关系到专利保护的范围，所以这个部分后面我们我们我们还要作为专题来探讨。”划分为第三文本分段。

附加地或备选地，在检测到第一预定输入和第二预定输入的情况下，定位符322可以被定位在声波表征320中与第一位置对应的音频单元的波形处，并且定位符324可以被定位在声波表征320中与第二位置对应的音频单元的波形处。

图3G示出了根据本公开的一些实施例的用于图3E至图3F所示的用户界面300的交互示例的示意图。如图3G所示。用户可以通过点击或点触“分割”控件340的按钮来触发对音频114的分段编辑。在图3G的示例中，终端设备110可以将第一文本分段、第二文本分段和第三文本分段分别呈现用户界面300的独立区域中，例如，第一区域312、第二区域314以及第三区域316。如前所述，独立区域可以采用各种呈现样式，包括但不限于，卡片、气泡、窗口等等。

附加地或备选地，在独立区域中还可以呈现相应音频分段的时间长度信息。作为示例，第一区域312中呈现第一音频分段的时间长度信息332，第二区域314中呈现第二音频分段的时间长度信息334，并且第三区域316中呈现第三音频分段的时间长度信息336。

附加地或备选地，在一些实施例中，在多个文本分段被确定之后，“暂停”控件350可以被激活，并且用户界面300可以呈现“播放”控件352的按钮。

在分段编辑被启用之后，可以针对音频114的一个或多个音频分段进行全局编辑。例如，终端设备110可以基于对独立区域的输入来编辑相应的音频分段。

以第一区域312为例，在一些实施例中，终端设备110可以基于针对第一区域312的输入来编辑第一音频分段。针对第一区域312的输入可以包括对第一区域312的选择。图3H示出了根据本公开的一些实施例的用于图3D所示的用户界面300的交互示例的示意图。如图3H所示，对第一区域312的选择可以通过用户点击第一区域312来实现。

在一些实施例中，响应于接收到针对第一区域312的选择，终端设备110可以呈现与第一音频分段对应的声波表征。如图3H所示，在接收到针对第一区域312之后，终端设备110仅呈现与第一音频分段对应的声波表征322。备选地，在这种情况下，终端设备110也可以差异性地呈现分别与第一音频分段和第二音频分段对应的声波表征。例如，突出呈现与第一音频分段对应的声波表征，淡化呈现与第二音频分段对应的声波表征等等。

在一些实施例中，响应于接收到针对第一区域312的选择，终端设备110启用针对第一音频分段的编辑功能。在图3H所示的示例中，在第一区域312被选择的情况下，第一区域312可以呈现被选中的状态。编辑控件340至348可由用户操作以用于编辑第一音频分段，其中“音量调节”控件342、“一键去水”控件344、“变速”功能346以及“删除”控件348可被操作以对第一音频分段进行全局编辑。“分割”控件340可被操作以将第一文本分段进一步划分为多个子段，并启用对第一音频分段的分段编辑。

备选地，在一些实施例中，响应于对多个文本分段的确定，终端设备110可以直接启用用于多个音频分段中的至少一个音频分段(例如，上文描述的第一音频分段和/或第二音频分段)的编辑功能，而无需由对某一区域的用户输入或选择来触发。这例如可以取决于应用112的设置，而且这种设置在一些实施例中是允许用户修改的。

在图3I所示的示例中，在多个文本分段被确定之后，用于第二音频分段的编辑功能被启用。在针对一个音频分段(例如，第二音频分段)的编辑功能被启用的情况，相应的呈现区域(例如，第二区域314)可以呈现为被选中的状态。而与其他音频分段(例如，第一音频分段)对应的声波表征被淡化呈现。

返回参考图3G，其示出了终端设备110直接启用用于特定音频分段的编辑功能，而无需基于输入或选择的示意图。如图3G所示，在多个文本分段被确定之后，用于第二音频分段的编辑功能被启用。附加地或备选地，第二区域314可以呈现为被选中的状态，并且用户界面300还呈现与第二音频分段对应的声波表征，而与第一音频分段对应的声波表征322和与第三音频分段对应的声波表征324均被淡化呈现。

附加地或备选地，响应于检测到针对文本的预定输入，终端设备110可以确定与预定输入相关联的位置是否是文本中的不可分位置。作为示例，文本中的不可分位置可以包括文本中的起始位置、结束位置、单个文本单元(例如，英文单词)中的位置等等。如果与预定输入相关联的位置是文本中的不可分位置，则可能无法基于该位置确定出文本的多个文本分段，因而可能无法对音频114进行分段编辑。在这种情况下，终端设备110可以显式或隐式地提示用户这一确定结果。

在一些实施例中，响应于检测到第三预定输入并且确定与第三预定输入相关联的第三位置是文本中的不可分位置，执行以下至少一项操作：呈现无法划分文本的提示，以及禁用对音频的分段编辑

下面参考图4A和图4B，其中示出了用于编辑音频的用户界面300的交互示例的示意图。在图4A的示例中，与第三预定输入相关联的第三位置为文本的结尾位置，并且终端设备110在用户界面300中显式地呈现无法划分文本的提示。如图4A所示，用户界面300中的弹窗460可以以文字的方式呈现提示信息。在图4B的示例中，与第三预定输入相关联的第三位置为文本的起始位置，并且终端设备110在用户界面300中没有呈现显式提示，而是通过解激活或者灰化“分割”控件340的方式提示用户。无论是显式提示还是隐式提示，均能够引导用户改变划分文本的位置。

图5示出了根据本公开的一些实施例的用于编辑音频的过程的流程图。过程500可以在终端设备110处实现，当然，也可以在任何适当的设备处实现。为了便于讨论，将参考图1的环境100并结合图3A至3I来描述过程500。

在框510，终端设备110获得与音频114相关的数据。作为示例，与音频114相关的数据可以经语音识别获得，例如，ASR技术。在一些实施例中，可以在终端设备110处执行语音识别。备选地，终端设备110也可以从远端的计算设备122处获得与音频114相关的数据。

在一些示例实施例中，与音频114相关的数据至少包括与音频114对应的文本中的各文本对象(例如，一个或多个文本单元)与在音频114中的对应时间戳。

在一些示例实施例中，各文本对象和对应的时间戳具有索引。该索引可以由终端设备110在获得与音频114相关的数据之后添加，也可以作为与音频114相关的数据一部分。与音频114相关的数据可以采用各种数据形式或数据结构。作为示例，与音频114相关的数据可以包括数据列表。

在框520，终端设备110基于与音频114相关的数据来呈现与音频114对应的文本。例如，如图3A所示，终端设备110可以基于与音频114相关的数据将与音频114对应的文本呈现在用户界面300中。

在框530,终端设备110记录文本中的各文本单元在用户界面300上的呈现位置与对应的各音频单元在音频114中的时间戳之间的关联。在一些实施例中，呈现位置可以是各文本单元在文本中的相对位置。在其他实施例中，呈现位置可以利用用户界面300中的坐标信息来表征。

在框540，终端设备110检测针对文本的第一预定输入。在一些实施例中，第一预定输入可以对应于在用户界面300内对文本中的位置或文本单元的选择。作为示例，第一预定输入的方式可以包括但不限于，长按、单击、双击等等。例如，预定输入可以是针对文本中的文本单元或文本单元之间的位置的点击或点触。

在另一些实施例中，针对文本的第一预定输入还可以对应于在用户界面300内对文本中的多个连续文本单元的选择。作为示例，第一预定输入的方式可以包括但不限于在长按状态下的拖动手势，如结合图3F所描述的。

在又一些实施例中，第一预定输入可以包括对“暂停”控件350的激活。例如，响应于音频114播放至第一位置时，“暂停”控件350被激活，终端设备110确定第一预定输入被检测到。

响应于检测到针对文本的第一预定输入，在框550，终端设备110基于与第一预定输入相关联的第一位置来确定文本的多个文本分段。在一些实施例中，多个文本分段至少包括第一文本分段和第二文本分段。

如前所述，第一文本分段中的各文本单元在用户界面上的呈现位置与对应的各音频单元在音频114中的时间戳之间的关联被记录。在框560，终端设备110确定多个文本中的第一文本分段中与第一位置对应的第一文本单元。

在框570，终端设备110基于第一文本单元的呈现位置和记录的关联，确定与第一文本单元对应的第一音频单元在音频114中的第一时间戳。在一些实施例中，终端设备110可以基于第一文本单元的呈现位置和记录的关联，确定与第一文本单元相关联的索引。终端设备110进而基于索引来查找数据列表，以确定与第一文本单元对应的第一时间戳。通过这种方式，可以在与音频114相关的数据中进行精确定位。

在框580，终端设备110根据第一时间戳来对音频114进行分段编辑。在一些实施例中，终端设备110基于第一时间戳来分割与音频114相关的数据。

下面将结合图6A至图6E来描述根据本公开的一些实施例的用户界面的交互示例。如前所述，用户可以针对音频分段进行全局编辑。换言之，在选中音频分段的情况下，编辑控件342至348不再针对音频114整体进行全局编辑，而是仅对选中的音频分段进行全局编辑。

图6A示出了针对图3I中的音频分段314执行变速功能的示意图。如图6A所示，在第二文本分段314被选择的情况下，“变速”控件346被激活以对第二音频分段进行加速处理。相较于未经加速的第二音频分段的声波表征，加速后的第二音频分段的声波表征被呈现为更加紧凑，并且第二音频分段的时间长度信息634被相应地更新为加速后的时间长度，例如，“00:09-00:34”。

图6B至图6C示出了针对图3I中的第二音频分段执行删除无效字符功能的示意图。在图6B的示例中，第二区域314被选择，并且“一键去水”控件344被激活。在这种情况下，第二文本分段中重复的字符670“我们”和字符671“我们”被标识为无效字符，并且被突出呈现。基于该标识结果，在用户界面300上呈现针对无效字符的提示信息672和用户选项，即返回选项673和确认删除选项674。如图6B所示，用户选择确认删除选项674。

响应于接收到确认删除指示，终端设备110将与无效字符对应的音频单元从第二音频分段中删除。作为示例，如图6C所示，在第二区域314中，无效字符670和671被呈现为从第二文本分段中删除(例如，通过删除线标识)，并且与无效字符对应的音频单元的声波表征626被呈现为从第二音频分段的声波表征中移除。附加地，在第二区域314中呈现删节后的第二音频分段的时间长度信息334，即，“00:09-00:58”。

图6D和图6E示出了针对图3G中的第三音频分段执行删除功能的示意图。在图6D的示例中，第三区域316被选择，并且“删除”控件348被启用。响应于接收到删除指示，如图6E所示，第三区域316及第三文本分段从用户界面300中删除。相应地，第三音频分段的声波表征也从音频114的声波表征中被移除。

应当理解，图6A至图6E中示出的界面及交互仅仅是说明性的，实际可以存在各种界面设计和交互方式。界面中的各个图形元素可以具有不同的布置和不同的视觉表示，其中的一个或多个元素可以省略或被替换，并且还可以存在一个或多个其他元素。本公开的实施例在此方面不受限制。

图7示出了根据本公开的某些实施例的用于编辑音频的装置700的示意性结构框图。装置700可以被实现为或者被包括在终端设备110中。装置700中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置700包括文本呈现模块710，被配置为呈现与音频对应的文本。装置700还包括分段确定模块720，被配置为响应于检测到针对文本的第一预定输入，基于与第一预定输入相关联的第一位置来确定文本的多个文本分段。装置700还包括分段编辑模块730，被配置为至少部分地基于多个文本分段，启用对音频的分段编辑。

在一些实施例中，装置700还包括：文本独立呈现模块，被配置为将多个文本分段中的第一文本分段独立地呈现在用户界面的第一区域中，第一文本分段对应于音频中的第一音频分段，其中分段编辑模块，被配置为基于针对第一区域的输入来编辑第一音频分段。

在一些实施例中，分段编辑模块730包括：声波呈现模块，被配置为响应于接收到针对第一区域的选择，呈现与第一音频分段对应的声波表征。

在一些实施例中，分段编辑模块730包括：第一编辑启用模块，被配置为响应于接收到针对第一区域的选择，启用针对第一音频分段的编辑功能。

在一些实施例中，分段编辑模块730包括：第二编辑启用模块，被配置为响应于对多个文本分段的确定，启用用于音频的至少一个音频分段的编辑功能。

在一些实施例中，第一预定输入包括如下至少一种：长按、单击、双击、或长按拖动手势。

在一些实施例中，分段确定模块720被配置为：响应于除第一预定输入外还检测到第二预定输入，基于第一位置以及与第二预定输入相关联的第二位置，确定文本的第一文本分段、第二文本分段、以及第三文本分段，其中第二文本分段处于第一文本分段和第三文本分段之间，并且由第一位置和第二位置限定。

在一些实施例中，装置700还包括：不可分位置处理模块，被配置为响应于检测到第三预定输入并且确定与第三预定输入相关联的第三位置是文本中的不可分位置，执行以下至少一项操作：呈现无法划分文本的提示，以及禁用对音频的分段编辑。

在一些实施例中，装置700还包括：文本分段模块，被配置为在用户界面上呈现多个文本分段中的第一文本分段；以及关联记录模块，被配置为记录第一文本分段中的各文本单元在用户界面上的呈现位置与对应的各音频单元在音频中的时间戳之间的关联。

在一些实施例中，分段编辑模块730包括：第一确定模块，被配置为确定第一文本分段中与第一位置对应的第一文本单元；以及第二确定模块，被配置为基于第一文本单元的呈现位置和记录的关联，确定与第一文本单元对应的第一音频单元在音频中的第一时间戳，其中分段编辑模块被配置为根据第一时间戳来对音频进行分段编辑。

图8示出了示出了其中可以实施本公开的一个或多个实施例的计算设备800的框图。应当理解，图8所示出的计算设备800仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图8所示出的计算设备800可以用于实现图1的终端设备110。

如图8所示，计算设备800是通用计算设备的形式。计算设备800的组件可以包括但不限于一个或多个处理器或处理单元810、存储器820、存储设备830、一个或多个通信单元840、一个或多个输入设备850以及一个或多个输出设备860。处理单元810可以是实际或虚拟处理器并且能够根据存储器820中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备800的并行处理能力。

计算设备800通常包括多个计算机存储介质。这样的介质可以是计算设备800可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备830可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备800内被访问。

计算设备800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图8中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器820可以包括计算机程序产品825，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元840实现通过通信介质与其他计算设备进行通信。附加地，计算设备800的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备850可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备860可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备800还可以根据需要通过通信单元840与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备800交互的设备进行通信，或者与使得计算设备800与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种编辑音频的方法，包括：

呈现与所述音频对应的文本；

响应于检测到针对所述文本的第一预定输入，基于与所述第一预定输入相关联的第一位置来确定所述文本的多个文本分段；以及

至少部分地基于所述多个文本分段，启用对所述音频的分段编辑。

2.根据权利要求1所述的方法，还包括：

将所述多个文本分段中的第一文本分段独立地呈现在用户界面的第一区域中，所述第一文本分段对应于所述音频中的第一音频分段，

其中启用对所述音频的分段编辑包括：基于针对所述第一区域的输入来编辑所述第一音频分段。

3.根据权利要求2所述的方法，其中基于针对所述第一区域的输入来编辑所述第一音频分段包括：

响应于接收到针对所述第一区域的选择，呈现与所述第一音频分段对应的声波表征。

4.根据权利要求2所述的方法，其中基于针对所述第一区域的输入来编辑所述第一音频分段包括：

响应于接收到针对所述第一区域的选择，启用针对所述第一音频分段的编辑功能。

5.根据权利要求1所述的方法，其中启用对所述音频的分段编辑包括：

响应于对所述多个文本分段的所述确定，启用用于所述音频的至少一个音频分段的编辑功能。

6.根据权利要求1所述的方法，其中所述第一预定输入包括如下至少一种：长按、单击、双击、长按拖动手势。

7.根据权利要求1所述的方法，其中确定所述文本的所述多个文本分段包括：

响应于除所述第一预定输入外还检测到第二预定输入，基于所述第一位置以及与所述第二预定输入相关联的第二位置，确定所述文本的第一文本分段、第二文本分段、以及第三文本分段，

其中所述第二文本分段处于所述第一文本分段和所述第三文本分段之间，并且由所述第一位置和第二位置限定。

8.根据权利要求1所述的方法，还包括：

响应于检测到第三预定输入并且确定与所述第三预定输入相关联的第三位置是所述文本中的不可分位置，执行以下至少一项操作：

呈现无法划分所述文本的提示，以及

禁用对所述音频的分段编辑。

9.根据权利要求1所述的方法，还包括：

在用户界面上呈现所述多个文本分段中的第一文本分段；以及

记录所述第一文本分段中的各文本单元在所述用户界面上的呈现位置与对应的各音频单元在所述音频中的时间戳之间的关联。

10.根据权利要求9所述方法，其中启用对所述音频的分段编辑包括：

确定所述第一文本分段中与所述第一位置对应的第一文本单元；

基于所述第一文本单元的所述呈现位置和记录的所述关联，确定与所述第一文本单元对应的第一音频单元在所述音频中的第一时间戳；以及

根据所述第一时间戳来对所述音频进行分段编辑。

11.一种用于编辑音频的装置，包括：

文本呈现模块，被配置为呈现与所述音频对应的文本；

分段确定模块，被配置为响应于检测到针对所述文本的第一预定输入，基于与所述第一预定输入相关联的第一位置来确定所述文本的多个文本分段；以及

分段编辑模块，被配置为至少部分地基于所述多个文本分段，启用对所述音频的分段编辑。

12.根据权利要求11所述的装置，其中所述装置还包括：

文本独立呈现模块，被配置为将所述多个文本分段中的第一文本分段独立地呈现在用户界面的第一区域中，所述第一文本分段对应于所述音频中的第一音频分段，

其中所述分段编辑模块被配置为基于针对所述第一区域的输入来编辑所述第一音频分段。

13.根据权利要求12所述的装置，其中所述分段编辑模块包括：

第一编辑启用模块，被配置为响应于接收到针对所述第一区域的选择，启用针对所述第一音频分段的编辑功能。

14.根据权利要求11所述的装置，其中所述分段编辑模块包括：

第二编辑启用模块，被配置为响应于对所述多个文本分段的所述确定，启用用于所述音频的至少一个音频分段的编辑功能。

15.根据权利要求11所述的装置，其中所述分段确定模块被配置为响应于除所述第一预定输入外还检测到第二预定输入，基于所述第一位置以及与所述第二预定输入相关联的第二位置，确定所述文本的第一文本分段、第二文本分段、以及第三文本分段，

16.根据权利要求11所述的装置，还包括：

不可分位置处理模块，被配置为响应于检测到第三预定输入并且确定与所述第三预定输入相关联的第三位置是所述文本中的不可分位置，执行以下至少一项操作：

呈现无法划分所述文本的提示，以及

禁用对所述音频的分段编辑。

17.根据权利要求11所述的装置，其中所述装置还包括：

文本分段呈现模块，被配置为在用户界面上呈现所述多个文本分段中的第一文本分段；以及

关联记录模块，被配置为记录所述第一文本分段中的各文本单元在所述用户界面上的呈现位置与对应的各音频单元在所述音频中的时间戳之间的关联。

18.根据权利要求17所述方法，其中所述分段编辑模块包括：

第一确定模块，被配置为确定所述第一文本分段中与所述第一位置对应的第一文本单元；以及

第二确定模块，被配置为基于所述第一文本单元的所述呈现位置和记录的所述关联，确定与所述第一文本单元对应的第一音频单元在所述音频中的第一时间戳；

其中所述音频分割模块被配置为根据所述第一时间戳对所述音频进行分段编辑。

19.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至10中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。