CN114420125A

CN114420125A - 音频处理方法、装置、电子设备及介质

Info

Publication number: CN114420125A
Application number: CN202011085165.5A
Authority: CN
Inventors: 张甲盛; 王海忠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2022-04-29

Abstract

本申请实施例提供了一种音频处理方法、装置、电子设备及介质，涉及云技术及人工智能技术领域。该方法包括：获取待处理音频；确定所述待处理音频的至少一个初始分段时间点；确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；根据各所述目标分段时间点，得到所述待处理音频的各音频片段；对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。

Description

音频处理方法、装置、电子设备及介质

技术领域

本申请涉及云技术及人工智能技术领域，具体而言，本申请涉及一种音频处理方法、装置、电子设备及介质。

背景技术

大多数的媒体信息是录制得到的，需要将媒体信息中的音频信息处理为文本信息，用于形成记录文件或者制作字幕等。现在技术中在对媒体信息中的音频信息进行处理时，先将媒体信息中的音频信息分为均衡的几段，再对各段音频信息分别进行处理，会导致处理得到的内容不准确的问题。

发明内容

本申请提实施例供了一种能够有效提高音频识别准确性的音频处理方法、装置、电子设备及介质。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取待处理音频；

确定待处理音频的至少一个初始分段时间点；

确定待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；

根据各初始分段时间点各自对应的至少一个静音片段，确定各初始分段时间点对应的目标分段时间点；

根据各目标分段时间点，得到待处理音频的各音频片段；

对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

第二方面，本申请实施例提供了一种音频处理装置，该装置包括：

音频获取模块，用于获取待处理音频；

分段点确定模块，用于确定待处理音频的至少一个初始分段时间点、确定待处理音频中各初始分段时间点各自对应的至少一个静音片段、以及根据各初始分段时间点各自对应的至少一个静音片段，确定各初始分段时间点对应的目标分段时间点；

音频分段模块，用于根据各目标分段时间点，得到待处理音频的各音频片段；

音频识别模块，用于对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

本申请实施例的另一种可能实现方式，音频识别模块具体用于：

通过多线程并行对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

本申请实施例的另一种可能实现方式，对于任一初始分段时间点，初始分段时间点对应的至少一个静音片段包括待处理音频中初始分段时间点相邻的设定数量的静音片段，或者待处理音频中以初始分段时间点为基准时间点的预设时长内的静音片段。

本申请实施例的另一种可能实现方式，分段点确定模块在根据各初始分段时间点各自对应的至少一个静音片段，确定各初始分段时间点对应的目标分段时间点时，具体用于：

对于任一初始分段时间点，根据初始分段时间点对应的至少一个静音片段中时长最长的静音片段，确定初始分段时间点对应的目标分段时间点。

本申请实施例的另一种可能实现方式，分段点确定模块在确定待处理音频的至少一个初始分段时间点时，具体用于：

根据以下信息中的至少一项，确定待处理音频的至少一个初始分段时间点：

语音识别倍速，分段数目，预设分段时长。

本申请实施例的另一种可能实现方式，各初始分段时间点为待处理音频的均分时间点；

分段点确定模块，还用于确定各初始分段时间点对应的初始分段的时长；若初始分段的时长小于预设时长，则根据预设时长调整各初始分段时间点。

本申请实施例的另一种可能实现方式，音频处理装置还包括文本展示模块，用于将文本通过客户端展示给用户。

本申请实施例的另一种可能实现方式，当待处理音频为视频中的音频；

文本展示模块，具体用于通过客户端，将文本以字幕的方式与视频的画面同步展示给用户。

本申请实施例的另一种可能实现方式，文本展示模块还用于：

在获取到用户针对所展示的文本的修改操作时，根据修改操作对所展示的文本进行相应的修改，并将修改后的文本展示给用户。

本申请实施例的另一种可能实现方式，音频获取模块具体用于：

获取待处理的初始音频数据；

提取初始音频数据中的目标音轨的音轨数据；

将目标音轨的音轨数据确定为待处理音频。

本申请实施例的另一种可能实现方式，音频获取模块在提取初始音频数据中的目标音轨的音轨数据时，具体用于：

从初始音频数据包含的各音轨的音轨数据中提取指定音轨的音轨数据，将指定音轨的音轨数据确定为目标音轨的音轨数据；

或者，

提取初始音频数据中各音轨的音轨数据，并将各音轨的音轨数据展示给用户，根据用户针对各音轨的音轨数据的选择操作确定目标音轨的音轨数据。

本申请实施例的另一种可能实现方式，还包括：

任务生成模块，用于利用各音频片段生成语音识别任务，并确定语音识别任务所需的算力；

音频识别模块具体用于：

当音频处理装置的剩余算力不小于语音识别任务所需的算力，则对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的音频处理方法对应的操作。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所示的音频处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种音频处理方法、装置、电子设备及介质，与现有技术相比，本申请先根据音频的各初始分段时间点各自对应的至少一个静音片段，确定各目标分段时间点，然后，根据各目标分段时间点得到各音频片段，并对各音频片段进行语音识别。由于音频中的每一个静音片段通常是一句话结束和/或下一句话开始的标志，因此，根据各初始分段时间点各自对应的至少一个静音片段，对各初始分段时间点进行修正，得到各目标分段时间点，基于该方式，可以使得目标分段时间点位于静音片段位置处，从而可以保证根据各目标分段时间点得到的待处理音频的各音频片段中的每一句话都是完整的一句话，进而可以保证各音频片段的语音识别结果是完整的每一句话的语音识别结果，提高语音识别结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种音频处理方法的流程示意图；

图2为本申请实施例提供的一种设置转写倍速的显示界面示意图；

图3为本申请实施例提供的一种上传音视频的显示界面示意图；

图4为本申请实施例提供的一种音视频转写的显示界面示意图；

图5为本申请实施例提供的一种获取待处理音频的流程示意图；

图6为本申请实施例提供的一种对音频进行分段的流程示意图；

图7为本申请实施例提供的一种算力判断的流程示意图；

图8为本申请实施提供的一种多线程处理的流程示意图；

图9为本申请实施例提供的一种文本展示的显示界面示意图；

图10为本申请实施例提供的一种文件导出的显示界面示意图；

图11为本申请实施例提供的一种音频处理装置的结构示意图；

图12为本申请实施例提供的一种电子设备的结构示意图；

图13为本申请实施例提供的一种初始分段时间点与静音片段之间的关系示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在本申请实施例中，服务器获取到待处理音频以及对待处理音频进行处理后，可以将待处理音频以及处理后得到的信息存储至数据库中，该数据库可以是基于云技术的数据库。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

其中，数据库(Database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统(英语：Database Management System，简称DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

在本申请实施例中，可以利用人工智能技术中的语音技术对待处理音频(或音频片段)音频片段进行语音识别。可以利用人工智能技术中的语音翻译技术对待处理音频(或者音频片段)进行语音识别及翻译处理。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

另外，本申请实施例所提供的各可选方案中的数据的计算等可以云计算的方式。云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS层上可以部署PaaS(Platform as aService,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(NetworkStorage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供的一种音频处理方法，可以由任一电子设备执行，如手机、台式电脑、笔记本电脑、平板电脑等终端设备，也可以由服务器执行，其中，服务器可以是物理服务器，也可以是云服务器，服务器可以是独立的服务器，也可以是服务器集群。作为一可选方案，本申请实施例提供的音频处理方法可以由服务器执行，为描述方便，在下文的实施例描述中将以服务器作为执行主体为例进行说明。

如图1所示，图1为本申请实施例提供的一种音频处理方法的流程示意图，该方法可以包括步骤S101-步骤S106，具体如下：

步骤S101，获取待处理音频。

本申请实施例中，待处理音频来源本申请实施例不做限定，如待处理音频可以为纯音频文件或者从视频文件中提取得到的音频，也可以是用户上传的音频文件或者是通过录音文件得到的音频，音频文件或视频文件可以是本地或者从网络下载的文件，还可以是从其他设备获取到的文件。

用户可以通过客户端上传想要处理的音频文件或视频文件，客户端接收到上传的音频文件或视频文件后，将接收到的音频文件或视频文件传给服务器。服务器可以将接收到的音频文件作为待处理音频，或者服务器可以从接收到的音频文件或视频文件中提取待处理音频。

步骤S102，确定待处理音频的至少一个初始分段时间点。

其中，确定初始分段时间点的具体方式本申请实施例不做限定，可以是采用任一现有的音频分段技术确定的，如可以是按照设定时长、设定段数或者其他分段策略确定的待处理音频的各初始分段时间点，各初始分段时间点所对应的音频段的时长可以相同，也可以不同。

可选的，待处理音频的各初始分段时间点可以是将待处理音频按照时长均分的方式确定出几个初始分段时间点，例如，可以将待处理音频按时长均分为五段，则各初始分段时间点为4个时间点。

步骤S103，确定待处理音频中各初始分段时间点各自对应的至少一个静音片段。

本申请实施例中，可以根据采用语音活动检测(Voice Activity Detection，VAD)技术，从待处理音频中检测得到各静音片段。采用VAD技术，可以检测出音频中是否存在语音信号，从音频中识别出语音部分和非语音部分(本申请实施例中指静音片段)。

当从音频中识别出各静音片段后，对于任一初始分段时间点，可以确定该初始分段时间点对应的静音片段。具体的，该初始分段时间点对应的静音片段是指将该时间点作为基准点，该基准点附近的静音片段，如可以是与该基准点时间最接近的静音片段，也可以是距离该基准点一定时长范围内的静音片段，该静音片段可以是待处理音频中位于该基准点之前的静音片段，也可以是位于该基准点之后的静音片段，也可以是之前和之后的均包括。静音片段的具体确认方式可以根据实际应用需求配置，本申请实施例不做限定，可以包括但不限于上述所列举的各方式。

如图13所示，图13为本申请一可选实施例提供的一种初始分段时间点与静音片段之间的关系示意图。该实施例中初始分段时间点对应的静音片段包括：将该时间点作为基准点，该基准点相邻的前一个静音片段以及该基准点相邻的后两个静音片段，则图13中所示的一个初始分段时间点对应的静音片段为静音片段2-4，静音片段1不是该初始分段时间点对应的静音片段。

步骤S104，根据各初始分段时间点各自对应的至少一个静音片段，确定各初始分段时间点对应的目标分段时间点。

通常情况下，音频中的每一个静音片段是一句话结束和/或下一句话开始的标志，因此，根据各初始分段时间点各自对应的至少一个静音片段，对各初始分段时间点进行修正，得到各目标分段时间点，可以使得目标分段时间点位于静音片段位置处，即目标分段时间点位于一句话的结束和/或下一句话开始的位置处，从而可以保证根据各目标分段时间点得到的待处理音频的各音频片段中的每一句话都是完整的一句话，在后续对各音频片段进行语音识别时，可以保证各音频片段的语音识别结果是完整的每一句话的语音识别结果，可以提高语音识别结果的准确性。

本申请实施例中，对于每一个初始分段时间点，该初始分段时间点对应至少一个静音片段，在一个初始分段时间点对应的静音片段有至少两个时，可以从至少两个静音片段中选择一个目标静音片段，根据该目标静音片段，确定该初始分段时间点对应的目标分段时间点。其中，从至少两个静音片段中确定目标静音片段的具体方式本申请实施例不做限定，如可以是从至少两个静音片段中任选一个，可以是选择时长最长的静音片段，还可以是选择距离基准点最近的一个静音片段。

作为一个可选方案，对应任一个初始分段时间点，若该初始时间点对应的静音片段有0个，如该初始分段时间点附近没有静音片段，或者说该初始分段时间点和其相邻的初始分段时间点构成的音频片段中没有静音片段，可以删除该初始分段时间点。

例如，将待处理音频按时长均分为五段，各初始分段时间点为4个时间点，若在第一个时间点附近未找到静音片段，则删除第一个时间点，此时，各初始分段时间点为3个时间点，即将待处理音频按时长均分为四段。

作为一个可选方案，在确定出各初始分段时间点对应的目标分段时间点时，可以确定任两个目标分段时间点之间的时长，若时长大于时长阈值，可以从该两个目标分段时间点之间的各静音片段中，选择至少一个静音片段，需要说明的是，选择的任一个静音片段与任一个目标分段时间点之间的时长不小于预设分段时长，和/或，选择的任两个静音片段之间的时长不小于预设分段时长。根据选择的至少一个静音片段，确定至少一个目标分段时间点，即在该两个目标分段时间点之间增加至少一个目标分段时间点。其中，任两个目标分段时间点之间的时长不小于预设分段时长。

例如，目标分段时间点1和目标分段时间点2之间的时长为9分钟，大于时长阈值6分钟，本实施例中预设分段时长为4分钟，则可以在目标分段时间点1和目标分段时间点2之间选择一个静音片段，该静音片段与目标分段时间点1之间的时长不小于4分钟，且与目标分段时间点2之间的时长也不小于4分钟，并根据该静音片段确定目标分段时间点3，这样，目标分段时间点3与目标分段时间点1、目标分段时间点3与目标分段时间点2之间的时长，均不小于4分钟。

其中，根据目标静音片段(可参见前文中的描述，对于任一个初始分段时间段，可以从该初始分段时间点对应的至少两个静音片段中，选择一个目标静音片段)，确定该初始分段时间点对应的目标分段时间点时，可以将目标静音片段的起始时间点确定为该初始分段时间点对应的目标分段时间点，也可以将目标静音片段的结束时间点确定为该初始分段时间点对应的目标分段时间点，还可以将目标静音片段的中间时间点确定为该初始分段时间点对应的目标分段时间点等，在此不做限定。

步骤S105，根据各目标分段时间点，得到待处理音频的各音频片段。

本申请实施例中，可以根据各目标分段时间点，对待处理音频进行切分，得到各音频片段；或者不对待处理音频进行切分，而是根据各目标分段时间点，确定待处理音频的各音频片段各自对应的起始时间点(或终止时间点)和分段时长，或者确定待处理音频的各音频片段各自对应的起始时间点和终止时间点。

步骤S106，对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

本申请实施例中，可以利用自动语音识别技术(Automatic Speech Recognition，ASR)对各音频片段进行语音识别。其中，语音识别也称为转写，即将声音转化为文字，在对各音频片段进行语音识别时，服务器可以实时将转写任务的任务状态、转写任务的进度等信息发送给客户端，客户端接收到转写任务的任务状态、转写的进度等信息时，可以显示接收到的信息，任务状态可以包括数据准备中、转写中、转写完成、转写失败等多个阶段。

本申请实施例中，可以对各音频片段的语音识别结果进行相应的处理，得到对应于目标语言的文本。其中，目标语言可以为一种或多种。例如，目标语言可以为中文，或者中文与英文等。

其中，可以将各音频片段的语音识别结果依次进行断句处理和翻译处理等，然后将处理后的各音频片段的语音识别结果进行拼接处理，得到对应于目标语言的文本；或者可以先将各音频片段的语音识别结果进行拼接处理，然后对拼接处理后的语音识别结果依次进行断句处理和翻译处理等，得到对应于目标语言的文本。

例如，对各音频片段的语音识别结果进行拼接处理，得到中文的文本，对中文的文本进行断句处理以及英文翻译后，得到中文与英文的文本。

本申请实施例提供了的该音频处理方法，与现有技术相比，本申请实施例先根据音频的各初始分段时间点各自对应的至少一个静音片段，确定各目标分段时间点，然后，根据各目标分段时间点得到各音频片段，并对各音频片段进行语音识别。由于音频中的每一个静音片段通常是一句话结束和/或下一句话开始的标志，因此，根据各初始分段时间点各自对应的至少一个静音片段，对各初始分段时间点进行修正，得到各目标分段时间点，基于该方式，可以使得目标分段时间点位于静音片段位置处，从而可以保证根据各目标分段时间点得到的待处理音频的各音频片段中的每一句话都是完整的一句话，进而可以保证各音频片段的语音识别结果是完整的每一句话的语音识别结果，提高语音识别结果的准确性和断句的连贯性。

本申请实施例的另一种可能实现方式，步骤S106，即对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本，之后还可以包括步骤S107。

步骤S107，将文本通过客户端展示给用户。

本申请实施例中，服务器可以将各种目标语言的文本发送给客户端，客户端接收各种目标语言的文本并展示给用户，其中，具体展示方式不做限定，例如，客户端的显示界面可以包括两个展示区域，一个展示区域展示中文的文本，另一个展示区域展示英文的文本，或者客户端的显示界面中仅包括一个展示区域，该展示区域可以以句子的形式，同步展示中文的文本和英文的文本，以及每一个句子的始末时间等。

在得到对应于目标语言的文本之后，服务器可以自动将该文本发送至客户端，由客户端展示给用户，也可以当客户端接收到用户针对该文本的点击查看操作时，生成文本请求指令并将文本请求指令发送至服务器，服务器接收到文本请求指令后，将该文本发送至客户端，由客户端展示给用户，在此不做限定。

其中，若待处理音频为视频中的音频，步骤S107中，将文本通过客户端展示给用户，具体可以包括：通过客户端，将文本以字幕的方式与视频的画面同步展示给用户。

具体地，客户端可以将文本以字幕的方式与视频的画面同步展示给用户，客户端在展示文本时，除将文本以字幕的方式与视频的画面同步展示给用户的展示方式外，还可以结合其他展示方式展示文本。

例如，客户端在展示文本时，一方面将文本以字幕的方式与视频的画面同步展示给用户，同时展示时间轴，另一方面，将文本以句子的形式展示，并展示每个句子的起始时间点和终止时间点。

其中，该音频处理方法还包括：在获取到用户针对所展示的文本的修改操作时，根据修改操作对所展示的文本进行相应的修改，并展示修改后的文本。

本申请实施例中，用户可以对客户端所展示的文本进行修改操作，当客户端获取到修改操作后，可以将该修改操作发送至服务器，由服务器根据修改操作对文本进行相应的修改，然后服务器将修改后的文本发送至客户端，由客户端展示修改后的文本。其中，用户可以对所展示的文本中的字进行修改，或者，调整所展示的文本中句子的开始时间点和/或终止时间点，以使得字幕和画面更加同步。

进一步地，用户还可以将客户端所展示的文本，或者将字幕方式的文本与视频的画面导出，存储在目标存储空间中。

本申请实施例的另一种可能实现方式，步骤S101，获取待处理音频，具体可以包括：获取待处理的初始音频数据；提取初始音频数据中的目标音轨的音轨数据；将目标音轨的音轨数据确定为待处理音频。

本申请实施例中，待处理的初始音频数据可以是用户上传的、或者录制得到的、或者网络中获取到的原始音频数据，也可以是从视频中提取得到的音频数据。当初始音频数据为单音轨的音轨数据时，可以将初始音频数据确定为待处理音频；当初始音频数据包括至少两个音轨的音轨数据时，可以提取初始音频数据中的目标音轨的音轨数据；将目标音轨的音轨数据确定为待处理音频。

其中，提取初始音频数据中的目标音轨的音轨数据，具体可以包括方式A1或者方式A2。

方式A1，从初始音频数据包含的各音轨的音轨数据中提取指定音轨的音轨数据，将指定音轨的音轨数据确定为目标音轨的音轨数据。

当初始音频数据包括至少两个音轨的音轨数据时，通常情况下，第一个音轨主要记录音频数据，因此，指定音轨可以为至少两个音轨中的第一个音轨，当然，根据实际情况，指定音轨也可以为至少两个音轨中除第一个音轨之外的音轨，在此不做限定，例如，指定音轨可以为第三个音轨。

方式A2，提取初始音频数据中各音轨的音轨数据，并将各音轨的音轨数据展示给用户，根据用户针对各音轨的音轨数据的选择操作确定目标音轨的音轨数据。

当初始音频数据包括至少两个音轨的音轨数据时，在一些特殊的情况下，音频数据可能存在至少两个音轨中除第一个音轨之外的音轨(可以简称为其他音轨)中。当不确定音频数据位于其他音轨的哪个音轨时，可以通过多媒体视频处理工具将至少两个音轨中各音轨的音轨数据提取出来，并将各音轨的音轨数据展示给用户，用户可以从各音轨的音轨数据中选择出目标音轨的音轨数据。

其中，多媒体视频处理工具具体不做限定，例如，可以为Fast Forward Mpeg(是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。可以轻易地实现多种视频格式之间的相互转换)，简称FFMPEG。

需要说明的是，多媒体视频处理工具可以将各音轨的音轨数据提取出来，得到各音轨的格式信息。对于任一个音轨，该音轨的格式信息包括文件名、时长、比特率、流信息、编码格式、采样率、声道信息等。通常情况下，可以将比特率最大的音轨的音轨数据作为目标音轨的音轨数据。

可选的，可以采用FFMPEG待处理音频的多条音轨数据提取出来其中，任一个音轨的音频信息可以表示如下：

本申请实施例的另一种可能实现方式，步骤S102，确定待处理音频的至少一个初始分段时间点，具体可以包括：

语音识别倍速，分段数目，预设时长。

本申请实施例中，用户可以设定至少一个语音识别倍速，或者用户可以设定各时间段的语音识别倍速，其中，语音识别倍速即为转写倍速。

例如，用户可以设定8:00-10:00之间的语音识别倍速为20倍，还可以设定12:00-14:00之间的语音识别倍速为10倍。

需要说明的是，对于任一个线程，该线程进行语音识别的倍速最大为2，即当用户设置转写倍速为20时，线程数目最小为10个。

用户可以自主设定语音识别倍速，当用户设定好语音识别倍速后，步骤S106中，对各音频片段进行语音识别和后续处理时，可以按照设定好的语音识别倍速进行处理，即对各音频片段进行语音识别和后续处理的倍速，取决于用户自主设定的语音识别倍速。由于用一个线程进行语音识别和后续处理的倍速最大为2，因此，采用越高的倍速进行语音识别和后续处理，线程数相应的也越高。

本申请实施例中，用户还可以设定分段数据，如用户可以选择分段为10段。

本申请实施例中，可以根据语音识别倍速、分段数目和预设时长中的至少一项，确定待处理音频的各初始分段时间点。例如，可以根据分段数目，采用均分的方式确定待处理音频的各初始分段时间点；也可以根据语音识别倍数，确定最小线程数目，将最小线程数目作为分段数目，采用均分的方式确定待处理音频的各初始分段时间点；还可以利用预设时长确定待处理音频的各初始分段时间点，使得根据各初始分段时间点对待处理音频进行切分后的各段音频的时长不小于预设时长。

其中，各初始分段时间点可以为待处理音频的均分时间点。此时，确定待处理音频中各初始分段时间点各自对应的至少一个静音片段之前，还可以包括：

确定各初始分段时间点对应的初始分段的时长；若初始分段的时长小于预设时长，则根据预设时长调整各初始分段时间点。

本申请实施例中，可以根据语音识别倍速或者分段数目，采用均分的方式确定待处理音频的各初始分段时间点，此时，各初始分段时间点可以为待处理音频的均分时间点。在此基础上，可以确定各初始分段时间点对应的初始分段的时长。

进一步地，若初始分段的时长小于预设时长，则根据预设时长调整各初始分段时间点，将调整后的各初始分段时间点作为步骤S102中的各初始分段时间点，即步骤S102中的各初始分段时间点为调整后的，此时，调整后的各初始分段时间点对应的初始分段的时长大于或者等于预设时长；若初始分段的时长不小于预设时长，则该各初始分段时间点即为步骤S102中的各初始分段时间点，即步骤S102中的各初始分段时间点为调整前的。

本申请实施例中，对于任一初始分段时间点，初始分段时间点对应的至少一个静音片段包括待处理音频中初始分段时间点相邻的设定数量的静音片段，或者待处理音频中以初始分段时间点为基准时间点的预设时长内的静音片段。

其中，设定数量的静音片段可以为位于初始分段时间点前的设定数量的静音片段，也可以为位于初始分段时间点后的设定数量的静音片段，还可以为位于初始分段时间点前后的设定数量的静音片段等。

例如，某一初始分段时间点对应的至少一个静音片段包括待处理音频中该初始分段时间点前后相邻的5个静音片段。

其中，预设时长内的静音片段可以为位于基准时间点前的预设时长内的静音片段，也可以为位于基准时间点后的预设时长内的静音片段，还可以为以基准时间点为中心的预设时长内的静音片段等。

其中，步骤S104，根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点，具体可以包括：

本申请实施例中，可以采用语音活动检测(Voice Activity Detection，VAD)技术，从待处理音频中检测得到各静音片段，然后确定待处理音频中各所述初始分段时间点各自对应的至少一个静音片段。通常情况下，一句话结束时停顿较久，因此，可以根据静音片段的时长进行分段，静音片段的时长越长，断句越准确，从而导致分段越准确。

需要说明的是，对于任一个初始分段时间点，可以将时长最长的静音片段的头作为初始分段时间点对应的目标分段时间点，也可以将将时长最长的静音片段的尾作为初始分段时间点对应的目标分段时间点，还可以将时长最长的静音片段的中心点作为初始分段时间点对应的目标分段时间点，在此不做限定。

本申请实施例的另一种可能实现方式，步骤S106，对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本，具体可以包括：

本申请实施例中，线程的数目为至少两个，即多线程为至少两个线程。对于任一个线程，该线程可以处理至少一个音频片段。即音频片段的个数大于等于线程的数目。

作为一个可选的实现方式，可以采用一个线程处理一个音频片段的方式。具体地，可以为各音频片段分配一个线程，通过各音频片段各自对应的线程，并行对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本，可以大大提高语音识别及后续处理的速度。例如，若需要1小时对未分段的待处理音频进行语音识别及后续处理，则当将待处理音频分为10个音频片段，并采用10个线程对各音频片段同时进行语音识别及后续处理时，可以将处理时间缩短至6分钟左右，大大降低了处理时间，提高处理速度。

其中，本申请实施例的音频处理方法的执行主体为电子设备，该方法还可以包括：利用各音频片段生成语音识别任务，并确定语音识别任务所需的算力。

步骤S106，对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本，具体可以包括：

若电子设备的剩余算力不小于语音识别任务所需的算力，则对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

本申请实施例中，算力是比特币网络处理能力的度量单位。可以利用各音频片段生成语音识别任务，并预估语音识别任务所需的算力。在电子设备的剩余算力不小于预估的算力时，说明电子设备有能力一次性处理该语音识别任务，此时，可以一次性处理该语音识别任务，即对各音频片段进行语音识别及后续处理；当电子设备的剩余算力小于预估的算力时，说明电子设备没有能力一次性处理该语音识别任务，可以先利用剩余算力处理部分语音识别任务，然后再处理另一部分语音识别任务，或者为防止服务器运行出错、崩溃等现象的发生，可以等到电子设备的剩余算力不小于预估的算力时，一次性处理该语音识别任务。

本申请的音频处理方法适用于任何语音识别的场景中，在任何语音识别的场景中，可以采用本申请的音频处理方法，对待处理音频进行分段、语音识别及后续处理，如断句处理、翻译处理等。其中，本申请的音频处理方法可以应用于具有音频处理功能的软件中，该具有音频处理功能的软件可以是一个独立的音频处理软件，也可以是包含音频处理功能和其他功能的软件，在此不做限定。

为了更好的理解及说明本申请实施例所提供的方案，下面将结合一个实际应用场景，对本申请实施例提供的一种音频处理方法进行详细说明。

本申请实施例中的音频处理方法可以应用于一个音视频转写平台，该音视频转写平台包括客户端和服务器，用户可以登陆该音视频转写平台对应的客户端，在该客户端中设置转写的倍速，其中，转写倍速即为语音识别倍速。如图2所示，图2为本申请实施例提供的一种设置转写倍速的显示界面示意图，用户可以在该显示界面中设置至少一个时间段，以及每一个时间段对应的转写倍速，其中，任一个时间段包括起始时间点和结束时间点。例如图2的显示界面中包括由“时间点1-时间点2”构成的时间段，以及该时间段对应的转写倍速“倍速a”；由“时间点3-时间点4”构成的时间段，以及该时间段对应的转写倍速“倍速b”。图2的显示界面中还包括提交控件以及取消控件等。

用户还可以在该客户端中上传至少一个音频文件，和/或至少一个视频文件，对于用户上传的每一个文件，可以选择该文件的语言，即选择所上传的文件是哪种语言的文件，若用户选择音频文件的语言为中文，则表明该音频文件为中文的文件。如图3所示，图3为本申请实施例提供的一种上传音视频的显示界面示意图。用户可以在该显示界面中上传音视频文件，在上传音频文件或者视频文件时，用户可以选择当前所上传的音频文件或者视频文件的语言，例如，图3中，用户可以选择中文或者英文。在该显示界面中，用户每添加一个音频文件或者视频文件，显示文件的文件大小、文件添加进度等，例如，图3中视频文件的文件大小为2.67兆(MByte，MB)，文件添加进度为100％，表示已添加完成；音频文件的文件大小为15.98MB，文件添加进度为100％。除此之外，该显示界面还包括提交控件和取消控件。

进一步地，当用户在该客户端中上传文件后，客户端可以将该文件发送至服务器，由服务器对该文件进行转写，在服务器对该文件进行转写的过程中，服务器可以实时将该文件的转写状态发送至客户端，由客户端实时显示该文件的转写状态，如图4所示，图4为本申请实施例提供的一种音视频转写的显示界面示意图。该音视频转写的显示界面中可以查看转写中的文件以及该文件的状态，例如图4中视频文件的转写状态为57％，即表明该视频文件已转写57％，该显示界面中还可以显示文件的其他信息，如语言、创建人、创建时间等，例如图4中视频文件的语言为中文，创建人为A，创建时间为T。

其中，服务器进行文件转写时采用的方法如图5-图8所示，图5为本申请实施例提供的一种获取待处理音频的流程示意图。具体地：

服务器可以获取待处理的初始音频数据，该初始音频数据可以是客户端发送的音频文件，将该音频文件作为音频数据，也可以是从客户端发送的音频文件或者视频文件中提取得到的音频数据；从初始音频数据包含的各音轨的音轨数据中提取指定音轨的音轨数据，将指定音轨的音轨数据确定为目标音轨的音轨数据，或者，提取初始音频数据中各音轨的音轨数据，并将各音轨的音轨数据展示给用户，根据用户针对各音轨的音轨数据的选择操作确定目标音轨的音轨数据；将目标音轨的音轨数据转化为目标格式的音轨数据，并将转化格式后的音轨数据确定为待处理音频；将待处理音频存储至预设存储空间中。其中，目标格式可以为脉冲编码调制(Pulse Code Modulation，PCM)格式，也可以为其他的格式，预设存储空间可以为云端，也可以为本地。

关于图5中各步骤的具体实现方式可以详见上述说明，在此不再赘述。

当确定出待处理音频后，如图6所示，图6为本申请实施例提供的一种对音频进行分段的流程示意图。具体地：

用户每设置一个转写倍速，客户端可以获取该转写倍速并发送至服务器中，由服务器将该转写倍速存储至关系型数据库管理系统中，其中，关系型数据库管理系统简称MySQL，使用结构化查询语言(Structured Query Language，SQL)进行数据库管理，即服务器可以获取用户设置的各转写倍速并存储至MySQL中。

服务器可以从MySQL中获取最大的转写倍速，利用最大的转写倍速确定待处理音频的各初始分段时间点，然后确定各初始分段时间点对应的初始分段的时长。

若初始分段的时长小于预设时长，则根据预设时长调整各初始分段时间点，然后确定待处理音频中各初始分段时间点各自对应的至少一个静音片段，若初始分段的时长不小于预设时长，则确定待处理音频中各初始分段时间点各自对应的至少一个静音片段。

然后，对于任一初始分段时间点，将初始分段时间点对应的至少一个静音片段中时长最长的静音片段的头，作为初始分段时间点对应的目标分段时间点，根据各目标分段时间点，得到待处理音频的各音频片段，并将各音频片段存入数据库中。

关于图6中各步骤的具体实现方式可以详见上述说明，在此不再赘述。

当得到各音频片段后，如图7所示，图7为本申请实施例提供的一种算力判断的流程示意图，具体地：

服务器可以从数据库中提取各音频片段，利用各音频片段生成转写任务，并判断服务器剩余算力是否满足转写任务所需的算力。若满足，则转写任务进入执行队列，即执行语音识别及后续步骤；若不满足，则重新判断服务器剩余算力是否满足转写任务所需的算力。

当服务器剩余算力满足转写任务所需的算力时，如图8所示，图8为本申请实施提供的一种多线程处理的流程示意图。具体地，服务器获取各音频片段，为各音频片段分配线程，各线程将各自占用的算力进行上报，各线程读取各自对应的音频片段，并对读取的音频片段进行语音识别，各线程对语音识别结果进行断句，并翻译为对应于目标语言的文本，将文本存入数据库中，然后各线程释放算力。

其中，对于任一个线程，若该线程释放算力，表明该线程已完成任务。当所有线程完成任务后，可以将各线程得到的文本按照时间轴进行拼接，得到文本文件和/或带有时间轴的字幕文件。

进一步地，当得到文本文件和/或带有时间轴的字幕文件后，可以将文本文件和/或带有时间轴的字幕文件发送至客户端，由客户端进行显示。如图9所示，图9为本申请实施例提供的一种文本展示的显示界面示意图。在该显示界面的左半区域，将文本文件以句子的形式，同步展示中文的句子和英文的句子，并展示每个句子的起始时间点和终止时间点，例如，同步展示中文句子1和英文句子1，以及对应的起始时间1、结束时间点1，同步展示中文句子2和英文句子2，以及对应的起始时间2、结束时间点2，同步展示中文句子3和英文句子3，以及对应的起始时间3、结束时间点3；在该显示界面的右半区域，将文本以字幕的方式与视频的画面同步展示给用户，即将画面和中文字幕、英文字幕同步展示，同时在该显示界面的下方显示时间轴，以展示带有时间轴的字幕文件。其中，图9还可以包括导出控件，以导出文本文件和/或带有时间轴的字幕文件。

可以通过点击图9中的导出控件，得到图10所示的显示界面，图10为本申请实施例提供的一种文件导出的显示界面示意图。该显示界面中包括“文件：视频”、“格式：格式1、格式2”、“导出内容：双语对照、中文、英文”、取消控件以及导出控件等。其中，用户可以在格式中选择文件格式，例如文件格式可以为文本格式字幕(SubRip Text，SRT)、Word(文字处理器应用程序的格式)、文本文档(TXT)，用户还可以在导出内容中选择想要导出的内容，如选择的导出内容为双语对照。

可以理解的是，图2-图4、以及图9-图10所示的显示界面仅为示意性的，可以根据实际需要，在该显示界面上设置其他的控件或者删除某些控件，可以根据实际需要灵活设置。

基于与本申请实施例所提供的方法相同的原理，本申请实施例还提供了一种音频处理装置，如图11所示，该音频处理装置110可以包括：音频获取模块1101、分段点确定模块1102、音频分段模块1103以及音频识别模块1104，其中，

音频获取模块1101，用于获取待处理音频；

分段点确定模块1102，用于确定待处理音频的至少一个初始分段时间点、确定待处理音频中各初始分段时间点各自对应的至少一个静音片段、以及根据各初始分段时间点各自对应的至少一个静音片段，确定各初始分段时间点对应的目标分段时间点；

音频分段模块1103，用于根据各目标分段时间点，得到待处理音频的各音频片段；

音频识别模块1104，用于对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

本申请实施例的另一种可能实现方式，音频识别模块1104具体用于：

本申请实施例的另一种可能实现方式，分段点确定模块1102在根据各初始分段时间点各自对应的至少一个静音片段，确定各初始分段时间点对应的目标分段时间点时，具体用于：

本申请实施例的另一种可能实现方式，分段点确定模块1102在确定待处理音频的至少一个初始分段时间点时，具体用于：

语音识别倍速，分段数目，预设分段时长。

分段点确定模块1102，还用于确定各初始分段时间点对应的初始分段的时长；若初始分段的时长小于预设时长，则根据预设时长调整各初始分段时间点。

本申请实施例的另一种可能实现方式，音频处理装置110还包括文本展示模块，用于将文本通过客户端展示给用户。

本申请实施例的另一种可能实现方式，音频获取模块1101具体用于：

获取待处理的初始音频数据；

提取初始音频数据中的目标音轨的音轨数据；

将目标音轨的音轨数据确定为待处理音频。

本申请实施例的另一种可能实现方式，音频获取模块1101在提取初始音频数据中的目标音轨的音轨数据时，具体用于：

或者，

本申请实施例的另一种可能实现方式，还包括：

音频识别模块1104具体用于：

当音频处理装置110的剩余算力不小于语音识别任务所需的算力，则对各音频片段进行语音识别，并基于各音频片段的语音识别结果得到对应于目标语言的文本。

本实施例的音频处理装置110可执行本申请方法实施例提供的一种音频处理方法，其实现原理相类似，此处不再赘述。

本申请提供了一种音频处理装置，与现有技术相比，本申请实施例先根据音频的各初始分段时间点各自对应的至少一个静音片段，确定各目标分段时间点，然后，根据各目标分段时间点得到各音频片段，并对各音频片段进行语音识别。由于音频中的每一个静音片段通常是一句话结束和/或下一句话开始的标志，因此，根据各初始分段时间点各自对应的至少一个静音片段，对各初始分段时间点进行修正，得到各目标分段时间点，基于该方式，可以使得目标分段时间点位于静音片段位置处，从而可以保证根据各目标分段时间点得到的待处理音频的各音频片段中的每一句话都是完整的一句话，进而可以保证各音频片段的语音识别结果是完整的每一句话的语音识别结果，提高语音识别结果的准确性。

上述从虚拟模块角度介绍本申请的音频处理装置，下面从实体装置的角度介绍本申请的电子设备。

本申请实施例提供了一种电子设备，如图12所示，图12所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序。

本申请实施例提供的电子设备，包括一个或多个处理器、存储器、以及一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行前述方法实施例中的相应内容。

上述从实体装置的角度介绍本申请的电子设备，下面从存储介质的角度介绍本申请的计算机可读存储介质。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例及其各种可能实现方式中提供的音频处理方法。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中的相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取待处理音频；

确定所述待处理音频的至少一个初始分段时间点；

确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；

根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；

根据各所述目标分段时间点，得到所述待处理音频的各音频片段；

对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。

2.根据权利要求1所述的方法，其特征在于，所述对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本，包括：

通过多线程并行对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。

3.根据权利要求1所述的方法，其特征在于，对于任一所述初始分段时间点，所述初始分段时间点对应的至少一个静音片段包括待处理音频中所述初始分段时间点相邻的设定数量的静音片段，或者待处理音频中以所述初始分段时间点为基准时间点的预设时长内的静音片段。

4.根据权利要求1所述的方法，其特征在于，所述根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点，包括：

对于任一所述初始分段时间点，根据所述初始分段时间点对应的至少一个静音片段中时长最长的静音片段，确定所述初始分段时间点对应的目标分段时间点。

5.根据权利要求1所述的方法，其特征在于，所述确定所述待处理音频的至少一个初始分段时间点，包括：

根据以下信息中的至少一项，确定所述待处理音频的至少一个初始分段时间点：

语音识别倍速，分段数目，预设分段时长。

6.根据权利要求5所述的方法，其特征在于，各所述初始分段时间点为所述待处理音频的均分时间点；

所述确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段之前，还包括：

确定各所述初始分段时间点对应的初始分段的时长；

若所述初始分段的时长小于所述预设时长，则根据所述预设时长调整各所述初始分段时间点。

7.根据权利要求1所述的方法，其特征在于，所述对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本之后，还包括：

将所述文本通过客户端展示给用户。

8.根据权利要求7所述的方法，其特征在于，若所述待处理音频为视频中的音频；

所述将所述文本通过客户端展示给用户，包括：

通过所述客户端，将所述文本以字幕的方式与所述视频的画面同步展示给用户。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

在获取到用户针对所展示的文本的修改操作时，根据所述修改操作对所展示的文本进行相应的修改，并将修改后的文本展示给用户。

10.根据权利要求1所述的方法，其特征在于，所述获取待处理音频，包括：

获取待处理的初始音频数据；

提取所述初始音频数据中的目标音轨的音轨数据；

将所述目标音轨的音轨数据确定为所述待处理音频。

11.根据权利要求10所述的方法，其特征在于，所述提取所述初始音频数据中的目标音轨的音轨数据，包括：

从所述初始音频数据包含的各音轨的音轨数据中提取指定音轨的音轨数据，将所述指定音轨的音轨数据确定为目标音轨的音轨数据；

或者，

提取所述初始音频数据中各音轨的音轨数据，并将所述各音轨的音轨数据展示给用户，根据用户针对所述各音轨的音轨数据的选择操作确定目标音轨的音轨数据。

12.根据权利要求1所述的方法，其特征在于，所述方法的执行主体为电子设备，还包括：

利用各所述音频片段生成语音识别任务，并确定所述语音识别任务所需的算力；

所述对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本，包括：

若所述电子设备的剩余算力不小于所述语音识别任务所需的算力，则对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。

13.一种音频处理装置，其特征在于，包括：

音频获取模块，用于获取待处理音频；

分段点确定模块，用于确定所述待处理音频的至少一个初始分段时间点、确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段、以及根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；

音频分段模块，用于根据各所述目标分段时间点，得到所述待处理音频的各音频片段；

音频识别模块，用于对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。

14.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～12任一项所述的音频处理方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～12任一项所述的音频处理方法。