CN116261008A

CN116261008A - 音频处理方法和音频处理装置

Info

Publication number: CN116261008A
Application number: CN202211611352.1A
Authority: CN
Inventors: 朱宗花; 李斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-06-13

Abstract

本发明涉及一种音频处理方法和音频处理装置，包括：在确定待播放视频包含多路音轨的情况下，对待播放视频进行解析处理，获取待播放视频的多路音轨；在多路音轨中确定至少两路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系；基于每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理之后，得到每路目标音轨对应的脉冲调制编码；基于每路目标音轨对应的脉冲调制编码、以及每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机播放目标音轨。采用该方法能够实现多路音轨的播放，满足不同用户的对待播放视频的音频播放需求，使得各个用户能够收听到自己需要的音频，提升用户体验。

Description

音频处理方法和音频处理装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频处理方法和音频处理装置。

背景技术

目前，用户在通过智能设备播放视频时，由于智能设备仅支持单路音轨输出，针对播放视频包含的多路音轨，仅根据智能设备系统默认的音轨，或者是某一用户在多路音轨中确定需要播放的单路音轨进行播放，对于其他音轨则禁止播放，从而造成在存在多个用户的场景下，针对每个用户，无法根据各个用户的需求对应的音轨进行播放，即，现有技术中，无法满足每个用户的需求，进行多路音轨的播放。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种音频处理方法和音频处理装置，能够在待播放视频包含的多路音轨中，根据不同的用户需求确定需要播放的多路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系，以此使得不同播放耳机，同时播放同一待播放视频包含的多路目标音轨，实现多路音轨的播放，满足不同用户的对待播放视频的音频播放需求，使得各个用户能够收听到自己需要的音频，提升用户体验。

为了实现上述目的，本发明实施例提供的技术方案如下：

第一方面，提供一种音频处理方法，包括：在确定待播放视频包含多路音轨的情况下，对所述待播放视频进行解析处理，获取所述待播放视频的多路音轨；

在所述多路音轨中确定至少两路目标音轨，并建立每路所述目标音轨与每个播放耳机的对应关系；

基于每路所述目标音轨对应的预设解码器，对每路所述目标音轨进行解码处理之后，得到每路所述目标音轨对应的脉冲调制编码；

基于每路所述目标音轨对应的脉冲调制编码、以及每路所述目标音轨与每个播放耳机的对应关系，通过每路所述目标音轨对应的播放耳机播放所述目标音轨。

作为本发明实施例一种可选的实施方式，所述基于每路所述目标音轨对应的预设解码器，对每路所述目标音轨进行解码处理之前，还包括：

获取每路所述目标音轨对应的参数信息；

基于每路所述目标音轨对应的参数信息，建立每路所述目标音轨对应的所述预设解码器。

作为本发明实施例一种可选的实施方式，所述预设解码器包括硬解码器和软解码器；所述参数信息包括：音频采样率、声道数量以及码率；

所述基于每路所述目标音轨对应的参数信息，建立每路所述目标音轨对应的所述预设解码器，包括：

对每路所述目标音轨的音频采样率、声道数量以及码率进行乘积运算，得到每路所述目标音轨的乘积运算结果；

针对最大乘积运算结果对应的所述目标音轨，建立所述硬解码器，并对其他所述目标音轨，建立所述软解码器。

作为本发明实施例一种可选的实施方式，所述方法还包括：

在通过每路所述目标音轨对应的播放耳机播放所述目标音轨时，基于目标同步时钟，同步播放所述待播放视频包含的视频和字幕。

作为本发明实施例一种可选的实施方式，所述基于目标同步时钟，同步播放所述待播放视频包含的视频和字幕，包括；

对所述待播放视频包含的视频以及字幕分别对应的基本码流进行解析处理，得到视频以及字幕分别对应的初始数据；

基于所述目标同步时钟以及所述视频和所述字幕分别对应的初始数据，同步播放所述待播放视频包含的视频和字幕。

作为本发明实施例一种可选的实施方式，所述对所述待播放视频包含的视频以及字幕分别对应的基本码流进行解码处理，得到视频以及字幕分别对应的初始数据之前，还包括：

确定每路所述目标音轨对应的音频时钟；

在多个音频时钟中，确定目标同步时钟，其中，所述目标同步时钟用于同步播放所述待播放视频包含的视频、字幕以及至少两路目标音轨。

作为本发明实施例一种可选的实施方式，所述在多个音频时钟中，确定目标同步时钟，包括：

基于每路所述目标音轨的乘积运算结果，确定最大乘积运算结果对应的第一目标音轨；

将所述第一目标音轨的音频时钟作为所述目标同步时钟。

作为本发明实施例一种可选的实施方式，所述在多个音频时钟，确定目标同步时钟，包括：

在对每路所述目标音轨建立对应的所述预设解码器时，确定最后一个完成建立所述预设解码器对应的第二目标音轨；

将所述第二目标音轨的音频时钟作为所述目标同步时钟。

作为本发明实施例一种可选的实施方式，所述方法还包括：

当接收到用户输入的切换指令时，将正在播放所述目标音轨进行切换。

第二方面，提供一种音频处理装置，包括：

多路音轨获取模块，用于在确定待播放视频包含多路音轨的情况下，对所述待播放视频进行解析处理，获取所述待播放视频的多路音轨；

处理模块，用于在所述多路音轨中确定至少两路目标音轨，并建立每路所述目标音轨与每个播放耳机的对应关系；

解码模块，用于基于每路所述目标音轨对应的预设解码器，对每路所述目标音轨进行解码处理之后，得到每路所述目标音轨对应的脉冲调制编码；

播放模块，用于基于每路所述目标音轨对应的脉冲调制编码、以及每路所述目标音轨与每个播放耳机的对应关系，通过每路所述目标音轨对应的播放耳机播放所述目标音轨。

本发明实施例提供的音频处理方法和音频处理装置，通过在确定待播放视频包含多路音轨的情况下，对待播放视频进行解析处理，获取待播放视频的多路音轨；在多路音轨中确定至少两路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系；基于每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理之后，得到每路目标音轨对应的脉冲调制编码；基于每路目标音轨对应的脉冲调制编码、以及每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机播放目标音轨。在上述过程中，能够在待播放视频包含的多路音轨中，根据不同的用户需求确定需要播放的多路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系，以此使得不同播放耳机，同时播放同一待播放视频包含的多路目标音轨，实现多路音轨的播放，满足不同用户的对待播放视频的音频播放需求，使得各个用户能够收听到自己需要的音频，提升用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本公开实施例中提供的一种通过单路音轨进行播放的过程示意图；

图1B为本公开实施例中提供的另一种通过单路音轨进行播放的过程示意图；

图2为根据本公开一个或多个实施例的电子设备的软件配置示意图

图3A为本公开实施例提供的一种音频处理方法的流程示意图；

图3B为本公开实施例提供的在多路音轨中确定目标音轨的示意图；

图3C为本实施例中提供的一种通过多路音轨进行播放的过程示意图；

图4A为本公开实施例提供的另一种音频处理方法的流程示意图；

图4B为本公开实施例提供的再一种音频处理方法的流程示意图；

图5A为本公开实施例提供的又一种音频处理方法的流程示意图；

图5B为本公开实施例提供的又一种通过多路音轨进行播放的过程示意图；

图6A为本公开实施例提供的又一种音频处理方法的流程示意图；

图6B为本公开实施例提供的又一种通过多路音轨进行播放的过程示意图；

图7为本公开实施例提供的又一种音频处理方法的流程示意图；

图8为本公开实施例提供的又一种音频处理方法的流程示意图；

图9为本公开实施例提供的又一种音频处理方法的流程示意图；

图10为本公开实施例提供的一种音频处理装置的结构示意图；

图11是本公开实施例提供的一种智能设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

图1A为本公开实施例中提供的一种通过单路音轨进行播放的过程示意图，如图1A所示，当用户需要使用智能设备如智能电视进行视频播放时，输入播放指令，智能电视首先会从本地或者是服务器上下载需要进行播放的播放文件，在将播放文件下载下来之后，确定播放文件为流媒体播放文件时，通过协议解封装模块对流媒体播放文件进行解析处理，以此获取流媒体播放文件包含的媒体片段对应的地址，基于该地址下载媒体片段，在获取到媒体播放文件包含的媒体片段之后，通过格式解封装模块进行解析，从而提取出播放文件包含的不同的音频基本码流、视频基本码流、字幕基本码流，并进行缓存，从而保证视频能够播放流畅，需要说明的是，如果播放文件中包含多路音轨，会解析出多路音轨，用户通过选择器在多路音轨中选择要目标音轨进行播放，同时字幕选择器基于用户选择的目标音轨，确定对应的需要播放的字幕之后，对目标音轨、视频以及字幕进行解码处理之后，进行同步播放。

图1B为本公开实施例中提供的另一种通过单路音轨进行播放的过程示意图，如图1B所示，当确定播放文件不是流媒体播放文件时，则无需过协议解封装模块对流媒体播放文件进行解析处理，以此获取流媒体播放文件包含的媒体片段对应的地址，基于该地址进行下载媒体片段。

然而，采用上述方式，用户在通过智能设备播放视频时，智能设备仅支持单路音轨输出，针对播放视频包含的多路音轨，根据智能设备系统默认的音轨，或者是某一用户在多路音轨中确定需要播放的单路音轨进行单路音轨播放，无法进行多路音轨的播放。

为了解决上述问题，本公开实施例提出了一种音频处理方法，通过在确定待播放视频包含多路音轨的情况下，对待播放视频进行解析处理，获取待播放视频的多路音轨；在多路音轨中确定至少两路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系；基于每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理之后，得到每路目标音轨对应的脉冲调制编码；基于每路目标音轨对应的脉冲调制编码、以及每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机播放所述目标音轨。在上述过程中，能够在待播放视频包含的多路音轨中，根据不同的用户需求确定需要播放的多路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系，以此使得不同播放耳机，同时播放同一待播放视频包含的多路目标音轨，实现多路音轨的播放，满足不同用户的对待播放视频的音频播放需求，使得各个用户能够收听到自己需要的音频，提升用户体验。

本公开实施例提供的音频处理模型训练方法和音频处理方法，可以基于电子设备，或者电子设备中的功能模块或者功能实体实现。

其中，电子设备可以为智能电视、个人计算机(personal computer，PC)、服务器、手机、平板电脑、笔记本电脑、大型计算机等，本公开实施例对此不作具体限定。

示例性的，图2为根据本公开一个或多个实施例的电子设备的软件配置示意图，如图2所示，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Androidruntime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

本申请实施例提供的音频处理方法可以基于上述电子设备实现。

为了更加详细的说明本方案，以下将以示例性的方式结合图3A进行说明，可以理解的是，图3A中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本申请实施例中提供的音频处理方法为准。

图3A为本公开实施例提供的一种音频处理方法的流程示意图。本实施例方法由应用于智能设备的音频处理装置来执行，该装置可采用硬件/或软件的方式来实现。如图3A所示，该音频处理方法具体包括如下步骤：

S31，在确定待播放视频包含多路音轨的情况下，对待播放视频进行解析处理，获取待播放视频的多路音轨。

其中，音轨是指用来表示待播放视频包含的音频对应的属性信息，待播放视频包含的每个待播放音频对应一个音轨，例如语种、音色、音色库、通道数、输入/输出端口、音量，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

具体的，当确定待播放视频中包含了多路音轨时，对待播放视频进行解析处理，以此获取待播放视频包含的多路音轨。

示例性的，当用户使用智能设备如智能电视播放XXX电影时，根据XXX电影的文件信息确定该XXX电影包含了5路音轨，即，可以理解的是，该XXX电影文件当前包含了5种语种可供用户进行选择，在确定该XXX电影包含了5路音轨之后，对XXX电影进行解析，获取对应的5路音轨，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

上述对待播放视频进行解析处理参考现有技术，此处不再赘述。

S32，在多路音轨中确定至少两路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系。

其中，播放耳机是用来播放音频的，即播放目标音轨对应的目标音频，一个播放耳机对应一个目标音轨，以此避免多个用户在观看同一待播放视频时，使用不同音轨，例如使用不同语种观看XXX电影之间产生干扰，对于该播放耳机例如可以是蓝牙耳机，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

具体的，当对待播放视频进行解析处理，获取待播放视频包含的多路音轨之后，在多路音轨中确定两路或者多路需要进行播放的目标音轨，由于每路目标音轨需要一个播放耳机进行播放，以此需要建立每路目标音轨与每个播放耳机的对应关系。

可选的，基于上述实施例中，在本公开一些实施例中，在多路音轨中确定至少两路目标音轨可以根据用户输入的选择指令，多路音轨中确定至少两路目标音轨。

示例性的，参考图3B所示，根据不同用户的需求，各个用户在智能设备如智能电视的显示界面301输入的选择指令，在多路音轨中确定音轨2、音轨3为不同用户需要播放的目标音轨，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

可选的，基于上述实施例中，在本公开一些实施例中，对于建立每路目标音轨与每个播放耳机的对应关系可以是通过播放耳机连接智能设备的顺序、以及确定多路目标音轨的顺序，以此确定每路目标音轨与每个播放耳机的对应关系，或者是可以通过用户自定义进行配置，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

S33，基于每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理之后，得到每路目标音轨对应的脉冲调制编码。

其中，脉冲调制编码是指对模拟信号进行数字化的取样处理，即将音频信号变换为数字信号的编码方式，主要经过抽样、量化和编码，具体的，抽样过程将连续时间音频信号变为离散时间、连续幅度的抽样信号，量化过程将抽样信号变为离散时间、离散幅度的数字信号，编码过程将量化后的数字信号编码成为一个二进制码组输出，在得到每路目标音轨对应脉冲调制编码后，能够利用脉冲调制编码进行渲染播放。

具体的，对于每路目标音轨，根据每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理，以此得到每路目标音轨对应的脉冲调制编码。

需要说明的是，上述是针对每路目标音轨对应的基本码流进行解码处理，具体解码处理的过程参考现有技术，此处不再赘述。

S34，基于每路目标音轨对应的脉冲调制编码、以及每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机播放目标音轨。

具体的，在得到每路目标音轨对应的脉冲调制编码之后，根据每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机，并利用每路目标音轨对应的脉冲调制编码进行渲染，以播放每路目标音轨。

可选的，图3C为本实施例中提供的一种通过多路音轨进行播放的过程示意图，具体实现过程参考上述步骤S31-S34，此处不再过多赘述。

这样，本公开实施例中提供的音频处理方法，通过在确定待播放视频包含多路音轨的情况下，对待播放视频进行解析处理，获取待播放视频的多路音轨；在多路音轨中确定至少两路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系；基于每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理之后，得到每路目标音轨对应的脉冲调制编码；基于每路目标音轨对应的脉冲调制编码、以及每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机播放目标音轨。在上述过程中，能够在待播放视频包含的多路音轨中，根据不同的用户需求确定需要播放的多路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系，以此使得不同播放耳机，同时播放同一待播放视频包含的多路目标音轨，实现多路音轨的播放，满足不同用户的对待播放视频的音频播放需求，使得各个用户能够收听到自己需要的音频，提升用户体验。

图4A为本公开实施例提供的另一种音频处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，参考图4A所示，在执行S33之前，还包括：

S41，获取每路目标音轨对应的参数信息。

其中，参数信息包括音频采样率、声道数量以及码率，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

S42，基于每路目标音轨对应的参数信息，建立每路目标音轨对应的预设解码器。

其中，预设解码器包括硬解码器和软解码器，硬解码器是基于独立的硬件芯片进行建立的解码器，通过硬解码器能够提高对目标音轨的解码效率，软解码器是根据编码进行建立的解码器。

具体的，对于每路目标音轨，获取每路目标音轨对应的参数信息，如音频采样率、声道数量以及码率，根据每路目标音轨对应的参数信息，对每路目标音轨建立对应的解码器。

可选的，在上述实施例的基础上，图4B为本公开实施例提供的再一种音频处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，参考图4B所示，S42的一种实现方式可以是：

S421，对每路目标音轨的音频采样率、声道数量以及码率进行乘积运算，得到每路目标音轨的乘积运算结果。

具体的，获取每路目标音轨的音频采样率、声道数量以及码率之后，对每路目标音轨的音频采样率、声道数量以及码率进行乘积运算，计算得到每路目标音轨的乘积运算结果。

需要说明的是，通过计算得到的每路目标音轨的乘积运算结果，能够确定最大乘积运算结果对应的目标音轨，为多路目标音轨中的最优目标音轨，即播放音质最优的目标音轨。

S422，针对最大乘积运算结果对应的目标音轨，建立硬解码器，并对其他目标音轨，建立软解码器。

具体的，在计算得到每路目标音轨的乘积运算结果之后，对于具有最大乘积运算结果的目标音轨，由于该目标音轨为多路目标音轨中的最优目标音轨，即播放音质最优的目标音轨，由于在对其进行解码时所需要的资源较多，因此对该最优目标音轨建立硬解码器，通过硬件芯片提供解码过程中的资源，以此提高对最大乘积运算结果对应的目标音轨解码的效率，针对其他的目标音轨，则建立软解码器。

示例性的，承接上述实施例，对于待播放视频包含的5路音轨：音轨1、音轨2、音轨3、音轨4以及音轨5，确定音轨2、音轨3为两路目标音轨，即为目标音轨1、目标音轨2，获取目标音轨1和目标音轨2分别对应的音频采样率、声道数量以及码率，并进行乘积运算，得到目标音轨1和目标音轨2分别对应的乘积运算结果1、乘积运算结果2，确定乘积运算结果1是大于乘积运算结果2的，因此对目标音轨1建立硬解码器，对目标音轨2建立软解码器，但不限于此，本公开不具体限制，本领域技术人员可根据实际情况设置。

这样，本公开实施例中提供的音频处理方法，在上述过程中，通过根据每路目标音轨对应的音频采样率、声道数量以及码率进行乘积运算，并根据乘积运算结果，对最大乘积运算结果对应的目标音轨，建立硬解码器，对其他路目标音轨，则建立软解码器，以此能够利用独立的硬件芯片对具有最优音质的目标音轨进行解码过程中提供资源，以此提高对最优目标音轨解码的效率，且节省的智能设备的资源，也在一定程度上保证了其他路目标音轨解码的效率。

可选的，图5A为本公开实施例提供的又一种音频处理方法的流程示意图。图5B为本公开实施例提供的又一种通过多路音轨进行播放的过程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。

参考图5A所示，在执行S34时，还包括：

S51，在通过每路目标音轨对应的播放耳机播放目标音轨时，基于目标同步时钟，同步播放待播放视频包含的视频和字幕。

其中，目标同步时钟是用来保证多路目标音轨、字幕以及视频能够同步进行播放的。

具体的，在通过每路目标音轨对应的播放耳机播放目标音轨时，根据目标同步时钟，相对应的播放待播放视频包含的视频和字幕。

这样，本公开实施例中提供的音频处理方法，在上述过程中，利用目标同步时钟，以保证待播放视频包含的视频、字幕、以及多路目标音轨能够同步播放。

可选的，图6A为本公开实施例提供的又一种音频处理方法的流程示意图。图6B为本公开实施例提供的又一种通过多路音轨进行播放的过程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。

参考图6A所示，对S51的一种实现方式可以是：

S61，对待播放视频包含的视频以及字幕分别对应的基本码流进行解码处理，得到视频以及字幕分别对应的初始数据。

其中，初始数据是指视频以及字幕分别对应未压缩的原始数据。

具体的，对于待播放视频包含的视频以及字幕，根据视频对应的解码器，对视频的基本码流进行解码处理，根据字幕对应的解码器，对字幕的基本码流进行解码处理，以此得到视频和字幕分别对应的初始数据，具体对基本码流解码处理的过程参考现有技术，此处不再赘述。

S62，基于目标同步时钟以及视频和字幕分别对应的初始数据，同步播放待播放视频包含的视频和字幕。

具体的，在得到得到视频和字幕分别对应的初始数据之后，根据目标同步时钟，利用视频和字幕分别对应的初始数据进行渲染，以此和多路目标音轨同步播放待播放视频包含的视频和字幕。

可选的，图7为本公开实施例提供的又一种音频处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。参考图7所示，在执行S61之前，还包括：

S71，确定每路目标音轨对应的音频时钟。

S72，在多个音频时钟中，确定目标同步时钟。

其中，目标同步时钟用于同步播放待播放视频包含的视频、字幕以及至少两路目标音轨。

具体的，对于在多路音轨中确定的多路目标音轨，针对多路目标音轨中的每路目标音轨，确定每路目标音轨对应的音频时钟，并在多个音频时钟中，选择一个音频时钟，作为同步播放待播放视频包含的视频、字幕以及至少两路目标音轨的目标音轨。

可选的，在上述实施例的基础上，在本公开一些实施例中，S72的实现方式包括但不限于以下两种方式，可选的，图8为本公开实施例提供的又一种音频处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。参考图8所示，S72的一种实现方式可以是：

S81，基于每路目标音轨的乘积运算结果，确定最大乘积运算结果对应的第一目标音轨。

S82，将第一目标音轨的音频时钟作为目标同步时钟。

具体的，由于通过每路目标音轨对应的参数信息，即音频采样率、声道数量以及码率进行乘积运算，得到每路目标音轨对应的乘积运算结果，能够确定最大乘积运算结果对应的第一目标音轨为多路目标音轨中，具有最优音质的播放音轨，因此，根据每路目标音轨的乘积运算结果，在确定最大乘积运算结果对应的第一目标音轨之后，将第一目标音轨的音频时钟作为目标同步时钟，以此使得其他路目标音轨、待播放视频包括的视频、字幕能够同步进行播放。

这样，本公开实施例中提供的音频处理方法，在上述过程中，根据通过每路目标音轨对应的参数信息，确定多路目标音轨中具有最优音质的播放音轨，以具有最优音质的目标音轨对应的音频时钟作为目标同步时钟，以此在待播放视频播放过程中，保证视频、字幕以及多路目标音轨进行渲染播放的流畅度，使得播放更加平滑顺畅。

可选的，在上述实施例的基础上，图9为本公开实施例提供的又一种音频处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。参考图9所示，S72的另一种实现方式可以是：

S91，在对每路目标音轨建立对应的预设解码器时，确定最后一个完成建立预设解码器对应的第二目标音轨。

S92，将第二目标音轨的音频时钟作为目标同步时钟。

具体的，对于每路目标音轨，需要建立对应的预设解码器，在对多路目标音轨建立分别对应的预设解码器时，确定最后完成建立预设解码器的第二目标音轨，并将该第二目标音轨对应的音频时钟作为目标同步时钟，以此使得其他路目标音轨、待播放视频包括的视频、字幕能够同步进行播放。

这样，本公开实施例中提供的音频处理方法，在上述过程中，将最后完成建立预设解码器的第二目标音轨对应的音频时钟作为目标同步时钟，以此在待播放视频播放过程中，保证视频、字幕以及多路目标音轨进行渲染播放的流畅度，使得播放更加平滑顺畅。

这样，本公开实施例中提供的音频处理方法，在上述过程中，可选的，在上述实施例的基础上，在本公开一些实施例中，还包括：

当接收到用户输入的切换指令时，将正在播放目标音轨进行切换。

具体的，针对待播放视频，不同用户基于各自需要对应的目标音轨进行播放时，当存在用户需要切换播放的目标音轨时，智能设备接收用户输入的切换指令，并响应于该用户输入的切换指令，将该用户正在播放的目标音轨进行切换处理，继而采用该用户当前需要收听的目标音轨进行播放。

需要说明的是，对于目标音轨切换过程中，当切换的目标音轨为软解码器对应的任意一路目标音轨或多路目标音轨，或者是硬解码器对应的目标音轨时，在切换完成时，仍以硬解码器对应的音频时钟作为目标同步时钟，进行待播放视频包含的视频、字幕以及多路目标音频的播放。

可选的，当对当前播放的多路目标音轨均进行切换时，则进一步在进行切换多路目标音轨的过程中，重新确定目标同步时钟，具体确定目标同步时钟的实现方式，参考上述实施例S81-S82，或者是S91-S92，本公开不具体限制，本领域技术人员可根据实际情况设置。

这样，本公开实施例中提供的音频处理方法，在上述过程中，能够在播放待播放视频的过程中，实时的根据用户对播放音轨的需求，对目标音轨进行切换处理，提升了用户的体验度。

图10为本公开实施例提供的一种音频处理装置的结构示意图。该装置可实现本公开任意实施例所述的音频处理方法。该装置具体包括如下：多路音轨获取模块31、处理模块32、解码模块33以及播放模块34。

其中，多路音轨获取模块31，用于在确定待播放视频包含多路音轨的情况下，对所述待播放视频进行解析处理，获取所述待播放视频的多路音轨；

处理模块32，用于在所述多路音轨中确定至少两路目标音轨，并建立每路所述目标音轨与每个播放耳机的对应关系；

解码模块33，用于基于每路所述目标音轨对应的预设解码器，对每路所述目标音轨进行解码处理之后，得到每路所述目标音轨对应的脉冲调制编码；

播放模块34，用于基于每路所述目标音轨对应的脉冲调制编码、以及每路所述目标音轨与每个播放耳机的对应关系，通过每路所述目标音轨对应的播放耳机播放所述目标音轨。

作为本公开实施例一种可选的实施方式，所述装置还包括：预设解码器建立模块，用于获取每路所述目标音轨对应的参数信息；基于每路所述目标音轨对应的参数信息，建立每路所述目标音轨对应的所述预设解码器。

作为本公开实施例一种可选的实施方式，所述预设解码器包括硬解码器和软解码器；所述参数信息包括：音频采样率、声道数量以及码率；

预设解码器建立模块，具体用于对每路所述目标音轨的音频采样率、声道数量以及码率进行乘积运算，得到每路所述目标音轨的乘积运算结果；针对最大乘积运算结果对应的所述目标音轨，建立所述硬解码器，并对其他所述目标音轨，建立所述软解码器。

作为本公开实施例一种可选的实施方式，播放模块34，还用于在通过每路所述目标音轨对应的播放耳机播放所述目标音轨时，基于目标同步时钟，同步播放所述待播放视频包含的视频和字幕。

作为本公开实施例一种可选的实施方式，解码模块33，还用于对所述待播放视频包含的视频以及字幕分别对应的基本码流进行解码处理，得到视频以及字幕分别对应的初始数据；

播放模块34，具体用于基于所述目标同步时钟以及所述视频和所述字幕分别对应的初始数据，同步播放所述待播放视频包含的视频和字幕。

作为本公开实施例一种可选的实施方式，所述装置还包括：确定模块，用于确定每路所述目标音轨对应的音频时钟；在多个音频时钟中，确定目标同步时钟，其中，所述目标同步时钟用于同步播放所述待播放视频包含的视频、字幕以及至少两路目标音轨。

作为本公开实施例一种可选的实施方式，确定模块，具体用于基于每路所述目标音轨的乘积运算结果，确定最大乘积运算结果对应的第一目标音轨；将所述第一目标音轨的音频时钟作为所述目标同步时钟。

作为本公开实施例一种可选的实施方式，确定模块，具体用于在对每路所述目标音轨建立对应的所述预设解码器时，确定最后一个完成建立所述预设解码器对应的第二目标音轨；将所述第二目标音轨的音频时钟作为所述目标同步时钟。

作为本公开实施例一种可选的实施方式，所述装置还包括：切换模块，用于当接收到用户输入的切换指令时，将正在播放所述目标音轨进行切换。

这样，本实施例通过多路音轨获取模块用于在确定待播放视频包含多路音轨的情况下，对待播放视频进行解析处理，获取待播放视频的多路音轨；处理模块用于在多路音轨中确定至少两路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系；解码模块用于基于每路目标音轨对应的预设解码器，对每路目标音轨进行解码处理之后，得到每路目标音轨对应的脉冲调制编码；播放模块用于基于每路目标音轨对应的脉冲调制编码、以及每路目标音轨与每个播放耳机的对应关系，通过每路目标音轨对应的播放耳机播放目标音轨。在上述过程中，能够在待播放视频包含的多路音轨中，根据不同的用户需求确定需要播放的多路目标音轨，并建立每路目标音轨与每个播放耳机的对应关系，以此使得不同播放耳机，同时播放同一待播放视频包含的多路目标音轨，实现多路音轨的播放，满足不同用户的对待播放视频的音频播放需求，使得各个用户能够收听到自己需要的音频，提升用户体验。

图11是本公开实施例提供的一种智能设备的结构示意图。如图11所示，该智能设备包括处理器1010和存储装置1020；智能设备中处理器1010的数量可以是一个或多个，图10中以一个处理器1010为例；智能设备中的处理器1010和存储装置1020可以通过总线或其他方式连接，图10中以通过总线连接为例。

存储装置1020作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开实施例中的音频处理方法对应的程序指令/模块。处理器1010通过运行存储在存储装置1020中的软件程序、指令以及模块，从而执行智能设备的各种功能应用以及数据处理，即实现本公开实施例所提供的音频处理方法。

存储装置1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置1020可进一步包括相对于处理器1010远程设置的存储器，这些远程存储器可以通过网络连接至智能设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本实施例提供的一种智能设备可用于执行上述任意实施例提供的音频处理方法，具备相应的功能和有益效果。

本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述音频处理方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种音频处理方法，其特征在于，包括：

在确定待播放视频包含多路音轨的情况下，对所述待播放视频进行解析处理，获取所述待播放视频的多路音轨；

2.根据权利要求1所述的方法，其特征在于，所述基于每路所述目标音轨对应的预设解码器，对每路所述目标音轨进行解码处理之前，还包括：

获取每路所述目标音轨对应的参数信息；

3.根据权利要求2所述的方法，其特征在于，所述预设解码器包括硬解码器和软解码器；所述参数信息包括：音频采样率、声道数量以及码率；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于目标同步时钟，同步播放所述待播放视频包含的视频和字幕，包括；

对所述待播放视频包含的视频以及字幕分别对应的基本码流进行解码处理，得到视频以及字幕分别对应的初始数据；

6.根据权利要求4所述的方法，其特征在于，所述对所述待播放视频包含的视频以及字幕分别对应的基本码流进行解析处理，得到视频以及字幕分别对应的初始数据之前，还包括：

确定每路所述目标音轨对应的音频时钟；

7.根据权利要求6所述的方法，其特征在于，所述在多个音频时钟中，确定目标同步时钟，包括：

将所述第一目标音轨的音频时钟作为所述目标同步时钟。

8.根据权利要求6所述的方法，其特征在于，所述在多个音频时钟，确定目标同步时钟，包括：

将所述第二目标音轨的音频时钟作为所述目标同步时钟。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种音频处理装置，其特征在于，包括：