CN118175379A

CN118175379A - 显示设备及音频处理方法

Info

Publication number: CN118175379A
Application number: CN202410176486.8A
Authority: CN
Inventors: 王海盈; 邢文峰; 徐志强; 李奎宝; 孙永瑞
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2024-06-11
Also published as: CN118175380A; CN118175377A; CN118175378A; CN114466242A; CN118175376A

Abstract

本申请涉及一种显示设备及音频处理方法，应用于音频处理技术领域，显示设备包括：控制器，被配置为：对获取到的第一音频数据进行声音分离，得到第一目标音频数据和第一背景音频数据；按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据；按照第二增益对第一背景音频数据进行增益处理，得到第二背景音频数据；其中，第一增益和第二增益根据显示设备对应的声音控制模式确定；将第二目标音频数据和第二背景音频数据进行合并，并进行音效增强处理，得到第二音频数据；音频输出接口，被配置为：输出第二音频数据。本申请可以提高音效增强的效果。

Description

显示设备及音频处理方法

本申请为在2022年01月27日提交中国专利局，申请号为2022101028969的中国专利申请的分案申请。

技术领域

本申请涉及音频处理技术领域，尤其涉及一种显示设备及音频处理方法。

背景技术

语言信息在视频中占有绝大多数的信息量，因此，用户观看视频的最基本音质需求是清晰度，尤其是人声清晰度。当视频中多种声音混在一起时，如汽车、飞机、音乐等，声音清晰度就会存在问题。

相关技术中，由于影响人声清晰度的频段集中在2kHz附近，因此可以通过滤波器提升2kHz的频率，从而使得声音清晰度得到增强，同时适当降低125～200Hz频段的能量可以减少鼻音，也能使得人声清晰度增强。但是当人声与其他声音(例如乐器声音)混在一起时，使得除人声之外的声音也会得到增强，音效增强的效果较差。

发明内容

为了解决上述技术问题，本申请提供了一种显示设备、音频处理方法、存储介质及程序产品。

根据本申请的第一方面，提供了一种显示设备，包括：

控制器，被配置为：对获取到的第一音频数据进行声音分离，得到第一目标音频数据和第一背景音频数据；

按照第一增益对所述第一目标音频数据进行增益处理，得到第二目标音频数据；

按照第二增益对所述第一背景音频数据进行增益处理，得到第二背景音频数据；其中，所述第一增益和所述第二增益根据所述显示设备对应的声音控制模式确定；

将所述第二目标音频数据和所述第二背景音频数据进行合并，并进行音效增强处理，得到第二音频数据；

音频输出接口，被配置为：输出所述第二音频数据。

在一些实施例中，所述控制器，被配置为：根据所述声音控制模式，确定所述第一音频数据对应的音效增强模式的类型；

根据所述声音控制模式，确定与所述音效增强模式的类型对应的第一增益和第二增益。

在一些实施例中，所述显示设备对应多种预设声音清晰度控制模式和/或多种预设音效模式；每种预设声音清晰度控制模式具有对应的数值，每种预设音效模式具有对应的数值；

所述声音控制模式包括：目标声音清晰度控制模式和/或目标音效模式；其中，所述目标声音清晰度控制模式为所述多种预设声音清晰度控制模式中的一种，所述目标音效模式为所述多种预设音效模式中的一种；

所述控制器，被配置为：根据所述目标声音清晰度控制模式对应的第一数值和/或所述目标音效模式对应的第二数值，确定所述第一音频数据对应的音效增强模式的类型；

根据所述第一数值和/或所述第二数值，确定与所述音效增强模式的类型对应的第一增益和第二增益。

在一些实施例中，所述控制器，被配置为：如果所述第一音频数据对应的音效增强模式的类型为声音增强模式，所述第一增益大于所述第二增益；

如果所述第一音频数据对应的音效增强模式的类型为背景增强模式，所述第一增益小于所述第二增益。

在一些实施例中，所述第一音频数据中包括至少一种属于预设声音类型的第三目标音频数据；

所述控制器，还被配置为：从所述第一音频数据中分离出至少一种所述第三目标音频数据和第三背景音频数据；

获取单个所述第三目标音频数据的第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值；

按照第三增益对所述第一声道初始目标音频数据进行增益处理，得到第一声道第一增益音频数据；按照第四增益对所述第二声道初始目标音频数据进行增益处理，得到第二声道第一增益音频数据；其中，所述第三增益和第四增益根据所述第一能量值和所述第二能量值确定；

将所述第一声道第一增益音频数据和所述第三背景音频数据的第一声道初始背景音频数据进行合并，并进行音效增强处理，得到第一声道第一增强音频数据；

将所述第二声道第一增益音频数据和所述第三背景音频数据的第二声道初始背景音频数据进行合并，并进行音效增强处理，得到第二声道第一增强音频数据；

所述音频输出接口包括：第一输出接口和第二输出接口；

所述第一输出接口被配置为：输出所述第一声道第一增强音频数据；

所述第二输出接口被配置为：输出所述第二声道第一增强音频数据。

在一些实施例中，所述控制器，还被配置为：根据所述声音控制模式、所述第一能量值和所述第二能量值，确定单个所述第三目标音频数据对应的第五增益和第六增益；

根据所述声音控制模式，确定第七增益；

按照所述第五增益对所述第一声道初始目标音频数据进行增益处理，得到第一声道第二增益音频数据；按照所述第六增益对所述第二声道初始目标音频数据进行增益处理，得到第二声道第二增益音频数据；

按照所述第七增益分别对所述第一声道初始背景音频数据和所述第二声道初始背景音频数据进行增益处理，得到第一声道增益背景音频数据和所述第二声道增益背景音频数据；

将所述第一声道第二增益音频数据和所述第一声道增益背景音频数据进行合并，并进行音效增强处理，得到第一声道第二增强音频数据；

将所述第二声道第二增益音频数据和所述第二声道增益背景音频数据进行合并，并进行音效增强处理，得到第二声道第二增强音频数据；

所述音频输出接口包括：第一输出接口和第二输出接口；

所述第一输出接口被配置为：输出所述第一声道第二增强音频数据；

所述第二输出接口被配置为：输出所述第二声道第二增强音频数据。

根据所述第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值，确定左右声道能量大小关系；

根据所述声音控制模式、所述第一能量值和所述第二能量值，确定与所述音效增强模式的类型以及所述左右声道能量大小关系对应的第五增益和第六增益；

根据所述声音控制模式，确定与所述音效增强模式的类型以及所述左右声道能量大小关系对应的第七增益。

根据本申请的第二方面，提供了一种音频处理方法，包括：

对获取到的第一音频数据进行声音分离，得到第一目标音频数据和第一背景音频数据；

按照第二增益对所述第一背景音频数据进行增益处理，得到第二背景音频数据；其中，所述第一增益和所述第二增益根据显示设备对应的声音控制模式确定；

将所述第二目标音频数据和所述第二背景音频数据进行合并，并进行音效增强处理，得到并输出第二音频数据。

在一些实施例中，所述音频处理方法还包括：

根据所述声音控制模式，确定所述第一音频数据对应的音效增强模式的类型；

在一些实施例中，显示设备对应多种预设声音清晰度控制模式和/或多种预设音效模式；每种预设声音清晰度控制模式具有对应的数值，每种预设音效模式具有对应的数值；

所述根据所述声音控制模式，确定所述第一音频数据对应的音效增强模式的类型，包括：

根据所述目标声音清晰度控制模式对应的第一数值和/或所述目标音效模式对应的第二数值，确定所述第一音频数据对应的音效增强模式的类型；

所述根据所述声音控制模式，确定与所述音效增强模式的类型对应的第一增益和第二增益，包括：

在一些实施例中，所述根据所述声音控制模式，确定与所述音效增强模式的类型对应的第一增益和第二增益，包括：

如果所述第一音频数据对应的音效增强模式的类型为声音增强模式，所述第一增益大于所述第二增益；

所述音频处理方法还包括：

从所述第一音频数据中分离出至少一种所述第三目标音频数据和第三背景音频数据；

将所述第一声道第一增益音频数据和所述第三背景音频数据的第一声道初始背景音频数据进行合并，并进行音效增强处理，得到并输出第一声道第一增强音频数据；

将所述第二声道第一增益音频数据和所述第三背景音频数据的第二声道初始背景音频数据进行合并，并进行音效增强处理，得到并输出第二声道第一增强音频数据。

在一些实施例中，所述音频处理方法还包括：

根据所述声音控制模式、所述第一能量值和所述第二能量值，确定单个所述第三目标音频数据对应的第五增益和第六增益；

根据所述声音控制模式，确定第七增益；

将所述第一声道第二增益音频数据和所述第一声道增益背景音频数据进行合并，并进行音效增强处理，得到并输出第一声道第二增强音频数据；

将所述第二声道第二增益音频数据和所述第二声道增益背景音频数据进行合并，并进行音效增强处理，得到并输出第二声道第二增强音频数据。

在一些实施例中，所述根据所述声音控制模式、所述第一能量值和所述第二能量值，确定单个所述第三目标音频数据对应的第五增益和第六增益，包括：

所述根据所述声音控制模式，确定第七增益，包括：

根据本申请的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第二方面所述的音频处理方法。

根据本申请的第四方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第二方面所述的音频处理方法。

本申请一些实施例提供的技术方案与相关技术相比具有如下优点：

从第一音频数据中分离出第一目标音频数据和第一背景音频数据后，可以按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据；按照第二增益对第一背景音频数据进行增益处理，得到第二背景音频数据。将第二目标音频数据和第二背景音频数据进行合并，并进行音效增强处理，得到并输出第二音频数据。由于第一增益和第二增益根据显示设备对应的声音控制模式确定，因此可以结合用户当前的观看需求，通过对第一目标音频数据和第一背景音频数据进行非等比例的增益处理后再合并，可以根据用户的观看需求来增强第一目标音频数据或者第一背景音频数据，从而可以提升音效增强的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请一些实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场景的示意图；

图2为根据本申请一个或多个实施例的显示设备200的硬件配置框图；

图3为根据本申请一个或多个实施例的控制设备100的硬件配置框图；

图4为根据本申请一个或多个实施例的显示设备200中软件配置示意图；

图5为根据本申请一个或多个实施例的显示设备200中应用程序的图标控件界面显示示意图；

图6A为本申请一些实施例中音频处理方法的一种系统架构的示意图；

图6B为本申请一些实施例中音频处理方法的一种示意图；

图7为声音分离的一种示意图；

图8为本申请一些实施例中音频处理方法的一种示意图；

图9A为标准录音棚或者家庭音响音箱分布角度的一种示意图；

图9B为电视机扬声器的角度的一种示意图；

图9C为改变电视机扬声器的能量分配关系的一种示意图；

图10为本申请一些实施例中函数f(x)的一种示意图；

图11A为本申请一些实施例中音频处理方法的一种系统架构的示意图；

图11B为本申请一些实施例中音频处理方法的一种示意图；

图12为本申请一些实施例中音频处理方法的一种示意图；

图13A为本申请一些实施例中音频处理方法的一种系统架构的示意图；

图13B为本申请一些实施例中音频处理方法的一种示意图；

图14为扬声器分布的一种示意图；

图15A为本申请一些实施例中音频处理方法的一种系统架构的示意图；

图15B为本申请一些实施例中音频处理方法的一种示意图；

图16为本申请一些实施例中对原唱人声音频数据进行时域变换的一种示意图；

图17为本申请一些实施例中对原唱人声音频数据进行频域变换的一种示意图；

图18为本申请一些实施例中音频处理方法的一种流程图；

图19为本申请一些实施例中音频处理方法的一种流程图；

图20为本申请一些实施例中音频处理方法的一种流程图；

图21为本申请一些实施例中音频处理方法的一种流程图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场景的示意图，如图1所示，用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信，无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200，可以液晶显示器、OLED显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。如图3所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、外部存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在外部存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

图4为根据本申请一个或多个实施例的显示设备200中软件配置示意图，如图4所示，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

图5为根据本申请一个或多个实施例的显示设备200中应用程序的图标控件界面显示示意图，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序，可以通过不同的信号源提供直播电视。视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。应用程序中心，可以提供储存各种应用程序。

本申请在安卓系统中的实现如图6A所示，安卓系统中主要包括应用层、中间件以及核心层，实现逻辑可以在中间件，中间件包括：音频解码器、声音分离模块、增益控制模块、音效增强模块和音频输出接口。音频解码器用于对通过广播信号、网络、USB或HDMI等输入的信号源进行音频解码处理，得到音频数据。声音分离模块用于对解码后的音频数据进行声音分离，例如可以通过人声分离方法，分离出人声音频和背景音频。增益控制模块可以获取用户针对显示设备的声音控制模式，分别对人声音频和背景音频进行不同的增益处理，以增强人声音频或背景音频。合并模块用于对增益处理后的人声音频和背景音频进行合并，得到合并音频数据，音效增强模块用于对合并音频数据进行音效增强处理，得到目标音频数据。音频输出接口用于输出目标音频数据。

需要说明的是，上述实现逻辑除了可以在中间件实现，也可以在核心层实现。或者，还可以在中间件和核心层实现，例如，音频解码器和声音分离模块可以在中间件实现，声音分离模块之后的模块可以在核心层实现。

与上述图6A相对应，图6B为本申请一些实施例中音频处理方法的一种示意图。音频解码器对获取的声音信号进行解码之后，可以得到第一音频数据。声音分离模块可以通过AI(人工智能)技术，通过预先训练的神经网络模型实现对第一音频数据的声音分离，得到第一目标音频数据和第一背景音频数据。例如，可以通过人声分离模型分离出人声，人声即第一目标音频数据，通过预先训练完成的汽车声分离模型分离出汽车声，汽车声即为第一目标音频数据，第一背景音频数据即为除第一目标音频数据之外的音频数据。增益控制模块根据声音控制模式可以得到第一增益和第二增益，第一增益和第二增益的值不相等。根据第一增益对第一目标音频数据进行增益处理，可以得到第二目标音频数据，根据第二增益对第一背景音频数据进行增益处理，得到第二背景音频数据。将第二目标音频数据和第二背景音频数据进行合并，并进行音效增强处理之后，得到并输出第二音频数据。本申请通过对第一目标音频数据和第一背景音频数据进行非等比例的增益处理，来增强第一目标音频数据或第一背景音频数据，从而可以提高音效增强的效果。

以下首先对本申请一些实施例的显示设备进行介绍。

在一些实施例中，上述显示设备200可以是具有显示功能的终端设备，例如电视机、智能手机、电脑、学习机等。该显示设备200包括：

控制器250，被配置为：对获取到的第一音频数据进行声音分离，得到第一目标音频数据和第一背景音频数据。

第一音频数据指包含至少两种混合声音的音频数据，例如，第一音频数据中可以包括人声和背景音乐，通过预先训练完成的人声分离模型，分离出人声，除人声之外的其他声音即为背景声。此时，第一目标音频数据即为人声，第一背景音频数据即为背景声。

参见图7，图7为声音分离的一种示意图。正常生活中的声音、影视剧作品中的声音，是由各种声音混在一起的，比如图7中声音信号1是乐器的声音，声音信号2是人唱歌的声音。混合声音信号是录音、音视频制作时将乐器的声音和人唱歌的声音混在一起的声音信号。传统的基于固定逻辑运算的音效算法，是无法在混合声音信号中分离出两种声音的，而借助AI技术可以实现声音的分离，得到与乐器相近的音频1和与人声相近的音频2。

或者，第一音频数据中包括人声、汽车声、枪炮声和背景音乐等多种混合声音，可以通过人声分离模型分离出人声，通过预先训练完成的汽车声分离模型分离出汽车声，通过预先训练完成的枪炮声分离模型分离出枪炮声。将第一音频数据中，除分离出的人声、汽车声和枪炮声之外的其他声音作为背景声。此时，第一目标音频数据可以包括人声、汽车声和枪炮声，第一背景音频数据即为背景声。

用户可以根据自己的喜好选择声音控制模式，根据该声音控制模式，可以确定第一增益和第二增益。控制器250，被配置为：按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据；按照第二增益对第一背景音频数据进行增益处理，得到第二背景音频数据。也就是，对第一目标音频数据和第一背景音频数据进行不同大小的增益处理，以增强第一目标音频数据或第一背景音频数据。之后，将第二目标音频数据和第二背景音频数据进行合并，并进行音效增强处理，得到第二音频数据。

可以理解的是，如果第一增益和第二增益均为0dB，那么将第二目标音频数据和第二背景音频数据进行合并后的信号与声音分离之前的信号是高度相似的。通过音效增强算法对合并后的信号进行音效增强处理，得到第二音频数据。其中，音效增强算法包括但不限于AGC(自动增益控制)、DRC(Dynamic range compression，动态范围规划)、EQ(均衡器)、虚拟环绕等。

音频输出接口270，被配置为：输出第二音频数据。

在一些实施例中，控制器250，被配置为：根据显示设备对应的声音控制模式，确定第一音频数据对应的音效增强模式的类型；音效增强模式的类型指用户想要增强的声音的类型，根据显示设备对应的声音控制模式，确定与音效增强模式的类型对应的第一增益和第二增益。音效增强模式的类型不同，对应的第一增益和第二增益也会不同。

在一些实施例中，根据该声音控制模式，可以先确定第一音频数据对应的音效增强模式的类型，音效增强模式的类型表示用户想要增强的声音的类型，音效增强模式的类型不同，第一增益和第二增益的确定方法也可以不同。因此，可以在音效增强模式的类型后，根据该声音控制模式，确定与音效增强模式的类型对应的第一增益和第二增益。例如，音效增强模式的类型可以包括声音增强模式和背景增强模式，声音增强模式表示用户想增强第一目标音频数据，背景增强模式表示用户想增强第一背景音频数据。

在一些实施例中，控制器250，被配置为：如果第一音频数据对应的音效增强模式的类型为声音增强模式，即增强第一目标音频数据，第一增益大于第二增益。如果第一音频数据对应的音效增强模式的类型为背景增强模式，即增强第一背景音频数据，第一增益小于第二增益。

假设第一增益是G1，第二增益是G2，如果用户想增强第一目标音频数据，可以增强第一目标音频数据，不改变第一背景音频数据，即G1可以为大于0dB的数值，G2等于0dB。如果用户想增强第一背景音频数据，可以不改变第一目标音频数据，增强第一背景音频数据，即G1等于0dB，G2为大于0dB的数值。

在一些实施例中，为了确保不出现正增益而导致音频信号出现破音，G1和G2的范围可以为[-911BB,0dB]。如果第一音频数据对应的音效增强模式的类型为声音增强模式，将第一增益设置为0dB，根据声音控制模式，确定第二增益，其中，第二增益小于0dB。这样，在不改变第一目标音频数据的情况下，通过减弱第一背景音频数据，而达到增强第一目标音频数据的目的。如果第一音频数据对应的音效增强模式的类型为背景增强模式，根据声音控制模式确定第一增益，将第二增益设置为0dB，其中，第一增益小于0dB。这样，在不改变第一背景音频数据的情况下，通过减弱第一目标音频数据，而达到增强第一背景音频数据的目的。

在一些实施例中，显示设备对应多种预设声音清晰度控制模式和/或多种预设音效模式。用户可以根据自己的需要和喜好调整人声清晰的程度，从多个预设声音清晰度控制模式中选取目标声音清晰度控制模式，每种预设声音清晰度控制模式具有对应的数值。例如多个预设声音清晰度控制模式分为多个不同的等级，每个等级对应不同的数值。用户也可以从多种预设音效模式(例如标准模式、音乐模式、电影模式等)中选取目标音效模式，每种预设音效模式具有对应的数值。

其中，预设声音清晰度控制模式表示显示设备的声音清晰程度，可以包括多个不同的等级。如果预设声音清晰度控制模式对应的数值为M1，用户可以通过菜单调整声音的清晰程度，为了简化计算，菜单调整数值可以被归一化为[0,1]内的数值，即M1为大于等于0，且小于等于1的数值。假设0.5表示显示设备出厂时的默认数值，大于0.5表示声音的清晰程度更高，小于0.5表示声音的清晰程度更低。

预设音效模式表示显示设备所处的声音效果模式，可以包括标准音效、音乐音效、电影音效和新闻音效等。如果预设音效模式对应的数值为M2，M2也可以为归一化数值，假设标准模式下M2的值为0.5，音乐模式下M2的值为0.6，电影模式下M2的值为0.7，新闻模式下M2的值为0.8。

显示设备对应的声音控制模式包括：目标声音清晰度控制模式和/或目标音效模式；其中，目标声音清晰度控制模式为多种预设声音清晰度控制模式中的一种，目标音效模式为多种预设音效模式中的一种。控制器250，被配置为：根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一音频数据对应的音效增强模式的类型。即可以根据第一数值和/或第二数值得到一个数值，根据该数值可以判断音效增强模式的类型。进一步地，根据第一数值和/或第二数值，确定与音效增强模式的类型对应的第一增益和第二增益。

在一些实施例中，根据第一数值和第二数值可以得到第三数值，并基于第三数值确定音效增强模式的类型。假设归一化场景下，第三数值可以为1时，表示不增强第一目标音频数据和第一背景音频数据。第三数值大于1时，表示增强第一目标音频数据，第三数值小于1时，表示增强第一背景音频数据。在一些实施例中，第三数值T可以表示为以下公式：

T＝(2×M1)×(2×M2)(1)

可以理解的是，标准模式下M1和M2的值不同，第三数值T的表达式也可以不同。

举例而言，在用户对显示设备的声音控制模式未进行调整的情况下，目标声音清晰度控制模式对应的第一数值为0.5，目标音效模式对应的第二数值也为0.5，此时T等于1，第一增益G1和第二增益G2均可以为0dB，也就是不对第一目标音频数据和第一背景音频数据进行增益处理。

如果用户对显示设备的声音控制模式进行了调整，假设目标声音清晰度控制模式对应的第一数值为0.7，目标音效模式对应的第二数值为0.8。此时T的值大于1，即增强第一目标音频数据。如前所述，G1和G2均为不大于0dB的数，因此可以将G1设置为0，G2设置为小于0的数值，在一些实施例中，G2可以表示为以下公式：

当然，G2的确定方式不限于此，例如，可以对该公式(2)进行简单变形等。

反之，如果用户对显示设备的声音控制模式进行调整后，T的值小于1，表示增强第一背景音频数据。此时，可以将G2设置为0，G1设置为小于0的数值。在一些实施例中，G1可以表示为以下公式：

当然，G1的确定方式不限于此，例如，可以对该公式(3)进行简单变形等。

参见图8，图8为本申请一些实施例中音频处理方法的一种示意图。在立体声显示设备中，音频解码器在进行解码之后，左右声道的音频数据被独立地进行人声分离、增益处理及音效增强处理之后，送入相应的扬声器。

由于显示设备的扬声器多数位于显示设备底部并朝下发声，并且因为两个扬声器之间距离较近(一般在0.3～0.8米左右)，而人的观看距离一般都是2.0～2.5米左右，角度只有8°～14°。人的方位分辨极限约为5°，也就是说，显示设备两个扬声器的距离比较接近人的方位分辨极限。而一般立体声音源创造时(标准录音棚)，左右两个声道的角度为60°。参见图9A,图9A为标准录音棚或者家庭音响音箱分布角度的一种示意图。可以看出，左右两个声道的角度为60°。音源在创作时，一般声音不会只在一个声道里面存在，而是两个声道同时都有声音，创作者想要表现声音在左边时，会让左边的声音比右边的大，相反地，想要表现声音在右侧时，会让右侧的声音比左侧大。

然而这样的创作是基于60°的角度而制作的，参见图9B,图9B为电视机扬声器的角度的一种示意图。在该角度下，所有声音元素的虚拟声像都被缩小了，与创作者基于60°扬声器创作的意图不同。当两个扬声器的角度降低为8°～14°时，如果左右声道配比还是按照原来配比，观众得到是声音映像会变得很模糊，很难听出来声音的方位感。

为了提升方位感，在扬声器等物理条件不变的情况下，可以通过改变声音在左右扬声器中的信号配比。比如片源中某个声音在左右声道的能量分布关系为7:3，通过改变能量分配关系到8:2或者9:1，能够增强声场的位置感。参见图9C,图9C为改变电视机扬声器的能量分配关系的一种示意图。可以看出，在改变能量分配关系之后，在观众的主观听感下汽车更靠近左扬声器。

通常情况下，影视剧中用于烘托气氛的背景音乐在左右声道中的能量是基本相同或者是信号是完全相同的，只是用于表现方位感的典型声音会被分配到不同的声道中，用于表现方位感，典型声音包括但不限于人声、枪炮声、汽车声、飞机声等。如果仍然按照上述方法测算左右声道的能量，然后简单改变两个声道的能量配比，将导致声像居中的背景音乐的中心也被改变，因此该方法是不可取的。

在一些实施例中，第一音频数据中包括至少一种属于预设声音类型(例如表现方位感的声音类型)的第三目标音频数据，第三目标音频数据包括但不限于人声、枪炮声、汽车声、飞机声等。

为了解决上述问题，控制器250，还被配置为：从第一音频数据中分离出至少一种第三目标音频数据和第三背景音频数据。

如前所述，第一音频数据指包含至少两种混合声音的音频数据，可以通过训练完成的、不同的神经网络模型从第一音频数据中分离出人声、枪炮声、汽车声等，第三目标音频数据是一种类型的音频数据，第一音频数据中可以包括一种或多种第三目标音频数据，第一音频数据中除第三目标音频数据之外的音频数据即为第三背景音频数据。例如，第一音频数据中包括人声和汽车声时，第一音频数据中包括两种第三目标音频数据，分别为人声和汽车声，除人声和汽车声之外的声音即为背景声。针对每种第三目标音频数据，均可以执行下述过程。

由于第三目标音频数据用于表现方位感，第三目标音频数据包括至少两个不同声道(例如第一声道和第二声道)的音频数据。在一些实施例中，第一声道和第二声道分别可以为左声道和右声道。例如，第三目标音频数据中包括两个声道的音频数据，即第一声道初始目标音频数据和第二声道初始目标音频数据。第一声道初始目标音频数据和第二声道初始目标音频数据分别可以为左声道音频数据和右声道音频数据。再比如，下述的第一声道初始背景音频数据和第二声道初始背景音频数据分别可以为左声道初始背景音频数据和右声道初始背景音频数据。

可以理解的是，第三目标音频数据中的第一声道初始目标音频数据和第二声道初始目标音频数据的能量是不同的，因此，可以获取单个第三目标音频数据的第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值，根据第一能量值和第二能量值确定第一声道初始目标音频数据对应的第三增益，和第二声道初始目标音频数据对应的第四增益。

按照第三增益对第一声道初始目标音频数据进行增益处理，得到第一声道第一增益音频数据，即增益处理后的第一声道音频数据；按照第四增益对第二声道初始目标音频数据进行增益处理，得到第二声道第一增益音频数据，即增益处理后的第二声道音频数据；其中，第三增益和第四增益根据第一能量值和第二能量值确定。这样，分别按照第三增益对第一声道初始目标音频数据进行增益处理和按照第四增益对第二声道初始目标音频数据进行增益处理，可以进一步提高第三目标音频数据的方位感。同时，可以不改变第三背景音频数据的中心。

例如，如果第一声道初始目标音频数据的第一能量值大于第二声道初始目标音频数据的第二能量值，第三增益可以大于第四增益，例如可以将第三增益设置为大于0dB的数值，第四增益设置为0dB，即对第二声道初始目标音频数据不做增益处理。如果第一能量值等于第二能量值，表示两者能量相等，第三增益等于第四增益，或者可以不作处理。如果第一能量值小于第二能量值，第三增益可以小于第四增益，例如将第三增益设置0dB，即对第一声道初始目标音频数据不做增益处理，第四增益设置为大于0dB的数值。

在一些实施例中，为了确保不出现正增益而导致音频信号出现破音，如果第一能量值大于第二能量值，可以将第三增益设置为0dB，根据第一能量值和第二能量值确定第四增益，其中，第四增益小于0dB。按照第三增益对第一声道初始目标音频数据进行增益处理，得到第一声道第一增益音频数据；按照第四增益对第二声道初始目标音频数据进行增益处理，得到第二声道第一增益音频数据。

如果第一能量值小于第二能量值，可以根据第一能量值和第二能量值确定第三增益，第三增益小于0dB，将第四增益设置为0dB。按照第三增益对第一声道初始目标音频数据进行增益处理，得到第一声道第一增益音频数据；按照第四增益对第二声道初始目标音频数据进行增益处理，得到第二声道第一增益音频数据。

最后，将第一声道第一增益音频数据和第三背景音频数据的第一声道初始背景音频数据进行合并，并进行音效增强处理，得到第一声道第一增强音频数据；将第二声道第一增益音频数据和第三背景音频数据的第二声道初始背景音频数据进行合并，并进行音效增强处理，得到第二声道第一增强音频数据。

通过获取第三目标音频数据的第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值，可以分析第一声道初始目标音频数据和第二声道初始目标音频数据的能量大小关系，根据该能量大小关系，对第一声道初始目标音频数据和第二声道初始目标音频数据进行不同的增益处理，从而使能量高的声道的音频数据更强，以更好的提升声音的方位感，提升音效增强的效果。

需要说明的是，在第三目标音频数据中包含更多个声道的音频数据的情况下，处理过程与此类似，在此不再赘述。

音频输出接口270包括：第一输出接口和第二输出接口；第一输出接口被配置为：输出第一声道第一增强音频数据；第二输出接口被配置为：输出第二声道第一增强音频数据。

在一些实施例中，还可以同时考虑声音控制模式、第一能量值和第二能量值，来对第三目标音频数据和第三背景音频数据进行增益处理。控制器250，还被配置为：根据显示设备对应的声音控制模式、第一能量值和第二能量值，确定单个第三目标音频数据对应的第五增益和第六增益。第五增益和第六增益分别是第三目标音频数据的第一声道初始目标音频数据和第二声道初始目标音频数据对应的增益。第五增益和第六增益可以不同。

根据显示设备对应的声音控制模式，确定第七增益；其中，第七增益指第三背景音频数据对应的增益，由于不改变第三背景音频数据的中心，因此，第七增益用于对第一声道初始背景音频数据和第二声道初始背景音频数据进行增益处理，即，对第一声道初始背景音频数据和第二声道初始背景音频数据进行相同的增益处理。

之后，按照第五增益对第一声道初始目标音频数据进行增益处理，得到第一声道第二增益音频数据，即增益处理后的第一声道音频数据。按照第六增益对第二声道初始目标音频数据进行增益处理，得到第二声道第二增益音频数据，即增益处理后的第二声道音频数据；按照第七增益分别对第一声道初始背景音频数据和第二声道初始背景音频数据进行增益处理，得到第一声道增益背景音频数据(即增益处理后第一声道的背景音频数据)和第二声道增益背景音频数据(即增益处理后第二声道的背景音频数据)。

需要说明的是，第一声道第二增益音频数据和前述的第一声道第一增益音频数据均是对第一声道初始目标音频数据进行增益处理后的第一声道音频数据，区别在于在增益处理时所对应的增益值不同。同样地，第二声道第二增益音频数据和前述的第二声道第一增益音频数据均是对第二声道初始目标音频数据进行增益处理后的第二声道音频数据，区别在于在增益处理时所对应的增益值不同。

音频输出接口270包括：第一输出接口和第二输出接口；第一输出接口被配置为：输出第一声道第二增强音频数据；第二输出接口被配置为：输出第二声道第二增强音频数据。

在一些实施例中，控制器250，被配置为：根据显示设备对应的声音控制模式，确定第一音频数据对应的音效增强模式的类型；根据第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值，确定左右声道能量大小关系。根据显示设备对应的声音控制模式、第一能量值和第二能量值，确定与音效增强模式的类型以及左右声道能量大小关系对应的第五增益和第六增益；根据显示设备对应的声音控制模式，确定与音效增强模式的类型以及左右声道能量大小关系对应的第七增益。

音效增强模式的类型不同，对第三目标音频数据和第三背景音频数据的增益处理方式不同。左右声道能量大小关系不同，对第一声道初始目标音频数据和第二声道初始目标音频数据的增益处理方式也不同。音效增强模式的类型用于确定增强第三目标音频数据还是第三背景音频数据，左右声道能量大小关系用于确定增强第一声道初始目标音频数据还是第二声道初始目标音频数据。因此，不同的音效增强模式的类型以及左右声道能量大小关系，对应不同的第五增益、第六增益和第七增益。

例如，如果音效增强模式的类型为声音增强模式，第五增益和第六增益均大于第七增益，如果第一能量大于第二能量，第五增益大于第六增益。如果第一能量等于第二能量，第五增益可以等于第六增益。如果第一能量小于第二能量，第五增益小于第六增益。

如果音效增强模式的类型为背景增强模式，第五增益和第六增益均小于第七增益，如果第一能量大于第二能量，第五增益大于第六增益。如果第一能量等于第二能量，第五增益可以等于第六增益。如果第一能量小于第二能量，第五增益小于第六增益。

在一些实施例中，在声音增强模式下，第三数值T可以大于1，假设第一能量值为P_L，第二能量值为P_R，如果P_L大于P_R，此时，第五增益可以等于0dB，第六增益和第七增益均小于0dB。例如，第五增益G_1L＝0dB，第六增益可以表示为以下公式：

第七增益可以表示为以下公式：

如果第三数值T大于1，P_L小于等于P_R，此时，第六增益等于0dB，第五增益和第七增益均小于0dB。例如，第五增益可以表示为以下公式：

第六增益G_1R＝0dB，第七增益可以表示为以下公式：

如果第三数值T小于等于1，P_L大于P_R，此时，第五增益和第六增益均小于0，第七增益等于0dB。例如，第五增益可以表示为以下公式：

G_1L＝20×logT(8)

第六增益可以表示为以下公式：

第七增益G₂＝0dB。

如果第三数值T小于等于1，P_L小于等于P_R，此时，第五增益和第六增益均小于0dB，第七增益等于0dB。例如，第五增益可以表示为以下公式：

第六增益可以表示为以下公式：

G_1R＝20×logT(11)

第七增益G₂＝0dB。

其中，x在(0.5,1)之间时，f(x)>x，x在(0,0.5)之间时，f(x)<x，在x等于0.5时，f(x)＝0.5。参见图10，图10为本申请一些实施例中函数f(x)的一种示意图，可以看出，f(x)随x的变化趋势满足上述关系。需要说明的是，f(x)随x的变化趋势不限于此，例如可以是指数型、抛物线型或多种形式的组合等，只要满足上述关系即可。

需要说明的是，第五增益、第六增益和第七增益的确定方式不限于此，例如，可以对上述公式的简单变形等。并且，第五增益、第六增益和第七增益也可以大于等于0dB。

控制器250被配置为：将第一声道第二增益音频数据和第一声道增益背景音频数据进行合并，并进行音效增强处理，得到并输出第一声道第二增强音频数据；将第二声道第二增益音频数据和第二声道增益背景音频数据进行合并，并进行音效增强处理，得到并输出第二声道第二增强音频数据。

本申请还可以同时考虑控制模式和第一声道初始目标音频数据和第二声道初始目标音频数据的能量大小关系，来确定第一声道初始目标音频数据和第二声道初始目标音频数据分别对应的增益值，从而可以进一步提升音效增强的效果。

如前所述，声音分离算法通常使用人工智能技术，声音经过人工智能处理后，再经过音效增强处理，有可能导致声音处理所需要的时长比较长，从而在扬声器输出的时间晚于图像，即出现音画不同步的问题。为了解决该问题，本申请还提供了一种解决方案。

该方案在安卓系统中的实现可以如图11A所示，安卓系统中主要包括应用层、中间件以及核心层，实现逻辑可以在中间件，中间件包括：音频解码器、声音分离模块、音效增强模块、增益控制模块、延时模块和音频输出接口。音频解码器用于对通过广播信号、网络、USB或HDMI等输入的信号源进行音频解码处理，得到音频数据。声音分离模块用于对解码后的音频数据进行声音分离，例如可以通过人声分离方法，分离出人声音频。音效增强模块用于对解码后的音频数据进行音效增强处理，增益控制模块可以获取用户针对显示设备的声音控制模式，分别对分离出的音频和音效增强后的音频进行不同的增益处理。由于声音分离和音效增强所消耗的时长通常会不同，因此，延时模块可以对增益处理后的两个音频数据进行延时处理。合并模块用于对增益处理后的两个音频进行合并，得到合并音频数据。音频输出接口用于输出合并后的音频数据。

需要说明的是，上述实现逻辑除了可以在中间件实现，也可以在核心层实现。或者，还可以在中间件和核心层实现，例如，音频解码器和声音分离模块可以在中间件实现，剩余其他模块可以在核心层实现。

与上述图11A相对应，图11B为本申请一些实施例中音频处理方法的一种示意图。音频解码器对获取的声音信号进行解码之后，可以得到第一音频数据。声音分离模块可以通过AI技术，通过预先训练的神经网络模型实现对第一音频数据的声音分离，得到第一目标音频数据。第一目标音频数据可以是人声、汽车声等。同时，可以对第一音频数据进行音效增强处理之后，得到第二音频数据。增益控制模块根据声音控制模式可以得到第一增益和第二增益，第一增益和第二增益的值不相等。根据第一增益对第一目标音频数据进行增益处理，可以得到第二目标音频数据，根据第二增益对第二音频数据进行增益处理，得到第三音频数据。根据声音分离模块所消耗的时长和音效增强模块所消耗的时长，确定对第二目标音频数据进行延迟处理，或者，对第三目标音频数据进行延时处理。之后，将第二目标音频数据和第三音频数据进行合并。

可以看出，通过声音分离可以只分离出一种声音，即第一目标音频数据，而不用分离出背景声，从而减少声音分离所消耗的时长。并且，将声音分离和音效增强进行并行处理，而不是串行处理，可以进一步缩短整个音频处理流程所消耗的时长，从而提升音画同步的效果。

基于此，本申请一些实施例还提供了一种显示设备200包括：

控制器250，还可以被配置为：对获取到的第一音频数据分别进行声音分离和音效增强处理，得到第一目标音频数据和第二音频数据。

第一音频数据指包含至少两种混合声音的音频数据，例如，第一音频数据中可以包括人声和背景音乐等。第一目标音频数据通常指用户想增强的音频数据，可以是人声或其他声音等，例如适用于在观看影视剧、听音乐等场景。通过预先训练完成的人声分离模型，可以分离出人声，此时，第一目标音频数据即为人声。或者，第一音频数据中包括人声、汽车声、枪炮声和背景音乐等多种混合声音，可以通过预先训练完成的汽车声分离模型分离出汽车声，此时，第一目标音频数据即为汽车声。上述声音分离过程，可以只分离出一种声音(第一目标音频数据)即可。与分离出多种声音相比，可以减少分离过程所消耗的时长。

本申请还可以对第一音频数据进行音效增强处理，为了降低音频处理的总时长，音效增强的处理过程和声音分离的处理过程可以并行处理，而不是串行处理，可以进一步缩短整个音频处理流程所消耗的时长，从而提升音画同步的效果。其中，音效增强算法包括但不限于自动增益控制、动态范围规划、均衡器、虚拟环绕等。

按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据；按照第二增益对第二音频数据进行增益处理，得到第三音频数据，其中，第一增益和第二增益根据显示设备对应的声音控制模式确定。通过不同的增益分别对第一目标音频数据和第二音频数据进行增益处理，以提高音效增强的整体效果。

在一些实施例中，显示设备对应多种预设声音清晰度控制模式和/或多种预设音效模式；每种预设声音清晰度控制模式具有对应的数值，每种预设音效模式具有对应的数值。用户可以根据自己的需要和喜好对显示设备的声音控制模式进行调整。显示设备获取到用户设置的声音控制模式后，显示设备对应的声音控制模式包括：目标声音清晰度控制模式和/或目标音效模式；其中，目标声音清晰度控制模式为多种预设声音清晰度控制模式中的一种，目标音效模式为多种预设音效模式中的一种。因此，根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一增益和第二增益，其中，第一增益可以大于第二增益。

如前所述，第一目标音频数据通常指用户想增强的音频数据。因此，在音效增强模式的类型包括声音增强模式和背景增强模式的情况下，可以适用于声音增强模式的场景。假设归一化场景下，根据第一数值和第二数值得到第三数值，第三数值大于1时，增强第一目标音频数据。在一些实施例中，第三数值T可以表示为：(2×M1)×(2×M2)，可以理解的是，标准模式下M1和M2的值不同，第三数值T的表达式也可以不同。

在一些实施例中，为了确保不出现正增益而导致音频信号出现破音，第一增益和第二增益可以小于等于0dB。例如，可以将第一增益设置为0dB；根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第二增益，使第二增益小于0dB。需要说明的是，第一增益和第二增益的确定方法可参见前述实施例中的描述即可，在此不再赘述。

由于对第一音频数据进行声音分离的过程和音效增强处理的过程可以并行处理，而对第一音频数据进行声音分离所消耗的时长和音效增强处理所消耗的时长通常会不同，因此，如果直接将第二目标音频数据和第三音频数据合并，会出现声音信号无法重叠，而导致回音的问题。

为了解决该问题，可以对第二目标音频数据或第三音频数据进行延时处理，以使第二目标音频数据和第三音频数据同步；将第二目标音频数据和第三音频数据合并，得到第四音频数据。这样，可以避免声音信号无法重叠，造成回音等问题。

音频输出接口270，被配置为：输出第四音频数据。

在一些实施例中，控制器250，被配置为：获取声音分离时所消耗的第一时长以及音效增强处理时所消耗的第二时长；根据第一时长和第二时长，对第二目标音频数据或第三音频数据进行延时处理。也就是，可以直接统计声音分离和音效增强处理所消耗的时长，如果声音分离所消耗时长较短，可以对第二目标音频数据进行延迟处理；如果音效增强处理所消耗的时长较短，可以对第三音频数据进行延迟处理，最终使第二目标音频数据和第三音频数据同步。

当运行声音分离和音效增强的运算单元是专用的或者系统资源充足时，第一时长与第二时长均可以依据测量计算出一组或几组固定的数值。然而，在实际场景下，声音分离算法在显示设备的芯片上通常不是专用的，而是与图像的AI算法同用APU(AcceleratedProcessing Unit，加速处理器)或GPU(graphics processing unit，图形处理器)，使得声音分离的运算时间经常不是一个固定的数值，而是存在一定的波动性，通过实际测算波动性在±20ms之间。针对图6A所示的系统架构，该波动虽然会影响音画同步，但是通常人对音画延时可以容忍的范围是±30ms。因此，该波动是可以被接受的。然而在图11A所示的系统架构中，存在同一个声音在两个链路中处理，然后进行合并的处理方式。同一个声音误差超过±5ms后会带来明显的音质问题，因此，需要精准地对齐。

由于图11A所示的系统架构中，存在同一声音在两个链路中处理的情况，因此，第一目标音频数据和第二音频数据之间具有一定的相关性。在一些实施例中，控制器250，被配置为：根据第一目标音频数据和第二音频数据之间的相关性，确定第一目标音频数据和第二音频数据之间的时间差；根据时间差，对第二目标音频数据或第三音频数据进行延时处理。

在某些情况下，如果声音分离和音效增强处理所消耗的时长无法直接统计，或者统计的不准确，也可以通过分析第一目标音频数据和第二音频数据之间的相关性。根据该相关性，确定第一目标音频数据和第二音频数据之间的时间差，进而进行延时处理。

在一些实施例中，可以通过时域窗函数对第一目标音频数据和第二音频数据之间的相关性进行比对。控制器250，被配置为：获取第一目标音频数据在时间段t内的第一音频段，该第一音频段可以是任意时长为t的音频段；获取第二音频数据在所述时间段t内(即与第一音频段所处的时间相同)的第二音频段，以及第二音频段之前的多个第三音频段、第二音频段之后的多个第四音频段；其中，第三音频段和第四音频段对应的时长均与所述时间段t的时长相等。

确定第一音频段分别和第二音频段、第三音频段和第四音频段的相关性，确定相关性最高的音频段；将相关性最高的音频段和第一音频段的时间差确定为第一目标音频数据和第二音频数据之间的时间差。

也就是，从第一目标音频数据截取一段，记为w,同时，对相同时间段内第二音频数据采用相同的窗截取多段，记为w(x)，并将逐个计算w与w(x)内所有数据的卷积数值，得到w与w(x)相关性数据。将相关性最高的w(x)与w的时间差确定为第一目标音频数据和第二音频数据之间的时间差。

或者，也可以从第二音频数据中截取一段，同时，对相同时间段内第一目标音频数据采用相同的窗截取多段，按照上述同样的方式进行相关性计算，确定第一目标音频数据和第二音频数据之间的时间差。

需要说明的是，窗口宽度与延时计算精度关系较大，窗口宽度是t，计算精度也是t。但是，t越小，对应的运算量也会越大。另外，t以内的数据如果采用逐点计算运算量也比较大，可以采用隔点计算的方式使运算量减少一半，具体可以根据处理器的计算能力选择相应的精度。

在普通的立体声电视机中左右声道的声音被独立地进行声音分离，并通过图8系统架构所示的方法，并通过第一增益和第二增益分别对分离后得到的两种音频数据进行增益处理后进行合并，并进行音效增强处理后送入相应的扬声器。该架构虽然简单，但是左右声道的音频数据都需要经过声音分离算法的运算，而声音分离算法通常使用同一个物理运算处理器，时间上是叠加的，因此对于芯片的AI处理能力要求较高。可见，如何减少声音分离的运用量决定了本方案能否在更多的显示设备中应用。

参见图12，图12为本申请一些实施例中音频处理方法的一种示意图。如图12所示，音频解码器输出的左声道音频数据和右声道音频数据，除了分别被进行音效增强处理，以及增益处理外，还被合并为一个信号后进行声音分离，并对分离出的第一目标音频数据进行增益处理。再对两个链路的声音信号进行延时处理，声音分离链路中的声音信号最终分别叠加至音效增强链路中的左、右声道中。这样，声音分离的运算量可以降低一半，使得本方案的落地可行性更高。

在一些实施例中，第一音频数据包括第一声道初始音频数据和第二声道初始音频数据。即第一音频数据可以包括两个声道的音频数据，例如，第一声道初始音频数据和第二声道初始音频数据可以是第一音频数据中包含的左声道音频数据和右声道音频数据。

控制器250，被配置为：对第一声道初始音频数据和第二声道初始音频数据分别进行音效增强处理，得到第一声道音效增强音频数据(即音效增强后的第一声道音频数据)和第二声道音效增强音频数据(即音效增强后的第二声道音频数据)。

需要说明的是，针对声音分离的过程，可以直接对第一音频数据(即第一声道初始音频数据和第二声道初始音频数据合并后的音频数据)进行声音分离，得到第一目标音频数据，以使声音分离的运算量减少一半。

可以按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据；按照第二增益分别对第一声道音效增强音频数据和第二声道音效增强音频数据进行增益处理，得到第一声道目标音频数据和第二声道目标音频数据。

对第二目标音频数据或第一声道目标音频数据进行延时处理，以使第二目标音频数据和第一声道目标音频数据同步；以及对第二目标音频数据或第二声道目标音频数据进行延时处理，以使第二目标音频数据和第二声道目标音频数据同步。

类似的，声音分离所消耗的时长和音效增强处理所消耗的时长通常会不同，因此，可以先进行延时处理后再进行合并。本申请一些实施例中，也可以统计声音分离所消耗的第一时长、对第一声道初始音频数据进行音效增强处理所消耗的第二时长，以及对第二声道初始音频数据进行音效增强处理所消耗的第三时长。根据第一时长和第二时长，对第二目标音频数据或第一声道目标音频数据进行延时处理；根据第一时长和第三时长，对第二目标音频数据或第二声道目标音频数据进行延时处理。

或者，也可以确定第一目标音频数据和第一声道音效增强音频数据之间的相关性，根据该相关性对第二目标音频数据或第一声道目标音频数据进行延时处理；确定第一目标音频数据和第二声道音效增强音频数据之间的相关性，根据该相关性对第二目标音频数据或第二声道目标音频数据进行延时处理。

可以理解的是，对第一声道初始音频数据进行音效增强处理所消耗的第二时长，和对第二声道初始音频数据进行音效增强处理所消耗的第三时长，两者之间通常相等，或者差距较小，可以忽略不计。因此，为了降低运算量，也可以只统计其中一个音效增强处理过程所消耗的时长。或者，确定第一目标音频数据和第一声道音效增强音频数据(第二声道音效增强音频数据)之间的相关性即可。

之后，将第二目标音频数据分别和第一声道目标音频数据和第二声道目标音频数据进行合并，得到第一声道合并音频数据和第二声道合并音频数据；

音频输出接口270包括：第一输出接口和第二输出接口；第一输出接口被配置为：输出第一声道合并音频数据；第二输出接口被配置为：输出第二声道合并音频数据。

如前所述，声音分离可以通过人工智能技术实现，在第一音频数据包括第一声道初始音频数据和第二声道初始音频数据的情况下，如果对第一声道初始音频数据和第二声道初始音频数据均分别进行声音分离和音效增强处理，声音分离将消耗较大的运算量，因此，对显示设备中芯片的处理能力要求较高。为了解决该问题，可以将第一声道初始音频数据和第二声道初始音频数据合并，也就是直接对第一音频数据进行声音分离，对分离得到的第一目标音频数据进行增益处理后，得到第二目标音频数据。将第二目标音频数据分别和第一声道目标音频数据和第二声道目标音频数据进行合并。这样，可以使声音分离的运算量减少一半，从而使得芯片的处理能力不是很高的情况下也可以实现本方案，提高本方案的适用性。

随着芯片AI运算能力的提升，机器学习被广泛应用于图像、声音领域，甚至出现了很多场景上的结合。本申请还提供了一种提升声音立体效果的解决方案。在安卓系统中的实现可以如图13A所示，安卓系统中主要包括应用层、中间件以及核心层，实现逻辑可以在中间件，中间件可以包括：音频解码器、人声分离模块、增益控制模块、图像解码器、声音分配模块、合并模块、音效增强模块和音频输出接口。音频解码器用于对通过广播信号、网络、USB或HDMI等输入的信号源进行音频解码处理，得到音频数据。人声分离模块用于对解码后的左声道音频数据和右声道音频数据分别进行人声分离，得到左声道人声音频数据和左声道背景音频数据，以及右声道人声音频数据和右声道背景音频数据。声音分配模块用于对图像解码器解码输出的图像进行唇动检测，以确定各个音频输出接口输出人声音频的权重和背景音频的权重。合并模块用于根据人声音频的权重和背景音频的权重对人声音频和背景音频进行合并，得到合并后的音频数据。音效增强模块用于对合并后的音频数据进行音效增强处理，得到音效增强后的音频数据。音频输出接口用于输出音效增强后的音频数据。

需要说明的是，上述实现逻辑除了可以在中间件实现，也可以在核心层实现。或者，还可以在中间件和核心层实现，例如，音频解码器和人声分离模块可以在中间件实现，其他模块可以在核心层实现。

与上述图13A相对应，图13B为本申请一些实施例中音频处理方法的一种示意图。音频解码器可以解码输出左声道音频数据和右声道音频数据，可以分别对左声道音频数据和右声道音频数据进行人声分离，得到左声道人声音频数据和左声道背景音频数据，以及右声道人声音频数据和右声道背景音频数据。例如，可以通过AI技术，通过预先训练的神经网络模型实现对左声道音频数据的人声分离，以及右声道音频数据的人声分离。将左声道人声音频数据和右声道人声音频数据进行合并，得到目标人声音频数据。

同时，图像解码器可以解码得到左声道音频数据和右声道音频数据所在时刻的图像，并对该图像进行唇动检测，根据唇动检测结果，确定目标人声音频数据在各个音频输出接口的权重。并且，可以根据音频输出接口的坐标，确定音频输出接口输出左声道背景音频数据和右声道背景音频数据的权重。之后，根据目标人声音频数据在各个音频输出接口的权重，音频输出接口输出左声道背景音频数据和右声道背景音频数据的权重，将人声音频和背景音频进行合并。最后，再对合并后的音频进行音效增强处理并输出。

可以看出，针对立体声显示设备，在分别对左声道音频数据和右声道音频数据分别进行人声分离后，可以先对分离出的左声道人声音频数据和右声道人声音频数据合并。然后根据人物在图像中说话的位置，调整各个音频输出接口对应的人声权重，即输出人声音频对应的权重，以及根据音频输出接口的位置，调整各个音频输出接口输出背景音频的权重，从而使声音的立体感增强，提升用户的观看体验。

本申请一些实施例中，显示设备200，包括：控制器250和多个音频输出接口270；

控制器250，被配置为：对获取到的第一声道音频数据和第二声道音频数据分别进行人声分离，得到第一声道第一人声音频数据和第一声道第一背景音频数据，以及第二声道第一人声音频数据和第二声道第一背景音频数据。

其中，第一声道音频数据和第二声道音频数据是同一时刻获取到的两个不同声道的音频数据，第一声道音频数据和第二声道音频数据可以使声音更具有立体感。例如，第一声道音频数据和第二声道音频数据分别可以为左声道音频数据和右声道音频数据。

针对第一声道音频数据，可以通过人声分离(例如人工智能技术)得到第一声道第一人声音频数据和第一声道第一背景音频数据。第一声道第一人声音频数据是指第一声道音频数据中的人声，第一声道第一人声音频数据的数量可以是多个，也就是，可以提取多个人的人声。除去第一声道第一人声音频数据之外的音频数据即为第一声道第一背景音频数据。同样地，可以对第二声道音频数据进行人声分离，得到第二声道第一人声音频数据和第二声道第一背景音频数据。

将第一声道第一人声音频数据和第二声道第一人声音频数据进行合并，得到目标人声音频数据。

本申请一些实施例中，针对分离出的第一声道第一人声音频数据和第二声道第一人声音频数据，并没有直接被分配到第一声道和第二声道与背景音频合并，而是先直接将第一声道第一人声音频数据和第二声道第一人声音频数据进行合并，得到目标人声音频数据。进而，根据人物在图像中说话的位置，对目标人声音频数据在各个音频输出接口的输出情况进行分配。

需要说明的是，如果包含多个人物的人声音频，针对每个人物，将该人物对应的第一声道第一人声音频数据和第二声道第一人声音频数据进行合并，得到该人物的目标人声音频数据。每个人物的目标人声音频数据的分配方法类似，在此以一个人物的目标人声音频数据为例进行说明。

控制器250，被配置为：获取第一声道音频数据和第二声道音频数据所在时刻的图像数据，对图像数据进行唇动检测，如果检测到显示设备屏幕中的唇动坐标，根据唇动坐标和单个音频输出接口的坐标，确定该音频输出接口对应的人声权重。

在显示设备中，除了音频解码器解码得到音频数据外，图像解码器也可以解码得到对应的图像数据。在音画同步的情况下，可以同时获取音频对应的图像数据。在此，可以获取第一声道音频数据和第二声道音频数据所在时刻的图像数据。

通过人声分离提取到人声音频的情况下，图像数据中通常具有对应的人物图像。因此，可以对图像数据进行唇动检测，得到唇动坐标，即人物唇部的位置坐标。例如，可以通过人工智能技术，检测图像数据中是否存在嘴唇信息，以及是否存在唇动。如果存在发生动作的嘴唇，则可以检测到唇动坐标。

唇动坐标指示图像中人物在屏幕中说话的位置，而多个音频输出接口的坐标表示输出音频的位置。可以理解的是，当唇动坐标距离音频输出接口越近，该音频输出接口对应的人声权重也越大。人声权重越大，音频输出接口输出人声音频的能量也越大。

在一些实施例中，控制器250，被配置为：针对每个音频输出接口，根据音频输出接口的坐标，确定音频输出接口在屏幕中对应的区域；如果唇动坐标位于音频输出接口对应的区域内，确定音频输出接口对应的人声权重为第一数值；如果唇动坐标位于音频输出接口对应的区域外，确定音频输出接口对应的人声权重为第二数值，第二数值小于第一数值。

本申请一些实施例中，可以预先根据各个音频输出接口的坐标，在屏幕中为各个音频输出接口划分对应的区域。可以理解的是，当唇动坐标距离音频输出接口对应的区域越近，该音频输出接口对应的人声权重也越大。

例如，将屏幕划分为左区域和右区域，屏幕左下方和右下方均包含一个扬声器。唇动坐标可以是实际像素点的位置坐标(x,y)，如果播放视频的行分辨率是L，列分辨率是C。那么，可以归一化得出唇动坐标为以下公式：

x’＝x÷C，y’＝y÷L (12)

如果x’小于0.5，则说明唇动坐标在左区域，如果x’大于0.5，则说明唇动坐标在右区域。

如果唇动坐标在屏幕的左区域，那么，可以将屏幕左下方的扬声器对应的人声权重和屏幕右下方的扬声器对应的人声权重分别设置为1和0，也就是，通过屏幕左下方的扬声器输出目标人声音频数据，屏幕右下方的扬声器不输出目标人声音频数据。或者，也可以将屏幕左下方的扬声器对应的人声权重和屏幕右下方的扬声器对应的人声权重分别设置为0.8和0.2等，可以具体参考唇动坐标在左区域的具体位置确定。唇动坐标越靠近左区域的左侧，屏幕左下方的扬声器对应的人声权重和屏幕右下方的扬声器对应的人声权重的差值越大；唇动坐标越靠近左区域的右侧，也就是越靠近屏幕的中间，屏幕左下方的扬声器对应的人声权重和屏幕右下方的扬声器对应的人声权重的差值越小。

参见图14，图14为扬声器分布的一种示意图，可以看出，显示设备包含四个扬声器，分别在屏幕的左下方、右下方、左上方和右上方。四个扬声器在屏幕中对应的区域如图14所示，分别为屏幕的左下区域、右下区域、左上区域和右上区域。唇动坐标位于左上区域，左下方、右下方、左上方和右上方四个扬声器对应的人声权重分别可以为：0、0、1和0。或者，左下方、右下方、左上方和右上方四个扬声器对应的人声权重也可以为0.2、0、0.8和0等，使最终效果以主观听感位于屏幕左上方。

在一些实施例中，屏幕包括：中间区域和非中间区域。控制器250，被配置为：如果唇动坐标位于非中间区域，根据唇动坐标和多个音频输出接口的坐标，确定多个音频输出接口分别对应的人声权重。即，可以按照上述方法，确定多个音频输出接口分别对应的人声权重。

如果唇动坐标位于中间区域，根据多个音频输出接口的坐标和多个音频输出接口的属性信息，确定多个音频输出接口分别对应的人声权重，其中，属性信息包括音量大小和/或朝向。即，当唇动坐标位于屏幕的中间区域时，可以灵活地根据音频输出接口的音量大小、朝向及位置关系等，对各个音频输出接口对应的人声权重进行配置，使最终效果以主观听感位于屏幕中心为宜。

例如，针对图14所示的扬声器，屏幕下方的扬声器的朝向向下，屏幕上方的扬声器的朝向向上。在该朝向的基础上，扬声器的音量越大，该扬声器对应的人声增益越小，扬声器的音量越小，该扬声器对应的人声增益越大。这样，可以使主观听感位于屏幕中间。或者，如果四个扬声器的音量相同，四个扬声器对应的人声增益可以相同。

如果多个扬声器在屏幕周围的分布不均匀，各个扬声器的朝向也不是朝向正下方或者正上方，可以根据具体参考多个扬声器的位置关系、朝向和音量大小，确定人声权重，使主观听感位于屏幕中间即可。可以理解的是，各个扬声器对应的人声权重可以包含多种不同的情况。

控制器250，被配置为：根据音频输出接口的坐标，确定音频输出接口对应第一声道第一背景音频数据和/或第二声道第一背景音频数据。

对于背景音频数据，由于与人声无关，可以直接根据音频输出接口的坐标，确定该音频输出接口输出第一声道第一背景音频数据，还是第二声道第一背景音频数据，还是第一声道第一背景音频数据和第二声道第一背景音频数据。

在一些实施例中，屏幕包括：左区域和右区域，如果音频输出接口的坐标对应于左区域，确定音频输出接口对应第一声道初始背景音频数据；如果音频输出接口的坐标对应于右区域，确定音频输出接口对应第二声道初始背景音频数据。如果屏幕左下方和右下方均包含一个扬声器，分别对应于左区域和右区域，屏幕左下方的扬声器可以输出第一声道初始背景音频数据，屏幕右下方的扬声器可以输出第二声道初始背景音频数据。

在一些实施例中，屏幕包括：左区域、中间区域和右区域；控制器250，被配置为：如果音频输出接口的坐标对应于左区域，确定音频输出接口对应第一声道第一背景音频数据；如果音频输出接口的坐标对应于右区域，确定音频输出接口对应第二声道第一背景音频数据；如果音频输出接口的坐标对应于中间区域，确定音频输出接口对应第一声道第一背景音频数据和第二声道第一背景音频数据。

例如，屏幕左下方、中下方和右下方均包含一个扬声器，分别对应于左区域、中间区域和右区域，屏幕左下方的扬声器可以输出第一声道第一背景音频数据，屏幕中下方的扬声器可以同时输出第一声道第一背景音频数据和第二声道第一背景音频数据，屏幕右下方的扬声器可以输出第二声道第一背景音频数据。

控制器250，被配置为：将目标人声音频数据和音频输出接口对应的人声权重的乘积，以及音频输出接口对应的第一声道第一背景音频数据和/或第二声道第一背景音频数据合并，并进行音效增强处理，得到音频输出接口对应的音频数据。

在确定每个音频输出接口对应的人声音频(即目标人声音频数据和音频输出接口对应的人声权重的乘积)和背景音频(即第一声道第一背景音频数据和/或第二声道第一背景音频数据)后，可以将人声音频和背景音频进行合并，并进行音效增强处理，得到音频输出接口对应的音频数据。

单个音频输出接口270，被配置为：输出所述音频输出接口对应的音频数据。

在一些实施例中，在对左声道音频数据和右声道音频数据分别进行人声分离后，还可以对人声音频和背景音频进行不同的增益处理，以突出增强人声音频或背景音频。

控制器250还被配置为：按照第一增益分别对第一声道第一人声音频数据和第二声道第一人声音频数据进行增益处理，得到第一声道第二人声音频数据和第二声道第二人声音频数据；按照第二增益分别对第一声道第一背景音频数据和第二声道第一背景音频数据进行增益处理，得到第一声道第二背景音频数据和第二声道第二背景音频数据；其中，第一增益和第二增益根据显示设备对应的声音控制模式确定。

需要说明的是，第一声道第一人声音频数据和第二声道第一人声音频数据均属于人声音频，可以对应相同的第一增益，第一声道第一背景音频数据和第二声道第一背景音频数据均属于背景音频，可以对应相同的第二增益。

在一些实施例中，显示设备对应多种预设声音清晰度控制模式和/或多种预设音效模式；每种预设声音清晰度控制模式具有对应的数值，每种预设音效模式具有对应的数值；声音控制模式包括：目标声音清晰度控制模式和/或目标音效模式；其中，目标声音清晰度控制模式为多种预设声音清晰度控制模式中的一种，目标音效模式为多种预设音效模式中的一种；控制器250，被配置为：根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一增益和第二增益。

可见，用户可以根据自身的喜好来控制显示设备的声音控制模式，进而，控制器250可以根据该声音控制模式，确定如何对第一声道第一人声音频数据和第二声道第一人声音频数据进行增益处理，以及如何对第一声道第一背景音频数据和第二声道第一背景音频数据进行增益处理。

需要说明的是，第一增益和第二增益的确定方法，与前述实施例中第一增益和第二增益的确定方法相同，具体可参见前述实施例中的描述即可，在此不再赘述。

控制器250，被配置为：将第一声道第二人声音频数据和第二声道第二人声音频数据进行合并，得到目标人声音频数据；以及针对每个音频输出接口，根据音频输出接口的坐标，确定音频输出接口对应第一声道第二背景音频数据和/或第二声道第二背景音频数据；将目标人声音频数据和音频输出接口对应的人声权重的乘积，以及音频输出接口对应的第一声道第二背景音频数据和/或第二声道第二背景音频数据合并，并进行音效增强处理，得到音频输出接口对应的音频数据。

在一些实施例中，图像数据中不包含人物，或者即使图像数据中包含人物，但是并没有显示出人物的嘴唇，例如只显示人物的侧脸、人物的背影等。或者，即使显示人物的嘴唇，但是人物的嘴唇是没有动作的，此时将无法检测到唇动坐标。控制器250，还被配置为：如果未检测到唇动坐标，针对每个音频输出接口，可以直接根据第一声道第一人声音频数据的能量和第二声道第一人声音频数据的能量的比值，以及音频输出接口的坐标，确定音频输出接口分别对应的人声权重。

例如，如果屏幕左下方和右下方各包含一个扬声器，且左声道人声音频数据的能量和右声道人声音频数据的能量的比值大于1，位于屏幕左下方的扬声器对应的人声权重可以大于位于屏幕右下方的扬声器对应的人声权重。如果左声道人声音频数据的能量和右声道人声音频数据的能量的比值为0.6:0.4，那么屏幕左下方的扬声器对应的人声权重可以为0.6，屏幕右下方的扬声器对应的人声权重可以为0.4。或者，为了更增强声音的方位感，屏幕左下方的扬声器对应的人声权重可以为0.7，屏幕右下方的扬声器对应的人声权重可以为0.3。

目前，电视机的卡拉OK功能，通常是在唱歌APP中完成。唱歌APP具有丰富的功能和较佳的用户体验，但是唱歌APP的媒体资源比较受限。例如，一首歌曲的原唱歌手A是一位男歌手，而翻唱歌手B是一位女歌手。当一位女性用户C想唱这首歌时，唱歌APP中可能只录入了原唱歌手A的伴奏视频，但是没有歌手B的伴奏视频，导致无法找到合适的伴奏。或者，虽然采取两个声道相减的方式来消除立体声歌曲中的人声。但是，该方法有时会损失歌曲中的低音，得到的伴奏声音比较微弱，没有唱歌伴奏感，用户体验较差。

因此，本申请一些实施例还提供了一种技术方案，即通过人声分离技术，去除正在播放歌曲中的人声，使得用户可以在不依赖唱歌APP的情况下，找到自己喜欢的歌曲，如通过在线音乐播放器播放自己熟悉的歌曲，或通过电视播放自己付费购买的音视频内容。然后打开消除人声功能，可以去掉音频中的原唱人声，进而实现不受媒体资源限制地唱歌。同时，可以根据麦克风采集到的演唱人声的能量，将原唱人声全部或部分添加至伴奏中，避免因演唱者唱歌水平不高而影响唱歌体验。

该技术方案在安卓系统中的实现可以如图15A所示，安卓系统中主要包括应用层、中间件以及核心层，实现逻辑可以在中间件，中间件包括：音频解码器、人声分离模块、音频输入接口、原唱音量控制模块、合并模块、音效增强模块、增益控制模块、延时模块和音频输出接口。音频解码器用于对通过广播信号、网络、USB或HDMI等输入的信号源进行音频解码处理，得到音频数据。人声分离模块用于对解码后的音频数据进行人声分离，分离出原产人声音频和伴奏音频。音频输入接口用于接收用户输入的演唱音频，原唱音量控制模块根据演唱音频据和分离出的原唱人声音频，确定合并至伴奏音频的原唱音频的大小，即目标人声音频。合并模块用于对伴奏音频、演唱音频和目标人声音频进行合并，得到合并后的音频数据。音效增强模块用于对合并后的音频数据进行音效增强处理，音频输出接口用于输出音效增强处理后的音频数据。

与上述图15A相对应，图15B为本申请一些实施例中音频处理方法的一种示意图。音频解码器解码得到歌曲音频数据后，通过人声分离，得到原唱人声音频数据和伴奏音频数据。同时，麦克风可以采集用户输入的演唱人声音频数据，根据原唱人声音频数据和演唱人声音频数据可以确定目标人声音频数据，即合并至伴奏音频数据中原唱人声音频数据的大小。将演唱人声音频数据、目标人声音频数据和伴奏音频数据合并，并进行音效增强处理之后再进行输出。

本申请一些实施例还提供了一种显示设备200，包括：

控制器250，被配置为：获取歌曲音频数据，对歌曲音频数据进行人声分离，得到原唱人声音频数据和伴奏音频数据。

歌曲音频数据可以是任意的歌曲，包括唱歌APP中收录的歌曲，以及唱歌APP中没有收录的歌曲。通过对歌曲音频数据进行人声分离，例如，通过人工智能技术可以分离出原唱人声音频数据和伴奏音频数据。可见，针对任何歌曲，均可以分离出对应的伴奏音频数据。

控制器250，还被配置为：根据每个时间周期内的原唱人声音频数据的能量和在时间周期内采集到的演唱人声音频数据的能量，确定原唱增益；根据原唱增益，对时间周期内的原唱人声音频数据进行增益处理，得到目标人声音频数据。

在唱歌过程中，用户可以通过音频输入接口(例如麦克风)演唱歌曲，此时，可以采集到演唱人声音频数据，而用户在唱歌时可能存在跑调、音准不够好等问题。另外，人声分离是在显示设备的主芯片实时运算的，可能存在人声分离不干净或分离时引入个别杂音的问题。为了解决该问题，可以在用户没有唱歌或唱歌间隙时，人声分离出的原唱人声音频被全部或部分合并至伴奏中，以烘托出唱歌现场的气氛，而当检测到用户在唱歌时，可以通过原唱人声音频的音量控制减小或者静音原唱人声音频，以播放用户唱歌的声音为主。

由于每个歌曲对应较长的也一个时间段，因此，在处理音频数据时，可以按预先设置的时间周期对该音频数据进行处理。也就是，按照时间顺序依次处理各个时间周期的音频数据。其中，时间周期可以是0.8秒、1秒等。

针对每个时间周期，可以根据原唱人声音频数据的能量和演唱人声音频数据的能量，得到原唱增益，通过原唱增益对原唱人声音频数据进行增益处理，得到目标人声音频数据，即合并至伴奏音频数据中的音频数据。

在一些实施例中，原唱增益小于等于预设增益阈值。例如，预设增益阈值可以是0.1dB、0dB、-0.1dB等。在预设增益阈值等于0dB的情况下，原唱增益小于等于0dB。在原唱增益等于0dB的情况下，表示原唱人声音频数据全部合并至伴奏音频数据中；在原唱增益小于0dB的情况下，表示原唱人声音频数据部分合并至伴奏音频数据中。在预设增益阈值小于0dB的情况下，原唱增益也小于0dB，表示原唱人声音频数据部分合并至伴奏音频数据中。在预设增益阈值大于0dB的情况下，表示原唱人声音频数据可以在增强处理后合并至伴奏音频数据中。

在一些实施例中，控制器250，被配置为：如果演唱人声音频数据的能量小于预设能量阈值，该预设能量阈值是一个较小的能量值，此时可以认为用户没有唱歌，可以将原唱增益设置为预设增益阈值，例如将原唱增益设置为0dB，即直接将原唱人声音频数据作为目标人声音频数据。如果演唱人声音频数据的能量大于等于预设能量阈值，此时可以认为用户已经开始唱歌了，根据演唱人声音频数据的能量和原唱人声音频数据的能量之间的能量比，确定原唱增益，使原唱增益小于预设增益阈值，即可以降低原唱人声音频数据的能量后，作为目标人声音频数据。

在一些实施例中，为了保证合并至伴奏音频数据中的声音相对稳定，而不是随着演唱人声音频数据的音量大小忽大忽小的变化，可以预先建立演唱人声音频数据的能量和原唱人声音频数据的能量之间的能量比和原唱增益的对应关系，例如，能量比在某个能量比范围内时，原唱增益可以对应同一个值。例如，如果能量比小于等于0.25，表示演唱人声音频数据的能量较小，w＝0dB，可以将原唱人声音频数据全部合并至伴奏音频数据中；如果0.25＜能量比＜0.75,表示演唱人声音频数据的能量适中，w＝-6dB，可以将原唱人声音频数据部分合并至伴奏音频数据中；如果能量比大于等于0.75，表示演唱人声音频数据的能量较大，可以全部关闭原唱人声音频数据，只播放演唱人声音频数据。

控制器250，被配置为：将该时间周期内的伴奏音频数据、目标人声音频数据和演唱人声音频数据进行合并以及音效增强处理，得到目标音频数据。本申请在将伴奏音频数据和演唱人声音频数据合并的基础上，还合并有目标人声音频数据。目标人声音频数据指原唱人声音频数据的全部，或者原唱人声音频数据的部分，因此，最终输出的目标音频数据更丰富，效果更好。

音频输出接口270，被配置为：输出目标音频数据。

本申请一些实施例中，对于任何歌曲，均可以通过人声分离，得到伴奏音频数据，使用户在唱歌时，可以不受媒体资源的限制。并且，可以根据用户的唱歌水平，确定是否在伴奏音频数据中添加原唱人声音频数据，或部分地添加原唱人声音频数据，从而提升用户的唱歌体验。

在一些实施例中，控制器250，还被配置为：获取前一个时间周期对应的原唱增益，如果当前时间周期对应的原唱增益和前一个时间周期对应的原唱增益相同，表示前一个时间周期对应的演唱人声音频数据的能量和原唱人声音频数据的能量之间的能量比，与当前时间周期对应的能量比差距较小，例如位于同一能量比范围，表示用户唱歌比较稳定，用户对演唱的歌曲很熟悉，可以延长时间周期，以降低上述过程的处理频率，直至延长后的时间周期小于第一时间阈值(例如，可以是2秒等)。也就是，降低上述过程的处理频率，而不是在唱歌间隙频繁地将基于原唱人声音频数据得到的目标人声音频数据合并至伴奏音频数据中。当然，时间周期也不能无限地延长，避免时间周期过长而影响最终的演唱效果。

如果当前时间周期对应的原唱增益和前一个时间周期对应的原唱增益不同，表示用户唱歌时发生了音量变化，与原唱不合拍，用户可能出现了不会唱、唱不准等情况，此时缩短时间周期，即迅速地调出目标音频数据，将目标音频数据合并至伴奏音频数据中，直至缩短后的时间周期大于第二时间阈值(例如，可以是0.25秒等)，其中，第一时间阈值大于第二时间阈值。

上述音频处理过程，与简单地将左右声道音频数据相减的消除原唱人声音频数据的方法相比，可以提升唱歌时伴奏的效果。但是，在专业的唱歌APP中，除了左右声道音频数据相减的曲库以外，还有很多专业的伴奏曲库。该伴奏曲库并不是通过左右声道音频数据相减的方法消除原唱人声音频数据得到的，而是在录制音乐时，把伴奏音频数据录制在一个单独音轨中。对于很多歌曲，除了伴奏还有一些专业伴唱人员的和声。而本申请一些实施例中，可以识别一切人声并进行消除，虽然可近似得到单独音乐伴奏音轨的效果，但是因为伴唱人员的和声也被消除了，导致被留下的伴奏缺少氛围感。另外，人声分离是在原始的音频信号中，把属于人声特征的信号剥离出来，然而人声和乐器的声音会在频域上有所重合，在分离人声时会导致与人声重合的乐器声音也被一起剥离出来。

为了解决该问题，可以将分离出的原唱人声音频数据进行变换，得到伴唱音频数据，再将伴唱音频数据以一定比例合并至伴奏中，用于弥补伴奏空洞感的问题。该比例与演唱人声音频数据的能量相关联，具体来讲，当演唱人声音频数据的能量变大时，该比例也变大，而当演唱声音变小的时候，该比例也变小。

在一些实施例中，为了避免在人声分离时，消除专业伴唱人员的和声的问题，控制器250，还被配置为：根据每个时间周期内的原唱人声音频数据，生成第一伴唱音频数据。

如前所述，如果演唱人声音频数据的能量小于预设能量阈值，表示用户没有唱歌，或者唱歌的声音极小，可以将原唱人声音频数据全部合并至伴奏音频数据中。此时，可以不用生成第一伴唱音频数据。因此，在一些实施例中，在演唱人声音频数据的能量大于等于预设能量阈值时，再根据每个时间周期内的原唱人声音频数据，生成第一伴唱音频数据。

在一些实施例中，可以对原唱人声音频数据进行时域变换，生成第一伴唱音频数据。控制器250，被配置为：获取多个不同的延时以及每个延时对应的增益；针对每个延时，根据延时对每个时间周期内的原唱人声音频数据进行延时处理，得到第一延时音频数据；根据延时对应的增益对延时音频数据进行增益处理，得到第二延时音频数据；将多个第二延时音频数据进行合并，得到第一伴唱音频数据。

参见图16，图16为本申请一些实施例中对原唱人声音频数据进行时域变换的一种示意图。

获取多个不同的延时以及每个延时对应的增益。多个不同的延时以及每个延时对应的增益可以是预先设置的。多个不同的延时可以等间隔，延时越长，增益越小，因此，多个不同的延时对应的增益逐渐减小。例如，T1为10ms、T2为20ms、T3为30ms……，增益1为0dB、增益2为-6dB、增益3为-10dB……

针对每个延时，可以根据该延时对每个时间周期内的原唱人声音频数据进行延时处理，得到第一延时音频数据。并根据该延时对应的增益对延时音频数据进行增益处理，得到第二延时音频数据。例如，针对T1，可以根据10ms对原唱人声音频数据进行延时处理，得到第一延时音频数据，并根据0dB对第一延时音频数据进行增益处理，得到第二延时音频数据。针对T2、T3……按照相同的方式进行处理，均可以得到对应的第二延时音频数据。

之后，将多个第二延时音频数据进行合并，得到第一伴唱音频数据。

这样，经过不同的延时后，再经过不同的增益叠加在一起，可以形成类似在室内或者体育场的混响效果。即原唱的声音听起来像是多人在一起唱歌的感觉，使原唱人声变成了具有合唱感的音乐。

在一些实施例中，还可以对原唱人声音频数据进行频域变换，生成第一伴唱音频数据。控制器250，被配置为：确定原唱人声音频数据所属的音区；根据音区对原唱人声音频数据进行升调处理或降调处理，得到第一伴唱音频数据。这样，可以形成伴唱，且伴唱与原唱不在一个声调上。例如，针对专业的演出，都有专业的伴唱团队，他们演唱的声音与原唱不在一个声部上，比如可能会比原唱高3度或低3度。

参见图17，图17为本申请一些实施例中对原唱人声音频数据进行频域变换的一种示意图。通过基频分析，可以确定原唱人声音频数据所属的音区。其中，基频分析是将人声做FFT(快速傅立叶变换)，找到第一个峰值，该峰值频率即为基频。根据基频可以得知演唱者的音调，例如，中央C即“do”的频率为261.6Hz。根据计算出来的当前声音的声调，可以计算升调几度或者降调几度对应的频率。

需要说明的是，不同音区升调或降调是存在一定差距的，可以区别运算。例如，针对钢琴键谱图，在此可以根据钢琴键盘详细说明升3度或降3度的算法原理。如果当前原唱人声音频数据所属的音区是中音C，即C4，升3度即白键盘E4，中间一共4个半音，即当前声音变调升频倍数。而如果当前原唱人声音频数据的音调是B3，升3度为D4，一共3个半音，即升频/>倍数。

本申请一些实施例中，还可以根据一般演唱者的演唱习惯，对原唱人声音频数据进行升调处理或降调处理。具体而言，对于非专业歌手，通常会存在低音不够低、高音不够高的问题。因此，在一些实施例中，为了解决非专业歌手在唱歌时，低音不够低、高音不够高的问题。控制器250，被配置为：如果音区为低音区，对原唱人声音频数据进行降调处理，得到第一伴唱音频数据；如果音区为高音区，对原唱人声音频数据进行升调处理，得到第一伴唱音频数据；如果音区为中音区，对原唱人声音频数据进行升调处理和降调处理，分别得到第一人声音频数据和第二人声音频数据；将第一人声音频数据和第二人声音频数据作为第一伴唱音频数据。

具体的，当原唱人声音频数据低于某个低音调时，启动降调运算，而当原唱人声音频数据高于某个高音调时，启动升调运算。例如，当高于C5时启动升调运算，也就是控制降调运算的增益为最小，即静音，而控制升调运算的增益为0dB，即生成的第一伴唱音频数包含升调运算后的音频数据。相反地，当低于C4时，启动降调运算，控制降调运算的增益为0dB，而控制升调运算的增益为最小，即静音，即生成的第一伴唱音频数包含降调运算后的音频数据。而当处于C4和C5中间时，可以让升调运算和降调运算的增益均为-6dB，即生成的第一伴唱音频数同时包含声调运算后的音频数据和降调运算后的音频数据。

需要说明的是，如果按照原唱人声音频数据的能量大小，将第一伴唱音频数据合并至伴奏音频数据，可能会影响原本的伴奏曲风和音色。伴唱的目的在演唱声存在时，用于丰富和美化演唱声。因此，最终合并至伴奏音频数据中的伴唱音频数据的能量可以小于演唱人声音频数据的能量。例如，比演唱人声音频数据小12dB等。

因此，在生成第一伴唱音频数后，控制器250，被配置为：根据在时间周期内采集到的演唱人声音频数据的能量，确定伴唱增益；其中，伴唱增益和时间周期内采集到的演唱人声音频数据的能量成正相关；通过伴唱增益对第一伴唱音频数据进行增益处理，得到第二伴唱音频数据；其中，第二伴唱音频数据的能量小于演唱人声音频数据的能量。

可以理解的是，演唱人声音频数据的能量越大，最终合并至伴奏音频数据的伴唱音频数据的能量也可以越大，因此，伴唱增益和该时间周期内采集到的演唱人声音频数据的能量成正相关。假设演唱人声音频数据的能量为E，伴唱增益m可以根据以下公式计算得到：m＝E-12。这样，通过伴唱增益得到的第二伴唱音频数据的能量小于演唱人声音频数据的能量。当然，伴唱增益的计算方法不限于此，可以对上述公式进行简单变形来计算伴唱增益。

控制器250，被配置为：将时间周期内的伴奏音频数据、第二伴唱音频数据、目标人声音频数据和演唱人声音频数据进行合并以及音效增强处理，得到目标音频数据。

这样，在伴奏音频数据、演唱人声音频数据和目标人声音频数据的基础上，进一步添加第二伴唱音频数据，可以避免在人声分离过程中，将歌曲中的伴唱音频数据也剥离导致伴奏效果差的问题，从而可以提高伴奏的整体效果，最终提升用户的唱歌体验。

相应于上述显示设备实施例，本申请还提供了一种音频处理方法。可以理解的是，图18～图21中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本发明实施例中提供的音频处理方法为准。

参见图18，图18为本申请一些实施例中音频处理方法的一种流程图，可以包括以下步骤：

步骤S1810，对获取到的第一音频数据进行声音分离，得到第一目标音频数据和第一背景音频数据。

步骤S1820，按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据，按照第二增益对第一背景音频数据进行增益处理，得到第二背景音频数据。其中，第一增益和第二增益根据显示设备对应的声音控制模式确定。

步骤S1830，将第二目标音频数据和第二背景音频数据进行合并，并进行音效增强处理，得到并输出第二音频数据。

在上述音频处理方法中，从第一音频数据中分离出第一目标音频数据和第一背景音频数据后，可以按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据；按照第二增益对第一背景音频数据进行增益处理，得到第二背景音频数据。将第二目标音频数据和第二背景音频数据进行合并，并进行音效增强处理，得到并输出第二音频数据。由于第一增益和第二增益根据显示设备对应的声音控制模式确定，因此可以结合用户当前的观看需求，通过对第一目标音频数据和第一背景音频数据进行非等比例的增益处理后再合并，可以根据用户的观看需求来增强第一目标音频数据或者第一背景音频数据，从而可以提升音效增强的效果。

在一些实施例中，上述音频处理方法还包括：

根据声音控制模式，确定第一音频数据对应的音效增强模式的类型；

根据声音控制模式，确定与音效增强模式的类型对应的第一增益和第二增益。

声音控制模式包括：目标声音清晰度控制模式和/或目标音效模式；其中，目标声音清晰度控制模式为多种预设声音清晰度控制模式中的一种，目标音效模式为多种预设音效模式中的一种；

根据声音控制模式，确定第一音频数据对应的音效增强模式的类型，包括：

根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一音频数据对应的音效增强模式的类型；

根据声音控制模式，确定与音效增强模式的类型对应的第一增益和第二增益，包括：

根据第一数值和/或第二数值，确定与音效增强模式的类型对应的第一增益和第二增益。

在一些实施例中，根据声音控制模式，确定与音效增强模式的类型对应的第一增益和第二增益，包括：

如果第一音频数据对应的音效增强模式的类型为声音增强模式，第一增益大于第二增益；

如果第一音频数据对应的音效增强模式的类型为背景增强模式，第一增益小于第二增益。

在一些实施例中，第一音频数据中包括至少一种属于预设声音类型的第三目标音频数据；

上述音频处理方法还包括：

从第一音频数据中分离出至少一种第三目标音频数据和第三背景音频数据；

获取单个第三目标音频数据的第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值；

按照第三增益对第一声道初始目标音频数据进行增益处理，得到第一声道第一增益音频数据；按照第四增益对第二声道初始目标音频数据进行增益处理，得到第二声道第一增益音频数据；其中，第三增益和第四增益根据第一能量值和第二能量值确定；

将第一声道第一增益音频数据和第三背景音频数据的第一声道初始背景音频数据进行合并，并进行音效增强处理，得到并输出第一声道第一增强音频数据；

将第二声道第一增益音频数据和第三背景音频数据的第二声道初始背景音频数据进行合并，并进行音效增强处理，得到并输出第二声道第一增强音频数据。

在一些实施例中，上述音频处理方法还包括：

根据声音控制模式、第一能量值和第二能量值，确定单个第三目标音频数据对应的第五增益和第六增益；

根据声音控制模式，确定第七增益；

按照第五增益对第一声道初始目标音频数据进行增益处理，得到第一声道第二增益音频数据；按照第六增益对第二声道初始目标音频数据进行增益处理，得到第二声道第二增益音频数据；

按照第七增益分别对第一声道初始背景音频数据和第二声道初始背景音频数据进行增益处理，得到第一声道增益背景音频数据和第二声道增益背景音频数据；

将第一声道第二增益音频数据和第一声道增益背景音频数据进行合并，并进行音效增强处理，得到并输出第一声道第二增强音频数据；

将第二声道第二增益音频数据和第二声道增益背景音频数据进行合并，并进行音效增强处理，得到并输出第二声道第二增强音频数据。

在一些实施例中，根据声音控制模式、第一能量值和第二能量值，确定单个第三目标音频数据对应的第五增益和第六增益，包括：

根据第一声道初始目标音频数据的第一能量值和第二声道初始目标音频数据的第二能量值，确定左右声道能量大小关系；

根据声音控制模式、第一能量值和第二能量值，确定与音效增强模式的类型以及左右声道能量大小关系对应的第五增益和第六增益；

根据声音控制模式，确定第七增益，包括：

根据声音控制模式，确定与音效增强模式的类型以及左右声道能量大小关系对应的第七增益。

参见图19，图19为本申请一些实施例中音频处理方法的一种流程图，可以包括以下步骤：

步骤S1910，对获取到的第一音频数据分别进行声音分离和音效增强处理，得到第一目标音频数据和第二音频数据。

步骤S1920，按照第一增益对第一目标音频数据进行增益处理，得到第二目标音频数据，按照第二增益对第二音频数据进行增益处理，得到第三音频数据，其中，第一增益和第二增益根据显示设备对应的声音控制模式确定。

步骤S1930，对第二目标音频数据或第三音频数据进行延时处理，以使第二目标音频数据和第三音频数据同步。

步骤S1940，将第二目标音频数据和第三音频数据合并，得到并输出第四音频数据。

本申请一些实施例的音频处理方法，由于声音分离算法只做目标声音的分离，不做背景声音的分离，因此，声音分离算法所消耗的时长可以减少一半。并且，声音分离和音效增强可以并行处理，而不是串行处理，可以进一步缩短整个音频处理流程所消耗的时长，从而提升音画同步的效果。另外，对第二目标音频数据或第三音频数据进行延时处理，例如，可以在音效增强链路和声音分离链路中运算时间少的链路中进行延时处理，使第二目标音频数据和第三音频数据同步后再合并，以避免回音问题，从而在提升音画同步效果的同时，不降低音效增强的效果。

在一些实施例中，对第二目标音频数据或第三音频数据进行延时处理，包括：

获取声音分离时所消耗的第一时长以及音效增强处理时所消耗的第二时长；

根据第一时长和第二时长，对第二目标音频数据或第三音频数据进行延时处理。

根据第一目标音频数据和第二音频数据之间的相关性，确定第一目标音频数据和第二音频数据之间的时间差；

根据时间差，对第二目标音频数据或第三音频数据进行延时处理。

在一些实施例中，根据第一目标音频数据和第二音频数据之间的相关性，确定第一目标音频数据和第二音频数据之间的时间差，包括：

获取第一目标音频数据在时间段t内的第一音频段；

获取第二音频数据在时间段t内的第二音频段，以及第二音频段之前的多个第三音频段、第二音频段之后的多个第四音频段；其中，第三音频段和第四音频段对应的时长均与时间段t的时长相等；

确定第一音频段分别和第二音频段、第三音频段和第四音频段的相关性，确定相关性最高的音频段；

将相关性最高的音频段和第一音频段的时间差确定为第一目标音频数据和第二音频数据之间的时间差。

在一些实施例中，第一音频数据包括第一声道初始音频数据和第二声道初始音频数据；

对第一音频数据进行音效增强处理，得到第二音频数据，包括：

对第一声道初始音频数据和第二声道初始音频数据分别进行音效增强处理，得到第一声道音效增强音频数据和第二声道音效增强音频数据；

按照第二增益对第二音频数据进行增益处理，得到第三音频数据，包括：

按照第二增益分别对第一声道音效增强音频数据和第二声道音效增强音频数据进行增益处理，得到第一声道目标音频数据和第二声道目标音频数据；

对第二目标音频数据或第三音频数据进行延时处理，以使第二目标音频数据和第三音频数据同步，包括：

对第二目标音频数据或第一声道目标音频数据进行延时处理，以使第二目标音频数据和第一声道目标音频数据同步；以及对第二目标音频数据或第二声道目标音频数据进行延时处理，以使第二目标音频数据和第二声道目标音频数据同步；

将第二目标音频数据和第三音频数据合并，得到第四音频数据，包括：

将第二目标音频数据分别和第一声道目标音频数据和第二声道目标音频数据进行合并，得到第一声道合并音频数据和第二声道合并音频数据。

声音控制模式包括：目标声音清晰度控制模式和/或目标音效模式；其中，目标声音清晰度控制模式为多种预设声音清晰度控制模式中的一种，目标音效模式为多种预设音效模式中的一种；上述音频处理方法还包括：

根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一增益和第二增益，其中，第一增益大于第二增益。

在一些实施例中，根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一增益和第二增益，包括：

将第一增益设置为0dB；

根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第二增益，使第二增益小于0dB。

参见图20，图20为本申请一些实施例中音频处理方法的又一种流程图，应用于显示设备，可以包括以下步骤：

步骤S2010，对获取到的第一声道音频数据和第二声道音频数据分别进行人声分离，得到第一声道第一人声音频数据和第一声道第一背景音频数据，以及第二声道第一人声音频数据和第二声道第一背景音频数据。

步骤S2020，将第一声道第一人声音频数据和第二声道第一人声音频数据进行合并，得到目标人声音频数据。

步骤S2030，获取第一声道音频数据和第二声道音频数据所在时刻的图像数据，对图像数据进行唇动检测，如果检测到显示设备屏幕中的唇动坐标，根据唇动坐标和显示设备的多个音频输出接口的坐标，确定多个音频输出接口分别对应的人声权重。

步骤S2040，针对每个音频输出接口，根据音频输出接口的坐标，确定音频输出接口对应第一声道第一背景音频数据和/或第二声道第一背景音频数据。

步骤S2050，将目标人声音频数据和音频输出接口对应的人声权重的乘积，以及音频输出接口对应的第一声道第一背景音频数据和/或第二声道第一背景音频数据合并，并进行音效增强处理，得到音频输出接口对应的音频数据，并通过音频输出接口输出音频数据。

本申请一些实施例的音频处理方法，在立体声场景下，在分别对第一声道音频数据和第二声道音频数据分别进行人声分离后，可以先对分离出的第一声道第一人声音频数据和第二声道第一人声音频数据合并，得到目标人声音频数据，将目标人声音频数据作为待输出的人声音频。然后根据人物在图像中说话的位置，调整各个音频输出接口对应的人声权重，即输出人声音频对应的权重，以及根据音频输出接口的位置，调整各个音频输出接口输出背景音频的权重，从而使声音的立体感增强，提升用户的观看体验。

在一些实施例中，上述音频处理方法还包括：

按照第一增益分别对第一声道第一人声音频数据和第二声道第一人声音频数据进行增益处理，得到第一声道第二人声音频数据和第二声道第二人声音频数据；

按照第二增益分别对第一声道第一背景音频数据和第二声道第一背景音频数据进行增益处理，得到第一声道第二背景音频数据和第二声道第二背景音频数据；其中，第一增益和第二增益根据显示设备对应的声音控制模式确定；

将第一声道第一人声音频数据和第二声道第一人声音频数据进行合并，得到目标人声音频数据，包括：

将第一声道第二人声音频数据和第二声道第二人声音频数据进行合并，得到目标人声音频数据；

针对每个音频输出接口，根据音频输出接口的坐标，确定音频输出接口对应第一声道第一背景音频数据和/或第二声道第一背景音频数据，包括：

针对每个音频输出接口，根据音频输出接口的坐标，确定音频输出接口对应第一声道第二背景音频数据和/或第二声道第二背景音频数据；

将目标人声音频数据和音频输出接口对应的人声权重的乘积，以及音频输出接口对应的第一声道第一背景音频数据和/或第二声道第一背景音频数据合并，并进行音效增强处理，得到音频输出接口对应的音频数据，包括：

将目标人声音频数据和音频输出接口对应的人声权重的乘积，以及音频输出接口对应的第一声道第二背景音频数据和/或第二声道第二背景音频数据合并，并进行音效增强处理，得到音频输出接口对应的音频数据。

在一些实施例中，上述音效处理方法还包括：

如果未检测到唇动坐标，针对每个音频输出接口，根据第一声道第一人声音频数据的能量和第二声道第一人声音频数据的能量的比值，以及音频输出接口的坐标，确定音频输出接口分别对应的人声权重。

在一些实施例中，屏幕包括：左区域、中间区域和右区域；

根据音频输出接口的坐标，确定音频输出接口对应第一声道第一背景音频数据和/或第二声道第一背景音频数据，包括：

如果音频输出接口的坐标对应于左区域，确定音频输出接口对应第一声道第一背景音频数据；

如果音频输出接口的坐标对应于右区域，确定音频输出接口对应第二声道第一背景音频数据；

如果音频输出接口的坐标对应于中间区域，确定音频输出接口对应第一声道第一背景音频数据和第二声道第一背景音频数据。

在一些实施例中，屏幕包括：中间区域和非中间区域；

根据唇动坐标和显示设备的多个音频输出接口的坐标，确定多个音频输出接口分别对应的人声权重，包括：

如果唇动坐标位于非中间区域，根据唇动坐标和多个音频输出接口的坐标，确定多个音频输出接口分别对应的人声权重；

如果唇动坐标位于中间区域，根据多个音频输出接口的坐标和多个音频输出接口的属性信息，确定多个音频输出接口分别对应的人声权重，其中，属性信息包括音量大小和/或朝向。

在一些实施例中，针对每个音频输出接口，根据音频输出接口的坐标，确定音频输出接口在屏幕中对应的区域；

如果唇动坐标位于音频输出接口对应的区域内，确定音频输出接口对应的人声权重为第一数值；

如果唇动坐标位于音频输出接口对应的区域外，确定音频输出接口对应的人声权重为第二数值，第二数值小于第一数值。

上述音频处理方法还包括：

根据目标声音清晰度控制模式对应的第一数值和/或目标音效模式对应的第二数值，确定第一增益和第二增益。

本申请一些实施例还提供了一种音频处理方法，通过人声分离可以实现不受媒体资源限制地唱歌。同时，可以根据麦克风采集到的演唱人声的能量，将原唱人声全部或部分添加至伴奏中，避免因演唱者唱歌水平不高而影响唱歌体验。

参见图21，图21为本申请一些实施例中音频处理方法的又一种流程图，应用于显示设备，可以包括以下步骤：

步骤S2110，获取歌曲音频数据，对歌曲音频数据进行人声分离，得到原唱人声音频数据和伴奏音频数据。

步骤S2120，根据每个时间周期内的原唱人声音频数据的能量和在该时间周期内采集到的演唱人声音频数据的能量，确定原唱增益，根据原唱增益，对时间周期内的原唱人声音频数据进行增益处理，得到目标人声音频数据。

步骤S2130，将每个时间周期内的伴奏音频数据、目标人声音频数据和演唱人声音频数据进行合并以及音效增强处理，得到并输出目标音频数据。

本申请一些实施例的音效处理方法，针对歌曲音频数据，可以通过人声分离，得到原唱人声音频数据和伴奏音频数据。这样，对于任意歌曲，即使是唱歌APP中不包含的歌曲也可以通过该方法实现唱歌。并且，根据实时采集的演唱人声音频数据的能量和原唱人声音频数据的能量，确定原声增益，并根据原声增益对原唱人声音频数据进行增益处理，得到目标人声音频数据。由于原唱增益根据演唱人声音频数据的能量和原唱人声音频数据的能量确定，因此，将目标人声音频数据合并至伴奏音频数据，也就是，根据用户的演唱情况，将原唱人声音频数据合并至伴奏音频数据中，例如，将全部原唱人声音频数据合并至伴奏音频数据，或者，将部分原唱人声音频数据合并至伴奏音频数据，从而提升用户演唱时的伴奏效果，提升用户体验。

在一些实施例中，原唱增益小于等于预设增益阈值。

在一些实施例中，根据每个时间周期内的原唱人声音频数据的能量和在时间周期内采集到的演唱人声音频数据的能量，确定原唱增益，包括：

如果演唱人声音频数据的能量小于预设能量阈值，将原唱增益设置为预设增益阈值；

如果演唱人声音频数据的能量大于等于预设能量阈值，根据演唱人声音频数据的能量和原唱人声音频数据的能量之间的能量比，确定原唱增益，使原唱增益小于预设增益阈值。

在一些实施例中，上述音效处理方法还包括：

获取前一个时间周期对应的原唱增益，如果当前时间周期对应的原唱增益和前一个时间周期对应的原唱增益相同，延长时间周期，直至延长后的时间周期小于第一时间阈值；

如果当前时间周期对应的原唱增益和前一个时间周期对应的原唱增益不同，缩短时间周期，直至缩短后的时间周期大于第二时间阈值，其中，第一时间阈值大于第二时间阈值。

在一些实施例中，上述音效处理方法还包括：

根据每个时间周期内的原唱人声音频数据，生成第一伴唱音频数据；

根据在时间周期内采集到的演唱人声音频数据的能量，确定伴唱增益；其中，伴唱增益和时间周期内采集到的演唱人声音频数据的能量成正相关；

通过伴唱增益对第一伴唱音频数据进行增益处理，得到第二伴唱音频数据；其中，第二伴唱音频数据的能量小于演唱人声音频数据的能量；

将时间周期内的伴奏音频数据、目标人声音频数据和演唱人声音频数据进行合并，并进行音效增强处理，得到目标音频数据，具体包括：

将时间周期内的伴奏音频数据、第二伴唱音频数据、目标人声音频数据和演唱人声音频数据进行合并，并进行音效增强处理，得到目标音频数据。

在一些实施例中，根据每个时间周期内的原唱人声音频数据，生成第一伴唱音频数据，包括：

获取多个不同的延时以及每个延时对应的增益；

针对每个延时，根据延时对每个时间周期内的原唱人声音频数据进行延时处理，得到第一延时音频数据；

根据延时对应的增益对延时音频数据进行增益处理，得到第二延时音频数据；

将多个第二延时音频数据进行合并，得到第一伴唱音频数据。

确定原唱人声音频数据所属的音区；

根据音区对原唱人声音频数据进行升调处理或降调处理，得到第一伴唱音频数据。

在一些实施例中，根据音区对原唱人声音频数据进行升调处理或降调处理，包括：

如果音区为低音区，对原唱人声音频数据进行降调处理，得到第一伴唱音频数据；

如果音区为高音区，对原唱人声音频数据进行升调处理，得到第一伴唱音频数据；

如果音区为中音区，对原唱人声音频数据进行升调处理和降调处理，分别得到第一人声音频数据和第二人声音频数据；

将第一人声音频数据和第二人声音频数据作为第一伴唱音频数据。

上述方法中各步骤的具体细节已经在对应的显示设备中进行了详细的描述，因此此处不再赘述。

本申请一些实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述音频处理方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请提供一种计算机程序产品，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现上述的音频处理方法。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种显示设备，其特征在于，包括：

控制器，被配置为：获取歌曲音频数据，对所述歌曲音频数据进行人声分离，得到原唱人声音频数据；

根据在所述时间周期内采集到的演唱人声音频数据的能量，确定伴唱增益；其中，所述伴唱增益和所述时间周期内采集到的演唱人声音频数据的能量成正相关；

通过所述伴唱增益对所述第一伴唱音频数据进行增益处理，得到第二伴唱音频数据；其中，所述第二伴唱音频数据的能量小于所述演唱人声音频数据的能量。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器，被配置为：获取多个不同的延时以及每个延时对应的增益；

针对每个延时，根据所述延时对所述每个时间周期内的原唱人声音频数据进行延时处理，得到第一延时音频数据；

根据所述延时对应的增益对所述延时音频数据进行增益处理，得到第二延时音频数据；

3.根据权利要求1所述的显示设备，其特征在于，所述控制器，被配置为：确定所述原唱人声音频数据所属的音区；

根据所述音区对所述原唱人声音频数据进行升调处理或降调处理，得到第一伴唱音频数据。

4.根据权利要求3所述的显示设备，其特征在于，所述控制器，被配置为：如果所述音区为低音区，对所述原唱人声音频数据进行降调处理，得到第一伴唱音频数据；

如果所述音区为高音区，对所述原唱人声音频数据进行升调处理，得到第一伴唱音频数据；

如果所述音区为中音区，对所述原唱人声音频数据进行升调处理和降调处理，分别得到第一人声音频数据和第二人声音频数据；

将所述第一人声音频数据和所述第二人声音频数据作为第一伴唱音频数据。

5.一种音频处理方法，其特征在于，所述方法包括：

获取歌曲音频数据，对所述歌曲音频数据进行人声分离，得到原唱人声音频数据；

6.根据权利要求5所述的方法，其特征在于，所述根据每个时间周期内的原唱人声音频数据，生成第一伴唱音频数据，包括：

获取多个不同的延时以及每个延时对应的增益；

7.根据权利要求5所述的方法，其特征在于，所述根据每个时间周期内的原唱人声音频数据，生成第一伴唱音频数据，包括：

确定所述原唱人声音频数据所属的音区；

8.根据权利要求7所述的方法，其特征在于，所述根据所述音区对所述原唱人声音频数据进行升调处理或降调处理，得到第一伴唱音频数据，包括：

如果所述音区为低音区，对所述原唱人声音频数据进行降调处理，得到第一伴唱音频数据；

如果所述音区为中音区，对所述原唱人声音频数据进行升调处理和降调处理，分别得到第一人声音频数据和第二人声音频数据；将所述第一人声音频数据和所述第二人声音频数据作为第一伴唱音频数据。