CN117133296A

CN117133296A - 显示设备及多路语音信号的混音处理方法

Info

Publication number: CN117133296A
Application number: CN202210555721.3A
Authority: CN
Inventors: 郝征科; 陈耀宗
Original assignee: Hisense Electronic Technology Shenzhen Co ltd
Current assignee: Hisense Electronic Technology Shenzhen Co ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-11-28

Abstract

本申请提供的显示设备及多路语音信号的混音处理方法，基于提供的多路语音信号的混音处理方法，将多路语音信号混音后的第一混音结果值与预设值进行比对，如果第一混音结果值大于预设极大值或者小于预设极小值，说明此时的混音结果不满足需求，需要进行自适应混音方案。通过判断多路语音信号对应的音频流的输入值是否在预设区间内，当某路语音信号对应的音频流的输入值不在预设区间内，说明需要对该路语音信号对应的音频流进行处理，将不在预设区间内的音频数据确定为目标音频数据，得到一个或多个目标音频数据，将目标音频数据对应的音频流确定为目标音频流。通过衰减因子对目标音频流进行衰减处理，得到处理后的第二混音结果值。

Description

显示设备及多路语音信号的混音处理方法

技术领域

本申请涉及智能显示设备技术领域，尤其涉及一种显示设备及多路语音信号的混音处理方法。

背景技术

显示设备是指能够输出具体显示画面的终端设备，可以是智能电视、移动终端、智能广告屏、投影仪等终端设备。以智能电视为例，智能电视是基于Internet应用技术，具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体的电视产品，用于满足用户多样化和个性化需求。

显示设备通过音频设备播放音频流，例如通过内置的音频设备，如扬声器，播放音频流，或者通过外接的音频设备，如蓝牙音响，播放音频流。显示设备通过对音频流进行音效处理，以提高音频流的播放质量。当显示设备接收到多路语音信号时需要对语音信号进行混音处理，以解决多路语音信号声音溢出造成噪声和声音不连贯。但是，显示设备对多路语音信号进行混音处理使用的是自适应混音方案，使用该自适应混音方案会造成计算量增加以及声音失真度高的问题。

发明内容

本申请提供了一种显示设备及多路语音信号的混音处理方法，以解决相关技术中自适应混音方案造成计算量增加以及声音失真度高的问题。

一方面，本申请提供一种显示设备，包括：

显示器，被配置为显示用户界面；

外部装置接口，用于连接外部设备功放；

控制器，被配置为：

响应于多路语音信号混音指令，获取多路语音信号混音后的第一混音结果值；

如果所述第一混音结果值大于预设极大值或者小于预设极小值，则判断多路语音信号对应的音频流的输入值是否在预设区间内；

当所述输入值不在预设区间内，将所述输入值对应的音频数据确定为目标音频数据，将所述目标音频数据对应的音频流确定为目标音频流；

通过衰减因子对目标音频流的音频数据进行衰减处理，得到处理后的第二混音结果值。

在本申请的一些实施例中，所述控制器还被配置为：

在如果所述输入值不在预设区间内，将所述输入值对应的音频数据确定为目标音频数据步骤中，将所述输入值分别与预设区间左端点值以及右端点值进行比对，得到比对结果；

根据所述比对结果，为所述输入值小于预设区间左端点值对应帧的音频数据添加第一标记；

根据所述比对结果，为所述输入值大于预设区间右端点值对应帧的音频数据添加第二标记；

将携带有第一标记以及第二标记的音频数据确定为目标音频数据。

在本申请的一些实施例中，所述控制器还被配置为：

通过衰减因子对目标音频流的数据进行衰减处理步骤中，将目标音频流中当前帧的每一个音频数据进行线性叠加得到目标音频流当前帧所有音频数据的混音输出值；

将所述混音输出值结合衰减因子进行归一化处理得到第二混音结果值。

在本申请的一些实施例中，所述控制器还被配置为：

在将目标音频流中当前帧的每一个音频数据进行线性叠加得到目标音频流当前帧所有音频数据的混音输出值步骤中，将目标音频流中当前帧的每一个音频数据与其对应的第一权重值乘积得到目标音频流当前帧所有音频数据的混音输出值；其中第一权重值为该目标音频流的当前帧的音频数据在所有音频流中所占的权重。

在本申请的一些实施例中，所述控制器还被配置为：

在将目标音频流中当前帧的每一个音频数据进行线性叠加得到目标音频流当前帧所有音频数据的混音输出值步骤中，根据非均匀能量值收缩算法计算得到第二权重值；

将第二权重值结合目标音频流中当前帧的每一个音频数据进行线性叠加得到目标音频流当前帧所有音频数据的混音输出值。

在本申请的一些实施例中，所述控制器还被配置为：

在根据非均匀能量值收缩算法计算得到第二权重值步骤中，将多路语音信号所在的值域分成多个区间，计算每个区间的强度；

获取多个区间的收缩因子，以及计算每个区间的强度与其对应收缩因子的乘积；

求和每个区间的强度与其对应收缩因子的乘积，得到第二权重值。

在本申请的一些实施例中，所述控制器还被配置为：

在将目标音频流的混音输出值结合衰减因子进行归一化处理步骤中，如果衰减因子小于1，则获取衰减步长；其中衰减步长为1减去衰减因子的差值与预设步长的比值；

将所述衰减因子与衰减步长的和作为新的衰减因子。

在本申请的一些实施例中，所述控制器还被配置为：

在将目标音频流的混音输出值结合衰减因子进行归一化处理步骤中，如果所述目标音频流中的目标音频数据携带有第一标记，计算预设极大值与所述混音值的差值，并将所述差值除去所述混音值，得到第一衰减因子；

使用第一衰减因子结合目标音频数据的混音输出值进行归一化处理得到第二混音结果值。

在本申请的一些实施例中，所述控制器还被配置为：

在将目标音频数据的混音输出值结合衰减因子进行归一化处理步骤中，如果所述目标音频流中的目标音频数据携带有第二标记，计算预设极小值与所述混音值的和值，并将所述和值除去所述混音值，得到第二衰减因子；

使用第二衰减因子结合目标路音频数据的混音输出值进行归一化处理得到第二混音结果值。

第二方面，本申请提供一种多路语音信号的混音处理方法，应用于显示设备，所述方法包括：

由以上技术方案可知，本申请提供的显示设备及多路语音信号的混音处理方法，基于提供的多路语音信号的混音处理方法，将多路语音信号混音后的第一混音结果值与预设值进行比对，如果第一混音结果值大于预设极大值或者小于预设极小值，说明此时的混音结果不满足需求，需要进行自适应混音方案。通过判断多路语音信号对应的音频流的输入值是否在预设区间内，当某路语音信号对应的音频流的输入值不在预设区间内，说明需要对该路语音信号对应的音频流进行处理，将不在预设区间内的音频数据确定为目标音频数据，得到一个或多个目标音频数据，将目标音频数据对应的音频流确定为目标音频流。通过衰减因子对目标音频流进行衰减处理，得到处理后的第二混音结果值，将多个目标音频流的第二混音结果值与多路语音信号中剩余音频流的第二混音结果值进行叠加，直接输出。通过上述方案可以解决相关技术中自适应混音方案造成计算量增加以及声音失真度高的问题，保证语音帧之间平滑过度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中显示设备的使用场景；

图2为本申请实施例中控制设备的配置框图；

图3为本申请实施例中显示设备的配置图；

图4为本申请实施例中显示设备的操作系统配置图；

图5为本申请实施例中多路语音信号混音处理方法的流程图；

图6为本申请实施例中音频流的处理流程示意图；

图7为本申请实施例中音频流的混音处理流程图；

图8为本申请实施例中多路语音信号混音处理方法的流程示意图；

图9为本申请实施例中音频处理器对输入音频流混音处理示意图；

图10为本申请又一实施例中多路语音信号混音处理方法的流程示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等，也可以是手机、平板电脑、智能手表等带有显示屏的设备。图1和图2为本申请的显示设备的一种具体实施方式。

图1为根据实施例中显示设备与控制设备之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制设备100操作显示设备200。

在一些实施例中，控制设备100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备300上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

服务器400可以是提供各种服务的云端服务器，例如存储各外接的音频设备的厂家提供的配置文件，存储与用户账号对应的数据等，对显示设备200采集的数据提供支持服务等。

图3示出了根据示例性实施例中显示设备200的配置框图。

显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wi-Fi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势；再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。显示设备200可以设置至少一个麦克风。在另一些实施例中，显示设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，显示设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在显示设备200上，或者麦克风通过有线或无线的方式与显示设备200相连接。当然，在本申请实施例对麦克风在显示设备200上的位置不做限定。或者，显示设备200可以不包括麦克风，即上述麦克风并未设置于显示设备200中。显示设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带有夹子的摄像头支架)固定在显示设备200上。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，控制器250包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM(RandomAccess Memory)，ROM(Read-Only Memory)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器250输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可以为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，用户可在显示器260上显示的图形用户界面(Graphic UserInterface，GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统运行库层中的资源和取得系统的服务，并调用内核层中相应的驱动，以驱动相应的模块使用相应的资源执行相应的服务。

显示设备200通过音频设备播放音频流，在本实施例中，音频设备包括内置的音频设备，内置的音频设备是指显示设备200本身配置的用于播放音频流的音频设备，例如图3所示的扬声器。音频设备还包括外接的音频设备(后续简称音频外设)，音频外设是指通过显示设备200所提供的接口或者通信模块进行连接的音频设备。例如，如图3所示，通过通信器220与显示设备200连接的音频外设，如通过显示设备200的WiFi模块与显示设备200基于WiFi网络连接的音频外设，通过显示设备200的蓝牙模块与显示设备200基于蓝牙通信连接的音频外设(后续简称为蓝牙音频外设)，通过显示设备200的有线以太网模块与显示设备200基于以太网通信连接的音频外设。又如，如图3所示，通过外部装置接口240与显示设备200连接的音频外设，如通过显示设备200的USB接口与显示设备200有线连接的音频设备(后续简称为USB音频外设)，通过12S数字音频输出接口(图上未示出)与显示设备200连接的音频外设(后续简称为12S音频外设)，通过声音回传(Audio Retum Channel，ARC)接口(图上未示出)与显示设备200连接的音频外设(后续简称为ARC音频外设)。再如，如图3所示，通过音频输出接口270与显示设备200有线连接的音频外设(后续简称为有线音频外设)，如外接音响、有线耳机。在一些实施例中，还包括通过光纤(图上未示出)与显示设备200连接的音频外设(后续简称为光纤音频外设)。

如图3所示，显示设备200通过调谐解调器210将接收到的音频流进行解调处理，并将解调后的音频流输入音频处理器进行处理。为了提高音频流的播放质量，通常会对音频流进行音效处理，在本实施例中，对音频流进行音效处理是指为音频流设置对应的音效参数，其中，音效参数包括声音模式，如动态模式、标准模式等，环绕声，声音重置，低音强调，均衡器，杜比音效等，以及各项目对应的数值。经过音效处理的音频流被传输至当前所使用的音频设备进行播放。

基于上述显示设备200，在一些实施例中，显示设备200具有数字化语音功能，该数字化语音功能在多媒体社交中被广泛应用，例如：应用在多媒体视频会议和监控系统中。为了提升多媒体交互的体验，多媒体社交过程中对数字语音的要求也越来越高，因此对于输入的语音以及输出的语音都要求音频质量，以满足语音通话的顺畅。显示设备200接收到多路语音信号时需要对语音信号进行混音处理，将多种信号来源的声音，整合至一个立体音轨或者单音音轨中。其中，混音的方案主要基于以下三个原理，原理一：声音是由于物体振动对周围的空气产生压力而传播的一种压力波，转换成电信号，再经过抽样，量化，仍然是一种平滑的波形信号；原理二：量化后的语音信号的频率与声音的频率对应，振幅与声音的能量对应；原理三：量化的语音信号的叠加等价于空气中声波的叠加。具体混音过程是将每一个原始信号的频率、动态、音质、定位、残响和声场单独进行调整，让各自音轨最佳化，之后再叠加到最终音频数据上。

显示设备200通过其预设的混音算法对多路声音信号对应的音频流的音频数据输入值线性叠加即得到最终混音结果，假设总共有M路声音信号，其中混音算法如公式1所示：

为了保证最终混音效果，显示设备200中还可配置平均化处理的混音算法，如公式2所示：

公式1中N为一帧样本的数目，[i]为一帧中的第i个样本(第i个音频数据)，[j]为第j个音频语音流，input[j][i]表示输入的第j路语音的当前帧的第i个样本(第i个音频数据)，mixout[i]为M路语音混音后的一帧中第i个样本(第i个音频数据)的混音结果。

通常的语音数据的16bit取值范围在-32768≤采样值≤32767，多个音频流直接线性叠加以后就有可能溢出，所以公式1和2最后的结果可能会有溢出，产生噪音。

所以使用混音算法在声音线路过多时(超过4路)进行混音，会造成说话人声音忽大忽小，不能突出重点语音，由于声音溢出造成噪声和声音的不连贯的问题。

基于此，为解决上述技术问题，本申请实施例提供一种显示设备和多路语音信号的混音处理方法，在接收到多路声音信号时，通过控制器250内设置的混音算法，对每一路声音信号对应音频流的音频数据的输入值赋予一个权值进行线性叠加处理，得到每一路音频流对应的混音结果，然后将所有音频流对应的音频数据的混音结果汇总得到最终混音结果。

在一种实施例中，本申请提供的多路语音信号的混音处理方法中使用算法的如公式3所示：

其中，公式3中ω[j][i]为第j路语音的当前帧的第i个样本在M路语音中所占的权重，该权重值一般是能量比值。

上述实施例提供的多路声音信号的混音处理方法保证了混音过程中声源对整个声音的质量保持恒定。

在一种实施例中，本申请还提供一种多路语音信号的混音处理方法，为解决溢出的问题，使用更多的位数来表示音频流的一个样本(音频数据)，在混音完成以后，再使用一些算法处理这些溢出部分来降低其振幅，使其分布在16bit所能标识的范围之内，改善由于溢出所造成的质量下降。可以参考图5所示的流程，具体步骤如下：

S501、响应于多路语音信号混音指令，获取多路语音信号混音后的第一混音结果值。

其中，多路语音信号混音指令是触发显示设备200进行多路语音信号混音的控制指令。控制器250可以接收与显示设备200配套的遥控装置发出的指令，还可以接收用户通过其它设备(例如手机或者其他智能设备)发送的多路语音信号混音指令。

本申请不对控制器250获取多路语音信号混音指令的方式或途径进行限定。例如，用户可以通过按压遥控器指定的按键，由遥控器向显示设备发送相应的多路语音信号混音指令；或者，用户可以向显示设备200输出语音以发送多路语音信号混音指令。

显示设备200进行多路语音信号混音处理之前，需要获取音频流。音频流可以是直播音频数据，如显示设备200通过天线接收音频流。音频流可以是本地音频数据，如存储在显示设备200的存储器中的音频数据，显示设备200直接从存储器中获取音频流。音频流可以是由外接设备提供的音频数据，外接设备是指通过显示设备200提供的接口或者通信模块与显示设备200连接，并向显示设备200传输音频数据的设备，如图3所示，外接设备可以通过通信器220或者外部装置接口240与显示设备200连接。示例地，外接设备通过WiFi网络与显示设备200连接，显示设备200基于WiFi网络接收外接设备传输的音频流；外接设备通过蓝牙与显示设备200连接，显示设备200基于蓝牙通信接收外接设备传输的音频流；外接设备通过以太网与显示设备200连接，显示设备200基于以太网接收外接设备传输的音频流；外接设备通过USB与显示设备200连接，显示设备200基于USB接口接收外接设备传输的音频流。音频流可以是显示设备200从外界环境采集到的音频数据，如图3所示，显示设备200通过检测器230，如声音采集器，采集周围的音频流。

参考图6所示的音频流处理流程图，显示设备200获取到音频流之后，首先对音频流进行格式统一处理。按照编码格式，可以将音频流分为脉冲编码调制(Pulse CodeModulation，PCM)格式音频流，如波形声音格式(WAV)音频流，和非PCM格式音频流，如无损压缩音频格式(APE)音频流、无损音频压缩编码格式(FLAC)音频流。将非PCM格式音频流进行解码得到PCM格式音频流，将全部PCM格式音频流进行多路语音信号进行混音处理，得到多路语音信号混音后的第一混音结果值，其中第一混音结果值为公式1或公式2中的mixout[i]即M路语音混音后的一帧中第i个样本点(数据)的混音结果。

S502、将混音后的第一混音结果值与预设值进行比对。

假设一共有M路语音信号，首先需要判断M路语音信号的混音后音频数据中是否存在溢出情况。控制器250将混音后的第一混音结果值与预设值进行比对，其中预设值包括预设极大值以及预设极小值，预设极大值为M路混音结果的最大阈值，预设极小值为M路混音结果的最小阈值。如果混音结果中某个第一混音结果值大于预设极大值，说明该混音值播放可能存在声音忽大的情况，同理。如果混音结果中某个第一混音结果值小于预设极小值，说明该混音值可能存在声音忽小的情况。通过比对之后，得到第一比对结果。

S503、如果所述第一混音结果值大于预设极大值或者小于预设极小值，则判断多路语音信号对应的音频流的输入值是否在预设区间内。

其中每个路线语音信号对应音频流的输入值为该路音频流的当前帧的音频数据的输入值。根据第一比对结果，确定第一混音结果值中哪些帧的第一混音结果值大于预设极大值或者预设极小值，说明需要对该混音值的音频数据进行处理。对于第一混音结果值在预设极大值以及预设极小值之间，该第一混音结果值不做处理，正常输出。

将M路语音信号中混音值对应的某个点(例如混音值的的第i个值)的第一混音结果值大于预设极大值或者预设极小值设为触发条件，将满足触发条件的该路线语音信号对应的音频流的输入值进行判断，判断该输入值是否在预设区间内。将所述输入值分别与预设区间左端点值以及右端点值进行比对，得到第二比对结果。其中预设区间的左端点值以及右端点值分别为在一路语音中当前帧的音频数据的门限最大值gatemax以及门限最小值gatemin。假设M路语音信号中第i点存在声音溢出情况，判断M路语音信号中有哪些路线在第i点的音频数据的输入值不在预设区间内，说明需要对该路线的第i点的音频数据进行处理。

S504、根据第二比对结果，将所述输入值不在预设区间内对应的音频数据确定为目标音频数据，将所述目标音频数据对应的音频流确定为目标音频流。

根据第二比对结果，为所述输入值小于预设区间左端点值对应帧的音频数据添加第一标记，以及，为所述输入值大于预设区间右端点值对应帧的音频数据添加第二标记；将携带有第一标记以及第二标记的音频数据确定为目标音频数据。在多路语音信号对应的音频数据中可能不止一个路线语音信号对应音频流的音频数据需要进行混音处理，即可能存在多个目标音频数据以及多个目标音频流，在后续处理过程中根据目标音频流的每个目标音频数据的不同标记进行不同的混音处理。

S505、通过衰减因子对目标音频流的音频数据进行衰减处理，得到处理后的第二混音结果值。

确定目标音频数据后，采用自适应混音算法将目标音频流中当前帧的每一个数据结合第一权重值进行线性叠加得到目标音频流当前所有点的混音输出值；其中，第一权重值为公式3中的ω[j][i]；将目标音频流的混音输出值结合衰减因子进行归一化处理得到目标音频流的第二混音结果值。

其中，自适应混音算法是将所有路线语音混音后设置一个衰减因子K，使用该衰减因子对音频数据进行衰减，衰减因子K会随每一帧的音频数据的变化而变化，当前帧的音频数据大于门限最大值gatemax，衰减因子K会比较小，使溢出的音频数据衰减以后处于预设区间内；当没有溢出时，衰减因子K会慢慢增加，尽量保持数据的平滑，而不是整帧使用同一衰减因子。

其中，衰减因子K值初始化设定为1，如果目标音频流当前帧的音频数据的输入值在预设区间内，则将每一路目标音频流当前帧的所有数据结合第一权重值进行线性叠加，得到每一路目标音频流当前帧的所有混音输出值，然后将目标音频流的混音输出值与衰减因子K(K＝1)相乘进行归一化处理得到目标音频流当前帧的第二混音结果值。

参考图7所示的混音处理流程图，如果目标音频流当前帧的输入值不在预设区间内，则将每一个目标音频流当前帧的所有音频数据线性叠加到目标音频流当前帧所有数据的混音输出值，其中当前帧所有数据还包括目标音频数据和非目标音频数据，对于非目标音频数据使用初始的衰减因子，将目标音频流的混音输出值结合衰减因子进行归一化处理；而对于目标音频数据使用新的衰减因子进行归一化处理，即根据每个目标音频数据的不同标记使用不同的衰减因子结合目标音频数据的混音输出值进行归一化处理。

S510、如果所述目标音频流的音频数据携带有第一标记，计算预设极大值与所述混音值的差值，并将所述差值除去所述混音值，得到第一衰减因子。

S511、使用第一衰减因子结合目标音频数据的混音输出值进行归一化处理得到目标音频数据的第二混音结果值。

S520、如果所述目标音频数据携带有第二标记，计算预设极小值与所述混音值的和值，并将所述和值除去所述混音值，得到第二衰减因子。

S521、使用第二衰减因子结合目标音频数据的混音输出值进行归一化处理得到目标音频数据的第二混音结果值。

下面结合具体案例对上述的自适应混音算法进行详细说明，假设M路语音中有T(T<M)路的输出值不在预设区间内。

如果M路语音混音后的当前帧的第一混音结果值mixout[i]在预设极大值以及预设极小值之间，作为最终混音值直接输出。如果M路语音混音后的第一混音结果值mixout[i]大于预设极大值或者小于预设极小值，则判断每一个音频流当前帧的每一个音频数据输入值是否在预设区间内，即所述输入值是否大于门限最大值gatemax或者小于门限极小值gatemin，如果所述输入值小于gatemax，根据公式3使用第一权重值进行线性叠加，不使用新的衰减因子进行衰减处理，或者使用预设衰减因子(K＝1)进行衰减处理。

设定L＝M-T路语音不大于gatemax的语音，使用下述公式1计算L路音频流(语音)的第二混音结果值：

其中mixout L[i]为L＝M-T路语音的混音值，其中的input输入的每一路(音频流)语音在i点的值都不大于门限gatemax.。将计算得到L路音频流的第二混音结果值直接输出。

T路音频流中的输入值大于gatemax或者小于gatemin，根据所述比对结果，为所述输入值小于gatemin对应帧的音频数据添加第一标记；根据所述比对结果，为所述输入值大于gatemax对应帧的音频数据添加第二标记；将携带有第一标记以及第二标记的音频数据确定为目标音频数据。

计算T路音频流的第二混音结果值采用如下所述的自适应算法：

首先将T路音频流当前帧的每一个音频数据采用下述公式3进行线性叠加计算目标音频流当前帧所有音频数据的混音输出值，即将目标音频流中当前帧的每一个音频数据与其对应的第一权重值进行乘积；

其中ω[j][i]为第一权重值，表示该目标音频流的当前帧的音频数据在所有音频流中所占的权重。

将混音输出值根据公式4进行归一化处理的得到第二混音输出值，其中公式4如下所示：

mixoutT[i]’＝mixoutT[i]*K；(4)

其中K为衰减因子，mixoutT[i]’为第二混音结果值。

由于所述输入值input[j][i]不在预设区间内，存在所述输入值input[j][i]大于gatemax以及所述输入值input[j][i]小于gatemin两种情况，每种情况都需要重新计算衰减因子。

如果input[j][i]小于gatemmin，说明该音频流中的目标音频数据携带有第一标记，计算计算预设极小值MIN与第一混音结果值mixout[i]的和值，再将所述和值除去第一混音结果值mixout[i]，得到第一衰减因子K’。将第一衰减因子K’代入公式4中，令K＝K’，得到第二混音结果值mixoutT[i]’。

如果input[j][i]大于gatemax，说明该音频流中的目标音频数据携带有第二标记，计算预设极大值MAX与第一混音结果值mixout[i]的差值，再将所述差值除去第一混音结果值mixout[i]，得到第二衰减因子K”。将第二衰减因子K”代入公式4中，令K＝K”，得到第二混音结果值mixoutT[i]’。

在将目标音频数据的混音输出值结合衰减因子进行归一化处理步骤中，如果衰减因子K小于1，则获取衰减步长；将所述衰减因子与衰减步长的和作为新的衰减因子。其中衰减步长为1减去衰减因子的差值与预设步长的比值，在一些实施例中预设步长可以为16或者32。

当目标音频数据溢出时，使用原有的衰减因子对目标音频数据进行处理时，最终得到的第二混音结果值仍存在溢出的情况，通过自适应算法重新计算衰减因子，可以使溢出的数据衰减以后处于预设极值内；假设是混音之后的音频流某一帧的音频数据存在上溢情况，原始衰减因子K＜MAX-mixout[i]/mixoutT[i]，计算得到的新的衰减因子K’＜MAX-mixout[i]/mixoutT[i]*K，因为mixout[i]＞mixout[i]*K，所以MAX/mixout[i]＜MAX/mixout[i]*K’，所以新的衰减因子很大程度大于原始的衰减因子；由于新的衰减因子大于原始的衰减因子，并且新的衰减因子更接近1，当前帧目标音频数据相邻的音频数据变化不会特别大，所以跳跃的现象不会特别明显，输出后的第二混音结果值完全满足声音平滑，无跳跃的要求。

上述实施例提供的多路语音信号的混音处理方法中使用的自适应算法中使用的第一权重值ω[j][i]是随时间变化而变化的，使用第一权重值可能会导致混音后的音量随时间不同而有不同的缩放，会影响最终的混音质量。

因此，本申请通过找到一个与时间t无关的第二权重值，由于语音(音频流)信号中低强度信号比高强度信号出现几率更高，如果低强度信号采用较大的权重可以确保信号的可识别性同时获得一定的收缩比例；如果高强度信号给予较小的权重可以得到相应的收缩比例。在一些实施例中采用非均匀能量值收缩算法计算得到与时间t无关的第二权重值，将第二权重值结合目标音频流中当前帧的每一个音频数据进行线性叠加得到目标音频流当前帧所有音频数据的混音输出值，将所述混音输出值结合衰减因子进行归一化处理得到第二混音结果值。

S530、将多路语音信号所在的值域分成多个区间，计算每个区间的强度；

首先将多路语音信号混音后的语音信号(音频流)所在的值域分成若干个区间，每个区间长度为2^(Q-1)，计算得到每个区间的强度：【0，2^Q-1】，…，[(n-1)2^Q-1，n2^Q-1]，[n2^Q-1，(n+1)2^Q-1]。

S531、获取多个区间的收缩因子，以及计算每个区间的强度与其对应收缩因子的乘积；

S532、求和每个区间的强度与其对应收缩因子的乘积，得到第二权重值；

获取每个区间的收缩因子：其中区间0内的收缩因子为(k-1)/k，区间1内的收缩因子为区间n内的收缩因子为/>

将每个区间的强度与其对应收缩因子的乘积再求和得到第二权重值后，将第二权重值与目标音频流中当前帧的每一个音频数据进行线性叠加，即根据公式5进行计算目标音频流当前帧所有音频数据的混音输出值。

其中，公式5中n_j＝|b[j][i]|/2^Q-1，n_j表示目标音频流中当前帧的每一个音频数据输入值与区间强度的比值，sgn(x)为阶跃函数，mod是取余操作，k取8，Q＝16。

为了加快计算速度，将上述公式(5)进行改造。

首先，令目标音频流中当前帧的每一个音频数据输入值与区间强度的比值选取最近n_j＝min(|b[j][i]|>>(Q-1),4)的数值。

然后为了快速计算引入新的变量c[j][i]以及d[j][i]，令c[j][i]＝b[j][i]&(2^Q-1-1)；表示当前在i点的混音值在哪一级强度信号内，混音值d[j][i]＝(c[j][i]<<2)+(c[j][i]<<1)+c[j][i]；将d[j][i]代入公式6，计算得到目标音频流当前帧所有音频数据的混音输出值Mixouttemp[i]；

其中公式6中，

按照上述实施例提供的非均匀能量值收缩算法进行出与时间无关的第二权重值，由于第二权重值不会像第一权重值ω[j][i]随着时间变化，在进行多路语音信号混音处理过程中提高了混音之后的音频流质量，混音之后的音频流音量不会大小变化不定，声音不会产生失真度，并且节省计算量。

通过上述实施例提供的多路语音信号的混音处理方法将多路语音信号对应的音频流进行混音处理，显示设备200将混音处理后的音频流进行前置处理，即对混音后的音频流进行音量增益处理，以放大混音后的音频流的音量，以便于后续对混音后的音频流的音效处理，以及保证混音后的音频流的播放效果。将前置处理后的音频流进行后置处理，即对前置处理后的音频流进行后置音效处理，其中，使用音效文件中的音效参数对前置处理后的音频流进行音效处理，示例地，音效文件中的音效参数为标准模式，均衡器的各项数值分别为-4dB、-1dB、2dB、2dB、-3dB，分别对应于低音、中低音、中音、中高音、高音频段，则使用该音效文件对前置处理后的音频流进行音效处理后得到的音频流具备的音效参数对应上述数值。将后置处理后的音频流传输至当前所使用的音频设备，并进行播放。例如将后置处理后的音频流传输至内置的音频设备，如扬声器进行播放，或者，将后置处理后的音频流传输至音频外设，如用户指定的蓝牙音响进行播放。

基于上述多路语音信号的混音处理方法，本申请的一些实施例还提供一种显示设备，包括：显示器260、外部装置接口240、控制器250。其中，显示器260，被配置为显示用户界面；外部装置接口240，用于连接外部设备功放；控制器250，被配置为：

如图8所示，显示设备200的控制器250获取第一个接口、第二个接口、直至第M个接口的输入语音，将多个接口输入的多个音频流(语音)发送给音频处理器，音频处理器首先将多个音频流进行格式统一处理，进行解码操作得到PCM格式音频流；音频处理器将得到的多个PCM格式音频流进行混音处理，得到第一混音结果值；控制器250获取第一混音结果值，判断第一混音结果值是否大于预设极大值或者小于预设极小值，如果第一混音结果值大于预设极大值或者小于预设极小值，控制器250判断多路语音信号对应的音频流的输入值是否在预设区间内；当所述输入值不在预设区间内，控制器250将所述输入值对应的音频数据确定为目标音频数据，将所述目标音频数据对应的音频流确定为目标音频流；音频处理器通过衰减因子对目标音频流的音频数据进行衰减处理，得到处理后的第二混音结果值；控制器250将衰减处理过的第二混音结果值与无需衰减处理的第一混音结果值叠加到最终音频流的音频数据，最终输出混音后的音频流。显示设备200将混音处理后的音频流进行增益处理以及后置处理，最终将后置处理后的音频流传输至当前使用的音频设备进行播放。其中，音频处理器对输入音频流进行缓冲，解码以及混音过程如图9所示。如图10所示，本申请实施例提供通过第二权重值进行多路语音信号混音处理的流程图。

由以上技术方案可知，本申请提供的显示设备基于提供的多路语音信号的混音处理方法，将多路语音信号混音后的第一混音结果值与预设值进行比对，如果第一混音结果值大于预设极大值或者小于预设极小值，说明此时的混音结果不满足需求，需要进行自适应混音方案。通过判断多路语音信号对应的音频流的输入值是否在预设区间内，当某路语音信号对应的音频流的输入值不在预设区间内，说明需要对该路语音信号对应的音频流进行处理，将不在预设区间内的音频数据确定为目标音频数据，得到一个或多个目标音频数据，将目标音频数据对应的音频流确定为目标音频流。通过衰减因子对目标音频流进行衰减处理，得到处理后的第二混音结果值，将多个目标音频流的第二混音结果值与多路语音信号中剩余音频流的第二混音结果值进行叠加，直接输出。通过上述方案可以解决相关技术中自适应混音方案造成计算量增加以及声音失真度高的问题，保证语音帧之间平滑过度，不造成语音忽大忽小。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。

Claims

1.一种显示设备，其特征在于，包括：

显示器，被配置为显示用户界面；

外部装置接口，用于连接外部设备功放；

控制器，被配置为：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

3.根据权利要求2所述的显示设备，其特征在于，所述控制器还被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制器还被配置为：

5.根据权利要求3所述的显示设备，其特征在于，所述控制器还被配置为：

6.根据权利要求5所述的显示设备，其特征在于，所述控制器还被配置为：

7.根据权利要求4或5所述的显示设备，其特征在于，所述控制器还被配置为：

将所述衰减因子与衰减步长的和作为新的衰减因子。

8.根据权利要求7所述的显示设备，其特征在于，所述控制器还被配置为：

在将目标音频数据的混音输出值结合衰减因子进行归一化处理步骤中，如果所述目标音频流中的目标音频数据携带有第一标记，计算预设极小值与第一混音结果值的和值，并将所述和值除去所述第一混音结果值，得到第一衰减因子；

使用第一衰减因子结合目标路音频数据的混音输出值进行归一化处理得到第二混音结果值。

9.根据权利要求7所述的显示设备，其特征在于，所述控制器还被配置为：

在将目标音频流的混音输出值结合衰减因子进行归一化处理步骤中，如果所述目标音频流中的目标音频数据携带有第二标记，计算预设极大值与第一混音结果值的差值，并将所述差值除去所述第一混音结果值，得到第二衰减因子；

使用第二衰减因子结合目标音频数据的混音输出值进行归一化处理得到第二混音结果值。

10.一种多路语音信号的混音处理方法，其特征在于，应用于显示设备，所述方法包括：