CN111726695B

CN111726695B - 显示设备及音频合成方法

Info

Publication number: CN111726695B
Application number: CN202010627556.9A
Authority: CN
Inventors: 王光强
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2022-07-05
Anticipated expiration: 2040-07-02
Also published as: CN111726695A

Abstract

本申请公开了一种显示设备及音频合成方法，属于多媒体技术领域。在本申请中，在合成第一音频和第二音频时，由于第一音频和第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，且第一音频和第二音频为针对同一多媒体数据采集的音频，因此，即使第一音频和第二音频的实际采集时间有差异，根据第一音频的时间戳和第二音频的时间戳之间的差值来合成视频，便可避免由于两段音频的采集时间不一致导致合成后的音频中音频和真实场景下两个人合唱的音频之间的差距较大。所以通过本申请提供的技术方案可实现合成后的音频和真实的合唱场景一致的技术效果。

Description

显示设备及音频合成方法

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种显示设备及音频合成方法。

背景技术

随着多媒体技术的发展，用户在通过客户端实现K歌服务时，还能够通过客户端任意选择另一个用户进行合唱。比如，用户A和用户B当前通过各自的客户端能够实现合唱。进行合唱的具体过程为：客户端A采集用户A的音频，并将用户A的音频推流给客户端B，客户端B接收到用户A的音频后，将用户A的音频和用户B的音频合成，即可实现用户A和用户B的合唱。在上述合成两个用户的音频的过程中，如何保证合成后的两个用户的音频能够更加逼近真实的合唱场景，是目前研究的热点。

发明内容

本申请实施例提供了一种音频合成方法、装置及计算机存储介质，可以实现在不同用户进行合唱的场景中，合成后的两个用户的音频能够更加逼近真实的合唱场景。所述技术方案如下：

一方面，提供了一种显示设备，所述显示设备包括显示器和控制器；

所述控制器用于获取第一客户端采集的第一音频、第二客户端采集的第二音频、所述第一音频的时间戳以及所述第二音频的时间戳，所述第一音频和所述第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，所述第一音频和所述第二音频为针对同一多媒体数据采集的音频；

所述控制器还用于根据所述第一音频的时间戳和所述第二音频的时间戳之间的差值，合成所述第一音频和所述第二音频。

另一方面，提供了一种音频合成方法，所述方法包括：

获取第一客户端采集的第一音频、第二客户端采集的第二音频、所述第一音频的时间戳以及所述第二音频的时间戳，所述第一音频和所述第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，所述第一音频和所述第二音频为针对同一多媒体数据采集的音频；

根据所述第一音频的时间戳和所述第二音频的时间戳之间的差值，合成所述第一音频和所述第二音频。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述提供的音频合成方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当指令在计算机上运行时，使得计算机执行前述所提供的确定流量控制阈值的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在合成第一音频和第二音频时，由于第一音频和第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，且第一音频和第二音频为针对同一多媒体数据采集的音频，因此，即使第一音频和第二音频的实际采集时间有差异，根据第一音频的时间戳和第二音频的时间戳之间的差值来合成视频，便可避免由于两段音频的采集时间不一致导致合成后的音频中音频和真实场景下两个人合唱的音频之间的差距较大。所以通过本申请提供的技术方案可实现合成后的音频和真实的合唱场景一致的技术效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种显示设备与控制设备之间操作场景的示意图。

图2是本申请实施例提供的一种显示设备200的硬件配置框图。

图3是本申请实施例提供的一种控制设备100的配置框图。

图4是本申请实施例提供的一种显示设备200功能配置示意图。

图5是本申请实施例提供的一种显示设备200中软件系统的配置框图。

图6是本申请实施例提供的一种连麦K歌流程图。

图7是本申请实施例提供的一种音频合成方法流程图。

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请示例性实施例的目的、技术方案和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请中示出的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

应当理解，本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF，Radio Frequency)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB(UniversalSerial Bus(通用串行总线)、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

在对本申请实施例进行详细解释说明之前，先对本申请实施例的应用场景解释说明。

随着智能电视的普及，人们通过大屏的智能电视进行娱乐的需求越来越强烈。唱歌作为一个零门槛的娱乐方式，已经成为老少咸宜的家庭娱乐方式。为了实现智能电视对家庭娱乐场景的深入渗透，目前的智能电视为用户提供K歌服务。其中，K歌服务作为智能电视的核心创新功能，旨在成为家庭娱乐第一场景。现阶段常见的应用于智能电视的K歌软件普遍功能单一、玩法独立、缺少用户间的互动。因此，基于智能电视的社交体系，进行合唱功能的研发，是目前研究的热点。目的在于实现深度建立用户间的关系，增强用户粘性和活跃，从而丰富智能电视的K歌平台玩法，让用户在家能够做到想和谁唱就和谁唱。其中，连麦K歌是一种在K歌过程中实现用户合唱的技术，能够更好的拉近用户和电视的关系，让社交更舒服，让电视更有温度，让用户想去哪唱就去哪唱。

本申请实施例提供的音频合成方法就应用于上述连麦K歌的场景中。假设这种场景下客户端A的用户A和客户端B的用户B需要进行合唱。客户端A将实时采集的用户A的音频推流至客户端B，客户端B将实时采集的用户B的音频推流至客户端A。任一客户端将接收到音频和本端自身采集的音频进行合成，即可实现用户A和用户B的连麦K歌。

需要说明的是，上述连麦K歌仅仅是本申请实施例提供的音频合成方法的一种可能的应用场景。可选地，本申请实施例提供的音频合成方法也应用于其他合唱场景中，比如应用于将非连麦过程中独立采集的用户A的音频和用户B的音频进行合唱的场景中。

在连麦K歌过程中，需要智能电视之间的交互。因此，在此对智能电视的硬件结构进行解释说明。

图1是本申请实施例提供的一种显示设备与控制设备之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制设备100操作显示设备200。本申请实施例中涉及的终端也即为该显示设备200。

其中，控制设备100可以遥控器，包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

示例的，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以一组，也可以多组，可以一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能。示例的包括，网络电视、智能电视、互联网协议电视(IPTV)等。

图2是本申请实施例提供的一种显示设备200的硬件配置框图。如图2中示出，显示设备200中包括控制器210、调谐解调器220、通信接口230、检测器240、输入\输出接口250、视频处理器260-1，音频处理器260-2，显示器280，音频输出270、存储器290，供电电源、红外接收器。

显示器280，用于接收源自视频处理器260-1输入的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。显示器280包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

同时，显示器280，同时显示显示设备200中产生且用于控制显示设备200的用户操控UI界面。

以及，根据显示器280类型不同，还包括用于驱动显示的驱动组件。或者，倘若显示器280为一种投影显示器，还可以包括一种投影装置和投影屏幕。

通信接口230是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信接口230可以是WIFI模块231，蓝牙模块232，有线以太网模块233等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器(图中未示出)。

显示设备200可以通过通信接口230与外部控制设备或内容提供设备之间建立控制信号和数据信号发送和接收。以及，红外接收器，可用于接收控制装置100(如：红外遥控器等)红外控制信号的接口器。

检测器240，是显示设备200用于采集外部环境或与外部交互的信号。检测器240包括光接收器242，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

以及包括图像采集器241，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在其他一些示例性实施例中，检测器240，还可温度传感器等，如通过感测环境温度，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在其他一些示例性实施例中，检测器240，还可声音采集器等，如麦克风，可以用于接收用户的声音，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，显示设备200可以自适应适应环境噪声。

输入/输出接口250，在控制器210的控制显示设备200与外部其他设备间数据传输。如接收外部设备的视频信号和音频信号、或命令指令等数据。

其中，输入/输出接口250可以包括，但不限于如下：可以高清多媒体接口HDMI接口251、模拟或数据高清分量输入接口253、复合视频输入接口252、USB输入接口254、RGB端口(图中未示出)等任一个或多个接口。

在其他一些示例性实施例中，输入/输出接口250也可以上述多个接口形成复合性的输入/输出接口。

调谐解调器220，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多个无线或有线广播电视信号中解调出用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

调谐解调器220，可根据用户选择，以及由控制器210控制，响应用户选择的电视信号频率以及该频率所携带的电视信号。

调谐解调器220，可以接收信号的途径，根据电视信号广播制式不同，有很多种，诸如：地面广播、有线广播、卫星广播或互联网广播信号等；以及根据调制类型不同，可以数字调制，也可以模拟调制方式。根据接收电视信号种类不同，可以模拟信号和数字信号。

在其他一些示例性实施例中，调谐解调器220也可在外置设备中，如外置机顶盒等。这样，机顶盒通过调制解调后输出电视音视频信号，经过输入/输出接口250输入显示设备200中。

视频处理器260-1，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

示例的，视频处理器260-1，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

音频处理器260-2，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在其他一些示例性实施例中，视频处理器260-1可以包括一颗或多颗芯片组成。音频处理器260-2，也可以包括一颗或多颗芯片组成。

以及，在其他一些示例性实施例中，视频处理器260-1和音频处理器260-2，可以单独的芯片，也可以于控制器210一起集成在一颗或多颗芯片中。

音频输出272，在控制器210的控制下接收音频处理器260-2输出的声音信号，如：扬声器272，以及除了显示设备200自身携带的扬声器272之外，可以输出至外接设备的发生装置的外接音响输出端子274，如：外接音响接口或耳机接口等。

供电电源，在控制器210控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户输入接口，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器210。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

示例的，用户通过遥控器100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器210响应用户的输入。

在一些实施例中，用户可在显示器280上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

控制器210，通过存储在存储器290上中各种软件控制程序，来控制显示设备200的工作和响应用户的操作。

如图2所示，控制器210包括RAM213和ROM214以及图形处理器216、处理器212、第一接口218-1到第n接口218-n，以及通信总线。其中，RAM213和ROM214以及图形处理器216、处理器212、第一接口218-1到第n接口218-n通过总线相连接。

ROM213，用于存储各种系统启动的指令。如在收到开机信号时，显示设备200电源开始启动，处理器212运行ROM中系统启动指令，将存储在存储器290的操作系统拷贝至RAM213中，以使开始运行启动操作系统。当操作系统启动完成后，处理器212再将存储器290中各种应用程序拷贝至RAM213中,然后，开始运行启动各种应用程序。

图形处理器216，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，产生基于运算器得到的各种对象，进行渲染的结果显示在显示器280上。

处理器212，用于执行存储在存储器290中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，处理器212，可以包括多个处理器。多个处理器可包括一个主处理器以及多个或一个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。多个或一个子处理器，用于在待机模式等状态下一种操作。

控制器210可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器280上显示UI对象的用户命令，控制器210便可以执行与由用户命令选择的对象有关的操作。

其中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

存储器290，包括存储用于驱动显示设备200的各种软件模块。如：存储器290中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等。

其中，基础模块用于产后护理显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如：语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器280进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。

同时，存储器290还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

在本申请实施例中，控制器210被配置为：获取第一客户端采集的第一音频、第二客户端采集的第二音频、第一音频的时间戳以及第二音频的时间戳，第一音频和第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，第一音频和第二音频为针对同一多媒体数据采集的音频；根据第一音频的时间戳和第二音频的时间戳之间的差值，合成第一音频和第二音频。

也即是，控制器被配置为实现本申请实施例提供的音频合成方法。关于音频合成方法的详细技术实现将在下述实施例中说明，在此就先不展开阐述。

图3是本申请实施例提供的一种控制设备100的配置框图。如图3所示，控制设备100包括控制器110、通信接口130、用户输入/输出接口140、存储器190、供电电源180。

控制设备100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起到用户与显示设备200之间交互中介作用。如：用户通过操作控制设备100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制设备100可是一种智能设备。如：控制设备100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制设备100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制设备100实体按键的功能。

控制器110包括处理器112和RAM113和ROM114以及通信总线。控制器110用于控制控制设备100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片、蓝牙模块、NFC模块等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制设备100包括通信接口130和输出接口中至少一者。控制设备100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200。

存储器190，用于在控制器110的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器110的控制下为控制设备100各元件提供运行电力支持。可以电池及相关控制电路。

图4是本申请实施例提供的一种显示设备200功能配置示意图。如图4所示，存储器290用于存储操作系统、应用程序、内容和用户数据等，在控制器210控制下执行驱动显示设备200的系统运行以及响应用户的各种操作。存储器290可以包括易失性和/或非易失性存储器。

存储器290，具体用于存储驱动显示设备200中控制器210的运行程序，以及存储显示设备200内置各种应用程序，以及用户从外部设备下载的各种应用程序、以及与应用相关各种图形用户界面，以及与图形用户界面相关的各种对象，用户数据信息，以及各种支持应用的内部数据。存储器290用于存储OS内核、中间件和应用等系统软件，以及存储输入的视频数据和音频数据、及其他用户数据。

存储器290，具体用于存储音视频处理器260-1和260-2、显示器280、通信接口230、调谐解调器220、检测器240、输入/输出接口250等驱动程序和相关数据。

在一些实施例中，存储器290可以存储软件和/或程序，用于表示操作系统(OS)的软件程序包括，例如：内核、中间件、应用编程接口(API)和/或应用程序。示例性的，内核可控制或管理系统资源，或其它程序所实施的功能(如所述中间件、API或应用程序)，以及内核可以提供接口，以允许中间件和API，或应用访问控制器，以实现控制或管理系统资源。

示例的，存储器290，包括广播接收模块2901、频道控制模块2902、音量控制模块2903、图像控制模块2904、显示控制模块2905、音频控制模块2906、外部指令识别模块2907、通信控制模块2908、光接收模块2909、电力控制模块2910、操作系统2911、以及应用2912、浏览器模块等等。控制器210通过运行存储器290中各种软件程序，来执行诸如：广播电视信号接收解调功能、电视频道选择控制功能、音量选择控制功能、图像控制功能、显示控制功能、音频控制功能、外部指令识别功能、通信控制功能、光信号接收功能、电力控制功能、支持各种功能的软件操控平台、以及浏览器功能等其他应用。

如图5中所示，操作系统2911，包括用于处理各种基础系统服务和用于实施硬件相关任务的执行操作软件，充当应用程序和硬件组件之间完成的数据处理的媒介。一些实施例中，部分操作系统内核可以包含一系列软件，用以管理显示设备硬件资源，并为其他程序或软件代码提供服务。

其他一些实施例中，部分操作系统内核可包含一个或多个设备驱动器，设备驱动器可以是操作系统中的一组软件代码，帮助操作或控制显示设备关联的设备或硬件。驱动器可以包含操作视频、音频和/或其他多媒体组件的代码。示例的，包括显示屏、摄像头、Flash、WiFi和音频驱动器。

其中，可访问性模块2911-1，用于修改或访问应用程序，以实现应用程序的可访问性和对其显示内容的可操作性。

通信模块2911-2，用于经由相关通信接口和通信网络与其他外设的连接。

用户界面模块2911-3，用于提供显示用户界面的对象，以供各应用程序可访问，可实现用户可操作性。

控制应用程序2911-4，用于可控制进程管理，包括运行时间应用程序等。

事件传输系统2914，可在操作系统2911内或应用程序2912中实现，以一些实施例中，一方面在操作系统2911内实现，同时在应用程序2912中实现，用于监听各种用户输入事件，将根据各种事件指代响应各类事件或子事件的识别结果，而实施一组或多组预定义的操作的处理程序。

其中，事件监听模块2914-1，用于监听用户输入接口输入事件或子事件。

事件识别模块2914-1，用于对各种用户输入接口输入各类事件的定义，识别出各种事件或子事件，且将其传输给处理用以执行其相应一组或多组的处理程序。

其中，事件或子事件，是指显示设备200中一个或多个传感器检测的输入，以及外界控制设备(如控制设备100等)的输入。如：语音输入各种子事件，手势识别的手势输入，以及控制设备的遥控按键指令输入的子事件等。示例的，遥控器中一个或多个子事件包括多种形式，包括但不限于按键按上/下/左右/、确定键、按键按住等中一个或组合。以及非实体按键的操作，如移动、按住、释放等操作。

界面布局管理模块2913，直接或间接接收来自于事件传输系统2914监听到各用户输入事件或子事件，用于更新用户界面的布局，包括但不限于界面中各控件或子控件的位置，以及容器的大小或位置、层级等与界面布局相关各种执行操作。

显示设备可以是上述实施例中介绍的显示设备，也可以其他可实现类似显示效果的其他显示设备。

为了后续便于说明，在对整个连麦K歌的业务流程进行简单说明。以用户A和用户B之间的连麦K歌为例进行说明，连麦K歌主要包括以下几个流程：

1、用户A首先在客户端A上选择歌曲，选择完歌曲后基于客户端A上显示的各个待选用户进行合唱者的选择。当客户端A检测到用户A选了一个合唱者后，假设该合唱者为用户B，客户端A向客户端B发送邀请消息。该合唱者为亲友或者是陌生人。其中，客户端A如何显示各个待选用户，本申请实施例不作详细解释说明。

需要说明的是，客户端A在发送邀请消息之前先创建一个房间号，然后将房间号相关的信息通过该邀请消息或其他消息通道传给客户端B。同时推送的信息还包括用户A的名称、用户A的头像、用户A选择的歌曲等信息。其中，客户端A创建房间号的过程中服务器会对用户A进行创建者身份鉴权，以校验创建者的身份是否合法。其中，创建者身份鉴权的具体实现方式同样在本申请实施例不作详细解释说明。

2、客户端B接收到该邀请消息后，显示该邀请消息。并显示针对该邀请消息的选择控件，该选择控件包括拒绝控件和接受控件，拒绝控件用于指示用户B拒绝该连麦K歌邀请，接受控件用于指示用户B接受该连麦K歌邀请。当客户端B检测到针对该拒绝控件的选择操作，客户端B则向客户端A发送拒绝邀请提醒消息，此时该连麦K歌流程结束。当客户端B检测到针对该接受控件的选择操作，客户端B则根据客户端A传过来的房间号信息进入客户端A创建的房间中。

3、进入房间后客户端A和客户端B均会进行待合唱歌曲的下载，此处不选择在线播放的原因是因为歌曲MV比较大，在线播放可能会造成不同步。

4、客户端A和客户端B均进入到房间后，可以提示用户A和用户B选择开始合唱。这时用户A和用户B根据歌曲的分配进行合唱。其中，合唱作品可以选择云端生成或者在本地生成。也即是，本申请实施例提供的音频合成方法可以应用于客户端本地、也可以用于服务器。

5、用户A和用户B在开始合唱后，如图6所示，客户端A和客户端B需要各自将本地采集的视频流和音频流经过低延时通道传递给对端。客户端和客户端B两边均独自播放伴奏，并将本地采集的音视频叠加上对端采集的音视频流进行播放。在传输的时候都需要经过服务器，该服务器比如为K歌服务器。服务器会进行临时文件的保存。在合唱的过程中由服务器或客户端叠加上伴奏进行作品的合成，以实现边唱边合成的技术效果。其中，客户端对本地采集的声音和伴奏进行音效处理，对对端采集的音频数据不进行音效处理。具体实现方式本申请实施例同样不作具体限定。

6、用户A和用户B合唱完成后可以通过按钮来触发是否保存作品的提示，如果保存作品，客户端则调用接口，通知服务器，进行作品相应的保存。如果不保存，客户端也同样发送消息给服务端，服务器删除临时文件。

本申请实施例提供的音频合成方法就应用于上述客户端A或客户端B将本端采集的音视频和对端采集的音视频进行合成的场景中。需要说明的是，由于本端采集的音频和视频是同步采集的，因此，本申请实施例重点说明如何合成音频，在合唱音频后将相应视频按照对应的音频的时间戳合成即可。

接下来对本申请实施例提供的音频合成方法进行详细的解释说明。

图7是本申请实施例提供的一种音频合成方法的流程图，该方法可以应用于智能电视等显示设备或服务器。显示设备上加载有比如为图6中的客户端A或客户端B。下面以显示设备实现本申请实施例提供的音频合成方法为例进行说明。请参考图7，该方法包括如下步骤。

步骤701：显示设备获取本端采集的第一音频、第二客户端采集的第二音频、第一音频的时间戳以及第二音频的时间戳。其中，第一音频和第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，第一音频和第二音频为针对同一多媒体数据采集的音频。

上述显示设备可以为加载有第一客户端的显示设备、也可以为加载有第二客户端的显示设备，本申请实施例对此不作具体限定。

在连麦K歌场景中，上述同一多媒体数据即为待合唱的歌曲。此外，在连麦K歌场景中，由于音视频是实时推送的，因此，上述第一音频为第一客户端采集的音频流，上述第二音频为第二客户端采集的音频流。

为了能够实现合成后的音频逼近真实合唱场景中的音频，第一客户端在采集第一音频和第二客户端采集第二音频时使用同一基准时间轴来标记采集到的音频的时间戳，如此后续本端才能基于对端采集的音频的时间戳和本端采集的音频的时间戳，衡量两个用户在连麦K歌过程中唱歌的时延。从而基于该时延来合成音频。

在一种可能的实现方式中，上述基准时间轴为网络标准时间轴，比如为客户端对应的服务器的时间轴。在另一种可能的实现方式中，上述基准时间戳为多媒体数据的伴奏时间轴。由于合唱场景中，用户A和用户B使用的同一歌曲的伴奏，因此可以通过该伴奏的时间轴标记采集的音频的时间戳，以实现第一客户端和第二客户端在同一基准时间轴下标记时间戳。

此外，由于不用的网络设备采集音频的采集时延不同，因此，为了避免由于设备本端的采集时延导致合唱过程中两个音频不同步，在标记采集的音频的时间戳时，将该采集时间考虑在内。下面以第一客户端为例进行说明。

在一种可能的实现方式中，第一客户端采集第一音频，并获取基准时间轴下采集第一音频的时间点，将时间点与采集时延之间的差值确定为第一音频的时间戳，采集时延是指第一客户端采集到第一音频的时间点和第一音频的发出者的发声时间点之间的时延。

步骤702：显示设备根据第一音频的时间戳和第二音频的时间戳之间的差值，合成第一音频和第二音频。

上述根据第一音频的时间戳和第二音频的时间戳之间的差值，合成第一音频和第二音频的一种可能的实现方式为：将第一音频的时间戳与差值相减，得到第一音频的校准时间戳；根据第一音频的校准时间戳和第二音频的时间戳，将第一音频和第二音频中具有相同时间点的音频合成。

上述根据第一音频的时间戳和第二音频的时间戳之间的差值，合成第一音频和第二音频的另一种可能的实现方式为：将第二音频数据的时间戳与差值相加，得到第二音频的校准时间戳；根据第一音频的时间戳和第二音频的校准时间戳，将第一音频和第二音频中具有相同时间点的音频合成。

也即是，在合成两个客户端的音频时，可以以任一客户端采集的音频的时间戳为标准来校准另一个客户端采集的音频的时间戳。

此外，上述第一音频的时间戳和第二音频的时间戳之间的差值的一种可能的实现方式为：在第一音频和第二音频中分别选取多个采集点，得到多个采样点对，每对采样点对应的同一音频点，确定多个采集点对中每对采样点对的时间戳差值，得到多个时间戳差值，将这多个时间戳差值的平均值确定为第一音频的时间戳和第二音频的时间戳之间的差值。

此外，上述合成第一音频和第二音频的过程中，可选地，还可以根据伴奏，对第一音频和第二音频进行反向处理，以过滤采集第一音频和第二音频时由于伴奏产生的杂音。然后根据伴奏，过滤后的第一音频和过滤后的音频，依据校准后的时间戳进行合成。

在本申请实施例中，在合成第一音频和第二音频时，由于第一音频和第二音频的时间戳是在采集到音频时使用同一基准时间轴标记的时间戳，且第一音频和第二音频为针对同一多媒体数据采集的音频，因此，即使第一音频和第二音频的实际采集时间有差异，根据第一音频的时间戳和第二音频的时间戳之间的差值来合成视频，便可避免由于两段音频的采集时间不一致导致合成后的音频中音频和真实场景下两个人合唱的音频之间的差距较大。所以通过本申请提供的技术方案可实现合成后的音频和真实的合唱场景一致的技术效果。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请实施例对此不再一一赘述。

图8是本申请实施例提供的一种服务器的结构示意图。该服务器可以是后台服务器集群中的服务器，比如为K歌服务器。具体来讲：

服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入/输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的音频合成方法的指令。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的音频合成方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的音频合成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种显示设备，其特征在于，所述显示设备包括显示器和控制器，所述显示设备为加载有第一客户端的显示设备；

所述控制器用于：

邀请第二客户端进入合唱房间以进行合唱；

在开始与所述第二客户端进行合唱后，播放第一伴奏，所述第一伴奏是所述显示设备播放的待合唱歌曲的伴奏；

采集第一音频，并获取所述第一伴奏的伴奏时间轴下采集所述第一音频的时间点；将所述第一伴奏的伴奏时间轴下采集所述第一音频的时间点与第一采集时延之间的差值确定为所述第一音频的时间戳，所述第一采集时延是指所述第一客户端采集到所述第一音频的时间点和所述第一音频的发出者的发声时间点之间的时延；

获取所述第二客户端采集的第二音频以及所述第二音频的时间戳，所述第二音频的时间戳是所述第二客户端在第二伴奏的伴奏时间轴下采集所述第二音频的时间点与第二采集时延的差值，所述第二采集时延是指所述第二客户端采集到所述第二音频的时间点和所述第二音频的发出者的发声时间点之间的时延，所述第二伴奏是所述第二客户端播放的所述待合唱歌曲的伴奏，所述第一音频的时间戳对应的所述第一伴奏和所述第二音频的时间戳对应的所述第二伴奏是在不同客户端播放的同一所述待合唱歌曲的伴奏；

所述控制器还用于根据第二差值进行时间戳校准，根据校准的时间戳合成所述第一音频和所述第二音频，所述第二差值为所述第一音频的时间戳和所述第二音频的时间戳之间的差值。

2.如权利要求1所述的显示设备，其特征在于，所述控制器用于：

将所述第一音频的时间戳与所述第二差值相减，得到所述第一音频的校准时间戳；

根据所述第一音频的校准时间戳和所述第二音频的时间戳，将所述第一音频和所述第二音频中具有相同时间点的音频合成。

3.如权利要求1所述的显示设备，其特征在于，所述控制器用于：

将所述第二音频数据的时间戳与所述第二差值相加，得到所述第二音频的校准时间戳；

根据所述第一音频的时间戳和所述第二音频的校准时间戳，将所述第一音频和所述第二音频中具有相同时间点的音频合成。

4.如权利要求1至3任一所述的显示设备，其特征在于，所述控制器还用于：

在所述第一音频和所述第二音频中分别选取多个采集点，得到多个采样点对，每对采样点对对应同一音频点；

确定所述多个采样点对中每对采样点对的时间戳差值，得到多个时间戳差值；

将所述多个时间戳差值的平均值确定为所述第二差值。

5.一种音频合成方法，其特征在于，应用于显示设备中，所述显示设备为加载有第一客户端的显示设备，所述方法包括：

邀请第二客户端进入合唱房间以进行合唱；

在开始与所述第二客户端进行合唱后，播放第一伴奏，所述第一伴奏是播放的待合唱歌曲的伴奏；

根据第二差值进行时间戳校准，根据校准的时间戳合成所述第一音频和所述第二音频，所述第二差值为所述第一音频的时间戳和所述第二音频的时间戳之间的差值。

6.如权利要求5所述的方法，其特征在于，所述根据第二差值进行时间戳校准，根据校准的时间戳合成所述第一音频和所述第二音频，包括：

7.如权利要求5所述的方法，其特征在于，所述根据第二差值进行时间戳校准，根据校准的时间戳合成所述第一音频和所述第二音频，包括：

8.如权利要求5至7任一所述的方法，其特征在于，所述根据第二差值进行时间戳校准之前，还包括：

将所述多个时间戳差值的平均值确定为所述第二差值。