CN109104616B

CN109104616B - 一种直播间的语音连麦方法及客户端

Info

Publication number: CN109104616B
Application number: CN201811031974.0A
Authority: CN
Inventors: 潘璠
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2022-01-14
Anticipated expiration: 2038-09-05
Also published as: CN109104616A

Abstract

本申请实施方式公开了一种直播间的语音连麦方法及客户端，其中，所述方法包括：采集用户的语音信息，并将采集的所述语音信息上传至语音服务器，以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流；从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流；将下载的所述语音流合成为一股语音流，并对合成后的语音流进行解码，得到人声音轨；从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨；同步输出所述人声音轨和所述直播音轨。本申请提供的技术方案，能够提高视频直播间内用户交流的便捷性。

Description

一种直播间的语音连麦方法及客户端

技术领域

本申请涉及互联网技术领域，特别涉及一种直播间的语音连麦方法及客户端。

背景技术

随着视频直播的兴起，涌现出大量的视频直播平台。在视频直播平台中，可以划分多个视频直播间，这些视频直播间通常由主播主持。主播可以将直播内容推送至直播服务器，然后视频直播间内的用户可以从直播服务器处下载并观看该视频直播间的直播内容。

目前，处于同一个视频直播间内的用户可以通过发送弹幕的形式对直播内容进行评价或者进行彼此之间的交流。这就要求用户在观看直播内容的同时，还要花费时间输入文字信息。尤其对于使用移动终端观看直播内容的用户而言，输入文字信息的方式过于繁琐。因此，目前在视频直播间内的交流方式具备较低的效率。

发明内容

本申请实施方式的目的是提供一种直播间的语音连麦方法及客户端，能够提高视频直播间内用户交流的便捷性。

为实现上述目的，本申请实施方式提供一种直播间的语音连麦方法，所述方法包括：采集用户的语音信息，并将采集的所述语音信息上传至语音服务器，以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流；从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流；将下载的所述语音流合成为一股语音流，并对合成后的语音流进行解码，得到人声音轨；从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨；同步输出所述人声音轨和所述直播音轨。

为实现上述目的，本申请实施方式还提供一种客户端，所述客户端包括：语音信息上传单元，用于采集用户的语音信息，并将采集的所述语音信息上传至语音服务器，以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流；语音流下载单元，用于从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流；人声音轨解码单元，用于将下载的所述语音流合成为一股语音流，并对合成后的语音流进行解码，得到人声音轨；直播音轨解码单元，用于从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨；音轨输出单元，用于同步输出所述人声音轨和所述直播音轨。

为实现上述目的，本申请实施方式还提供一种客户端，所述客户端包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的方法。

由上可见，本申请提供的技术方案，在直播系统中可以包括语音服务器、直播服务器以及用户使用的客户端。在同一个视频直播间的多个用户之间可以组成一个直播组，在直播组内的用户可以通过语音的方式进行交流。具体地，针对直播组内的一个用户而言，可以通过麦克风采集该用户的语音信息，该语音信息可以被上传至语音服务器。语音服务器可以按照流媒体协议，将该语音信息转换为该用户的语音流。此外，该用户的客户端可以从语音服务器处实时下载处于同一直播组中的其他用户的语音流，并将下载的语音流解码后得到人声音轨。同时，该用户的客户端可以从直播服务器处下载视频直播间的直播音视频流，并可以对下载的直播音视频流进行解码，从而得到直播音轨。直播音轨和上述的人声音轨可以由客户端通过麦克风同步输出，这样，用户便可以同时收听到直播内容的音频信息以及处于同一直播组中其他用户的语音信息，从而实现在观看直播内容的同时，通过语音与其他用户进行交流。与通过输入文字信息的方式相比，通过语音交流的方式具备更高的便捷性，从而提高了视频直播间内用户之间的交流效率。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式中语音连麦的直播系统示意图；

图2为本申请实施方式中直播间的语音连麦方法步骤图；

图3为本申请实施方式中客户端的功能模块示意图；

图4为本申请实施方式中客户端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种直播间的语音连麦方法，该方法可以应用于如图1所示的系统中。请参阅图1，视频直播系统可以包括语音服务器、直播服务器以及客户端。其中，所述客户端可以是用户使用的终端设备，在所述终端设备中，可以具备视频直播软件，并且所述终端设备上可以具备用于收录用户的语音信息的麦克风。此外，所述客户端还可以指所述终端设备中运行的视频直播软件。该视频直播软件可以调用所述终端设备上的麦克风，从而收录用户的语音信息。所述语音服务器，可以用于接收各个客户端上传的用户的语音信息，并可以将这些语音信息根据预设的流媒体协议，转换为语音流。所述直播服务器，则可以接收主播的终端设备发来的直播内容，并可以将该直播内容转换为直播音视频流。

请参阅图2，本申请提供的直播间的语音连麦方法可以包括以下步骤。

S1：采集用户的语音信息，并将采集的所述语音信息上传至语音服务器，以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流。

在本实施方式中，处于同一视频直播间内的部分用户加入同一直播组之后，可以开启组内语音连麦的功能。在组内语音连麦功能开启的情况下，用户的麦克风可以实时采集用户的语音信息。采集的语音信息可以被用户的客户端上传至语音服务器。在语音服务器中，可以按照预设的流媒体协议，将语音信息转换为用户的语音流。该预设的流媒体协议例如可以是HLS(HTTP Live Streaming，HTTP直播流)协议。当然，该预设的流媒体协议还可以按照实际情况进行更改。例如，该预设的流媒体协议还可以是WebRTC(Web Real-TimeCommunication，页面实时通信)协议。

在一个实施方式中，用户的客户端在采集了用户的语音信息之后，可以对语音信息进行一些优化处理，使得上传至语音服务器的语音信息具备较高的音质。首先，客户端可以将语音信息中除人声以外的声音都去除，从而可以减少环境噪音对人声的影响。具体地，客户端可以识别所述语音信息中的音频特征。该音频特征可以包括用于表征人声的音频特征，还可以包括用于表征环境噪音的音频特征。通常而言，人声往往具备固定的频率区间。例如，男音通常可以位于64～523Hz之间，女音通常位于160～1200Hz之间。那么，人声与固定的频率区间的这种对应关系，便可以作为标准人声特征。

在本实施方式中，在识别采集的语音信息中包含的音频特征时，可以将处于时间域的所述语音信息转换至频率域，在频率域中的语音信息，可以是按照频率进行分布，并且每个频率点可以对应一定的信号强度。此时，可以从频率域的语音信息中识别出信号强度达到指定强度阈值的信息对应的目标频率。该指定强度阈值可以设置为人耳能够明显听到的声音强度。这样，频率域的语音信息可以按照该指定强度阈值，被划分为多个离散的语音段，这些语音段中语音信息的强度均达到该指定强度阈值。这些语音段中的语音信息可以具备各自的目标频率。这些目标频率便可以作为所述语音信息中包含的音频特征。然后，可以计算所述目标频率与标准人声特征对应的频率之间的频率差值。具体地，可以分别确定男声和女声的频率区间的频率中心值。然后，在计算频率差值时，可以先确定当前的目标频率与哪个频率中心值更接近，然后，可以计算当前的目标频率与最接近的频率中心值之间的频率差值。该频率差值便可以作为当前的音频特征与标准人声特征之间的差异值。

在本实施方式中，若所述差异值大于或者等于指定阈值，则表示当前的音频特征与标准人声特征相差较大，当前的音频特征很有可能是环境噪音。因此，在这种情况下，可以将所述音频特征对应的信息从所述语音信息中去除，从而过滤该语音信息中的部分环境噪音。其中，上述的差异值可以是指计算得到的绝对值。所述指定阈值可以按照实际情况灵活设置。

在一个实施方式中，考虑到按照上述的方式对语音信息进行处理之后，由于将环境噪音均去除了，那么在语音信息中相邻的人声之间，可能会存在大段的静音。从人耳的听觉效果而言，大段的静音会让人产生不适，同时也会让人产生通信中断的错觉。鉴于此，可以在大段的静音中适当添加一些强度较低的噪音信号，来消除上述的问题。具体地，可以在所述语音信息中识别目标语音段，所述目标语音段中任一信息的强度值均低于指定强度阈值。其中，低于该指定强度阈值，表明从人耳的角度来说，该目标语音段中的语音信息均无法被人耳识别出，因此，该目标语音段为静音段。此时，可以识别该静音段所持续的时长，若所述目标语音段的时长大于或者等于指定时长阈值，则表明该目标语音段持续的时长过长，此时，可以在所述目标语音段中添加指定噪音信号。所述指定噪音信号可以是诸如风声、海浪声等不会让人耳产生不适的白噪音(White Noise)。

在一个实施方式中，在按照上述去除环境噪音的步骤对语音信息进行处理之后，很有可能会将正常语音的起始位置和/或终止位置中的部分信号去除，从而导致正常语音的不完整或者正常语音的起始和/或终止过于突兀。鉴于此，可以采用信号拟合的方式，适当地为语音的起始和终止位置添加一部分拟合信息，从而解决上述的问题。具体地，可以在所述语音信息中识别出语音的起始位置和终止位置。通常而言，语音信息中出现语音的地方，信息的强度都会出现上升和下降的波形，通过对语音信息中信息强度的识别，可以识别出语音的起始位置和终止位置。此时，可以根据识别出的起始位置的信息波形和终止位置的信息波形，生成对应的语音拟合信息。该语音拟合信息与对应位置的信息拼接之后，可以形成连续的波形。这样，在所述起始位置和所述终止位置处分别添加相匹配的语音拟合信息，可以使得语音的起始和终止能够更加平滑，不会产生突兀的感觉。

在一个实施方式中，用户的麦克风采集的语音信息中，可能会存在回音信号，为了增强用户的听觉体验，可以识别所述语音信息中的回音信号，并从所述语音信息将所述回音信号去除。具体地，可以通过自适应滤波器对输入信号进行收敛运算，使得经过自适应滤波器得到的冲击响应与真实的回音路径相匹配，从而得到回音路径对应的回音信号的估计值。然后，可以将所述语音信息减去该回音信号的估计值，从而从该语音信息中去除回音信号。

在一个实施方式中，用户在录入语音信息时，身边可能会有其他人在说话，从而导致录入的语音信息中存在别人的声音。为了避免其他人的声音对用户的声音造成干扰，客户端在采集到用户的语音信息后，可以将该语音信息中包含的其他人的语音信息去除。具体地，本实施方式可以通过声纹识别的方法来去除其他人的语音信息。该用户可以预先在客户端中通过录入一定数量的语音信息，从而使得客户端保存该用户的声纹特征。这样，在视频直播间，当客户端采集到用户的语音信息后，可以识别所述语音信息中包含的声纹特征，并将识别出的所述声纹特征与所述用户的声纹特征进行比对。若识别出的所述声纹特征与所述用户的声纹特征不一致，则可以将识别出的所述声纹特征对应的信息从所述语音信息中去除。上述的声纹特征，可以是利用专门的声纹识别组件对语音信息进行分析后得到的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以不同人的声波频谱都有差异，从而使得不同用户之间的声纹特征也可以不同。因而，可以通过声纹特征来去除其他用户的语音信息。

S3：从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流。

在本实施方式中，开启语音连麦功能的用户需要收听同一直播组中其他用户的语音信息。此时，用户的客户端可以向语音服务器发起数据获取请求。该数据获取请求中可以携带该用户的用户标识。这样，语音服务器在接收到该数据获取请求后，可以识别出其中包含的用户标识。通过该用户标识，语音服务器可以确定该用户标识所处的直播组，然后可以将该直播组中除该用户标识表征的语音流之外的其他用户的语音流提供给该用户的客户端。一方面可以使得该用户能够听到同一直播组中其他用户的实时语音信息，另一方面也避免该用户会收听到自身的语音信息。

S5：将下载的所述语音流合成为一股语音流，并对合成后的语音流进行解码，得到人声音轨。

在本实施方式中，由于同一直播组中其他用户的数量可能不止一个，因此从语音服务器处下载的语音流的数量也可以不止一个。在这种情况下，客户端可以将下载的语音流合成为一股语音流，并对合成后的语音流进行解码，从而得到人声音轨。

S7：从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨。

在本实施方式中，用户在收听同一直播组中其他用户的语音信息时，还需要观看直播内容。因此，用户的客户端可以从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨。

S9：同步输出所述人声音轨和所述直播音轨。

在本实施方式中，客户端中存在人声音轨和直播音轨两条音轨，在向用户播放这两种不同的音频信息时，为了保持两种音频信息在时间上同步，可以将所述人声音轨和直播音轨合并为一个音轨，并通过扬声器输出合并之后的音轨。这样，用户便可以在收听到直播内容的音频信息的同时，还能够收听到同一直播组中其他用户的语音信息。

在一个实施方式中，同一直播组中的用户进行语音连麦时，为了保证用户能够听清其他用户的语音信息，客户端可以自动地对直播内容的音量进行调节。具体地，客户端可以识别所述人声音轨的音量，并根据识别出的所述音量，调节所述直播音轨的音量大小。其中，人声音轨和直播音轨最初都可以按照预设的音量进行播放，此时，若识别出的所述人声音轨的音量大于或者等于指定音量阈值，表明此时直播组中的用户在阐述一个比较重要的内容。此时，为了听清用户的语音信息，客户端可以自动将所述直播音轨的音量调节至较低的第一音量。然后，在所述直播音轨的音量处于所述第一音量时，若识别出的所述人声音轨的音量小于所述指定音量阈值，则表明直播组中的用户已经完成事情的阐述，此时，可以将所述直播音轨的音量调节至比上述的第一音量高的第二音量。例如，该第二音量可以是之前直播音轨正常播放时的音量。上述的指定音量阈值，可以是比人在正常说话时的音量值稍低一些的音量值。这样，当直播组中有用户说话时，便可以适当调低直播音轨的音量，从而保证直播组中用户的语音信息能够被听清。在根据人声音轨的音量，对直播音轨的音量进行自动调节之后，可以将所述人声音轨和调节音量之后的直播音轨合并为一个音轨，并通过扬声器输出合并之后的音轨。

请参阅图3，本申请还提供一种客户端，所述客户端包括：

语音信息上传单元，用于采集用户的语音信息，并将采集的所述语音信息上传至语音服务器，以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流；

语音流下载单元，用于从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流；

人声音轨解码单元，用于将下载的所述语音流合成为一股语音流，并对合成后的语音流进行解码，得到人声音轨；

直播音轨解码单元，用于从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨；

音轨输出单元，用于同步输出所述人声音轨和所述直播音轨。

在一个实施方式中，所述客户端还包括：

差异值确定单元，用于识别所述语音信息中的音频特征，并确定所述音频特征与标准人声特征之间的差异值；

语音信息去除单元，用于若所述差异值大于或者等于指定阈值，将所述音频特征对应的信息从所述语音信息中去除。

在一个实施方式中，所述客户端还包括：

声纹特征识别单元，用于识别所述语音信息中包含的声纹特征，并将识别出的所述声纹特征与所述用户的声纹特征进行比对；

声纹信息去除单元，用于若识别出的所述声纹特征与所述用户的声纹特征不一致，将识别出的所述声纹特征对应的信息从所述语音信息中去除。

在一个实施方式中，所述音轨输出单元包括：

直播音轨音量调节模块，用于识别所述人声音轨的音量，并根据识别出的所述音量，调节所述直播音轨的音量大小；

音轨合并输出模块，用于将所述人声音轨和调节音量之后的直播音轨合并为一个音轨，并输出合并之后的音轨。

请参阅图4，本申请还提供一种客户端，所述客户端包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的直播间的语音连麦方法。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的装置，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现服务器以外，完全可以通过将方法步骤进行逻辑编程来使得服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种服务器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对客户端的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种直播间的语音连麦方法，其特征在于，所述方法包括：

采集用户的语音信息，并将采集的所述语音信息上传至语音服务器，以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流；

从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流；

将下载的所述语音流合成为一股语音流，并对合成后的语音流进行解码，得到人声音轨；

从直播服务器处下载直播音视频流，并对所述直播音视频流进行解码，得到直播音轨；

同步输出所述人声音轨和所述直播音轨；所述同步输出所述人声音轨和所述直播音轨包括：识别所述人声音轨的音量，并根据识别出的所述音量，调节所述直播音轨的音量大小；将所述人声音轨和调节音量之后的直播音轨合并为一个音轨，并输出合并之后的音轨；其中，根据识别出的所述音量，调节所述直播音轨的音量大小包括：若识别出的所述人声音轨的音量大于或者等于指定音量阈值，将所述直播音轨的音量调低至第一音量；在所述直播音轨的音量处于所述第一音量时，若识别出的所述人声音轨的音量小于所述指定音量阈值，将所述直播音轨的音量调高至第二音量。

2.根据权利要求1所述的方法，其特征在于，在采集用户的语音信息之后，所述方法还包括：

识别所述语音信息中的音频特征，并确定所述音频特征与标准人声特征之间的差异值；

若所述差异值大于或者等于指定阈值，将所述音频特征对应的信息从所述语音信息中去除。

3.根据权利要求2所述的方法，其特征在于，识别所述语音信息中的音频特征，并确定所述音频特征与标准人声特征之间的差异值包括：

将处于时间域的所述语音信息转换至频率域，并从频率域的语音信息中识别出信号强度达到指定强度阈值的信息对应的目标频率，并将识别出的所述目标频率作为所述语音信息中包含的音频特征；

计算所述目标频率与标准人声频率之间的频率差值，并将所述频率差值作为所述音频特征与标准人声特征之间的差异值。

4.根据权利要求2所述的方法，其特征在于，在将所述音频特征对应的信息从所述语音信息中去除之后，所述方法还包括：

在所述语音信息中识别目标语音段，所述目标语音段中任一信息的强度值均低于指定强度阈值；

若所述目标语音段的时长大于或者等于指定时长阈值，在所述目标语音段中添加指定噪音信号。

5.根据权利要求2所述的方法，其特征在于，在将所述音频特征对应的信息从所述语音信息中去除之后，所述方法还包括：

在所述语音信息中识别出语音的起始位置和终止位置，并在所述起始位置和所述终止位置处分别添加相匹配的语音拟合信息。

6.根据权利要求1所述的方法，其特征在于，在采集用户的语音信息之后，所述方法还包括：

识别所述语音信息中的回音信号，并从所述语音信息中将所述回音信号去除。

7.根据权利要求1所述的方法，其特征在于，在采集用户的语音信息之后，所述方法还包括：

识别所述语音信息中包含的声纹特征，并将识别出的所述声纹特征与所述用户的声纹特征进行比对；

若识别出的所述声纹特征与所述用户的声纹特征不一致，将识别出的所述声纹特征对应的信息从所述语音信息中去除。

8.一种客户端，其特征在于，所述客户端包括：

音轨输出单元，用于同步输出所述人声音轨和所述直播音轨；所述音轨输出单元包括：直播音轨音量调节模块，用于识别所述人声音轨的音量，并根据识别出的所述音量，调节所述直播音轨的音量大小；音轨合并输出模块，用于将所述人声音轨和调节音量之后的直播音轨合并为一个音轨，并输出合并之后的音轨；其中，根据识别出的所述音量，调节所述直播音轨的音量大小包括：若识别出的所述人声音轨的音量大于或者等于指定音量阈值，将所述直播音轨的音量调低至第一音量；在所述直播音轨的音量处于所述第一音量时，若识别出的所述人声音轨的音量小于所述指定音量阈值，将所述直播音轨的音量调高至第二音量。

9.根据权利要求8所述的客户端，其特征在于，所述客户端还包括：

10.根据权利要求8所述的客户端，其特征在于，所述客户端还包括：

11.一种客户端，其特征在于，所述客户端包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一权利要求所述的方法。