CN110138650A

CN110138650A - 即时通讯的音质优化方法、装置及设备

Info

Publication number: CN110138650A
Application number: CN201910400023.4A
Authority: CN
Inventors: 张晨; 郭亮; 董培
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-16
Also published as: WO2020228404A1; US20220076688A1

Abstract

本申请是关于一种即时通讯的音质优化方法、装置及设备，应用于第二客户端，获取第一人声数据；第一人声数据为第一客户端的用户的声音数据；利用外放扬声器播放第一人声数据以及第二客户端本地的背景音乐，得到第一音频数据；利用麦克风采集第一音频数据和第二人声数据，得到第二音频数据；第二人声数据为第二客户端的用户的声音数据；过滤第二音频数据中的第一人声数据，得到过滤后的第二音频数据；当第一客户端播放的背景音乐的来源为第二客户端时，将过滤后的第二音频数据发送给第一客户端，以使得第一客户端播放过滤后的第二音频数据。通过本方案能够在存在背景音乐的即时通讯中，兼顾回声消除和减少非回声的人声的音质损耗的效果。

Description

即时通讯的音质优化方法、装置及设备

技术领域

本申请涉及即时通讯技术领域，尤其涉及一种即时通讯的音质优化方法、装置及设备。

背景技术

即时通讯应用可以支持通讯双方或者多方进行实时的语音交流。在实时的语音交流中，当某一端用户对播放效果要求较高，或者所使用的即时通讯设备无法使用耳机时，该端用户，即近端用户可以使用外放扬声器播放另一端用户，即远端用户的声音。此时，近端用户的麦克在采集近端用户的声音时，外放扬声器播放的远端用户的声音会漏进麦克，与近端用户的声音一起被麦克采集，导致远端用户接收到的近端用户的声音中含有近端用户的麦克所采集的远端用户的声音，近端用户的声音中出现远端用户的回声。对此，相关技术会对近端用户的麦克风采集的音频数据进行回声消除，即对近端用户的麦克风采集的音频数据中的回声进行过滤，得到近端用户的声音，作为目标音频数据发送给远端用户。

在一些除了通讯者的声音，还存在BGM(Background Music，背景音乐)的场景中，例如，连麦K歌以及连麦短剧表演等等场景中，由于背景音乐在通讯过程中始终存在，并且由外放扬声器播放后，会被采集到近端用户发送给远端用户的音频数据中，因此，为了得到目标音频数据，在按照上述回声消除的方式过滤近端用户发送的音频数据时，需要进行持续性过滤。但是，持续性过滤容易造成过滤过度，导致对无需过滤的非回声的声音，即近端用户的人声造成一定程度的过滤过度，近端用户的人声出现卡顿以及人声忽大忽小等音质损耗的问题。

因此，如何在存在背景音乐的即时通讯中，兼顾回声消除和减少非回声的人声的音质损耗，是即时通讯技术中亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本申请提供一种即时通讯的音质优化方法、装置及设备。

根据本申请实施例的第一方面，提供一种即时通讯的音质优化方法，应用于第二客户端，所述方法包括：

获取第一人声数据；所述第一人声数据为第一客户端的用户的声音数据；

利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；

利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据；所述第二人声数据为所述第二客户端的用户的声音数据；

过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据；

当所述第一客户端播放的背景音乐的来源为所述第二客户端时，将所述过滤后的第二音频数据发送给所述第一客户端，以使得所述第一客户端播放所述过滤后的第二音频数据。

可选的，所述获取第一人声数据，包括：

当所述第一客户端利用耳机播放背景音乐时，接收所述第一客户端发送的第一人声数据；

或者，当所述第一客户端利用外放扬声器播放背景音乐时，接收所述第一客户端将第三音频数据中的背景音乐过滤得到、并发送的第一人声数据；所述第三音频数据为第一客户端利用麦克风采集所述第一人声数据和所述第一客户端播放的第一客户端本地的背景音乐得到的音频数据；

或者，当所述第一客户端利用外放扬声器播放背景音乐时，接收所述第一客户端发送的所述第三音频数据；过滤所述第三音频数据中的背景音乐，得到第一人声数据。

可选的，所述过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据的步骤，包括：

将所述第二音频数据和所获取的第一人声数据分别输入自适应滤波器，以使得所述自适应滤波器按照所述第一人声数据，模拟所述第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用所述模拟的第一人声数据抵消所述第二音频数据中的第一人声数据；

将完成抵消的所述第二音频数据，作为过滤后的第二音频数据。

可选的，在所述利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据得到步骤之后，将所述第二音频数据和所获取的第一人声数据分别输入自适应滤波器的步骤之前，所述方法还包括：

对所获取的第一人声数据和所述第二音频数据进行相关性对比，得到所述第一人声数据和所述第二音频数据之间的第一延时；

所述将所述第二音频数据和所获取的第一人声数据分别输入自适应滤波器，以使得所述自适应滤波器按照所输入的第一人声数据，模拟所述第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用所述模拟的第一人声数据抵消所述第二音频数据中的第一人声数据，包括：

将所述第二音频数据、所获取的第一人声数据和所述第一延时分别输入自适应滤波器，以使得所述自适应滤波器按照所述第一延时，对所述第一人声数据和所述第二音频数据进行对齐，得到对齐后的第一人声数据，按照所述对齐后的第一人声数据模拟所述第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用所述模拟的第一人声数据抵消所述第二音频数据中的第一人声数据。

可选的，在所述得到所述自适应滤波器输出的过滤后的第二音频数据的步骤之后，所述方法还包括：

当所述第一客户端播放的背景音乐的来源为所述第一客户端本地时，将所述过滤后的第二音频数据发送给所述第一客户端，以使得所述第一客户端对所述第一客户端本地的背景音乐和所述过滤后的第二音频数据进行对齐以及叠加，并播放所述叠加后的音频数据；

或者，当所述第一客户端播放的背景音乐的来源为所述第二客户端时，按照所述第一延时，对所述第二客户端本地的背景音乐和所述过滤后的第二音频数据进行对齐以及叠加，并将叠加后的音频数据发送给所述第一客户端，以使得所述第一客户端播放所述叠加后的音频数据。

根据本申请实施例的第二方面，提供另一种即时通讯的音质优化方法，应用于第一客户端，所述方法包括：

发送第一人声数据给第二客户端，以使得所述第二客户端利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；或者，发送第三音频数据给所述第二客户端，以使得所述第二客户端过滤所述第三音频数据中的背景音乐，得到第一人声数据，并利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；其中，所述第一人声数据为所述第一客户端的用户的声音数据；所述第三音频数据为所述第一客户端利用麦克风采集所述第一人声数据和所述第一客户端本地的背景音乐得到的音频数据；

接收所述第二客户端发送的第二音频数据；所述第二音频数据为所述第二客户端利用麦克风采集所述第一音频数据和第二人声数据，得到的音频数据；所述第二人声数据为所述第二客户端的用户的声音数据；

当所述第一客户端播放的背景音乐的来源为所述第二客户端时，播放所述过滤后的第二音频数据。

可选的，在所述过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据的步骤之后，所述方法还包括：

当所述第一客户端播放的背景音乐的来源为所述第一客户端本地时，对所述第一客户端本地的背景音乐和所述过滤后的第二音频数据进行相关性对比，得到所述第一客户端本地的背景音乐和所述过滤后的第二音频数据之间的第二延时；

按照所述第二延时，对所述第一客户端本地的背景音乐和所述过滤后的第二音频数据进行对齐，得到对齐后的第一客户端本地的背景音乐，叠加所述对齐后的第一客户端本地的背景音乐和所述过滤后的第二音频数据，得到叠加后的音频数据；

播放所述叠加后的音频数据。

根据本申请实施例的第三方面，提供一种即时通讯的音质优化装置，应用于第二客户端，所述装置包括：

第一人声获取模块，被配置为获取第一人声数据；所述第一人声数据为第一客户端的用户的声音数据；

第一音频获取模块，被配置为利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；

第二音频获取模块，被配置为利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据；所述第二人声数据为所述第二客户端的用户的声音数据；

过滤模块，被配置为过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据；

发送模块，被配置为在所述第一客户端播放的背景音乐的来源为所述第二客户端时，将所述过滤后的第二音频数据发送给所述第一客户端，以使得所述第一客户端播放所述过滤后的第二音频数据。

可选的，所述第一人声获取模块，被配置为：

在所述第一客户端利用耳机播放背景音乐时，接收所述第一客户端发送的第一人声数据；

或者，在所述第一客户端利用外放扬声器播放背景音乐时，接收所述第一客户端将第三音频数据中的背景音乐过滤得到、并发送的第一人声数据；所述第三音频数据为第一客户端利用麦克风采集所述第一人声数据和所述第一客户端播放的第一客户端本地的背景音乐得到的音频数据；

或者，在所述第一客户端利用外放扬声器播放背景音乐时，接收所述第一客户端发送的所述第三音频数据；过滤所述第三音频数据中的背景音乐，得到第一人声数据。

可选的，所述过滤模块，被配置为：

可选的，所述装置还包括：延时对齐模块；

所述延时对齐模块，被配置为在所述第二音频获取模块利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据之后，对所获取的第一人声数据和所述第二音频数据进行相关性对比，得到所述第一人声数据和所述第二音频数据之间的第一延时；

所述过滤模块，被配置为将所述第二音频数据、所获取的第一人声数据和所述第一延时分别输入自适应滤波器，以使得所述自适应滤波器按照所述第一延时，对所述第一人声数据和所述第二音频数据进行对齐，得到对齐后的第一人声数据，按照所述对齐后的第一人声数据模拟所述第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用所述模拟的第一人声数据抵消所述第二音频数据中的第一人声数据。

可选的，所述发送模块，被配置为：

在所述第一客户端播放的背景音乐的来源为所述第一客户端本地时，将所述过滤后的第二音频数据发送给所述第一客户端，以使得所述第一客户端对所述第一客户端本地的背景音乐和所述过滤后的第二音频数据进行对齐以及叠加，并播放所述叠加后的音频数据；

或者，在所述第一客户端播放的背景音乐的来源为所述第二客户端时，所述延时对齐模块，被配置为按照所述第一延时，对所述第二客户端本地的背景音乐和所述过滤后的第二音频数据进行对齐以及叠加；所述发送模块，被配置为将叠加后的音频数据发送给所述第一客户端，以使得所述第一客户端播放所述叠加后的音频数据。

根据本申请实施例的第四方面，提供另一种即时通讯的音质优化装置，应用于第一客户端，所述装置包括：

发送模块，被配置为发送第一人声数据给第二客户端，以使得所述第二客户端利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；或者，发送第三音频数据给所述第二客户端，以使得所述第二客户端过滤所述第三音频数据中的背景音乐，得到第一人声数据，并利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；其中，所述第一人声数据为所述第一客户端的用户的声音数据；所述第三音频数据为所述第一客户端利用麦克风采集所述第一人声数据和所述第一客户端本地的背景音乐得到的音频数据；

接收模块，被配置为接收所述第二客户端发送的第二音频数据；所述第二音频数据为所述第二客户端利用麦克风采集所述第一音频数据和第二人声数据，得到的音频数据；所述第二人声数据为所述第二客户端的用户的声音数据；

播放模块，被配置为在所述第一客户端播放的背景音乐的来源为所述第二客户端时，播放所述过滤后的第二音频数据。

可选的，所述装置还包括：延时对齐模块；

所述延时对齐模块，被配置为在所述过滤模块过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据之后，当所述第一客户端播放的背景音乐的来源为所述第一客户端本地时，对所述第一客户端本地的背景音乐和所述过滤后的第二音频数据进行相关性对比，得到所述第一客户端本地的背景音乐和所述过滤后的第二音频数据之间的第二延时；

所述播放模块，被配置为播放所述叠加后的音频数据。

根据本申请实施例的第五方面，提供一种电子设备，该电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行存储器上所存放的可执行指令时，实现上述第一方面，或者，第二方面所述的即时通讯的音质优化方法的步骤。

根据本申请实施例的第六方面，提供一种非临时性计算机可读存储介质，包含于电子设备，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面，或者，第二方面所述的即时通讯的音质优化方法的步骤。

根据本申请实施例的第七方面，提供一种计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述第一方面，或者，第二方面所述的即时通讯的音质优化方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：在存在背景音乐的即时通讯中，由于与背景音乐相比，第一人声数据在即时通讯过程中的持续时间相对而言较短，因此，过滤第二音频数据中的第一人声数据与传统的对第二音频数据进行持续性回声过滤相比，可以减少对第二音频数据的过度过滤，从而减少对第二音频数据中第二人声数据的过度过滤，减少第二人声的卡顿和忽大忽小等问题，减少对非回声的第二人声的音质的损耗。并且，当第一客户端播放的背景音乐的来源为第二客户端时，过滤后的第二音频数据中的背景音乐可以作为第一客户端播放的背景音乐。因此，当第一客户端播放的背景音乐的来源为第二客户端时，将过滤后的第二音频数据发送给第一客户端进行播放，可以避免过滤后的第二音频数据中的背景音乐成为第一客户端的噪声，保证回声消除的效果。可见，通过本方案能够在存在背景音乐的即时通讯中，兼顾回声消除和减少非回声的人声的损耗的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种即时通讯的音质优化方法的流程图。

图2是根据另一示例性实施例示出的一种即时通讯的音质优化方法的流程图。

图3是根据又一示例性实施例示出的一种即时通讯的音质优化方法的流程图。

图4是根据一示例性实施例示出的一种即时通讯的音质优化装置的框图。

图5是根据另一示例性实施例示出的一种即时通讯的音质优化装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据另一示例性实施例示出的一种电子设备的框图。

图8是根据又一示例性实施例示出的一种电子设备的框图。

图9是根据再一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本申请实施例提供的即时通讯的音质优化方法的执行主体可以为即时通讯系统中，用于进行音质优化的电子设备。示例性的，该电子设备可以为进行即时通讯的至少两个客户端中的任一个。举例而言，客户端具体可以是计算机、智能移动终端以及可穿戴式智能终端等等。或者，示例性的，该电子设备可以为即时通讯应用对应的服务器，即与客户端对应的服务器。举例而言，服务器具体可以是台式计算机、云服务器以及笔记本电脑等等。

图1是根据一示例性实施例示出的一种即时通讯的音质优化方法的流程图，如图1所示，一种即时通讯的音质优化方法，应用于第二客户端，该方法可以包括以下步骤：

步骤S101，获取第一人声数据；第一人声数据为第一客户端的用户的声音数据。

其中，第一客户端与第二客户端之间进行存在背景音乐的即时通讯，例如，连麦K歌和连麦短剧表演等等。并且，即时通讯系统可以是多种的。示例性的，即时通讯系统可以是直播系统、社交系统以及K歌系统等等。为了便于理解，在本实施例以及后续实施例中，以连麦K歌的应用场景进行示例性说明。在连麦K歌的应用场景中，可以将主播客户端看作第一客户端，与主播进行连麦K歌的连麦歌手客户端看作第二客户端。相应的，主播的人声数据为第一人声数据，连麦歌手的人声数据为第二人声数据。

在存在背景音乐的即时通讯中，当第一客户端以不同方式播放背景音乐时，存在对第一人声数据的不同处理，因此，第二客户端获取第一人声数据的方式可以是多种的，下面以可选实施例的方式进行具体说明。

在一种可选的实施例中，第二客户端获取第一人声数据的方式可以包括：

当第一客户端利用耳机播放背景音乐时，接收第一客户端发送的第一人声数据。

由于第一客户端利用耳机播放背景音乐时，第一客户端的麦克风采集到的第一人声数据中不会混入第一客户端播放的第一客户端本地的背景音乐，因此，第一客户端可以将第一人声数据直接发送给第二客户端，第二客户端接收第一客户端发送的第一人声数据，就可以实现对第一人声数据的获取。另外，在本可选实施例中，第一客户端播放的背景音乐的来源可以是多种的。示例性的，第一客户端播放的背景音乐可以是第二客户端发送给第一客户端的，可以是第一客户端本地存储的，或者，可以是第一客户端从即时通讯系统的服务器中下载的。

或者，在另一种可选的实施例中，第二客户端获取第一人声数据的方式可以包括：

当第一客户端利用外放扬声器播放背景音乐时，接收第一客户端将第三音频数据中的背景音乐过滤得到、并发送的第一人声数据；第三音频数据为第一客户端利用麦克风采集第一人声数据和第一客户端播放的第一客户端本地的背景音乐得到的音频数据。

如果第一客户端利用外放扬声器播放背景音乐，第一客户端的麦克风采集第一人声数据时，第一客户端播放的第一客户端本地的背景音乐也会被采集，此时，第一客户端的麦克风采集到的是第三音频数据。因此，第一客户端需要对第一音频数据中的背景音乐进行过滤，以得到第一人声数据，并将该第一人声数据发送给第二客户端。第二客户端接收第一客户端发送的第一人声数据，就可以实现对第一人声数据的获取。

或者，在又一种可选的实施例中，第二客户端获取第一人声数据的方式可以包括：当第一客户端利用外放扬声器播放背景音乐时，接收第一客户端发送的第三音频数据；过滤第三音频数据中的背景音乐，得到第一人声数据。

本可选实施例为与上述另一种可选的实施例相似的实施例，区别在于本可选实施例中对第三音频数据中的背景音乐进行过滤的执行主体为第二客户端。第二客户端在接收到第一客户端发送的第三音频数据后，过滤第三音频数据中的背景音乐，就可以得到第一人声数据。

任何在存在背景音乐的即时通讯中获取第一人声数据的方式均可用于本发明，本实施例对此不作限制。

步骤S102，利用外放扬声器播放第一人声数据以及第二客户端本地的背景音乐，得到第一音频数据。

步骤S103，利用麦克风采集第一音频数据和第二人声数据，得到第二音频数据；第二人声数据为第二客户端的用户的声音数据。

当第二客户端利用外放扬声器播放第一人声数据以及第二客户端本地的背景音乐时，播放的第一人声数据和第二客户端本地的背景音乐会混合在一起，成为第一音频数据。并且，使用外放扬声器播放会导致后续在步骤S103中利用麦克风采集第二人声数据时，将第一音频数据一并采集，造成第二人声数据中混入了第一音频数据，成为第二音频数据。

其中，第二客户端本地的背景音乐的来源可以是多种的。示例性的，第二客户端播放的背景音乐可以是第二客户端本地存储的，或者，可以是第一客户端从即时通讯系统的服务器中下载的。另外，外放扬声器可以是多种的。示例性的，外放扬声器可以是第二客户端中的扬声器，也可以是与第二客户端连接的音箱等等。

步骤S104，过滤第二音频数据中的第一人声数据，得到过滤后的第二音频数据。

步骤S105，当第一客户端播放的背景音乐的来源为第二客户端时，将过滤后的第二音频数据发送给第一客户端，以使得第一客户端播放过滤后的第二音频数据。

在具体应用中，可以利用自适应滤波器过滤第二音频数据中的第一人声数据，得到过滤后的第二音频数据，为了便于理解和合理布局，后续以可选实施例的方式进行具体说明。

在上述步骤S104中，过滤后的第二音频数据是过滤第二音频数据中的第一人声数据得到的，为包含有第二客户端的麦克风采集的第二人声数据和第二客户端的麦克风采集的背景音乐的音频数据。并且，存在背景音乐的即时通讯中，对第一客户端而言，非回声的音频数据为第二人声数据。因此，如果直接将过滤后的第二音频数据作为第一客户端播放的音频数据，过滤后的第二音频数据所包含的背景音乐可能会成为回声。

对此，如果第一客户端播放的背景音乐的来源为第二客户端，过滤后的第二音频数据中包含的背景音乐可以作为第一客户端播放的背景音乐，能够避免过滤后的第二音频数据中的背景音乐成为第一客户端的噪声，保证回声消除的效果。因此，可以在步骤S105中，将过滤后的第二音频数据发送给第一客户端，以使得第一客户端播放过滤后的第二音频数据，实现第一客户端和第二客户端的即时通讯。另外，对于第一客户端播放的背景音乐的来源为非第二客户端的情况，为了便于理解和合理布局，后续在本发明图3实施例中进行具体说明。

示例性的，主播和连麦歌手进行歌曲S1的连麦K歌，歌曲S1的音乐伴奏BGM1为通讯双方的客户端播放的背景音乐。连麦歌手客户端获取主播的人声数据后，利用外放扬声器播放主播的人声数据和连麦歌手客户端本地的BGM1，得到主播的人声数据和连麦歌手客户端本地的BGM1混合后的第一音频数据。连麦歌手客户端利用麦克风采集连麦歌手歌唱时产生的连麦歌手的人声数据，以及第一音频数据，得到连麦歌手的人声数据和第一音频数据混合后的第二音频数据。过滤第二音频数据中主播的人声数据，得到过滤后的第二音频数据。过滤后的第二音频数据中不再包含主播的人声数据，而是连麦歌手的人声数据和BGM1。当主播客户端播放的BGM1的来源为连麦歌手客户端时，将过滤后的第二音频数据发送给主播客户端，以使得主播客户端播放过滤后的第二音频数据。此时，主播客户端播放的音频数据为连麦歌手的人声数据和BGM1，不存在回声，因此，实现了回声消除的效果。并且，由于与BGM1相比，主播的人声数据在连麦K歌过程中的持续时间相对而言较短，因此，过滤第二音频数据中主播的人声数据与传统的对第二音频数据进行持续性回声过滤相比，可以减少对第二音频数据的过度过滤，从而减少对第二音频数据中连麦歌手的人声数据的过度过滤，减少连麦歌手的人声的卡顿和忽大忽小等问题，减少对非回声的连麦歌手的人声的音质的损耗。

可选的，上述步骤S104：过滤第二音频数据中的第一人声数据，得到过滤后的第二音频数据，具体可以包括如下步骤：

将第二音频数据和所获取的第一人声数据分别输入自适应滤波器，以使得自适应滤波器按照第一人声数据，模拟第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用模拟的第一人声数据抵消第二音频数据中的第一人声数据；

将完成抵消的第二音频数据，作为过滤后的第二音频数据。

在具体应用中，自适应滤波器可以是多种的。不同的自适应滤波器所采用的用于确定自适应滤波器的实际输出是否达到预设的期望输出，即是否收敛的算法不同。举例而言，LMS(Least mean square，最小均方)自适应滤波器采用最小均方算法确定输出是否收敛，RLS(Recursive Least Squares，递推最小二乘)滤波器采用递推最小二乘确定是否收敛。任何自适应滤波器均可用于本发明，本实施例对此不作限制。

通过将第二音频数据和所获取的第一人声数据分别输入自适应滤波器，自适应滤波器可以将第一人声数据作为参考信号，模拟第二音频数据所包含的第一人声数据，将第二音频数据和模拟的第一人声数据相减，实现对第二音频数据所包含的第一人声数据的抵消。当然，为了保证过滤后的输出达到期望的输出，在进行过滤时，自适应滤波器可以判断过滤后的第二音频数据是否收敛，如果收敛，确定完成对第二音频数据中的第一人声数据的抵消；如果不收敛，可以将过滤后的第二音频数据作为反馈信号，按照反馈信号对自适应滤波器自身的参数进行调整，完成调整后继续进行第一人声数据的抵消。不断循环进行，直到过滤后的第二音频数据收敛。另外，可以在自适应滤波器后增加残余回声滤波器，提高回声消除的效果。其中，示例性的，残余回声滤波器具体可以是NLP滤波器(与自适应滤波器相似，区别在于将待过滤的信号分成多个子带，针对每个子带进行滤波)。

上述可选实施例对第二音频数据中的第一人声数据进行过滤，与对背景音乐和第一人声数据均进行过滤相比，可以减少过滤过程需要处理的数据量，相对而言，可以降低过滤所耗费的时间，提高音质优化的效率。

此外，在具体应用中，第一客户端的数量可以为多个，此时，即时通讯的音质优化与本申请图1实施例和可选实施例相似。区别在于，当第一客户端的数量为多个时，第二客户端通过外放扬声器播放的第一人声数据的数量为多个，因此，第二客户端的麦克风采集的第二音频数据中，包含有多个第一人声数据。对此，需要获取多个第一人声数据，并将多个第一人声数据混合为一个参考信号。将第二音频数据和参考信号分别输入自适应滤波器，以使得自适应滤波器按照参考信号，模拟第二音频数据中作为回声数据的多个第一人声数据，得到模拟的回声数据，并利用模拟的回声数据抵消第二音频数据中的回声数据。完成抵消的第二音频数据为过滤后的第二音频数据。

可选的，在上述利用麦克风采集第一音频数据和第二人声数据，得到第二音频数据得到步骤之后，将第二音频数据和所获取的第一人声数据分别输入自适应滤波器的步骤之前，本申请提供的即时通讯的音质优化方法，还可以包括如下步骤：

对所获取的第一人声数据和第二音频数据进行相关性对比，得到第一人声数据和第二音频数据之间的第一延时；

相应的，上述步骤将第二音频数据和所获取的第一人声数据分别输入自适应滤波器，以使得自适应滤波器按照所输入的第一人声数据，模拟第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用模拟的第一人声数据抵消第二音频数据中的第一人声数据的，包括：

将第二音频数据、所获取的第一人声数据和第一延时分别输入自适应滤波器，以使得自适应滤波器按照第一延时，对第一人声数据和第二音频数据进行对齐，得到对齐后的第一人声数据，按照对齐后的第一人声数据模拟第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用模拟的第一人声数据抵消第二音频数据中的第一人声数据。

在具体应用中，第二客户端所获取的第一人声数据为第一客户端用户的纯人声数据，第二音频数据是经第二客户端的外放扬声器播放后，由第二客户端的麦克风采集得到的。因此，第二音频数据与第二客户端所获取的第一人声数据之间，存在播放以及采集造成的延时，导致输入自适应滤波器的第一人声数据和第二音频数据并不完全对应，存在第一延时。举例而言，从第二音频数据开始产生至第30毫秒后，第一人声数据才开始产生。因此，如果直接对第二音频数据中的第一人声数据进行模拟，将出现由第一延时引起的模拟不准确的问题，很可能造成对第二音频数据中的第一人声数据的过滤效果不佳的问题。

对此，可以在上述可选实施例中，对第一人声数据和第二音频数据进行相关性对比，得到第一人声数据和第二音频数据之间的第一延时。进而在过滤第二音频数据中的第一人声数据时，将第一延时输入自适应滤波器，以使得自适应滤波器按照第一延时对第一人声数据和第二音频数据进行对齐，得到对齐后的第一人声数据，从而利用对齐后的第一人声数据过滤第二音频数据中的第一人声数据。与未按照第一延时进行对齐相比，对齐后的第一人声数据与第二音频数据之间不再存在延时，按照对齐后的第一人声数据模拟第二音频数据中的第一音频数据，得到的模拟的第一音频数据相对而言更加准确，可以提高对第二音频数据中的第一人声数据的过滤效果。

其中，示例性的，相关性比对可以是：分别对所获取的第一人声数据和第二音频数据进行频域转换，得到第一人声数据的频带曲线和第二音频数据的频带曲线；在同一频带坐标系中绘制两条频带曲线，将两条频带曲线首次相交位置的时间确定为第一延时。其中，频带坐标系为将频带作为纵轴、将时间作为横轴的二维坐标系。

示例性，按照第一延时对第一人声数据和第二音频数据进行对齐，得到对齐后的第一人声数据，具体可以是：当第一人声数据早于第二音频数据产生时，可以将第一人声数据的频带曲线在时间轴上后移第一延时对应的长度；或者，当第一人声数据晚于第二音频数据产生时，可以将第一人声数据的频带曲线在时间轴上前移第一延时对应的长度；将移动后的第一人声数据的频带曲线，作为对齐后的第一人声数据。当然，也可以对移动后的第一人声数据的频带曲线进行时域变换，将经过时域变换的数据作为对齐后的第一人声数据。

此外，在具体应用中，第一客户端的数量可以为多个。此时，即时通讯的音质优化与上述可选实施例相似。区别在于，当第一客户端的数量为多个时，第二客户端通过外放扬声器播放的第一人声数据的数量为多个，因此，第二客户端的麦克风采集的第二音频数据中，包含有多个第一人声数据。对此，需要获取多个第一人声数据，并将多个第一人声数据混合为一个参考信号。对参考信号和第二音频数据进行相关性对比，得到参考信号和第二音频数据之间的第三延时；将第二音频数据、参考信号和第三延时分别输入自适应滤波器，以使得自适应滤波器按照第三延时，对参考信号和第二音频数据进行对齐，得到对齐后的参考信号，按照对齐后的参考信号模拟第二音频数据中作为回声数据的多个第一人声数据，得到模拟的回声数据，并利用模拟的回声数据抵消第二音频数据中的回声数据。完成抵消的第二音频数据为过滤后的第二音频数据。

图2是根据另一示例性实施例示出的一种即时通讯的音质优化方法的流程图，如图2所示，一种个性化内容的确定方法，该方法可以包括以下步骤：

步骤S201，获取第一人声数据；第一人声数据为第一客户端的用户的声音数据。

步骤S202，利用外放扬声器播放第一人声数据以及第二客户端本地的背景音乐，得到第一音频数据。

步骤S203，利用麦克风采集第一音频数据和第二人声数据，得到第二音频数据；第二人声数据为第二客户端的用户的声音数据。

步骤S201至步骤S203为与本申请图1实施例中的步骤步骤S101至步骤S103相同的步骤，在此不再赘述，详见本申请图1实施例的描述。

步骤S204，对所获取的第一人声数据和第二音频数据进行相关性对比，得到第一人声数据和第二音频数据之间的第一延时。

步骤S205，将第二音频数据、所获取的第一人声数据和第一延时分别输入自适应滤波器，以使得自适应滤波器按照第一延时，对第一人声数据和第二音频数据进行对齐，得到对齐后的第一人声数据，按照对齐后的第一人声数据模拟第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用模拟的第一人声数据抵消第二音频数据中的第一人声数据。

步骤S206，将完成抵消的第二音频数据，作为过滤后的第二音频数据。当第一客户端播放的背景音乐的来源为第一客户端本地时，执行步骤S207；当第一客户端播放的背景音乐的来源为第二客户端时，执行步骤S208。

步骤S205至步骤S206为与本申请图1关于按照第一延时得到对齐后的第一人声数据，进而进行过滤的可选实施例中，获取第一延时、对齐后的第一人声数据以及对第二音频数据中的第一人声数据过滤的步骤相似的步骤，区别在于步骤S206对按照第一客户端播放的背景音乐的不同来源，对过滤后的第二音频数据执行不同的处理。对于相同的部分在此不再赘述，详见本申请图1可选实施例的描述。

步骤S207，将过滤后的第二音频数据发送给第一客户端，以使得第一客户端对第一客户端本地的背景音乐和过滤后的第二音频数据进行对齐以及叠加，并播放叠加后的音频数据。

当第一客户端播放的背景音乐的来源为第一客户端本地时，第一客户端播放的背景音乐与第一客户端接收的过滤后的第二音频数据之间，存在由过滤后的第二音频数据的传输造成的延时。如果第一客户端直接播放所接收的过滤后的第二音频数据，会出现过滤后的第二音频数据中的背景音乐与第一客户端本地的背景音乐错乱，影响播放效果的问题。对此，第一客户端可以对过滤后的第二音频数据和第一客户端本地的背景音乐进行延时计算以及对齐的处理。经过延时以及对齐处理得到的对齐后的第一客户端本地的背景音乐，与过滤后的第二音频数据之间不再存在延时。因此，第一客户端播放的叠加后的音频数据中，背景音乐为第一客户端本地的背景音乐和过滤后的第二音频数据中的背景音乐之间的无延时叠加，在避免两种来源的背景音乐出现错乱的同时，实现背景音乐的加强。

在步骤S207中，第一客户端对第一客户端本地的背景音乐和过滤后的第二音频数据进行对齐以及叠加，具体可以包括：第一客户端对第一客户端本地的背景音乐和过滤后的第二音频数据进行相关性对比，得到第一客户端本地的背景音乐和过滤后的第二音频数据之间的第二延时，并按照第二延时，对第一客户端本地的背景音乐和过滤后的第二音频数据进行对齐，得到对齐后的第一客户端本地的背景音乐，叠加对齐后的第一客户端本地的背景音乐和过滤后的第二音频数据，得到叠加后的音频数据。其中，第二延时以及对齐后的第一客户端本地的背景音乐的获取，与本申请可选实施例中第一延时以及对齐后的第一人声数据的获取类似，区别在于步骤S207中第二延时是第一客户端本地的背景音乐和过滤后的第二音频数据之间的，对齐后的第一客户端本地的背景音乐是对第一客户端本地的背景音乐进行调整后得到的。

示例性的，分别对第一客户端本地的背景音乐和过滤后的第二音频数据进行频域转换，得到第一客户端本地的背景音乐的频带曲线，以及过滤后的第二音频数据的频带曲线；在同一频带坐标系中绘制两条频带曲线，将两条频带曲线首次相交位置的时间确定为第二延时。当第一客户端本地的背景音乐早于过滤后的第二音频数据产生时，可以按照第一客户端本地音乐的播放时间轴，对待播放的第一客户端本地的背景音乐，进行时长为第二延时的后退，得到对齐后的第一客户端本地的背景音乐；或者，将第一客户端本地的背景音乐的频带曲线在时间轴上后移第二延时对应的长度，将移动后的第一客户端本地的背景音乐的频带曲线，作为对齐后的第一客户端本地的背景音乐。或者，当第一客户端本地的背景音乐晚于第二音频数据产生时，可以按照第一客户端本地音乐的播放时间轴，对待播放的第一客户端本地的背景音乐的数据，进行时长为第二延时的快进，得到对齐后的第一客户端本地的背景音乐；或者，可以将第一客户端本地的背景音乐的频带曲线在时间轴上前移第一延时对应的长度；将移动后的第一客户端本地的背景音乐的频带曲线，作为对齐后的第一客户端本地的背景音乐。当然，如果过滤后的第二音频数据已经为频域数据，可以直接使用过滤后的第二音频数据，无需进行频域转换。

步骤S208，按照第一延时，对第二客户端本地的背景音乐和过滤后的第二音频数据进行对齐以及叠加，并将叠加后的音频数据发送给第一客户端，以使得第一客户端播放叠加后的音频数据。

当第一客户端播放的背景音乐的来源为第二客户端时，第二客户端本地的背景音乐可以是第二客户端本地存储，或者从服务器中下载的背景音乐。并且，过滤后的第二音频数据是过滤第二客户端利用麦克风采集到的第二音频数据得到的。因此，第二客户端本地的背景音乐与过滤后的第二音频数据之间，存在由第二客户端对第二音频数据的采集造成的延时，也就是第一延时。对此，第二客户端可以按照第一延时，对过滤后的第二音频数据和第二客户端本地的背景音乐进行对齐的处理。经过对齐处理得到的对齐后的第二客户端本地的背景音乐，与过滤后的第二音频数据之间不再存在延时。因此，第一客户端播放的叠加后的音频数据中，背景音乐为第二客户端本地的背景音乐和过滤后的第二音频数据中的背景音乐之间的无延时叠加，在避免两种来源的背景音乐出现错乱的同时，实现背景音乐的加强。

在步骤S208中，按照第一延时，对第二客户端本地的背景音乐和过滤后的第二音频数据进行对齐以及叠加，具体可以包括：按照第一延时，对第二客户端本地的背景音乐和过滤后的第二音频数据进行对齐，得到对齐后的第二客户端本地的背景音乐，叠加对齐后的第二客户端本地的背景音乐和过滤后的第二音频数据，得到叠加后的音频数据。其中，第一延时为上述关于过滤第二音频数据中的第一人声数据的可选实施例中获取的延时，详见上述本申请图1可选实施例的描述。对齐后的第二客户端本地的背景音乐的获取，步骤S207中对齐后的第一客户端本地的背景音乐的获取类似，区别在于步骤S208中对齐后的第二客户端本地的背景音乐是对第二客户端本地的背景音乐进行调整后得到的。对于相同部分在此不再赘述，详见上述步骤S207的描述。

另外，当第一客户端播放的背景音乐的来源为第二客户端时，第一客户端播放的背景音乐可以是第二客户端所采集的过滤后的的第二音频数据中的背景音乐。此时，与本申请图1实施例的步骤S105相同的，可以将过滤后的第二音频数据发送给第一客户端，以使得第一客户端播放过滤后的第二音频数据。

在具体应用中，当第一客户端播放的背景音乐的来源为第二客户端时，如果需要加强第一客户端播放的背景音乐，可以执行本申请图2实施例的步骤S208；或者，如果需要减少传输的数据量、提高即时通讯的效率，可以执行将过滤后的第二音频数据发送给第一客户端，以使得第一客户端播放过滤后的第二音频数据。

图3是根据又一示例性实施例示出的一种即时通讯的音质优化方法的流程图，如图3所示，一种个性化内容的确定方法，应用于第一客户端，该方法可以包括以下步骤：

步骤S301，发送第一人声数据给第二客户端，以使得第二客户端利用外放扬声器播放第一人声数据以及第二客户端本地的背景音乐，得到第一音频数据；第一人声数据为第一客户端的用户的声音数据。

步骤S302，发送第三音频数据给第二客户端，以使得第二客户端过滤第三音频数据中的背景音乐，得到第一人声数据，并利用外放扬声器播放第一人声数据以及第二客户端本地的背景音乐，得到第一音频数据；第三音频数据为第一客户端利用麦克风采集第一人声数据和第一客户端本地的背景音乐得到的音频数据。

上述步骤S301和步骤S302为并列步骤，分别适用于第一客户端以不同方式播放背景音乐、以及对第一客户端采集到的数据的不同处理方式。具体的，当第一客户端利用耳机播放背景音乐时，第一客户端的麦克风采集到的第一人声数据中不会混入第一客户端播放的第一客户端本地的背景音乐，因此，可以执行步骤S301。或者，当第一客户端利用外放扬声器播放背景音乐时，第一客户端的麦克风采集第一人声数据时，第一客户端播放的第一客户端本地的背景音乐也会被采集，此时，第一客户端的麦克风采集到的是第三音频数据。因此，第一客户端可以过滤第三音频数据中的背景音乐，得到第一人声数据，并执行步骤S301。或者，当第一客户端的麦克风采集到的是第三音频数据时，可以执行步骤S302，由第二客户端过滤第三音频数据中的背景音乐，得到第一人声数据。

步骤S303，接收第二客户端发送的第二音频数据；第二音频数据为第二客户端利用麦克风采集第一音频数据和第二人声数据，得到的音频数据；第二人声数据为第二客户端的用户的声音数据。

在步骤S303中，第二音频数据与本申请图1实施例中的第二音频数据相同，在此不再赘述，详见本申请图1实施例的说明。

步骤S304，过滤第二音频数据中的第一人声数据，得到过滤后的第二音频数据；

步骤S305，当第一客户端播放的背景音乐的来源为第二客户端时，播放过滤后的第二音频数据。

上述步骤S304至步骤S305与本申请图1实施例中的步骤S104至S105为相似步骤。区别在于上述步骤S304至步骤S305的执行主体为第一客户端，无需进行过滤后的第二音频数据的发送。当然，如果执行的是步骤S302，为了保证后续能够执行步骤S304，第一客户端需要利用第三音频数据得到第一人声数据。对于相同部分在此不再赘述，详见上述本申请图1实施例以及可选实施例的描述。

可选的，在上述步骤S304：过滤第二音频数据中的第一人声数据，得到过滤后的第二音频数据之后，本申请实施例提供的即时通讯的音质优化方法，还可以包括如下步骤：

当第一客户端播放的背景音乐的来源为第一客户端本地时，对第一客户端本地的背景音乐和过滤后的第二音频数据进行相关性对比，得到第一客户端本地的背景音乐和过滤后的第二音频数据之间的第二延时；

按照第二延时，对第一客户端本地的背景音乐和过滤后的第二音频数据进行对齐，得到对齐后的第一客户端本地的背景音乐，叠加对齐后的第一客户端本地的背景音乐和过滤后的第二音频数据，得到叠加后的音频数据；

播放所述叠加后的音频数据。

其中，第二延时的获取、对齐后的第一客户端本地的背景音乐的获取以及叠加后的音频数据与本申请图2实施例的步骤S207相似。区别在于在本可选实施例中，执行主体为第一客户端。对于相同部分在此不再赘述，详见上述本申请图2实施例的描述。

另外，当第一客户端播放的背景音乐的来源为第二客户端时，如果需要减少传输的数据量、提高即时通讯的效率，可以执行本申请图3实施例的步骤S305。或者，如果需要加强第一客户端播放的背景音乐，可以执行如下步骤；

对第一人声数据和第二音频数据进行相关性对比，得到第一人声数据和第二音频数据之间的第一延时；

按照第一延时，对接收的第二客户端本地的背景音乐和过滤后的第二音频数据进行对齐，得到对齐后的第二客户端本地的背景音乐，叠加对齐后的第二客户端本地的背景音乐和过滤后的第二音频数据，得到叠加后的音频数据；

播放叠加后的音频数据。

上述步骤与本申请图2实施例中的步骤S208相似，区别在于在本可选实施例中，执行主体为第一客户端。对于相同部分在此不再赘述，详见上述本申请图2实施例的描述。由于本可选实施例中第一客户端播放的背景音乐是对过滤后的第二音频数据中的背景乐和所接收的第二客户端本地的背景音乐的叠加，因此，相对于仅存在过滤后的第二音频数据中的背景音乐而言，可以实现背景音乐的加强。

相应于上述方法实施例，本申请还提供一种即时通讯的音质优化装置。

图4是根据一示例性实施例示出的一种即时通讯的音质优化装置框图。如图4所示，一种即时通讯的音质优化装置，应用于第二客户端，该装置可以包括：第一人声获取模块401、第一音频获取模块402、第二音频获取模块403、过滤模块404以及发送模块405：

第一人声获取模块401，被配置为获取第一人声数据；所述第一人声数据为第一客户端的用户的声音数据；

第一音频获取模块402，被配置为利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；

第二音频获取模块403，被配置为利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据；所述第二人声数据为所述第二客户端的用户的声音数据；

过滤模块404，被配置为过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据；

发送模块405，被配置为在所述第一客户端播放的背景音乐的来源为所述第二客户端时，将所述过滤后的第二音频数据发送给所述第一客户端，以使得所述第一客户端播放所述过滤后的第二音频数据。

可选的，所述第一人声获取模块401，被配置为：

可选的，所述过滤模块404，被配置为：

可选的，所述装置还包括：延时对齐模块；

所述延时对齐模块，被配置为在所述第二音频获取模块403利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据之后，对所获取的第一人声数据和所述第二音频数据进行相关性对比，得到所述第一人声数据和所述第二音频数据之间的第一延时；

所述过滤模块404，被配置为将所述第二音频数据、所获取的第一人声数据和所述第一延时分别输入自适应滤波器，以使得所述自适应滤波器按照所述第一延时，对所述第一人声数据和所述第二音频数据进行对齐，得到对齐后的第一人声数据，按照所述对齐后的第一人声数据模拟所述第二音频数据中的第一人声数据，得到模拟的第一人声数据，并利用所述模拟的第一人声数据抵消所述第二音频数据中的第一人声数据。

可选的，所述发送模块405，被配置为：

或者，在所述第一客户端播放的背景音乐的来源为所述第二客户端时，所述延时对齐模块，被配置为按照所述第一延时，对所述第二客户端本地的背景音乐和所述过滤后的第二音频数据进行对齐以及叠加；所述发送模块405，被配置为将叠加后的音频数据发送给所述第一客户端，以使得所述第一客户端播放所述叠加后的音频数据。

图5是根据另一示例性实施例示出的一种即时通讯的音质优化装置框图。如图5所示，另一种即时通讯的音质优化装置，应用于第一客户端，该装置可以包括：发送模块501、接收模块502、过滤模块503以及播放模块504：

发送模块501，被配置为发送第一人声数据给第二客户端，以使得所述第二客户端利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；所述第一人声数据为所述第一客户端的用户的声音数据；或者，发送第三音频数据给所述第二客户端，以使得所述第二客户端过滤所述第三音频数据中的背景音乐，得到第一人声数据，并利用外放扬声器播放所述第一人声数据以及所述第二客户端本地的背景音乐，得到第一音频数据；所述第三音频数据为所述第一客户端利用麦克风采集所述第一人声数据和所述第一客户端本地的背景音乐得到的音频数据；

接收模块502，被配置为接收所述第二客户端发送的第二音频数据；所述第二音频数据为所述第二客户端利用麦克风采集所述第一音频数据和第二人声数据，得到的音频数据；所述第二人声数据为所述第二客户端的用户的声音数据；

过滤模块503，被配置为过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据；

播放模块504，被配置为在所述第一客户端播放的背景音乐的来源为所述第二客户端时，播放所述过滤后的第二音频数据。

可选的，所述装置还包括：延时对齐模块；

所述延时对齐模块，被配置为在所述过滤模块503过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据之后，当所述第一客户端播放的背景音乐的来源为所述第一客户端本地时，对所述第一客户端本地的背景音乐和所述过滤后的第二音频数据进行相关性对比，得到所述第一客户端本地的背景音乐和所述过滤后的第二音频数据之间的第二延时；

所述播放模块504，被配置为播放所述叠加后的音频数据。

相应于上述方法实施例，本申请还提供一种电子设备。

图6是根据一示例性实施例示出的一种电子设备。参照图6，该电子设备可以包括：

处理器601；

用于存储处理器可执行指令的存储器602；

其中，处理器601被配置为：执行存储器602上所存放的可执行指令时，实现本申请实施例所提供的任一种应用于第二客户端的即时通讯的音质优化方法的步骤。

可以理解的是，该电子设备为即时通讯系统中的第二客户端。在具体应用中，该电子设备可以为计算机、智能移动终端、平板设备以及服务器等等。

本申请的实施例提供的技术方案可以包括以下有益效果：在存在背景音乐的即时通讯中，由于第一客户端使用耳机播放背景音乐，因此，可以单独获取第一客户端的用户的第一人声数据，所获取的第一人声数据中不包含背景音乐；且与背景音乐相比，第一人声数据在即时通讯过程中的持续时间相对而言较短，因此，将对第一人声数据进行过滤所用的时长作为回声过滤的持续时长，对所获取的第二音频数据进行回声过滤，与传统的进行持续性回声过滤相比，可以减少过度过滤，从而减少对第二音频数据中第二人声数据的过滤，减少第二人声的卡顿和忽大忽小等问题，提高第二人声的音质。并且，由于即时通讯是第一客户端的用户和第二客户端的用户之间的通讯，因此，第一人声数据相对而言属于第二音频数据的主要部分，将对第一人声数据进行过滤所用的时长作为回声过滤的持续时长，与采用少于该持续时长的时长相比，相对而言回声过滤的效果更好。可见，通过本方案能够在存在背景音乐的即时通讯中，兼顾回声消除和对人声的音质优化的效果。

图7是根据另一示例性实施例示出的电子设备700的框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random Access Memory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)，PROM(Programmable Read-Only Memory，可编程只读存储器)，ROM，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

通信组件716被配置为便于设备700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还可以包括NFC(NearField Communication，近场通信)模块，以促进短程通信。例如，NFC模块可基于RFID(RadioFrequency Identification，射频识别)技术，IrDA(Infrared Data Association，红外数据协会)技术，UWB(Ultra Wideband，超宽带)技术，BT(Blue Tooth，蓝牙)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、DSP(Digital Signal Processor，数字信号处理器)、DSPD(Digital Signal Processing Equipment，数字信号处理设备)、PLD(Programmable Logic Devices，可编程逻辑器件)、FPGA(Field Programmable GateArray，现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述应用于第二客户端的即时通讯的音质优化方法。

图8是根据又一示例性实施例示出的一种电子设备。参照图8，该电子设备可以包括：

处理器801；

用于存储处理器可执行指令的存储器802；

其中，处理器801被配置为：执行存储器802上所存放的可执行指令时，实现本申请实施例所提供的任一种应用于第一客户端的即时通讯的音质优化方法的步骤。

可以理解的是，该电子设备为即时通讯系统中的第一客户端。在具体应用中，该电子设备可以为计算机、智能移动终端、平板设备以及服务器等等。

图9是根据再一示例性实施例示出的电子设备900的框图。例如，电子设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，健身设备，个人数字助理等。

参照图9，电子设备900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912以及通信组件916。

处理组件902通常控制电子设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random Access Memory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)，PROM(Programmable Read-Only Memory，可编程只读存储器)，ROM，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

通信组件916被配置为便于设备900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还可以包括NFC(NearField Communication，近场通信)模块，以促进短程通信。例如，NFC模块可基于RFID(RadioFrequency Identification，射频识别)技术，IrDA(Infrared Data Association，红外数据协会)技术，UWB(Ultra Wideband，超宽带)技术，BT(Blue Tooth，蓝牙)技术和其他技术来实现。

在示例性实施例中，电子设备900可以被一个或多个应用ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、DSP(Digital Signal Processor，数字信号处理器)、DSPD(Digital Signal Processing Equipment，数字信号处理设备)、PLD(Programmable Logic Devices，可编程逻辑器件)、FPGA(Field Programmable GateArray，现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述应用于第一客户端的即时通讯的音质优化方法。

另外，本申请还提供了一种非临时性计算机可读存储介质，包含于电子设备，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请实施例中任一所述的应用于第二客户端的即时通讯的音质优化方法的步骤。

在示例性实施例中，一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器602，上述指令可由处理器601执行以完成上述方法；或者，包括指令的存储器704，上述指令可由电子设备700的处理组件器702执行以完成上述应用于第二客户端的即时通讯的音质优化方法。例如，所述非临时性计算机可读存储介质可以是ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，光盘只读存储器)、磁带、软盘和光数据存储设备等。

本申请还提供了另一种非临时性计算机可读存储介质，包含于电子设备，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请实施例中任一所述的应用于第一客户端的即时通讯的音质优化方法的步骤。

在示例性实施例中，一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器802，上述指令可由处理器801执行以完成上述应用于第一客户端的即时通讯的音质优化方法；或者，包括指令的存储器904，上述指令可由电子设备900的处理组件器902执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，光盘只读存储器)、磁带、软盘和光数据存储设备等。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述实施例中任一所述的应用于第二客户端的即时通讯的音质优化即时通讯的音质优化方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述实施例中任一所述的应用于第一客户端的即时通讯的音质优化即时通讯的音质优化方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线，例如：同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线；或无线，例如：红外线、无线电、微波等方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如：软盘、硬盘、磁带；光介质，例如：DVD(Digital Versatile Disc，数字通用光盘)；或者半导体介质，例如：SSD(Solid StateDisk，固态硬盘)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同以及相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种即时通讯的音质优化方法，其特征在于，应用于第二客户端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一人声数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述过滤所述第二音频数据中的第一人声数据，得到过滤后的第二音频数据的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，在所述利用麦克风采集所述第一音频数据和第二人声数据，得到第二音频数据得到步骤之后，将所述第二音频数据和所获取的第一人声数据分别输入自适应滤波器的步骤之前，所述方法还包括：

5.一种即时通讯的音质优化方法，其特征在于，应用于第一客户端，所述方法包括：

6.一种即时通讯的音质优化装置，其特征在于，应用于第二客户端，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一人声获取模块，被配置为：

8.一种即时通讯的音质优化装置，其特征在于，应用于第一客户端，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：执行存储器上所存放的可执行指令时，实现权利要求1至5任一所述的即时通讯的音质优化方法的步骤。

10.一种非临时性计算机可读存储介质，其特征在于，包含于电子设备，当所述存储介质中的指令由电子设备的处理器执行时，使得服务器能够执行权利要求1至5任一项所述的即时通讯的音质优化方法的步骤。