CN116013342A

CN116013342A - 针对音视频通话的数据处理方法、装置、电子设备及介质

Info

Publication number: CN116013342A
Application number: CN202211611494.8A
Authority: CN
Inventors: 郭瑞彪
Original assignee: Baidu International Technology Shenzhen Co ltd
Current assignee: Baidu International Technology Shenzhen Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-25

Abstract

本公开提供了一种针对音视频通话的数据处理方法、装置、电子设备及介质，涉及人工智能技术领域，尤其涉及数据处理技术领域。具体实现方案为：获取针对目标通话方进行音频采集所得到的目标音频；检测所述目标音频中是否存在属于噪声的第一类音频数据；若存在，在通话界面中输出第一提示信息；响应于基于所述第一提示信息所得到的去除指令，在指定音频播放之前，对所述指定音频进行针对所述第一类音频数据的去除处理。通过本方案可以实现以友好的方式去除音视频通话中的噪声，从而提升音视频通话过程中的通话质量，提升用户体验。

Description

针对音视频通话的数据处理方法、装置、电子设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及数据处理技术领域，具体涉及一种针对音视频通话的数据处理方法、装置、电子设备及介质。

背景技术

随着音视频通话技术的不断发展，产生了越来越多的用于音视频通话的APP(Application，应用程序)，以及支持通话功能的协同办公软件。而在通话过程中，时常会不可避免的产生噪音对通话过程产生干扰。

相关技术中，将针对每一通话方进行音频采集所得到的音频，直接在该通话方的对端通话方进行播放。

发明内容

本公开提供了一种针对音视频通话的数据处理方法、装置、电子设备及介质。

根据本公开的第一方面，提供了一种针对音视频通话的数据处理方法，包括：

获取针对目标通话方进行音频采集所得到的目标音频；

检测所述目标音频中是否存在属于噪声的第一类音频数据；

若存在，在通话界面中输出第一提示信息；其中，所述第一提示信息用于提示对于所述目标通话方是否进行针对属于噪声的第一类音频数据的去除处理；

响应于基于所述第一提示信息所得到的去除指令，在指定音频播放之前，对所述指定音频进行针对所述第一类音频数据的去除处理；

其中，所述指定音频为针对所述目标通话方进行音频采集所得到的、所述目标通话方的对端通话方待进行播放的音频。

可选地，还包括：

检测所述目标音频中是否存在属于未知音频的第二类音频数据；其中，所述未知音频为不属于噪声且不属于所述目标通话方的用户的音频；

若存在，在所述通话界面中输出第二提示信息；其中，所述第二提示信息用于提示对于所述目标通话方是否进行针对所述第二类音频数据的弱化处理；

响应于基于所述第二提示信息所得到的弱化指令，在所述指定音频播放之前，对所述指定音频进行针对所述第二类音频数据的弱化处理。

可选地，所述获取针对目标通话方进行音频采集所得到的目标音频，包括：

获取指定通话阶段内针对目标通话方进行音频采集所得到的目标音频；

其中，所述指定通话阶段包括通话开始之前的呼叫阶段，和/或，通话过程中。

可选地，所述通话界面为所述目标通话方的通话界面，和/或，所述目标通话方的对端通话方的通话界面。

可选地，所述检测所述目标音频中是否存在属于噪声的第一类音频数据，包括：

基于预定的噪声特征库，检测所述目标音频中是否存在属于噪声的第一类音频数据；

其中，所述噪声特征库中包含有属于噪声的音频数据的音频特征。

可选地，所述基于预定的噪声特征库，检测所述目标音频中是否存在属于噪声的第一类音频数据，包括：

获取针对所述目标音频进行指定音频分解后所得到的各个音频数据；其中，所述指定音频分解为按照不同声源进行分解的方式；

基于预定的噪声特征库以及各个音频数据的音频特征，识别所述目标音频中，是否存在属于噪声的第一类音频数据。

可选地，所述检测所述目标音频中是否存在属于未知音频的第二类音频数据，包括：

基于预定的用户特征库以及其他音频数据的音频特征，检测所述目标音频中，是否存在属于未知音频的第二类音频数据；

其中，所述其他音频数据为：所述目标音频中的、除属于噪声的第一类音频数据以外的音频数据；

所述用户特征库中包含有属于所述目标通话方的用户的音频特征。

可选地，所述方法还包括：

响应于基于所述第二提示信息所得到的弱化指令，将所述第二类音频数据的音频特征，添加至所述噪声特征库。

根据本公开的第二方面，提供了一种针对音视频通话的数据处理装置，包括：

获取模块，用于获取针对目标通话方进行音频采集所得到的目标音频；

第一检测模块，用于检测所述目标音频中是否存在属于噪声的第一类音频数据；

第一输出模块，用于若存在，在通话界面中输出第一提示信息；其中，所述第一提示信息用于提示对于所述目标通话方是否进行针对属于噪声的第一类音频数据的去除处理；

去除模块，用于响应于基于所述第一提示信息所得到的去除指令，在指定音频播放之前，对所述指定音频进行针对所述第一类音频数据的去除处理；

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行任一所述的针对音视频通话的数据处理方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行任一所述的针对音视频通话的数据处理方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现任一所述的针对音视频通话的数据处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开所提供的针对音视频通话的数据处理方法的流程示意图；

图2是根据本公开所提供的针对音视频通话的数据处理方法的另一流程示意图；

图3根据本公开所提供的针对音视频通话的数据处理方法的实施例的示意图；

图4根据本公开所提供的针对音视频通话的数据处理装置的结构示意图；

图5是用来实现本公开实施例的针对音视频通话的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着音视频通话技术的发展，用户对于音视频通话质量的要求变得越来越高。在APP或支持通话功能的协同办公软件的通话过程中，时常会存在不可避免的噪音对通话过程产生干扰。

相关技术中，通常直接录制通话方的音频，并将所录制的音频在对端通话方进行播放，没有对通话过程中产生的噪音进行处理，导致用户体验不佳。

基于此，本公开提供了一种针对音视频通话的数据处理方法、装置、电子设备及介质，以实现以友好方式去除音视频通话中的噪声，从而提升音视频通话过程中的通话质量，提升用户体验。

下面首先对本公开提供的针对音视频通话的数据处理方法进行介绍。

其中，本公开涉及的针对音视频通话的数据处理方法可以应用于电子设备。示例性的，该电子设备可以为服务器或终端设备，终端设备可以为手机、电脑等，本公开并不对电子设备的具体形态进行限定。另外，本公开提供的针对音视频通话的数据处理方法可以应用于视频通话场景，也可以应用于语音通话场景，也就是说，存在音频传输的任一通话场景，均属于音视频通话场景，均可以应用本公开所提供的方法，从而提升音视频通话过程中的通话质量。

具体而言，该针对音视频通话的数据处理方法的执行主体可以为针对音视频通话的数据处理装置。示例性的，当该针对音视频通话的数据处理方法应用于终端设备时，该针对音视频通话的数据处理装置可以为运行于终端设备的功能软件，例如：用于进行音视频通话的客户端；该针对音视频通话的数据处理装置也可以为现有客户端的插件，例如：支持通话功能的协同办公客户端中的插件。示例性的，当该针对音视频通话的数据处理方法应用于服务器时，该针对音视频通话的数据处理装置可以为运行于服务器中的计算机程序，例如：该针对音视频通话的数据处理装置可以为运行于服务器中的、支持通话功能的协同办公客户端所对应的服务端程序中的功能模块。

本公开实施例提供的针对音视频通话的数据处理方法，可以包括如下步骤：

获取针对目标通话方进行音频采集所得到的目标音频；

检测所述目标音频中是否存在属于噪声的第一类音频数据；

本方案中，在获得针对目标通话方进行音频采集所得到的目标音频后，若检测到目标音频中存在属于噪声的第一类音频数据，则以友好的方式在通话界面中输出第一提示信息，以提示针对目标通话方是否去除噪声，并响应于基于第一提示信息得到的去除指令，在指定音频播放之前，对指定音频进行针对第一类音频数据的去除处理，实现对于目标通话方的音频的去噪处理。可见，通过本方案，可以以友好方式去除音视频通话中的噪声，从而提升音视频通话过程中的通话质量，提升用户体验。

下面结合附图，对本公开所提供的一种针对音视频通话的数据处理方法进行示例性介绍。

如图1所示，本公开提供的一种针对音视频通话的数据处理方法，可以包括如下步骤。

S101：获取针对目标通话方进行音频采集所得到的目标音频；

本公开提供的针对音视频通话的数据处理方法，在对音视频通话的数据进行处理之前，可以先获取针对目标通话方进行音频采集所得到的目标音频，从而通过执行后续的步骤，实现对目标通话方待在对端通话方进行播放的音频的处理。并且，在保证能够体现目标音频的音频特征的前提下，对于目标音频的时长不做限定。

可以理解的是，在一种实现方式中，所谓目标通话方，可以为通话过程中所涉及的多个通话方中的任一通话方，也就是说，针对通话过程中的每一通话方而言，均可以作为目标通话方，从而执行本公开的方案。当然，在另一种实现方式中，所谓目标通话方，可以为通话过程所涉及的多个通话方中的发声方，例如，针对音视频通话的各个通话方A、B、C，若通话方A在某一时刻为发声方，则通话方A可以为目标通话方，若通话方B在某一时刻为发声方，则通话方B可以为目标通话方。并且，若本公开的针对音视频通话的数据处理方法应用于终端设备时，终端设备可以为目标通话方侧的设备。

示例性的，在一种实现方式中，所述获取针对目标通话方进行音频采集所得到的目标音频，包括：

其中，在音视频通话时，通常会存在多个通话阶段，例如：通话开始之前的呼叫阶段、通话过程中、通话结束后三个阶段；为了提升通话质量，可以获取指定通话阶段内针对目标通话方进行音频采集所得到的目标音频；指定通话阶段可以为通话开始前的呼叫阶段，也可以为通话过程中的阶段，还可以同时包括通话开始前的呼叫阶段以及通话过程中的阶段这两个阶段。另外，针对通话结束后，对通话产生的音视频进行使用的场景，指定通话阶段也可以为通话结束后，也就是说，可以对通话过程中的音视频进行备份，当通话结束后，本公开也可以对所备份的通话过程中的音视频进行处理，此时，所备份的通话过程中的音视频可以作为目标音频。

通过获取指定通话阶段内的目标音频，可以根据需求灵活对各个阶段的目标音频进行后续的处理；当获取多个阶段的目标音频时，在后续对目标音频进行处理时，可以对多个阶段的目标音频进行处理，能够提高目标通话方的对端通话方所接收的音频的效果，能够进一步提升音视频通话过程中的通话质量。

S102：检测所述目标音频中是否存在属于噪声的第一类音频数据；

获取到目标音频后，为了后续去除指定音频中的噪声，可以先识别目标音频中是否存在噪声，即检测目标音频中是否存在属于噪声的第一类音频数据，从而根据检测结果，后续对属于噪声的第一类音频数据进行去除处理。

需要说明的是，任一种能够检测所述目标音频中是否存在属于噪声的第一类音频数据的实现方式，均可以应用于本公开实施例。

可选的，在一种实现方式中，所述检测所述目标音频中是否存在属于噪声的第一类音频数据，包括：

在识别目标音频中是否存在属于噪声的第一类音频数据时，可以利用预先建立的预定的噪声特征库，检测目标音频中是否存在属于噪声的第一类音频数据，其中，噪声特征库可以为利用日常生活中常见的噪声所建立的特征库。由于噪声本身为短时、瞬发的高频声音扰动，噪声与音视频通话时发声人的声音具有显著的区别，因此，可以利用日常生活中常见的噪声，例如：装修电钻声、吹风机吹头发等等，建立噪声特征库，在识别目标音频中的第一类音频数据时，可以通过噪声特征库，检测目标音频中是否存在属于噪声的第一类音频数据。从而能够快速确定目标音频中属于噪声的第一类音频数据。

示例性的，在一种实现方式中，所述基于预定的噪声特征库，检测所述目标音频中是否存在属于噪声的第一类音频数据，包括：

在利用预定的噪声特征库，检测目标音频中是否存在属于噪声的第一类音频数据时，由于目标音频可能为多种声音融合后的音频，例如：噪声和发声人的声音，因此，可以先将目标音频进行指定音频分解得到各个音频数据，各个音频数据具有其对应的音频特征，此时只需利用各个音频数据的音频特征以及噪声特征库中各个噪声的特征，即可识别目标音频中是否存在属于噪声的音频数据。另外，指定音频分解时，可以按照声音的频率，将目标音频分解为各个音频数据，当然也可以通过其他方式将目标音频分解为各个音频数据，在此不做限定。

示例性的，可以将各个音频数据的音频特征与噪声特征库中各个噪声的特征进行匹配，若任一音频数据的音频特征与噪声特征库中的某一噪声特征匹配成功，则可以检测出该任一音频数据为属于噪声的第一类音频数据。其中，所谓匹配成功可以为音频数据的音频特征与噪声的特征相似度结果大于某一阈值，相似度可以通过音频数据的特征向量和噪声的特征向量进行计算，其方式可以与现有技术类似，在此不做赘述。另外，若某一音频数据的音频特征，通过预定的噪声特征库未被识别为属于噪声的第一类音频数据，但该音频数据的音频特征具有短时、瞬发的高频声音扰动的特性，则仍可以将该音频数据识别为属于噪声的第一类音频数据，并且该音频数据的音频特征可以作为噪声的特征，添加至噪声库中。

通过将目标音频进行指定音频分解，可以得到目标音频中所包含的各个音频数据，通过各个音频数据的音频特征以及预定的噪声特征库，可以准确识别目标音频中是否存在属于噪声的第一类音频数据，并且能够准确识别出各个音频数据中属于噪声的第一类音频数据。

S103：若存在，在通话界面中输出第一提示信息；

其中，所述第一提示信息用于提示对于所述目标通话方是否进行针对属于噪声的第一类音频数据的去除处理。

若识别出目标音频中存在属于噪声的第一类音频数据，为了提高音视频的通话质量并提高用户体验，可以在通话界面中输出指示是否去除属于噪声的第一类音频数据的第一提示信息。

示例性的，在一种实现方式中，所述通话界面为所述目标通话方的通话界面，和/或，所述目标通话方的对端通话方的通话界面。

由于目标通话方和对端通话方均存在针对目标通话方的通话质量进行提升的需求，因此，该种实现方式中，可以在目标通话方的通话界面和/或对端通话方的通话界面中，输出第一提示信息，从而使得目标通话方和/或对端通话方均可以具有控制是否提升针对目标通话方的通话质量的权限。具体而言，针对目标通话方的通话界面和/或对端通话方的通话界面，可以在通话界面中，通过弹窗的方式输出询问通话方是否进行噪声去除的第一提示信息。通话界面中输出第一提示信息的位置，可以为在不影响通话方的通话感受的情况下，属于通话界面中的任一位置，在此并不限定。

需要说明的是，本公开提供的针对音视频通话的数据处理方法，当应用于服务器时，若目标音频中存在属于噪声的第一类音频数据，服务器可以向音视频通话的多个客户端的各个用户的通话界面中输出第一提示信息，当然也可以仅向音视频通话的某一用户的通话界面中输出第一提示信息；当应用于客户端时，若目标音频中存在属于噪声的第一类音频数据，客户端可以针对该客户端的用户，在该客户端的通话界面中输出第一提示信息；后续可以响应基于第一提示信息所得到的去除指令，实现对第一类音频数据的去除处理。

具体而言，若本公开的方案应用于服务器，当检测出目标音频中存在属于噪声的第一类音频数据时，可以针对音视频通话的各个通话方，即目标通话方以及目标通话方的对端通话方，在其通话界面中输出第一提示信息，当然也可以针对音视频通话的任一通话方，即目标通话方或目标通话方的对端通话方，在其通话界面中输出第一提示信息。若本公开的方案应用于终端设备中的客户端，若该客户端为针对目标通话方的客户端，则可以在检测出目标音频中存在属于噪声的第一类音频数据时，针对目标通话方，可以在其通话界面中输出第一提示信息第一类音频数据。

通话界面可以为目标通话方和/或目标通话方的对端通话方的通话界面，在通话界面中输出第一提示信息后，此时目标通话方和/或目标通话方的对端通话方可以针对该第一提示信息进行响应，选择是否发出去除指令，若任一通话方方发出去除指令，后续可以针对该任一通话方去除属于噪声的第一类音频数据。本公开发出的第一提示信息，用于提示任一通话方是否去除属于噪声的第一类音频数据，用户可以根据自身意愿进行选择去除噪声，可以实现提高音视频通话的通话质量，提升用户体验。

S104：响应于基于所述第一提示信息所得到的去除指令，在指定音频播放之前，对所述指定音频进行针对所述第一类音频数据的去除处理；

在通话界面中输出第一提示信息后，接收到第一提示信息的通话方可以根据第一提示信息，发出去除指令，本公开提供的方案可以响应于基于第一提示信息所得到的去除指令，并且在播放指定音频之前，可以将指定音频中属于噪声的第一类音频数据进行去除处理，从而提升音视频通话的通话质量。

示例性的，接收到第一提示信息的通话方，针对第一提示信息，可以通过点击、长按、滑动或者执行指定操作，从而发出去除指令，从而本公开可以响应该去除指令，并在指定音频播放之前，去除第一类音频数据。需要说明的是，第一提示信息中除了包含有询问是否去除第一类音频数据的提示信息，还可以包含有用于引导用户如何发出去除指令的提示信息，以便用户根据第一提示信息，发出去除指令，从而去除指定音频中的第一类音频数据。

在去除第一类音频数据时，可以通过滤波的方式，将指定音频中属于噪声的第一类音频数据去除；当然，任一种能够去除第一类音频数据的方式均适用于本公开，在此并不限定去除第一类音频数据的具体方式。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

可选地，在本公开的另一实施例中，如图2所示，本公开提供的针对音视频通话的数据处理方法还包括：步骤S201-S203；

S201：检测所述目标音频中是否存在属于未知音频的第二类音频数据；

其中，所述未知音频为不属于噪声且不属于所述目标通话方的用户的音频；

在一些场景下，目标音频中还可能存在有除噪声和目标通话方的用户的音频外的其他未知音频，例如：网络异常产生的音频数据，此时，未知音频也会对音视频通话产生干扰，因此，还可以检测目标音频中是否存在属于未知音频的第二类音频数据。

在检测目标音频中是否存在属于未知音频的第二类音频数据时，可以利用预定的用户特征库，以及其他音频数据的音频特征，检测目标音频中是否存在第二类音频数据，具体而言，其他音频数据为目标音频中除第一类音频数据外的音频数据，其中包含有用户的音频数据，还可能包含有未知音频，在识别未知音频时，可以将其他音频数据的各个音频特征，与预定的用户特征库中用户的各个音频特征进行匹配，若其他音频数据的任一音频特征与用户的各个音频特征均未匹配成功，则该任一音频特征所属的音频数据为未知音频。

另外，需要说明的是，针对任一目标通话方，均可以预先建立有唯一与之对应的用户特征库，针对该目标通话方的目标音频，可以利用该目标通话方对应的用户特征库，检测目标音频中是否存在属于未知音频的第二类音频数据。

目标通话方的用户特征库可以预先建立，可以通过机器学习或深度学习的方式，得到用户特征库，例如：可以基于预先训练的神经网络声音识别模型，对目标通话方日常使用软件的声音进行特征建模，提取目标通话方的音频特征，从而得到目标通话方的用户特征库。

通过用户特征库，可以通过特征库中的音频特征，与其他音频数据的音频特征进行匹配，从而能够快速检测目标音频中，是否存在属于未知音频的第二类音频数据。

S202：若存在，在所述通话界面中输出第二提示信息；

其中，所述第二提示信息用于提示对于所述目标通话方是否进行针对所述第二类音频数据的弱化处理；

若目标音频中存在属于未知音频的第二类音频数据，还可以在通话界面中输出第二提示信息。需要说明的是，在通话界面中输出第二提示信息的方式，可以与上述在通话界面中输出第一提示信息的方式类似。

若目标音频中存在第一类音频数据，且存在第二类音频数据，可以在通话界面同时输出第一提示信息和第二提示信息，当然也可以按照任一顺序先后输出第一提示信息和第二提示信息。并且，针对在通话界面中输出第一提示信息和第二提示信息的位置，并不限定，可以根据需求进行灵活调整。

S203：响应于基于所述第二提示信息所得到的弱化指令，在所述指定音频播放之前，对所述指定音频进行针对所述第二类音频数据的弱化处理。

在通话界面中输出第二提示信息后，接收到第二提示信息的通话方可以根据第二提示信息，发出弱化指令，本公开提供的方案可以响应于基于第二提示信息得到的弱化指令，并在指定音频播放之前，弱化第二类音频数据，从而提升音视频通话的通话质量。

示例性的，接收到第二提示信息的通话方，针对第二提示信息，可以通过点击、长按、滑动或者执行指定操作，从而发出去除指令，从而本公开可以响应该弱化指令，并在指定音频播放之前，弱化第二类音频数据。需要说明的是，第二提示信息中除了包含有询问是否弱化第二类音频数据的提示信息，还可以包含有用于引导用户如何发出弱化指令的提示信息，以便用户根据第二提示信息，发出弱化指令，从而弱化指定音频中的第二类音频数据。

在弱化第二类音频数据时，可以通过滤波的方式，将指定音频中属于未知音频的第二类音频数据弱化；当然，还可以根据用户的指令，将第二类音频数据进行去除，在此并不限定；并且任一种能够弱化第二类音频数据的方式均适用于本公开，在此并不限定弱化第二类音频数据的具体方式。

可选地，所述方法还包括：

可以理解的是，若接收到第二提示信息的通话方发出弱化指令，则该属于未知音频的第二类音频数据在音视频通话时不起作用，此时该第二类音频数据可以识别为第一类音频数据，即可以将该未知音频识别为噪声，并将第二类音频数据的音频特征，添加至噪声特征库，以扩充噪声特征库，从而在后续利用噪声库识别噪声时，能够提高所识别出的噪声的准确率。

通过检测未知音频的第二类音频数据，输出第二提示信息并后续弱化第二类音频数据的方式，可以进一步识别目标音频中的无用音频，并弱化甚至去除第二类音频数据，能够以友好的方式弱化音视频通话中的未知音频，从而进一步提高音视频通话过程中的通话质量，提升用户体验。

需要说明的是，“第一类音频数据、第二类音频数据、第一提示信息以及第二提示信息”中的“第一”、“第二”，仅仅用于从命名上，对不同的音频数据和提示信息进行区分，并不具有任何限定意义。

为了方便理解本公开所提供的方法，下面结合一具体示例对本公开所提供的方法进行介绍。

为了实现本公开所提供的方法，存在噪声建库以及建立用户声音特征库两个预处理阶段：噪声建库以及建立用户声音特征库；

噪声建库；即建立噪声库，对应上述的噪声特征库的建立方式；噪声本身具有较为明显的特点：短时、瞬发的高频声音扰动，噪声与通话期间发声人的音调具有显著的区别，例如：装修电钻声、吹风机吹头发等声音，可以对日常生活中的噪声进行建立特征库并保存，以便后续识别噪声。噪声建库的过程不依赖于用户的信息，可以对日常生活中常见的噪声进行标注、留存等，从而建立噪声的特征库。

建立用户声音特征库；即建立用户的声音特征库，对应上述用户特征库的建立方式；不同人的声音特征不同，在针对任一用户建立声音特征库时，可以利用预先训练好的神经网络声音识别模型，将所采集的该任一用户日常使用软件的声音，作为神经网络声音识别模型的输入，提取该任一用户的各个声音特征，并将该任一用户的各个声音特征归类，得到该任一用户的声音特征库。随着用户使用软件的时长的增加，所采集的用户的声音也会更加丰富，所建立的用户声音特征库中包含的用户的声音特征也会更加丰富，在后续去噪处理时，能够提升去噪的准确率。

在预处理阶段完成后，可以利用上述的噪声库以及用户声音特征库进行数据处理：

在通话开始前，检测周围环境噪声；在通话开始前，通常会存在一个拨号阶段，等待对端用户接入通话，即上述的通话开始前的呼叫阶段。本方案可以将通话开始前的空闲阶段充分利用，可以采集拨号方周围环境的音频，并将所采集的音频与预先建立的噪声库和用户声音特征库进行匹配，对噪声进行识别。若识别出周围环境的音频中存在噪声，可以提示用户是否将噪声的音频去除；若识别出周围环境的音频中存在未知音频，则可以继续检测该未知音频是否为噪声，或者以友好的图形界面提示用户该未知音频可能为噪声，是否需要对该未知音频进行弱化处理，以便去除通话开始前阶段中所存在的噪声以及未知音频，从而提升音视频的通话质量，并提升用户体验。采集拨号方周围环境的音频对应上述对通话开始前的呼叫阶段所采集的目标音频；利用噪声库和用户声音特征库对所采集的音频进行匹配，对应上述噪声以及未知音频的检测方式；友好的图形界面提示用户对应上述在通话界面中输出第一提示信息、第二提示信息的步骤。

通话期间的噪声检测与处理；由于噪声具有短时特性，在通话开始前，一些噪声可能并没有被检测到，但是可能在通话期间出现，此时会严重降低通话质量。因此，可以对通话过程中进行噪声检测，可以通过上一步骤的噪声库和用户声音特征库的方式，检测通话过程中的噪声。在采集通话过程中的音频数据时，可以通过抽时间段检测的方式，对通话过程中的音频进行采集，即可以按照一定的时间间隔采集通话音频，并通过所采集的音频特征以及噪声库和用户特征库的方式，识别噪声和未知声音，后续可以通过友好提示用户的方式，对噪声或未知声音进行去除或弱化的处理，从而提升音视频通话过程中的通话质量，并提升用户体验。对应上述通过噪声库以及用户特征库识别噪声和未知音频，并在通话界面中输出第一提示信息、第二提示信息的方式，后续对噪声进行去除，对未知音频进行弱化处理的步骤。

通话结束后的音频数据处理；通话结束并不意味着通话的音视频数据中不存在噪声，由于当前绝大部分支持音视频通话的软件会对通话内容进行留存备份，而备份的内容又会被多次播放，因此，对留存备份的音视频数据进行噪声检测和处理也非常有必要。此时可以针对留存备份的音视频数据，通过上述相同的方式，识别其中是否存在噪声或未知音频，通过友好提示使用该留存备份的音视频数据的用户，对其中存在的噪声进行去除处理，对未知音频弱化处理，从而提升所备份的音视频数据的质量，并提升使用所备份的音视频数据的用户的体验。

本公开提供的针对音视频通话的数据处理方法，通过噪声建库、建立用户声音特征库，对通话开始前、通话期间以及通话结束后的噪声和未知音频进行检测，并以友好方式对噪声进行去除，对未知音频进行弱化，能够实现以友好的方式去除音视频通话中的噪声，从而全方位提高音视频通话过程中的通话质量，提升用户体验。

下面结合一具体实施例，对本公开提供的一种针对音视频通话的数据处理方法进行详细介绍。

如图3所示，本公开实施例提供的一种针对音视频通话的数据处理方法，可以包括：声源检测、音谱分析以及音质提升。

声源检测；即上述针对目标通话方进行音频采集，并得到目标音频的步骤；声源中可以包含有多种声音，例如：话筒的声音、嘴巴发出的声音、电钻装修的声音以及敲击房顶的声音等等。

音谱分析；即对所检测的声源进行分析，得到声源中包含的多种声音；对应上述对目标音频进行指定音频分解，得到各个音频数据的步骤；本实施例中，可以通过频率，将声源中的各个声音进行分解，得到多种声音；即通过对声源的各种声音内容的识别，对音频进行剥离分析，将不同特征的音频进行区分，得到各个音频。

音质提升；即对音视频通话的声音质量进行提升，可以包含多个步骤：人声识别、噪声标记、噪声建模、滤波处理、音频输出。

其中，人声识别，即针对音频分析结果中的各个音频，可以先提取其音频对应的音频特征，利用预先建立的用户声音特征库，识别各个音频中属于发声人的音频，在进行人声识别时，可以根据不同的通话场景进行单独分析，例如：对于授课的场景，通常只存在一端通话方发声，此时仅需识别该端用户的音频；针对相互交流沟通的场景，存在多端发声方，此时针对每一发声方可以均对应有一声源的音频分析结果以及该发声方的用户对应的用户声音特征库，可以针对每一音频分析结果中各个音频进行分析。

噪声标记，即针对人声识别后的各个音频，其中可能存在噪声以及未知音频，可以利用预先建立的噪声库，以及人声识别后除所识别的用户音频外的其他各个音频的音频特征进行比对，识别并标记其中存在的噪声。

噪声建模，即针对识别出除噪声以及用户音频外的未知音频，若用户发出弱化该未知音频的指令，则可以先将该未知音频的音频特征添加至噪声库，以扩充该通话场景下噪声库的特征。

滤波处理，即针对已识别出的噪声通过滤波的方式进行去除，对不属于人声和噪声外的其他未知音频进行弱化处理。在去除噪声时，针对音频分析的各个音频，可以将识别出属于人声的音频进行融合，得到后续的输出音频，完成对通话的音视频进行噪声去除。

音频输出，即将滤波处理后的音频，输出至音频接收方。在输出音频时，可以采用流媒体(Streaming Media)技术，将音频内容重新包装，通过分段发送的方式，输出至音频接收方。

本公开提供的针对音视频通话的数据处理方法，可以对声源的声音进行检测，并通过音频分析得到各个音频，后续可以对各个音频进行音质提升，以友好方式对噪声进行去除，对未知音频进行弱化，能够实现以友好的方式去除音视频通话中的噪声，从而全方位提高音视频通话过程中的通话质量，提升用户体验。

基于上述方法实施例，本公开还提供了一种针对音视频通话的数据处理装置，如图4所示，该装置包括：

获取模块410，用于获取针对目标通话方进行音频采集所得到的目标音频；

第一检测模块420，用于检测所述目标音频中是否存在属于噪声的第一类音频数据；

第一输出模块430，用于若存在，在通话界面中输出第一提示信息；其中，所述第一提示信息用于提示对于所述目标通话方是否进行针对属于噪声的第一类音频数据的去除处理；

去除模块440，用于响应于基于所述第一提示信息所得到的去除指令，在指定音频播放之前，对所述指定音频进行针对所述第一类音频数据的去除处理；

可选地，所述装置还包括：

第二检测模块，用于检测所述目标音频中是否存在属于未知音频的第二类音频数据；其中，所述未知音频为不属于噪声且不属于所述目标通话方的用户的音频；

第二输出模块，用于若存在，在所述通话界面中输出第二提示信息；其中，所述第二提示信息用于提示对于所述目标通话方是否进行针对所述第二类音频数据的弱化处理；

弱化模块，用于响应于基于所述第二提示信息所得到的弱化指令，在所述指定音频播放之前，对所述指定音频进行针对所述第二类音频数据的弱化处理。

可选地，所述获取模块，具体用于：

可选地，所述第一检测模块，包括：

检测子模块，用于基于预定的噪声特征库，检测所述目标音频中是否存在属于噪声的第一类音频数据；

可选地，所述检测子模块，具体用于：

可选地，所述第二检测模块，具体用于：

可选地，所述装置还包括：

添加模块，用于响应于基于所述第二提示信息所得到的弱化指令，将所述第二类音频数据的音频特征，添加至所述噪声特征库。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行任一所述的针对音视频通话的数据处理方法。

本公开实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现任一所述的针对音视频通话的数据处理方法。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如针对音视频通话的数据处理方法。例如，在一些实施例中，针对音视频通话的数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的针对音视频通话的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行针对音视频通话的数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器

可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的5服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

0上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种针对音视频通话的数据处理方法，包括：

获取针对目标通话方进行音频采集所得到的目标音频；

检测所述目标音频中是否存在属于噪声的第一类音频数据；

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1或2所述的方法，其中，所述获取针对目标通话方进行音频采集所得到的目标音频，包括：

4.根据权利要求1或2所述的方法，其中，所述通话界面为所述目标通话方的通话界面，和/或，所述目标通话方的对端通话方的通话界面。

5.根据权利要求1或2所述的方法，其中，所述检测所述目标音频中是否存在属于噪声的第一类音频数据，包括：

6.根据权利要求1或2所述的方法，所述基于预定的噪声特征库，检测所述目标音频中是否存在属于噪声的第一类音频数据，包括：

7.根据权利要求1或2所述的方法，其中，所述检测所述目标音频中是否存在属于未知音频的第二类音频数据，包括：

8.根据权利要求5所述的方法，所述方法还包括：

9.一种针对音视频通话的数据处理装置，包括：

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一所述的针对音视频通话的数据处理方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一所述的针对音视频通话的数据处理方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一所述的针对音视频通话的数据处理方法。