CN111986690A

CN111986690A - 一种视频的语音降噪方法和装置

Info

Publication number: CN111986690A
Application number: CN202010875649.3A
Authority: CN
Inventors: 理素霞; 赵世栋; 宋浩杰
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-11-24

Abstract

本申请公开了一种视频的语音降噪方法和装置，其中方法包括：利用预设的场景主题识别网络模型，确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景；当所述场景是以人为主题的场景时，对所述待处理视频对应的音频输入数据进行音轨分解，得到所述场景中所有发声者各自对应的音频数据；采用人工智能的方式，确定所述场景中的主要发声者；按照仅保留所述主要发声者的语音的策略，根据所述音频数据，得到所述待处理视频对应的音频输出数据。采用本发明，可以有效抑制视频会话场景中背景噪声和其它人声干扰。

Description

一种视频的语音降噪方法和装置

技术领域

本发明涉及计算机应用技术，特别是涉及一种视频的语音降噪方法和装置。

背景技术

在很多视频会话场景(如视频会议、与机器人交流)中，对会话声音进行降噪处理，是保障会话质量的必要技术之一。现有的语音降噪技术通常是针对语音中的环境噪声进行抑制，而在实际应用中，其他的人声干扰，有时候比环境噪声更会影响视频会话的质量。

目前，尚未提出一种能够同时有效抑制视频会话场景中背景噪声和其它人声干扰的技术方案。

发明内容

有鉴于此，本发明的主要目的在于提供一种视频的语音降噪方法和装置，可以有效抑制视频会话场景中背景噪声和其它人声干扰。

为了达到上述目的，本发明提出的技术方案为：

一种视频的语音降噪方法，包括：

利用预设的场景主题识别网络模型，确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景；

当所述场景是以人为主题的场景时，对所述待处理视频对应的音频输入数据进行音轨分解，得到所述场景中所有发声者各自对应的音频数据；采用人工智能的方式，确定所述场景中的主要发声者；按照仅保留所述主要发声者的语音的策略，根据所述音频数据，得到所述待处理视频对应的音频输出数据。

较佳地，所述确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景包括：

对于所述待处理视频中的每一帧画面，利用所述场景主题识别网络模型，识别该帧画面是否以人为主题；

当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时，确定所述场景是以人为主题的场景。

较佳地，所述采用人工智能的方式，确定所述场景中的主要发声者包括：

利用预设的人脸识别网络模型，对所述待处理视频中的画面进行人脸识别，并对人脸识别所得到的每张人脸的人脸关键点数据进行重组，得到相应人脸的数据矩阵；

对于每张所述人脸，将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理，得到相应人脸的动作类别；所述动作类别包括：面向镜头讲话、非面向镜头讲话和沉默；

根据所述人脸的动作类别，确定所述场景中的主要发声者。

较佳地，所述根据每张所述人脸的动作类别，确定所述场景中的主要发声者包括：

如果所述待处理视频中仅有一人面向镜头讲话，则将该面向镜头讲话的人作为所述主要发声者；

如果所述待处理视频中有多人面向镜头讲话，则将面向镜头讲话的人中距离镜头最近的人D_near以及该D_near周围预设范围内的所有面向镜头讲话的人，作为所述主要发声者。

较佳地，所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。

较佳地，所述方法进一步包括：

当所述场景不是以人为主题的场景时，直接将所述待处理视频对应的音频输入数据，作为所述待处理视频对应的音频输出数据。

一种视频的语音降噪装置，包括：处理器，所述处理器用于：

较佳地，所述处理器，具体用于确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景，包括：

较佳地，所述处理器，具体用于采用人工智能的方式，确定所述场景中的主要发声者，包括：

根据所述人脸的动作类别，确定所述场景中的主要发声者。

较佳地，所述处理器，具体用于根据每张所述人脸的动作类别，确定所述场景中的主要发声者，包括：

较佳地，所述处理器，进一步用于当所述场景不是以人为主题的场景时，直接将所述待处理视频对应的音频输入数据，作为所述待处理视频对应的音频输出数据。

本申请还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的视频的语音降噪方法的步骤。

本申请还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

由上述技术方案可见，本发明提出的视频的语音降噪方法和装置，通过对视频场景的类别进行识别，并针对以人为主题的场景进行音轨分解，并采用只保留主要讲话者语音的策略，为视频的音频进行降噪处理，这样，视频的输出语音仅为主要讲话者的语音，从而使得视频的语音输出更清晰、准确，有效抑制了视频会话场景中背景噪声和其它人声的干扰。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例适用的为视频通话场景示意图；

图3为本发明实施例适用的视频录制场景示意图；

图4为本发明实施例适用的人机交互场景示意图；

图5为本发明实施例适用的视频会议场景示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明的核心思想是：对于以人为主题的视频会话场景，从中筛选出主要讲话人，然后去除主要讲话人之外的语音，仅保留主要讲话人的音频数据，以提高降噪的精准度，彻底保障视频会话主体的语音质量。

图1为本发明实施例的流程示意图，如图1所示，该实施例实现的视频的语音降噪方法，主要包括：

步骤101、利用预设的场景主题识别网络模型，确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景。

本步骤用于确定当前降噪处理周期中需要处理的视频所对应的场景类型，即是否为以人为主题的场景，以便之后针对以人为主题的场景进行特殊的降噪处理，既要去除环境噪音，也要去除属于非会话人的其它人声干扰，以确保视频会话主体的语音质量。

这里需要说明的是，所述噪处理周期用于限定每次降噪处理的视频长度，具体可以由本领域技术人员根据实际需要设置合理的周期长度，例如，可以是1秒至2秒的视频长度，但不限于此。

较佳地，可以采用下述方法，利用预先训练的场景主题识别网络模型，来确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景：

对于所述待处理视频中的每一帧画面，利用所述场景主题识别网络模型，识别该帧画面是否以人为主题；当以人为主题的画面在所述待处理视频中所占的比例达到预设的比例阈值时，确定所述场景是以人为主题的场景。

上述方法中，需要对当前降噪处理周期中待处理视频对应的一组连续视频帧画面，分别进行以人为主题的类型识别，然后再根据识别结果中以人为主体的比例，来确定待处理视频对应的场景是否是以人为主题的场景。上述比例阈值具体可由本领域技术人员根据实际需要进行设置，例如可以是70％、80％等，但不限于此，在此不再赘述。

步骤102、当所述场景是以人为主题的场景时，对所述待处理视频对应的音频输入数据进行音轨分解，得到所述场景中所有发声者各自对应的音频数据；采用人工智能的方式，确定所述场景中的主要发声者；按照仅保留所述主要发声者的语音的策略，根据所述音频数据，得到所述待处理视频对应的音频输出数据。

本步骤中，将针对以人为主题的场景的视频进行降噪处理，这里，需要将场景中每个发声者的音频数据分离出来，同时需要采用人工智能的方式，从场景中识别出主要发声者，之后再通过仅保留所述主要发声者的语音的方式，来确定当前所处理视频的音频输出数据。这样，本步骤得到所述待处理视频对应的音频输出数据之后，便可以利用该音频输出数据和该待处理视频，进行相应的视频播放。由于在视频输出语音时仅会输出主要发声者的音频数据，而不存在环境噪音和其他人声的音频数据，因此，可以获得很好的降噪效果，确保主要发声者的语音质量。

较佳地，步骤102中可以采用下述方法确定所述场景中的主要发声者包括：

x1、利用预设的人脸识别网络模型，对所述待处理视频中的画面进行人脸识别，并对人脸识别所得到的每张人脸的人脸关键点数据进行重组，得到相应人脸的数据矩阵。

x2、对于每张所述人脸，将相应的所述数据矩阵输入到预设的脸部动作识别网络模型中处理，得到相应人脸的动作类别；所述动作类别包括：面向镜头讲话、非面向镜头讲话和沉默。

x3、根据所述人脸的动作类别，确定所述场景中的主要发声者。

较佳地，考虑到多人会话的场景中，主要发声者的数量可能为多个(例如，图2所示的视频通话场景中的电视画面中的两个人均为主要发声者)，为了提高此情景下的智能降噪能力，避免必要的语音被去除，步骤x3中可以采用下述方法来确定所述场景中的主要发声者：

上述方法中，当面向镜头讲话的人中距离镜头最近的人D_near的周围还有距离其较近的其他发声者时，也会将这些其他发声者视为主要发声者，以保留对他们的声音。

具体地，所述预设范围可由本领域技术人员根据实际需要进行设置，例如可以是距离所述D_near二十厘米或三十厘米等，但是不限于此。

在实际应用，当主要发声者为多个时，需要将这些发起者的音频数据进行合成后进行输出，具体地可以采用下述方法，区分主要发声者的数量，得到所述待处理视频对应的音频输出数据：

如果所述主要发声者为一个，则将所述主要发声者的所述音频数据，作为所述音频输出数据；

如果所述主要发声者为多个，则将所有所述主要发声者的所述音频数据进行合成，将合成得到的音频数据，作为所述音频输出数据。

较佳地，为了提高降噪效率，可以基于卷积神经网络模型训练得到上述场景主题识别网络模型、人脸识别网络模型和所述脸部动作识别网络模型。但是，在实际应用中，并不限于卷积神经网络模型，也可以采用其他机器学习网络模型。上述模型的具体训练方法为本领域技术人员所掌握，在此不再赘述。

较佳地，对于不是以人为主题的场景的视频，为了避免降噪处理对场景背景音的错误删除，可以不对视频对应的输入音频做任何处理，即：

从上述技术方案可以看出，采用上述实施例，针对以人为主题的视频场景，在降噪处理过程中通过只保留主要发声者的音频数据，来生成相应的音频输出数据，可以有效确保以人为主题的视频场景下主要发声者的语音质量，避免受到环境音和其他人声的干扰。

上述实施例既可以应用于实时录制视频进行播放的会话场景，即对摄像装置采集到的视频进行实时处理以便实时播放，如图3-图5所示的会话场景，同时也可以应用于事先已录制完成的视频的播放降噪处理，即在已录制完成的视频播放前，先应用上述实施例进行降噪处理，再基于降噪处理后的音频进行视频播放。

图3给出了视频录制的场景示意图。如图3所示，当上述实施例应用于该场景时，只有场景中的人物在面对镜头讲话时，才会仅保留于该讲话者的音频数据，而当其中的人物动作发生变动，不再面对镜头讲话时，则会在视频输出时保留原始的场景输入音频。

图4给出了人机交互场景示意图。如图4所示，该场景中有三个人和一个机器人，在机器人应用上述实施例，分别识别出这三人的人脸动作类型为面对镜头讲话，未面对镜头讲话和沉默三种，此时，机器人将只会接收其摄像头录制的视频中面对镜头讲话的语音，因此，机器人只会对面对镜头讲话的人的语音给予相应的反应，从而可以避免其他人对机器人控制的干扰。

图5给出了视频会议场景示意图。如图5所示，在该场景中应用上述实施例，可以确保仅有视频画面中面对镜头讲话的主讲人(图中用圆圈标识的头像)的语音被输出，而环境噪音和会议中其他人声的语音均可以被屏蔽，从而可以确保视频会议中主讲人的语音质量。

与上述方法实施例相对应，本申请还提出了一种视频的语音降噪装置，包括：处理器，所述处理器用于：

根据所述人脸的动作类别，确定所述场景中的主要发声者。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频的语音降噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景包括：

3.根据权利要求1所述的方法，其特征在于，所述采用人工智能的方式，确定所述场景中的主要发声者包括：

根据所述人脸的动作类别，确定所述场景中的主要发声者。

4.根据权利要求3所述的方法，其特征在于，所述根据每张所述人脸的动作类别，确定所述场景中的主要发声者包括：

5.根据权利要求3所述的方法，其特征在于，所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。

6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

7.一种视频的语音降噪装置，其特征在于，包括：处理器，所述处理器用于：

8.根据权利要求7所述的装置，其特征在于，所述处理器，具体用于确定当前降噪处理周期中的待处理视频对应的场景是否是以人为主题的场景，包括：

9.根据权利要求7所述的装置，其特征在于，所述处理器，具体用于采用人工智能的方式，确定所述场景中的主要发声者，包括：

根据所述人脸的动作类别，确定所述场景中的主要发声者。

10.根据权利要求9所述的装置，其特征在于，所述处理器，具体用于根据每张所述人脸的动作类别，确定所述场景中的主要发声者，包括：

11.根据权利要求9所述的装置，其特征在于，所述场景主题识别网络模型、所述人脸识别网络模型和所述脸部动作识别网络模型均利用卷积神经网络模型训练得到。

12.根据权利要求7所述的方法，其特征在于，所述处理器，进一步用于当所述场景不是以人为主题的场景时，直接将所述待处理视频对应的音频输入数据，作为所述待处理视频对应的音频输出数据。