CN115631124A

CN115631124A - 在视频通信系统中提供视频外观调整的方法

Info

Publication number: CN115631124A
Application number: CN202110747621.6A
Authority: CN
Inventors: A·巴拉吉; B·凌; 缪敏; J·朴; N·瓦利亚; 王建鹏; 王睿缜; 朱兴国
Original assignee: Zuma Video Communications
Current assignee: Zuma Video Communications
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-01-20
Also published as: US11943564B2; US20230030170A1

Abstract

一种通信系统，包括一个或多个处理器，配置为执行以下操作：从音频采集设备接收输入音频信号；处理输入音频信号以提供具有基于数字信号处理(DSP)技术的噪声抑制的音频信号的第二版本；将第二版本的音频信号传送至通讯平台以进行实时串流；通过机器学习算法对音频信号的第二版本是否包含超过噪声阈值噪声进行分类；基于分类为第二版本的音频信号包含超过噪声阈值的噪声，处理第二版本的音频信号以提供基于人工智能(AI)技术的噪声抑制的第三版本的音频信号；和将第三版本的音频信号传输至通讯平台。

Description

在视频通信系统中提供视频外观调整的方法

技术领域

本发明总体上涉及数字媒体，更具体地，涉及用于在视频通信会话内提供视频外观调整的系统和方法。

背景技术

数字通信工具和平台对于为个人和组织提供远程通信和协作的能力至关重要，例如通过互联网。特别是，已经大量采用视频通信平台，允许多个参与者之间进行远程视频会话。视频通信以及用于休闲友好对话(“聊天”)、网络研讨会、大型团体会议、工作会议或聚会、异步工作或个人对话等的应用程序已经大受欢迎。

这种通过视频通信会话进行的虚拟远程会议的副作用之一是，并非所有参与者都愿意在小组会议甚至一对一会议中播放自己的视频。一些用户可能觉得他们没有时间让自己在会议上表现得足够好，或者可能出于某种原因而自我意识。其他人可能只是希望让自己以某种增强的方式出现。在某些情况下，用户的视频设置可能会以不讨人喜欢的方式呈现给用户，并且用户希望抵消这种情况。

对于某些用户来说，照明也可能是一个问题。例如，当用户在户外时，视频可能会因为明亮的阳光而显得对比强烈。相反的问题是当用户处于光线不足的环境中时，用户和背景都显得暗淡无光。简单地增加或减少视频的亮度以适应这种情况可能会导致用户的肤色显得不自然且不再准确。因此，用户希望调整视频的照明，就好像光线照射在他们的自然肤色上一样，而不是修改他们的肤色。

一些情况下，用户可能想要这样的配置工具来调整视频的外观呈现。但是，他们可能更喜欢只对自己的外观进行少量修饰，或者只对照明进行少量调整。不仅需要调整或不调整的二元状态，而且需要对外观进行粒度级别的控制。

因此，数字媒体领域需要创建一种新的有用的系统和方法，用于在视频通信会话中提供视频外观调整。问题的根源，由发明者发现的，是缺乏能力的参与者，以精细地调整自己和/或照明的视频内实时的外观，同时保持其自然的肤色。

发明内容

本发明通过向用户提供在视频内调整他们的外观的能力来克服现有问题。用户可以选择一个或多个视频设置选项来修饰用户的外观和/或针对弱光条件调整视频。这些设置包括粒度控制元素，例如滑块，允许用户选择外观调整深度和/或照明调整深度的精确量。系统然后在用户选择调整选项时实时或基本实时地执行用户外观的修改或针对低光照的调整。当用户调整深度时 (例如，通过向左或向右拖动深度滑块)，预览窗口实时或基本实时地反映对视频的改变。这些调整也以保留用户自然肤色的方式进行。

一个实施例涉及一种用于在视频通信会话内提供视频外观调整的方法。首先，系统在视频通信平台的视频通信会话内接收视频内容，视频内容具有多个视频帧。系统然后接收包括调整深度的外观调整请求，并检测用户在视频内容内的图像。系统将视频内容裁剪为仅包括用户的头部区域，然后在裁剪后的视频内容中检测面部区域。该系统将面部区域分割为多个皮肤区域。对于多个皮肤区域中的每一个，系统将皮肤区域分类为光滑纹理区域或粗糙纹理区域。如果皮肤区域被分类为平滑纹理区域，则系统通过对皮肤区域应用平滑处理来实时或基本实时地修改用户的图像，其中应用的平滑量对应于调整深度。

附图说明

本发明总体上涉及数字通信，更具体地，涉及在通信或消息传递平台内提供敏感数据的包含的系统和方法。

从详细描述和附图中可以更好地理解本公开，其中：

图1是图示可以在一些实施例中执行的用于提供视频外观调整的示例性方法的流程图；和

图2是图示视频通信会话内的外观调整UI元素的一个示例实施例的图。

具体实施方式

在本说明书中，详细参考了本发明的具体实施例。在附图中示出了一些实施例或其方面。

图1是图示可以在一些实施例中执行的示例性方法的流程图。

在步骤210，系统在视频通信平台的视频通信会话内接收视频内容。在一些实施例中，视频内容具有多个视频帧。在一些实施例中，视频内容是通过外部设备生成的，例如摄像机或具有内置摄像机的智能手机，然后将视频内容传输到系统。在一些实施例中，视频内容在系统内生成，例如在用户的客户端设备上生成。例如，参与者可能正在使用她的智能手机录制自己演讲的视频。视频可以在智能手机上生成，然后传输到处理系统、本地或远程存储库或某个其他位置。

在步骤212，系统接收外观调整请求，包括调整深度。在一些实施例中，从与用户相关联的客户端设备接收请求。所讨论的客户端设备可以是例如用户的客户端设备150，其中用户是视频会话的参与者。在一些实施例中，用户可能已经在他们的客户端设备上的用户界面内导航到视频设置UI窗口，然后选中“修饰我的外观”复选框或操纵另一个这样的UI元素。在一些实施例中，参与者可以通过例如点击或按住鼠标按钮或输入设备的其他组件、用手指、触控笔或笔轻敲或按住UI元素、悬停来选择UI元素。用鼠标或其他输入设备或任何其他合适的方式选择UI元素。在一些实施例中，在选择UI元素时，滑块元素、子窗口或其他次要UI元素出现，这为参与者提供了精细地调整要对用户的视频执行的视频外观调整的深度的能力。参与者。在选择所需的调整深度后，或者简单地允许默认调整深度而不选择一个(默认深度可以是，例如100％或50％深度)，UI元素的选择被发送到系统(例如，处理引擎102)来处理。

在步骤214，系统检测视频内容内的用户图像。在一些实施例中，经由一种或多种视频处理和/或分析技术检测用户的图像。在一些实施例中，用户图像的检测可由一个或多个人工智能(AI)引擎执行。这样的AI引擎可以被配置为执行与例如机器学习、神经网络、深度学习、计算机视觉或任何其他合适的AI方面或技术相关联的方面或技术。

在步骤216，系统裁剪视频内容以仅包括用户的头部区域。在一些实施例中，系统从视频内容生成新的视频内容和/或新的多个新帧，其中视频内容或帧被裁剪以将用户图像的区域仅隔离到用户的头部。在检测上述用户的图像时，可以使用一个或多个AI引擎来将视频内容或帧裁剪到用户的头部。

在步骤218，系统检测裁剪视频内容内的面部区域。在一些实施例中，如在之前的步骤中，系统可以使用AI引擎的一个或多个方面或技术来检测面部区域。例如，在一些实施例中，深度学习模型可用于面部检测。可以基于例如来自视频内容的裁剪和/或未裁剪图像内的用户面部的大量图像来训练这样的深度学习模型。在一些实施例中，使用一种或多种面部识别算法。

在步骤220，系统将面部区域分割成多个皮肤区域。在一些实施例中，如在之前的步骤中，系统可以使用AI引擎的一个或多个方面或技术将面部区域分割成多个皮肤区域。

在步骤222，对于每个皮肤区域，系统将皮肤区域分类为平滑纹理区域或粗糙纹理区域。在一些实施例中，该分类基于与外观调整请求一起提供的调整深度。调整深度决定了给定皮肤区域与粗糙纹理区域相比是否被归类为平滑纹理区域的阈值

在步骤224，如果给定的皮肤区域被分类为平滑纹理区域，则系统通过基于调整深度对皮肤区域应用平滑处理来实时或基本实时地修改用户的图像.平滑处理具有在脸上可见的某些不规则处看起来平滑的效果，例如皱纹、瑕疵、斑点和皮肤不均匀性。平滑处理还恢复或保留皮肤区域内或邻近皮肤区域的粗糙边缘的纹理。

使用已经选择一个子菜单元素中的UI显示为“视频设置...”。系统通过显示视频设置UI窗口进行响应。UI窗口包括多个可选元素，用于配置视频通信会话的视频设置。选项之一与复选框UI元素402一起显示为“修饰我的外观”。在该元素旁边，显示附加滑块元素404以允许用户根据需要选择调整深度。用户可以选择向左或向右拖动滑块，以对所需的精确调整深度量进行精细控制。

Claims

1.一种通信系统，包括一个或多个处理器，配置为执行以下操作：从音频采集设备接收输入音频信号；

处理输入音频信号以提供具有基于数字信号处理(DSP)技术的噪声抑制的音频信号的第二版本；

将第二版本的音频信号传送至通讯平台以进行实时串流；

通过机器学习算法对音频信号的第二版本是否包含超过噪声阈值噪声进行分类；

基于分类为第二版本的音频信号包含超过噪声阈值的噪声，处理第二版本的音频信号以提供基于人工智能(AI)技术的噪声抑制的第三版本的音频信号；和

将第三版本的音频信号传输至通讯平台。

2.根据权利要求1所述的系统，其特征在于，所述音频信号的第二版本提供对静态噪声的抑制，并且其中所述音频信号的第三版本提供对静态和非静态噪声的抑制。

3.根据权利要求1所述的系统，其中所述噪声阈值由所述机器学习算法确定。

4.根据权利要求1所述的系统，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类包括：

从输入音频信号中提取多个音频特征，其中输入音频信号为原始波形；

将音频特征传输到神经网络；和

通过神经网络分析音频特征，以提供第二个版本的音频信号是否包含超出噪声阈值的噪声的概率。

5.根据权利要求4所述的系统，其特征在于，所述神经网络包括卷积神经网络(CNN)和多层感知器(MLP)中的至少一种。

6.根据权利要求4所述的系统，还包括：

根据提取的音频特征生成频谱图，其中：

将音频特征传输到神经网络包括将频谱图传输到神经网络；以及

通过神经网络分析音频特征包括分析频谱图。

7.根据权利要求1所述的系统，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类包括：

在预定义的时间间隔期满后生成包括分类的标志；和

将标志存储在缓冲器中，其中缓冲器包含在预定义的时间窗口内产生的多个标志。

8.根据权利要求7所述的系统，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类还包括：

确定预定义的时间窗口已经到期；

为存储在缓冲区中的标志生成置信度分数；和

基于置信度分数，确定音频信号的第二版本是否达到或超过噪声阈值。

9.根据权利要求1所述的系统，其特征在于，接收所述输入音频信号和处理所述输入音频信号由与用户相关联的客户端设备执行。

10.根据权利要求1所述的系统，其中，在将所述音频信号的所述第二版本传输到所述通信平台以进行实时流传输之后，实时或基本上实时地执行将所述音频信号的所述第三版本传输到所述通信平台。

11.根据权利要求1所述的系统，还包括：

对第三个版本的音频信号执行一种或多种额外的DSP技术。

12.根据权利要求1所述的系统，还包括：

使用第三版本的音频信号在通信平台上提供实时流。

13.根据权利要求1所述的系统，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类包括执行一种或多种基于特征的分类技术。

14.一种为通信平台内的音频信号提供智能噪声抑制的方法，包括：

从音频采集设备接收输入音频信号；

将第二版本的音频信号传送至通讯平台以进行实时串流；

通过机器学习算法对音频信号的第二版本是否包含超过噪声阈值的噪声进行分类；

将第三版本的音频信号传输至通讯平台。

15.根据权利要求14所述的方法，其特征在于，所述音频信号的第二版本提供对静态噪声的抑制，并且其中所述音频信号的第三版本提供对静态和非静态噪声的抑制。

16.根据权利要求14所述的方法，其中所述噪声阈值由所述机器学习算法确定。

17.根据权利要求14所述的方法，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类包括：

将音频特征传输到神经网络；和

18.根据权利要求17所述的方法，还包括：

根据提取的音频特征生成频谱图，其中：

通过神经网络分析音频特征包括分析频谱图。

19.根据权利要求14所述的方法，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类包括：

在预定义的时间间隔期满后生成包括分类的标志；和

20.根据权利要求19所述的方法，其中对所述音频信号的所述第二版本是否包含超过噪声阈值的噪声进行分类还包括：

确定预定义的时间窗口已经到期；

为存储在缓冲区中的标志生成置信度分数；和