CN114385810A

CN114385810A - 内容分级数据流过滤

Info

Publication number: CN114385810A
Application number: CN202111229147.4A
Authority: CN
Inventors: J·格罗弗; C·A·布兰
Original assignee: Plantronics Inc
Current assignee: Hewlett Packard Development Co LP
Priority date: 2020-10-21
Filing date: 2021-10-21
Publication date: 2022-04-22
Also published as: US20220124407A1; EP3989536A1

Abstract

本申请公开了内容分级数据流过滤。一种计算机实现方法可包括确定要应用于流媒体内容的内容分级级别；从流媒体内容中分离出至少一个流；检测至少一个流不满足内容分级级别；以及响应于至少一个流的至少一部分不满足内容分级级别而阻断至少一个流的至少一部分。

Description

内容分级数据流过滤

背景技术

流媒体内容，包括实时电话会议流，可能会意外地包括不适当的内容。例如，考虑用户经由电话会议连接的场景。用户中的一个或多个用户可能位于其家庭环境或非正式工作环境中。在电话会议期间，当从用户的设备发送实时视频和/或音频流时，用户或与用户在一起的另一个人可能忘记或忽略与电话会议相关联的正式性的级别。例如，用户可能具有不适当的背景对象，个人可能做出猥亵的姿势或使用亵渎的语言，或者用户可能忘记存在实时视频流而将会议设备带到不适当的地方。同时，由于电话会议是实时的，用户或个人的动作和物体立即被捕获并传输给其他与会者。防止流媒体内容中包括不适当的内容是一种挑战。当流媒体内容被实时呈现时，此类挑战是困难的。

发明内容

通常，在一个方面中，一个或多个实施例涉及一种计算机实现方法，包括确定要应用于流媒体内容的内容分级级别；从流媒体内容中分离出至少一个流；检测至少一个流不满足内容分级级别；以及响应于至少一个流的至少一部分不满足内容分级级别而阻断至少一个流的至少一部分。

通常，在一个方面中，一个或多个实施例涉及一种系统，包括处理器和存储器。存储器包括应用，其中应用使用存储器在处理器上执行，并且被配置为：确定要应用于流媒体内容的内容分级级别，从流媒体内容中分离出至少一个流，检测至少一个流不满足内容分级级别；以及响应于至少一个流的至少一部分不满足内容分级级别而阻断至少一个流的至少一部分。

通常，在一个方面中，一个或多个实施例涉及一个或多个非瞬态计算机可读介质的集合，包括用于以下目的的计算机可读程序代码：确定要应用于流媒体内容的内容分级级别；从流媒体内容中分离出至少一个流；检测至少一个流不满足内容分级级别；以及响应于至少一个流的至少一部分不满足内容分级级别而阻断至少一个流的至少一部分。

根据以下描述以及所附权利要求，本发明的其他方面将是显而易见的。

附图说明

图1A和图1B示出了根据所公开的实施例的系统的图。

图2、图3和图4示出了根据所公开的实施例的流程图。

图5示出了根据所公开的实施例的示例。

具体实施方式

现在将参考附图详细描述本公开的具体实施例。为了一致性，各种附图中的相似的元素由相似的附图标记表示。

在本公开的实施例的以下详细描述中，阐述了许多特定细节以提供对本公开的更透彻的理解。然而，对本领域的普通技术人员将显而易见的是，可以在没有这些具体细节的情况下实践本公开。在其他实例中，众所周知的特征并未被详细描述以免不必要地复杂化描述。

在整个申请中，序数(例如，第一、第二、第三等)可以用作元素(即，申请中的任何名词)的形容词。序数的使用不意味着或创建元素的任何特定排序，也不是将任何元素限制为仅仅是单个元素，除非明确公开，诸如，通过使用术语“之前”、“之后”、“单个”和其他此类术语。相反，序数的使用是为了区分元素。作为示例，第一元素与第二元素不同，并且第一元素可以包含多于一个元素并且在元素的排序中继承第二元素(或在第二元素之前)。

通常，视频会议设备防止不适当的内容的传输或呈现。不适当的内容是指检测到的内容不符合内容分级级别。视频会议设备生成或接收流媒体内容，流媒体内容包括一个或多个内容共享流、音频流、视频流等。视频会议设备分析音频和/或视频流以确定流是否包括不适当的内容。不适当的内容可包括不适当的对象的图像和不适当的语音的音频。通过利用人工智能算法处理来自视频流的视频帧来分析视频流，该人工智能算法识别视频流中的对象并识别标识视频流中的对象是否合适。可通过将音频流转录成文本来处理音频数据，过滤文本中的关键字，并利用人工智能算法处理文本中的不适当语音来分析音频流。当在内容的流中识别出不适当的对象或语音时，视频会议设备可使包括不适当的对象或语音的内容的部分或全部内容静音。

视频流可以是来自相机的流或屏幕共享流、屏幕共享内容、来自一个应用窗口的流等。音频流可以是来自麦克风的流、系统输出的音频流、来自一个应用的音频流等。

图1A和图1B示出了根据本公开的实施例的图。图1A示出了端点的示例。图1B示出了端点的部件的示例。图1A和图1B的实施例可以组合，并且可以包括本申请的其他附图中描述的特征和实施例或被包括在本申请的其他附图中描述的特征和实施例中。图1A和图1B的特征和元件单独地和作为组合是对机器学习技术的改进。可以从如图1A和图1B所示中省略、重复、组合和/或改变图1A和图1B中所示的各种元件、系统和部件。因此，本公开的范围不应被视为限于图1A和图1B中所示的特定布置。

转到图1A，图1A示出了用于本公开的示例电路的可能操作环境。具体地，图1A示出了根据本公开的实施例的会议装置或端点(10)。

图1A的会议装置或端点(10)通过网络(55)与一个或多个远程端点(60)通信。端点(10)包括具有音频编解码器(32)的音频模块(30)和具有视频编解码器(42)的视频模块(40)。音频和视频模块(30、40)可操作地耦合到控制模块(20)和网络模块(50)。模块(30、40、20、50)包括专用硬件、由一个或多个处理器执行的软件或它们的组合。在一些示例中，视频模块(40)对应于图形处理单元(GPU)、可由图形处理单元执行的软件、中央处理单元(CPU)、可由CPU执行的软件、处理来自相机组(46)的原始图像数据的图像处理器(也称为图像信号处理器(ISP))、执行模块(30、40、20、50)的应用和其他程序的应用处理器等。在一些示例中，控制模块(20)包括CPU或应用处理器、可执行软件或它们的组合。在一些示例中，网络模块(50)包括一个或多个网络接口设备、CPU、可由CPU执行的软件或它们的组合。在一些示例中，音频模块(30)包括CPU、可由CPU执行的软件、声卡或它们的组合。在一些示例中，相机组(46)包括图像处理器、图像处理软件或它们的组合。在端点(10)上运行的不同处理器、程序和应用可使用由处理器、程序和应用暴露的应用编程接口(API)彼此通信。

端点(10)的控制模块(20)确定要应用于来自流媒体内容的多个设置和/或参与者的流媒体内容的内容分级级别。控制模块(20)分离出形成流媒体内容的各个音频和视频流。控制模块(20)通过检测流的分级级别并将流分级级别(例如，视频流的视频分级级别或音频流的音频分级级别)与内容分级级别进行比较，确定流媒体内容的音频和视频流是否满足内容分级级别。控制模块(20)阻断不满足内容分级级别的数据流的至少一部分数据流。

在本地显示流媒体内容并将流媒体内容发送到远程端点(60)之前，端点(10)可对端点(10)捕获的流媒体内容应用分级级别。端点(10)还可在端点(10)上呈现远程流媒体内容之前，对从远程端点(60)接收的流媒体内容应用分级级别。附加地，流媒体内容可以具有由在端点之间传递内容的外部服务器所应用的分级级别。

通常，端点(10)可以是具有回放能力的处理设备，包括会议设备、视频会议设备、具有音频或视频会议能力的个人计算机、膝上型计算机、移动设备、智能电话或任何类似类型的通信设备。端点(10)被配置为生成近端音频和视频流，并从远程端点(60)接收远端音频和视频流。端点(10)被配置为将近端音频和视频流传输到远程端点(60)，并发起远端音频和视频流的本地呈现。端点(10)还可以被实现为耳机或耳塞，该耳机或耳塞可在没有视频流的情况下处理和播放音频流。

麦克风(120)捕获音频流并将音频流提供给音频模块(30)和音频编解码器(32)以进行处理。麦克风(120)可以是桌面麦克风或天花板麦克风、麦克风盒(microphone pod)的一部分、与端点(10)为整体的麦克风等。还可以提供附加麦克风(121)。在本公开全文中，除非另有说明，否则与麦克风(120)有关的所有描述均适用于任何附加麦克风(121)。端点(10)可将利用麦克风(120)捕获的音频流用于近端音频流。

相机组(46)捕获视频流并将捕获的视频流提供给视频模块(40)和视频编解码器(42)以进行处理，以生成近端视频流。对于由相机组(46)捕获的近端视频流的每个视频帧，控制模块(20)或视频模块(40)可以基于所选的视图将视频帧裁剪到视图区域。通常，视频帧(也称为帧)是视频馈送或视频流中的单个静止图像，视频帧与其他视频帧一起形成在端点之间发送的视频流。

端点(10)使用编解码器(32、42)，以根据编码标准(诸如MPEG-1、MPEG-2、MPEG-4、H.261、H.263、H.264等)对近端音频流和近端视频流进行编码。然后，网络模块(50)经由使用适当的协议的网络(55)将经编码的近端音频流和经编码的视频流输出到远程端点(60)。类似地，网络模块(50)经由网络(55)从远程端点(60)接收远端音频和视频流，并将该远端音频和视频流发送到它们各自的编解码器(32、42)进行处理。最终，扬声器(130)输出(从远程端点(60)接收的)远端音频流，并且显示器(48)输出该远端视频流。在一些实施例中，显示器(48)还输出经校正的近端视频流。

因此，图1A示出了改进的计算机的示例，该改进的计算机将内容分级级别应用于流媒体内容并阻断不满足内容分级级别的流。特别地，图1A的设备可根据下面参考本申请的其他附图进一步描述的方法中的一个方法进行操作。如下文所述，这些方法改进了计算机的功能。端点(10)可以是实现本文所述的方法的计算机。如本文所使用的，计算机是指能够处理指令的任何设备。例如，计算机可以是具有集成微处理器的头戴式设备、会议设备、台式机、膝上型计算机、平板电脑、移动设备等。

图1B示出了具有附加细节的图1A的会议端点(10)的部件。端点(10)包括经由总线(100)耦合的处理单元(110)、存储器(140)、网络接口(150)、和通用输入/输出(I/O)接口(160)。如上所述，端点(10)具有基本麦克风(120)、扬声器(130)、相机组(46)和显示器(48)。

处理单元(110)可包括一个或多个处理器，该一个或多个处理器包括CPU、GPU、应用处理器等。存储器(140)是计算机可读介质，该计算机可读介质可以是任何常规存储器(诸如同步动态随机存取存储器(SDRAM))，并且可以以具有用于控制端点(10)的指令、程序和数据的软件和固件的形式存储模块(145)。所存储的模块(145)包括前文所讨论的各种视频和音频编解码器(42、32)以及其他模块(20、30、40、50)的软件部件。此外，所存储的模块(145)可包括操作系统、使用户能够控制端点(10)的图形用户界面(GUI)以及用于处理音频/视频流的其他算法。

网络接口(150)提供端点(10)和远程端点(60)之间的通信。相比之下，通用I/O接口(160)可提供与本地设备(诸如键盘、鼠标、打印机、头顶投影仪、显示器、外部扬声器、附加相机、麦克风等)的数据传输。

图2、图3和图4示出了根据本公开的一个或多个实施例的方法的流程图。图2示出了基于应用于流媒体内容的内容分级级别来阻断流的过程(200)。图3以更详细的图示出了用于基于分级级别阻断流的过程(300)。图4示出了用于识别内容分级级别的过程(400)。虽然流程图中的各种步骤是按顺序呈现和描述的，但是普通技术人员将理解，步骤中的至少一些步骤可以以不同的顺序执行、可以组合或省略，并且步骤中的至少一些步骤可以并行执行。此外，可以主动地或被动地执行这些步骤。例如，根据一个或多个实施例，可以使用轮询来执行一些步骤或者一些步骤可以是中断驱动的。作为示例，根据一个或多个实施例，确定步骤可以不让处理器处理指令，除非接收到表示条件存在的中断。作为另一个示例，根据一个或多个实施例，可以通过执行测试来执行确定，这些测试为诸如检查数据值以测试该值是否与所测试的条件一致。

转到图2，在步骤202中，由计算机确定要应用于流媒体内容的内容分级级别。内容分级级别识别适于在流媒体内容中的内容的类型。应用于流媒体内容的分级级别识别流媒体内容的流可接受的最小分级级别。内容分级级别可由计算机使用基于链接到流媒体内容的设置和参与者的一组规则自动地确定，然后从储存库中检取。

作为分级级别的示例，“商务专业”的分级可适用于排除裸体和苛刻的语言的商务交流，“非正式”的分级可适用于排除裸体的朋友之间，而“亲密”的分级可能适用于配偶之间。可以使用不同的分级系统，包括电影协会(MPA)电影分级系统。

在一个实施例中，流媒体内容是呼叫的一部分，并且确定内容分级级别可以包括识别呼叫的设置和识别呼叫的参与者。设置可以来自一组呼叫设置、一组设备默认设置、一组用户定义的设置等。每组设置可以识别内容分级级别和触发特定分级级别的规则。例如，当参与者被识别为雇员的经理时，可以触发“商务专业”分级级别。作为另一个示例，当呼叫是在配偶之间时，可触发“亲密”分级级别。作为进一步的示例，如果端点位于商业场所(例如，雇主的办公室)，则可触发“商务专业”分级级别并将该分级级别应用于流媒体内容。可根据呼叫元数据中的信息(呼叫方标识符、被叫方标识符等)和存储在端点上的信息(默认设置、用户指定的设置等)来识别设置。

在一个实施例中，系统可识别指定呼叫的元数据内的内容分级级别的呼叫设置，识别指定了特定内容分级级别的通话参与者，识别用于指定呼叫的内容分级级别的设备默认设置，以及识别指定呼叫的内容分级级别的用户定义的设置。然后，系统可选择用于呼叫的最严格的内容分级级别。

在步骤204中，从流媒体内容中分离出至少一个流。分离出至少一个流是指开始单独地考虑每个流的过程。因此，分离出至少一个流可以涉及或可以不涉及将流媒体内容划分为多个流的活动步骤。流媒体内容可包括一个或多个数据流，数据流中的每个数据流可以是音频流、视频流等。例如，流媒体内容可以包括单个音频流。作为另一个示例，流媒体内容可包括多个视频流和多个音频流。

在一个实施例中，流媒体内容包括从流媒体内容分离的视频流。分离出视频流可包括对经编码的图像序列进行解码以构成视频流。可针对机器学习对象分类过滤器处理来自视频流的图像中的每个图像，以检测视频流中的对象(例如，检测裸体的存在)。

对象可以与分级系统的分级级别对齐，以识别视频流的视频分级级别。可通过利用机器学习算法识别对象的分级级别(对象分级级别)并将对象分级级别分配给视频流作为视频分级级别来执行对齐。分级系统可以有多个级别(“商务专业级”、“非正式级”、“亲密级”等)。例如，如果对象是赤膊的人，则系统可将视频流中对象的分级级别识别为“亲密”，因为图像可包含可与流媒体内容的分级级别矛盾的部分裸体。在一个实施例中，机器学习算法可以是将视频帧作为输入并输出分级级别的神经网络。

在一个实施例中，流媒体内容包括从流媒体内容分离出的音频流。例如，流媒体内容可包括根据H.323标准编码的内容，以及使用AAC-LD压缩标准编码的音频。音频流可被解码以将原始音频数据恢复为与流媒体内容分离的音频流。可针对文本检测过滤器来处理音频流，以检测与音频流中的语音相对应的文本。

从音频流提取的检测到的文本可与分级系统的分级级别对齐，以识别音频流的音频分级级别。可通过利用第一机器学习算法分析文本来执行对齐，以识别文本的分级级别(文本分级级别)，并将文本分级级别分配给音频流作为音频分级级别。分级系统可以有多个级别(“商务专业级”、“非正式级”、“亲密级”等)。例如，如果检测到的文本包括苛刻的语言(例如，某些关键字)，则系统可将文本和音频流的分级级别识别为“非正式”，因为音频流可包含在更严格的分级级别下不可接受的苛刻的语言。在一个实施例中，机器学习算法可以是将文本作为输入并输出分级级别的神经网络。

在步骤206中，系统检测至少一个流是否未能满足内容分级级别。可通过将流的分级级别与内容的分级级别比较来进行检测。

当流媒体内容包括视频流时，系统可确定视频流的视频分级级别超出内容分级级别。例如，视频流可包括具有触发“亲密”视频分级级别的对象的图像，该“亲密”视频分级级别可以超出“商务专业”或“非正式”的内容分级级别。下面进一步提供分级级别(例如，更高或更低级别)之间的关系的示例。

当流媒体内容包括音频流时，系统可确定音频流的音频分级级别超出内容分级级别。例如，音频流可包括触发“非正式”的音频分级级别的语言，该“非正式”音频分级级别可以超出“商务专业”的内容分级级别。

在步骤208中，当不满足内容分级级别时，阻断流的部分。在一个实施例中，选择性地阻断流的部分，使得仅阻断分级级别超出内容分级级别的流的部分。例如，当流媒体内容包括音频流和视频流两者时，当音频流包括分级级别超出内容的可接受分级级别(即，超出内容分级级别)的部分时，音频流可被阻断(静音)，而视频流继续播放。类似地，当视频流包括分级级别超出内容分级级别的部分时，视频流或视频流内的对象可被阻断(涂掉、模糊等)，而音频流继续播放。

在一个实施例中，从流媒体内容阻断在视频流中检测到的对象。可以确定对象在来自视频流的图像中的位置。该系统可阻挡包括并围绕该对象的图像的部分。阻挡对象可以改变流媒体内容的有效分级级别以满足内容分级级别。

在一个实施例中，来自流媒体内容的音频流的一部分被阻断。被阻断的音频流的部分可以是从音频流中去除的单个扬声器的声音。

转到图3，在多个步骤中利用多个框来执行过程(300)。在框302中，发起呼叫。呼叫由端点发起。

在步骤1(框304)中，在呼叫发起之后，过程(300)确定呼叫的内容的可接受分级级别，或该呼叫的“内容分级”。例如，两位商务专业人员之间的呼叫可具有“商务专业”的分级，而两位朋友之间的呼叫可具有“非正式”的分级，而配偶之间的呼叫可具有“亲密”的分级。可以使用不同的内容分级系统，包括电影行业MPAA电影分级系统和视频游戏行业ESRB分级系统。

在步骤2中(框306、308、310和312)，过程(300)使用多种方法中的一种方法来确定呼叫的适当内容分级级别。

在框306中，经由与呼叫系统集成、满足规范或呼叫设置来确定内容分级级别。例如，根据使用该系统的预期用途或法律条款和条件，呼叫系统可以只允许某些类型的分级(例如，“商务专业”)。可以安排会议，并将元数据附加到会议上，以指示内容分级的类型。用户可以特别地指定内容分级级别，诸如在呼叫开始时。

在框308中，经由与呼叫参与者的推断来确定内容分级级别。系统可以从流媒体内容的元数据检索呼叫的参与者中的每个参与者的用户标识符(例如，电子邮件地址)，将用户标识符映射到为每个用户标识符或用户标识符组定义的最小分级级别，并将最严格的分级级别识别为要使用的内容分级级别。过程(300)可以识别关于呼叫参与者的背景(例如，组织结构图级别、参与者关系(例如，已婚)等)，并在参与者加入和离开呼叫时动态调整呼叫参与者的内容分级级别。例如，当公司的首席执行官(CEO)是参与者(例如，利用用户标识符识别，诸如流媒体内容的元数据中的电子邮件地址)，系统可自动地推断内容分级级别为“商务专业”。当与配偶交谈时，系统可自动地推断内容分级为“亲密”。可以使用社交图，包括识别呼叫参与者的状态和参与者之间的关系的组织层次结构或其他元数据。

在框310中，经由设备默认设置确定内容分级级别。可利用可接受内容分级级别的默认设置对设备进行编程。例如，用于企业商务的摄像机可被给予默认的“商务专业”的内容分级级别。

在框312中，经由用户定义的设置确定内容分级级别。设备的用户可以定义本地设置(例如，使用计算机或硬件上的硬件控件，诸如物理按钮)，以便将可接受的内容分级级别应用于设备接收的呼叫。

在步骤3(框314)中，硬件设备接收输入内容并将内容分离为分量流，例如，视频流和音频流。在一个实施例中，(例如，当设备是头戴式设备时)，硬件可仅接收单一模态的输入(即，内容可仅包括音频流)。在一个实施例中，不同的流可以来自不同的输入源，并且硬件不必将组合流分割成单独的分量流。在一个实施例中，过程(300)可在伴随设备(例如，个人计算机或移动电话)上的软件中运行，并且内容的输入流可以已经被分离。分离的输入流以锁时(time-locked)的方式保持(即，保持在时间X处的音频输入的标识和在时间X处的视频输入的标识)，以允许组合或重新组合分量流。

在步骤4(框316、318、320和322)中，处理输入流。可在端点或远程端点或服务器处处理输入流。

在框316中，视频流通过一个或多个对象检测、行为检测过滤器或其他机器学习滤波器。过滤器可以识别视频输入流中显示的视频内容内的对象。

在框318中，视频内容与该内容的分级级别对齐。例如，显示“枪”(经由对象检测来检测)的一系列视频帧可与“非正式”分级对齐；显示裸体的一系列视频帧可与“亲密”分级对齐；仅显示人脸的一系列视频帧可与“商务专业”分级对齐；显示某人脱衣服但甚至连裸体本身都没有的一系列视频帧可与“亲密”分级对齐。

在框320中，音频流通过一个或多个自然语言处理文本检测过滤器或其他机器学习过滤器。在一个实施例中，在端点或服务器的硬件和软件中使用自动化语音识别(ASR)技术来转录音频流。

在框322中，处理输出文本，然后与该内容的分级对齐。例如，包含脏话的文本可与“非正式”的内容分级对齐。

在步骤5(框324、326和328)中，将流媒体内容的输入分量流的分级级别与流媒体内容的可接受内容分级级别进行比较(框324)。如果分量流的分级级别“通过”了流媒体内容的内容分级级别，则(在框328中)允许输入通过并继续到呼叫(在其中传输)。如果内容分级未通过可接受的内容分级阈值，则(在框326中)分量流被“静音”或被阻断传输。分量流可以单独阻断、作为组来阻断、单独部分地阻断等。

在一个实施例中，可仅对在内容分级与可接受的内容分级不匹配的特定输入流的持续时间内，对流媒体内容的至少一部分静音。在一个实施例中，在检测到不可接受的内容之后，可以对流媒体内容静音长达预定的时间段(例如，2秒)。在一个实施例中，检测不可接受的内容可以断开呼叫或使硬件设备为呼叫提供输入断开。

在一个实施例中，使输入流静音的动作可导致暂时不存在从硬件设备传输到呼叫的数据。在一个实施例中，使输入流静音的动作可导致硬件设备向呼叫传输黑屏或通知屏幕，或类似地向呼叫传输音频提示(例如，“用户因内容违规而被静音”)。

在一个实施例中，检测到不可接受的内容(例如，不可接受的视频内容)可同时使音频和视频流静音。在另一个实施例中，检测到经由输入流的不可接受内容可仅使该输入流静音。

不同的内容分级可以对应于指定的数字阈值。更严格的分级(即，具有更多不可接受的内容)可以被赋予更大的数字。在此类情况下，内容的较低(交不严格)分级级别将低于内容的较严格分级级别的数值分级(在数学比较中)。下表提供了分级级别和数值的示例。

分级级别	数值
		亲密	1
非正式	2
		商务专业	3
经批准的法律公开	4

例如，呼叫可具有商务专业的可接受的分级。如果过程(300)将呼叫中的流媒体内容识别为亲密(分级级别1)，则由于识别的分级级别小于最小可接受分级级别(即，1<3)，因此将不会传输该流媒体内容。然而，如果流媒体内容被分级为商务专业(分级级别3)，则流媒体内容将被传输，因为内容的(多个)流的识别的分级级别至少等于呼叫的可接受分级级别(即，3＝3)。类似地，如果系统将该内容识别为经批准的法律公开(分级级别4)，则流媒体内容将被传输，因为识别的分级级别大于可接受的分级级别(4>3)。

转到图4，呼叫中的可接受内容可以在呼叫过程中动态地改变。过程(400)示出了在呼叫开始后的任何时间T处确定当前可接受的内容分级的动态采样。不同的实施方式可具有周期性地(例如，每3秒)运行动态可接受的内容分级确定、临时(基于用户操作)或基于呼叫中的事件(例如，新用户加入呼叫、用户离开呼叫、内容共享)。

在框402中，发起请求以确定呼叫的可接受内容分级级别。可响应于接收到传入呼叫、呼叫上的参与者数量的变化、周期性定时器到期、用户动作等而发起该请求。

在步骤1(框404)中，确定用于测量内容的分级级别的方法。测量方法的确定可以是预确定的或动态的。

在步骤2(框406)中，基于参与者推断来确定内容。关于当前在呼叫中的参与者的数据或元数据用于确定适当的内容级别。参与者推断可基于组织中的参与者角色。例如，如果CEO在场，则分级可以比只有初级员工在场时更严格。

参与者推断可基于呼叫的参与者之间的(商务)关系。例如，如果过程(400)确定仅有的参与者是配偶，那么过程(400)可以推断“亲密”分级。作为另一个示例，如果过程(400)确定参与者是销售人员和潜在客户，则过程(400)可以推断为“商务专业”的分级。此外，如果过程(400)确定参与者是销售人员和具有长期关系的客户(例如，客户关系管理(CRM)数据库包括识别参与者在2年前首次相互联系的数据)，则过程(400)可以推断为“非正式”分级。

参与者推断可基于面部识别对齐。在一个实施例中，过程(400)可对视频流中的每个参与者进行面部识别。在识别了每个人之后，过程(400)可将每个人与角色对齐。对齐可以来自人员、角色和分级级别之间的现有数据库映射。过程(400)可基于为从视频流识别的一组参与者确定的最严格的分级级别来确定可接受的内容分级级别。

参与者推断可基于面部元数据。在一个实施例中，过程(400)可经由机器学习推断参与者的其他特性(诸如年龄或性别)，并且可基于分级级别和面部元数据之间的默认或类别特定映射中的那些数据点来确定可接受的内容分级级别。

在步骤3(框408)中，基于用户指示确定内容分级级别。系统可响应用户直接输入的可接受内容分级。示例包括：用户可按下按钮(硬件或虚拟)；用户可响应提示；用户可指示口头内容更改，例如，通过说“仅限商务专业”；并且用户可基于所说的内容指示内容中可接受的内容分级级别，例如，通过说“让我们保持此对话远离不安全的工作话题”，流程(400)可将其识别为级别3“商务专业”。

在步骤4(框410)中，过程(400)评估呼叫在历史时间段内的最近内容分级水平，并相应地进行调整。例如，如果在最后1分钟内，大多数参与者由于“非正式”内容而被“静音”(当可接受的内容级别先前是“商务专业”)时，系统可确定应当将可接受的内容级别调整为“非正式”。

图5示出了根据本公开的示例。图5示出了来自视频流和音频流的数据的处理。图5的实施例可以组合，并且可包括本申请的其他附图中描述的特征和实施例或被包括在本申请的其他附图中描述的特征和实施例中。图5的特征和元件单独地或作为组合是对视频会议系统的技术的改进。如图所示，可以省略、重复、组合和/或改变图5中所示的各种特征、元件、小部件、部件和接口。因此，本公开的范围不应被视为限于图5中所示的特定布置。

转到图5，系统正在处理视频流和音频流，以用于使内容流向至少一个端点。系统识别流媒体内容的内容分级级别，然后分析流媒体内容的流。不同种类的流媒体内容可并行地同时处理。

在步骤1中，对于视频流，视频帧(502)是从视频流提取的视频帧序列中的一个视频帧。在步骤2中，对于视频流，处理视频流的系统识别视频帧(502)内的对象并生成盒(504)。盒(504)识别对象在视频帧(502)内的位置。可以从视频帧(502)提取对象，并利用机器学习算法来分析对象以识别对象的分级级别。在步骤3中，对象被识别为具有不满足流媒体内容的内容分级级别的分级级别，并且系统生成掩蔽(506)。将掩蔽(506)应用于原始视频帧(502)以生成经修改的视频帧(508)。

在步骤1中，对于音频流，从音频流中提取音频数据(522)。转录音频数据(522)以识别文本(524)。在步骤2中，对于音频流，系统识别对应于音频流中文本(524)的语音的窗口(526)。使用过滤器和机器学习算法对文本进行分析，以识别文本的分级级别。在步骤3中，对于音频流，文本被识别为具有不满足流媒体内容的内容分级级别的分级级别，并且系统使用窗口(526)生成音频掩蔽。音频掩蔽应用于原始音频数据(522)以生成包括静音部分(528)的经修改的音频数据(530)。

经修改的音频和视频数据(530和508)被编码成经修改的音频和视频流，该经修改的音频和视频流被重新组合以形成经修改的流媒体内容。利用用户设备(552)呈现经修改的流媒体内容。

在一个实施例中，可接受的分级级别可控制端点的平移、缩放和跟踪设置和能力。端点可包括相机，并且相机的视频/音频输入能力(诸如平移/缩放)可用于将视频流的分级级别与适当的内容分级级别对齐。“商务专业”内容分级级别可只允许头像拍摄，“非正式”内容分级级别可允许穿着衣服的上身镜头，而“亲密”内容分级级别可能允许额外镜头。

例如，对于适当内容级别为“商务专业”的呼叫，相机可保持放大并跟踪参与者的头部，从而确保传输的内容仅限于商务专业内容(即，参与者的头部)。限制性较低的内容分级级别可允许显示更宽的视图(即，捕获上半身)以允许某人在视频流中穿着正装衬衫，但穿着不适当的短裤或裤子。

在一个实施例中，可以使用端点的平移和缩放设置来执行视频内容的静音或阻断。端点的相机可访问比需要传输的帧更宽的视觉内容帧。当检测到不适当的内容时，可以调整相机的视场以代替将输入静音。可以使用平移/缩放功能改变视场，使得传输的内容仅仅是满足所选内容分级级别的内容。

例如，当家庭成员没有穿适当的衣服(例如，在本实例中，不穿正装衬衫是不适当的内容)在镜头前行走时，新闻记者可能从家中播报新闻。一旦检测到不适当的内容，系统可自动地放大记者，并仅传输报告者的头像(适当的内容级别)。

在一个实施例中，噪声阻断人工智能算法可用于修改音频流而不是使音频流静音。该系统识别不适当的音频内容，不适当的音频内容可通过噪声阻断人工智能算法处理。噪声阻断人工智能算法可被训练以识别和拒绝(衰减)非人类语音的背景噪声和来自不在相机视场内的源的声音。噪声阻断人工智能算法可将一个或多个音频流、识别相机视场的视场参数以及记录了音频流的麦克风相对于相机的位置作为输入。噪声阻断人工智能算法可输出经衰减的音频流，其中与未利用噪声阻断人工智能算法处理的音频流相比，背景噪声和来自视场之外的声音被减少。

当检测到不适当的音频流时，系统利用噪声阻断人工智能算法处理不适当的音频流，并确定经处理的版本是否仍然被评为不适当(要求音频流静音)，或者对音频流应用噪声阻断人工智能算法是否去除了不适当的内容。在一个实施例中，噪声阻断人工智能算法从音频数据识别音频源的物理位置，并使位于与主扬声器不同位置处的其他音频源衰减。

在一个实施例中，噪声阻断人工智能算法采用用户输入来识别音频场宽度和长度。然后，噪声阻断人工智能算法可衰减由用户指定的场宽度和长度之外的音频源，以主动“静音”可能从指定的场宽度和长度之外进入的不适当内容。

尽管已关于有限数量的实施例描述了本发明，但是受益于本公开的本领域技术人员将理解，可以设计出不背离如在此所公开的本发明的范围的其他实施例。因此，本发明的范围应当仅由所附权利要求书来限制。

Claims

1.一种计算机实现的方法，包括：

确定要应用于流媒体内容的内容分级级别；

从所述流媒体内容中分离出至少一个流；

检测所述至少一个流不满足所述内容分级级别；以及

响应于所述至少一个流的至少一部分不满足所述内容分级级别而阻断所述至少一个流的所述至少一部分。

2.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容是呼叫的一部分，并且确定所述内容分级级别进一步包括：

识别所述呼叫的呼叫设置；

识别所述呼叫的参与者；

识别所述呼叫的设备默认设置；以及

识别所述呼叫的用户定义的设置。

3.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容包括视频流，并且分离所述至少一个流进一步包括：

从所述流媒体内容分离出所述视频流作为所述至少一个流的部分；

针对机器学习对象分类过滤器来处理来自所述视频流的视频帧，以检测所述视频帧中的对象；以及

将所述对象与所述内容分级级别对齐，以识别所述视频流的视频分级级别，其中所述视频分级级别与所述内容分级级别相比较以检测所述视频流是否不满足所述内容分级级别。

4.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容包括视频流，并且检测所述至少一个流不满足所述内容分级级别包括：

确定所述视频流的视频分级级别超出所述内容分级级别。

5.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容包括视频流，并且阻断所述至少一个流的至少所述部分进一步包括：

阻断在来自所述流媒体内容的所述视频流中检测到的对象。

6.如权利要求5所述的计算机实现方法，其特征在于，阻断所述对象使所述视频流的视频帧中的所述对象模糊，同时保持所述视频帧的其余部分完好无损。

7.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容包括音频流，并且分离所述至少一个流进一步包括：

从所述流媒体内容分离出所述音频流作为所述至少一个流的部分；

针对文本检测过滤器处理所述音频流以检测文本；以及

将所述文本与所述内容分级级别对齐，以识别所述音频流的音频分级级别，其中所述音频分级级别与所述内容分级级别相比较以检测所述音频流是否不满足所述内容分级级别。

8.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容包括音频流，并且检测所述至少一个流不满足所述内容分级级别包括：

确定所述音频流的音频分级级别超出所述内容分级级别。

9.如权利要求1所述的计算机实现方法，其特征在于，所述流媒体内容包括音频流，并且阻断所述至少一个流的至少所述部分进一步包括：

阻断来自所述流媒体内容的所述音频流的一部分。

10.如权利要求1所述的计算机实现方法，其特征在于，阻断所述至少一个流的所述至少所述部分包括：

与所述流媒体内容断开连接。

11.一种系统，包括：

处理器；

存储器；

所述存储器包括应用，其特征在于，所述应用使用所述存储器在所述处理器上执行，并且被配置为：

确定要应用于流媒体内容的内容分级级别；

从所述流媒体内容中分离出至少一个流；

检测所述至少一个流不满足所述内容分级级别；以及

响应于所述至少一个流的至少一部分不满足所述内容分级级别而阻断所述至少一个流的至少所述部分。

12.如权利要求11所述的系统，其特征在于，所述流媒体内容是呼叫的一部分，并且确定所述内容分级级别进一步包括：

识别所述呼叫的呼叫设置；

识别岁数呼叫的参与者；

识别所述呼叫的设备默认设置；以及

识别所述呼叫的用户定义的设置。

13.如权利要求11所述的系统，其特征在于，所述流媒体内容包括视频流，并且分离所述至少一个流进一步包括：

14.如权利要求11所述的系统，其特征在于，所述流媒体内容包括视频流，并且检测所述至少一个流不满足所述内容分级级别包括：

确定所述视频流的视频分级级别超过所述内容分级级别。

15.如权利要求11所述的系统，其特征在于，所述流媒体内容包括视频流，并且阻断所述至少一个流的至少所述部分进一步包括：

阻断在来自所述流媒体内容的所述视频流中检测到的对象。

16.如权利要求15所述的系统，其特征在于，阻断所述对象使所述视频流的视频帧中的所述对象模糊，同时保持所述视频帧的其余部分完好无损。

17.如权利要求11所述的系统，其特征在于，所述流媒体内容包括音频流，并且分离所述至少一个流进一步包括：

针对文本检测过滤器处理所述音频流以检测文本；以及

18.如权利要求11所述的系统，其特征在于，所述流媒体内容包括音频流，并且检测所述至少一个流不满足所述内容分级级别包括：

确定所述音频流的音频分级级别超出所述内容分级级别。

19.如权利要求11所述的系统，其特征在于，所述流媒体内容包括音频流，并且阻断所述至少一个流的至少所述部分进一步包括：

阻断来自所述流媒体内容的所述音频流的一部分。

20.如权利要求11所述的系统，其特征在于，阻断所述至少一个流的至少所述部分包括：

与所述流媒体内容断开连接。

21.一个或多个非瞬态计算机可读介质的集合，包括用于以下目的的计算机可读程序代码：

确定要应用于流媒体内容的内容分级级别；

从所述流媒体内容中分离出至少一个流；

检测所述至少一个流不满足所述内容分级级别；以及

响应于所述至少一个流的所述至少一部分不满足所述内容分级级别而阻断所述至少一个流的至少所述部分。