CN114071194B

CN114071194B - 可扩展多级协作内容审核技术

Info

Publication number: CN114071194B
Application number: CN202110252594.5A
Authority: CN
Inventors: 钟声
Original assignee: Dayin Network Technology Shanghai Co ltd
Current assignee: Dayin Network Technology Shanghai Co ltd
Priority date: 2020-08-05
Filing date: 2021-03-08
Publication date: 2024-04-23
Anticipated expiration: 2041-03-08
Also published as: EP3952315B1; EP3952315A1; CN116634199A; US10944805B1; CN114071195A; CN114071194A; CN114071195B

Abstract

本发明提出了一种实时通信中的内容审核方法，包括：从发送方用户的发送设备处接收第一段媒体流；由发送设备对第一段媒体流内容进行分类并将其分类为不确定将其发送给接收方用户是否恰当；该发送设备将该第一段媒体流发送至集中式内容审核设备，该集中式内容审核设备对该第一段媒体流是否恰当做出集中鉴定；如果集中鉴定结果表明第一段媒体流是恰当的，则由发送设备向接收方用户发送第一段媒体流；如果集中鉴定结果表明第一段媒体流是不当的，则由发送设备向接收方用户发送经模糊处理后的第一段媒体流。

Description

可扩展多级协作内容审核技术

技术领域

本发明总体上涉及内容审核技术，更具体而言，本发明涉及领域为可扩展多级协作内容审核技术。

背景技术

交互沟通很多时候是在不同的通信渠道中通过不同的媒体类型在线发生的。比如使用视频会议或视频流进行传输的实时通信。视频可包含音频和视频内容。一个用户(即发送方用户)可以将用户生成的内容(如视频)发送给一个或多个接收方用户。比如，可将一场音乐会直播给许多观众观看。又比如，老师可以向学生直播上课。再如，一些用户可进行包含实时视频的实时聊天。

然而，实时流媒体可能会带来一些问题。媒体中可能包含有害的内容，这些内容可能会给接收方带来伤害，尤其是儿童和/或弱势群体。

为限制(如减少或消除)有害内容在人群中传播，采用在实时媒体(如视频)通信中可识别和减轻有害内容的系统和技术是十分必要的。

发明内容

下文将阐述可扩展多级协作内容审核技术的内容、功能、组成部分以及实施方式。

一方面，本发明提出了一种在实时通信中用于内容审核的设备。该设备包括存储器和处理器。处理器被配置为执行存储在存储器中的指令以从发送方用户处接收第一段媒体流；并对第一段媒体流进行分类鉴定，该鉴定类型用于表示向接收方用户传输的该第一段内容是否恰当，其中该类型被分为恰当、不当或不确定，并且其中不确定表示无法确切地认定第一段内容是恰当还是不当。该指令还包括：在得知第一段内容无法确定是否可以传输给接收方用户时随即执行指令用以：将第一段媒体流传输至集中式内容审核设备，其中集中式内容审核设备对第一段是否恰当做出集中鉴定；如集中鉴定结果表明该第一段媒体流内容为不当的，则对第一段进行模糊化处理从而得到模糊后的第一段；然后将模糊后的第一段发送给接收方用户。上述指令还包括：如认定第一段内容是恰当的，则将第一段发送给接收方用户。

第二方面，本发明提出了一种在实时通信中用于内容审核的系统。该系统包括集中式内容审核设备和用户端内容审核设备。该用户端内容审核设备被配置为从发送方用户处接收第一段媒体流；确定将第一段媒体流内容发送给接收方用户是否恰当；在第一种情况下，认定第一段媒体流内容为不当内容，并且确定将媒体流发送给接收方用户是不恰当的，则压缩第一段媒体流从而获得压缩后的第一段。将压缩后的第一段媒体流转发至集中式内容审核设备；从集中式内容审核设备处接收集中式鉴定，该鉴定表明第一段媒体流内容是否恰当；根据集中鉴定结果来决定将第一段还是将模糊后的第一段发送给接收方用户；在第二种情况下，如认定将第一段媒体流发送给接收方用户是恰当的，则将第一段媒体流发送给接收方用户。

第三方面，本发明提出了一种在实时通信中用于内容审核的方法。该方法包括：接收发送方用户的发送设备发送的第一段媒体流；由发送方设备对第一段媒体流进行鉴定，并将其认定为不确定将其发送给接收方用户是否恰当，其中“不确定”这一鉴定类别表明不能明确地认定第一段内容发送给接收方用户是否恰当；该发送方设备将该第一段媒体流发送至集中式内容审核设备，其中该集中式内容审核设备对第一段内容是否恰当做出集中鉴定；如集中鉴定结果表明第一段内容是恰当的，则由发送设备向接收方用户发送第一段；如集中鉴定结果表明第一段内容是不当的，则由发送设备向接收方用户发送模糊后的第一段。

以上个各方面可以采用各种不同的实施方式来实现。例如，可以通过合适的计算机程序来实现以上各方面，这些计算机程序可以在合适的载体介质上实现，该合适的载体介质可以是有形的载体介质(如磁盘)或无形的载体介质(如通信信号)。也可以使用合适的设备来实现各方面功能，该合适的设备可以采取运行计算机程序的可编程计算机的形式，该计算机程序被配置为可实现本发明所述的方法和/或技术。以上各方面也可以组合使用，以使得某一方面技术所述的功能可以在另一方面的技术中实现。

附图说明

本文的描述以附图作为参考，其中在附图中相同的标识指代相同的组件。

图1是一个内容审核(CM)系统示例的示意图。

图2是根据本发明实施例所绘制的一个计算装置的示意框图。

图3是根据本发明实施例所绘制的一个用于实时通信的内容审核(CM)系统示例的示意图。

图4是根据本发明实施例所绘制的用于在用户端设备处进行内容审核的技术的示例图。

图5是根据本发明实施例所绘制的内容审核系统进行内容审核的技术示例图。

图6是根据本发明实施例所绘制的一个实时通信中内容审核(CM)系统示例的示意图。

具体实施方式

如上所述，媒体内容可以从发送方(即发送方用户)发送到接收方(即接收者、接收方用户)。接收方可以是多个同时接收的用户。如上所述，媒体内容可能包括有害内容。

内容审核是一种在发送方和接收方之间加入内容审核(CM)系统(如模块、算法等)的做法，该内容审核系统鉴定所发送的媒体内容是否适合接收方用户接收。如果媒体内容不包含有害内容，则该媒体内容为恰当的。如果媒体内容包含有害内容，则该媒体内容为不当的。在一个示例中，如果媒体内容是恰当的，则可以将媒体内容转发给接收方用户。不同的内容审核系统可能会采用不同的工作流程来处理恰当和不当的内容。在一个示例中，如果媒体内容不当，则可以阻止该媒体内容并且不转发给接收方用户。

为了简洁起见，本文中主要使用视频内容作为媒体内容。但本发明并不限于此，本文所述的技术和系统可以应用于任何媒体类型。

图1是内容审核(CM)系统(即内容审核系统100)的的示例性示意图。内容审核系统100包含发送方用户102和接收方用户104。如上所述，接收方用户104可以是一个或多个接收方用。发送方用户可能想要向接收方用户104发送媒体内容(如视频、图像、文本消息、音频消息等)。

在一个示例中，发送方用户102可以创建一个视频作为用户生成内容(user-generated content，UGC)，发送方用户102将其上传到视频共享服务，接收方用户可以从该视频共享服务处查看该媒体内容。共享服务可以包括集中式内容审核系统(即集中式CM110)，也可以与之通信。在另一个示例中，发送方用户102可能希望将发布内容(可以是视频、音频、文本等)发布到社交网站，该社交网站可以是集中式CM 110，也可以包括集中式CM110。集中式CM 110通常是一个基于互联网的系统(如基于云的系统)。

内容审核系统可以是自动化系统，也可以包含自动化系统。在一个示例中，自动化系统可以是或者也可以包括机器学习(ML)模型，该模型经过训练将内容归类为恰当或不当。在一些示例中，由于训练不足、内容媒体质量差或某些其他原因等，ML模型可能无法明确地认定媒体内容是否恰当。在这种情况下，ML模型会将媒体内容分类为“不确定”。也就是说，ML模型可以标识为“不确定”或以其他标识表示，表明ML模型无法明确地认定(如推断等)媒体内容是恰当的还是不当的。

内容审核系统可以是或者也可以包括人工审核员，他们审核媒体内容以鉴定媒体内容是恰当的还是不当的。在一些示例中，内容审核系统可以既包括自动化系统也包括人工审核员。例如，如果自动化系统无法确定媒体内容的恰当性，则可以将该媒体内容转发给人工审核员进行鉴定。

内容审核系统100包括客户端设备106，用户可以使用客户端设备106来创建(如记录、撰写、生成等)媒体内容。在一个示例中，客户端设备106可以是用户的设备，如移动设备、台式设备等。在一个示例中，客户端设备106也可以是具有诸如图2中所描述的硬件的内部配置的计算机。另外，客户端设备106也可以有其他的实现方式。例如，客户端设备106的运行可以分布在多个设备之间。客户端设备106可以包括媒体处理模块108。如果媒体内容是视频，则媒体处理模块108可以是视频编码器，可用于在上传(如通过网络传输)到集中式内容审核系统110之前对视频进行编码(如压缩)。在传输到集中式内容审核系统110之前对媒体内容进行编码可以节省网络带宽。集中式内容审核系统110或其中的组件或模块可以先解码该视频再进行处理，详见下述。

网络(未示出)可以连接客户端设备106和集中式内容审核系统110。该网络可以是IP网络，如互联网等。该网络可以是广域网(WAN)、虚拟专用网(VPN)、蜂窝电话网络或从客户端设备106到集中式内容审核系统110传输信息(如媒体内容)的任何其他方式。

在集中式内容审核系统110处，内容审核模块112和转发模块114可接收媒体内容。内容审核模块112和转发模块114可以是具有如图2所述的硬件内部配置的一个或多个计算机，也可以是包含在该计算机中的一个部件。如上所述，媒体内容可以是视频内容。视频内容可以包括可视内容、音频内容或两者兼而有之。在一个示例中，可视内容可以是运动的视频内容。在另一个示例中，可视内容可以是静态的或很少发生改变的视频内容。

可视内容中至少有一些图片(如帧)和/或音频内容中至少有一些帧可以被提取/解码并输入到内容审核模块112。例如，可以提取视频内容中每一秒中的一帧(或以其他频率提取)。在另一个示例中，也可以提取媒体内容中的每一帧并输入至内容审核模块112。

如上所述，内容审核模块112可以是或者也可以包含ML模型。如果内容为可视数据，则ML模型可以是或者也可以包含计算机视觉引擎，该计算机视觉引擎可以对可视内容的恰当性的做出分类鉴定。例如，内容审核模块112可以输出一个分类结果，将可视内容归类为恰当、不当或不确定。归类为“不确定”表明内容审核模块112无法明确地认定内容是否恰当。

内容审核模块112也可以包括其他的ML模型，它们分别被训练以对某些媒体类型或某些语义进行分类。例如，可以训练一个ML模型来识别音频媒体中的冒犯性语言和/或词语。在一个示例中，内容审核模块112也可以包括多个ML模型，每个ML模型都经过训练以对不同类型的信息进行分类。例如，可以训练一个ML模型来识别具有暴力行为的可视内容，并训练另一个模型来识别包含性行为的可视内容。

可将从内容审核模块112生成的分类标识发送给转发模块114。如果分类标识表明媒体内容为恰当的，则转发模块114可以将媒体内容转发给接收方用户104。如果分类标识表明媒体内容为不当的，则将根据该分类的类别决定下一步操作。

在一个示例中，转发模块114拦截了媒体内容。也就是说，转发模块114不将媒体内容转发给接收方用户104。在一个示例中，转发模块114可以向发送方用户102发出或让其他设备向其发出关于该媒体内容不当的警告。在一个示例中，转发模块114可以向接收方用户104发送或让其他设备发送通知。在一个示例中，转发模块114可以在将媒体内容转发给接收方用户104之前对媒体内容做模糊化处理。这样，接收方用户就不会看到或听到被模糊化的不当的内容。或者也可能采用其他处理方式，比如多种处理方式的混合使用。

如果分类标识为不确定，则可以将媒体内容(或从中提取的帧)转发给人工内容审核中心116的人工审核员118。人工审核员118在对接收的内容进行审核后，可按照上述分类类别，将指示媒体内容是否恰当的分类结果返回至转发模块114。

图1描绘了一个典型的内容审核系统。但是，基于内容审核系统100所采取的内容审核过程可能会导致实时通信(如视频会议或其他实时流媒体的应用中)的性能降低并且延长通信中的延迟。这是因为在客户端设备106上对媒体内容进行编码、在网络上传输编码的媒体内容、在集中式内容审核系统110上解码媒体内容、由内容审核模块112对媒体内容进行分类并根据分类结果采取行动这一系列过程可能要花费几秒钟时间(如多达5到7秒的时间)。在进行这些操作时如果那些恰当的内容被耽误或者被模糊化处理，那么这种延迟是不可接受的，也会降低用户体验。而另一方面，如果基于内容审核系统100所采取的内容审核对不当内容既不扣留也不做模糊化处理，则可能导致泄漏不当的内容。也就是说，接收方用户可能会收到不当的内容。根据集中式内容审核系统316的策略，这种情况是有可能发生的。

请注意，以上图1将媒体内容作为一个单一内容进行描述，但在实际的实时应用中，媒体流的各部分是以数据流的形式传输，因此需要不断地进行评估。因此，即使发送方和接收方用户可以容忍一至五秒的延迟，但是不断累积的五秒延迟就可能变得无法容忍。因此，图1中所描述的内容审核系统在实时应用中是不可接受的。图3将描述改进后的可用于实时应用的内容审核系统。

图2是根据本发明实施例所绘制的一个计算装置的示意框图。计算设备200可以是包括多个计算设备的计算系统，也可以是一个计算设备，如移动动电话、平板电脑、膝上电脑、笔记本电脑、台式计算机等等。

计算设备200中的处理器202可以是常规的中央处理器。处理器202也可以是能够操纵或处理现存或今后开发的信息的其他类型的设备或多个设备。例如，尽管本文示例中可以用所示的单个处理器(如处理器202)来实现，但是如果使用多个处理器将可体现速度和效率方面的优势。

在一个实现中，计算设备200中的存储器204可以是只读存储器(ROM)设备或随机存取存储器(RAM)设备。而其他恰当类型的存储设备也可以用作存储器204。存储器204可以包含由处理器202使用总线212访问的代码和数据206。存储器204还可以包含操作系统208和应用程序210，其中应用程序210包含至少一个程序，该程序允许处理器202执行本文所述的一个或多个技术。例如，应用程序210可以包括应用程序1到N，该应用程序1到N中包含在实时通信的内容审核中可用到的应用程序和技术。计算设备200还可以包括辅助存储设备214，比如与移动计算设备一起使用的存储卡。

计算设备200还可以包括一个或多个输出设备，如显示器218。在一个示例中，

显示器218可以是显示器与可操作触摸输入的触敏元件组合而成的触敏显示器。显示器218可以通过总线212耦合到处理器202上。也可以使用其他允许用户编程或使用计算设备200的输出设备作为显示器218之外的附加或替代输出设备。如果输出设备是显示器或包含显示器，则该显示器可以以各种方式实现，包括液晶显示器(LCD)、阴极射线管(CRT)显示器或发光二极管(LED)显示器，如有机LED(OLED)显示器等。

计算设备200还可以包括图像传感设备220(如相机)，或者包括现存或以后开发的可以感测图像(如一幅用户操作计算设备200的图像)的任何其他图像传感设备220，或者与上述图像传感设备220通信。可将图像传感设备220摆放至面对操作计算设备200的用户的位置。在一个示例中，可以配置图像传感设备220的位置和光轴，使得视场范围包括与显示器218直接相邻并且可见到显示器218的区域。

计算设备200还可以包括声音传感设备222(如麦克风)，或者包括现存或以后开发的可以感测设备200附近的声音的任何其他声音传感设备222，或者与上述声音传感设备222通信。可将声音传感设备222摆放至面对操作计算设备200的用户的位置，并可以对其进行配置使其接收声音，并且可以被配置为接收声音，比如用户操作计算设备200时由用户发出的声音，如语音或其他声音。计算设备200还可以包括声音播放设备224或与之通信，如扬声器、头戴式耳机或现存或以后开发的可以根据计算设备200指令播放声音的任何其他声音播放设备。

图2仅描绘了计算设备200的处理器202和存储器204被集成到单个处理单元中的情况，除此之外也可以采用其他配置。处理器202的操作可以分布在多个机器(每个机器包含一个或多个处理器)上，这些机器可以直接耦合或跨局域或其他网络耦合。存储器204可以分布在多个机器上，例如基于网络的存储器或运行计算设备200的操作的多个机器中的存储器。本文仅描述了单个总线的情况，除此之外计算设备200的总线212也可以由多个总线组成。此外，辅助存储器214可以直接耦合到计算设备200的其他组件，也可以通过网络访问，或者也可以包括诸如存储卡的单个集成单元或诸如多个存储卡的多个单元。因此，计算设备200可以通过各种各样的配置实现。

如上所述，根据图1所述进行配置的内容管理系统可能会导致不可接受的延迟和实时通信中的延迟。在非实时内容传输系统中，在发送方用户将UGC上传到内容共享系统与接收方用户查看UGC之间可能存在一段缓冲的时间。在该时间缓冲期间，可以自动地、手动地或两者兼而有之地对UGC进行审核(如评估、检查)，以确定媒体内容或其中的部分是否恰当。在非实时通信中，这一时间缓冲区可以是数分钟、数小时、数天或更长时间。而实时通信中则不存在这样的时间缓冲区。在实时通信中，参与者希望像面对面一样交流通信，因此低延迟变得至关重要。

在一些配置中，可能会在客户端设备处对媒体流的第一段先进行模糊化处理，然后客户端设备才从集中式内容审核系统处获得关于第一段媒体流是否恰当的鉴定。如果第一段内容为恰当的，则客户端设备可以在将第二段发送给接收方用户之前取消对第二段的模糊化处理。因此，接收方用户接收到的第一段被模糊化处理是没有必要的。如果集中式内容审核系统认定第一段内容为不当，则客户端设备可以继续模糊第二段。

另外，在这种配置中，不当的内容可能会被泄漏给接收方用户。例如，恶意的发送方用户可能先发送第一段媒体流，而集中式内容审核系统认为该部分内容是恰当的。因此，客户端设备发送的第二段内容未进行模糊化处理。但是，恶意的发送方用户可能会故意在第二段媒体流中包含不当的内容。因此，接收方用户会接收到未模糊的媒体流第二段的不当内容。

图3是根据本发明实施例所绘制的一个用于实时通信的内容审核(CM)系统示例的示意图。该内容审核系统300弥补了上述内容审核中的不足之处。

内容审核系统300示出了参与实时通信的发送方用户302和接收方用户304。接收方用户可以是多个接收方用户。例如，发送方用户302和接收方用户304可以是视频会议的参与者。因此，双方用户都可以既是发送方也是和接收方用户。例如，发送方用户302可以向接收方用户304发送实时流媒体内容。更具体而言(图3中并未特别指出)，接收方用户304在设备(如移动设备、台式设备、电视机等)上接收媒体内容，该用户可以通过该设备实时地享用(如观看、阅读、收听等)该媒体内容。

内容审核系统300包括客户端设备306和集中式内容审核(CM)系统(即集中式内容审核系统316)。在一些配置中，内容审核系统300还可以包括人工审核322。客户端设备306可以是一个或多个计算设备，如图2中的计算设备200。客户端设备306可以是移动设备、台式设备或任何此类设备。客户端设备306可以包含本地内容审核模块308、调整模块310、模糊模块312和实时通信(RTC)模块(即RTC模块314)。在一些配置中，内容审核模块308、调整模块310、模糊模块312或RTC模块314中的一个或多个可以安装在除客户端设备306之外的一个或多个其他本地设备上。“本地设备”是指与客户端设备306位于同一局域网(LAN)上的设备。因此，客户端设备306与此类其他本地设备之间的访问延时可以忽略不计。

不妨举一实例说明：发送方用户302可以使用客户端设备306上的相机、麦克风或两者同时使用来捕获视频和/或音频内容并实时发送数据流至接收方用户304。

媒体内容(如媒体流)可以同时被调整模块310和模糊模块312接收。更具体而言，将媒体内容一段一段地捕获并分段进行实时流发送。因此，随着实时流的推进，媒体内容被分成多个分段，这些分段随着时间的推移被逐一接收和处理。因此，媒体内容可以包括第一段和在第一段之后的第二段。

调整模块310可以创建第一段的压缩版本(即压缩后的第一段)。压缩后的第一段是第一段的较低分辨率版本。举例说明，可以以高清像素1080p捕获第一段，而压缩后的第一段可以是标清像素480p。与未压缩的第一段相比，第一段可以按比例压缩，以便使用较少的带宽来传输到集中式内容审核系统316。在一个示例中，如果第一段的分辨率没有超过阈值分辨率，则调整器可以不对第一段进行压缩。在一个示例中，调整模块310可以将第一段调整为本地内容审核模块308和/或集中式内容审核系统模块318被训练使用的图像分辨率。调整模块310将压缩后的第一段转发到本地内容审核模块308和RTC模块314。在一个示例中，本地内容审核模块308也可以接收未经压缩的版本。

本地内容审核模块308可以是一个ML模型，该模型用于鉴定第一段是否包括有害内容。下文将详述ML模型的配置。本地内容审核模块308可以在功能上类似于图1的内容审核模块112和集中式内容审核模块318，详见下述。但是，由于本地内容审核模块308可以在用户设备(即客户端设备306)上运行，而该用户设备的功能不如运行集中式内容审核模块318的的集中式(如基于云的)服务器，因此本地内容审核模块308的ML模型会比集中式内容审核模块318的ML模型小一些。与集中式服务器相比，客户端设备306的计算容量、功耗容量、存储容量和存储容量都较为受限。

例如，集中式内容审核模块318的ML模型在识别部分媒体内容是否恰当时可以达到99％的准确度，而本地内容审核模块308的ML模型提供的准确度为95％，但这一比例仍然是相当显著的，它使得在客户端设备306处能正确识别(如分类、归类、标识等)较高比例的内容。通常来说，本地内容审核模块308的ML模型比集中式内容审核模块318低大约两个量级(例如：大于一百倍)。不妨举个实例说明：如果集中式内容审核模块318的ML模型包含3000万个参数，那么本地内容审核模块308大约可包含500,000个参数或者更少。

本地内容审核模块308可以输出由本地内容审核模块308接收的媒体段的分类标识。该分类标识指出该媒体段是恰当的、不当的还是不确定的。在本文中，“不是恰当的”或“不适合”一词表示分类标识为“不当”或“不确定”其中之一。本地内容审核模块可能会检查媒体段的每一帧或这些帧的一个子集，然后得出该媒体段的分类标识。例如，本地内容审核模块308可能对媒体段的每一秒检查其中一帧、两帧或多帧。

RTC模块314可以是编码器或者也可以包括编码器，该编码器对从发送方用户302发送到接收方用户304的媒体流进行编码。在一个示例中，RTC模块314也可以包括一个或多个其他模块。例如，RTC模块314可以包括一个或多个预处理模块，用于降低噪声、添加虚拟背景、向发送方用户302的人脸图像添加滤镜或美颜等等。

实时传输协议(RTP)可用于在网络上传输经编码的媒体内容。在另一个实现中，可以使用除RTP之外的其他传输协议(如基于超文本传输协议(基于HTTP)的流传输协议)。例如，客户端设备306可以通过WebRTC将媒体内容发送到接收方用户304，WebRTC向网页浏览器和移动应用程序提供实时通信。但是本发明的内容并不限于此，而是可以使用任何其他实时传输协议。

模糊模块312根据从本地内容审核模块308接收到的输入来决定是否对媒体段进行模糊化处理。如果本地内容审核模块308认定媒体的该段内容为恰当的，则模糊模块312不对该段做模糊化处理，并将该媒体段发送至RTC模块314以进行传输。而另一方面，如果本地内容审核模块308认定媒体的该段内容为不当的，则模糊模块312对该媒体段进行模糊化处理以生成模糊的媒体段。然后被模糊的媒体段被传送到RTC模块314，再传输至接收方用户304。如果本地内容审核模块308无法确切地认定该部分媒体是恰当的还是不当的，则模糊模块312依据预配置策略来决定是否对该媒体段进行模糊化处理。如果该策略被配置为第一策略(如“允许型”或类似策略)，则模糊模块312对被本地内容审核模块308标识为“不确定”的媒体段不做模糊化处理。如果该策略被配置为第二策略(如“限制型”或类似策略)，则模糊模块312对被本地内容审核模块308标识为“不确定”的媒体段做模糊化处理。如果该策略被配置为第三策略(如“复查型”或类似策略)，则可将压缩后的媒体段转发到集中式内容审核模块318进行鉴定。在一个示例中，该策略可以被配置为“限制型”策略，使得模糊模块312在等待来自集中内容审核模块318的分类结果的同时，继续模糊媒体的后续部分。

在一个示例中，如果本地内容审核模块308将媒体段分类为不确定，则可以将相应的压缩部分转发到集中式内容审核模块318进行鉴定。集中式内容审核模块318可以将其标识为恰当或不当并返回给模糊模块312，然后如上所述决定是否继续模糊或不模糊该媒体段。因此，当本地内容审核模块308将媒体段分类为不确定时，模糊模块312就会依据集中式内容审核模块318得出的分类标识进行操作。

如果集中式内容审核模块318也将媒体段分类为不确定，则集中式内容审核模块318可以在人工审核322处将媒体段转发给人工审核员324。审核员324将向模糊模块312返回分类结果标识为恰当或不当。在一个示例中，模糊模块312在接收到恰当的或不当的分类结果前(无论是来自本地内容审核模块308、集中式内容审核模块318还是人工审核员324)将扣留该媒体段。在另一个示例中，模糊模块312仅扣留一段预定的时间。预定时间段可以是1秒、2秒、3秒或其他秒数。如果在模糊模块312接收到媒体段之后的预定时间段内，模糊模块312仍未接收到媒体段的分类结果，则模糊模块可以根据预先配置的限制性或宽松策略进行操作。

如果本地内容审核模块308将媒体的第一段分类为不确定，则可以在从集中式内容审核模块318或人工审核员324处接收到分类结果之前先对第一段进行模糊化处理，这样客户端设备306将对最坏的结果(即被鉴定为不当)做好预先准备。此时可以采取“限制型”策略。因此，当模糊模块312接收到的分类结果为不当时，模糊模块312不需要再进行模糊化处理从而增加延迟时间。然而，在一些实施方式中，只有在接收到分类结果为不当之后，模糊模块312才会对第一段进行模糊化处理。

基于用于内容审核的计算机视觉识别算法的ML模型可能并不是100％的准确。也就是说，可能会误报为恰当或不当。此时如果用户认为该段媒体内容被错误地阻止或模糊，则发送方用户可以向集中式内容审核模块318提出上诉(即发送报告)。同样，接收方用户也可以将接收方用户认为不当但并未被拦截或模糊的媒体内容报告给集中式内容审核模块318。在这种情况下，集中式内容审核模块318将把媒体内容中可能存在错误分类的媒体段转发给人工审核员324做进一步鉴定。更具体而言，被压缩的媒体流分段将被转发给人工审核员324。

在一个示例中，如图3所示，客户端设备306通过集中式内容审核系统316的转发模块320将媒体流(即媒体流中被模糊或未被模糊的部分)发送至接收方用户。也就是说，媒体段是从客户端设备的转发模块320上发送，并传输到接收方用户304。在另一个示例中，发送方用户和接收方用户之间的通信也可以是直接互传。也就是说，可以在接收方用户304的设备处直接接收由发送方用户的客户端设备306发送的媒体段。

集中式内容审核系统316可以是托管服务，可以从一个用户处接收媒体流内容以传递给其他用户。例如，托管服务可以是视频会议服务，从多个发送方用户处接收媒体流内容，在多个流中创建单个流，并将该单个流发送给多个接收方用户。每个接收和发送方用户可以同时既是发送方又是接收方用户。但本发明中的托管服务并不限于此。

再重申一下，如图3所述的针对实时通信的内容审核的解决方案，是通过本地内容审核模块(如图3中的本地内容审核模块308)在发送方设备端执行内容审核。例如，本地内容审核模块可以从输入视频流中(如从视频流的一段中)获取视频帧和/或音频帧，并相应地检测视频流的该段内容是否恰当。如果内容恰当，则该段视频流不会被模糊或拦截。然后将对该段视频流进行处理(如预处理、编码等)并正常发送。如果该段视频流内容不恰当，则立即将该段视频流进行模糊化处理或拦截，使得接收方将只能看到该段视频流模糊或空白版本。

当本地内容审核模块将该段分类为不确定时，该段可以暂时被模糊或拦截。然后，通过诸如图3的调整模块310，按比例压缩该媒体段。然后，可以对压缩的媒体段进行处理并将其传输到集中式内容审核模块，如图3中的集中式内容审核模块318，进行二级检测(如分类、评估、检查等)。如上所述，集中式内容审核模块318可以是基于云的内容审核系统。

如上所述，因为集中式内容审核模块可能采取更复杂的算法，所以集中式内容审核模块算法可以比本地CM算法更准确。如果集中式内容审核模块认为一个媒体段为恰当的，则集中式内容审核模块将示意发送设备(如客户端设备中的模糊模块)，可以关闭对视频段的模糊化处理，并将该段媒体流发送到接收方用户。如果集中式内容审核模块认为一个媒体段为不当的，则集中式内容审核模块318也会相应地示意发送端设备，而该客户端设备(如客户端设备中的模糊模块)可以继续对视频进行模糊化处理。

如果集中式内容审核模块无法确定该段媒体内容是恰当的还是不当的，则可以将被压缩的视频段发送给人工审核员，人工审核员将分类结果发送回发送设备(如客户端设备中的模糊模块)，再依此采取适当的措施。

本地内容审核模块在大多数情况下可以正确地鉴别媒体流的分段(鉴定为恰当或不当)。例如，如上所述，一个经过适当设计的基于现代深度学习的CM算法可以实现95％以上的准确度。因此，可以在发送客户端设备(即发送方用户的设备)上或附近立即识别并处理大部分不当或恰当的内容，而不会产生延迟。这样可以避免检测到的不当内容被泄漏出去。此外，在客户端设备处进行内容审核使得由本地内容审核模块鉴定的恰当和不当的内容可以不被延迟地传输(即被发送到接收方用户)，从而显著改善了实时通信的用户体验。

在极少数情况下，如果本地内容审核模块无法确切地鉴定媒体内容(即将该段标识为不确定)，则可以按比例压缩该媒体段，并可以将压缩的媒体段传输到集中式内容审核模块做进一步审核，同时可以暂时模糊或拦截正常的视频。压缩媒体段可以节省网络带宽和服务器的计算负载(集中式内容审核模块在此运行)，因为压缩的视频和模糊的视频所需的编码和传输比特率要小很多。压缩的媒体段并不会影响集中式内容审核模块的有效性，因为基于现代深度学习的计算机视觉识别算法可以在较小的图片尺寸(如224×224像素或240×240像素)上运行。请注意，实时视频通信中的视频尺寸通常会更大一些，比如达到640×360像素或1280×720像素。压缩的视频可以压缩到集中式内容审核模块所需的确切大小。

如上所述，如果本地内容审核模块308将媒体段标识为不确定，则可以将相应的压缩部分转发到集中式内容审核模块318进行鉴定。在一个示例中，如果本地内容审核模块308将媒体段标识为不确定，则相应的压缩部分可以由RTC模块314转发给集中式内容审核模块318进行鉴定，如图3中的箭头326所示。在另一示例中，如果本地内容审核模块308将媒体段标识为不确定，则相应的压缩部分可以由RTC模块314转发到转发模块320，转发模块320再将相应的压缩部分转发集中式内容审核模块318进行鉴定，如图6中箭头602所示。

图6是根据本发明实施例所绘制的一个实时通信中内容审核(CM)系统示例的示意图。图6与图3中相同标记表示相同的组件，此处不再赘述。在图3中，相应的压缩部分被RTC模块314转发到集中式内容审核模块318以进行鉴别，如图3的箭头326所示。在图6中，相应的压缩部分被RTC模块314转发到转发模块320，转发模块320又将相应的压缩部分转发到集中式内容审核模块318以进行鉴别，如箭头602所示。

图4是根据本发明实施例所绘制的用于在用户设备处进行内容审核的技术的示例图。方法400可以由用户设备来实现，该用户设备可以是图3的客户端设备306。可通过图3的本地内容审核模块308、调整模块310、模糊模块312和/或RTC模块314中的一个或多个来部分或全部地实现方法400。可通过计算设备(如图3中的计算设备200)来实现方法400。可以将方法400作为可执行指令存储在存储器中(如图2中的存储器204)。可执行指令可以由处理器(如图2中的处理器202)执行，以实现(如运行)方法400的各个步骤。方法400也可被实现为一个或多个硬件模块，该模块被配置为执行方法400的一个或多个步骤。

方法400可以用于在实时应用中进行内容审核。如上所述，用户希望在实时通信中没有延迟。而同时用户也希望接收方不要接收到任何不恰当的视频、音频或其他媒体类型。

在402处，方法400从发送方用户处接收到第一段媒体流。发送方用户可以是如图3中的发送方用户302。在404处，方法400得出(如获得、计算、推断等)分类结果，该分类表明将第一段发送给接收方用户是否恰当。在一个示例中，该分类结果可以是恰当、不当或不确定。在一个示例中，媒体流的第一部分可被划分为不适合向接收方发送；确定该媒体流的第一部分不适合发送等价于不确定该部分适合发送；例如，如上所述，用户设备(即发送设备)的本地内容审核模块确定第一部分为不当或不确定。由此，确定不适合将媒体流的第一部分发送给接收方包括确定媒体流的第一部分内容是不当的或是不能确定媒体流的第一段部分是恰当的或不当。

不确定这一分类结果表明不能确切地认定该第一段是适合还是不适合发送给接收方用户。在一个示例中，此类鉴定可以包括或可以意味着接收到一个确定性的百分比(如置信度等)并将该百分比映射到相应类别。因此，在一个示例中，可以将获得的确定性百分比与确定性的阈值(如85％或某个其他确定性的阈值)进行比较。如果确定性达不到确定性的阈值，则将第一段认定为不属于该类别。当第一段既不属于恰当类别也不属于不当类别时，可以分类为不确定。确定性阈值可能并未明确地与不确定之一类别相关。当无法将媒体流的一段分类为恰当或不当时，就可以将其分类为不确定。

在406处，方法400确定第一段媒体流是否被认定为不确定。如果认定第一段为不确定，则方法400转到操作408；否则，将转到414。在414处，方法400可以确定第一段被分类为恰当还是不当。在认定第一段媒体流为恰当(即归类为恰当)后，方法400随即将第一段发送给接收方用户。另一方面，在认定第一段媒体流为不当后，方法400随即将经过模糊化处理的第一段发送给接收方用户。

在408处，方法400对第一段媒体流进行模糊化处理从而获得模糊后的第一段。例如，可采用发送设备的模糊模块(如图3中的模糊模块312)对第一段媒体流进行模糊化处理。在一个示例中，方法400也可以不对第一段进行模糊化处理。而是等到方法400确定需要将第一段进行模糊化处理再传输到接收方用户时才对第一段做模糊化处理，如下文412相关所述。由此，方法400可以执行按需模糊。

在410处，方法400将第一段媒体流发送到集中式内容审核设备。集中式内容审核设备可以是图3中的集中式内容审核系统316。因此，更具体而言，在一个示例中，方法400将第一段媒体流发送到集中式(如基于云的)内容审核模块，如图3中的集中式内容审核模块318。集中式内容审核设备对第一段是否恰当做出集中鉴定。在一个示例中，如图3所述，可以在410处发送经压缩后的第一段。如图3所述，调整模块可以用于压缩第一段以获得压缩后的第一段，然后将其发送到集中式内容审核设备。在一个示例中，压缩的第一段可以如图3所述被传输到集中式内容审核设备。在另一个示例中，压缩后的第一段可以如图6所述被传输到集中式内容审核设备。

在412处，方法400根据集中鉴定结果来确定是发送第一段还是发送模糊后的第一段。由此，如果集中鉴定结果表明媒体内容的第一段是不当的，则方法400将模糊后的第一段发送给接收方用户。而如果集中确定表明媒体内容的第一段是恰当的，则方法400将第一段发送给接收方用户。如上所述，在确定要将模糊后的第一段发送给接收方用户之前，可以先不对第一段执行模糊化处理。

如图3所述，向接收方用户发送模糊后的第一段(或第一段)可以包括将模糊后的第一段(或第一段)发送到转发设备，该转发设备将模糊后的第一段(或第一段)发送给接收方用户。该转发设备可以是图3的转发模块320，也可以包括或类似于该模块。

在一个示例中，方法400可以包括：当方法400无法确定第二段媒体流是否恰当的时候，根据对第一段的集中鉴定结果来决定是否对第二段媒体流进行模糊化处理。也就是说，如果认定第二段媒体流不是恰当的，则方法400将根据第一段的集中鉴定结果来决定是否对第二段媒体流进行模糊化处理。如图3所述，为了不耽误第一段的发送，当在预定时间段内未返回集中确定的结果时，发送设备可以根据预先配置的策略来发送第一段。对于媒体流中紧随第一段之后的第二段，方法400可以使用对第一段的集中鉴定结果来决定是否对第二段进行模糊化处理。因此，方法400可以包括：如果集中鉴定结果表明第一段为恰当的，则在将第二段发送给接收方用户之前不对第二段进行模糊化处理。方法400还可以包括：如果集中鉴定结果表明第一段为不当的，则在将第二段发送给接收方用户之前对第二段进行模糊化处理。

根据媒体内容的类型不同，模糊化处理的含义也不尽相同。广义上，模糊意味着使接收方用户看不到或听不懂媒体内容。例如，第一段媒体流可以包括可视部分和音频部分。而对第一段媒体流进行模糊化处理从而获得模糊后的第一段可以包括使可视部分模糊以获得模糊的可视部分以及使音频部分失真以获得失真的音频部分。

图5是根据本发明实施例所绘制的内容审核系统进行内容审核的技术示例图。内容审核系统可以包括集中式内容审核设备和用户端内容审核设备。集中式内容审核设备可以是如图3中的集中式内容审核系统316。用户端内容审核设备可以是如图3中的客户端设备306。

方法500可以用于在实时应用中进行内容审核。如上所述，用户希望在实时通信中没有延迟。而同时用户也希望接收方不要接收到任何不当的视频、音频或其他媒体类型。

在502处，用户端设备接收来自发送方用户的第一段媒体流。如上所述，客户端设备(如客户端设备的本地内容审核模块，如图3中的本地内容审核模块308)将第一段分类为不确定、恰当或不当。在504处第一种情况是当第一段媒体流被分类为不确定是否可以发送给接收方用户，则方法500转到操作506；否则，方法500转到操作516。

在506处，客户端设备(如模糊模块，例如图3中的模糊模块312，或客户端设备可访问的模糊模块)将第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流。在一个示例中，在流程500决定将第一段的模糊版本发送到接收方用户之前，方法500可以不执行操作506。因此，可根据需要(即在需要时)执行模糊化处理。在508处，客户端设备(如调整模块，例如图3中的调整模块310，或者客户端设备可访问的调整模块)将第一段媒体流进行压缩调整从而获得压缩后的第一段媒体流。在510处，客户端设备(如本文所述实时通信模块，例如图3中的RTC模块314)将压缩后的第一段媒体流转发到集中式内容审核设备。在一个示例中，压缩后的第一段可以被传输到集中式内容审核设备，如图2所述。在一个示例中，压缩后的第一段可以按照图6所述操作被传输至集中式内容审核设备。

在512处，用户端设备(如用户端设备的模糊模块)从集中式内容审核设备(如图3中的集中式内容审核模块318)处接收关于第一段媒体流是否为不当的集中鉴定。在514处，客户端设备根据集中鉴定结果决定将第一段还是将模糊后的第一段发送给接收方用户。如果尚未生成模糊后的第一段，则此时方法500可以执行操作506。

在516处，如果客户端设备(如本地内容审核模块)认定第一段媒体流发送给接收方用户是恰当的，则在518处，客户端设备向接收方用户发送第一段媒体流；否则，方法500将转到操作520。在520处，第一段肯定已经被分类为不当。因此，方法500将模糊后的第一段发送到媒体流。因此，如果方法500尚未获得模糊后的第一段，则方法500可以对第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流。因此，在确定第一段内容为不当后，方法500将对第一段进行模糊化处理从而获得模糊后的第一段；并将模糊后的第一段发送给接收方用户。

在一个示例中，用户端内容审核设备可以压缩第二段媒体流以获得压缩后的第二段媒体流，并将压缩后的第二段媒体流转发到集中式内容审核设备。

在一个示例中，关于第一段媒体流是否为不当的集中鉴定结果表明第一段内容为不当的，而集中式内容审核设备可能会从发送方用户处接收到报告，声明集中鉴定结果是错误。在一个示例中，关于第一段媒体流是否为不当的集中鉴定结果将第一段内容标识为恰当，而集中式内容审核设备可能会从接收方用户处接收到报告，声明集中鉴定结果是错误。

在一个示例中，集中式内容审核设备可以将压缩后的第一段媒体流转发给人工审核员，该审核员对压缩后的第一段媒体流是否恰当做出鉴定。

简要回顾一下图3，在一个示例中，本地内容审核模块308和集中式内容审核模块318所述的机器学习模型分别可以是深度学习卷积神经网络(CNN)。在CNN中，特征提取部分通常包括一组卷积运算，该组卷积运算一般由一系列滤波器组成，根据滤波器(不妨假设通常为大小为k的平方)对输入数据(如图像)进行滤波。例如，在机器视觉的应用中，这些滤波器可用于查找输入图像中的某些特征。这些特征可以包括例如边缘、拐角、端点等等。随着多层堆叠卷积运算的增加，之后的卷积运算将可以找到更高级别的特征。

在CNN中，分类部分通常是一组完全连接的层。可以将完全连接的层视为对图像所有输入特征进行检查，以便生成高级的分类器。经过几个阶段(如一系列)的高级分类器最终会生成理想的分类输出。

如上所述，典型的CNN网络由许多卷积运算(如特征提取部分)和随后的许多全连接层组成。通常在机器学习的训练阶段会确定每种类型的运算数目及其各自的大小。如本领域技术人员所熟知的，也可以在每个部分中包含附加的层和/或操作。例如，可以将池化(Pooling)、最大池化(MaxPooling)、随机失活(Dropout)、激活(Activation)、归一化，批量归一化(BatchNormalization)及其他运算的组合与卷积运算(即在特征提取部分的运算)和/或全连接运算(即在在分类部分的运算)一起联合使用。全连接层可被称为密集连接层。如本领域技术人员所熟知的，卷积运算可以使用SeparableConvolution2D或Convolution2D运算。

卷积层可以是一组运算，从Convolution2D或SeparableConvolution2D运算开始，然后是零个或多个运算(如，Pooling、Dropout、Activation、Normalization、BatchNormalization、其他运算等或以上运算的组合)，直到达到另一个卷积层、密集层或得到CNN的输出。类似地，密集层也可以是一组运算或层，从密集操作(即全连接层)开始，然后是零个或多个运算(如，Pooling、Dropout、Activation、Normalization、BatchNormalization、其他运算等或以上运算的组合)，直到达到另一个卷积层、密集层或得到CNN的输出。基于卷积网络的特征提取和使用密集运算的特征分类之间的区别可以以展平操作(Flatten)为界，该操作指将特征提取中的多维矩阵平化为矢量。

在典型的CNN中，每个卷积层都可以由一组滤波器组成。虽然一次操作中仅将滤波器应用于一个输入数据的子集，但该过滤器可通过如扫描输入信号等操作应用于整个输入。该层执行的运算通常是线性/矩阵乘法运算。激活函数可以是线性函数或非线性函数(如sigmoid函数、arcTan函数、tanH函数、ReLu函数等)。

每个全连接运算都是线性运算，其中每个输入通过权重与每个输出相连。这样，具有N个输入和M个输出的全连接层总共可以有N×M个权重。如上所述，通常在密集运算之后会有一个非线性激活函数以生成该层的输出。

为了简化说明，图4和图5中的方法400和500分别由一系列模块、步骤或操作绘制而成。但根据本发明，这些模块、步骤或操作可以以各种顺序和/或同时发生。另外，也可以使用本文未提到和描述的其他步骤或操作。此外，根据本发明设计的方法也可能不需要采用所有示出的步骤或操作即可实现。

本文采用“示例”一词来表示举例、实例或说明。本文所述用于“示例”的任何功能或设计不一定表示其优于或胜于其他功能或设计。相反，使用“示例”一词是为了以具体的方式呈现概念。本文中所使用的“或”字旨在表示包含性的“或”而不是排他性的“或”。也就是说，“X包括A或B”意在表示任何自然的包含性排列，除非另有说明，或者从上下文可明确判断则另当别论。换句话说，如果X包含A，X包含B，或X包含A和B，那么在任何前述实例下“X包含A或B”都成立。此外，在本申请以及所附权利要求书中，“一”、“一个”通常应该被解释为表示“一个或多个”，除非另有说明或从上下文中明确指出是单数形式。另外，本文通篇中的“一个功能”或“一项功能”这两个短语并不意味着同一个实施方式或同一项功能，除非另有特别说明。

图3所示的客户端设备306和/或其中的任何组件以及图3所示的集中式内容审核系统316和/或其中的任何组件(以及存储在其上和/或由此执行的技术、算法、方法、指令等)可以用硬件、软件或其任何组合来实现。硬件包括如知识产权(IP)内核、专用集成电路(ASIC)、可编程逻辑阵列、光处理器、可编程逻辑控制器、微代码、固件、微控制器、服务器、微处理器、数字信号处理器或任何其他适用的电路。在本发明中，“处理器”一词应理解为包含任何上述内容中的一项或多项的组合。“信号”、“数据”和“信息”等术语可互换使用。此外，客户端设备306和集中式内容审核系统316的各部分功能并不必以相同的方式来实现。

此外，一方面客户端设备306或集中式内容审核系统316可以使用具有计算机程序的通用计算机或处理器来实现，该计算机程序在被运行时可执行本文所述的任何相应的技术、算法和/或指令。另一方面，也可以有选择地使用专用计算机或处理器，配备专用硬件设备用以执行本文描述的任何方法、算法或指令。

此外，本发明的全部或部分实施方式可采取计算机程序产品的形式，该程序产品可通过计算机使用或可由计算机可读介质进行访问等。计算机可用或计算机可读介质可以是任何设备，该设备可以具体包含、存储、传送或传输供任何处理器使用或与其结合使用的程序或数据结构。该介质可以是电子的、磁的、光学的、电磁的或半导体装置等等。也可包含其他适用的介质。

虽然已经结合某些实施例对本发明进行描述说明，但应理解为本发明并不限于所公开的实施方式，另一方面，本发明旨在覆盖权利要求范围之内所涵盖的各种变体和等同设置，该范围应被赋予最宽泛的解释以涵盖法律允许的所有上述变体和等同设置。

Claims

1.一种实时通信中进行内容审核的设备，包括：

一个存储器；和

一台处理器，该处理器被配置为可执行存储器中的指令以用于：

从发送方用户处接收媒体流，其中该媒体流为实时的媒体流，该媒体流被一段一段地捕获并分段进行实时流发送，该媒体流包括第一段媒体流和第二段媒体流；

在本地对第一段媒体流进行分类鉴定得到鉴定类型，该鉴定类型用于表明向接收方用户传输的该第一段媒体流内容是否恰当，其中这些类型分为恰当、不当或不确定，并且其中不确定表示无法确切地认定第一段媒体流内容是恰当还是不当；

在得知第一段媒体流内容无法确定是否可以传输给接收方用户时随即执行指令，用以将第一段媒体流传输至云端的集中式内容审核设备以及模糊模块，其中集中式内容审核设备对第一段媒体流内容是否恰当做出集中鉴定；并且

如果集中鉴定结果表明该第一段媒体流为不当的：则

指令模糊模块对第一段媒体流进行模糊化处理从而得到模糊后的第一段媒体流；以及

将模糊后的第一段媒体流发送给接收方用户；

如果在接收到该第一段媒体流一段预定的时间之后，模糊模块仍未

从集中式内容审核设备接收到指令，则模糊模块根据预先配置的限

制性或宽松策略在本地对该第一段媒体流进行操作；以及

如果认定第一段媒体流内容是恰当的，则将第一段媒体流发送给接收方用户；

其中，该处理器位于发送方用户所使用的客户端设备上。

2.根据权利要求1所述的设备，其中将模糊后的第一段媒体流发送给接收方用户包括：

将模糊后的第一段媒体流发送至转发设备，该转发设备将模糊后的第一段媒体流发送给接收方用户。

3.根据权利要求1所述的设备，其中所述指令还包括可执行以下操作的指令：

在确定第一段媒体流内容为不当后，随即：

在本地将第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流；以及

将模糊后的第一段媒体流发送给接收方用户。

4.根据权利要求1所述的设备，其中所述指令还包括可执行以下操作的指令：

在认定第二段媒体流为非恰当的之后，根据集中鉴定结果来决定是否将第二段媒体流进行模糊化处理，其中认定第二段媒体流为非恰当包括：

认定将第二段媒体流传输到接收方用户是不当的或不确定将第二段媒体流传输到接收方用户是否恰当。

5.根据权利要求4所述的设备，其中根据集中鉴定结果来决定是否将第二段媒体流进行模糊化处理包括：

如果集中鉴定结果表明第一段媒体流内容为恰当的，则在将第二段媒体流发送给接收方用户之前不对第二段媒体流进行模糊化处理。

6.根据权利要求4所述的设备，其中根据集中鉴定结果来决定是否将第二段媒体流进行模糊化处理包括：

如果集中鉴定结果表明第一段媒体流内容为不当的，则在将第二段媒体流发送给接收方用户之前对第二段媒体流进行模糊化处理。

7.根据权利要求1所述的设备，其中第一段媒体流可以包含可视部分和音频部分，其中对第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流包括：

将可视部分进行模糊化处理以获得模糊后的可视部分；以及

对音频部分进行失真处理以获得失真的音频部分。

8.一种在实时通信中用于内容审核的系统，包括:

一个集中式内容审核设备；

一个模糊模块；以及

一个用户端内容审核设备，其中，发送方用户所使用的客户端设备包含该模糊模块以及该用户端内容审核设备,该用户端内容审核设备配置为可执行以下操作：

在本地确定第一段媒体流内容发送给接收方用户是否恰当；

在第一种情况下，即第一段媒体流未被认定为发送给接收方用户是恰当的，

而第一段媒体流也未被认定为发送给接收方用户是不恰当的：则

压缩第一段媒体流从而获得压缩后的第一段媒体流；

将压缩后的第一段媒体流转发至云端的集中式内容审核设备；

从集中式内容审核设备处接收集中鉴定结果，该鉴定结果表明第一段媒体流内容是否为不恰当的；

根据集中鉴定结果来决定将第一段媒体流还是将模糊后的第一段媒体流发送给接收方用户；以及

若一段预定的时间之后，集中式内容审核设备仍未发送集中鉴定结果，则指示模糊模块根据预先配置的限制性或宽松策略在本地对该第一段媒体流进行操作；

在第二种情况下，即第一段媒体流内容被认定发送给接收方用户是恰当的，

则：

将第一段媒体流发送给接收方用户。

9.根据权利要求8所述的系统，其中用户端内容审核设备配置为还可执行以下操作：

压缩第二段媒体流从而获得压缩后的第二段媒体流；以及

将压缩后的第二段媒体流转发至集中式内容审核设备。

10.根据权利要求8所述的系统，

其中，如果关于第一段媒体流是否为不当的集中鉴定结果认为第一段媒体流内容是不当的，

集中式内容审核设备配置为可执行以下操作：

从发送方用户处接收到报告，报告声明集中鉴定结果是错误的。

11.根据权利要求8所述的系统，

其中，如果关于第一段媒体流是否为不当的集中鉴定结果认为第一段媒体流内容是恰当的，集中式内容审核设备配置为可执行以下操作：

从接收方用户处接收到报告，报告声明集中鉴定结果是错误的。

12.根据权利要求8所述的系统，其中集中式内容审核设备配置为可执行以下操作：

将压缩后的第一段媒体流转发给人工审核员，该审核员对压缩后的第一段媒体流是否恰当做出鉴定。

13.一种在实时通信中用于内容审核的方法，包括：

从发送方用户的发送方设备处接收媒体流，其中该媒体流为实时的媒体流，该媒体流被一段一段地捕获并分段进行实时流发送；

由发送方设备在本地对第一段媒体流进行鉴定，并将其分类为不确定发送给接收方用户是否恰当，其中“不确定”这一鉴定类别表明不能明确地认定第一段媒体流内容发送给接收方用户是否恰当；

该发送方设备将该第一段媒体流发送至云端的集中式内容审核设备以及发送方设备上的模糊模块，其中该集中式内容审核设备对第一段媒体流内容是否恰当做出集中鉴定；

如果在接收到该第一段媒体流一段预定的时间之后，模糊模块仍未从集中式内容审核设备接收到指令，则由模糊模块根据预先配置的限制性或宽松策略在本地对该第一段媒体流进行操作；

如果集中鉴定结果表明第一段媒体流内容是恰当的，则由发送设备向接收方用户发送第一段媒体流；以及

如果集中鉴定结果表明第一段媒体流内容是不当的，则由发送设备向接收方用户发送模糊后的第一段媒体流。

14.根据权利要求13所述的方法，其中由发送设备向接收方用户发送模糊后的第一段媒体流包括：

15.根据权利要求13所述的方法，其中由发送方设备在本地对第一段媒体流进行鉴定，并将其分类为不确定发送给接收方用户是否恰当包括：

发送方设备在本地将第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流，然后将该模糊后的第一段媒体流发送至集中式内容审核设备。

16.根据权利要求13所述的方法，还包括：

根据集中鉴定结果决定是否对第二段媒体流进行模糊化处理。

17.根据权利要求16所述的方法，其中根据集中鉴定结果决定是否对第二段媒体流进行模糊化处理包括：

如果集中鉴定表明第一段媒体流内容为恰当的，则将第二段媒体流发送给接收方用户而不做模糊化处理；以及

如果集中鉴定表明第一段媒体流内容为不当的，则先将第二段媒体流进行模糊化处理再发送给接收方用户。

18.根据权利要求13所述的方法，还包括：

如果认定第一段媒体流内容为恰当的，则由发送方设备将第一段媒体流发送给接收方用户；以及

如果认定第一段媒体流内容为不当的，则由发送方设备将在本地被模糊处理后的第一段媒体流发送给接收方用户。

19.根据权利要求13所述的方法，其中第一段媒体流包含一个音频段，并且对第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流包括：

对音频段做失真处理从而获得失真的音频段。

20.根据权利要求13所述的方法，其中第一段媒体流包含一个可视媒体段，并且对第一段媒体流进行模糊化处理从而获得模糊后的第一段媒体流包括：

对可视媒体段做模糊化处理从而获得模糊后的可视媒体段。