发明内容
本发明旨在提供一个分级内容审核系统,该系统可以适用于基于视频、音频分析的内容审核。
本发明的一个目的是基于内容分析技术自动地进行内容审核,另一个目的是让客户端承担大量的内容审核工作,以减轻服务器端的内容审核工作。
本发明的分级内容审核系统如图1所示,包括以下几个部分:审核管理调度单元101、视频分析服务器集群102、违禁内容检索集群103、审核策略单元104、内容审核监视单元105、客户端集中管理单元202、客户端单元201。
整个系统采用C/S构架,审核管理调度单元101、视频分析服务器集群102、违禁内容检索集群103、审核策略单元104、内容审核监视单元105属于内容审核服务器端100,客户端集中管理单元202、客户端单元201属于内容审核客户端200。客户端和服务器端均负责内容审核功能,客户端对其所播放的实时流文件或者本地文件进行审核,并且及时封杀违禁文件、上传可疑文件到服务器端,服务器端处理客户端的审核请求,分析、检索、评估并且对播放违禁内容的节目源封杀。
审核管理调度单元101能够处理实时的网络流、电视流,也能够处理客户端200的内容审核请求。该单元包括一个网络数据接收接口、一个视频分析接口、一个违禁数据库接口、一个已审核文件数据库、一个核心控制模块、一个基本配置模块、一个UI模块。其中,网络数据接收接口负责接收网络传来的流媒体数据或者客户端的内容审核请求;视频分析接口主要负责审核管理调度单元101与视频分析服务器集群102的通信;违禁数据库接口主要负责审核管理调度单元101与违禁内容检索集群103的通信;已审核文件数据库存储已经审核后的违禁文件的基本信息,包括文件ID、文件源路径名、上传文件IP地址、评估分数、违禁等级、审核完成时间字段;核心控制模块主要负责控制被审核文件按照分析、检索、评估、人工审核、审核结果处理几个步骤来进行内容审核;基本配置模块主要负责提供审核管理调度单元101所需要的系统参数,包括视频分析服务器、人脸识别分析服务器、语音分析服务器、字幕分析服务器和审核策略服务器的IP地址;UI模块提供用户交互界面。
视频分析服务器集群102包括视频分析服务器、字幕分析服务器、音频分析服务器、人脸识别分析服务器、融合分析服务器。各个分析服务器均需要分析其所对应的文件,提取其特征数据,提供分析结果。如果审核管理调度单元101请求视频分析,集群中的各个服务器还需要检索违禁内容检索集群103,计算出评估结果;如果审核策略单元104请求视频分析,集群中的各个服务器要将分析结果存储成为XML格式并返回给审核策略单元104。
违禁内容检索集群103包括违禁元信息数据库、违禁图片特征数据库、违禁人脸特征数据库、违禁音频特征数据库、违禁字幕特征数据库、检索服务器。其中,违禁元信息数据库记录违禁文件的元信息,包括文件ID、文件名称、文件类型(包括文字、视频、音频、图片)、关键字、违禁级别、文件处理状态;违禁图片特征数据库记录违禁视频文件或者违禁图片的特征信息,包括ID、图像特征信息(XML文件类型)、特征文件URL;违禁人脸特征数据库记录需要封杀的人脸的特征信息,包括ID、图像特征信息(XML文件类型)、特征文件URL;违禁音频特征数据库记录违禁音频文件的特征信息,包括ID、音频特征信息(XML文件类型)、特征文件URL;违禁字幕特征数据库记录违禁视频文件所提取的字幕信息,包括ID、字幕特征信息(XML文件类型)、特征文件URL;检索服务器为视频分析服务器集群102提供检索接口,为策略审核单元104提供入库接口。
审核策略单元104管理所有的策略文件,维护客户端策略缓存文件、语音训练模型文件(由音频分析服务器产生)、人脸训练模型文件(由人脸识别分析服务器产生),控制策略生成流程和策略更新流程。该单元包括策略管理数据库、客户端策略缓存内容控制模块、核心控制模块、输入调度模块、视频分析接口、违禁数据库接口、基本配置模块、UI模块。其中,策略管理数据库负责保存违禁文件的基本信息,包括策略ID、文件类型(文字、视频、音频、图片)、违禁级别、源文件地址;客户端策略缓存内容控制模块负责将每一个违禁文件的信息叠加到客户端策略缓存文件中,并且记录增量内容和版本信息;核心控制模块负责控制策略更新流程和策略生成流程;输入调度模块负责对违禁视频文件、音频文件、图片文件、文本文件进行保存、分类;视频分析接口负责审核策略单元104与视频分析服务器集群102的通信;违禁数据库接口负责审核策略单元104与违禁内容检索集群103的通信;基本配置模块主要管理视频分析服务器集群102各个机器的IP地址、违禁内容检索集群103各个服务器的服务器名、用户名、密码信息,内容审核监视单元的服务器IP地址;UI模块提供用户交互界面。
内容审核监视单元105负责监视单元监视客户端使用内容审核软件的情况和单元集中监视违禁信息。
本发明所涉及的分级内容审核系统运用前沿的视频结构化分析、音频分析、字幕提取分析、多媒体搜索、敏感词汇搜索、媒体内容搜索、人脸识别和关键帧提取等技术使得内容审查过程最大限度的自动化。该分级内容审核系统基于分布式环境设计,由位于宽带流媒体运营平台前端的内容审查中心和客户端软件两部分构成。系统最主要的特点就是将内容审核的部分工作交由终端软件执行,在网络流媒体普及的今天,这套方法可以从根本上抑制非法、有损国家安全节目的传播。
本发明的前面的一般描述和随后的详细描述都是示范性和解释性的,目的是提供所要求的发明的进一步解释。
具体实施方式
参见图1,分级内容审核系统分为服务器端和客户端两个部分,两个部分的审核流程有一些差异,所以现在分开描述服务器端和客户端的审核流程。
分级内容审核系统服务器端的各个服务器共同完成内容审核、策略生成、策略更新、客户端监视几项功能。服务器端可以对实时电视流、网络流媒体、客户端上传文件进行内容审核。下面介绍分级内容审核系统服务器端各个功能的实现。
策略生成流程:策略生成流程的源文件有两种途径产生,一种是用户直接输入的违禁文件,一种是分级内容审核系统审核出的新的违禁文件,针对这两种不同的文件源,审核策略单元采用同一种策略生成流程进行处理。具体处理流程如下:
第一,审核策略单元接收到源文件之后,需要在策略管理数据库中查询是否有与该源文件相同源地址,或者相同名称的文件,如果有,则不继续处理;
第二,审核策略单元将源文件保存到本地硬盘上;
第三,审核策略单元检查源文件是否有描述性信息,如果有,则将描述性信息作为该文件的元数据,审核策略单元将源文件的信息(策略ID、文件名称、文件类型、违禁级别、源文件地址、文件处理状态)保存在策略管理数据库中,并且记录该文件当前的状态为未分析状态(文件的处理状态分为:未处理状态、可分析状态、可融合状态、可上传状态、处理完毕状态);
第四,违禁文件分别送到视频分析服务器集群的视频分析服务器、音频分析服务器、字幕分析服务器、人脸识别分析服务器进行分析操作;
考虑到对于一个任务,视频分析、音频分析、字幕分析、人脸识别分析的开始、结束时间并不相同,因此将文件的处理状态值的低8位分别表示以上几种状态:
开始视频分析状态用0x01表示;
开始音频分析状态用0x02表示;
开始字幕分析状态用0x04表示;
开始人脸识别分析状态用0x08表示;
视频分析结束状态用0x10表示;
音频分析结束状态用0x20表示;
字幕分析结束状态用0x40表示;
人脸识别结束状态用0x80表示;
当任务状态变化时,就加上新的状态值。例如开始视频分析,则文件状态值为0x01,再开始音频分析,则文件的状态值变为0x03。
第五,各个分析服务器在接收到一个新任务之后,就会处理该任务,处理的步骤分为解码、分析、生成结果。
视频分析服务器接收到新的任务,则开始提取一段视频的关键帧,然后分析这些关键帧的视频特征,保存这些关键帧,生成XML文件,并且向审核策略单元发送分析结束消息;
音频分析服务器收到新的任务,则开始对一段音频文件分段、分类,提取其音频特征,生成拼音图,进而生成拼音串,生成XML文件,并且向审核策略单元发送分析结束消息;
字幕分析服务器接收到新的任务,则开始每隔10帧提取一幅图像,通过判断该图像是否存在字幕、是否与前帧图像字幕相同、字幕背景判断几个步骤切割出含有字幕的图片,进而通过OCR技术进行汉字识别,产生字符串,并且保存、生成XML文件,向审核策略单元发送分析结束消息;
人脸识别分析服务器接收到新的任务,则提取正面清晰的人脸图像,提取其特征数据,生成XML文件,向审核策略单元发送分析结束消息;
值得注意的是,音频分析服务器和人脸识别分析服务器还需要将其所训练的音频训练模型文件和人脸训练模型文件提交给审核策略单元。
第六,审核策略单元接收到各个服务器发送来的分析结束消息之后,则需要更改文件处理状态值,例如当审核策略单元收到某文件的视频分析结束消息之后,审核策略单元需要将该文件的处理状态值加上0x10。如果一个文件的处理状态值上的视频分析结束位、音频分析结束位、字幕分析结束位、人脸识别分析结束位均为1,则将该文件的处理状态值设置为可融合状态;
第七,处于可融合状态的违禁文件,审核策略单元需要将其分析的结果进行融合。审核策略单元搜集各个分析服务器所生成的XML结果,将其中的内容读入到内存中,将这些数据汇集起来,进行数据挖掘、压缩,并将结果保存到客户端策略缓存文件中,同时生成新的版本号。审核策略单元将文件的处理状态值设置为可上传状态;
第八,处于可上传状态的违禁文件,审核策略单元需要将其分析的XML文件通过违禁数据库接口入库到违禁内容检索集群中去。
策略更新流程:策略更新主要响应客户端的策略更新请求,并且将策略生成流程所产生的客户端策略缓存内容文件、音频训练模型文件、人脸训练模型文件传给客户端。具体步骤如下:
第一,客户端软件在启动之后,需要向审核策略单元发出客户端策略缓冲文件最新版本号的请求;
第二,审核策略单元将最新的版本号传递给客户端软件;
第三,客户端软件将最新的版本号与本地版本号进行对比,如果本地版本号小于最新版本号,则客户端需要向审核策略单元提出更新策略缓冲区请求;
第四,审核策略将策略生成流程所产生的客户端策略缓存内容文件、音频训练模型文件、人脸训练模型文件传给客户端软件;
内容审核流程:该流程主要涉及到审核管理调度单元、视频分析服务器集群、违禁内容检索集群、审核策略单元。具体步骤如下:
第一,审核管理调度单元接收网络流媒体(IPTV)审核请求,或者客户端可疑文件内容审核请求;
第二,审核管理调度单元将被审核文件的名称和网络路径名在已审核文件数据库中查询,如果发现有相同的记录,则表示该文件是违禁的,应该立即返回封杀消息;
第三,审核管理调度单元将被审核文件通过视频分析接口派送到视频分析服务器集群,各个分析服务器对被审核文件进行分析。
视频分析服务器可以采用逐帧分析、每10帧分析、每50帧分析、关键帧提取、自适应分析几种策略。逐帧分析就是对被审核文件的每一帧图片都进行特征提取、查询违禁图片数据库、保存查询结果;每10帧分析策略就是对被审核文件的10的整数倍的图片进行特征提取、查询违禁图片数据库、保存查询结果;每50帧分析策略就是对被审核文件的50的整数倍的图片进行特征提取、查询违禁图片数据库、保存查询结果;关键帧分析策略就是先对被审核文件进行关键帧的提取,将提取出的关键帧进行特征提取、查询违禁图片数据库、保存查询结果;自适应分析策略就是先对被分析文件每50帧进行分析,检查其查询结果,如果查询结果的匹配率高,则改为每20帧进行分析,如果持续很高,则改为逐帧进行分析,如果查询结果一直都很高,就可以断定该文件是违禁文件,直接向审核管理调度单元发送分析完毕消息,同时将查询结果返回给审核管理调度单元;
音频分析服务器可以采用逐帧分析、自适应分析几种策略。逐帧分析就是对被审核文件的每一段音频数据均进行分段、分类,提取特征数据,然后根据提取的特征数据查询违禁音频特征数据库,保存查询结果;自适应分析策略就是以10秒钟音频数据为一个单位,先每隔5个单位进行分析,检查其查询结果,如果查询结果的匹配率高,则改为每2个单位进行分析,如果持续很高,则改为每单位进行分析,如果查询结果一直都很高,就可以断定该文件是违禁文件,直接向审核管理调度单元发送分析完毕消息,同时将查询结果返回给审核管理调度单元;
字幕分析服务器可以采用逐帧分析、每10帧分析、每50帧分析、关键帧提取几种策略。逐帧分析就是对被审核文件的每一帧图片都进行特征提取、查询违禁字幕数据库、保存查询结果;每10帧分析策略就是对被审核文件的10的整数倍的图片进行特征提取、查询违禁字幕数据库、保存查询结果;每50帧分析策略就是对被审核文件的50的整数倍的图片进行特征提取、查询违禁字幕数据库、保存查询结果;关键帧提取策略就是先对被审核文件进行关键帧的提取,将提取出的关键帧进行特征提取、查询违禁字幕数据库、保存查询结果;如果发现检查结果持续很高,就可以断定该文件是违禁文件,直接向审核管理调度单元发送分析完毕消息,同时将查询结果返回给审核管理调度单元;
人脸识别分析服务器可以采用逐帧分析、跳帧分析、关键帧提取几种策略。逐帧分析就是对被审核文件的每一帧图片都进行人脸识别特征提取、查询违禁人脸数据库、保存查询结果;跳帧分析策略就是从被审核文件中每个一定数量的解码结果抽取一帧提箱进行人脸特征提取、查询违禁人脸特征数据库、保存查询结果;关键帧提取策略就是先对被审核文件进行关键帧的提取,将提取出的关键帧进行人脸识别特征提取、查询违禁人脸特征数据库、保存查询结果;如果发现检查结果持续很高,就可以断定该文件是违禁文件,直接向审核管理调度单元发送分析完毕消息,同时将查询结果返回给审核管理调度单元;
第四,审核管理调度单元对于视频分析服务器集群的分析结果进行搜集、控制,审核管理调度单元采取与审核策略单元中第四步相同的文件状态标记来控制视频分析、音频分析、字幕分析、人脸识别分析过程。
第五,审核管理调度单元按照视频分析、音频分析、字幕分析、人脸识别分析的查询结果进行融合打分,各种分析的结果均有一个权重,视频分析结果的权重为0.2,音频分析结果的权重为0.2,字幕分析结果的权重为0.4,人脸识别分析结果的权重为0.2。审核管理调度模块将打分结果进行评估,如果总体评分超过一定阈值(该阈值可以由用户设置,默认值为0.7),则认为被审核影片可疑,如果用户设定执行人工审核操作,则被审核文件的状态转变为可人工审核状态,否则被审核文件的状态变为可处理状态。
第六,审核管理调度单元将可人工审核状态的文件列在UI模块上,并且为审核员提供播放文件的界面,审核员通过收看被审核文件人工判断该文件是否违禁,并且将审核结果输入到UI界面并发送给核心控制模块;
第七,审核管理调度单元根据审核结果(违禁或者步违禁)来处理被审核文件,如果审核结果不违禁,则被审核文件状态直接转变为处理完毕状态,如果审核结果为违禁,则审核管理调度单元将被审核文件信息保存到已审核文件数据库、将被审核文件上传到审核策略单元、封杀文件源。
客户端监视流程:该流程主要涉及到内容审核监视单元、客户端集中管理单元、客户端单元。具体流程如下:
第一,内容审核监视单元定时发送客户端信息上报请求给客户端集中管理单元;
第二,客户端集中管理单元将该单元所管辖的客户端使用软件的情况统计上报;
第三,内容审核监视单元根据客户端集中管理单元的上报数据更新界面,提示审核监管人;
第四,客户端集中管理单元定时监视客户端单元的软件使用情况以及其违禁记录;
参照其示例性实施用例,本发明已经被具体的显示和描述,本领域的普通技术人员将会理解,在不脱离所附权利要求所定义的本发明的精神和范围的情况下,可对其进行形式和细节的各种改变。