CN110598075A

CN110598075A - 一种基于人工智能的互联网媒体内容安全监测系统及方法

Info

Publication number: CN110598075A
Application number: CN201910776477.1A
Authority: CN
Inventors: 高燕; 桂承波; 唐聃; 岳希; 曾琼; 刘敦龙
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-12-20

Abstract

本发明属于媒体内容安全监测技术领域，公开了一种基于人工智能的互联网媒体内容安全监测系统及方法，包括基础设施模块、数据处理模块、媒体数据中心、内容分析模块、应用服务模块、人机交互模块以及运维管理模块。本发明能够对互联网媒体中的文本、声音、图像及视频内容进行监测、发现并追踪不良信息，同时能够根据用户的需求，对特定媒体内容进行挖掘、分析，为用户提供相关内容的数据分析预警报告，提升管理决策的及时性、有效性和科学性，为相关行业的监管提供科技支撑手段。本发明主要部署在并行计算服务器上，单服务器每天处理图像约180万张，每天处理视频时长达到800小时，同时，平台可进行多台服务器的分布式计算。

Description

一种基于人工智能的互联网媒体内容安全监测系统及方法

技术领域

本发明属于媒体内容安全监测技术领域，尤其涉及一种基于人工智能的互联网媒体内容安全监测系统及方法。

背景技术

随着网民规模的日益扩大，网民越来越乐于使用微博、论坛、博客等互联网应用，但由此也出现了越来越多的舆情事件，我国的网络舆情监测也逐渐发展起来，目前对网络舆情的监测通常有两种方式：人工方式和技术手段。由于通过人工方式来对网络舆情进行监测需要的人力和时间过于庞大，且监测的覆盖面有限。因此，无论是网络舆情监测机构还是有此需求的政府部门、企业等都需要借助技术手段对微博、论坛、博客等平台进行监测。

在目前的媒体内容安全监测服务中，中科院自动化所模式识别国家重点实验室研发出了网络异质媒体监测技术，主要分为数据流量捕获、异质媒体深度智能识别、基础管理平台三大部分组成。

现有技术存在的问题是：

(1)在人工智能三大核心要素“算力、数据、算法”均对从业单位提出较高的准入门槛，特别是特定行业及敏感数据获取难度较高的问题，对媒体内容安全监测服务提出了很大的考验。

(2)国内外新媒体发展迅速且各有不同，缺乏统一的技术标准、管理手段和运维规范，给业务监督带来了巨大挑战。

解决这些问题的意义：

依托海量信息抓取、搜索、数据分析等技术，监测全网和指定的平台、论坛、软件等网络媒体信息，能主动发现有害敏感信息、捕获舆情热点并进行预警；

通过对所获取信息的挖掘分析，系统自动生成报告，能够对敏感、负面信息的持续追踪。为用户应对非法信息提供自动化、系统化、科学化的信息支持。

发明内容

针对现有技术存在的问题，本发明提供了一种基于人工智能的互联网媒体内容安全监测系统及方法。

本发明是这样实现的，一种基于人工智能的互联网媒体内容安全监测系统，所述基于人工智能的互联网媒体内容安全监测系统包括：

基础设施模块，用于为监测平台提供硬件支撑；

数据处理模块，用于为监测平台提供数据支撑，从互联网、APP内容采集器、微信、微博抓取新媒体内容，完成对相关互联网和新媒体内容的采集；

媒体数据中心，用于为视图像的识别模型训练；

内容分析模块，用于为监测平台提供内容分析支撑，包括不良内容监测专用设备、全媒体内容智能分析系统；不良内容监测专用设备应用于特定场所，根据客户推送的数据进行视觉有害信息的快速识别；

应用服务模块，用于为监测平台提供各类监管应用的业务逻辑，实现互联网和新媒体内容的监管以及指定微博、微信、移动APP的内容监测；

人机交互模块，用于为监测平台提供“黑白名单”监管业务配置，以WEB网页形式将各类功能进行展示及配置；用户通过WEB浏览器对系统进行登录和访问，根据权限调用不同功能模块，下发及管理各类监管任务；

运维管理模块，用于为监测平台提供系统配置，以WEB网页形式将各类功能进行展示及配置；包括系统的平台配置管理、系统健康状态、权限管理、安全审计等运维服务与管理。

进一步，所述基础设施模块包含网络设备、主机服务器、安全设备、存储设备、监管终端；

将基础设施分为三个区域，包括数据采集区、数据处理分析存储区和办公区；数据采集隔离区域内架设各种搜索采集服务器、WEB服务器；数据处理分析存储隔离区域架设数据库服务器、存储服务器、敏感内容识别服务器、分布式数据处理集群；办公区监看员通过监看终端对需要监测的任务列表进行配置，并对监测到的违规视听内容进行查看。

进一步，所述媒体数据中心包括训练、存储、标注三个部分；标注通过指定的规则对数据进行标注，分为分类标注、标框标注和区域标注；训练采用分布式超算技术框架，通过深度学习对标注的数据进行模型训练；存储采用分布式存储架构对数据进行存储。

进一步，所述数据处理模块对指定的媒体平台进行内容的采集，采集的数据类型包括文本、声音、图像和视频，数据采集的方式有三种：开放数据集下载、API读取和爬虫；包括互联网爬虫、公共搜索引擎、app内容采集、微博爬虫、微信搜索引擎、视频图像内容下载和规则库爬虫；同时对数据进行预处理，包括数据清洗与排重、数据归一化、关键帧抽取、违规内容快照。

进一步，所述内容分析模块为监测平台提供内容分析支撑，包括不良内容监测专用设备、全媒体内容智能分析系统；

不良内容监测专用设备应用于特定场所，根据客户推送的数据进行视觉有害信息的快速识别，具体包括视图像指纹库、智能识别模型和敏感语料库。

本发明的另一目的在于提供一种运行所述基于人工智能的互联网媒体内容安全监测系统的基于人工智能的互联网媒体内容安全监测方法，所述基于人工智能的互联网媒体内容安全监测方法包括以下步骤：

第一步，自定义监管任务，设置监测内容和目标；

第二步，通过分布式数据采集技术从设置的辖区网站、直播平台、微信公众号或微博等渠道抓取新媒体内容，完成对相关互联网和新媒体内容的采集；

第三步，在大数据处理集群中对采集的数据进行清洗、数据归一化、标注等预处理后并通过机器学习框架完成数据的模型训练。

第四步，在文本分析服务器对文本采用上下文理解技术，通过分词，段落语义理解技术，在联合规则制定的基础上，进行词、句、文的安全鉴定；在语音识别服务器上利用语音识别技术完成对音频数据的分析；在图文识别服务器和视频指纹服务器上利用多种上下文结构与深度特征挖掘的图像识别、分类技术，融合不同语义层次的特征，并结合情感分析技术，对图像及视频进行分析。

第五步，通过文本、语音、视图像的情感分析技术完成对采集数据的综合分析；

第六步，对数据进行分析后完成对数据的统计，通过图表等方式进行展示。

本发明的另一目的在于提供一种实现所述基于人工智能的互联网媒体内容安全监测系统的计算机程序。

本发明的另一目的在于提供一种实现所述基于人工智能的互联网媒体内容安全监测系统的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于人工智能的互联网媒体内容安全监测系统。

综上所述，本发明的优点及积极效果为：本发明的媒体内容安全监测平台可对涉及暴力、政治有害、色情等内容的视频、图像进行分类，平均准确率与召回率均达到80％以上。平台主要部署在并行计算服务器上，单服务器每天处理图像约180万张，每天处理视频时长达到800小时，同时，平台可进行多台服务器的分布式计算。

本发明解决了一些实际问题：网络媒体已经成为信息传播的主要途径，对于网络上的种种舆论，都包含了大量的信息，其中重复性、掺杂性相当高，通过本发明解决了传统方法很难对此进行分析处理的问题。同时通过本发明对各媒体内容的处理分析，可以监控敏感或有害内容，为政府进行舆论宣传和舆情引导工作，维护社会稳定工作提供了很大的帮助。

附图说明

图1是本发明实施例提供的基于人工智能的互联网媒体内容安全监测系统结构示意图；

图中：1、基础设施模块；2、数据处理模块；3、媒体数据中心；4、内容分析模块；5、应用服务模块；6、人机交互模块；7、运维管理模块。

图2是本发明实施例提供的基于人工智能的互联网媒体内容安全监测方法流程图。

图3是本发明实施例提供的系统功能模块结构图。

图4是本发明实施例提供的基础设施总体布局图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明解决了很多实际问题；依托海量信息抓取、搜索、数据分析等技术，监测全网和指定的平台、论坛、软件等网络媒体信息，能主动发现有害敏感信息、捕获舆情热点并进行预警。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于人工智能的互联网媒体内容安全监测系统包括：基础设施模块1、数据处理模块2、媒体数据中心3、内容分析模块4、应用服务模块5、人机交互模块6、运维管理模块7。

基础设施模块1，用于为监测平台提供硬件支撑。

数据处理模块2，用于为监测平台提供数据支撑，从互联网、APP内容采集器、微信、微博等渠道抓取新媒体内容，完成对相关互联网和新媒体内容的采集。

媒体数据中心3，为视图像的识别模型训练，训练部分采用分布式超算技术框架，存储部分采用分布式存储架构设计，标注部分应用于视图像的数据标注、测试集构建等。

内容分析模块4，用于为监测平台提供内容分析支撑，包括不良内容监测专用设备、全媒体内容智能分析系统；不良内容监测专用设备应用于特定场所，根据客户推送的数据进行视觉有害信息的快速识别。

应用服务模块5，用于为监测平台提供各类监管应用的业务逻辑，实现互联网和新媒体内容的监管以及指定微博、微信、移动APP等的内容监测。

人机交互模块6，用于为监测平台提供“黑白名单”监管业务配置，以WEB网页形式将各类功能进行展示及配置；用户通过WEB浏览器对系统进行登录和访问，根据权限调用不同功能模块，下发及管理各类监管任务。

运维管理模块7，用于为监测平台提供系统配置，以WEB网页形式将各类功能进行展示及配置；包括系统的平台配置管理、系统健康状态、权限管理、安全审计等运维服务与管理。

在本发明的优选实施例中，基础设施模块1包含网络设备、主机服务器、安全设备、存储设备、监管终端。并将基础设施分为三个区域，包括数据采集区、数据处理分析存储区和办公区。数据采集隔离区域内架设了各种搜索采集服务器、WEB服务器。数据处理分析存储隔离区域架设了数据库服务器、存储服务器、敏感内容识别服务器、分布式数据处理集群等设备。办公区监看员可以通过监看终端对需要监测的任务列表进行配置，并对监测到的违规视听内容进行查看。

在本发明的优选实施例中，媒体数据中心3包括训练、存储、标注三个部分。标注通过指定的规则对数据进行标注，分为分类标注、标框标注和区域标注；训练采用分布式超算技术框架，通过深度学习对标注的数据进行模型训练；存储采用分布式存储架构对数据进行存储。

在本发明的优选实施例中，数据处理模块2对指定的媒体平台进行内容的采集，为系统提供数据支撑，采集的数据类型包括文本、声音、图像和视频，数据采集的方式有三种：开放数据集下载、API读取和爬虫。主要内容包括互联网爬虫、公共搜索引擎、app内容采集、微博爬虫、微信搜索引擎、视频图像内容下载和规则库爬虫。同时对数据进行预处理，包括数据清洗与排重、数据归一化、关键帧抽取、违规内容快照。

在本发明的优选实施例中，内容分析模块4为监测平台提供内容分析支撑，包括不良内容监测专用设备、全媒体内容智能分析系统。不良内容监测专用设备应用于特定场所，根据客户推送的数据进行视觉有害信息的快速识别，具体包括视图像指纹库、智能识别模型和敏感语料库。全媒体内容智能分析系统较不良内容监测专用设备，具有识别维度多，支持并发量大的特点。根据内容识别规则库，结合计算机视觉、视频指纹、语音识别、图文识别、关键词匹配等技术对采集到涉嫌的内容进行有害内容多维度识别匹配及智能分析，实现对有害违规内容自动甄别。

如图2所示，本发明实施例提供的基于人工智能的互联网媒体内容安全监测方法包括以下步骤：

第一步，定义监管任务，设置监测内容和目标；

第六步，对数据进行分析后完成对数据的统计，通过图表等方式进行展示；

下面结合具体实施例对本发明的应用原理作进一步的描述。

实施例1

图3为本发明实例一提供的基于人工智能的互联网媒体内容安全监测系统功能模块结构图。如图3所示，包括基础设施模块、数据处理模块、媒体数据中心、内容分析模块、应用服务模块、人机交互模块以及运维管理模块，其中：

基础设施模块为监测平台提供硬件支撑。包含网络设备、主机服务器、安全设备、存储设备、监管终端。

数据处理模块对指定的媒体平台进行内容的采集，为本系统提供数据支撑，采集的数据类型包括文本、声音、图像和视频，数据采集的方式有三种：开放数据集下载、API读取和爬虫。主要内容包括互联网爬虫、公共搜索引擎、app内容采集、微博爬虫、微信搜索引擎、视频图像内容下载和规则库爬虫。同时对数据进行预处理，包括数据清洗与排重、数据归一化、关键帧抽取、违规内容快照。

媒体数据中心：完成视频图像的识别模型训练，包括标注、训练和存储三个部分。首先对图像或视频等数据进行标注，通过指定的规则对数据进行标注，分为分类标注、标框标注和区域标注；然后进行数据的训练，这一步采用分布式超算技术框架，通过深度学习对标注的数据进行模型训练；最后将这些数据采用分布式存储架构进行存储。

内容分析模块：监测平台提供内容分析支撑，包括不良内容监测专用设备、全媒体内容智能分析系统。不良内容监测专用设备应用于特定场所，根据客户推送的数据进行视觉有害信息的快速识别，具体包括视图像指纹库、智能识别模型和敏感语料库。全媒体内容智能分析系统较不良内容监测专用设备，具有识别维度多，支持并发量大的特点。根据内容识别规则库，结合计算机视觉、视频指纹、语音识别、图文识别、关键词匹配等技术对采集到涉嫌的内容进行有害内容多维度识别匹配及智能分析，实现对有害违规内容自动甄别。

应用服务模块：监测平台提供各类监管应用的业务逻辑，实现互联网和新媒体内容的监管。具体包括辖区网站内容监控、移动app监控、专项任务监控、微信公众号监控、微博内容监控、直播平台监控。

人机交互模块：监测平台提供“黑白名单”监管业务配置，以WEB网页形式将各类功能进行展示及配置。用户通过WEB浏览器对系统进行登录和访问，根据权限调用不同功能模块，下发及管理各类监管任务。具体包括黑白名单监管、监管任务管理、统计分析、规则库管理。

运维管理模块：监测平台提供系统配置，以WEB网页形式将各类功能进行展示及配置。包括系统的平台配置管理、系统健康状态、权限管理、安全审计等运维服务与管理。

实施例2

图4为本实例提供的基于人工智能的互联网媒体内容安全监测系统基础设施总体布局图，总体由三个区域组成：数据采集隔离区、数据处理分析存储区和办公区其中：

数据采集隔离区：区域内架设了各种搜索采集服务器、WEB服务器。其中搜索采集服务器依据实现功能和针对的对象不同可以分为视听节目搜索服务器、属地网站搜索服务器、微信公众号搜索服务器、微博搜索服务器、指定APP内容采集服务器、直播平台数据采集服务器、规则数据采集服务器等。隔离区的这些服务器位于系统的内网和外网之间，通过内网防火墙，与内网中的“数据处理分析存储服务器区”进行通信，保障了数据库和WEB系统的安全性。

数据处理分析存储隔离区：该区域架设了数据库服务器、存储服务器、敏感内容识别服务器、分布式数据处理集群等设备。敏感内容服务器根据任务的不同，主要分为视频指纹识别服务器、敏感内容识别服务器、图文识别服务器、文本分析服务器和语音识别服务器。分布式数据处理集群用于采集数据的清洗、排重、归一存储及查询等功能。存储设备根据需求采用满足系统数据存储要求的磁盘阵列设备。内容下载服务器通过视听节目URL地址解析完成对应节目下载。平台管理服务器用于整个系统的服务治理及运维。

办公区办：公区监看员可以通过监看终端对需要监测的任务列表进行配置，并对监测到的违规视听内容进行查看。

根据本发明，实现行业主管单位能及时对所属单位采集、发布和传播的媒体内容进行监测，发现并追踪政治有害、涉恐涉暴、不健康等内容信息，同时能够根据用户的需求，对特定媒体内容进行挖掘、分析，为用户提供相关内容的数据分析预警报告。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的互联网媒体内容安全监测系统，其特征在于，所述基于人工智能的互联网媒体内容安全监测系统包括：

基础设施模块，用于为监测平台提供硬件支撑；

媒体数据中心，用于为视图像的识别模型训练；

2.如权利要求1所述的基于人工智能的互联网媒体内容安全监测系统，其特征在于，所述基础设施模块包含网络设备、主机服务器、安全设备、存储设备、监管终端；

3.如权利要求1所述的基于人工智能的互联网媒体内容安全监测系统，其特征在于，所述媒体数据中心包括训练、存储、标注三个部分；标注通过指定的规则对数据进行标注；训练采用分布式超算技术框架，通过深度学习对标注的数据进行模型训练；存储采用分布式存储架构对数据进行存储。

4.如权利要求1所述的基于人工智能的互联网媒体内容安全监测系统，其特征在于，所述数据处理模块对指定的媒体平台进行内容的采集，采集的数据类型包括文本、声音、图像和视频，数据采集的方式有三种：开放数据集下载、API读取和爬虫；包括互联网爬虫、公共搜索引擎、app内容采集、微博爬虫、微信搜索引擎、视频图像内容下载和规则库爬虫；同时对数据进行预处理，包括数据清洗与排重、数据归一化、关键帧抽取、违规内容快照。

5.如权利要求1所述的基于人工智能的互联网媒体内容安全监测系统，其特征在于，所述内容分析模块为监测平台提供内容分析支撑，包括不良内容监测专用设备、全媒体内容智能分析系统；

6.一种运行权利要求1所述基于人工智能的互联网媒体内容安全监测系统的基于人工智能的互联网媒体内容安全监测方法，其特征在于，所述基于人工智能的互联网媒体内容安全监测方法包括以下步骤：

第一步，自定义监管任务，设置监测内容和目标；

第三步，在大数据处理集群中对采集的数据进行清洗、数据归一化、标注等预处理后并通过机器学习框架完成数据的模型训练；

第四步，在文本分析服务器对文本采用上下文理解技术，通过分词，段落语义理解技术，在联合规则制定的基础上，进行词、句、文的安全鉴定；在语音识别服务器上利用语音识别技术完成对音频数据的分析；在图文识别服务器和视频指纹服务器上利用多种上下文结构与深度特征挖掘的图像识别、分类技术，融合不同语义层次的特征，并结合情感分析技术，对图像及视频进行分析；

7.如权利要求6所述基于人工智能的互联网媒体内容安全监测方法，其特征在于，所述互联网媒体内容安全监测方法进一步包括：

第一步，从网页、APP内容采集器、微信、微博渠道抓取新媒体内容，完成对相关互联网和新媒体内容的采集；

第二步，视频图像的识别模型训练；

第三步，不良内容监测、专用设备、全媒体内容智能分析；

第四步，互联网和新媒体内容的监管以及指定微博、微信、移动APP的内容监测；

第五步，提供“黑白名单”监管业务配置，以WEB网页形式将各类功能进行展示及配置；用户通过WEB浏览器对系统进行登录和访问，根据权限调用不同功能模块，下发及管理各类监管任务；

第六步，以WEB网页形式将各类功能进行展示及配置。

8.一种实现权利要求1～5任意一项所述基于人工智能的互联网媒体内容安全监测系统的计算机程序。

9.一种实现权利要求1～5任意一项所述基于人工智能的互联网媒体内容安全监测系统的信息数据处理终端。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的基于人工智能的互联网媒体内容安全监测系统。