CN108170813A

CN108170813A - 一种全媒体内容智能审核的方法及其系统

Info

Publication number: CN108170813A
Application number: CN201711482837.4A
Authority: CN
Inventors: 曹杰; 武文斌; 郑海涛; 孔德纯
Original assignee: Zhi Search Tianji (beijing) Information Technology Co Ltd
Current assignee: Zhi Search Tianji (beijing) Information Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-15

Abstract

本发明涉及一种全媒体内容智能审核的方法及其系统，该方法包括获取相关数据，利用数据生成结构化的知识图谱；利用知识图谱进行数据初步过滤，去除不良内容；对过滤后的数据进行识别违规内容，删除带违规内容的数据；获取未能确定的数据，设置未能确定的数据的可见状态，并发送提示信息。本发明实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别，图片各类广告信息的及时过滤；图片、视频不良内容的实时视频流检测和图片截帧检测，以及快速识别评论、站内消息、聊天室、直播平台的违规内容，依托海量垃圾特征实时更新，智能甄别新类型不良内容，便于及时且准确地内容智能预警及处理，降低工作强度，极大地节约成本。

Description

一种全媒体内容智能审核的方法及其系统

技术领域

本发明涉及计算机应用技术领域，更具体地说是指一种全媒体内容智能审核的方法及其系统。

背景技术

随着业务系统越来越庞大，业务逻辑越来越复杂，对于企业发布信息或者获取信息时，需要进行内容的审核，以便发布最代表自身的信息或者获取到与自身的需求最贴近的信息。

目前的内容审核方法主要基于文本内容审核，其次是图片和视频内容的单一审核，审核机制中文本内容审核主要是基于关键字或者综合语义特征的文字内容审核，图片审核主要基于反向链接确定相应的锚文本内容审核，视频审核主要基于相邻内帧的直方图差值审核等；目前的内容审核基本上是单一的内容审核，直播类的内容审核基本还在人为干预阶段。在全平台审核广度和人工智能深度学习和准确度上稍有欠缺，无法针对隐蔽不良内容进行检测识别，对各个渠道的违规内容也无法进行识别，并且在过滤信息的过程中，存在滞留的问题。

因此，有必要设计一种全媒体内容智能审核的方法，实现对隐蔽不良内容进行针对性地检测识别，并及时过滤信息，快速识别违规内容，便于及时且准确地内容智能预警及处理。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种全媒体内容智能审核的方法及其系统。

为实现上述目的，本发明采用以下技术方案：一种全媒体内容智能审核的方法，所述方法包括：

获取相关数据，利用数据生成结构化的知识图谱；

利用知识图谱进行数据初步过滤，去除不良内容；

对过滤后的数据进行识别违规内容，删除带违规内容的数据；

获取未能确定的数据，设置未能确定的数据的可见状态，并发送提示信息。

其进一步技术方案为：获取相关数据，利用数据生成结构化的知识图谱的步骤，包括以下具体步骤：

获取海量数据；

对海量数据进行筛选，获取相关数据；

对数据进行语义分析以及追踪，生成结构化的知识图谱。

其进一步技术方案为：利用知识图谱进行数据初步过滤，去除不良内容的步骤，包括以下具体步骤：

利用知识图谱，对数据进行分析，获取敏感信息、垃圾内容、视频流和图像帧；

对敏感信息进行检测识别；

对垃圾内容进行识别和剔除；

对视频流以及图像帧进行检测，获取违规视频，并过滤违规视频。

其进一步技术方案为：对过滤后的数据进行识别违规内容，删除带违规内容的数据的步骤，具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。

本发明还提供了一种全媒体内容智能审核的系统，包括数据获取单元、过滤单元、违规识别单元以及设置处理单元；

所述数据获取单元，用于获取相关数据，利用数据生成结构化的知识图谱；

所述过滤单元，用于利用知识图谱进行数据初步过滤，去除不良内容；

所述违规识别单元，用于对过滤后的数据进行识别违规内容，删除带违规内容的数据；

所述设置处理单元，用于获取未能确定的数据，设置未能确定的数据的可见状态，并发送提示信息。

其进一步技术方案为：所述数据获取单元包括海量数据获取模块、筛选模块以及图谱生成模块；

所述海量数据获取模块，用于获取海量数据；

所述筛选模块，用于对海量数据进行筛选，获取相关数据；

所述图谱生成模块，用于对数据进行语义分析以及追踪，生成结构化的知识图谱。

其进一步技术方案为：所述过滤单元包括图谱分析模块、敏感信息识别模块、内容剔除以及违规过滤模块；

所述图谱分析模块，用于利用知识图谱，对数据进行分析，获取敏感信息、垃圾内容、视频流和图像帧；

所述敏感信息识别模块，用于对敏感信息进行检测识别；

所述内容剔除，用于对垃圾内容进行识别和剔除；

所述违规过滤模块，用于对视频流以及图像帧进行检测，获取违规视频，并过滤违规视频。

本发明与现有技术相比的有益效果是：本发明的一种全媒体内容智能审核的方法，通过利用知识图谱和智能语义分析追踪学习技术，挖掘到资讯之间的相关关系以及用户的潜在规律并做出科学分析，自动对图文、视频、音频数据进行采集、扫描、分析、过滤审核，实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别，图片各类广告信息的及时过滤；图片、视频不良内容的实时视频流检测和图片截帧检测，以及快速识别评论、站内消息、聊天室、直播平台的违规内容，依托海量垃圾特征实时更新，智能甄别新类型不良内容，便于及时且准确地内容智能预警及处理，降低工作强度，极大地节约成本。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1为本发明具体实施例提供的一种全媒体内容智能审核的方法的流程图；

图2为本发明具体实施例提供的利用数据生成结构化的知识图谱的流程图；

图3为本发明具体实施例提供的利用知识图谱进行数据初步过滤的流程图；

图4为本发明具体实施例提供的在线审核以及离线审核的流程图；

图5为本发明具体实施例提供的一种全媒体内容智能审核的系统的结构框图；

图6为本发明具体实施例提供的数据获取单元的结构框图；

图7为本发明具体实施例提供的过滤单元的结构框图。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

如图1～7所示的具体实施例，本实施例提供的一种全媒体内容智能审核的方法，可以运用在信息发布的审核以及信息捕获的审核过程中，实现对隐蔽不良内容进行针对性地检测识别，并及时过滤信息，快速识别违规内容，便于及时且准确地内容智能预警及处理。

如图1所示，本实施例提供了一种全媒体内容智能审核的方法，该方法包括：

S1、获取相关数据，利用数据生成结构化的知识图谱；

S2、利用知识图谱进行数据初步过滤，去除不良内容；

S3、对过滤后的数据进行识别违规内容，删除带违规内容的数据；

S4、获取未能确定的数据，设置未能确定的数据的可见状态，并发送提示信息。

更进一步地，在某些实施例中，上述的S1步骤，获取相关数据，利用数据生成结构化的知识图谱的步骤，包括以下具体步骤：

S11、获取海量数据；

S12、对海量数据进行筛选，获取相关数据；

S13、对数据进行语义分析以及追踪，生成结构化的知识图谱。

对于上述的S11步骤，具体地，从互联网上爬取海量数据，对海量数据进行分类。

对于上述的S12步骤，对于分类后的海量数据进行筛选，具体可以利用关键词或者近义词进行筛选，获取符合实际情况的相关数据。

对于上述的S13步骤，对于符合实际情况的相关数据进行智能语义分析以及追踪学习技术，不断生成结构化的知识图谱，让机器能更加深刻地理解人类的语义，知识图谱又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

上述的相关数据包括评论、站内消息、聊天室、直播平台所涉及的数据。

更进一步地，在某些实施例中，上述的S2步骤，利用知识图谱进行数据初步过滤，去除不良内容的步骤，包括以下具体步骤：

S21、利用知识图谱，对数据进行分析，获取敏感信息、垃圾内容、视频流和图像帧；

S22、对敏感信息进行检测识别；

S23、对垃圾内容进行识别和剔除；

S24、对视频流以及图像帧进行检测，获取违规视频，并过滤违规视频。

对于上述的S21步骤至S24步骤，依靠知识图谱和智能语义分析追踪学习等技术，挖掘有问题的内容，对数据进行初步过滤，过滤广告、色情、暴力、无意义内容。

对于数据内的文本审核，具体是应用智能语义技术以及海量文本特征库，实时在线或者离线检测文本中广告、色情、灌水、谩骂、暴力等垃圾内容，并对个人资料中昵称、签名等涉嫌违规的敏感信息进行针对性的检测识别；对于数据内的图片审核，具体是应用智能语义技术和机器学习，高效识别产品中的广告、色情、暴力等垃圾图片；对于数据内的视频审核，具体是应用智能语义技术，通过深度学习和超强云计算，实时视频流检测和图片截帧检测，高效智能识别违规视频，杜绝传播风险。

对于上述的S3步骤，对过滤后的数据进行识别违规内容，删除带违规内容的数据的步骤，具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。高效智能识别违规内容，杜绝传播风险。

对于上述的S4步骤，具体是对不好把握的有嫌疑预警内容默认为只有本人可见状态，提醒人工进行人为审核，机器进行二次学习处理。

获取相关数据的过程，可以实时在线获取，也可以离线获取，因此，本方法具有在线实时审核以及离线审核两种模式，如图4所示，连接互联网的接口，同步返回实时审核引擎检测结果，产品根据全媒体内容分类结果，做初步过滤。由于网络环境及全媒体内容本身大小的影响，部分全图片、视频可能出现下载超时情况，该部分数据会转到全媒体内容离线审核接口进行机器离线处理，直到得出结果，机器离线检测后，可能会有部分不确定的数据需要人工进一步确认，离线检测结果及人工确认结果需产品自行定期调用全媒体内容离线检测结果获取。结合机器分析以及人工审核，降低了工作强度，且保证了审核效率和成功率。

具体地，该方法审核内容涉及灌水、广告、低俗、色情、反动、赌博、暴力、隐私等信息，可有效减轻人工审核的负担，有助于客户实现及时、准确的内容智能预警及处理。

对于特殊的图像审核部分，需要人工智能辅助的计算机图像识别技术，属于人工智能的领域，图像审核识别就是AI数据计算机读懂图片的内容，而图像审核识别就是用计算机自动处理大量的物理信息，其基本原理为AI数据计算机对图像进行处理、分析及基本理解，可识别各种不同模式的目标和对象的技术。识别的过程包括图像的预处理、图像的分割、特征提取和判断匹配。对于一般图像审核方式主要有三种：一是纯人工审核；二是建立MD5数据库；三是传统的智能审核，即通过图片RGB值进行识别肤色比例、通过对建模识别异常动作、敏感部位等。

而对于该特殊图片的审核，具体是通过深度学习算法，基本模拟出类似人脑神经的网络，构建出具有更高层次的表现力模型，从而能够对具有高复杂度的数据形成良好的解读，再通过大数据持续训练，形成频繁的算法迭代，可使对特殊图片的内容审核的精确度达到99.6％，有效节省超过95％的人工审核工作。可实现特殊图像的最基本的审核办法：一是色情审核识别，即智能识别图片和视频内容，并对色情程度进行分析，方便对涉黄内容进行快速处理，减少审核人力，降低涉黄风险；二是暴力恐怖审核识别，即识别各类国家命令禁止的相关暴恐图片或相应视频内容；三是时事政治敏感内容审核识别，即建立相应敏感数据库，可识别国家元首领导人、相关政治运动场景等时事政治敏感性内容；四是OCR审核识别，可针对相关广告内容过滤，自动识别图像内容是否正常、二维码信息或者带文字的广告等图片内容。

另外，对于S24步骤中的视频流检测审核，包括以下步骤：

S241、接收待审核的视频流，通过服务器对视频文件进行截图，得到需审核原始视频截图；

S242、将所述截图过程得到的多个需审核原始视频截图拼接成截图组合图片；输出需审核截图组合图片通过智能算法进行审核；

S243、审核服务器将整部视频分割成多个视频小片段；

S244、审核服务器下发给多个审核终端设备进行分开审核。

对于上述的S243步骤，具体是审核服务器接收需审核的每个视频小片段对应的每个片段审核结果，判断整部视频对应的所有相应视频小片段的片段审核结果的数量达到算法服务器预设值时，审核服务器根据预设值算法分析审核结果对所审核视频进行相应处理。

对于上述的S244步骤，具体是分摊视频审核服务器的工作负荷，保证大量的片段审核结果的反馈，保证整部视频的视频审核结果具有客观性、公正性。

上述的一种全媒体内容智能审核的方法，通过利用知识图谱和智能语义分析追踪学习技术，挖掘到资讯之间的相关关系以及用户的潜在规律并做出科学分析，自动对图文、视频、音频数据进行采集、扫描、分析、过滤审核，实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别，图片各类广告信息的及时过滤；图片、视频不良内容的实时视频流检测和图片截帧检测，以及快速识别评论、站内消息、聊天室、直播平台的违规内容，依托海量垃圾特征实时更新，智能甄别新类型不良内容，便于及时且准确地内容智能预警及处理，降低工作强度，极大地节约成本。

如图5所示，本实施例还提供了一种全媒体内容智能审核的系统，其包括数据获取单元1、过滤单元2、违规识别单元3以及设置处理单元4。

数据获取单元1，用于获取相关数据，利用数据生成结构化的知识图谱。

过滤单元2，用于利用知识图谱进行数据初步过滤，去除不良内容。

违规识别单元3，用于对过滤后的数据进行识别违规内容，删除带违规内容的数据。

设置处理单元4，用于获取未能确定的数据，设置未能确定的数据的可见状态，并发送提示信息。

更进一步地，在某些实施例中，上述的数据获取单元1包括海量数据获取模块11、筛选模块12以及图谱生成模块13。

海量数据获取模块11，用于获取海量数据。具体地，从互联网上爬取海量数据，对海量数据进行分类。

筛选模块12，用于对海量数据进行筛选，获取相关数据。具体可以利用关键词或者近义词进行筛选，获取符合实际情况的相关数据。

图谱生成模块13，用于对数据进行语义分析以及追踪，生成结构化的知识图谱。对于符合实际情况的相关数据进行智能语义分析以及追踪学习技术，不断生成结构化的知识图谱，让机器能更加深刻地理解人类的语义，知识图谱又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

更进一步地，在某些实施例中，上述的过滤单元2包括图谱分析模块21、敏感信息识别模块22、内容剔除23以及违规过滤模块24。

图谱分析模块21，用于利用知识图谱，对数据进行分析，获取敏感信息、垃圾内容、视频流和图像帧。

敏感信息识别模块22，用于对敏感信息进行检测识别。

内容剔除23，用于对垃圾内容进行识别和剔除。

违规过滤模块24，用于对视频流以及图像帧进行检测，获取违规视频，并过滤违规视频。

依靠知识图谱和智能语义分析追踪学习等技术，挖掘有问题的内容，对数据进行初步过滤，过滤广告、色情、暴力、无意义内容。

对于上述的违规识别单元3，对过滤后的数据进行识别违规内容，删除带违规内容的数据的步骤，具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。高效智能识别违规内容，杜绝传播风险。

对于上述的设置处理单元4，具体是对不好把握的有嫌疑预警内容默认为只有本人可见状态，提醒人工进行人为审核，机器进行二次学习处理。

另外，对于违规过滤模块进行视频流检测审核，具体地，接收待审核的视频流，通过服务器对视频文件进行截图，得到需审核原始视频截图；将所述截图过程得到的多个需审核原始视频截图拼接成截图组合图片；输出需审核截图组合图片通过智能算法进行审核；审核服务器将整部视频分割成多个视频小片段；审核服务器下发给多个审核终端设备进行分开审核。

审核服务器将整部视频分割成多个视频小片段，具体是审核服务器接收需审核的每个视频小片段对应的每个片段审核结果，判断整部视频对应的所有相应视频小片段的片段审核结果的数量达到算法服务器预设值时，审核服务器根据预设值算法分析审核结果对所审核视频进行相应处理。

审核服务器下发给多个审核终端设备进行分开审核，具体是分摊视频审核服务器的工作负荷，保证大量的片段审核结果的反馈，保证整部视频的视频审核结果具有客观性、公正性。

上述的一种全媒体内容智能审核的系统，通过利用知识图谱和智能语义分析追踪学习技术，挖掘到资讯之间的相关关系以及用户的潜在规律并做出科学分析，自动对图文、视频、音频数据进行采集、扫描、分析、过滤审核，实现机器人智能审核，实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别，图片各类广告信息的及时过滤；图片、视频不良内容的实时视频流检测和图片截帧检测，以及快速识别评论、站内消息、聊天室、直播平台的违规内容，依托海量垃圾特征实时更新，智能甄别新类型不良内容，便于及时且准确地内容智能预警及处理，降低工作强度，极大地节约成本。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.一种全媒体内容智能审核的方法，其特征在于，所述方法包括：

获取相关数据，利用数据生成结构化的知识图谱；

利用知识图谱进行数据初步过滤，去除不良内容；

2.根据权利要求1所述的一种全媒体内容智能审核的方法，其特征在于，获取相关数据，利用数据生成结构化的知识图谱的步骤，包括以下具体步骤：

获取海量数据；

对海量数据进行筛选，获取相关数据；

对数据进行语义分析以及追踪，生成结构化的知识图谱。

3.根据权利要求1所述的一种全媒体内容智能审核的方法，其特征在于，利用知识图谱进行数据初步过滤，去除不良内容的步骤，包括以下具体步骤：

对敏感信息进行检测识别；

对垃圾内容进行识别和剔除；

4.根据权利要求1至3任一项所述的一种全媒体内容智能审核的方法，其特征在于，对过滤后的数据进行识别违规内容，删除带违规内容的数据的步骤，具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。

5.一种全媒体内容智能审核的系统，其特征在于，包括数据获取单元、过滤单元、违规识别单元以及设置处理单元；

6.根据权利要求5所述的一种全媒体内容智能审核的系统，其特征在于，所述数据获取单元包括海量数据获取模块、筛选模块以及图谱生成模块；

所述海量数据获取模块，用于获取海量数据；

所述筛选模块，用于对海量数据进行筛选，获取相关数据；

7.根据权利要求6所述的一种全媒体内容智能审核的系统，其特征在于，所述过滤单元包括图谱分析模块、敏感信息识别模块、内容剔除以及违规过滤模块；

所述敏感信息识别模块，用于对敏感信息进行检测识别；

所述内容剔除，用于对垃圾内容进行识别和剔除；