CN108170813A - 一种全媒体内容智能审核的方法及其系统 - Google Patents

一种全媒体内容智能审核的方法及其系统 Download PDF

Info

Publication number
CN108170813A
CN108170813A CN201711482837.4A CN201711482837A CN108170813A CN 108170813 A CN108170813 A CN 108170813A CN 201711482837 A CN201711482837 A CN 201711482837A CN 108170813 A CN108170813 A CN 108170813A
Authority
CN
China
Prior art keywords
data
content
violation
knowledge mapping
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711482837.4A
Other languages
English (en)
Inventor
曹杰
武文斌
郑海涛
孔德纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhi Search Tianji (beijing) Information Technology Co Ltd
Original Assignee
Zhi Search Tianji (beijing) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhi Search Tianji (beijing) Information Technology Co Ltd filed Critical Zhi Search Tianji (beijing) Information Technology Co Ltd
Priority to CN201711482837.4A priority Critical patent/CN108170813A/zh
Publication of CN108170813A publication Critical patent/CN108170813A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种全媒体内容智能审核的方法及其系统,该方法包括获取相关数据,利用数据生成结构化的知识图谱;利用知识图谱进行数据初步过滤,去除不良内容;对过滤后的数据进行识别违规内容,删除带违规内容的数据;获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。本发明实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别,图片各类广告信息的及时过滤;图片、视频不良内容的实时视频流检测和图片截帧检测,以及快速识别评论、站内消息、聊天室、直播平台的违规内容,依托海量垃圾特征实时更新,智能甄别新类型不良内容,便于及时且准确地内容智能预警及处理,降低工作强度,极大地节约成本。

Description

一种全媒体内容智能审核的方法及其系统
技术领域
本发明涉及计算机应用技术领域,更具体地说是指一种全媒体内容智能审核的方法及其系统。
背景技术
随着业务系统越来越庞大,业务逻辑越来越复杂,对于企业发布信息或者获取信息时,需要进行内容的审核,以便发布最代表自身的信息或者获取到与自身的需求最贴近的信息。
目前的内容审核方法主要基于文本内容审核,其次是图片和视频内容的单一审核,审核机制中文本内容审核主要是基于关键字或者综合语义特征的文字内容审核,图片审核主要基于反向链接确定相应的锚文本内容审核,视频审核主要基于相邻内帧的直方图差值审核等;目前的内容审核基本上是单一的内容审核,直播类的内容审核基本还在人为干预阶段。在全平台审核广度和人工智能深度学习和准确度上稍有欠缺,无法针对隐蔽不良内容进行检测识别,对各个渠道的违规内容也无法进行识别,并且在过滤信息的过程中,存在滞留的问题。
因此,有必要设计一种全媒体内容智能审核的方法,实现对隐蔽不良内容进行针对性地检测识别,并及时过滤信息,快速识别违规内容,便于及时且准确地内容智能预警及处理。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种全媒体内容智能审核的方法及其系统。
为实现上述目的,本发明采用以下技术方案:一种全媒体内容智能审核的方法,所述方法包括:
获取相关数据,利用数据生成结构化的知识图谱;
利用知识图谱进行数据初步过滤,去除不良内容;
对过滤后的数据进行识别违规内容,删除带违规内容的数据;
获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。
其进一步技术方案为:获取相关数据,利用数据生成结构化的知识图谱的步骤,包括以下具体步骤:
获取海量数据;
对海量数据进行筛选,获取相关数据;
对数据进行语义分析以及追踪,生成结构化的知识图谱。
其进一步技术方案为:利用知识图谱进行数据初步过滤,去除不良内容的步骤,包括以下具体步骤:
利用知识图谱,对数据进行分析,获取敏感信息、垃圾内容、视频流和图像帧;
对敏感信息进行检测识别;
对垃圾内容进行识别和剔除;
对视频流以及图像帧进行检测,获取违规视频,并过滤违规视频。
其进一步技术方案为:对过滤后的数据进行识别违规内容,删除带违规内容的数据的步骤,具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。
本发明还提供了一种全媒体内容智能审核的系统,包括数据获取单元、过滤单元、违规识别单元以及设置处理单元;
所述数据获取单元,用于获取相关数据,利用数据生成结构化的知识图谱;
所述过滤单元,用于利用知识图谱进行数据初步过滤,去除不良内容;
所述违规识别单元,用于对过滤后的数据进行识别违规内容,删除带违规内容的数据;
所述设置处理单元,用于获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。
其进一步技术方案为:所述数据获取单元包括海量数据获取模块、筛选模块以及图谱生成模块;
所述海量数据获取模块,用于获取海量数据;
所述筛选模块,用于对海量数据进行筛选,获取相关数据;
所述图谱生成模块,用于对数据进行语义分析以及追踪,生成结构化的知识图谱。
其进一步技术方案为:所述过滤单元包括图谱分析模块、敏感信息识别模块、内容剔除以及违规过滤模块;
所述图谱分析模块,用于利用知识图谱,对数据进行分析,获取敏感信息、垃圾内容、视频流和图像帧;
所述敏感信息识别模块,用于对敏感信息进行检测识别;
所述内容剔除,用于对垃圾内容进行识别和剔除;
所述违规过滤模块,用于对视频流以及图像帧进行检测,获取违规视频,并过滤违规视频。
本发明与现有技术相比的有益效果是:本发明的一种全媒体内容智能审核的方法,通过利用知识图谱和智能语义分析追踪学习技术,挖掘到资讯之间的相关关系以及用户的潜在规律并做出科学分析,自动对图文、视频、音频数据进行采集、扫描、分析、过滤审核,实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别,图片各类广告信息的及时过滤;图片、视频不良内容的实时视频流检测和图片截帧检测,以及快速识别评论、站内消息、聊天室、直播平台的违规内容,依托海量垃圾特征实时更新,智能甄别新类型不良内容,便于及时且准确地内容智能预警及处理,降低工作强度,极大地节约成本。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
图1为本发明具体实施例提供的一种全媒体内容智能审核的方法的流程图;
图2为本发明具体实施例提供的利用数据生成结构化的知识图谱的流程图;
图3为本发明具体实施例提供的利用知识图谱进行数据初步过滤的流程图;
图4为本发明具体实施例提供的在线审核以及离线审核的流程图;
图5为本发明具体实施例提供的一种全媒体内容智能审核的系统的结构框图;
图6为本发明具体实施例提供的数据获取单元的结构框图;
图7为本发明具体实施例提供的过滤单元的结构框图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
如图1~7所示的具体实施例,本实施例提供的一种全媒体内容智能审核的方法,可以运用在信息发布的审核以及信息捕获的审核过程中,实现对隐蔽不良内容进行针对性地检测识别,并及时过滤信息,快速识别违规内容,便于及时且准确地内容智能预警及处理。
如图1所示,本实施例提供了一种全媒体内容智能审核的方法,该方法包括:
S1、获取相关数据,利用数据生成结构化的知识图谱;
S2、利用知识图谱进行数据初步过滤,去除不良内容;
S3、对过滤后的数据进行识别违规内容,删除带违规内容的数据;
S4、获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。
更进一步地,在某些实施例中,上述的S1步骤,获取相关数据,利用数据生成结构化的知识图谱的步骤,包括以下具体步骤:
S11、获取海量数据;
S12、对海量数据进行筛选,获取相关数据;
S13、对数据进行语义分析以及追踪,生成结构化的知识图谱。
对于上述的S11步骤,具体地,从互联网上爬取海量数据,对海量数据进行分类。
对于上述的S12步骤,对于分类后的海量数据进行筛选,具体可以利用关键词或者近义词进行筛选,获取符合实际情况的相关数据。
对于上述的S13步骤,对于符合实际情况的相关数据进行智能语义分析以及追踪学习技术,不断生成结构化的知识图谱,让机器能更加深刻地理解人类的语义,知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
上述的相关数据包括评论、站内消息、聊天室、直播平台所涉及的数据。
更进一步地,在某些实施例中,上述的S2步骤,利用知识图谱进行数据初步过滤,去除不良内容的步骤,包括以下具体步骤:
S21、利用知识图谱,对数据进行分析,获取敏感信息、垃圾内容、视频流和图像帧;
S22、对敏感信息进行检测识别;
S23、对垃圾内容进行识别和剔除;
S24、对视频流以及图像帧进行检测,获取违规视频,并过滤违规视频。
对于上述的S21步骤至S24步骤,依靠知识图谱和智能语义分析追踪学习等技术,挖掘有问题的内容,对数据进行初步过滤,过滤广告、色情、暴力、无意义内容。
对于数据内的文本审核,具体是应用智能语义技术以及海量文本特征库,实时在线或者离线检测文本中广告、色情、灌水、谩骂、暴力等垃圾内容,并对个人资料中昵称、签名等涉嫌违规的敏感信息进行针对性的检测识别;对于数据内的图片审核,具体是应用智能语义技术和机器学习,高效识别产品中的广告、色情、暴力等垃圾图片;对于数据内的视频审核,具体是应用智能语义技术,通过深度学习和超强云计算,实时视频流检测和图片截帧检测,高效智能识别违规视频,杜绝传播风险。
对于上述的S3步骤,对过滤后的数据进行识别违规内容,删除带违规内容的数据的步骤,具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。高效智能识别违规内容,杜绝传播风险。
对于上述的S4步骤,具体是对不好把握的有嫌疑预警内容默认为只有本人可见状态,提醒人工进行人为审核,机器进行二次学习处理。
获取相关数据的过程,可以实时在线获取,也可以离线获取,因此,本方法具有在线实时审核以及离线审核两种模式,如图4所示,连接互联网的接口,同步返回实时审核引擎检测结果,产品根据全媒体内容分类结果,做初步过滤。由于网络环境及全媒体内容本身大小的影响,部分全图片、视频可能出现下载超时情况,该部分数据会转到全媒体内容离线审核接口进行机器离线处理,直到得出结果,机器离线检测后,可能会有部分不确定的数据需要人工进一步确认,离线检测结果及人工确认结果需产品自行定期调用全媒体内容离线检测结果获取。结合机器分析以及人工审核,降低了工作强度,且保证了审核效率和成功率。
具体地,该方法审核内容涉及灌水、广告、低俗、色情、反动、赌博、暴力、隐私等信息,可有效减轻人工审核的负担,有助于客户实现及时、准确的内容智能预警及处理。
对于特殊的图像审核部分,需要人工智能辅助的计算机图像识别技术,属于人工智能的领域,图像审核识别就是AI数据计算机读懂图片的内容,而图像审核识别就是用计算机自动处理大量的物理信息,其基本原理为AI数据计算机对图像进行处理、分析及基本理解,可识别各种不同模式的目标和对象的技术。识别的过程包括图像的预处理、图像的分割、特征提取和判断匹配。对于一般图像审核方式主要有三种:一是纯人工审核;二是建立MD5数据库;三是传统的智能审核,即通过图片RGB值进行识别肤色比例、通过对建模识别异常动作、敏感部位等。
而对于该特殊图片的审核,具体是通过深度学习算法,基本模拟出类似人脑神经的网络,构建出具有更高层次的表现力模型,从而能够对具有高复杂度的数据形成良好的解读,再通过大数据持续训练,形成频繁的算法迭代,可使对特殊图片的内容审核的精确度达到99.6%,有效节省超过95%的人工审核工作。可实现特殊图像的最基本的审核办法:一是色情审核识别,即智能识别图片和视频内容,并对色情程度进行分析,方便对涉黄内容进行快速处理,减少审核人力,降低涉黄风险;二是暴力恐怖审核识别,即识别各类国家命令禁止的相关暴恐图片或相应视频内容;三是时事政治敏感内容审核识别,即建立相应敏感数据库,可识别国家元首领导人、相关政治运动场景等时事政治敏感性内容;四是OCR审核识别,可针对相关广告内容过滤,自动识别图像内容是否正常、二维码信息或者带文字的广告等图片内容。
另外,对于S24步骤中的视频流检测审核,包括以下步骤:
S241、接收待审核的视频流,通过服务器对视频文件进行截图,得到需审核原始视频截图;
S242、将所述截图过程得到的多个需审核原始视频截图拼接成截图组合图片;输出需审核截图组合图片通过智能算法进行审核;
S243、审核服务器将整部视频分割成多个视频小片段;
S244、审核服务器下发给多个审核终端设备进行分开审核。
对于上述的S243步骤,具体是审核服务器接收需审核的每个视频小片段对应的每个片段审核结果,判断整部视频对应的所有相应视频小片段的片段审核结果的数量达到算法服务器预设值时,审核服务器根据预设值算法分析审核结果对所审核视频进行相应处理。
对于上述的S244步骤,具体是分摊视频审核服务器的工作负荷,保证大量的片段审核结果的反馈,保证整部视频的视频审核结果具有客观性、公正性。
上述的一种全媒体内容智能审核的方法,通过利用知识图谱和智能语义分析追踪学习技术,挖掘到资讯之间的相关关系以及用户的潜在规律并做出科学分析,自动对图文、视频、音频数据进行采集、扫描、分析、过滤审核,实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别,图片各类广告信息的及时过滤;图片、视频不良内容的实时视频流检测和图片截帧检测,以及快速识别评论、站内消息、聊天室、直播平台的违规内容,依托海量垃圾特征实时更新,智能甄别新类型不良内容,便于及时且准确地内容智能预警及处理,降低工作强度,极大地节约成本。
如图5所示,本实施例还提供了一种全媒体内容智能审核的系统,其包括数据获取单元1、过滤单元2、违规识别单元3以及设置处理单元4。
数据获取单元1,用于获取相关数据,利用数据生成结构化的知识图谱。
过滤单元2,用于利用知识图谱进行数据初步过滤,去除不良内容。
违规识别单元3,用于对过滤后的数据进行识别违规内容,删除带违规内容的数据。
设置处理单元4,用于获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。
更进一步地,在某些实施例中,上述的数据获取单元1包括海量数据获取模块11、筛选模块12以及图谱生成模块13。
海量数据获取模块11,用于获取海量数据。具体地,从互联网上爬取海量数据,对海量数据进行分类。
筛选模块12,用于对海量数据进行筛选,获取相关数据。具体可以利用关键词或者近义词进行筛选,获取符合实际情况的相关数据。
图谱生成模块13,用于对数据进行语义分析以及追踪,生成结构化的知识图谱。对于符合实际情况的相关数据进行智能语义分析以及追踪学习技术,不断生成结构化的知识图谱,让机器能更加深刻地理解人类的语义,知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
上述的相关数据包括评论、站内消息、聊天室、直播平台所涉及的数据。
更进一步地,在某些实施例中,上述的过滤单元2包括图谱分析模块21、敏感信息识别模块22、内容剔除23以及违规过滤模块24。
图谱分析模块21,用于利用知识图谱,对数据进行分析,获取敏感信息、垃圾内容、视频流和图像帧。
敏感信息识别模块22,用于对敏感信息进行检测识别。
内容剔除23,用于对垃圾内容进行识别和剔除。
违规过滤模块24,用于对视频流以及图像帧进行检测,获取违规视频,并过滤违规视频。
依靠知识图谱和智能语义分析追踪学习等技术,挖掘有问题的内容,对数据进行初步过滤,过滤广告、色情、暴力、无意义内容。
对于数据内的文本审核,具体是应用智能语义技术以及海量文本特征库,实时在线或者离线检测文本中广告、色情、灌水、谩骂、暴力等垃圾内容,并对个人资料中昵称、签名等涉嫌违规的敏感信息进行针对性的检测识别;对于数据内的图片审核,具体是应用智能语义技术和机器学习,高效识别产品中的广告、色情、暴力等垃圾图片;对于数据内的视频审核,具体是应用智能语义技术,通过深度学习和超强云计算,实时视频流检测和图片截帧检测,高效智能识别违规视频,杜绝传播风险。
对于上述的违规识别单元3,对过滤后的数据进行识别违规内容,删除带违规内容的数据的步骤,具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。高效智能识别违规内容,杜绝传播风险。
对于上述的设置处理单元4,具体是对不好把握的有嫌疑预警内容默认为只有本人可见状态,提醒人工进行人为审核,机器进行二次学习处理。
获取相关数据的过程,可以实时在线获取,也可以离线获取,因此,本方法具有在线实时审核以及离线审核两种模式,如图4所示,连接互联网的接口,同步返回实时审核引擎检测结果,产品根据全媒体内容分类结果,做初步过滤。由于网络环境及全媒体内容本身大小的影响,部分全图片、视频可能出现下载超时情况,该部分数据会转到全媒体内容离线审核接口进行机器离线处理,直到得出结果,机器离线检测后,可能会有部分不确定的数据需要人工进一步确认,离线检测结果及人工确认结果需产品自行定期调用全媒体内容离线检测结果获取。结合机器分析以及人工审核,降低了工作强度,且保证了审核效率和成功率。
具体地,该方法审核内容涉及灌水、广告、低俗、色情、反动、赌博、暴力、隐私等信息,可有效减轻人工审核的负担,有助于客户实现及时、准确的内容智能预警及处理。
对于特殊的图像审核部分,需要人工智能辅助的计算机图像识别技术,属于人工智能的领域,图像审核识别就是AI数据计算机读懂图片的内容,而图像审核识别就是用计算机自动处理大量的物理信息,其基本原理为AI数据计算机对图像进行处理、分析及基本理解,可识别各种不同模式的目标和对象的技术。识别的过程包括图像的预处理、图像的分割、特征提取和判断匹配。对于一般图像审核方式主要有三种:一是纯人工审核;二是建立MD5数据库;三是传统的智能审核,即通过图片RGB值进行识别肤色比例、通过对建模识别异常动作、敏感部位等。
而对于该特殊图片的审核,具体是通过深度学习算法,基本模拟出类似人脑神经的网络,构建出具有更高层次的表现力模型,从而能够对具有高复杂度的数据形成良好的解读,再通过大数据持续训练,形成频繁的算法迭代,可使对特殊图片的内容审核的精确度达到99.6%,有效节省超过95%的人工审核工作。可实现特殊图像的最基本的审核办法:一是色情审核识别,即智能识别图片和视频内容,并对色情程度进行分析,方便对涉黄内容进行快速处理,减少审核人力,降低涉黄风险;二是暴力恐怖审核识别,即识别各类国家命令禁止的相关暴恐图片或相应视频内容;三是时事政治敏感内容审核识别,即建立相应敏感数据库,可识别国家元首领导人、相关政治运动场景等时事政治敏感性内容;四是OCR审核识别,可针对相关广告内容过滤,自动识别图像内容是否正常、二维码信息或者带文字的广告等图片内容。
另外,对于违规过滤模块进行视频流检测审核,具体地,接收待审核的视频流,通过服务器对视频文件进行截图,得到需审核原始视频截图;将所述截图过程得到的多个需审核原始视频截图拼接成截图组合图片;输出需审核截图组合图片通过智能算法进行审核;审核服务器将整部视频分割成多个视频小片段;审核服务器下发给多个审核终端设备进行分开审核。
审核服务器将整部视频分割成多个视频小片段,具体是审核服务器接收需审核的每个视频小片段对应的每个片段审核结果,判断整部视频对应的所有相应视频小片段的片段审核结果的数量达到算法服务器预设值时,审核服务器根据预设值算法分析审核结果对所审核视频进行相应处理。
审核服务器下发给多个审核终端设备进行分开审核,具体是分摊视频审核服务器的工作负荷,保证大量的片段审核结果的反馈,保证整部视频的视频审核结果具有客观性、公正性。
上述的一种全媒体内容智能审核的系统,通过利用知识图谱和智能语义分析追踪学习技术,挖掘到资讯之间的相关关系以及用户的潜在规律并做出科学分析,自动对图文、视频、音频数据进行采集、扫描、分析、过滤审核,实现机器人智能审核,实现对用户资料昵称、头像、签名区域的隐蔽不良内容进行针对性地检测识别,图片各类广告信息的及时过滤;图片、视频不良内容的实时视频流检测和图片截帧检测,以及快速识别评论、站内消息、聊天室、直播平台的违规内容,依托海量垃圾特征实时更新,智能甄别新类型不良内容,便于及时且准确地内容智能预警及处理,降低工作强度,极大地节约成本。
上述仅以实施例来进一步说明本发明的技术内容,以便于读者更容易理解,但不代表本发明的实施方式仅限于此,任何依本发明所做的技术延伸或再创造,均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims (7)

1.一种全媒体内容智能审核的方法,其特征在于,所述方法包括:
获取相关数据,利用数据生成结构化的知识图谱;
利用知识图谱进行数据初步过滤,去除不良内容;
对过滤后的数据进行识别违规内容,删除带违规内容的数据;
获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。
2.根据权利要求1所述的一种全媒体内容智能审核的方法,其特征在于,获取相关数据,利用数据生成结构化的知识图谱的步骤,包括以下具体步骤:
获取海量数据;
对海量数据进行筛选,获取相关数据;
对数据进行语义分析以及追踪,生成结构化的知识图谱。
3.根据权利要求1所述的一种全媒体内容智能审核的方法,其特征在于,利用知识图谱进行数据初步过滤,去除不良内容的步骤,包括以下具体步骤:
利用知识图谱,对数据进行分析,获取敏感信息、垃圾内容、视频流和图像帧;
对敏感信息进行检测识别;
对垃圾内容进行识别和剔除;
对视频流以及图像帧进行检测,获取违规视频,并过滤违规视频。
4.根据权利要求1至3任一项所述的一种全媒体内容智能审核的方法,其特征在于,对过滤后的数据进行识别违规内容,删除带违规内容的数据的步骤,具体是采用语义分析技术、深度学习分析技术和超强云计算技术进行识别违规内容。
5.一种全媒体内容智能审核的系统,其特征在于,包括数据获取单元、过滤单元、违规识别单元以及设置处理单元;
所述数据获取单元,用于获取相关数据,利用数据生成结构化的知识图谱;
所述过滤单元,用于利用知识图谱进行数据初步过滤,去除不良内容;
所述违规识别单元,用于对过滤后的数据进行识别违规内容,删除带违规内容的数据;
所述设置处理单元,用于获取未能确定的数据,设置未能确定的数据的可见状态,并发送提示信息。
6.根据权利要求5所述的一种全媒体内容智能审核的系统,其特征在于,所述数据获取单元包括海量数据获取模块、筛选模块以及图谱生成模块;
所述海量数据获取模块,用于获取海量数据;
所述筛选模块,用于对海量数据进行筛选,获取相关数据;
所述图谱生成模块,用于对数据进行语义分析以及追踪,生成结构化的知识图谱。
7.根据权利要求6所述的一种全媒体内容智能审核的系统,其特征在于,所述过滤单元包括图谱分析模块、敏感信息识别模块、内容剔除以及违规过滤模块;
所述图谱分析模块,用于利用知识图谱,对数据进行分析,获取敏感信息、垃圾内容、视频流和图像帧;
所述敏感信息识别模块,用于对敏感信息进行检测识别;
所述内容剔除,用于对垃圾内容进行识别和剔除;
所述违规过滤模块,用于对视频流以及图像帧进行检测,获取违规视频,并过滤违规视频。
CN201711482837.4A 2017-12-29 2017-12-29 一种全媒体内容智能审核的方法及其系统 Pending CN108170813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711482837.4A CN108170813A (zh) 2017-12-29 2017-12-29 一种全媒体内容智能审核的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711482837.4A CN108170813A (zh) 2017-12-29 2017-12-29 一种全媒体内容智能审核的方法及其系统

Publications (1)

Publication Number Publication Date
CN108170813A true CN108170813A (zh) 2018-06-15

Family

ID=62516667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711482837.4A Pending CN108170813A (zh) 2017-12-29 2017-12-29 一种全媒体内容智能审核的方法及其系统

Country Status (1)

Country Link
CN (1) CN108170813A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033416A (zh) * 2018-08-06 2018-12-18 钱文浩 电子审核自动触发方法
CN109271534A (zh) * 2018-10-19 2019-01-25 武汉斗鱼网络科技有限公司 一种直播数据识别框架、方法、服务器及存储介质
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN109446461A (zh) * 2018-10-29 2019-03-08 成都思维世纪科技有限责任公司 一种cdn及cache缓存不良信息内容审计的方法
CN109831699A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 图像审核处理方法、装置、电子设备及存储介质
CN109862394A (zh) * 2019-03-27 2019-06-07 北京周同科技有限公司 视频内容的审核方法、装置、设备和存储介质
CN110225373A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种视频审核方法、装置及电子设备
CN110413862A (zh) * 2019-07-25 2019-11-05 磐基(湖北)网络安全技术有限公司 一种基于人工智能的信息监测方法及系统
JP2020004248A (ja) * 2018-06-29 2020-01-09 株式会社エヌケービー 映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法
CN110837615A (zh) * 2019-11-05 2020-02-25 福建省趋普物联科技有限公司 广告内容信息过滤人工智能审核系统
CN110956123A (zh) * 2019-11-27 2020-04-03 中移(杭州)信息技术有限公司 一种富媒体内容的审核方法、装置、服务器及存储介质
CN111182314A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 直播流处理方法、装置及数据处理方法
CN111372091A (zh) * 2020-02-26 2020-07-03 广州趣丸网络科技有限公司 一种直播内容风险信息控制方法及系统
CN111400579A (zh) * 2020-03-02 2020-07-10 深圳市芯众云科技有限公司 智能硬件搜索引擎系统
CN111565329A (zh) * 2019-10-28 2020-08-21 张瑞 一种基于大数据的弹幕显示处理方法
CN111723784A (zh) * 2020-07-30 2020-09-29 腾讯科技(深圳)有限公司 一种风险视频识别方法、装置和电子设备
CN111882371A (zh) * 2019-04-15 2020-11-03 阿里巴巴集团控股有限公司 内容信息处理、图文内容处理方法、计算机设备、介质
CN112036187A (zh) * 2020-07-09 2020-12-04 上海极链网络科技有限公司 一种结合上下文语境的视频弹幕文本审核方法及系统
CN112417456A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112417457A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的敏感数据还原检测的方法与系统
CN112700654A (zh) * 2020-12-21 2021-04-23 上海眼控科技股份有限公司 视频处理方法、装置、电子设备和存储介质
CN112699264A (zh) * 2020-12-23 2021-04-23 绿瘦健康产业集团有限公司 一种基于聊天记录的风控管理方法及系统
CN112784005A (zh) * 2019-11-11 2021-05-11 财团法人资讯工业策进会 信息检测装置及方法
CN113038153A (zh) * 2021-02-26 2021-06-25 深圳道乐科技有限公司 金融直播违规检测方法、装置、设备及可读存储介质
CN113609276A (zh) * 2021-08-26 2021-11-05 武汉夜莺科技有限公司 一种群组中客户的管理方法、装置及介质
CN113613028A (zh) * 2021-08-03 2021-11-05 北京达佳互联信息技术有限公司 直播数据处理方法、装置、终端、服务器及存储介质
CN113627330A (zh) * 2021-08-10 2021-11-09 北京百度网讯科技有限公司 识别目标类型动态图像的方法、装置及电子设备
WO2021240500A1 (en) * 2020-05-24 2021-12-02 Netspark Ltd Real time local filtering of on-screen images
CN114793287A (zh) * 2022-06-22 2022-07-26 中国传媒大学 一种基于双路导播的音视频内容监播方法
CN116822805A (zh) * 2023-08-29 2023-09-29 深圳市纬亚森科技有限公司 一种基于大数据的教育视频质量监测方法
CN116866666A (zh) * 2023-09-05 2023-10-10 天津市北海通信技术有限公司 轨道交通环境下的视频流画面处理方法及装置
CN116911924A (zh) * 2023-09-12 2023-10-20 南京闲侠信息科技有限公司 广告数据智能比对方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN105335814A (zh) * 2015-09-25 2016-02-17 湖南中德安普大数据网络科技有限公司 在线大数据智能云审计方法及系统
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN106412618A (zh) * 2016-09-09 2017-02-15 上海斐讯数据通信技术有限公司 一种视频审核的方法及系统
CN106934008A (zh) * 2017-02-15 2017-07-07 北京时间股份有限公司 一种垃圾信息的识别方法及装置
CN107368468A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN105335814A (zh) * 2015-09-25 2016-02-17 湖南中德安普大数据网络科技有限公司 在线大数据智能云审计方法及系统
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN106412618A (zh) * 2016-09-09 2017-02-15 上海斐讯数据通信技术有限公司 一种视频审核的方法及系统
CN106934008A (zh) * 2017-02-15 2017-07-07 北京时间股份有限公司 一种垃圾信息的识别方法及装置
CN107368468A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020004248A (ja) * 2018-06-29 2020-01-09 株式会社エヌケービー 映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法
JP7100513B2 (ja) 2018-06-29 2022-07-13 株式会社エヌケービー 映像審査装置、コンピュータプログラム及び映像審査方法
CN109033416A (zh) * 2018-08-06 2018-12-18 钱文浩 电子审核自动触发方法
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN109271534A (zh) * 2018-10-19 2019-01-25 武汉斗鱼网络科技有限公司 一种直播数据识别框架、方法、服务器及存储介质
CN109446461A (zh) * 2018-10-29 2019-03-08 成都思维世纪科技有限责任公司 一种cdn及cache缓存不良信息内容审计的方法
CN111182314B (zh) * 2018-11-12 2022-06-03 阿里巴巴集团控股有限公司 直播流处理方法、装置及数据处理方法
CN111182314A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 直播流处理方法、装置及数据处理方法
CN109831699B (zh) * 2018-12-28 2021-07-20 广州华多网络科技有限公司 图像审核处理方法、装置、电子设备及存储介质
CN109831699A (zh) * 2018-12-28 2019-05-31 广州华多网络科技有限公司 图像审核处理方法、装置、电子设备及存储介质
CN109862394A (zh) * 2019-03-27 2019-06-07 北京周同科技有限公司 视频内容的审核方法、装置、设备和存储介质
CN111882371A (zh) * 2019-04-15 2020-11-03 阿里巴巴集团控股有限公司 内容信息处理、图文内容处理方法、计算机设备、介质
CN110225373A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种视频审核方法、装置及电子设备
CN110413862A (zh) * 2019-07-25 2019-11-05 磐基(湖北)网络安全技术有限公司 一种基于人工智能的信息监测方法及系统
CN111565329A (zh) * 2019-10-28 2020-08-21 张瑞 一种基于大数据的弹幕显示处理方法
CN110837615A (zh) * 2019-11-05 2020-02-25 福建省趋普物联科技有限公司 广告内容信息过滤人工智能审核系统
CN112784005A (zh) * 2019-11-11 2021-05-11 财团法人资讯工业策进会 信息检测装置及方法
CN110956123B (zh) * 2019-11-27 2024-02-27 中移(杭州)信息技术有限公司 一种富媒体内容的审核方法、装置、服务器及存储介质
CN110956123A (zh) * 2019-11-27 2020-04-03 中移(杭州)信息技术有限公司 一种富媒体内容的审核方法、装置、服务器及存储介质
CN111372091A (zh) * 2020-02-26 2020-07-03 广州趣丸网络科技有限公司 一种直播内容风险信息控制方法及系统
CN111400579A (zh) * 2020-03-02 2020-07-10 深圳市芯众云科技有限公司 智能硬件搜索引擎系统
WO2021240500A1 (en) * 2020-05-24 2021-12-02 Netspark Ltd Real time local filtering of on-screen images
CN112036187A (zh) * 2020-07-09 2020-12-04 上海极链网络科技有限公司 一种结合上下文语境的视频弹幕文本审核方法及系统
CN111723784A (zh) * 2020-07-30 2020-09-29 腾讯科技(深圳)有限公司 一种风险视频识别方法、装置和电子设备
CN112417456B (zh) * 2020-11-16 2022-02-08 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112417456A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112417457A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的敏感数据还原检测的方法与系统
CN112700654A (zh) * 2020-12-21 2021-04-23 上海眼控科技股份有限公司 视频处理方法、装置、电子设备和存储介质
CN112699264A (zh) * 2020-12-23 2021-04-23 绿瘦健康产业集团有限公司 一种基于聊天记录的风控管理方法及系统
CN113038153A (zh) * 2021-02-26 2021-06-25 深圳道乐科技有限公司 金融直播违规检测方法、装置、设备及可读存储介质
CN113038153B (zh) * 2021-02-26 2023-06-02 深圳道乐科技有限公司 金融直播违规检测方法、装置、设备及可读存储介质
CN113613028A (zh) * 2021-08-03 2021-11-05 北京达佳互联信息技术有限公司 直播数据处理方法、装置、终端、服务器及存储介质
CN113613028B (zh) * 2021-08-03 2023-08-08 北京达佳互联信息技术有限公司 直播数据处理方法、装置、终端、服务器及存储介质
CN113627330A (zh) * 2021-08-10 2021-11-09 北京百度网讯科技有限公司 识别目标类型动态图像的方法、装置及电子设备
CN113627330B (zh) * 2021-08-10 2024-05-14 北京百度网讯科技有限公司 识别目标类型动态图像的方法、装置及电子设备
CN113609276A (zh) * 2021-08-26 2021-11-05 武汉夜莺科技有限公司 一种群组中客户的管理方法、装置及介质
CN114793287A (zh) * 2022-06-22 2022-07-26 中国传媒大学 一种基于双路导播的音视频内容监播方法
CN114793287B (zh) * 2022-06-22 2022-09-27 中国传媒大学 一种基于双路导播的音视频内容监播方法
CN116822805A (zh) * 2023-08-29 2023-09-29 深圳市纬亚森科技有限公司 一种基于大数据的教育视频质量监测方法
CN116822805B (zh) * 2023-08-29 2023-12-15 北京菜鸟无忧教育科技有限公司 一种基于大数据的教育视频质量监测方法
CN116866666B (zh) * 2023-09-05 2023-12-08 天津市北海通信技术有限公司 轨道交通环境下的视频流画面处理方法及装置
CN116866666A (zh) * 2023-09-05 2023-10-10 天津市北海通信技术有限公司 轨道交通环境下的视频流画面处理方法及装置
CN116911924B (zh) * 2023-09-12 2023-11-21 南京闲侠信息科技有限公司 广告数据智能比对方法及系统
CN116911924A (zh) * 2023-09-12 2023-10-20 南京闲侠信息科技有限公司 广告数据智能比对方法及系统

Similar Documents

Publication Publication Date Title
CN108170813A (zh) 一种全媒体内容智能审核的方法及其系统
CN107358146B (zh) 视频处理方法、装置及存储介质
Osareh Automated identification of diabetic retinal exudates and the optic disc
CN108734184B (zh) 一种对敏感图像进行分析的方法及装置
CN110458154A (zh) 人脸识别方法、装置和计算机可读存储介质
CN110457696A (zh) 一种面向档案数据的人才与政策智能匹配系统和方法
CN105184315A (zh) 一种质检处理方法及系统
CN105871887B (zh) 基于客户端的个性化电子邮件过滤系统和过滤方法
CN113239130A (zh) 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质
CN114202755A (zh) 基于ocr和nlp技术的交易背景真实性审核方法和系统
Oliveira et al. Automated monitoring of construction sites of electric power substations using deep learning
CN109785123A (zh) 一种业务办理协助方法、装置及终端设备
CN110991246A (zh) 一种视频检测方法及系统
Barozzi et al. Filtering images extracted from social media in the response phase of emergency events
CN106598945A (zh) 模板检验方法及装置
Beltzung et al. Real-time detection of fake-shops through machine learning
CN110096606B (zh) 一种外籍人员管理方法、装置和电子设备
CN117371531A (zh) 一种碳政策知识图谱构建系统
CN105786929A (zh) 一种信息监测方法及装置
CN115240277A (zh) 安检行为的监控方法、装置、电子设备及存储介质
CN115083229A (zh) 基于ai视觉识别的飞行训练设备智能识别与警示系统
CN110674269A (zh) 一种线索信息管控方法及系统
CN112256747A (zh) 一种面向电子数据的人物刻画方法
CN109446465A (zh) 一种教育网络舆情监测及管理系统
CN111369394A (zh) 基于大数据的景区客流量统计评估系统及方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615

RJ01 Rejection of invention patent application after publication