CN116415017B - 基于人工智能的广告敏感内容审核方法及系统 - Google Patents

基于人工智能的广告敏感内容审核方法及系统 Download PDF

Info

Publication number
CN116415017B
CN116415017B CN202310258236.4A CN202310258236A CN116415017B CN 116415017 B CN116415017 B CN 116415017B CN 202310258236 A CN202310258236 A CN 202310258236A CN 116415017 B CN116415017 B CN 116415017B
Authority
CN
China
Prior art keywords
content
auditing
advertisement
sensitive
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310258236.4A
Other languages
English (en)
Other versions
CN116415017A (zh
Inventor
肖建喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Juzi Media Co ltd
Original Assignee
Hubei Juzi Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Juzi Media Co ltd filed Critical Hubei Juzi Media Co ltd
Priority to CN202310258236.4A priority Critical patent/CN116415017B/zh
Publication of CN116415017A publication Critical patent/CN116415017A/zh
Application granted granted Critical
Publication of CN116415017B publication Critical patent/CN116415017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Acoustics & Sound (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于人工智能的广告敏感内容审核方法及系统,涉及人工智能技术领域,主要目的是运用人工智能技术,有效的提升对广告内容的审核的效率,该方法通过广告发布请求或内容审核请求将获取到的广告资源,利用人工智能技术对需要审核的广告进行定位和识别,将识别的数据导入到敏感内容审核识别系统,按照系统所设定的分级制度进行敏感内容识别,最终将审核的结果反馈给广告用户。本发明提供的方法,可以根据用户需求自动实现对广告内容快速、精准的进行内容识别和广告内容风险自动审核。

Description

基于人工智能的广告敏感内容审核方法及系统
技术领域:
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的广告敏感内容审核方法及系统。
技术背景
随着计算机技术和互联网技术应用,尤其是移动互联网的快速发展,消费者通过广告、电商方式获取到商品信息渠道越来越广泛。
新商业、数字经济的迅速发展,为互联网广告行业带来了新的发展机会,商家可以通过互联网广告迅速的宣传各种营销信息,消费者可以通过互联网快捷的触达需求的各种商品,这一切的需求来源都为广告行业带来了海量的市场需求。传统上,采用人工审核的方式,耗时耗力且审核颗粒度无法精研到大众万象的各种广告类型,只能依靠个人的知识经验储备量来判断是否可行,造就了审核标准无法统一,审核结果无法做到万无一失等重大难题。因此针对于广告行业敏感内容的审核有了各种方式创新,依托于计算机人工智能深度学习的方式,不仅可以准确、高效的对敏感内容进行安全审核,从未来发展来说,通过深度学习逐步完善的AI审核模型,在审核效率和准确率方面的优越性,将全面赶超当前已有的任何审核方式。
发明内容
本发明的目的在于提供一种基于人工智能的广告敏感内容审核方法及系统,通过人工智能的算法,以及深度学习数据累积的方式,解决广告内容审核规范化,审核结果无法标准化问题。
为了实现上述目的,本发明采取的技术方案如下:
第一方面,本发明实施例提供了一种基于人工智能的广告敏感内容审核方法,所述方法包括:
通过广告发布请求或内容审核请求,获取到需要审核的广告内容资源,并对资源文件进行视频和图像分类;
利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,并将图形识别提取的特征数据输入到预先训练好的卷积神经网络分类模型中,获取到特征图集结果数据;
将结果数据导出至敏感内容审核系统的分类数据库,进行第一次敏感内容智能审核,将高于三级风险的广告内容直接给出未通过审核的结果反馈;
对低于三级风险的广告内容,向人工审核通道提交详细的审核反馈数据,并发起第二次敏感内容人工审核,以便确定最终审核结果;
待人工审核的最终结果确定后,通过广告敏感内容审核系统的接口给予用户最终结果反馈,完成审核。
进一步的,在第一方面广告敏感内容审核方法中,广告敏感内容审核系统在获取到广告内容资源为视频文件时,会优先对视频资源的音频信息通过ASR自动语音识别算法将其转换为文字内容,并与图像识别内容进行匹配,包含如下步骤:
S101、系统获取到视频资源后,采用ASR自动语音识别算法,对视频的音频部分进行识别转化成为文字内容,保存为视频信息的临时文件;
S102、系统通过实例分割模型算法Mask-RCNN的模型结构对视频内容进行定位和识别后,将识别内容通过预先训练好的卷积神经网络分类模型通过信息输出方式,以文字信息保存为临时文件;
S103、系统将视频资源的语音内容信息与视频内容信息,通过广告敏感内容审核系统进行文字内容匹配,并初步判断广告资源的视频与语音内容的关联度是否匹配;
S104、如果匹配,则进入下一步第一次广告敏感内容系统智能审核,如果不匹配,系统将自动将对广告内容直接给出未通过审核的结果反馈,并终止审核。
进一步的,在第一方面广告敏感内容审核方法中,利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,在识别过程中,由一个视频文件的输入传达到内容被识别输出,分为以下步骤:
S201、将视频输入的多媒体文件采用视频帧率方式解析为多张图片;
S202、利用卷积神经网络CNN对图片中的模型内容进行定位,预测包含识别内容的图像区域;
S203、针对图像区域预测的目标进行分割,并将这些分割好的目标内容分类
S204、对分类的目标内容,分割图像上的像素特征进行归属;
S205、从图像中检测出目标内容的某些关键点位置,并经过全连接判断内容对象
S206、最终将识别率最高的模型结果内容输出文本,完成卷积神经网络图像识别。
进一步的,在第一方面广告敏感内容审核方法中,利用卷积神经网络CNN对图片中的模型内容进行定位的同时,预先训练好的卷积神经网络分类模型在使用过程中,如需扩展在实际识别中的更多内容目标识别,可通过迁移学习的方式,对足够大的数据集中训练的同时,获取来自于其它神经网络架构,如目前较为主流的ResNeXt/Inception v4,如此来得到更加庞大、精准的识别网络架构。
进一步的,在第一方面广告敏感内容审核方法中,敏感内容审核系统的分类数据库,根据不同等级风险内容识别标签进行分类,从L1到L5,每一级的风险指数与审核用户的行业和内容标签进行数据绑定,并通过互联网大数据对广告行业敏感风险标签进行不断持续的深度学习,实时地针对敏感内容审核实施动态审核管理,以达到精准的广告敏感内容审核目的。
进一步的,在第一方面广告敏感内容审核方法中,第一次敏感内容智能审核结果中,对低于三级风险的广告内容,向人工审核通道提交详细的审核反馈数据,并发起第二次敏感内容人工审核的执行过程中,敏感内容审核系统将依据审核内容的详细信息,与风险分类数据库采用基于深度学习的自然语言处理技术,形象的生成一份审核结果建议内容清单,为第二次人工审核建立起审核行为基础建议信息数据,以便使审核人员更快的完成广告内容的审核,也便于广告审核后续维护工作中对人工审核员的行为进行监督管理。
第二方面,本发明实施例提供了一种基于人工智能的广告敏感内容审核系统,所述系统结构包含:
广告内容资源获取接口:通过第三方接口定义,定向的获取到需要通过审核的广告内容资源,可以是免费的,也可以是收费的,依据实际需求而定;
敏感内容审核系统框架:通过可变分布式计算单元,进行广告敏感内容自动审核;
审核结果人工干预平台:根据敏感内容分类分级模型数据进行第一次智能审核以后,通过不同的分级风险内容、风险危害及调整建议,推送到人工审核模块,将最终的审核权交由管理员来进行处理;
审核结果输出反馈平台:将敏感内容审核系统的审核结果,通过反馈平台或开放接口,将最终结果实时的反馈给用户。
进一步的,在第二方面基于人工智能的广告敏感内容审核系统结构中,敏感内容审核系统框架可选用基于CPU/GPU的硬件平台作为计算框架组件进行部署,并且在硬件部署的环境上优先采用分布式架构进行统一部署管理,以满足审核系统的运算和扩展要求。
进一步的,在第二方面基于人工智能的广告敏感内容审核系统结构中,在应用实例分割模型算法Mask-RCNN的模型结构的卷积神经网络识别运算环节,以及通过互联网数据收集来强化敏感风险标签进行不断持续的深度学习环节上,本系统可根据计算要求采用专用集成电路高度定制专用芯片的应用提升运算性能。
本发明实施例提供的一种基于人工智能的广告敏感内容审核方法及系统,通过广告发布请求或内容审核请求,获取到需要审核的广告内容资源,系统在对广告资源进行人工智能自动审核和人工审核后,对所需审核内容实现精准的敏感内容分析识别,然后通过系统所设定的分级制度来判断是否允许广告的发布,对不予以发布的广告内容生成一份审核结果建议内容清单,通过自然语言处理技术将内容清单内容及修改建议简单明了进行展示,从而实现广告内容审核效率的提升,明显的改善广告敏感内容识别的准确性。
附图说明
图1为本发明实施例提供的一种基于人工智能的广告敏感内容审核方法示意图。
图2为本发明实施例提供的视频广告内容审核方法流程示意图。
图3为本发明实施例提供的利用实例分割模型算法对视频内容进行定位和识别的方法流程示意图。
图4为本发明实施例提供的一种基于人工智能的广告敏感内容审核系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案及方法进行清楚、完整地描述,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
如图1所示,提供的一种基于人工智能的广告敏感内容审核方法示意图,示图所示本发明的方法及流程,主要包含了五个步骤,其方法和步骤,包含了对视频、图像、音频及文字内容的综合识别到审核的过程,其详细细节如下:
S1、获取需要审核的广告内容资源,对资源文件进行视频和图像分类:
基于人工智能的广告敏感内容审核系统通过广告内容资源获取接口,获取到来自于广告客户及第三方客户或平台提供的广告内容资源,同时根据这些广告内容的文件属性对广告内容进行分类整理,将所获取到的视频格式的广告内容进行识别,并分别将其视频图像、音频、文字内容,作为单独分类进行临时存储,由敏感内容审核系统框架的审核需求模块进行管理;
S2、对审核内容进行定位和识别,利用卷积神经网络提取特征图集结果数据:
敏感内容审核系统框架的智能识别模块,在获取到来自于审核需求模块发起的任务后,开始对视频及图像内容进行识别,智能识别模块利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,并将图形识别提取的特征数据输入到预先训练好的卷积神经网络分类模型中,获取到特征图集结果数据,并将这些数据一并保存至分类的临时存储,待智能审核模块进行数据整理与匹配;
S3、将结果数据导出到敏感内容审核识别系统,进行敏感内容识别:
敏感内容审核模块,获取到来自智能识别模块的临时数据后,将根据敏感内容分类分级模型数据库进行第一次智能审核,对所识别的内容进行数据匹配,并整理输出关键的审核数据,依次根据违禁内容、违法广告内容、虚假内容、违反消费者权益保护内容、个人肖像权风险内容、商标及版权、音乐版权风险提示内容等不同的敏感审核进行智能的分类,并给出审核结果反馈,敏感内容审核模块,在识别到高风险(三级风险及以上)广告内容时,将会直接给出审核不通过的结果反馈,并将反馈的内容一并返回到审核结果输出反馈平台,便于用户及时的对广告内容进行调整;
S4、利用分级制度信息反馈,将审核结果生成数据内容并发起人工终审;
敏感内容审核模块,根据敏感内容分类分级模型数据进行第一次智能审核以后,通过不同的分级风险内容、风险危害及调整建议,通过NLP自然语言处理学习技术,生成一份详细的审核结果建议内容清单,并推送到人工审核模块,将最终的审核权交由管理员来进行处理;
S5、人工通道给出终审结果,并将最终数据反馈给广告审核用户;
基于人工智能的广告敏感内容审核系统通过敏感内容智能审核完成后,将等待人工审核的最终结果确定,通过广告敏感内容审核系统的接口给予用户最终结果反馈,完成审核。
结合图1所述,S1中广告内容资源获取接口,在获取审核内容时,审核对象可以是图片,使用场景包含如网站展示内容图片、落地页、固定宣传图像等,以图片为主要展示方式的内容;也可以是音频,使用场景包含如人声录音宣传、音乐宣传、歌曲宣传等以音频为主要展示方式的内容;也可以是单独的文字内容,类似使用场景较多的是广告落地页,以图片为背景内容,以文字为主要展示内容的方式;以及最具代表的视频,使用场景主要包含了当前以新媒体为主要宣传方式的各类广告内容。各类广告内容资源的形式不限,可以是单独的展示形式,也可以是多样、重叠的复合型展示形式,例如带有背景音乐、人声录音、动态视频的广告视频内容。
在S2中利用卷积神经网络提取特征图集结果数据,对审核内容进行定位和识别的数据处理流程中,卷积神经网络对图像及视频进行识别和处理的运算支撑硬件部分主要采用以GPU为运算单元的独立系统进行部署,在运算单元系统组件,为了保持运算能力满足系统工作需求的同时兼顾稳定与结果响应速度的效率,本发明进一步的技术提升将引用基于区块链技术的分布式算力区块节点系统方案,形成一套分布式算力资源池为系统提供更加强大的视频分析与神经网络的算力支持。
S2过程中,在完成了识别和定位以后,提取到的特征图集结果数据,将数据导出到敏感内容审核识别系统,进行敏感内容识别,本发明将定义敏感内容识别的系统分为不同的等级方式来判断敏感内容的风险,其敏感内容的体现形式如下所示:
形式一,某某房地产企业广告含有本市最优学区房,广告内容包含学区房,违反广告法,属于五级风险敏感内容;
形式二,某某药品广告治疗某病具有最佳疗效,广告内容包含绝对用词,违反广告法,属于五级风险敏感内容;
形式三,某某店铺活动宣传单,文字内容包含本活动最终解释权归商家所有,广告内容包含霸王条款,违法消费者权益保护法,属于四级风险敏感内容;
形式四,某某企业视频广告,广告内容的音乐部分包含某著名音乐人的钢琴曲,广告内容侵犯音乐版权,属于二级风险敏感内容;
形式五,某某店铺活动广告,其中某商品介绍中包含了文字内容,与该商品行业分类对应的某某商标存在近似风险,违反商标法,属于一级风险敏感内容;
形式六,某某品牌宣传广告,其实图像识别部分包含了某公众人物,该广告内容存在侵犯肖像权、名誉权风险,属于一级风险敏感内容;
诸如上述内容中所体现到的敏感内容、风险等级提示以及对应违法标签提示,均通过本发明的敏感内容审核识别系统进行逐一的识别、定位及排除,形成完善的敏感内容审核机制。
更进一步的,在S4敏感内容审核模块中,根据敏感内容分类分级模型数据进行第一次智能审核以后,通过不同的分级风险内容、风险危害及调整建议,通过NLP自然语言处理学习技术,生成一份详细的审核结果建议内容清单,并推送到人工审核模块,将最终的审核权交由管理员来进行处理,敏感内容分级模型数据在此过程中会自动学习和计算历史审核数据,并进行不断的自动分析与风险排除,人工智能机器在整个识别判断过程中,会根据历史人工干预的数据,审核系统录入的广告用户基础信息数据,以及不同区域的敏感内容出现警示风险的数据,和人工智能机器在互联网海量数据中自动采集到的同类相关的风险内容进行持续地深度学习,从而不断的完善数据的模型框架进行自我学习进化和审核结果的训练,实现更加精准的广告内容风险识别,达到高精度人工智能的广告敏感内容审核目的;
上述内容一种基于人工智能的广告敏感内容审核方法,其对审核内容进行定位和识别,利用卷积神经网络提取特征图集结果数据的方法中,如获取到的广告内容为视频广告时,人工智能敏感内容审核系统框架的智能识别模块,将会首先通过图2所示的方法,对视频广告审核进行处理;
如图2所示,提供的视频广告内容审核方法流程示意图,示图所示本发明在针对获取到视频广告资源内容时,所采用的方法及流程,包含了以下四个步骤:
S101、分析视频资源,采用ASR自动语音识别算法对视频的音频部分进行识别转化成为文字内容;
S102、通过实例分割模型算法Mask-RCNN的模型结构对视频内容进行定位和识别;
S103、系统将视频资源的语音内容信息与视频内容信息进行比对,获取匹配结果;
S104、判断匹配结果是否同步,最终决定是否进入下一步人工智能审核
结合图2所述,S101广告敏感内容审核系统的广告内容资源获取接口在审核视频广告的过程和步骤中,首先是应用ASR语音识别算法,将广告音频部分内容提取,以便于系统审核过程中可以利用基于NLP自然语言处理技术给整个广告内容打赏精准的标签和内容识别;
ASR语音识别算法,通过对广告内容分离的音频信息进行语音信号波形提取,以获取到有效的声学特征,根据训练语音库的特征参数训练出声学模型参数,将待识别的语音的特征参数与声学模型进行匹配,以便得到最终的识别结果;
在语音识别过程中,系统在对广告音频部分内容提取时,还会根据环境、声场、降噪等多维度预处理声音中是否含有其它需备注特征,例如噪音值、环境空旷、声道、其他杂音等相关因素,从而在最终的识别结果中展示相对应的内容;
在S102步骤中,智能识别模块利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,并将图形识别提取的特征数据输入到预先训练好的卷积神经网络分类模型中,获取到特征图集结果数据,并将这些数据一并保存至分类的临时存储,接下来就是将结果数据内容与上面ASR语音识别算法获取到的识别结果内容进行预处理;
此处所提出的预处理,可以理解为S103步骤的语音内容信息与视频内容信息比对,分别通过文字内容识别结果,判断语音与视频图像所获取到的内容是否对应,以便让系统智能判断是否进入下一步人工智能审核;
上述内容一种基于人工智能的广告敏感内容审核方法,对审核内容判断为图片、视频的前提下,利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,并将图形识别提取的特征数据输入到预先训练好的卷积神经网络分类模型中,获取到特征图集结果数据,并将这些数据一并保存至分类的临时存储的整个过程以通过图3所示的方法,完成对图片和视频处理,示图3所示本发明利用实例分割模型算法对视频内容进行定位和识别的方法流程示意图,所采用的方法及流程,包含了以下六个步骤:
S201、将多媒体文件采用视频帧率方式解析为多张图片;
S202、利用卷积网络对识别内容的图像区域定位;
S203、针对图像区域识别的内容进行分割并分类;
S204、将分类的分割图像上的像素特征进行归属;
S205、对分类的图像归属判断内容对象;
S206、通过模型识别出结果内容,完成一次图像识别;
结合图3所述,S201步骤中系统首先需要判断需要识别的内容是图片还是视频,如果是图片,则直接执行步骤S202-206即可,如果判断需要识别的内容为视频,那么第一步将是按照视频的帧率采样解析为多张图片内容,然后再按照视频帧率图像内容进行依次执行S202-206进行图像识别;
更进一步的,在S201步骤结束后,开始执行实例分割模型算法,首先输入一幅需要处理的图片,进行对应的预处理操作,然后将其输入到一个训练好的神经网络中获取到对应的特征图(本发明测试组选用的卷积网络模型为ResNeXt/Inception v4),接着对特征图中的每一个点设定预定值的Roi,从而获得到多个候选Roi,接下来再将这些候选的Roi导入到区域待选网络进行二次分类和回归处理,过滤掉一部分待选区域的Roi,再将剩下的Roi进行网络特征图对齐,最后将对其的Roi进行分类、归属,以判断得出结果内容,循环一次识别过程;如此往复的循环处理一个广告内容所有的待识别图像后,通过对识别结果做去重操作,给出最终的识别结果数据,便将结果数据导出到敏感内容审核识别系统,进行敏感内容识别;
更进一步的,视频广告内容的识别过程还需结合图2和图3所示的方法步骤流程,以便于在判断视频内容匹配的同时,获取到更为准确的结果数据,最终由敏感内容审核识别系统进行处理;
如图4所示,一种基于人工智能的广告敏感内容审核系统结构示意图,示意图所示本发明一种基于人工智能的广告敏感内容审核系统结构包含了广告内容资源获取接口、敏感内容审核系统框架、审核结果人工干预平台、审核结果输出反馈平台四个模块组成,其模块的核心功能如下:
广告内容资源获取接口:获取到来自于广告客户及第三方客户或平台提供的广告内容资源,同时根据这些广告内容的文件属性对广告内容进行分类整理,将所获取到的视频格式的广告内容进行识别,并分别将其视频图像、音频、文字内容,作为单独分类进行临时存储;
敏感内容审核系统框架:通过获取接口得到分类的广告内容进行基于人工智能的敏感内容审核,其中通过智能识别模块,对其需要进行处理的图片和视频进行识别和定位,以得到需要的结果数据,通过敏感内容审核模块,对所识别的内容进行数据匹配,并整理输出关键的审核数据,依次根据违禁内容、违法广告内容、虚假内容、违反消费者权益保护内容、个人肖像权风险内容、商标及版权、音乐版权风险提示内容等不同的敏感审核进行智能的分类,并给出审核结果反馈;
审核结果人工干预平台:根据敏感内容分类分级模型数据进行第一次智能审核以后,通过不同的分级风险内容、风险危害及调整建议,通过NLP自然语言处理学习技术,生成一份详细的审核结果建议内容清单,并推送到人工审核模块,将最终的审核权交由管理员来进行处理;
审核结果输出反馈平台:通过人工智能敏感内容审核系统的智能审核和人工干预审核后,将最终的审核结果,以及敏感内容识别中处理的风险提示,通过NLP自然语言处理技术生成一份审核结果数据,并将最终数据反馈给广告审核用户
结合图4,一种基于人工智能的广告敏感内容审核系统中的敏感内容审核系统框架为其系统架构的核心,选用基于CPU/GPU的硬件平台作为计算框架组件进行部署,并且在硬件部署的环境上优先采用分布式架构进行统一部署管理,以满足审核系统的运算和扩展要求
进一步的,在敏感内容审核系统框架中,在应用实例分割模型算法Mask-RCNN的模型结构的卷积神经网络识别运算环节,以及通过互联网数据收集来强化敏感风险标签进行不断持续的深度学习环节上,本系统可根据计算要求采用专用集成电路高度定制专用芯片的应用提升运算性能;
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本发明内容在此结合实施例对本申请进行了描述,然而,在实施所要求保护本申请的过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包含”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个方法或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (5)

1.一种基于人工智能的广告敏感内容审核方法,其特征在于,包括:
通过广告发布请求或内容审核请求,获取到需要审核的广告内容资源,并对资源文件进行视频和图像分类;
利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,并将图形识别提取的特征数据输入到预先训练好的卷积神经网络分类模型中,获取到特征图集结果数据;
将结果数据导出至敏感内容审核系统的分类数据库,进行第一次敏感内容智能审核,将高于三级风险的广告内容直接给出未通过审核的结果反馈;
对低于三级风险的广告内容,向人工审核通道提交详细的审核反馈数据,并发起第二次敏感内容人工审核,以便确定最终审核结果;
待人工审核的最终结果确定后,通过广告敏感内容审核系统的接口给予用户最终结果反馈,完成审核;
敏感内容审核系统的分类数据库,根据不同等级风险内容识别标签进行分类,从L1到L5,每一级的风险指数与审核用户的行业和内容标签进行数据绑定,并通过互联网大数据对广告行业敏感风险标签进行不断持续的深度学习,实时地针对敏感内容审核实施动态审核管理,以达到精准的广告敏感内容审核目的;
第一次敏感内容智能审核结果中,对低于三级风险的广告内容,向人工审核通道提交详细的审核反馈数据,并发起第二次敏感内容人工审核的执行过程中,敏感内容审核系统将依据审核内容的详细信息,与风险分类数据库采用基于深度学习的自然语言处理技术,形象的生成一份审核结果建议内容清单,为第二次人工审核建立起审核行为基础建议信息数据,以便使审核人员更快的完成广告内容的审核,也便于广告审核后续维护工作中对人工审核员的行为进行监督管理;
广告敏感内容审核系统在获取到广告内容资源为视频文件时,会优先对视频资源的音频信息通过ASR自动语音识别算法将其转换为文字内容,并与图像识别内容进行匹配,包含如下步骤:
S101、系统获取到视频资源后,采用ASR自动语音识别算法,对视频的音频部分进行识别转化成为文字内容,保存为视频信息的临时文件;
S102、系统通过实例分割模型算法Mask-RCNN的模型结构对视频内容进行定位和识别后,将识别内容通过预先训练好的卷积神经网络分类模型通过信息输出方式,以文字信息保存为临时文件;
S103、系统将视频资源的语音内容信息与视频内容信息,通过广告敏感内容审核系统进行文字内容匹配,并初步判断广告资源的视频与语音内容的关联度是否匹配;
S104、如果匹配,则进入下一步第一次广告敏感内容系统智能审核,如果不匹配,系统将自动对广告内容直接给出未通过审核的结果反馈,并终止审核;
利用实例分割模型算法Mask-RCNN的模型结构对审核内容进行定位和识别,在识别过程中,由一个视频文件的输入传达到内容被识别输出,分为以下步骤:
S201、将视频输入的多媒体文件采用视频帧率方式解析为多张图片;
S202、利用卷积神经网络CNN对图片中的模型内容进行定位,预测包含识别内容的图像区域;
S203、针对图像区域预测的目标进行分割,并将这些分割好的目标内容分类;
S204、对分类的目标内容,分割图像上的像素特征进行归属;
S205、从图像中检测出目标内容的某些关键点位置,并经过全连接判断内容对象;
S206、最终将识别率最高的模型结果内容输出文本,完成卷积神经网络图像识别。
2.根据权利要求1所述一种基于人工智能的广告敏感内容审核方法,其特征在于,预先训练好的卷积神经网络分类模型在使用过程中,如需扩展在实际识别中的更多内容目标识别,可通过迁移学习的方式,对足够大的数据集中训练的同时,获取来自于其它神经网络架构,如目前较为主流的ResNeXt/Inception v4,如此来得到更加庞大、精准的识别网络架构。
3.一种基于人工智能的广告敏感内容审核系统,用于执行权利要求1-2任一项所述的基于人工智能的广告敏感内容审核方法,其特征在于,系统结构包含:
广告内容资源获取接口:通过第三方接口定义,定向的获取到需要通过审核的广告内容资源,包含免费资源或收费资源,依据实际需求而定;
敏感内容审核系统框架:通过可变分布式计算单元,进行广告敏感内容自动审核;
审核结果人工干预平台:根据敏感内容分类分级模型数据进行第一次智能审核以后,通过不同的分级风险内容、风险危害及调整建议,推送到人工审核模块,将最终的审核权交由管理员来进行处理;
审核结果输出反馈平台:将敏感内容审核系统的审核结果,通过反馈平台或开放接口,将最终结果实时的反馈给用户。
4.根据权利要求3所述一种基于人工智能的广告敏感内容审核系统,其特征在于,敏感内容审核系统框架可选用基于CPU/GPU的硬件平台作为计算框架组件进行部署,并且在硬件部署的环境上优先采用分布式架构进行统一部署管理,以满足审核系统的运算和扩展要求。
5.根据权利要求3所述一种基于人工智能的广告敏感内容审核系统,其特征在于,在应用实例分割模型算法Mask-RCNN的模型结构的卷积神经网络识别运算环节,以及通过互联网数据收集来强化敏感风险标签进行不断持续的深度学习环节上,本系统可根据计算要求采用专用集成电路高度定制专用芯片的应用提升运算性能。
CN202310258236.4A 2023-03-17 2023-03-17 基于人工智能的广告敏感内容审核方法及系统 Active CN116415017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310258236.4A CN116415017B (zh) 2023-03-17 2023-03-17 基于人工智能的广告敏感内容审核方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310258236.4A CN116415017B (zh) 2023-03-17 2023-03-17 基于人工智能的广告敏感内容审核方法及系统

Publications (2)

Publication Number Publication Date
CN116415017A CN116415017A (zh) 2023-07-11
CN116415017B true CN116415017B (zh) 2024-03-29

Family

ID=87057484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310258236.4A Active CN116415017B (zh) 2023-03-17 2023-03-17 基于人工智能的广告敏感内容审核方法及系统

Country Status (1)

Country Link
CN (1) CN116415017B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822494B (zh) * 2023-08-28 2023-12-08 深圳有咖互动科技有限公司 广播剧信息处理方法、装置、电子设备和计算机可读介质
CN116911924B (zh) * 2023-09-12 2023-11-21 南京闲侠信息科技有限公司 广告数据智能比对方法及系统
CN117541321B (zh) * 2024-01-08 2024-04-12 北京烽火万家科技有限公司 一种基于虚拟数字人的广告制作发布方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107529068A (zh) * 2016-06-21 2017-12-29 北京新岸线网络技术有限公司 视频内容鉴别方法及系统
CN113887432A (zh) * 2021-09-30 2022-01-04 瑞森网安(福建)信息科技有限公司 一种视频审核方法及系统
CN113888227A (zh) * 2021-10-19 2022-01-04 湖南快乐阳光互动娱乐传媒有限公司 一种诱导广告素材识别方法及装置
CN114666618A (zh) * 2022-03-15 2022-06-24 广州欢城文化传媒有限公司 音频审核方法、装置、设备及可读存储介质
CN115187104A (zh) * 2022-07-21 2022-10-14 腾讯音乐娱乐科技(深圳)有限公司 内容审核方法及电子设备和计算机可读存储介质
CN115392861A (zh) * 2022-08-23 2022-11-25 湖南文盾信息技术有限公司 多媒体数据审核系统、审核方法、终端及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415437B2 (en) * 2001-10-31 2008-08-19 The United States Of America As Represented By The Secretary Of The Navy Business development process

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107529068A (zh) * 2016-06-21 2017-12-29 北京新岸线网络技术有限公司 视频内容鉴别方法及系统
CN113887432A (zh) * 2021-09-30 2022-01-04 瑞森网安(福建)信息科技有限公司 一种视频审核方法及系统
CN113888227A (zh) * 2021-10-19 2022-01-04 湖南快乐阳光互动娱乐传媒有限公司 一种诱导广告素材识别方法及装置
CN114666618A (zh) * 2022-03-15 2022-06-24 广州欢城文化传媒有限公司 音频审核方法、装置、设备及可读存储介质
CN115187104A (zh) * 2022-07-21 2022-10-14 腾讯音乐娱乐科技(深圳)有限公司 内容审核方法及电子设备和计算机可读存储介质
CN115392861A (zh) * 2022-08-23 2022-11-25 湖南文盾信息技术有限公司 多媒体数据审核系统、审核方法、终端及计算机存储介质

Also Published As

Publication number Publication date
CN116415017A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN116415017B (zh) 基于人工智能的广告敏感内容审核方法及系统
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN108509465B (zh) 一种视频数据的推荐方法、装置和服务器
CN111741356B (zh) 双录视频的质检方法、装置、设备及可读存储介质
WO2018157746A1 (zh) 一种视频数据的推荐方法和装置
CN110134931B (zh) 媒介标题生成方法、装置、电子设备及可读介质
CN109117777A (zh) 生成信息的方法和装置
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN110569502A (zh) 一种违禁广告语的识别方法、装置、计算机设备及存储介质
CN112395410B (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN107436916B (zh) 智能提示答案的方法及装置
CN113094549A (zh) 一种视频分类方法、装置、电子设备和存储介质
US20190311415A1 (en) Adaptive Multi-Perceptual Similarity Detection and Resolution
CN110489649B (zh) 标签关联内容的方法及装置
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
KR20210148574A (ko) Sns 사용자 채널에 대한 공개 데이터를 분석하여 영향력 리포트를 제공하는 시스템 및 방법
CN114648392A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN113570416B (zh) 投放内容确定方法、装置、电子设备及存储介质
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN111859925B (zh) 一种基于概率情感词典的情感分析系统及方法
CN110765352B (zh) 一种用户兴趣识别方法及装置
KR102404247B1 (ko) 고객 관리 시스템
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN115129902A (zh) 媒体数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant