CN115827903A - 媒体信息的违规检测方法、装置、电子设备及存储介质 - Google Patents
媒体信息的违规检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115827903A CN115827903A CN202111630232.1A CN202111630232A CN115827903A CN 115827903 A CN115827903 A CN 115827903A CN 202111630232 A CN202111630232 A CN 202111630232A CN 115827903 A CN115827903 A CN 115827903A
- Authority
- CN
- China
- Prior art keywords
- data
- media information
- violation
- key data
- recombined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Storage Device Security (AREA)
Abstract
本申请提供了一种媒体信息的违规检测方法、装置、电子设备及存储介质,涉及违规检测技术领域。该方法包括获取待检测的媒体信息;确定出媒体信息中的关键数据,关键数据为用于评价是否违规的数据;基于与媒体信息的信息类型所对应的重组规则,对关键数据进行重组,得到重组数据;将重组数据与预配置的标准数据库中的数据进行匹配,确定出媒体信息中是否存在违规内容;其中,标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。本申请提供的违规检测方法、装置、电子设备及存储介质能够十分方便快捷的对各种类型的媒体信息进行违规检测,能够满足海量媒体信息的检测需求。
Description
技术领域
本申请涉及违规检测技术领域,尤其涉及一种媒体信息的违规检测方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,互联网中的文本、音频、图像以及视频等媒体信息也呈井喷式增长,其中不乏对一些涉政、色情、暴力等违规内容的媒体信息,对国家安全、社会安定和谐,特别是对青少年的成长都造成了不良影响,因此对媒体信息的违规检测显得十分有必要。
目前,对于媒体信息的违规检测,常用的方式是针对所要检测的内容设置相应的检测模型进行检查,然而由于媒体信息的种类多种多样,不同类型的媒体信息在违规检测时的检测依据也并不相对,从而使得所设置的检测模型往往难以同时实现对各种类型的媒体信息的违规检测。
因此,如何提供一种有效的方案,以便实现统一对各种类型的媒体信息的违规检测,已成为现有技术中一亟待解决的难题。
发明内容
第一方面,本申请实施例提供了一种媒体信息的违规检测方法,包括:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
在一个可能的设计中,所述媒体信息为文本,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
将所述文本与预配置的第一标准词库进行匹配,确定出所述文本中疑似存在违规的关键词;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据,包括:
将所述关键词中的首个文字与其之前相邻的至少一个文字组合得到第一重组词,将所述关键词中的最后一个文字与其之后相邻的至少一个文字组合得到第二重组词;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述第一重组词和所述第二重组词分别与预配置的第二标准词库进行匹配,确定出所述文本中是否存在违规词;
其中,所述第一标准词库中记录有表征违规的词,所述第二标准词库中记录有表征未违规的词。
在一个可能的设计中,当所述文本中存在违规词时,所述方法还包括:
对所述文本中存在的违规词进行标注。
在一个可能的设计中,所述媒体信息为音频,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
将所述音频转换为文本;
将所述文本与预配置的第一标准词库进行匹配,确定出所述文本中疑似存在违规的关键词;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述关键词中的首个文字与其之前相邻的至少一个文字组合得到第一重组词,将所述关键词中的最后一个文字与其之后相邻的至少一个文字组合得到第二重组词;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述第一重组词和所述第二重组词分别与预配置的第二标准词库进行匹配,确定出所述文本中是否存在违规词;
其中,所述第一标准词库中记录有表征违规的词,所述第二标准词库中记录有表征未违规的词。
在一个可能的设计中,所述媒体信息为图像,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
提取出所述图像的形状特征、色彩特征以及纹理特征;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据,包括:
将所述图像的形状特征、色彩特征以及纹理特征进行组合,得到组合特征;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述组合特征与预配置的标准特征库中的特征进行匹配,确定出所述图像中是否存在违规内容;
其中,所述标准特征库中记录有表征存在违规内容的组合特征,所述表征存在违规内容的组合特征是将存在违规内容的图像的形状特征、色彩特征以及纹理特征进行组合得到的特征。
在一个可能的设计中,所述媒体信息为视频,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
提取所述视频中的图像帧;
提取出所述图像帧的形状特征、色彩特征以及纹理特征;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据,包括:
将所述图像帧的形状特征、色彩特征以及纹理特征进行组合,得到组合特征;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述组合特征与预配置的标准特征库中的特征进行匹配,确定出所述图像中是否存在违规内容;
其中,所述标准特征库中记录有表征存在违规内容的组合特征,所述表征存在违规内容的组合特征是将存在违规内容的图像的形状特征、色彩特征以及纹理特征进行组合得到的特征。
在一个可能的设计中,所述获取待检测的媒体信息,包括:
从媒体信息发布端爬取所述媒体信息;或
接收用户上传的所述媒体信息。
第二方面,本申请实施例提供了一种媒体信息的违规检测装置,包括:
获取单元,用于获取待检测的媒体信息;
确定单元,用于确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
重组单元,用于基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
匹配单元,用于将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序,实现以下流程:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下流程:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
本申请一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过确定出媒体信息中的用于评价是否违规的关键数据,并基于媒体信息的信息类型所对应的重组规则,对媒体信息中的关键数据进行重组得到重组数据,然后将重组数据与标准数据库中的数据进行匹配,确定出媒体信息中是否存在违规内容。如此,能够这对不同类型的媒体信息采集不同的重组规则,从而确定出用于评估不同类型媒体信息是否存在违规内容的重组数据,从而能够根据重组数据十分方便快捷的完成对各种类型的媒体信息的违规检测,能够满足海量媒体信息的检测需求。
附图说明
此处所说明的附图用来提供对本文件的进一步理解,构成本文件的一部分,本文件的示意性实施例及其说明用于解释本文件,并不构成对本文件的不当限定。在附图中:
图1为本申请一个实施例提供的媒体信息的违规检测方法的流程图。
图2为本申请一个实施例提供的电子设备的结构示意图。
图3为本申请一个实施例提供的媒体信息的违规检测装置的结构示意图。
具体实施方式
为了便于对各种类型的媒体信息进行违规检测,本申请实施例提供了一种媒体信息的违规检测方法、装置、电子设备及存储介质,该媒体信息的违规检测方法、装置、电子设备及存储介质能够十分方便快捷的完成对各种类型的媒体信息的违规检测,满足海量媒体信息的检测需求。
本申请实施例提供的媒体信息的违规检测方法可应用于服务器或用户端,所述用户端可以是,但不限于个人电脑、智能手机、平板电脑、个人数字助理(personal digitalassistant,PDA)等。
下面将对本申请实施例提供的媒体信息的违规检测方法进行详细说明。可以理解,所述执行主体并不构成对本申请实施例的限定。
如图1所示,是本申请实施例提供的媒体信息的违规检测方法的流程图,媒体信息的违规检测方法可以包括如下步骤:
步骤101,获取待检测的媒体信息。
其中,所述待检测的媒体信息可以是文本、音频、图像或视频等。
在获取待检测的媒体信息时,可以是从媒体信息发布端主动爬取媒体信息,也可以是由用户上传媒体信息。
步骤102,确定出媒体信息中的关键数据。
本申请实施例中,关键数据为用于评价是否违规的数据,由于媒体信息可以是文本、音频、图像或视频,针对不同类型的媒体信息,所确定出的关键数据也不尽相同。下面主要将对确定这四种类型媒体信息中的关键数据分别进行说明。
对于媒体信息为文本的情形,文本中的关键数据可以是指疑似存在违规的关键词。具体的,本申请实施例中,预先配置有第一标准词库,第一标准词库中记录有各种表征违规的词,如涉政、色情、恐怖暴力等敏感或禁用的词。确定关键数据时,可将文本与预配置的第一标准词库进行匹配,确定出文本中疑似存在违规的关键词,该疑似存在违规的关键词即为文本中的关键数据。
对于媒体信息为音频的情形,则可先将音频转换为文本,然后再将文本与预配置的第一标准词库进行匹配,确定出文本中疑似存在违规的关键词,该疑似存在违规的关键词即为音频中的关键数据。
对于媒体信息为图像的情形,图像中的关键数据可以是图像的图像特征。具体的,可先提取出图像的形状特征、色彩特征以及纹理特征,并将图像的形状特征、色彩特征以及纹理特征作为图像中的关键数据。
其中,提取图像的形状特征时可先提取出图像的轮廓,针对不同类型的轮廓赋予不同的编码,例如人物的轮廓、树木的轮廓、猫的轮廓可对应不同的编码。
提取图像的色彩特征可以是先将图像划分为多个区域,提取每个区域的色彩饱和度、亮度或对比度等,并将提取去出的各区域的色彩饱和度、亮度或对比度等作为图像的色彩特征。
图像的纹理特征可以是图像中纹理的粗细、稠密度等。
本申请实施例中,将图像的形状特征、色彩特征以及纹理特征作为图像中的关键数据。可以理解的,在其他的一些实施例中,也可以仅将图像的形状特征、色彩特征以及纹理特征中的其中一项或两项作为图像中的关键数据。
对于媒体信息为视频的情形,则可先提取视频中的图像帧,该图像帧可以是一帧或多帧,对于提取多帧图像帧的情形,可以每隔一定时间提取一帧图像帧。然后再提取出图像帧的形状特征、色彩特征以及纹理特征,并将图像帧的形状特征、色彩特征以及纹理特征作为视频中的关键数据。
步骤103,基于与媒体信息的信息类型所对应的重组规则,对关键数据进行重组,得到重组数据。
本申请实施例中,针对媒体信息的信息类型不同,设置有不同的重组规则,在确定出媒体信息中的关键数据后,可针对媒体信息的信息类型选取相应的重组规则对将媒体信息中的关键数据进行重组。
对于媒体信息为文本的情形,文本中的关键数据为疑似存在违规的关键词,则在对关键数据进行重组时可以先将关键词中的首个文字与其之前相邻的至少一个文字组合得到第一重组词,将关键词中的最后一个文字与其之后相邻的至少一个文字组合得到第二重组词。
例如在一个实施例中,文本的内容为ABCDEFGH,假设DE为疑似存在违规的关键词,则可将D与其之前的C组合成CD作为第一重组词,也可以将D与其之前的BC组合成BCD作为第一重组词,可以将E与其之后的F组合成EF作为第二重组词,也可以将E与其之后的FG组合成EFG作为第二重组词。
对于媒体信息为音频的情形,其中的关键数据为音频转换为文档后,转换后的文档中疑似存在违规的关键词,进行重组时也可以将(转换后的文档中疑似存在违规的)关键词中的首个文字与其之前相邻的至少一个文字组合得到第一重组词,将关键词中的最后一个文字与其之后相邻的至少一个文字组合得到第二重组词。
对于媒体信息为图像的情形,图像中的关键数据为形状特征、色彩特征以及纹理特征,则在对关键数据进行重组时可以将图像的形状特征、色彩特征以及纹理特征进行组合,得到组合特征,并将该组合特征作为重组数据。
对于媒体信息为视频的情形,视频中的关键数据为其图像帧的形状特征、色彩特征以及纹理特征,在对关键数据进行重组时可以将图像帧的形状特征、色彩特征以及纹理特征进行组合,得到组合特征,并将该组合特征作为重组数据。其中,在将形状特征、色彩特征以及纹理特征进行组合时,可将形状特征、色彩特征以及纹理特征依次组合起来或按照特定的顺序组合起来。
步骤104,将重组数据与预配置的标准数据库中的数据进行匹配,确定出媒体信息中是否存在违规内容。
本申请实施例中,还预先配置有第二标准词库和标准特征库,其中第二标准词库中记录有各种表征未违规的词,标准特征库中记录有各种表征存在违规内容的组合特征,表征存在违规内容的组合特征是将存在违规内容的图像(或图像帧)的形状特征、色彩特征以及纹理特征进行组合得到的特征。
对于媒体信息的信息类型为文本或音频的情形,则可将确定出的第一重组词和第二重组词分别与预配置的第二标准词库进行匹配,确定出文本或音频中是否存在违规词。具体的,如果匹配结果为第二标准词库存在与第一重组词或第二重组词匹配的词,则判定文本或音频中不存在违规词,如果第二标准词库中不存在与第一重组词或第二重组词匹配的词,则判定文本或音频中存在违规词,即文本或音频中疑似存在违规的关键词为违规词。
本申请实施例中,疑似存在违规的关键词可以为多个,针对每个关键词可确定出一个第一重组词和一个第二重组词,同一关键词所确定出的一个第一重组词和一个第二重组词可称之为一组重组词。在确定出文本或音频中是否存在违规词时,可以根据各组重组词与第二标准词库进行匹配确定文本或音频中是否存在违规词,只有当根据各组重组词与第二标准词库进行分别匹配时,判断结果均为文本或音频中不存在违规词,才会最终判定文本或音频中不存在违规词。否则,只要有一组重组词与第二标准词库进行匹配时,判断结果为文本或音频中存在违规词,则最终判定文本或音频中存在违规词。
对于媒体信息的信息类型为图像或视频,则可将确定出的组合特征与标准特征库中的特征进行匹配,确定出图像中是否存在违规内容,标准特征库中记录有表征存在违规内容的组合特征,因此只要组合特征与标准特征库中的其中一个特征匹配,则判定图像或视频中存在违规内容。
本申请实施例中,在判断结果为媒体信息中存在违规内容后,还可将判断结果反馈给媒体信息发布端或用户,以便媒体信息发布端或用户采取相应的改正措施。
进一步的,标准特征库中还记录有存在违规内容的组合特征所对应的违规类型,如色情、恐怖暴力等,如此当判定图像或视频中存在违规内容时,还可以确定出图像或视频所对应的违规类型。
另外,本申请实施例中,当媒体信息为文本,且判定结果为文本中存在违规词时,还可以对文本中存在的违规词进行标注,以便媒体信息发布端或用户及时知晓存在的违规词所在的位置,以便及时对存在的违规词进行修改。
综上所述,本申请实施例提供的媒体信息的违规检测方法,通过确定出媒体信息中的用于评价是否违规的关键数据,并基于媒体信息的信息类型所对应的重组规则,对媒体信息中的关键数据进行重组得到重组数据,然后将重组数据与标准数据库中的数据进行匹配,确定出媒体信息中是否存在违规内容。如此,能够这对不同类型的媒体信息采集不同的重组规则,从而确定出用于评估不同类型媒体信息是否存在违规内容的重组数据,从而能够根据重组数据十分方便快捷的完成对文本、音频、图像以及视频等各种类型的媒体信息的违规检测,而无需消耗大量人力进行违规检测,能够满足海量媒体信息的检测需求。同时,在违规检测时还可以确定出图像或视频所对应的违规类型。另外,对于文本,还可以对文本中存在的违规词进行标注,以便媒体信息发布端或用户及时知晓存在的违规词所在的位置,以便及时对存在的违规词进行修改。
图2是本申请的一个实施例提供的电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成媒体信息的违规检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
上述如本申请图2所示实施例揭示的媒体信息的违规检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现媒体信息的违规检测装置在图2所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
图3是本申请的一个实施例提供的媒体信息的违规检测装置的结构示意图。请参阅图3,在一种软件实施方式中,媒体信息的违规检测装置包括:
获取单元,用于获取待检测的媒体信息;
确定单元,用于确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
重组单元,用于基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
匹配单元,用于将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
总之,以上所述仅为本文件的较佳实施例而已,并非用于限定本文件的保护范围。凡在本文件的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本文件的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本文件中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种媒体信息的违规检测方法,其特征在于,包括:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
2.根据权利要求1所述的方法,其特征在于,所述媒体信息为文本,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
将所述文本与预配置的第一标准词库进行匹配,确定出所述文本中疑似存在违规的关键词;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据,包括:
将所述关键词中的首个文字与其之前相邻的至少一个文字组合得到第一重组词,将所述关键词中的最后一个文字与其之后相邻的至少一个文字组合得到第二重组词;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述第一重组词和所述第二重组词分别与预配置的第二标准词库进行匹配,确定出所述文本中是否存在违规词;
其中,所述第一标准词库中记录有表征违规的词,所述第二标准词库中记录有表征未违规的词。
3.根据权利要求2所述的方法,其特征在于,当所述文本中存在违规词时,所述方法还包括:
对所述文本中存在的违规词进行标注。
4.根据权利要求1所述的方法,其特征在于,所述媒体信息为音频,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
将所述音频转换为文本;
将所述文本与预配置的第一标准词库进行匹配,确定出所述文本中疑似存在违规的关键词;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述关键词中的首个文字与其之前相邻的至少一个文字组合得到第一重组词,将所述关键词中的最后一个文字与其之后相邻的至少一个文字组合得到第二重组词;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述第一重组词和所述第二重组词分别与预配置的第二标准词库进行匹配,确定出所述文本中是否存在违规词;
其中,所述第一标准词库中记录有表征违规的词,所述第二标准词库中记录有表征未违规的词。
5.根据权利要求1所述的方法,其特征在于,所述媒体信息为图像,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
提取出所述图像的形状特征、色彩特征以及纹理特征;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据,包括:
将所述图像的形状特征、色彩特征以及纹理特征进行组合,得到组合特征;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述组合特征与预配置的标准特征库中的特征进行匹配,确定出所述图像中是否存在违规内容;
其中,所述标准特征库中记录有表征存在违规内容的组合特征,所述表征存在违规内容的组合特征是将存在违规内容的图像的形状特征、色彩特征以及纹理特征进行组合得到的特征。
6.根据权利要求1所述的方法,其特征在于,所述媒体信息为视频,所述确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据,包括:
提取所述视频中的图像帧;
提取出所述图像帧的形状特征、色彩特征以及纹理特征;
所述基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据,包括:
将所述图像帧的形状特征、色彩特征以及纹理特征进行组合,得到组合特征;
所述将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容,包括:
将所述组合特征与预配置的标准特征库中的特征进行匹配,确定出所述图像中是否存在违规内容;
其中,所述标准特征库中记录有表征存在违规内容的组合特征,所述表征存在违规内容的组合特征是将存在违规内容的图像的形状特征、色彩特征以及纹理特征进行组合得到的特征。
7.根据权利要求1所述的方法,其特征在于,所述获取待检测的媒体信息,包括:
从媒体信息发布端爬取所述媒体信息;或
接收用户上传的所述媒体信息。
8.一种媒体信息的违规检测装置,其特征在于,包括:
获取单元,用于获取待检测的媒体信息;
确定单元,用于确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
重组单元,用于基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
匹配单元,用于将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序,实现以下流程:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
10.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下流程:
获取待检测的媒体信息;
确定出所述媒体信息中的关键数据,所述关键数据为用于评价是否违规的数据;
基于与所述媒体信息的信息类型所对应的重组规则,对所述关键数据进行重组,得到重组数据;
将所述重组数据与预配置的标准数据库中的数据进行匹配,确定出所述媒体信息中是否存在违规内容;
其中,所述标准数据库记录的数据为表征存在违规的数据,或表征不存在违规的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111630232.1A CN115827903A (zh) | 2021-12-28 | 2021-12-28 | 媒体信息的违规检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111630232.1A CN115827903A (zh) | 2021-12-28 | 2021-12-28 | 媒体信息的违规检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115827903A true CN115827903A (zh) | 2023-03-21 |
Family
ID=85516136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111630232.1A Pending CN115827903A (zh) | 2021-12-28 | 2021-12-28 | 媒体信息的违规检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115827903A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306619A (zh) * | 2023-05-17 | 2023-06-23 | 北京拓普丰联信息科技股份有限公司 | 一种公文检测方法、装置、电子设备及存储介质 |
CN116822496A (zh) * | 2023-06-02 | 2023-09-29 | 厦门她趣信息技术有限公司 | 一种社交信息违规检测方法、系统及存储介质 |
-
2021
- 2021-12-28 CN CN202111630232.1A patent/CN115827903A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306619A (zh) * | 2023-05-17 | 2023-06-23 | 北京拓普丰联信息科技股份有限公司 | 一种公文检测方法、装置、电子设备及存储介质 |
CN116306619B (zh) * | 2023-05-17 | 2023-08-25 | 北京拓普丰联信息科技股份有限公司 | 一种公文检测方法、装置、电子设备及存储介质 |
CN116822496A (zh) * | 2023-06-02 | 2023-09-29 | 厦门她趣信息技术有限公司 | 一种社交信息违规检测方法、系统及存储介质 |
CN116822496B (zh) * | 2023-06-02 | 2024-04-19 | 厦门她趣信息技术有限公司 | 一种社交信息违规检测方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400765B (zh) | 一种隐私数据的访问方法、装置及电子设备 | |
US11605087B2 (en) | Method and apparatus for identifying identity information | |
CN107239666B (zh) | 一种对医疗影像数据进行脱敏处理的方法及系统 | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN115827903A (zh) | 媒体信息的违规检测方法、装置、电子设备及存储介质 | |
JP6168996B2 (ja) | コンテンツ制御方法、コンテンツ制御装置およびプログラム | |
CN109271611B (zh) | 一种数据校验方法、装置及电子设备 | |
CN110109888B (zh) | 一种文件处理方法及装置 | |
TW202020713A (zh) | 證據的採集記錄方法、裝置及電子設備 | |
CN113076961B (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN106294765A (zh) | 处理新闻数据的方法及装置 | |
CN113868698A (zh) | 一种文件脱敏方法及设备 | |
CN109598478B (zh) | 一种风测结果描述文案的生成方法、装置及电子设备 | |
WO2017092355A1 (zh) | 一种数据服务系统 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN111143203B (zh) | 机器学习、隐私代码确定方法、装置及电子设备 | |
CN110018844B (zh) | 决策触发方案的管理方法、装置和电子设备 | |
CN111311372A (zh) | 一种用户识别方法和装置 | |
CN112711718A (zh) | 一种评论信息的审核方法、装置、介质及电子设备 | |
CN112183951A (zh) | 基于审核质量评价的监管处理方法和装置 | |
CN112417847A (zh) | 一种新闻内容安全监测方法、系统、装置和存储介质 | |
CN111858619A (zh) | 一种数据自流转的方法、装置和电子设备 | |
CN117493466B (zh) | 财务数据同步方法及系统 | |
CN117034220B (zh) | 一种数字水印处理方法和系统 | |
CN117993489A (zh) | 数据集的生成方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |