CN110879963A - 一种敏感表情包检测方法、装置与电子设备 - Google Patents
一种敏感表情包检测方法、装置与电子设备 Download PDFInfo
- Publication number
- CN110879963A CN110879963A CN201910882236.5A CN201910882236A CN110879963A CN 110879963 A CN110879963 A CN 110879963A CN 201910882236 A CN201910882236 A CN 201910882236A CN 110879963 A CN110879963 A CN 110879963A
- Authority
- CN
- China
- Prior art keywords
- detected
- text
- sensitive
- picture
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 107
- 230000014509 gene expression Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 82
- 230000035945 sensitivity Effects 0.000 claims abstract description 68
- 238000012706 support-vector machine Methods 0.000 claims abstract description 65
- 238000013145 classification model Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000001914 filtration Methods 0.000 claims abstract description 26
- 230000015654 memory Effects 0.000 claims abstract description 18
- 238000000926 separation method Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims abstract description 4
- 239000002245 particle Substances 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 22
- 230000002068 genetic effect Effects 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000008451 emotion Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011896 sensitive detection Methods 0.000 description 2
- 235000010469 Glycine max Nutrition 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种鲁棒性强、准确高效的敏感表情包检测方法、装置与电子设备。所述方法包括:对待测表情包进行图文分离处理,得到待测文本与待测图片;构建周期性更新的敏感词库;将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;构建周期性更新的训练图库,据此建立优化支持向量机分类模型并对所述待测图片进行分类,得到图片分类结果;对所述待测表情包进行检测过滤。所述装置包括:图文分离模块,敏感词库模块,文本敏感值模块、图片分类模块与检测过滤模块。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行以实现所述敏感表情包检测方法的计算机程序。
Description
技术领域
本发明涉及网络信息安全领域,特别是指一种敏感表情包检测方法、装置与电子设备。
背景技术
在如今的现代社会,社会媒体传播和用户评论过程中,由于社会媒体网络的流通性和广泛性,如今不光光是文字信息,图片也可以传播信息,并且图片更加吸引眼球,传播起来速度会更快,范围更加广。如果等敏感信息传播出去,那么舆情舆论将难以控制,会造成很大的负面影响。最佳的办法就是在信息传播之前,利用表情包图片过滤算法对将要发布的图片和文字进行筛查,把不合规的表情包图片在发布之前就处理掉。
发明人通过对现有的敏感表情包检测方法进行分析了解到,现有技术中至少存在以下问题:
现有的用于检测敏感表情包的图库较少,这对敏感表情包的检测和识别有很大影响,检测准确率无法达到理想水平;
敏感表情包中往往附带有文字出现,对表情包图片进行匹配检测时,文字部分对图像识别造成干扰,甚至出现无法识别的情况,这就导致敏感表情包检测效率与效果大大降低;
敏感表情包中的文字部分亦包涵有敏感信息,且往往存在人为干扰设计的情况,传统的针对文字的敏感检测方法也无法很好地辨认和识别。
发明内容
有鉴于此,本发明的目的在于提出一种鲁棒性强、能同时对图像文字进行处理、准确高效的敏感表情包检测方法、装置与电子设备。
基于上述目的,本发明提供了一种敏感表情包检测方法,包括:
对待测表情包进行图文分离处理,得到待测文本与待测图片;
构建周期性更新的敏感词库;
将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;
构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果;
根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤。
可选的,所述对待测表情包进行图文分离处理,得到待测文本与待测图片,包括:
采用图片文字识别技术,从所述待测表情包中截取文字部分并对所述文字部分进行识别得到文字信息,作为所述待测文本;
将所述待测表情包中去除所述文字部分后的剩余图片部分作为所述待测图片。
可选的,在对所述待测表情包进行图文分离处理,得到所述待测文本与所述待测图片之后,还包括:
利用图片主题识别技术,对所述待测图片进行识别,并将识别得到的待测图片主题与所述待测文本进行语义匹配,若所述待测图片主题与所述待测文本的语义产生矛盾,则将相应的所述待测表情包剔除。
可选的,所述构建周期性更新的敏感词库,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
可选的,所述将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值,包括:
对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
将多个所述关键词与所述动态敏感词库进行匹配检测;
根据匹配检测结果计算所述待检测文本的敏感度值。
可选的,所述对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词,包括:
根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
去除所述待测文本中的无意义标记和连接字符,所述无意义标记包括 HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字;
采用基于词典的中文分词技术对所述待测文本进行分词处理,得到用以组成所述待测文本的多个所述关键词,并根据所述关键词在所述待测文本中所处位置为所述关键词添加位置标记;
所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
可选的,所述将多个所述关键词与所述动态敏感词库进行匹配检测,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
可选的,所述根据匹配检测结果计算所述待检测文本的敏感度值,包括:
根据所述待测文本的所述分类标记、所述关键词的位置标记、所述关键词的敏感程度以及所述关键词在相应所述待测文本中出现频繁程度计算所述待测文本的初始敏感度值:
其中,S′(t)表示所述待测文本T的初始敏感度值,Sioc(Si)表示敏感词Si的方位敏感系数,所述方位敏感系数根据所述位置标记确定,typ(Si)表示敏感词Si的主题敏感系数,所述主题敏感系数根据相应所述待测文本的所述分类标记确定,n表示所述待测文半的文本长度,i=1,2,3…,n;
对所述初始敏感度值S′(T)进行归一化处理,得到所述待测文本的所述敏感度值:
可选的,所述构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果,包括:
对所述训练图库中的图片进行处理,确定所述图片中的肤色区域;
根据所述肤色区域,从所述图片中提取关键特征值作为特征向量;
利用所述特征向量,构建初始支持向量机分类模型,并分别利用粒子群算法与遗传算法对所述初始支持向量机分类模型进行优化,得到所述优化支持向量机分类模型;
根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果。
可选的,所述对所述训练图库中的图片进行处理,确定所述图片中的肤色区域,包括:
根据肤色颜色特征,确定肤色点在YUV颜色空间的相位角θ的取值范围 [θmin,θmax],以及在YIQ颜色空间的I分量的取值范围[Imin,Imax];
以所述相位角θ取值范围[θmin,θmax]以及所述I分量的取值范围 [Imin,Imax]为选取条件,对所述图片中的像素点进行选取;
对满足选取条件的像素点所组成的区域进行纹理检测,将由所述像素点组成的区域中具有平滑纹理特性的部分选取出来,作为所述肤色区域。
可选的,根据所述肤色区域,从所述图片中提取关键特征值作为特征向量,包括:
从所述图片中提取六组关键特征值作为所述特征向量,所述六组关键特征值分别为:
肤色占整个图像的比例;
肤色占外接矩形的比例;
肤色连通区域的个数;
最大连通区域占整个图像的比例;
最大肤色连通区域占肤色外接矩形的比例;
图像中心肤色区域肤色比例。
可选的,所述利用所述特征向量,构建初始支持向量机分类模型,并分别利用粒子群算法与遗传算法对所述初始支持向量机分类模型进行优化,得到所述优化支持向量机分类模型,包括:
设定所述支持向量机分类模型的正则化参数C与核参数σ的初始范围;
粒子群算法参数初始化,设置粒子群,设定循环次数v,划分常量w,第一学习因子c1与第二学习因子c2;
计算适应度:
其中,f(x)为适应度函数,ui表示样本i的实际测量值,ui *表示样本i的预测值;
在循环次数内,将粒子个体适应度值与粒子自身的最优适应度值进行比较,将所述粒子自身的最优适应度值更新为二者中的较大值;
在循环次数内,将粒子个体适应度值与群体最优适应度值进行比较,将所述群体最优适应度值更新为二者中的较大值;
循环结束后根据所述粒子自身的最优适应度值与所述群体最优适应度值构建粒子群支撑向量机分类模型;
利用遗传算法对所述粒子群支撑向量机分类模型进行优化,将所述特征向量作为模型样本,对所述模型样本进行编码,将准确率作为遗传适应度函数,利用所述遗传适应度函数对全部所述特征向量进行评价,通过选择交叉和变异操作,选取最优特征向量;
根据所述最优特征向量,确定所述优化支持向量机分类模型。
可选的,所述根据所述优化支持向量机分类模型对所述待测图片进行分类,还包括:
根据所述待测图片的来源对所述待测图片进行主题分类,若所述待测图片是证件照类别的图片或教育资源类别的图片,则所述待测图片不属于敏感图片。
可选的,所述根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤,包括:
设定文本敏感阈值μ,当所述待测文本的所述敏感度值S(T)大于所述文本呢敏感阈值μ时,则说明所述待测文本为敏感文本;
当所述待测文本为敏感文本或所述待测图片为敏感图片时,则说明所述待测表情包为敏感表情包,过滤所述待测表情包;
当所述待测文本不是敏感文本且所述待测图片不是敏感图片时,输出所述待测表情包。
基于上述目的,本发明还提供了一种敏感表情包检测装置,包括:
图文分离模块,被配置为对待测表情包进行图文分离处理,得到待测文本与待测图片;
敏感词库模块,被配置为构建周期性更新的敏感词库;
文本敏感值模块,被配置为将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;
图片分类模块,被配置为构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果;
检测过滤模块,被配置为根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤。
基于上述目的,本发明还提供了一种敏感表情包检测电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述敏感表情包检测方法。
从上面所述可以看出,本发明提供的一种敏感表情包检测方法、装置与电子设备,通过对待测表情包进行图文分离,将文字部分对表情包整体的影响隔离开,采用周期性更新的敏感词库对文字部分内容进行匹配检测,采用周期性更新的训练图库,构建优化支持向量机分类模型对图片部分内容进行分类检测,并将文字部分检测结果以及图片部分检测结果相结合,以最终实现对待测表情包的检测过滤。所述敏感表情包检测方法、装置与电子设备能对待测表情包中的文字与图像同时处理,具有鲁棒性强与准确高效的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种敏感表情包检测方法示意图;
图2为本发明实施例所提供的一种敏感表情包检测方法中确定待测文本敏感度值的方法示意图;
图3为本发明实施例所提供的一种敏感表情包检测方法中对待测文本进行预处理的方法示意图;
图4为本发明实施例所提供的一种敏感表情包检测方法中对待测图片进行分类的方法示意图;
图5为本发明实施例所提供的一种敏感表情包检测方法中选取肤色区域的方法示意图;
图6为本发明实施例所提供的一种敏感表情包检测方法中确定优化支持向量机分类模型的方法示意图;
图7为本发明实施例所提供的一种敏感表情包检测装置示意图;
图8为本发明实施例所提供的一种敏感表情包检测电子设备示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在一方面,本发明提供了一种敏感表情包检测方法。
如图1所示,本发明的一些可选实施例所提供的一种敏感表情包检测方法,包括:
S1:对待测表情包进行图文分离处理,得到待测文本与待测图片;
S2:构建周期性更新的敏感词库;
S3:将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;
S4:构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果;
S5:根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤。
所述敏感表情包检测方法,通过对待测表情包进行图文分离,将文字部分对表情包整体的影响隔离开,采用周期性更新的敏感词库对文字部分内容进行匹配检测,采用周期性更新的训练图库,构建优化支持向量机分类模型对图片部分内容进行分类检测,并将文字部分检测结果以及图片部分检测结果相结合,以最终实现对待测表情包的检测过滤。所述敏感表情包检测方法能对待测表情包中的文字与图像同时处理,具有鲁棒性强与准确高效的技术效果。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述对待测表情包进行图文分离处理,得到待测文本与待测图片S1,包括:
采用图片文字识别技术,从所述待测表情包中截取文字部分并对所述文字部分进行识别得到文字信息,作为所述待测文本;
将所述待测表情包中去除所述文字部分后的剩余图片部分作为所述待测图片。
所述敏感表情包检测方法中,首先将待测表情包主动的文字部分截取出来,以便于之后对文字部分和图片部分分别处理,这样也能将文字部分对图片识别的干扰与影响进行隔离,对图片部分单独处理也能够提高处理准确度。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,在对所述待测表情包进行图文分离处理,得到所述待测文本与所述待测图片之后,还包括:
利用图片主题识别技术,对所述待测图片进行识别,并将识别得到的待测图片主题与所述待测文本进行语义匹配,若所述待测图片主题与所述待测文本的语义产生矛盾,则将相应的所述待测表情包剔除。
所述敏感表情包检测方法中,在对文字部分与图片部分进行分别处理之前,首先将这两者进行语义匹配检测,能够避免文字部分可能出现的反语情况对最终检测结果造成的影响。若识别得到的待测图片主题与所述待测文本不匹配,则说明所述待测表情包存在人为恶意干扰的问题或者纯属无意义的垃圾表情包,因此这种情况下可以直接将所述待测表情包剔除。所述敏感表情包检测方法,对图文明显不匹配的情况进行单独处理,全面细致得考虑到了人为恶意干扰的问题,从而使得最终检测效果更加全面。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述构建周期性更新的敏感词库S2,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
在一些可选的实施例中,在录入敏感词时,同时对敏感词中每个字符都进行拼音、音码以及区位码分析,将与所述敏感词相对应的拼音信息、音码信息、区位码信息以及拆分区位码同时保存录入。采用这样的方式,在之后将所述待测文本与所述敏感词库进行匹配检测时,除根据字符匹配之外、还可以依据拼音、音码或区位码进行匹配,匹配检测的效率更快,准确度更高;并且,实际情况中,所述待测文本部分内容可能非常复杂,会出现汉字、拼音、音码甚至汉字拼接等特殊形式的敏感词,例如“其欠凌”、“操 zong”、“扌足弄”等这种特殊形式的敏感词,采用上述方式,能够将所述特殊形式的敏感词准确无遗漏地检测出来,从而保证后续的匹配检测结果更加准确全面。所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
本领域技术人员应当理解的是,所述敏感级别因子可以根据敏感词具体内容,参考现有网络敏感词审核规则确定;所述更新周期可以根据实际工作需求作出设定,也可以预先设定好更新周期,根据实际检测过滤的效果进行灵活的适应性调整,使最终的对所述待测文本的检测效果达到最佳。
所述敏感表情包检测方法中,构建周期性更新的动态敏感词库作为对所述待测文本匹配检测的依据。通过设定能够灵活调整的更新周期,确保所述动态敏感词库能够实施地将网络中的敏感词完整全面地录入,从而保证所述敏感表情包检测方法在面对实际工作中敏感词不断更新变化的情况也能对所述待测文本做出完整全面的检测和过滤,避免出现遗漏,具有较强的鲁棒性。并且,在构建动态敏感词库的过程中还根据敏感词首字符的拼音首字母将所有敏感词进行预先分类,便于在之后的匹配检测过程中所辖数据范围,从而较少匹配检测工作量,提高匹配检测的工作效率。
如图2所示,在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值S3,包括:
S31:对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
S32:将多个所述关键词与所述动态敏感词库进行匹配检测;
S33:根据匹配检测结果计算所述待检测文本的敏感度值。
所述敏感表情包检测方法中,对所述待测文本进行预处理之后得到多个关键词,通过对每个关键词进行匹配检测确定所述待测文本整体的敏感度值。所述的预处理包括对所述待测文本进行分类、去冗余以及分词处理,其中的分类操作用于确定所述待测文本的主题,从而衡量不同文本主题对敏感度的影响;去冗余操作用于将文本中的无意义连接词等去除,从而摒除人工干扰所带来的负面影响。
如图3所示,在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词,包括:
S311:根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
在一些可选实施例中,采用TF-IDF(term frequency-inverse documentfrequency)技术对所述待测文本进行分类。
S312:去除所述待测文本中的无意义标记和连接字符,所述无意义标记包括HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字;
S313:采用基于词典的中文分词技术对所述待测文本进行分词处理,得到用以组成所述待测文本的多个所述关键词,并根据所述关键词在所述待测文本中所处位置为所述关键词添加位置标记;
所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
所述敏感表情包检测方法,在对待测表情包进行图文分离处理得到所述待测文本之后,对所述待测文本进行分类、去冗余及分词操作。本领域技术人员应当理解的是,同一个词汇处于不同主题种类的文本中时,其是否为敏感词的判定结果是不同的,例如在部分敏感网页中出现的敏感词,当其出现在健康类或者教育科学类网页中时,实际上是不能将其归类为敏感词的,这说明在判定某一文本中的词语是否为敏感词时,此文本的主题分类会对最终结果造成影响。本发明的一些可选实施例中根据所述待测文本的主题对其进行分类,能够避免出现误判错判的情况,从而保证敏感此检测过滤方法结果的准确性。
本领域技术人员还应当理解的是,所述待测文本中可能还会存在很多无意义标记和连接字符,例如HTML标签、注释等无意义标记,“哇”、“哦”、“啊”等语气助词,“虽然…但是…”、“即便…也…”等修饰性词汇,“&&&”、“##”、“555”等无意义的符号数字等,这些标记和字符出现频率较高又不是敏感词,往往会增加检测工作的数据计算量还影响敏感词检测过滤的结果准确性。所述敏感表情包检测方法对所述待测文本执行去冗余操作,将这些冗余的标记和字符去除,能够避免这些无意义标记和字符的干扰,提高敏感表情包检测的准确性和工作效率。
待测文本的敏感值计算工作中,“词”是进行匹配检测的最直接对象,然而一般情况下,文本中只有字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,所以需要首先对待测文本进行分词操作。在所述敏感表情包检测方法中,采用基于词典的中文分词技术对所述待测文本进行分词处理,在此之前向所述中文分词技术所用到的词典中加入所述动态敏感词库中的所有敏感词,所述敏感词作为用户自定义词语,能够使所述待测文本的分词结果更贴合所述动态敏感词库中的敏感词,从而保证最终的敏感表情包检测结果更准确。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述将多个所述关键词与所述动态敏感词库进行匹配检测S32,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
所述敏感表情包检测方法,在对所述待测文本的所述关键词进行匹配检测时,先从周期性更新的所述敏感词库中选取与所述关键词相应的敏感词分类,再从此相应敏感词分类中筛选与所述关键词匹配的敏感词,此筛选过程从所述关键词的第一个字符开始,筛选与所述关键词匹配的敏感词,步步缩小筛选数据范围,从而能够快速缩小匹配范围,并得出准确的匹配结果。若在这一过程中,未能找到与所述关键词相匹配的敏感词,则说明所述关键词不是敏感词;若筛选出了与所述关键词完全匹配的敏感词,但是所述敏感词与所述关键词最后一个字符对应的字符并不是所述敏感词的最后一个字符,即所述关键词与相应敏感词的长度不同,所述关键词只有前几个字符与相应敏感词匹配,所述敏感词的长度大于所述关键词的长度,也说明所述关键词不是敏感词,这对本领域技术人员来说是显而易见的。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述根据匹配检测结果计算所述待检测文本的敏感度值S33,包括:
根据所述待测文本的所述分类标记、所述关键词的位置标记、所述关键词的敏感程度以及所述关键词在相应所述待测文本中出现频繁程度计算所述待测文本的初始敏感度值:
其中,S′(t)表示所述待测文本T的初始敏感度值,Sioc(Si)表示敏感词Si的方位敏感系数,所述方位敏感系数根据所述位置标记确定,typ(Si)表示敏感词Si的主题敏感系数,所述主题敏感系数根据相应所述待测文本的所述分类标记确定,ρ(Si)表示敏感词Si的敏感级别系数,所述敏感级别系数根据所述敏感词的敏感级别因子确定,
n表示所述待测文本的文本长度,i=1,2,3…,n;
对所述初始敏感度值S′(T)进行归一化处理,得到所述待测文本的所述敏感度值:
所述敏感表情包检测方法,根据所述关键词所属待测文本的所述分类标记、所述关键词的所述位置标记、所述关键词的敏感程度以及所述关键词在相应所述待测文本中出现的频繁程度计算所述待测文本的整体敏感度值,对词频、主题、方位及敏感级别这四个影响因素进行综合考虑,使得用最终确定的敏感度值来表征所述待测文本的敏感程度更加准确恰当。
如图4所示,在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果S4,包括:
S41:对所述训练图库中的图片进行处理,确定所述图片中的肤色区域;
S42:根据所述肤色区域,从所述图片中提取关键特征值作为特征向量;
S43:利用所述特征向量,构建初始支持向量机分类模型,并分别利用粒子群算法与遗传算法对所述初始支持向量机分类模型进行优化,得到所述优化支持向量机分类模型;
S44:根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果。
所述敏感表情包检测方法中,利用敏感图像的共同特点来对待测图片进行处理。敏感图片有一个共同特点——有大量裸露皮肤。因此,在所述敏感表情包检测方法中,从训练图库中的图片中选取出肤色区域,并依次来选取出图片的关键特征值作为特征向量,根据所述特征向量构建出优化支持向量机分类模型对所述待测图片进行分类,能够准确地判定所述待测图片是否为敏感图片。
如图5所示,在本在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述对所述训练图库中的图片进行处理,确定所述图片中的肤色区域S41,包括:
S411根据肤色颜色特征,确定肤色点在YUV颜色空间的相位角θ的取值范围[θmin,θmax],以及在YIQ颜色空间的I分量的取值范围[Imin,Imax];
S412以所述相位角θ取值范围[θmin,θmax]以及所述I分量的取值范围 [Imin,Imax]为选取条件,对所述图片中的像素点进行选取;
S413对满足选取条件的像素点所组成的区域进行纹理检测,将由所述像素点组成的区域中具有平滑纹理特性的部分选取出来,作为所述肤色区域。
所述敏感表情包检测方法中,利用肤色的颜色特征从所述训练图库中的图片中选取肤色像素点,之后再根据纹理检测结果去除干扰点。在选取时,采用YIQ颜色空间与YUV颜色空间分析相结合的方式。
YIQ,是指NTSC(National Television Standards Committee)电视系统标准,其中,Y表示亮度信号(Luminance),即亮度(Brightness),I代表In-phase,色彩从橙色到青色,Q代表Quadrature-phase,色彩从紫色到黄绿色。基于YIQ颜色空间的I分量分布可以初步确定肤色区域,它可以区分灰色图像,棕色头发以及肤色区域,但是基于所述I分量分布难以区分肤色和黄绿色。
YUV,是指另外一种颜色编码方法,其中Y表示明亮度(Luminance或 Luma),也就是灰阶值,U和V表示的则是色度(Chrominance或 Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。在YUV 的颜色编码方法中,相位角θ可以用来区分肤色和黄绿色。
因而,在所述敏感表情包检测方法中,综合了YUV与YIQ颜色空间模型,建立了基于YUV与YIQ的双肤色模型肤色检测算法,该模型中利用 YUV颜色空间的相位角θ和YIQ颜色空间的I分量对皮肤的颜色进行检测,结合这两个分量来确定肤色在色度信息上的分布范围情况,即将图像中的像素点P由RGB色彩空间变换到YUV和YIQ混合色彩空间,如果满足θP∈[θmin,θmax]且IP∈[Imin,Imax],则说明像素点P是肤色像素点。
在确定肤色像素点之后,还需要考虑的一点就是很多与肤色颜色相近的物体或风景容易被误认为是肤色区域,例如大豆或者秋天的落叶等。所述敏感表情包检测方法,针对这一特殊情况采用纹理检测的方式将这些干扰点去除,皮肤具有平滑的纹理特性,这一点与其他近肤色物体或场景的纹理特性具有较大差异。在对干扰点进行去除之后就能得到准确的肤色点,从而从所述图片中选取出正确的所述肤色区域。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,根据所述肤色区域,从所述图片中提取关键特征值作为特征向量,包括:
从所述图片中提取六组关键特征值作为所述特征向量,所述六组关键特征值分别为:
肤色占整个图像的比例;
肤色占外接矩形的比例;
肤色连通区域的个数;
最大连通区域占整个图像的比例;
最大肤色连通区域占肤色外接矩形的比例;
图像中心肤色区域肤色比例。
所述敏感表情包检测方法,选取上述六个关键特征值作为所述特征向量。本领域技术人员应当理解的是,所述训练图库中,敏感图像与非敏感图像对应的掩码图像所表现的特征不同,比如:肤色面积比,连通区域的个数等等,因此,提取有效的并且具有代表性的特征对区分敏感图像与非敏感图像的分类是非常关键的一步。而这些有效的并且具有代表性的特征一般具有的性质如下:容易提取;对不相关变形保持不变;对噪声不敏感。因此通过对敏感图像与非敏感图像的实验分析并且借鉴前人的经验,选择上述的六个关键特征值作为所述特征向量。
如图6所示,在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述利用所述特征向量,构建初始支持向量机分类模型,并分别利用粒子群算法与遗传算法对所述初始支持向量机分类模型进行优化,得到所述优化支持向量机分类模型S43,包括:
S431:设定所述支持向量机分类模型的正则化参数C与核参数σ的初始范围;
S432:粒子群算法参数初始化,设置粒子群,设定循环次数v,划分常数 w,第一学习因子c1与第二学习因子c2;
S433:计算适应度:
其中,f(x)为适应度函数,ui表示样本i的实际测量值,ui *表示样本i的预测值,所述样本指的是训练图库中需要处理的图片。利用构建好的初始支持向量机分类模型,根据所述特征向量对所述需要处理的图片进行分类,分类结果即所述图片样本的预测值,而所述图片的实际分类情况与根据前述初始支撑向量机分类模型得到的分类结果不一定相同,即所述实际测量值和所述预测值不一定相同,由此可以根据二者间差异来衡量和表征所述初始支持向量机分类模型的性能,并用适应度函数来表示。
S434:在循环次数内,计算粒子个体适应度值,并将所述粒子个体适应度值与粒子自身的最优适应度值进行比较,将所述粒子自身的最优适应度值更新为二者中的较大值;
采用循环更新的方式,保证最后的粒子个体是依据适应度值的优选,在每次循环中,都将粒子个体适应度值与粒子自身的最优适应度值进行比较,若粒子个体适应度值大于粒子自身的最优适应度值,则将粒子自身的最优适应度值更新为本次循环中的所述粒子个体适应度值。
S435:在循环次数内,计算粒子个体适应度值,并将所述粒子个体适应度值与群体最优适应度值进行比较,将所述群体最优适应度值更新为二者中的较大值;
采用循环更新的方式,保证最后的粒子群是依据适应度值的优选,在每次循环中,都将粒子个体适应度值与群体最优适应度值进行比较,若粒子个体适应度值大于群体最优适应度值,则将群体最优适应度值更新为本次循环中的所述粒子个体适应度值。
S436:循环结束后根据所述粒子自身的最优适应度值与所述群体最优适应度值构建粒子群支撑向量机分类模型;
S437:利用遗传算法对所述粒子群支撑向量机分类模型进行优化,将所述特征向量作为模型样本,对所述模型样本进行编码,将准确率作为遗传适应度函数,利用所述遗传适应度函数对全部所述特征向量进行评价,通过选择交叉和变异操作,选取最优特征向量;
S438:根据所述最优特征向量,确定所述优化支持向量机分类模型。
所述敏感表情包检测方法中,将PSO(Particle Swarm Optimization,粒子群优化算法)和GA(Genetic Algorithm,遗传算法)相结合,分别对 SVM(Support VectorMachine,支持向量机)分类模型进行优化。引入PSO-SVM 模型和GA-SVM模型,PSO-SVM模型是利用PSO的全局搜索能力对SVM 的参数进行搜索,并通过设置POS算法来控制SVM参数的选择方向。而GA-SVM模型将提取的特征向量作为该模型的一个样本,然后对该样本进行编码,将准确率应用为算法的适应度函数,对每个个体适应度进行评价,通过选择,交叉和变异等操作,得到最优特征,最后通过SVM根据这些最优特征进行分类。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述根据所述优化支持向量机分类模型对所述待测图片进行分类,还包括:
根据所述待测图片的来源对所述待测图片进行主题分类,若所述待测图片是证件照类别的图片或教育资源类别的图片,则所述待测图片不属于敏感图片。
本领域技术人员应当理解的是,有一种特殊类别的图片中皮肤裸露程度与敏感图片相近,那就是证件照,很显然证件照是不属于敏感图片的,此外,与敏感词相同的,来源于教育资源类别中的图片也不属于敏感图片,因此所述敏感表情包检测方法中,在利用所述优化支持向量机分类模型对所述待测图片进行分类时,还对所述待测图片进行主题分类,前述两种特殊主题的待测图片不属于敏感图片。所述敏感表情包检测方法采用上述方式,能够避免误判错判的情况,从而保证最终检测结果的正确性。
在本发明的一些可选实施例所提供的一种敏感表情包检测方法中,所述根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤,包括:
设定文本敏感阈值μ,当所述待测文本的所述敏感度值S(T)大于所述文本呢敏感阈值μ时,则说明所述待测文本为敏感文本;
当所述待测文本为敏感文本或所述待测图片为敏感图片时,则说明所述待测表情包为敏感表情包,过滤所述待测表情包;
当所述待测文本不是敏感文本且所述待测图片不是敏感图片时,输出所述待测表情包。
在另一方面,本发明还提供了一种敏感表情包检测装置。
如图7所示,本发明的一些可选实施例所提供的一种敏感表情包检测方法中,包括:
图文分离模块1,被配置为对待测表情包进行图文分离处理,得到待测文本与待测图片;
敏感词库模块2,被配置为构建周期性更新的敏感词库;
文本敏感值模块3,被配置为将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;
图片分类模块4,被配置为构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果;
检测过滤模块5,被配置为根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤。
在另一方面,本发明还提供了一种敏感表情包检测电子设备。
如图8所示,所述电子设备包括:
一个或多个处理器601以及存储器602,图8中以一个处理器601为例。
所述执行所述敏感词检测过滤方法的电子设备还可以包括:输入装置 603和输出装置604。
处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述敏感词检测过滤方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的敏感词检测过滤方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据执行所述敏感词检测过滤方法的装置的使用所创建的数据等。此外,存储器602 可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置603可接收输入的数字或字符信息,以及产生与执行所述敏感词检测过滤方法装置的用户设置以及功能控制有关的键信号输入。输出装置 604可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器602中,当被所述一个或者多个处理器601执行时,执行上述任意方法实施例中的敏感词检测过滤方法。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种敏感表情包检测方法,其特征在于,包括:
对待测表情包进行图文分离处理,得到待测文本与待测图片;
构建周期性更新的敏感词库;
将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;
构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果;
根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤。
2.根据权利要求1所述的方法,其特征在于,所述对待测表情包进行图文分离处理,得到待测文本与待测图片,包括:
采用图片文字识别技术,从所述待测表情包中截取文字部分并对所述文字部分进行识别得到文字信息,作为所述待测文本;
将所述待测表情包中去除所述文字部分后的剩余图片部分作为所述待测图片。
3.根据权利要求2所述的方法,其特征在于,在对所述待测表情包进行图文分离处理,得到所述待测文本与所述待测图片之后,还包括:
利用图片主题识别技术,对所述待测图片进行识别,并将识别得到的待测图片主题与所述待测文本进行语义匹配,若所述待测图片主题与所述待测文本的语义产生矛盾,则将相应的所述待测表情包剔除。
4.根据权利要求1所述的方法,其特征在于,所述构建周期性更新的敏感词库,包括:
采集当前网络中的敏感词,确定所述敏感词的敏感级别因子,将所述敏感词及相应的敏感级别因子录入所述动态敏感词库;
设定更新周期,每次更新时,根据更新时刻下网络中的敏感词,向所述动态敏感词库中添加新的敏感词,同时确定所述新的敏感词的敏感级别因子,将所述新的敏感词的敏感级别因子录入所述动态敏感词库;
所述敏感词的首字符为汉字的,根据所述首字符的拼音首字母对所述敏感词进行分类;
所述敏感词的首字符为拼音或英文单词的,根据首字母进行分类。
5.根据权利要求1所述的方法,其特征在于,所述将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值,包括:
对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词;
将多个所述关键词与所述动态敏感词库进行匹配检测;
根据匹配检测结果计算所述待检测文本的敏感度值。
6.根据权利要求5所述的方法,其特征在于,所述对所述待测文本进行分类、去冗余及分词处理,得到构成所述待测文本的多个关键词,包括:
根据所述待测文本的语义内容及数据来源,确定所述待测文本的主题,根据所述待测文本的主题,对所述待测文本进行分类,为所述待测文本添加分类标记;
去除所述待测文本中的无意义标记和连接字符,所述无意义标记包括HTML标签和注释,所述连接字符包括语气助词、特殊符号和数字;
采用基于词典的中文分词技术对所述待测文本进行分词处理,得到用以组成所述待测文本的多个所述关键词,并根据所述关键词在所述待测文本中所处位置为所述关键词添加位置标记;
所述中文分词技术中所用到的词典包含有所述动态敏感词库中的所有敏感词。
7.根据权利要求6所述的方法,其特征在于,所述将多个所述关键词与所述动态敏感词库进行匹配检测,包括:
根据所述关键词的第一个字符的拼音首字母从所述动态敏感词库中选取相应的敏感词分类;
从所述关键词的第一个字符开始,在所述相应的敏感词分类中筛选出与所述关键词的第一个字符相匹配的敏感词,再从筛选出的所述敏感词中继续筛选与所述关键词下一个字符相匹配的敏感词,直至筛选出与所述关键词的最后一个字符相匹配的所述敏感词;
检测所述筛选出的与所述关键词最后一个字符匹配的敏感词中是否存在与所述关键词字符个数相同的敏感词,若存在则说明所述关键词为敏感词。
8.根据权利要求7所述的方法,其特征在于,所述根据匹配检测结果计算所述待检测文本的敏感度值,包括:
根据所述待测文本的所述分类标记、所述关键词的位置标记、所述关键词的敏感程度以及所述关键词在相应所述待测文本中出现频繁程度计算所述待测文本的初始敏感度值:
其中,S′(t)表示所述待测文本T的初始敏感度值,Sioc(Si)表示敏感词Si的方位敏感系数,所述方位敏感系数根据所述位置标记确定,typ(Si)表示敏感词Si的主题敏感系数,所述主题敏感系数根据相应所述待测文本的所述分类标记确定,n表示所述待测文半的文本长度,i=1,2,3…,n;
对所述初始敏感度值S′(T)进行归一化处理,得到所述待测文本的所述敏感度值:
9.根据权利要求1所述的方法,其特征在于,所述构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果,包括:
对所述训练图库中的图片进行处理,确定所述图片中的肤色区域;
根据所述肤色区域,从所述图片中提取关键特征值作为特征向量;
利用所述特征向量,构建初始支持向量机分类模型,并分别利用粒子群算法与遗传算法对所述初始支持向量机分类模型进行优化,得到所述优化支持向量机分类模型;
根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果。
10.根据权利要求9所述的方法,其特征在于,所述对所述训练图库中的图片进行处理,确定所述图片中的肤色区域,包括:
根据肤色颜色特征,确定肤色点在YUV颜色空间的相位角θ的取值范围[θmin,θmax],以及在YIQ颜色空间的I分量的取值范围[Imin,Imax];
以所述相位角θ取值范围[θmin,θmax]以及所述I分量的取值范围[Imin,Imax]为选取条件,对所述图片中的像素点进行选取;
对满足选取条件的像素点所组成的区域进行纹理检测,将由所述像素点组成的区域中具有平滑纹理特性的部分选取出来,作为所述肤色区域。
11.根据权利要求9所述的方法,其特征在于,根据所述肤色区域,从所述图片中提取关键特征值作为特征向量,包括:
从所述图片中提取六组关键特征值作为所述特征向量,所述六组关键特征值分别为:
肤色占整个图像的比例;
肤色占外接矩形的比例;
肤色连通区域的个数;
最大连通区域占整个图像的比例;
最大肤色连通区域占肤色外接矩形的比例;
图像中心肤色区域肤色比例。
12.根据权利要求9所述的方法,其特征在于,所述利用所述特征向量,构建初始支持向量机分类模型,并分别利用粒子群算法与遗传算法对所述初始支持向量机分类模型进行优化,得到所述优化支持向量机分类模型,包括:
设定所述支持向量机分类模型的正则化参数C与核参数σ的初始范围;
粒子群算法参数初始化,设置粒子群,设定循环次数v,划分常量w,第一学习因子c1与第二学习因子c2;
计算适应度:
其中,f(x)为适应度函数,ui表示样本i的实际测量值,ui *表示样本i的预测值;
在循环次数内,将粒子个体适应度值与粒子自身的最优适应度值进行比较,将所述粒子自身的最优适应度值更新为二者中的较大值;
在循环次数内,将粒子个体适应度值与群体最优适应度值进行比较,将所述群体最优适应度值更新为二者中的较大值;
循环结束后根据所述粒子自身的最优适应度值与所述群体最优适应度值构建粒子群支撑向量机分类模型;
利用遗传算法对所述粒子群支撑向量机分类模型进行优化,将所述特征向量作为模型样本,对所述模型样本进行编码,将准确率作为遗传适应度函数,利用所述遗传适应度函数对全部所述特征向量进行评价,通过选择交叉和变异操作,选取最优特征向量;
根据所述最优特征向量,确定所述优化支持向量机分类模型。
13.根据权利要求9所述的方法,其特征在于,所述根据所述优化支持向量机分类模型对所述待测图片进行分类,还包括:
根据所述待测图片的来源对所述待测图片进行主题分类,若所述待测图片是证件照类别的图片或教育资源类别的图片,则所述待测图片不属于敏感图片。
14.根据权利要求1所述的方法,其特征在于,所述根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤,包括:
设定文本敏感阈值μ,当所述待测文本的所述敏感度值S(T)大于所述文本呢敏感阈值μ时,则说明所述待测文本为敏感文本;
当所述待测文本为敏感文本或所述待测图片为敏感图片时,则说明所述待测表情包为敏感表情包,过滤所述待测表情包;
当所述待测文本不是敏感文本且所述待测图片不是敏感图片时,输出所述待测表情包。
15.一种敏感表情包检测装置,其特征在于,包括:
图文分离模块,被配置为对待测表情包进行图文分离处理,得到待测文本与待测图片;
敏感词库模块,被配置为构建周期性更新的敏感词库;
文本敏感值模块,被配置为将所述待测文本与所述敏感词库进行匹配检测,根据匹配检测结果确定所述待测文本的敏感度值;
图片分类模块,被配置为构建周期性更新的训练图库,根据所述训练图库建立优化支持向量机分类模型,根据所述优化支持向量机分类模型对所述待测图片进行分类,得到图片分类结果;
检测过滤模块,被配置为根据所述敏感度值与所述图片分类结果,对所述待测表情包进行检测过滤。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至14任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882236.5A CN110879963B (zh) | 2019-09-18 | 2019-09-18 | 一种敏感表情包检测方法、装置与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882236.5A CN110879963B (zh) | 2019-09-18 | 2019-09-18 | 一种敏感表情包检测方法、装置与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110879963A true CN110879963A (zh) | 2020-03-13 |
CN110879963B CN110879963B (zh) | 2023-09-05 |
Family
ID=69727774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910882236.5A Active CN110879963B (zh) | 2019-09-18 | 2019-09-18 | 一种敏感表情包检测方法、装置与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110879963B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737685A (zh) * | 2020-06-22 | 2020-10-02 | 中国银行股份有限公司 | 文本业务处理系统、方法及装置 |
CN111767493A (zh) * | 2020-07-07 | 2020-10-13 | 杭州安恒信息技术股份有限公司 | 一种网站的内容数据的展示方法、装置、设备及存储介质 |
CN111814822A (zh) * | 2020-05-25 | 2020-10-23 | 北京印刷学院 | 一种敏感图片检测方法、装置及电子设备 |
CN112231442A (zh) * | 2020-10-15 | 2021-01-15 | 北京临近空间飞行器系统工程研究所 | 一种敏感词过滤方法及装置 |
CN112417194A (zh) * | 2020-11-20 | 2021-02-26 | 济南浪潮高新科技投资发展有限公司 | 恶意图文的多模态检测方法 |
CN117112858A (zh) * | 2023-10-24 | 2023-11-24 | 武汉博特智能科技有限公司 | 基于关联规则挖掘的对象筛选方法、处理器及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
US8699796B1 (en) * | 2008-11-11 | 2014-04-15 | Trend Micro Incorporated | Identifying sensitive expressions in images for languages with large alphabets |
CN105654057A (zh) * | 2015-12-31 | 2016-06-08 | 中国建设银行股份有限公司 | 基于图片内容的图片审核系统及图片审核方法 |
CN107992471A (zh) * | 2017-11-10 | 2018-05-04 | 北京光年无限科技有限公司 | 一种人机交互过程中的信息过滤方法及装置 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
-
2019
- 2019-09-18 CN CN201910882236.5A patent/CN110879963B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281521A (zh) * | 2007-04-05 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于多分类器融合的敏感网页过滤方法及系统 |
US8699796B1 (en) * | 2008-11-11 | 2014-04-15 | Trend Micro Incorporated | Identifying sensitive expressions in images for languages with large alphabets |
CN105654057A (zh) * | 2015-12-31 | 2016-06-08 | 中国建设银行股份有限公司 | 基于图片内容的图片审核系统及图片审核方法 |
CN107992471A (zh) * | 2017-11-10 | 2018-05-04 | 北京光年无限科技有限公司 | 一种人机交互过程中的信息过滤方法及装置 |
CN110209796A (zh) * | 2019-04-29 | 2019-09-06 | 北京印刷学院 | 一种敏感词检测过滤方法、装置与电子设备 |
Non-Patent Citations (5)
Title |
---|
MEHDI MOUKHAFI等: "A novel hybrid GA and SVM with PSO feature selection for intrusion detection system" * |
于梦馨等: "改进粒子群算法优化SVM参数的遥感图像分类" * |
汪金涛;曹玉东;王梓宁;刘艳洋;: "图像型垃圾邮件监控系统研究与设计" * |
蒋丽亚;霍宏涛;: "基于IE浏览器的色情图像过滤器" * |
赵晓晖等: "基于亮度自适应色度空间模型肤色算法及应用" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814822A (zh) * | 2020-05-25 | 2020-10-23 | 北京印刷学院 | 一种敏感图片检测方法、装置及电子设备 |
CN111814822B (zh) * | 2020-05-25 | 2023-07-28 | 北京印刷学院 | 一种敏感图片检测方法、装置及电子设备 |
CN111737685A (zh) * | 2020-06-22 | 2020-10-02 | 中国银行股份有限公司 | 文本业务处理系统、方法及装置 |
CN111767493A (zh) * | 2020-07-07 | 2020-10-13 | 杭州安恒信息技术股份有限公司 | 一种网站的内容数据的展示方法、装置、设备及存储介质 |
CN112231442A (zh) * | 2020-10-15 | 2021-01-15 | 北京临近空间飞行器系统工程研究所 | 一种敏感词过滤方法及装置 |
CN112417194A (zh) * | 2020-11-20 | 2021-02-26 | 济南浪潮高新科技投资发展有限公司 | 恶意图文的多模态检测方法 |
CN117112858A (zh) * | 2023-10-24 | 2023-11-24 | 武汉博特智能科技有限公司 | 基于关联规则挖掘的对象筛选方法、处理器及存储介质 |
CN117112858B (zh) * | 2023-10-24 | 2024-02-02 | 武汉博特智能科技有限公司 | 基于关联规则挖掘的对象筛选方法、处理器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110879963B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110879963B (zh) | 一种敏感表情包检测方法、装置与电子设备 | |
CN106529380B (zh) | 图像的识别方法及装置 | |
Ezaki et al. | Text detection from natural scene images: towards a system for visually impaired persons | |
US20070196013A1 (en) | Automatic classification of photographs and graphics | |
CN107203765B (zh) | 敏感图像检测方法和装置 | |
US20230086552A1 (en) | Image processing method and apparatus, device, storage medium, and computer program product | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
EP3881234A1 (en) | Automatically predicting text in images | |
CN114724222B (zh) | 一种基于多模态的ai数字人情感分析方法 | |
Tiku et al. | Real-time conversion of sign language to text and speech | |
McBride et al. | A comparison of skin detection algorithms for hand gesture recognition | |
He et al. | Aggregating local context for accurate scene text detection | |
CN111783812A (zh) | 违禁图像识别方法、装置和计算机可读存储介质 | |
Hung et al. | Automatic vietnamese passport recognition on android phones | |
CN112784932A (zh) | 一种字体识别方法、装置和存储介质 | |
CN112749696A (zh) | 一种文本检测方法及装置 | |
Afzali et al. | Genetic programming for feature selection and feature combination in salient object detection | |
CN114638984B (zh) | 一种基于胶囊网络的恶意网站url检测方法 | |
CN113888760B (zh) | 基于软件应用的违规信息监控方法、装置、设备及介质 | |
CN112434547B (zh) | 一种用户身份稽核方法和设备 | |
CN114612965A (zh) | 一种人脸活体检测方法、系统及介质 | |
Chen et al. | Massive figure extraction and classification in electronic component datasheets for accelerating PCB design preparation | |
Santiago Garcia | Country-independent MRTD layout extraction and its applications | |
Dinh et al. | Text localization using image cues and text line information | |
CN115082919B (zh) | 一种地址识别方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |