CN112507912B - 一种识别违规图片的方法及装置 - Google Patents
一种识别违规图片的方法及装置 Download PDFInfo
- Publication number
- CN112507912B CN112507912B CN202011478954.5A CN202011478954A CN112507912B CN 112507912 B CN112507912 B CN 112507912B CN 202011478954 A CN202011478954 A CN 202011478954A CN 112507912 B CN112507912 B CN 112507912B
- Authority
- CN
- China
- Prior art keywords
- picture
- model
- identification
- label
- basic image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims description 98
- 238000012549 training Methods 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 6
- 229940079593 drug Drugs 0.000 claims description 6
- 210000000056 organ Anatomy 0.000 claims description 6
- 230000004044 response Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机技术领域,提供一种识别违规图片的方法及装置,用以解决识别违规图片时花费的时间长的问题,其中,方法包括:对待识别图片进行特征提取,得到第一基础图像特征;基于第一基础图像特征和各个第一识别模型进行疑似违规识别,若待识别图片被判定为疑似违规图片,则将待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别。只需提取一次通用的简单特征,即可采用粗粒度的疑似违规识别与细粒度的精准违规识别相结合的方式,快速过滤掉绝大多数的正常图片,并对疑似违规图片进行二次精准识别,大幅度地降低各个第二识别模型的压力,提升模型的整体性能和响应速度。
Description
技术领域
本申请涉及计算机技术领域,提供了一种识别违规图片的方法及装置。
背景技术
随着互联网技术的快速发展,图片因具备直观、真实、信息承载量大等优势,在社交平台、商业广告等各类信息承载媒体上的占比越来越大,导致网络上每天都会生成海量的图片。
为了获得网络热度,不法分子会生成或者传播包含色情、暴力、恐怖等违规元素的图片。为了从海量图片中识别出前述提到的违规图片,通常采用人工标注或者深度学习神经网络的方式识别图片是否违规,但人工标注费时费力、工作效率低下,而为了保证识别准确率,需要使用海量参数构建复杂的深度学习神经网络,导致深度学习神经网络在识别违规图片时需要花费更多的时间进行运算,降低了工作效率。
有鉴于此,本申请实施例提供了一种新的识别违规图片的方法及装置。
发明内容
本申请实施例提供一种识别违规图片的方法及装置,用以解决识别违规图片时花费的时间长的问题。
第一方面,本申请实施例提供的一种识别违规图片的方法,包括:
对待识别图片进行特征提取,得到第一基础图像特征;
基于所述第一基础图像特征和预设的各个第一识别模型进行疑似违规识别,得到所述各个第一识别模型对应的第一预测概率;其中,所述各个第一识别模型分别对应一个聚类标签,所述第一预测概率用于判定所述待识别图片为对应聚类标签下的正常图片、疑似违规图片和违规图片中的一种;
若所述待识别图片被判定为疑似违规图片,则将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,所述相应的第一识别模型为将所述待识别图片判定为疑似违规图片的模型,所述至少一个第二识别模型是所述相应的第一识别模型的子模型。
可选的,对待识别图片进行特征提取,得到第一基础图像特征,包括:
基于预设的目标特征提取模型对所述待识别图片进行特征提取,得到所述第一基础图像特征;
其中,所述目标特征提取模型是根据训练完毕的初始特征提取模型的输入层和设定数量的卷积层组成的。
可选的,在得到所述各个第一识别模型对应的第一预测概率之后,针对一个第一识别模型执行以下操作:
若所述一个第一识别模型的第一预测概率不超过第一阈值,判定所述待识别图片是对应聚类标签下的正常图片;
若所述一个第一识别模型的第一预测概率大于第二阈值,判定所述待识别图片是对应聚类标签下的违规图片;
若所述一个第一识别模型的第一预测概率大于所述第一阈值、且不超过所述第二阈值时,判定所述待识别图片是对应聚类标签下的疑似违规图片。
可选的,将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别,包括:
将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率;其中,所述至少一个第二识别模型分别对应一个子标签,所述第二预测概率用于判定所述待识别图片为对应子标签下的正常图片或者违规图片。
可选的,将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率,针对一个第二识别模型执行以下操作:
在所述待识别图片上确定目标检测框;
对所述目标检测框选中区域的图像进行特征提取,得到子图像特征;
基于所述子图像特征得到所述第二预测概率。
可选的,在得到所述至少一个第二识别模型对应的第二预测概率之后,针对一个第二识别模型执行以下操作:
若所述一个第二识别模型不超过第三阈值,判定所述待识别图片是对应子标签下的正常图片;
否则,判定所述待识别图片是对应子标签下的违规图片。
可选的,所述训练完毕的初始特征提取模型是所述初始特征提取模型采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的:
从第一训练集中获取第一样本图片,通过所述初始特征提取模型得到所述第一样本图片的第一预测分类结果;
根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数;其中,所述初始特征提取模型至少包括输入层、输出层和多个卷积层,所述第一实际分类结果是通过全部第二识别模型得到的,所述第一实际分类结果包含所述全部第二识别模型对应的子标签。
可选的,根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数,包括:
基于所述第一损失值,确定所述初始特征提取模型的梯度;
确定所述梯度的方向,并按照所述梯度的方向,对所述初始特征提取模型的参数进行调整。
可选的,所述初始特征提取模型为残差网络,所述残差网络是使用图像网络预训练得到的;以及,
所述第一损失值是使用二分类交叉熵损失函数确定的;以及,
所述梯度的方向是由AdamW优化器确定的。
可选的,任意一第一识别模型是采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的:
从第二训练集中获取第二样本图片的第二基础图像特征,所述第二基础图像特征是使用训练完毕的目标特征提取模型得到的;
基于未训练的任意一第一识别模型和所述第二基础图像特征,得到所述第二样本图片的第二预测分类结果,根据所述第二预测分类结果与第二实际分类结果之间的第二损失值,调整所述未训练的任意一第一识别模型的参数;其中,任意一第二实际分类结果包含了所述任意一第一识别模型的聚类标签,所述任意一第二实际分类结果是通过对至少一个第一实际分类结果进行聚类处理得到的。
可选的,各个聚类标签是通过以下方式生成的:
从第三训练集中获取各个第三样本图片的第三基础图像特征,从各个第三基础图像特征中选取n个第三基础图像特征作为当前一轮的聚类中心,采用循环迭代的方式执行以下操作,直至当前一轮的各个聚类中心与下一轮的各个聚类中心均相同时结束,得到c个第三基础图像特征组,并根据每一组中至少一个第三基础图像特征所对应的子标签,确定所述每一组的聚类标签:
分别计算所述各个第三基础图像特征与当前一轮的各个聚类中心之间的距离,将所述第三基础图像特征划分到最小距离所对应的当前一轮的聚类中心下;
分别计算当前一轮的各个聚类中心的特征平均值,并将与所述特征平均值相同的第三基础图像特征确定为下一轮的聚类中心。
可选的,在生成所述各个聚类标签之后,进一步包括:
若聚类标签的数量总和大于第一识别模型的数量总和,则针对所述各个聚类标签执行以下操作,直至所述聚类标签的数量总和与所述第一识别模型的数量总和相同时为止:
分别计算所述各个聚类标签中最后一轮聚类中心,与其他聚类标签中最后一轮聚类中心之间的距离;
将距离最小的两个聚类标签合并到同一组中。
可选的,在所述聚类标签的数量总和与所述第一识别模型的数量总和相同之后,进一步包括:
获取新的第三样本图片的第三基础图像特征;
分别计算所述第三基础图像特征,与各个聚类标签中最后一轮聚类中心之间的距离;
若第一距离与第二距离之间的比值未超过第一距离阈值,则将所述新的第三样本图片的子标签划分到所述第一距离对应的聚类标签下;否则,将所述新的第三样本图片的子标签作为新的聚类标签;
其中,所述第一距离为最小距离,以及所述第一距离小于所述第二距离。
可选的,进一步包括:
分别计算所述各个聚类标签的第三基础图像特征组的均方距离;
针对各个均方距离分别执行以下操作:若任意一均方距离大于第二距离阈值,则重新生成当前一轮的聚类中心。
可选的,所述第二损失值是使用去焦点损失函数确定的。
可选的,所述聚类标签至少包括以下之一:旗帜、地图、武器、服饰、药物、器官、表征指定身体部位的信息、表征指定行为的信息。
第二方面,本申请实施例还提供了一种识别违规图片的装置,包括:
特征提取单元,用于对待识别图片进行特征提取,得到第一基础图像特征;
疑似违规识别单元,用于基于所述第一基础图像特征和预设的各个第一识别模型进行疑似违规识别,得到所述各个第一识别模型对应的第一预测概率;其中,所述各个第一识别模型分别对应一个聚类标签,所述第一预测概率用于判定所述待识别图片为对应聚类标签下的正常图片、疑似违规图片和违规图片中的一种;
精准违规识别单元,用于若所述待识别图片被判定为疑似违规图片,则将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,所述相应的第一识别模型为将所述待识别图片判定为疑似违规图片的模型,所述至少一个第二识别模型是所述相应的第一识别模型的子模型。
可选的,所述特征提取单元用于:
基于预设的目标特征提取模型对所述待识别图片进行特征提取,得到所述第一基础图像特征;
其中,所述目标特征提取模型是根据训练完毕的初始特征提取模型的输入层和设定数量的卷积层组成的。
可选的,所述疑似违规识别单元针对一个第一识别模型执行以下操作:
若所述一个第一识别模型的第一预测概率不超过第一阈值,判定所述待识别图片是对应聚类标签下的正常图片;
若所述一个第一识别模型的第一预测概率大于第二阈值,判定所述待识别图片是对应聚类标签下的违规图片;
若所述一个第一识别模型的第一预测概率大于所述第一阈值、且不超过所述第二阈值时,判定所述待识别图片是对应聚类标签下的疑似违规图片。
可选的,所述精准违规识别单元用于:
将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率;其中,所述至少一个第二识别模型分别对应一个子标签,所述第二预测概率用于判定所述待识别图片为对应子标签下的正常图片或者违规图片。
可选的,所述精准违规识别单元针对一个第二识别模型执行以下操作:
在所述待识别图片上确定目标检测框;
对所述目标检测框选中区域的图像进行特征提取,得到子图像特征;
基于所述子图像特征得到所述第二预测概率。
可选的,所述精准违规识别单元针对一个第二识别模型执行以下操作:
若所述一个第二识别模型不超过第三阈值,判定所述待识别图片是对应子标签下的正常图片;
否则,判定所述待识别图片是对应子标签下的违规图片。
可选的,所述装置还包括第一训练单元,所述第一训练单元用于对所述初始特征提取模型采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的所述训练完毕的初始特征提取模型:
从第一训练集中获取第一样本图片,通过所述初始特征提取模型得到所述第一样本图片的第一预测分类结果;
根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数;其中,所述初始特征提取模型至少包括输入层、输出层和多个卷积层,所述第一实际分类结果是通过全部第二识别模型得到的,所述第一实际分类结果包含所述全部第二识别模型对应的子标签。
可选的,所述第一训练单元用于:
基于所述第一损失值,确定所述初始特征提取模型的梯度;
确定所述梯度的方向,并按照所述梯度的方向,对所述初始特征提取模型的参数进行调整。
可选的,所述初始特征提取模型为残差网络50,所述残差网络50是使用图像网络预训练得到的;以及,
所述第一损失值是使用二分类交叉熵损失函数确定的;以及,
所述梯度的方向是由AdamW优化器确定的。
可选的,所述装置还包括第二训练单元,所述第二训练单元用于采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到任意一第一识别模型:
从第二训练集中获取第二样本图片的第二基础图像特征,所述第二基础图像特征是使用训练完毕的目标特征提取模型得到的;
基于未训练的任意一第一识别模型和所述第二基础图像特征,得到所述第二样本图片的第二预测分类结果,根据所述第二预测分类结果与第二实际分类结果之间的第二损失值,调整所述未训练的任意一第一识别模型的参数;其中,任意一第二实际分类结果包含了所述任意一第一识别模型的聚类标签,所述任意一第二实际分类结果是通过对至少一个第一实际分类结果进行聚类处理得到的。
可选的,所述第二训练单元用于:
从第三训练集中获取各个第三样本图片的第三基础图像特征,从各个第三基础图像特征中选取n个第三基础图像特征作为当前一轮的聚类中心,采用循环迭代的方式执行以下操作,直至当前一轮的各个聚类中心与下一轮的各个聚类中心均相同时结束,得到c个第三基础图像特征组,并根据每一组中至少一个第三基础图像特征所对应的子标签,确定所述每一组的聚类标签:
分别计算所述各个第三基础图像特征与当前一轮的各个聚类中心之间的距离,将所述第三基础图像特征划分到最小距离所对应的当前一轮的聚类中心下;
分别计算当前一轮的各个聚类中心的特征平均值,并将与所述特征平均值相同的第三基础图像特征确定为下一轮的聚类中心。
可选的,所述第二训练单元还用于:
若聚类标签的数量总和大于第一识别模型的数量总和,则针对所述各个聚类标签执行以下操作,直至所述聚类标签的数量总和与所述第一识别模型的数量总和相同时为止:
分别计算所述各个聚类标签中最后一轮聚类中心,与其他聚类标签中最后一轮聚类中心之间的距离;
将距离最小的两个聚类标签合并到同一组中。
可选的,在所述聚类标签的数量总和与所述第一识别模型的数量总和相同之后,所述第二训练单元还用于:
获取新的第三样本图片的第三基础图像特征;
分别计算所述第三基础图像特征,与各个聚类标签中最后一轮聚类中心之间的距离;
若第一距离与第二距离之间的比值未超过第一距离阈值,则将所述新的第三样本图片的子标签划分到所述第一距离对应的聚类标签下;否则,将所述新的第三样本图片的子标签作为新的聚类标签;
其中,所述第一距离为最小距离,以及所述第一距离小于所述第二距离。
可选的,所述第二训练单元还用于:
分别计算所述各个聚类标签的第三基础图像特征组的均方距离;
针对各个均方距离分别执行以下操作:若任意一均方距离大于第二距离阈值,则重新生成当前一轮的聚类中心。
可选的,所述第二损失值是使用去焦点损失函数确定的。
可选的,所述聚类标签至少包括以下之一:旗帜、地图、武器、服饰、药物、器官、表征指定身体部位的信息、表征指定行为的信息。
第三方面,本申请实施例还提供了一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种识别违规图片的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种识别违规图片的方法的步骤。
本申请有益效果如下:
本申请实施例提供的一种识别违规图片的方法及装置,对待识别图片进行特征提取,得到第一基础图像特征;基于第一基础图像特征和各个第一识别模型进行疑似违规识别,得到各个第一识别模型对应的第一预测概率;其中,各个第一识别模型分别对应一个聚类标签,第一预测概率用于判定待识别图片为对应聚类标签下的正常图片、违规图片和疑似违规图片中的一种;若待识别图片被判定为疑似违规图片,则将待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,相应的第一识别模型为将待识别图片判定为疑似违规图片的模型,至少一个第二识别模型是相应的第一识别模型的子模型。本申请实施例中所提供的技术方案,只需提取一次通用的简单特征,即可采用粗粒度的疑似违规识别与细粒度的精准违规识别相结合的方式,快速过滤掉绝大多数的正常图片,并对疑似违规图片进行二次精准识别,这样做可以减少重复运算,并大幅度降低精细后置识别模块中各个第二识别模型的压力,从而提升了整个图片识别模型的性能和响应速度,提高了整个图片识别模型的短路比例,且降低了漏判比例。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为图片识别模型的架构示意图;
图2为识别违规图片方法的流程示意图;
图3a为目标特征提取模型的架构示意图;
图3b为初始特征提取模型的架构示意图;
图3c为训练初始特征提取模型的流程示意图;
图4为训练任意一第一识别模型的流程示意图;
图5为生成聚类标签的流程示意图;
图6为对已生成的聚类标签二次聚合的流程示意图;
图7为识别违规图片的装置的结构示意图;
图8为一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
随着互联网技术的快速发展,图片在社交平台、商业广告等各类信息承载媒体上的占比越来越大,为了获得网络热度,不法分子会生成或者传播包含色情、暴力、恐怖等违规元素的图片。为了从海量图片中识别出前述提到的违规图片,通常采用人工标注或者深度学习神经网络的方式识别图片是否违规,但人工标注费时费力,而且在海量图片面前,人工标注的工作效率是比较低的;采用深度学习神经网络替代人工标注,其运算能力远远高于人类处理速度,相比于人工标注来说可以在相同时间内识别更多的图片是否为违规图片,但是为了保证神经网络的识别准确率,该神经网络往往是由海量参数构建而成的复杂网络,在训练时需要花费更长的时间等待神经网络收敛,在使用训练完毕的神经网络识别违规图片时也需要花费更多的时间进行运算,这样的话,无论是采用上述哪种方式识别违规图片,所花费的时间都比较长。有鉴于此,本申请实施例提供了一种新的识别违规图片的方法及装置。
本申请实施例使用训练完毕的图片识别模型,对输入的待识别图片进行违规图片识别。参阅图1所示的图片识别模型的架构示意图,该模型是由目标特征提取模型、多个第一识别模型,以及每个第一识别模型所关联的至少一个第二识别模型三部分组成的。
神经网络的底层部分主要用于提取通用的简单特征,在传统神经网络识别违规图片的方案中存在多个业务模型,每个业务模型对应一个图片标签,针对同一张待识别图片,各个业务模型会分别提取通用的简单特征,造成重复运算,为了减少这部分运算,本申请实施例使用一个目标特征提取模型提取待识别图片的第一基础图像特征,并将第一基础图像特征一齐发送给各个第一识别模型进行疑似违规识别。
根据研究表明,违规图片在海量图片中的占比极少,为了快速过滤掉绝大多数的正常图片,本申请实施例采用粗粒度的疑似违规识别与细粒度的精准违规识别相结合的方式,对疑似违规图片进行二次精准识别,这样做可以大幅度降低精细后置识别模块中各个第二识别模型的压力,提升整个图片识别模型的性能和响应速度,提高整个图片识别模型的短路比例,降低漏判比例。短路比例是衡量轻量前置识别模块直接作出判决(即判定为正常图片或者违规图片)的数据比例,能够直观得反映模型的工作效率,而漏判比例可以反映在引入轻量前置识别模块后出现的漏判情况,短路比例越高、漏判比例越低,模型的准确率越高、工作效率越高。
参阅图2示出的流程图,对使用图片识别模型识别违规图片的过程进行介绍。
S201:对待识别图片进行特征提取,得到第一基础图像特征。
可选的,从待识别图片上提取到第一基础图像特征的过程如下:
基于预设的目标特征提取模型对待识别图片进行特征提取,得到第一基础图像特征;其中,目标特征提取模型是根据训练完毕的初始特征提取模型的输入层和设定数量的卷积层组成的。
目标特征提取模型的架构示意图如图3a所示,包括输入层和设定数量的卷积层。设定数量的卷积层指的是神经网络中处于底层部分的前几层卷积层,底层部分可以提取通用的简单特征,因此,目标特征提取模型使用输入层读取待识别图片,使用设定数量的卷积层从待识别图片上提取通用的第一基础图像特征,无需各个第一识别模型分别提取第一基础图像特征,减少重复运算,减轻轻量前置识别模型中各个第一识别模型的压力。
初始特征提取模型的架构示意图如图3b所示,包括输入层、多个卷积层和输出层。在本申请实施例中,是使用第一训练集中的各个第一样本图片训练初始特征提取模型的,参阅图3c示出的流程示意图,对初始特征提取模型的训练过程进行介绍。
S2011:从第一训练集中获取第一样本图片,通过初始特征提取模型得到第一样本图片的第一预测分类结果。
S2012:根据第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整初始特征提取模型的参数。
其中,第一实际分类结果是通过全部第二识别模型得到的,第一实际分类结果包含全部第二识别模型对应的子标签。也就是说,每张第一样本图片的第一实际分类结果不是由人工标注的单一子标签,而是由全部第二识别模型标注的多个子标签,这样在训练过程可以帮助各个第一识别模型进行多标签学习,提高各个第一识别模型的泛化性。
假设各个第二识别模型的子标签分别为世界地图、国家地图,那么输出的第一实际分类结果可以是(世界地图正常,国家地图违规)。
在调整初始特征提取模型的参数时,是先基于第一损失值,确定初始特征提取模型的梯度;再确定梯度的方向,并按照梯度的方向对初始特征提取模型的参数进行调整。
S2013:判断是否满足迭代停止条件,若是,输出训练完毕的初始特征提取模型;否则,返回步骤2011。
迭代停止条件可以是以下三种情况中的任意一种:第一训练集中的所有第一样本图片均读取完毕、达到设定轮次、第一损失值不超过第一损失值阈值。
在本申请实施例中,初始特征提取模型可以是残差网络50(Residual Network50,ResNet50),所述残差网络50是使用图像网络(ImageNet)预训练得到的;使用二分类交叉熵损失函数(Binary Cross Entropy Loss,BCELoss)确定第一损失值,使用AdamW优化器确定梯度的方向,AdamW优化器能够让模型更快地收敛。
S202:基于第一基础图像特征和预设的各个第一识别模型进行疑似违规识别,得到各个第一识别模型对应的第一预测概率;其中,各个第一识别模型分别对应一个聚类标签,第一预测概率用于判定待识别图片为对应聚类标签下的正常图片、疑似违规图片和违规图片中的一种。
在进行粗粒度的疑似违规识别时,设置双阈值将第一识别模型的输出结果划分为正常图片、违规图片和疑似违规图片,这样可以快速过滤掉绝大多数的正常图片,大幅度地降低精细后置识别模块的压力,提升整个图片识别模型的性能和响应速度。
可选的,针对一个第一识别模型执行以下操作:
若一个第一识别模型的第一预测概率不超过第一阈值,判定待识别图片是对应聚类标签下的正常图片;
若一个第一识别模型的第一预测概率大于第二阈值,判定待识别图片是对应聚类标签下的违规图片;
若一个第一识别模型的第一预测概率大于第一阈值、且不超过第二阈值时,判定待识别图片是对应聚类标签下的疑似违规图片。
参阅图4示出的流程示意图,对任意一第一识别模型的训练过程进行介绍。
S2021:从第二训练集中获取第二样本图片的第二基础图像特征,第二基础图像特征是使用训练完毕的目标特征提取模型得到的。
S2022:基于未训练的任意一第一识别模型和第二基础图像特征,得到第二样本图片的第二预测分类结果,根据第二预测分类结果与第二实际分类结果之间的第二损失值,调整未训练的任意一第一识别模型的参数。
其中,第二损失值是使用去焦点损失函数(Non-focal Loss)确定的。去焦点损失函数的公式为NFL(Pt)=-(1+Pt)γlog(Pt),Pt为任意一第一识别模型输出的第二预测分类结果,是一个位于(0,1)之间的数;γ为预设的损失权重,是一个大于0的常数。
另外,任意一第二实际分类结果包含了任意一第一识别模型的聚类标签,任意一第二实际分类结果是通过对至少一个第一实际分类结果进行聚类处理得到的。在本申请实施例中,每个第一识别模型对应一个聚类标签,每个第二识别模型对应一个子标签,而第二识别模型是相应的第一识别模型的子模型,由此可知,在训练各个第一识别模型之前,需要先对所有的子标签进行聚合处理,得到对应的聚类标签。
本申请实施例采用k均值算法进行聚合处理,参阅图5示出的流程示意图,对聚类标签的生成过程进行介绍。
S501:从第三训练集中获取各个第三样本图片的第三基础图像特征,从各个第三基础图像特征中选取n个第三基础图像特征作为当前一轮的聚类中心。
可以采用随机选取的方式,也可以按照设定规则选取的方式,确定当前一轮的聚类中心。
S502:分别计算各个第三基础图像特征与当前一轮的各个聚类中心之间的距离,将第三基础图像特征划分到最小距离所对应的当前一轮的聚类中心下。
S503:分别计算当前一轮的各个聚类中心的特征平均值,并将与特征平均值相同的第三基础图像特征确定为下一轮的聚类中心。
每个第三基础图像特征都是一个1行多列的多维向量,将归属于同一个聚类中心的第三基础图像特征(包括作为聚类中心的第三基础图像特征)相加求平均值,计算结果作为特征平均值。
S504:判断当前一轮的各个聚类中心与下一轮的各个聚类中心是否全部相同,若是,执行步骤505;否则,返回步骤501。
S505:输出c个第三基础图像特征组,并根据每一组中至少一个第三基础图像特征所对应的子标签,确定每一组的聚类标签。
本申请实施例的聚类标签至少包括以下之一:旗帜、地图、武器、服饰、药物、器官、表征指定身体部位的信息、表征指定行为的信息。
需要说明的是,第二训练集和第三训练集中的部分或者全部样本图片上呈现的内容是不同的,但两个训练集中均存在归属于各个子标签的样本图片,因此,基于第三训练集聚合得到的聚类标签,是不会影响第一识别模型的训练的。
在执行完步骤505之后,若聚类标签的数量总和大于第一识别模型的数量总和,则参阅图6示出的流程示意图,对已生成的聚类标签进行二次聚合。
S601:分别计算各个聚类标签中最后一轮聚类中心,与其他聚类标签中最后一轮聚类中心之间的距离。
如公式Dinter(c1,c2)=d(c1,c2)2所示,c1表示聚类标签1的最后一轮聚类中心,c2表示聚类标签2的最后一轮聚类中心,Dinter(c1,c2)表示两个聚类标签之间的距离。
S602:将距离最小的聚类标签合并到同一组中。
S603:判断聚类标签的数量总和与第一识别模型的数量总和是否相同,若是,停止迭代;否则,返回步骤601。
每隔一段时间要使用新的第三样本图片训练、更新第一识别模型,在训练之前,需要先确定新的第三样本图片的子标签所归属的聚类标签。
首先,获取新的第三样本图片的第三基础图像特征;
其次,分别计算第三基础图像特征与各个聚类标签中最后一轮聚类中心之间的距离;
最后,若第一距离与第二距离之间的比值未超过第一距离阈值,则将新的第三样本图片的子标签划分到第一距离对应的聚类标签下;否则,将新的第三样本图片的子标签作为新的聚类标签;
其中,第一距离为最小距离,以及第一距离小于第二距离。比如,第一距离是最小类间距离,第二距离是第二小的类间距离。
在执行图5或者图6的步骤,或者确定新的第三样本图片的子标签所归属的聚类标签时,都可以通过以下方式评估当前一轮的聚类中心选的是否合适。
首先,分别计算各个聚类标签的第三基础图像特征组的均方距离;
其次,针对各个均方距离分别执行以下操作:若任意一均方距离大于第二距离阈值,则重新生成当前一轮的聚类中心。
均方距离公式为Dintra(c1)表示均方距离(也可以称之为类内距离),c1表示聚类标签1中当前一轮的聚类中心,Vi表示第i个第三基础图像特征,Qc1表示聚类标签1中共有Qc1个第三基础图像特征(包括作为当前一轮的聚类中心的第三基础图像特征)。若均方距离大于第二距离阈值,表明聚类标签下的第三基础图像特征比较分散,各个第三基础图像特征之间的相似度比较低,若不及时修正当前一轮的聚类中心继续执行后续的聚类处理,最终得到的多个聚类标签的准确性也比较低,进而影响到第一识别模型的训练效果。
S2023:判断是否满足迭代停止条件,若是,输出训练完毕的任意一第一识别模型;否则,返回步骤2021。
迭代停止条件可以是以下三种情况中的任意一种:第二训练集中的所有第二样本图片均读取完毕、达到设定轮次、第二损失值不超过第二损失值阈值。
S203:若待识别图片被判定为疑似违规图片,则将待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,相应的第一识别模型为将待识别图片判定为疑似违规图片的模型,至少一个第二识别模型是相应的第一识别模型的子模型。
如果待识别图片被判定为某一聚类标签下的正常图片或者违规图片,就不用对待识别图片进行二次识别;如果待识别图片被判定为某一聚类标签下的疑似违规图片,则将待识别图片进行二次识别,即调用相应的第一识别模型关联的至少一个第二识别模型。
可选的,将待识别图片输入到至少一个第二识别模型中进行二次识别,得到至少一个第二识别模型对应的第二预测概率;其中,至少一个第二识别模型分别对应一个子标签,第二预测概率用于判定待识别图片为对应子标签下的正常图片或者违规图片。
具体地,针对一个第二识别模型执行以下操作,得到对应的第二预测概率:
首先,在待识别图片上确定目标检测框;
再对目标检测框选中区域的图像进行特征提取,得到子图像特征;
最后基于子图像特征得到第二预测概率。
在进行细粒度的精准违规识别时,设置单阈值将第二识别模型的输出结果划分为正常图片和违规图片。具体地,若一个第二识别模型不超过第三阈值,判定待识别图片是对应子标签下的正常图片;否则,判定待识别图片是对应子标签下的违规图片。
参阅图7示出的结构示意图,识别违规图片的装置包括特征提取单元701、疑似违规识别单元702、精准违规识别单元703、第一训练单元704和第二训练单元705,其中,
特征提取单元701,用于对待识别图片进行特征提取,得到第一基础图像特征;
疑似违规识别单元702,用于基于所述第一基础图像特征和预设的各个第一识别模型进行疑似违规识别,得到所述各个第一识别模型对应的第一预测概率;其中,所述各个第一识别模型分别对应一个聚类标签,所述第一预测概率用于判定所述待识别图片为对应聚类标签下的正常图片、疑似违规图片和违规图片中的一种;
精准违规识别单元703,用于若所述待识别图片被判定为疑似违规图片,则将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,所述相应的第一识别模型为将所述待识别图片判定为疑似违规图片的模型,所述至少一个第二识别模型是所述相应的第一识别模型的子模型。
可选的,所述特征提取单元701用于:
基于预设的目标特征提取模型对所述待识别图片进行特征提取,得到所述第一基础图像特征;
其中,所述目标特征提取模型是根据训练完毕的初始特征提取模型的输入层和设定数量的卷积层组成的。
可选的,所述疑似违规识别单元702针对一个第一识别模型执行以下操作:
若所述一个第一识别模型的第一预测概率不超过第一阈值,判定所述待识别图片是对应聚类标签下的正常图片;
若所述一个第一识别模型的第一预测概率大于第二阈值,判定所述待识别图片是对应聚类标签下的违规图片;
若所述一个第一识别模型的第一预测概率大于所述第一阈值、且不超过所述第二阈值时,判定所述待识别图片是对应聚类标签下的疑似违规图片。
可选的,所述精准违规识别单元703用于:
将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率;其中,所述至少一个第二识别模型分别对应一个子标签,所述第二预测概率用于判定所述待识别图片为对应子标签下的正常图片或者违规图片。
可选的,所述精准违规识别单元703针对一个第二识别模型执行以下操作:
在所述待识别图片上确定目标检测框;
对所述目标检测框选中区域的图像进行特征提取,得到子图像特征;
基于所述子图像特征得到所述第二预测概率。
可选的,所述精准违规识别单元703针对一个第二识别模型执行以下操作:
若所述一个第二识别模型不超过第三阈值,判定所述待识别图片是对应子标签下的正常图片;
否则,判定所述待识别图片是对应子标签下的违规图片。
可选的,所述装置还包括第一训练单元704,所述第一训练单元704用于对所述初始特征提取模型采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的所述训练完毕的初始特征提取模型:
从第一训练集中获取第一样本图片,通过所述初始特征提取模型得到所述第一样本图片的第一预测分类结果;
根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数;其中,所述初始特征提取模型至少包括输入层、输出层和多个卷积层,所述第一实际分类结果是通过全部第二识别模型得到的,所述第一实际分类结果包含所述全部第二识别模型对应的子标签。
可选的,所述第一训练单元704用于:
基于所述第一损失值,确定所述初始特征提取模型的梯度;
确定所述梯度的方向,并按照所述梯度的方向,对所述初始特征提取模型的参数进行调整。
可选的,所述初始特征提取模型为残差网络50,所述残差网络50是使用图像网络预训练得到的;以及,
所述第一损失值是使用二分类交叉熵损失函数确定的;以及,
所述梯度的方向是由AdamW优化器确定的。
可选的,所述装置还包括第二训练单元705,所述第二训练单元705用于采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到任意一第一识别模型:
从第二训练集中获取第二样本图片的第二基础图像特征,所述第二基础图像特征是使用训练完毕的目标特征提取模型得到的;
基于未训练的任意一第一识别模型和所述第二基础图像特征,得到所述第二样本图片的第二预测分类结果,根据所述第二预测分类结果与第二实际分类结果之间的第二损失值,调整所述未训练的任意一第一识别模型的参数;其中,任意一第二实际分类结果包含了所述任意一第一识别模型的聚类标签,所述任意一第二实际分类结果是通过对至少一个第一实际分类结果进行聚类处理得到的。
可选的,所述第二训练单元705用于:
从第三训练集中获取各个第三样本图片的第三基础图像特征,从各个第三基础图像特征中选取n个第三基础图像特征作为当前一轮的聚类中心,采用循环迭代的方式执行以下操作,直至当前一轮的各个聚类中心与下一轮的各个聚类中心均相同时结束,得到c个第三基础图像特征组,并根据每一组中至少一个第三基础图像特征所对应的子标签,确定所述每一组的聚类标签:
分别计算所述各个第三基础图像特征与当前一轮的各个聚类中心之间的距离,将所述第三基础图像特征划分到最小距离所对应的当前一轮的聚类中心下;
分别计算当前一轮的各个聚类中心的特征平均值,并将与所述特征平均值相同的第三基础图像特征确定为下一轮的聚类中心。
可选的,所述第二训练单元705还用于:
若聚类标签的数量总和大于第一识别模型的数量总和,则针对所述各个聚类标签执行以下操作,直至所述聚类标签的数量总和与所述第一识别模型的数量总和相同时为止:
分别计算所述各个聚类标签中最后一轮聚类中心,与其他聚类标签中最后一轮聚类中心之间的距离;
将距离最小的两个聚类标签合并到同一组中。
可选的,在所述聚类标签的数量总和与所述第一识别模型的数量总和相同之后,所述第二训练单元705还用于:
获取新的第三样本图片的第三基础图像特征;
分别计算所述第三基础图像特征,与各个聚类标签中最后一轮聚类中心之间的距离;
若第一距离与第二距离之间的比值未超过第一距离阈值,则将所述新的第三样本图片的子标签划分到所述第一距离对应的聚类标签下;否则,将所述新的第三样本图片的子标签作为新的聚类标签;
其中,所述第一距离为最小距离,以及所述第一距离小于所述第二距离。
可选的,所述第二训练单元705还用于:
分别计算所述各个聚类标签的第三基础图像特征组的均方距离;
针对各个均方距离分别执行以下操作:若任意一均方距离大于第二距离阈值,则重新生成当前一轮的聚类中心。
可选的,所述第二损失值是使用去焦点损失函数确定的。
可选的,所述聚类标签至少包括以下之一:旗帜、地图、武器、服饰、药物、器官、表征指定身体部位的信息、表征指定行为的信息。
在一些可能的实施方式中,本申请实施例还提供一种电子设备,参阅图8所示,电子设备可以至少包括至少一个处理器801、以及至少一个存储器802。其中,存储器802存储有程序代码,当程序代码被处理器801执行时,使得处器601执行本说明书上述描述的根据本申请各种示例性实施方式的识别违规图片方法中的步骤。例如,处理器801可以执行如图2所示的步骤。
在一些可能的实施方式中,本申请提供的业务控制方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的识别违规图片方法中的步骤,例如,电子设备可以执行如图2所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于业务控制的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (32)
1.一种识别违规图片的方法,其特征在于,包括:
对待识别图片进行特征提取,得到第一基础图像特征;
基于所述第一基础图像特征和预设的各个第一识别模型进行疑似违规识别,得到所述各个第一识别模型对应的第一预测概率;其中,所述各个第一识别模型分别对应一个聚类标签,所述第一预测概率用于判定所述待识别图片为对应聚类标签下的正常图片、疑似违规图片和违规图片中的一种;
若所述待识别图片被判定为疑似违规图片,则将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,所述相应的第一识别模型为将所述待识别图片判定为疑似违规图片的模型,所述至少一个第二识别模型是所述相应的第一识别模型的子模型;
其中,任意一第一识别模型是采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的:
从第二训练集中获取第二样本图片的第二基础图像特征,所述第二基础图像特征是使用训练完毕的目标特征提取模型得到的;
基于未训练的任意一第一识别模型和所述第二基础图像特征,得到所述第二样本图片的第二预测分类结果,根据所述第二预测分类结果与第二实际分类结果之间的第二损失值,调整所述未训练的任意一第一识别模型的参数;其中,任意一第二实际分类结果包含了所述任意一第一识别模型的聚类标签,所述任意一第二实际分类结果是通过对至少一个第一实际分类结果进行聚类处理得到的。
2.如权利要求1所述的方法,其特征在于,对待识别图片进行特征提取,得到第一基础图像特征,包括:
基于预设的目标特征提取模型对所述待识别图片进行特征提取,得到所述第一基础图像特征;
其中,所述目标特征提取模型是根据训练完毕的初始特征提取模型的输入层和设定数量的卷积层组成的。
3.如权利要求1所述的方法,其特征在于,在得到所述各个第一识别模型对应的第一预测概率之后,针对一个第一识别模型执行以下操作:
若所述一个第一识别模型的第一预测概率不超过第一阈值,判定所述待识别图片是对应聚类标签下的正常图片;
若所述一个第一识别模型的第一预测概率大于第二阈值,判定所述待识别图片是对应聚类标签下的违规图片;
若所述一个第一识别模型的第一预测概率大于所述第一阈值、且不超过所述第二阈值时,判定所述待识别图片是对应聚类标签下的疑似违规图片。
4.如权利要求1所述的方法,其特征在于,将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别,包括:
将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率;其中,所述至少一个第二识别模型分别对应一个子标签,所述第二预测概率用于判定所述待识别图片为对应子标签下的正常图片或者违规图片。
5.如权利要求4所述的方法,其特征在于,将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率,针对一个第二识别模型执行以下操作:
在所述待识别图片上确定目标检测框;
对所述目标检测框选中区域的图像进行特征提取,得到子图像特征;
基于所述子图像特征得到所述第二预测概率。
6.如权利要求4所述的方法,其特征在于,在得到所述至少一个第二识别模型对应的第二预测概率之后,针对一个第二识别模型执行以下操作:
若所述一个第二识别模型不超过第三阈值,判定所述待识别图片是对应子标签下的正常图片;
否则,判定所述待识别图片是对应子标签下的违规图片。
7.如权利要求2所述的方法,其特征在于,所述训练完毕的初始特征提取模型是所述初始特征提取模型采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的:
从第一训练集中获取第一样本图片,通过所述初始特征提取模型得到所述第一样本图片的第一预测分类结果;
根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数;其中,所述初始特征提取模型至少包括输入层、输出层和多个卷积层,所述第一实际分类结果是通过全部第二识别模型得到的,所述第一实际分类结果包含所述全部第二识别模型对应的子标签。
8.如权利要求7所述的方法,其特征在于,根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数,包括:
基于所述第一损失值,确定所述初始特征提取模型的梯度;
确定所述梯度的方向,并按照所述梯度的方向,对所述初始特征提取模型的参数进行调整。
9.如权利要求8所述的方法,其特征在于,所述初始特征提取模型为残差网络,所述残差网络是使用图像网络预训练得到的;以及,
所述第一损失值是使用二分类交叉熵损失函数确定的;以及,
所述梯度的方向是由AdamW优化器确定的。
10.如权利要求1所述的方法,其特征在于,各个聚类标签是通过以下方式生成的:
从第三训练集中获取各个第三样本图片的第三基础图像特征,从各个第三基础图像特征中选取n个第三基础图像特征作为当前一轮的聚类中心,采用循环迭代的方式执行以下操作,直至当前一轮的各个聚类中心与下一轮的各个聚类中心均相同时结束,得到c个第三基础图像特征组,并根据每一组中至少一个第三基础图像特征所对应的子标签,确定所述每一组的聚类标签:
分别计算所述各个第三基础图像特征与当前一轮的各个聚类中心之间的距离,将所述第三基础图像特征划分到最小距离所对应的当前一轮的聚类中心下;
分别计算当前一轮的各个聚类中心的特征平均值,并将与所述特征平均值相同的第三基础图像特征确定为下一轮的聚类中心。
11.如权利要求10所述的方法,其特征在于,在生成所述各个聚类标签之后,进一步包括:
若聚类标签的数量总和大于第一识别模型的数量总和,则针对所述各个聚类标签执行以下操作,直至所述聚类标签的数量总和与所述第一识别模型的数量总和相同时为止:
分别计算所述各个聚类标签中最后一轮聚类中心,与其他聚类标签中最后一轮聚类中心之间的距离;
将距离最小的两个聚类标签合并到同一组中。
12.如权利要求11所述的方法,其特征在于,在所述聚类标签的数量总和与所述第一识别模型的数量总和相同之后,进一步包括:
获取新的第三样本图片的第三基础图像特征;
分别计算所述第三基础图像特征,与各个聚类标签中最后一轮聚类中心之间的距离;
若第一距离与第二距离之间的比值未超过第一距离阈值,则将所述新的第三样本图片的子标签划分到所述第一距离对应的聚类标签下;否则,将所述新的第三样本图片的子标签作为新的聚类标签;
其中,所述第一距离为最小距离,以及所述第一距离小于所述第二距离。
13.如权利要求12所述的方法,其特征在于,进一步包括:
分别计算所述各个聚类标签的第三基础图像特征组的均方距离;
针对各个均方距离分别执行以下操作:若任意一均方距离大于第二距离阈值,则重新生成当前一轮的聚类中心。
14.如权利要求1所述的方法,其特征在于,所述第二损失值是使用去焦点损失函数确定的。
15.如权利要求1所述的方法,其特征在于,所述聚类标签至少包括以下之一:旗帜、地图、武器、服饰、药物、器官、表征指定身体部位的信息、表征指定行为的信息。
16.一种识别违规图片的装置,其特征在于,包括:
特征提取单元,用于对待识别图片进行特征提取,得到第一基础图像特征;
疑似违规识别单元,用于基于所述第一基础图像特征和预设的各个第一识别模型进行疑似违规识别,得到所述各个第一识别模型对应的第一预测概率;其中,所述各个第一识别模型分别对应一个聚类标签,所述第一预测概率用于判定所述待识别图片为对应聚类标签下的正常图片、疑似违规图片和违规图片中的一种;
精准违规识别单元,用于若所述待识别图片被判定为疑似违规图片,则将所述待识别图片输入到相应的第一识别模型关联的至少一个第二识别模型中进行二次识别;其中,所述相应的第一识别模型为将所述待识别图片判定为疑似违规图片的模型,所述至少一个第二识别模型是所述相应的第一识别模型的子模型;
第二训练单元,所述第二训练单元用于采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到任意一第一识别模型:
从第二训练集中获取第二样本图片的第二基础图像特征,所述第二基础图像特征是使用训练完毕的目标特征提取模型得到的;
基于未训练的任意一第一识别模型和所述第二基础图像特征,得到所述第二样本图片的第二预测分类结果,根据所述第二预测分类结果与第二实际分类结果之间的第二损失值,调整所述未训练的任意一第一识别模型的参数;其中,任意一第二实际分类结果包含了所述任意一第一识别模型的聚类标签,所述任意一第二实际分类结果是通过对至少一个第一实际分类结果进行聚类处理得到的。
17.如权利要求16所述的装置,其特征在于,所述特征提取单元用于:
基于预设的目标特征提取模型对所述待识别图片进行特征提取,得到所述第一基础图像特征;
其中,所述目标特征提取模型是根据训练完毕的初始特征提取模型的输入层和设定数量的卷积层组成的。
18.如权利要求16所述的装置,其特征在于,所述疑似违规识别单元针对一个第一识别模型执行以下操作:
若所述一个第一识别模型的第一预测概率不超过第一阈值,判定所述待识别图片是对应聚类标签下的正常图片;
若所述一个第一识别模型的第一预测概率大于第二阈值,判定所述待识别图片是对应聚类标签下的违规图片;
若所述一个第一识别模型的第一预测概率大于所述第一阈值、且不超过所述第二阈值时,判定所述待识别图片是对应聚类标签下的疑似违规图片。
19.如权利要求16所述的装置,其特征在于,所述精准违规识别单元用于:
将所述待识别图片输入到所述至少一个第二识别模型中进行二次识别,得到所述至少一个第二识别模型对应的第二预测概率;其中,所述至少一个第二识别模型分别对应一个子标签,所述第二预测概率用于判定所述待识别图片为对应子标签下的正常图片或者违规图片。
20.如权利要求19所述的装置,其特征在于,所述精准违规识别单元针对一个第二识别模型执行以下操作:
在所述待识别图片上确定目标检测框;
对所述目标检测框选中区域的图像进行特征提取,得到子图像特征;
基于所述子图像特征得到所述第二预测概率。
21.如权利要求19所述的装置,其特征在于,所述精准违规识别单元针对一个第二识别模型执行以下操作:
若所述一个第二识别模型不超过第三阈值,判定所述待识别图片是对应子标签下的正常图片;
否则,判定所述待识别图片是对应子标签下的违规图片。
22.如权利要求17所述的装置,其特征在于,所述装置还包括第一训练单元,所述第一训练单元用于对所述初始特征提取模型采用循环迭代的方式执行以下操作,直至满足迭代停止条件为止得到的所述训练完毕的初始特征提取模型:
从第一训练集中获取第一样本图片,通过所述初始特征提取模型得到所述第一样本图片的第一预测分类结果;
根据所述第一预测分类结果与对应的第一实际分类结果之间的第一损失值,调整所述初始特征提取模型的参数;其中,所述初始特征提取模型至少包括输入层、输出层和多个卷积层,所述第一实际分类结果是通过全部第二识别模型得到的,所述第一实际分类结果包含所述全部第二识别模型对应的子标签。
23.如权利要求22所述的装置,其特征在于,所述第一训练单元用于:
基于所述第一损失值,确定所述初始特征提取模型的梯度;
确定所述梯度的方向,并按照所述梯度的方向,对所述初始特征提取模型的参数进行调整。
24.如权利要求23所述的装置,其特征在于,所述初始特征提取模型为残差网络,所述残差网络是使用图像网络预训练得到的;以及,
所述第一损失值是使用二分类交叉熵损失函数确定的;以及,
所述梯度的方向是由AdamW优化器确定的。
25.如权利要求16所述的装置,其特征在于,所述第二训练单元用于:
从第三训练集中获取各个第三样本图片的第三基础图像特征,从各个第三基础图像特征中选取n个第三基础图像特征作为当前一轮的聚类中心,采用循环迭代的方式执行以下操作,直至当前一轮的各个聚类中心与下一轮的各个聚类中心均相同时结束,得到c个第三基础图像特征组,并根据每一组中至少一个第三基础图像特征所对应的子标签,确定所述每一组的聚类标签:
分别计算所述各个第三基础图像特征与当前一轮的各个聚类中心之间的距离,将所述第三基础图像特征划分到最小距离所对应的当前一轮的聚类中心下;
分别计算当前一轮的各个聚类中心的特征平均值,并将与所述特征平均值相同的第三基础图像特征确定为下一轮的聚类中心。
26.如权利要求25所述的装置,其特征在于,所述第二训练单元还用于:
若聚类标签的数量总和大于第一识别模型的数量总和,则针对所述各个聚类标签执行以下操作,直至所述聚类标签的数量总和与所述第一识别模型的数量总和相同时为止:
分别计算所述各个聚类标签中最后一轮聚类中心,与其他聚类标签中最后一轮聚类中心之间的距离;
将距离最小的两个聚类标签合并到同一组中。
27.如权利要求26所述的装置,其特征在于,在所述聚类标签的数量总和与所述第一识别模型的数量总和相同之后,所述第二训练单元还用于:
获取新的第三样本图片的第三基础图像特征;
分别计算所述第三基础图像特征,与各个聚类标签中最后一轮聚类中心之间的距离;
若第一距离与第二距离之间的比值未超过第一距离阈值,则将所述新的第三样本图片的子标签划分到所述第一距离对应的聚类标签下;否则,将所述新的第三样本图片的子标签作为新的聚类标签;
其中,所述第一距离为最小距离,以及所述第一距离小于所述第二距离。
28.如权利要求27所述的装置,其特征在于,所述第二训练单元还用于:
分别计算所述各个聚类标签的第三基础图像特征组的均方距离;
针对各个均方距离分别执行以下操作:若任意一均方距离大于第二距离阈值,则重新生成当前一轮的聚类中心。
29.如权利要求16所述的装置,其特征在于,所述第二损失值是使用去焦点损失函数确定的。
30.如权利要求16所述的装置,其特征在于,所述聚类标签至少包括以下之一:旗帜、地图、武器、服饰、药物、器官、表征指定身体部位的信息、表征指定行为的信息。
31.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~15中任一项所述方法的步骤。
32.一种计算机可读存储介质,其特征在于,其包括程序代码,当程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~15中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478954.5A CN112507912B (zh) | 2020-12-15 | 2020-12-15 | 一种识别违规图片的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478954.5A CN112507912B (zh) | 2020-12-15 | 2020-12-15 | 一种识别违规图片的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507912A CN112507912A (zh) | 2021-03-16 |
CN112507912B true CN112507912B (zh) | 2024-06-11 |
Family
ID=74973746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011478954.5A Active CN112507912B (zh) | 2020-12-15 | 2020-12-15 | 一种识别违规图片的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507912B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562824B (zh) * | 2023-05-25 | 2023-11-24 | 闽通数智安全顾问(杭州)有限公司 | 一种公路工程全生命周期项目管理方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016124103A1 (zh) * | 2015-02-03 | 2016-08-11 | 阿里巴巴集团控股有限公司 | 一种图片检测方法及设备 |
CN106682124A (zh) * | 2016-12-09 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 一种图片识别方法、装置和设备 |
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN110362777A (zh) * | 2019-07-25 | 2019-10-22 | 焦点科技股份有限公司 | 一种多信息融合的图片审核方法和系统 |
CN111178410A (zh) * | 2019-12-19 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 违规图片的识别方法及装置 |
CN111325067A (zh) * | 2018-12-14 | 2020-06-23 | 北京金山云网络技术有限公司 | 违规视频的识别方法、装置及电子设备 |
CN111324764A (zh) * | 2020-02-18 | 2020-06-23 | 北京金山安全软件有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN111507320A (zh) * | 2020-07-01 | 2020-08-07 | 平安国际智慧城市科技股份有限公司 | 后厨违规行为检测方法、装置、设备和存储介质 |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960219B (zh) * | 2017-03-10 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 图片识别方法及装置、计算机设备及计算机可读介质 |
WO2019206252A1 (en) * | 2018-04-27 | 2019-10-31 | Shanghai Truthvision Information Technology Co., Ltd. | Systems and methods for monitoring traffic sign violation |
-
2020
- 2020-12-15 CN CN202011478954.5A patent/CN112507912B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016124103A1 (zh) * | 2015-02-03 | 2016-08-11 | 阿里巴巴集团控股有限公司 | 一种图片检测方法及设备 |
CN106682124A (zh) * | 2016-12-09 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 一种图片识别方法、装置和设备 |
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN111325067A (zh) * | 2018-12-14 | 2020-06-23 | 北京金山云网络技术有限公司 | 违规视频的识别方法、装置及电子设备 |
WO2020164282A1 (zh) * | 2019-02-14 | 2020-08-20 | 平安科技(深圳)有限公司 | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 |
CN110362777A (zh) * | 2019-07-25 | 2019-10-22 | 焦点科技股份有限公司 | 一种多信息融合的图片审核方法和系统 |
CN111178410A (zh) * | 2019-12-19 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 违规图片的识别方法及装置 |
CN111324764A (zh) * | 2020-02-18 | 2020-06-23 | 北京金山安全软件有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN111507320A (zh) * | 2020-07-01 | 2020-08-07 | 平安国际智慧城市科技股份有限公司 | 后厨违规行为检测方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于新媒体的视图像内容识别技术研究;张家亮;曾兵;沈宜;李斌;贾宇;;通信技术(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507912A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN111382868B (zh) | 神经网络结构搜索方法和神经网络结构搜索装置 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN109325148A (zh) | 生成信息的方法和装置 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN112348117A (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN113033507B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN114299304B (zh) | 一种图像处理方法及相关设备 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN115062709A (zh) | 模型优化方法、装置、设备、存储介质及程序产品 | |
Shi et al. | A new multiface target detection algorithm for students in class based on bayesian optimized YOLOv3 model | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
CN113870863A (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
Qin | Application of efficient recognition algorithm based on deep neural network in English teaching scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210926 Address after: 310052 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd. Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant |