CN114494940A - 一种基于深度集成网络的标识内容检测方法及系统 - Google Patents

一种基于深度集成网络的标识内容检测方法及系统 Download PDF

Info

Publication number
CN114494940A
CN114494940A CN202111606030.3A CN202111606030A CN114494940A CN 114494940 A CN114494940 A CN 114494940A CN 202111606030 A CN202111606030 A CN 202111606030A CN 114494940 A CN114494940 A CN 114494940A
Authority
CN
China
Prior art keywords
result
reasoning
sub
identification content
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111606030.3A
Other languages
English (en)
Inventor
魏平
王浩颖
常昊
纪梦然
张玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Sports Club Co Ltd
Original Assignee
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People Co Ltd filed Critical People Co Ltd
Priority to CN202111606030.3A priority Critical patent/CN114494940A/zh
Publication of CN114494940A publication Critical patent/CN114494940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度集成网络的标识内容检测方法及系统,所述方法具体包括以下步骤:获取待检测图片或视频帧;将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。本发明提供的标识内容检测方法或系统,在进行标识内容检测时具有较高的检测效率及准确率。

Description

一种基于深度集成网络的标识内容检测方法及系统
技术领域
本发明属于计算机视觉的目标检测技术领域,特别涉及一种基于深度集成网络的标识内容检测方法及系统。
背景技术
随着新媒体和网络技术的发展,使用视频和图像媒体进行信息传播变得越来越容易,检测视频和图像媒体传播中的标识内容变得非常关键(示例性的,如非法或敏感标识等)。
目前,各大视频和社交平台采用的是人工审查以及基于用户举报的人工再审查方式,这种现有审查方式存在低效、误判率高的缺陷;基于此,科研人员亟需开发利用计算机技术实现高效、准确率高的检测审查方法。
具体的,在所有违规或违法内容中,最容易引起广泛传播的就是标识、旗帜,标识、旗帜鉴于其自身的特点较难检测;其中,标识或旗帜在视频、图片的出现往往伴随着复杂的场景(示例性的,比如作为水印出现在各类违法宣传视频和图片中、在环境复杂的集会和游行中出现、在服饰或纹身上出现等);标识或旗帜容易发生形状变化、容易被其他物体部分遮挡、还可能出现由于其材料不同而产生的透光、反光性的差异。
综上所述,在视频或图片中准确检测出标识、旗帜是一项困难的任务,现有技术对实际场景中的标识、旗帜检测存在各种局限性,准确率和召回率较低,亟需一种适用于实际场景中的性能良好的标识、旗帜检测方法。
发明内容
本发明的目的在于提供一种基于深度集成网络的标识内容检测方法及系统,以解决上述存在的一个或多个技术问题。本发明提供的标识内容检测方法或系统,在进行标识内容检测时具有较高的检测效率及准确率。
为达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于深度集成网络的标识内容检测方法,包括以下步骤:
获取待检测图片或视频帧;
将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;
基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。
本发明方法的进一步改进在于,所述预训练好的Q个子检测模型的获取步骤包括:
通过收集或构建的方式,获取预设标识内容的基础数据集;
基于所述基础数据集,生成Q个子训练集;
基于所述Q个子训练集,使用目标检测深度神经网络的主干进行训练,得到预训练好的Q个子检测模型。
本发明方法的进一步改进在于,所述预设标识内容包括预设的标识和旗帜中的一种或两种。
本发明方法的进一步改进在于,所述通过收集或构建的方式,获取预设标识内容的基础数据集的步骤具体包括:
使用网络爬虫收集实际场景中的预设标识内容图片或视频帧,对预设的无效数据进行清理后进行标注,获得基础数据集;
其中,标注包括:对图片或视频帧标注标识类别和对应的boudingbox。
本发明方法的进一步改进在于,所述基于所述Q个子训练集,使用目标检测深度神经网络的主干进行训练,得到预训练好的Q个子检测模型的步骤具体包括:
对所述Q个子训练集进行随机增强,获得随机增强后的Q个子训练集;
采用随机增强后的Q个子训练集,采用随机梯度下降法,对目标检测深度神经网络的主干进行训练,得到预训练好的Q个子检测模型;
其中,所述随机增强的方法为方法1至方法4中的一种或几种的组合;其中,方法1为,对每一个样本进行随机透视变换,并在±15°的范围内对变换后的图像进行随机旋转,获得处理完成的图像;对所述处理完成的图像进行裁剪,并对图像对应的boundingbox进行处理,使之能够包含变换后的标识;方法2为,对每一个样本以第一预设概率进行随机高斯模糊或者加高斯白噪声,并以第二预设概率将四张样本进行拼接裁剪;方法3为,对每一个样本以第三预设概率与下一个样本进行融合,并以第四预设概率将四张样本进行拼接裁剪;方法4,对每一个样本添加随机的文字水印。
本发明方法的进一步改进在于,所述将所述Q个推理结果进行拼接,获得拼接后的推理结果的步骤具体包括:
所述Q个推理结果通过Concat操作进行拼接,获得拼接后的推理结果。
本发明方法的进一步改进在于,所述基于所述过滤结果获得标识内容检测结果的步骤具体包括:
将所述过滤结果使用非极大值抑制算法处理,获得标识内容检测结果;其中,所述标识内容检测结果包括标识内容的类别、边框和置信度信息。
本发明方法的进一步改进在于,所述将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果中,
每个推理结果均表示为一个(BatchSize,AnchorNum,AnchorInfo)维度的三维张量;其中,BatchSize是指模型进行推理时每一批次的样本数量,AnchorNum是模型的超参数,代表模型预设的锚框数量,AnchorInfo=[xi,yi,wi,hi,ai,bi,…,ni,si]表示各个锚框的信息;前4维(xi,yi,wi,hi)表示输出预测框的中心位置与宽高,倒数第一维(si)表示预测框中有无目标的置信度,其余维度(ai,bi,…,ni)分别表示各个目标类别的置信度。
本发明方法的进一步改进在于,所述基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果的步骤具体包括:
将拼接后的推理结果中AnchorInfo倒数第一维(si)小于Threshold的预测框舍弃,Threshold为预设阈值;
取max(ai,bi,…,ni)表示对应预测框的类别;
将AnchorInfo化为6维向量AnchorInfo′=[xi,yi,wi,hi,ci,s′i];其中,ci表示(ai,bi,…,ni)中最大值对应的序号,s′i表示最终的检测置信度s′i=max(ai,bi,…,ni)×si
本发明提供的一种基于深度集成网络的标识内容检测系统,包括:
采集获取模块,用于获取待检测图片或视频帧;
推理结果获取模块,用于将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;
检测结果获取模块,用于基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。
与现有技术相比,本发明具有以下有益效果:
针对标识内容检测易受干扰因素(示例性的,如噪音、水印、畸变等干扰因素)影响,检测效率低和准确率低的技术问题,本发明具体提供了基于深度集成网络的标识内容检测方法,在进行标识内容检测时具有较高的检测效率及准确率,可以应用于视频、图像媒体中非法和敏感标识内容的自动检测,能够提高媒体内容审核的效率和准确性。
本发明提供的基于深度集成网络的标识内容检测方法的创新点包括:
(1)基于深度集成网络进行标识内容检测,利用样本随机重采样策略,充分结合神经网络的数据拟合能力和集成学习的提升能力,能够提高标识内容检测的性能;
(2)提出了敏感内容随机属性采样的方法,使模型可以更好地处理视频和图像媒体内容中的噪音、水印、畸变等干扰因素,能够提高模型的稳健性和性能。
(3)基于在实际视频和图像媒体上的测试,本发明方法的检测效果优于现有方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于深度集成网络的标识内容检测方法的流程示意图;
图2是本发明实施例中,生成子数据集、训练子网络模型的示意图;
图3是本发明实施例中,推理过程的示意图;
图4是本发明实施例中,具体实例对比示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
请参阅图1,本发明实施例的一种基于深度集成网络的标识内容检测方法,具体包括以下步骤:
获取待检测图片或视频帧;
将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;
基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。
本发明提供的标识内容检测方法或系统,在进行标识内容检测时具有较高的检测效率及准确率。具体的,针对标识内容检测易受干扰因素(示例性的,如噪音、水印、畸变等干扰因素)影响,检测效率低和准确率低的技术问题,本发明具体提供了基于深度集成网络的标识内容检测方法,在进行标识内容检测时具有较高的检测效率及准确率,可以应用于视频、图像媒体中非法和敏感标识内容的自动检测,能够提高媒体内容审核的效率和准确性。
请参阅图1至图3,本发明实施例的一种适用于实际场景中的性能良好的违法标识、旗帜检测方法,包括以下步骤:
步骤1:收集和构建敏感标识基础数据集,并对其进行划分。
步骤2:使用步骤1得到的基础训练集,生成若干子训练集。
步骤3:对各个子训练集进行随机增强。
步骤4:分别将步骤3得到各个子训练集,使用YOLOv5深度神经网络(示例性的,可参阅https://github.com/ultralytics/YOLOv5)的主干进行训练,得到若干性能各异的子网络模型。
步骤5:进行推理时,使用步骤4得到的各个子检测模型,并行地对待检测图片或者视频帧进行推理并将推理结果进行拼接。
步骤6:将推理结果按照设定好的阈值过滤,并将过滤结果使用非极大值抑制(NMS)算法处理,得到违法标识的类别、边框和置信度等信息。
本发明实施例所述标识内容为违法或违规的标识、旗帜等。
本发明实施例中,步骤1的具体实现步骤为:
使用网络爬虫在外网收集大量实际场景中的违法标识视频和图片,并对其中的无效数据和人眼难以识别的标识进行清理,最后使用labelimg程序对数据进行标注,对图片或者视频帧标注标识类别和对应的boudingbox,至此基础数据集构建完成。
示例性可选的,标签文件采用VOC格式;将构建好的数据集随机划分为基础训练集Tarinset、验证集Valset和测试集Testset,其中基础训练集占数据集的50%、验证集占20%、测试集占30%。
请参阅图2,本发明实施例中,步骤2具体实现步骤包括:设基础训练集的样本总量为M。首先对基础训练集的样本进行编号(1,...,M),从基础训练集中随机取出一个编号为i的样本进行复制(i为1~M的随机数)。然后,将原始样本放回基础训练集,副本放入子训练集Tj。重复上述步骤M次,得到一个样本数量为M的子训练集Tj
重复上述步骤4次,得到4个相互独立的生成的子训练集Tj,j=1,2,3,4。
本发明实施例步骤2的作用包括:通过步骤2采取的方法,可在一定程度上提高泛化性能和预测稳定性,降低模型输出方差,充分结合神经网络的数据拟合能力和集成学习的提升能力。
本发明实施例中,步骤3的具体实现步骤为:针对步骤2生成的每一个子训练集进行不同的随机增强;其中,具体的随机增强方法为:
方法1、对每一个样本进行随机透视变换,并在±15°的范围内对变换后的图像进行随机旋转;然后,对处理完成的图像进行裁剪。并对图像对应的boundingbox进行处理,使之能包含变换后的标识。
示例性的,
Figure BDA0003433922910000081
yT=xTM,
其中,x=[u,v,w]T为原图片中的像素空间坐标,y=[x′,y′,w′]T为透视变换后的像素空间坐标,M为透视变换矩阵。取M=I,之后对变换矩阵M中M31、M32两个元素进行随机取值,随机取值服从U(-0.05,0.05),随机取值过程相互独立。之后以M为参数使用OpenCV框架中的warpPerspective()函数对原始样本进行透视变换,默认使用线性插值。然后以angle~U(-15°,15°)为参数,使用getRotationMatrix2D()对透视变换后的图像进行随机旋转(产生的空白处用[114,114,114]的像素值填充)。在得到处理后的样本后,需要对标签中的boundingbox坐标进行处理,使得boundingbox恰好能包含样本中的目标。(boundingbox是目标检测中用来标注图片中对应目标空间位置的矩形框,边界与图片边界平行,不能旋转)。
方法2、对每一个样本以一定几率进行随机高斯模糊或者加高斯白噪声,并以一定概率,将四张样本进行拼接裁剪。
示例性的,以P=0.5的概率对原始样本进行高斯模糊:高斯模糊采用OpenCV中的GaussianBlur()方法,其中参数sigmaX与sigmaY是随机变量,分别服从U(0.5,2.5)的均匀分布;否则,对原始样本添加高斯白噪声,噪声的标准差sigma服从U(5,25)的随机分布。
随机选取50%的上述模糊处理或加噪声后的样本,以4个样本为一组,使用Mosaic方法进行数据增强。
方法3、对每一个样本以一定概率,与下一个样本进行融合,并以一定概率,将四张样本进行拼接裁剪。
示例性可选的,对每一个样本以20%的概率,与下一个采样获得的样本进行融合,融合方式为直接对两张图片的对应像素值求加权和:I=αI1+(1-a)I2
其中,a为融合率,服从U(0.3,0.7)的均匀分布。随机选取50%的上述模糊处理或加噪声后的样本,以4个样本为一组,使用Mosaic方法进行数据增强。
方法4、对每一个样本添加随机的文字水印,其中每个样本所加的水印,颜色、大小、长度、内容、倾斜角度都是随机的。
示例性可选的,颜色RGB三通道随机生成,大小范围10-72,长度字符5-30,内容26个英文字母,数字0~9,倾斜角度范围(-45°,45°)。
最后,考虑到标识颜色的问题,对上述每一个子数据集的图片都进行了色彩饱和度(S)和明度(V)的随机增强。
本发明实施例步骤3的作用包括:步骤3采取的方法是调研了敏感标识的特点之后,针对敏感标识内容的特点设置的随机属性采样方法;其中,方法1考虑到敏感标识多为旗帜,考虑到旗帜标志容易形变且不同视角拍摄的标识也会产生形变,所以采用透视变换方式对样本进行增强。方法2考虑到在实际情况中,由于来源不同,图片或视频帧的分辨率、清晰程度会不同。方法3主要考虑到实际情况中有拿违法标志作水印或印在装饰或者服饰上的情况。方法4主要考虑到实际情况中,有以敏感标志作为衬底的宣传海报、文件的情况。
本发明实施例步骤4的具体实现步骤包括:对步骤2、3中获得的各子数据集,分别训练对应的子网络模型。具体地:训练各子网络模型的过程中,验证集采用与对应子训练集相同的随机增强方式(方式1-方式4)。除此之外,训练过程与一般神经网络训练过程无异。训练方法采用随机梯度下降法(SGD),其他参数保持YOLOv5模型默认参数。
示例性可选的,本步骤可以用两种方式实现:
第一种,训练各个子网络模型时可以与步骤2、3结合,然后串行实现各个子网络模型的训练过程,只需要固定好不同子数据集的随机种子,这种方式不需要保存抽样和随机增强后的各个子数据,这种方法优点是不用生成大量的中间数据,缺点是整个训练过程耗时较长。
第二种,采用步骤2、3的方法生成并保存各子数据集,然后并行实现各个子网络模型的训练过程。这种方法优点是容易实现,若采用多GPU训练模型可显著缩短训练时间,缺点是需要保存大量中间数据。
请参阅图3,本发明实施例步骤5的具体实现步骤包括:进行推理时,将待检测的图片并行地输入步骤4得到的4个子网络模型,每个子网络模型的输出结构相同,输出为一个(BatchSize,AnchorNum,AnchorInfo)维度的三维张量;其中,BatchSize是指模型进行推理时每一批次的样本数量,ANchorNum是YOLOv5模型的超参数,代表YOLOv5模型预设的锚框数量,AnchorInfo=[xi,yi,wi,hi,ai,bi,…,ni,si]表示各个锚框的信息,前4维(xi,yi,wi,hi)表示输出预测框的中心位置与宽高,倒数第一维(si)表示预测框中有无目标的置信度,其余维度(ai,bi,…,ni)分别表示各个目标类别的置信度。
另外,将4个子网络模型输出结果进行拼接的方法是:将4个3维张量按照第二维通过Concat操作拼接起来。
本发明实施例步骤6的具体实现步骤为:设定阈值Threshold=0.4,将步骤5得到的拼接结果中AnchorInfo倒数第一维(si即预测框总置信度),小于Threshold的预测框舍弃。再取max(ai,bi,…,ni)表示对应预测框的类别。将AnchorInfo化为6维向量AnchorInfo′=[xi,yi,wi,hi,ci,s′i],其中ci表示对应类别(即(ai,bi,…,ni)中最大值对应的序号)。s′i表示最终的检测置信度s′i=max(ai,bi,…,ni)×si。然后,将上述处理结果输入到非极大值抑制(NMS)算法中,去除掉冗余的预测框,变得到整个模型的预测输出。
请参阅图2至图4,通过如上的六个步骤就可以实现深度集成网络的标识内容检测系统,该系统能够检测图片或视频内容中的敏感标志,该方法和系统在实际视频和图像媒体上进行了测试,效果优于现有方法。检测结果如表1所示。
表1.检测结果对比
Figure BDA0003433922910000111
结合表1和图4可知,本发明提出的方法及系统,在实际的视频和图片上进行测试,具有较高的准确率和召回率,综合指标mAP优于现有方法。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
本发明再一实施例中,提供了一种基于深度集成网络的标识内容检测系统,包括:
采集获取模块,用于获取待检测图片或视频帧;
推理结果获取模块,用于将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;
检测结果获取模块,用于基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。
综上所述,本发明实施例提出了一种基于深度集成网络的标识内容检测方法及系统。本发明的创新点概括如下:(1)提出了一种基于深度集成网络的标识内容检测方法,利用样本随机重采样策略,充分结合神经网络的数据拟合能力和集成学习的提升能力,提高了标识内容检测的性能。(2)提出了敏感内容随机属性采样的方法,使模型可以更好地处理视频和图像媒体内容中的噪音、水印、畸变等干扰因素,提高了模型的稳健性和性能。(3)该方法和系统在实际视频和图像媒体上进行了测试,效果优于现有方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于深度集成网络的标识内容检测方法,其特征在于,包括以下步骤:
获取待检测图片或视频帧;
将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;
基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。
2.根据权利要求1所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述预训练好的Q个子检测模型的获取步骤包括:
通过收集或构建的方式,获取预设标识内容的基础数据集;
基于所述基础数据集,生成Q个子训练集;
基于所述Q个子训练集,使用目标检测深度神经网络的主干进行训练,得到预训练好的Q个子检测模型。
3.根据权利要求2所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述预设标识内容包括预设的标识和旗帜中的一种或两种。
4.根据权利要求2所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述通过收集或构建的方式,获取预设标识内容的基础数据集的步骤具体包括:
使用网络爬虫收集实际场景中的预设标识内容图片或视频帧,对预设的无效数据进行清理后进行标注,获得基础数据集;
其中,标注包括:对图片或视频帧标注标识类别和对应的boudingbox。
5.根据权利要求2所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述基于所述Q个子训练集,使用目标检测深度神经网络的主干进行训练,得到预训练好的Q个子检测模型的步骤具体包括:
对所述Q个子训练集进行随机增强,获得随机增强后的Q个子训练集;
采用随机增强后的Q个子训练集,采用随机梯度下降法,对目标检测深度神经网络的主干进行训练,得到预训练好的Q个子检测模型;
其中,所述随机增强的方法为方法1至方法4中的一种或几种的组合;其中,方法1为,对每一个样本进行随机透视变换,并在±15°的范围内对变换后的图像进行随机旋转,获得处理完成的图像;对所述处理完成的图像进行裁剪,并对图像对应的boundingbox进行处理,使之能够包含变换后的标识;方法2为,对每一个样本以第一预设概率进行随机高斯模糊或者加高斯白噪声,并以第二预设概率将四张样本进行拼接裁剪;方法3为,对每一个样本以第三预设概率与下一个样本进行融合,并以第四预设概率将四张样本进行拼接裁剪;方法4,对每一个样本添加随机的文字水印。
6.根据权利要求1所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述将所述Q个推理结果进行拼接,获得拼接后的推理结果的步骤具体包括:
所述Q个推理结果通过Concat操作进行拼接,获得拼接后的推理结果。
7.根据权利要求1所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述基于所述过滤结果获得标识内容检测结果的步骤具体包括:
将所述过滤结果使用非极大值抑制算法处理,获得标识内容检测结果;其中,所述标识内容检测结果包括标识内容的类别、边框和置信度信息。
8.根据权利要求1所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果中,
每个推理结果均表示为一个(BatchSize,AnchorNum,AnchorInfo)维度的三维张量;其中,BatchSize是指模型进行推理时每一批次的样本数量,AnchorNum是模型的超参数,代表模型预设的锚框数量,AnchorInfo=[xi,yi,wi,hi,ai,bi,...,ni,si]表示各个锚框的信息;前4维(xi,yi,wi,hi)表示输出预测框的中心位置与宽高,倒数第一维(si)表示预测框中有无目标的置信度,其余维度(ai,bi,...,ni)分别表示各个目标类别的置信度。
9.根据权利要求8所述的一种基于深度集成网络的标识内容检测方法,其特征在于,所述基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果的步骤具体包括:
将拼接后的推理结果中AnchorInfo倒数第一维(si)小于Threshold的预测框舍弃,Threshold为预设阈值;
取max(ai,bi,...,ni)表示对应预测框的类别;
将AnchorInfo化为6维向量AnchorInfo′=[xi,yi,wi,hi,ci,s′i];其中,ci表示(ai,bi,...,ni)中最大值对应的序号,s′i表示最终的检测置信度s′i=max(ai,bi,...,ni)×si
10.一种基于深度集成网络的标识内容检测系统,其特征在于,包括:
采集获取模块,用于获取待检测图片或视频帧;
推理结果获取模块,用于将所述待检测图片或视频帧输入预训练好的Q个子检测模型中,并行进行推理,对应获得Q个推理结果;将所述Q个推理结果进行拼接,获得拼接后的推理结果;
检测结果获取模块,用于基于预设阈值对所述拼接后的推理结果进行过滤处理,获得过滤结果;基于所述过滤结果获得标识内容检测结果。
CN202111606030.3A 2021-12-25 2021-12-25 一种基于深度集成网络的标识内容检测方法及系统 Pending CN114494940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111606030.3A CN114494940A (zh) 2021-12-25 2021-12-25 一种基于深度集成网络的标识内容检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111606030.3A CN114494940A (zh) 2021-12-25 2021-12-25 一种基于深度集成网络的标识内容检测方法及系统

Publications (1)

Publication Number Publication Date
CN114494940A true CN114494940A (zh) 2022-05-13

Family

ID=81495325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111606030.3A Pending CN114494940A (zh) 2021-12-25 2021-12-25 一种基于深度集成网络的标识内容检测方法及系统

Country Status (1)

Country Link
CN (1) CN114494940A (zh)

Similar Documents

Publication Publication Date Title
CN101601287B (zh) 产生照片级真实感图像缩略图的设备和方法
US20170103510A1 (en) Three-dimensional object model tagging
US11651477B2 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
US11393100B2 (en) Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
CN111524100B (zh) 一种缺陷图像样本生成方法、装置及面板缺陷检测方法
CN111242905A (zh) 一种x光样本图像的生成方法、生成设备和存储装置
CN111932673B (zh) 一种基于三维重建的物体空间数据增广方法及系统
JP2000137804A (ja) デジタル画像の異常検出方法およびシステム、ならびにそのための記憶媒体
CN109409428A (zh) 木板识别及木板识别模型的训练方法、装置及电子设备
TW201222468A (en) Method and arrangement for censoring content in images
KR102600475B1 (ko) 제품 결함 검출 학습을 위한 딥러닝 기반 데이터 증강 방법
Yu et al. Artificial intelligence for Dunhuang cultural heritage protection: the project and the dataset
CN109829925B (zh) 一种在抠图任务中提取干净前景的方法及模型训练方法
CN112699885A (zh) 一种基于对抗生成网络gan的语义分割训练数据增广方法和系统
CN111311720B (zh) 一种纹理图像的处理方法和装置
Nguyen et al. High-definition texture reconstruction for 3D image-based modeling
CN116167910B (zh) 文本编辑方法、装置、计算机设备及计算机可读存储介质
CN114494940A (zh) 一种基于深度集成网络的标识内容检测方法及系统
CN114529689B (zh) 基于对抗神经网络的陶瓷杯缺陷样本扩增方法及系统
US20020158972A1 (en) Method of image processing an animated figure
TWI771932B (zh) 用於開發觸覺教學材料的圖像轉換方法
CN115601616A (zh) 一种样本数据生成方法、装置、电子设备和存储介质
Arpa et al. Perceptual 3D rendering based on principles of analytical cubism
CN115578362A (zh) 电极涂层的缺陷检测方法、装置、电子设备及介质
CN117333495B (zh) 图像检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination