CN113688915B - 一种面向内容安全的困难样本挖掘方法及装置 - Google Patents

一种面向内容安全的困难样本挖掘方法及装置 Download PDF

Info

Publication number
CN113688915B
CN113688915B CN202110999821.0A CN202110999821A CN113688915B CN 113688915 B CN113688915 B CN 113688915B CN 202110999821 A CN202110999821 A CN 202110999821A CN 113688915 B CN113688915 B CN 113688915B
Authority
CN
China
Prior art keywords
training
sample
difficult
mining
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110999821.0A
Other languages
English (en)
Other versions
CN113688915A (zh
Inventor
丁大强
李蒙阳
石海涛
胡安裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiu'an Tianxia Technology Co ltd
Original Assignee
Beijing Jiu'an Tianxia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiu'an Tianxia Technology Co ltd filed Critical Beijing Jiu'an Tianxia Technology Co ltd
Priority to CN202110999821.0A priority Critical patent/CN113688915B/zh
Publication of CN113688915A publication Critical patent/CN113688915A/zh
Application granted granted Critical
Publication of CN113688915B publication Critical patent/CN113688915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

一种面向内容安全的困难样本挖掘方法,包括以下步骤:(s1)准备训练样本,进行标注;(s2)利用标注后所述训练样本对困难样本挖掘模型进行训练;(s3)利用所述困难样本挖掘模型对待挖掘的数据进行处理,获得挖掘结果。本发明一种面向内容安全的困难样本挖掘方法及装置,在模型训练过程中,所采用的的损失函数包含难类别和难样本信息,训练后的模型针对难类别和难样本的识别效果相对于现有方法更好,同时还可以保证其他类别样本的识别准确率,非常适用于解决面向内容安全的困难样本的挖掘问题。

Description

一种面向内容安全的困难样本挖掘方法及装置
技术领域
本发明属于计算机应用技术领域,涉及一种信息识别处理方法,特别涉及一种面向内容 安全的困难样本挖掘方法及装置。
背景技术
图片识别技术作为人工智能热潮下的宠儿,经历了由深度学习兴起前期人工设置特征到 深度学习时代模型自主学习特征的过程,其广泛的应用场景、便捷的应用方式、优异的识别 性能,在众多行业中得到了普遍应用。对图片识别模型进行训练时,为提高模型的性能,通 常需要结合具体应用场景,对基于softmax的损失函数进行调整,通常的做法包括对输入的 调整(即对logit的调整)和对loss整体的调整,从而获得最优的模型。
另一方面,随着网络的普及和开放,网络上出现了一些含有不良信息的图片。这些图片 的制作者或者传播者为了避免图片在传播过程中被识别或被封堵,往往采用比较隐晦的方式 表达这些信息,例如图片中的人物要素或其他要素的隐含特征/表达、变音/变形/替换后的文 字、暗语/口号等方式。同时,这些图片的数量规模相对于互联网上全部图片数量的占比又很 低。基础这两方面原因,现有的图片识别技术难以对这些非法图片(即面向内容安全的困难 样本)从全部的互联网图片中挖掘(即识别或提取)出来。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种能够有效识别困难样本、识别准确率 高的面向内容安全的困难样本挖掘方法和装置。
为实现上述目的,本发明采用了如下技术方案:
一种面向内容安全的困难样本挖掘方法,包括以下步骤:(s1)准备训练样本,进行标注; (s2)利用标注后所述训练样本对困难样本挖掘模型进行训练;(s3)利用所述困难样本挖掘 模型对待挖掘的数据进行处理,获得挖掘结果。
进一步,步骤(s1)中所述标注内容包括所述训练样本的类别,所述类别包括至少一个 “正常”类别和至少一个“非正常”类别。
进一步,步骤(s2)中所述困难样本挖掘模型为ResNet-34、ResNet-50、ResNet-101、 Wide-ResNet-16-8模型中的一种。
进一步,步骤(s2)中所述困难样本挖掘模型的损失函数为:
其中,i和j是目标类,zi和zj为i类别和j类别的logit输出,是一个batch内目标类的分数的均值,经过softmax函数输出后得到/>Pi是当前样本目标类的分数,τ和γ为控制增强程度的参数。
为实现上述目的,本发明还采用了如下技术方案:
一种面向内容安全的困难样本挖掘装置,基于如上所述方法,包括:训练样本标注模块, 用于对训练样本进行标注;模型训练模块,用于利用标注后所述训练样本对困难样本挖掘模 型进行训练;以及,数据挖掘模块,用于利用所述困难样本挖掘模型对待挖掘的数据进行处 理,获得挖掘结果。
进一步,所述训练样本标注模块对训练样本进行标注的内容包括所述训练样本的类别, 所述类别包括至少一个“正常”类别和至少一个“非正常”类别。
进一步,所述模型训练模块采用的困难样本挖掘模型为ResNet-34、ResNet-50、ResNet-101、Wide-ResNet-16-8模型中的一种。
进一步,所述模型的损失函数为改进后的softmax交叉熵函数:
其中,i和j是目标类,zi和zj为i类别和j类别的logit输出,是一个batch内目标类的分数的均值,Pi是当前样本目标类的分数,τ和γ为控制增强程度的参数。
为实现上述目的,本发明还采用了如下技术方案:
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程 序,所述处理器执行所述程序时实现如上所述方法的步骤。
为实现上述目的,本发明还采用了如下技术方案:
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行 时实现如上所述方法的步骤。
有益效果:本发明所提供的一种面向内容安全的困难样本挖掘方法及装置,在模型训练 过程中,所采用的的损失函数包含难类别和难样本信息,训练后的模型针对难类别和难样本 的识别效果相对于现有方法更好,同时还可以保证其他类别样本的识别准确率,非常适用于 解决面向内容安全的困难样本的挖掘问题。
附图说明
图1是实施例1中一种面向内容安全的困难样本挖掘方法的整体流程示意图;
图2是实施例2中一种面向内容安全的困难样本挖掘装置的整体结构示意图;
图3是实施例3中一种电子设备的的整体结构示意图。
具体实施方式
以下结合附图1至3,进一步说明本发明一种面向内容安全的困难样本挖掘方法和装置 的具体实施方式。本发明一种面向内容安全的困难样本挖掘方法和装置不限于以下实施例的 描述。
实施例1:
本实施例给出一种面向内容安全的困难样本挖掘方法,如图1所示,包括以下步骤:
(s1)准备训练样本,进行标注。
具体的,所述训练样本为图片。为提高训练的效率,可对图片进行初步的预处理,例如 调整格式、尺寸等。进行标注时,可采用人工标注方式,也可采用其他标注方式,或者采用 现有的已标记数据。标注内容包括所述训练样本的类别,所述类别包括至少一个“正常”类 别和至少一个“非正常”类别。例如,将类别划分为正常,以及涉政、违禁、涉黄、暴恐、广告,共6个类别。
由于深度学习训练非常容易造成过拟合,需要大量数据(训练样本)以及各类正则化方 法。数据增强可以看做是一种正则化方法,通过数据增强可以提高模型的泛化能力及提升模 型的鲁棒性。本实施例中,采用了以下一种或多种数据增强方法:
对图像进行随机裁剪到224*224大小;
对图像以0.5的概率随机加入高斯噪声;
对图像以0.5的概率进行随机旋转;
对图像以0.5的概率进行色彩增强;
对图像进行随机Cutout。
其中,Cutout的具体方法是利用固定大小的矩形对图像进行随机遮挡,在矩形范围内, 所有的值都被设置为0,擦除矩形区域存在一定概率不完全在原图像中(例如设置为50%)。Cutout能够让CNN利用整幅图像的全局信息,而不是一些小特征组成的局部信息。
本实施例具体实施时,选定并标注涉政和违禁类别10000张图片,涉黄、广告、暴恐20000 张图片、正常类图片40000张;取其中60000张图片作为训练集,剩余10000张图片作为测 试集。
(s2)利用标注后所述训练样本对困难样本挖掘模型进行训练。
训练过程中,采用的损失函数为改进后的softmax交叉熵函数:
其中,i和j是目标类,zi和zj为i类别和j类别的logit输出,是一个batch内目标类的分数的均值,经过softmax函数输出后得到/>Pi是当前样本目标类的分数,τ和γ为控制增强程度的参数。
更优的,还可以采用引入半监督方法来平滑模型。具体的,将带标签的图像输入模型提 取到一组特征,计算改进后的softmax交叉熵损失,得到Lsoftmax。将无标签图像分别进行数据 增强与不进行数据增强输入模型提取到两组特征,使用这两组特征计算KL散度,得到DKL, 最后相加得到总的损失函数:
L=Lsoftmax+λDKL
其中,散度公式为:
其中,p(xi)为无标签图像不进行数据增强得到的每个类别的softmax输出,q(xi)为数 据增强后得到的每个类别的softmax输出,λ为正项系数,控制散度作用程度。
本实施例具体实施时,可以选取ResNet-34、ResNet-50、ResNet-101、Wide-ResNet-16-8 等模型中的一种或多种,利用标注后的训练集分别进行训练。在本实施例中,选取ResNet-50 模型,利用步骤(s1)标准的训练样本作为训练集进行训练。设置带标签数据的batch size 为240,共250个batch,无标签数据的batch size为240,共250个batch。模型每次输入 三个batch,分别为带标签图像、无标签无数据增强图像以及无标签数据增强图像。利用上 述损失函数进行优化。设置epoch为300进行训练,每个epoch的训练数据随机划分,保证 训练时数据的均衡,最终选取并保存识别效果最好的模型。
在步骤(s2)中,采用上述损失函数的优点如下:一是将难易类别的信息加入到损失函 数中,使模型更加关注难类别;借鉴logit adjustment的方法,不再考虑体现类别数量信息 的先验概率,而是选择可以体现难易类别的预测分数,通常难类别的预测分数较低,易类别 的预测分数较高,将类别的预测分数均值加入损失函数,难类别相对来说损失增加,促使 模型更加关注难类别。二是利用focal loss的方法,加入难易样本的信息(1-Pi)γ,难样 本的预测分数pi较低,(1-Pi)γ较大,易样本的(1-Pi)γ较小,通过减少易样本的权重, 从而使得模型在训练时更专注于难样本的分类。三是引入KL散度的半监督方法,可以很好的 平滑模型,减小数据增强带来的差异程度,提升模型的泛化能力。
(s3)利用所述困难样本挖掘模型对待挖掘的数据进行处理,获得挖掘结果。
实际测试证明,采用训练后的模型对测试集进行测试,与现有技术中采用的损失函数生 成的模型相比较,挖掘准确率提升3%以上。
实施例2:
本实施例给出基于实施例1所述方法的一种面向内容安全的困难样本挖掘装置,如图2 所示,包括:
(1)训练样本标注模块,用于对训练样本进行标注。
所述训练样本标注模块对训练样本进行标注的内容包括所述训练样本的类别,所述类别 包括至少一个“正常”类别和至少一个“非正常”类别。需要说明的是,所述训练样本标注 模块并不仅限于是用于完成一个完整的、自动化的标注过程的模块,也可以是用于辅助人工 进行标记并存储的模块,或者是一个接收标注信息/样本数据的接口等。
(2)模型训练模块,用于利用标注后所述训练样本对困难样本挖掘模型进行训练。
优选的,所述模型训练模块采用的困难样本挖掘模型为ResNet-32、ResNet-110、Wide-ResNet-16-8模型中的一种。所述模型的损失函数为改进后的softmax交叉熵函数:其中,i和j是目标类,zi和zj为i类别和j类别的logit 输出,/>是一个batch内目标类的分数的均值,pi是当前样本目标类的分数,τ和γ为控制 增强程度的参数。
(3)数据挖掘模块,用于利用所述困难样本挖掘模型对待挖掘的数据进行处理,获得挖 掘结果。
实施例3:
本实施例给出一种电子设备的具体实施方式,基于实施例1所述面向内容安全的困难样 本挖掘方法。
如图3所示,所述电子设备包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存 储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并 可在处理器301上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:准备训 练样本,进行标注;利用标注后所述训练样本对困难样本挖掘模型进行训练;利用所述困难 样本挖掘模型对待挖掘的数据进行处理,获得挖掘结果。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的 产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实 施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件 产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一 台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例1所述方 法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程 序代码的介质。
实施例4:
本实施例给出一种非暂态计算机可读存储介质的具体实施方式,基于实施例1所述面向 内容安全的困难样本挖掘方法。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行 时实现以执行上述各实施例提供的方法,例如包括:准备训练样本,进行标注;利用标注后 所述训练样本对困难样本挖掘模型进行训练;利用所述困难样本挖掘模型对待挖掘的数据进 行处理,获得挖掘结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或 者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以 位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况 下,即可以理解并实施。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发 明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载 的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不 使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种面向内容安全的困难样本挖掘方法,其特征在于,包括以下步骤:
(s1)准备训练样本,进行标注;
(s2)利用标注后所述训练样本对困难样本挖掘模型进行训练;
(s3)利用所述困难样本挖掘模型对待挖掘的数据进行处理,获得挖掘结果;
其中,步骤(s1)中所述准备训练样本,进行标注还包括:对所述训练样本进行数据增强,所述数据增强包括以下一种或多种方法:
对图像进行随机裁剪到224*224大小;
对图像以0.5的概率随机加入高斯噪声;
对图像以0.5的概率进行随机旋转;
对图像以0.5的概率进行色彩增强;
对图像进行随机Cutout,其中,所述Cutout的是利用固定大小的矩形对图像进行随机遮挡,在矩形范围内,所有的值都被设置为0,擦除矩形区域存在一定概率不完全在原图像中;
其中,步骤(s2)中所述困难样本挖掘模型为ResNet-34、ResNet-50、ResNet-101、Wide-ResNet-16-8模型中的一种;
步骤(s2)中所述困难样本挖掘模型的损失函数为:
其中,i和j是目标类,zi和zj为i类别和j类别的logit输出,C是类别总数,是一个batch内i类别目标类的分数的均值,/>是一个batch内j类别目标类的分数的均值,Pi是当前样本目标类的分数,τ和γ为控制增强程度的参数。
2.根据权利要求1所述的面向内容安全的困难样本挖掘方法,其特征在于:步骤(s1)中所述标注内容包括所述训练样本的类别,所述类别包括至少一个“正常”类别和至少一个“非正常”类别。
3.一种面向内容安全的困难样本挖掘装置,其特征在于:基于权利要求1-2中任一权利要求所述方法,包括:
训练样本标注模块,用于对训练样本进行标注;
模型训练模块,用于利用标注后所述训练样本对困难样本挖掘模型进行训练;以及,
数据挖掘模块,用于利用所述困难样本挖掘模型对待挖掘的数据进行处理,获得挖掘结果;
其中,所述训练样本标注模块还用于对所述训练样本进行数据增强,所述数据增强包括以下一种或多种方法:
对图像进行随机裁剪到224*224大小;
对图像以0.5的概率随机加入高斯噪声;
对图像以0.5的概率进行随机旋转;
对图像以0.5的概率进行色彩增强;
对图像进行随机Cutout,其中,所述Cutout的是利用固定大小的矩形对图像进行随机遮挡,在矩形范围内,所有的值都被设置为0,擦除矩形区域存在一定概率不完全在原图像中;
其中,所述模型训练模块采用的困难样本挖掘模型为ResNet-32、ResNet-110、Wide-ResNet-16-8模型中的一种;
所述模型的损失函数为:
其中,i和j是目标类,zi和zj为i类别和j类别的logit输出,C是类别总数,是一个batch内i类别目标类的分数的均值,/>是一个batch内j类别目标类的分数的均值,Pi是当前样本目标类的分数,τ和γ为控制增强程度的参数。
4.根据权利要求3所述的面向内容安全的困难样本挖掘装置,其特征在于,所述训练样本标注模块对训练样本进行标注的内容包括所述训练样本的类别,所述类别包括至少一个“正常”类别和至少一个“非正常”类别。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。
CN202110999821.0A 2021-08-24 2021-08-24 一种面向内容安全的困难样本挖掘方法及装置 Active CN113688915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110999821.0A CN113688915B (zh) 2021-08-24 2021-08-24 一种面向内容安全的困难样本挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110999821.0A CN113688915B (zh) 2021-08-24 2021-08-24 一种面向内容安全的困难样本挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN113688915A CN113688915A (zh) 2021-11-23
CN113688915B true CN113688915B (zh) 2023-07-25

Family

ID=78583695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110999821.0A Active CN113688915B (zh) 2021-08-24 2021-08-24 一种面向内容安全的困难样本挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN113688915B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965823B (zh) * 2023-02-13 2023-07-25 山东锋士信息技术有限公司 一种基于Focal损失函数的在线困难样本挖掘方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596184A (zh) * 2018-04-25 2018-09-28 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备
CN110322445A (zh) * 2019-06-12 2019-10-11 浙江大学 一种基于最大化预测和标签间相关性损失函数的语义分割方法
CN111310850A (zh) * 2020-03-02 2020-06-19 杭州雄迈集成电路技术股份有限公司 车牌检测模型的构建方法及系统、车牌检测方法及系统
CN111651660A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种跨媒体检索困难样本的方法
EP3754549A1 (en) * 2019-06-17 2020-12-23 Sap Se A computer vision method for recognizing an object category in a digital image
CN112766379A (zh) * 2021-01-21 2021-05-07 中国科学技术大学 一种基于深度学习多权重损失函数的数据均衡方法
CN112819065A (zh) * 2021-01-28 2021-05-18 广东工业大学 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN112990342A (zh) * 2021-04-08 2021-06-18 重庆大学 一种半监督sar目标识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596184A (zh) * 2018-04-25 2018-09-28 清华大学深圳研究生院 图像语义分割模型的训练方法、可读存储介质及电子设备
CN110322445A (zh) * 2019-06-12 2019-10-11 浙江大学 一种基于最大化预测和标签间相关性损失函数的语义分割方法
EP3754549A1 (en) * 2019-06-17 2020-12-23 Sap Se A computer vision method for recognizing an object category in a digital image
CN111310850A (zh) * 2020-03-02 2020-06-19 杭州雄迈集成电路技术股份有限公司 车牌检测模型的构建方法及系统、车牌检测方法及系统
CN111651660A (zh) * 2020-05-28 2020-09-11 拾音智能科技有限公司 一种跨媒体检索困难样本的方法
CN112766379A (zh) * 2021-01-21 2021-05-07 中国科学技术大学 一种基于深度学习多权重损失函数的数据均衡方法
CN112819065A (zh) * 2021-01-28 2021-05-18 广东工业大学 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN112990342A (zh) * 2021-04-08 2021-06-18 重庆大学 一种半监督sar目标识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于难分样本挖掘的快速区域卷积神经网络目标检测研究;张烨等;电子与信息学部;第41卷(第6期);1496-1502 *

Also Published As

Publication number Publication date
CN113688915A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN108197670B (zh) 伪标签生成模型训练方法、装置及伪标签生成方法及装置
US20190019055A1 (en) Word segmentation system, method and device
CN111275107A (zh) 一种基于迁移学习的多标签场景图像分类方法及装置
CN111126386A (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110276351B (zh) 多语言场景文本检测与识别方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN110555441A (zh) 一种文字识别方法及装置
CN113688915B (zh) 一种面向内容安全的困难样本挖掘方法及装置
CN116258861B (zh) 基于多标签学习的半监督语义分割方法以及分割装置
CN114998603A (zh) 一种基于深度多尺度特征因子融合的水下目标检测方法
CN112861864A (zh) 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质
CN116977633A (zh) 地物要素分割模型训练方法、地物要素分割方法及装置
CN111461239B (zh) 基于白盒攻击的ctc场景文字识别模型优化方法
CN111191238A (zh) 一种webshell检测方法、终端设备及存储介质
CN115797701A (zh) 目标分类方法、装置、电子设备及存储介质
CN115982706A (zh) 基于api调用序列行为多视角融合的恶意软件检测方法
CN113065407B (zh) 基于注意力机制和生成对抗网络的财务票据印章擦除方法
CN114429626A (zh) 基于深度学习的多版式车牌识别方法、装置及介质
CN116416486A (zh) 图像识别方法及系统
CN113283388A (zh) 活体人脸检测模型的训练方法、装置、设备及存储介质
CN114139655A (zh) 一种蒸馏式竞争学习的目标分类系统和方法
CN113537463A (zh) 基于数据扰动的对抗样本防御方法与装置
CN111507389A (zh) 一种用于天空云量探测的UNet分割网络的训练方法与设备
CN115424250A (zh) 一种车牌识别方法及装置
CN112241532B (zh) 一种基于雅可比矩阵生成与检测恶性对抗样本的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant