CN113111803B - 一种小样本字符与手绘草图识别方法及装置 - Google Patents

一种小样本字符与手绘草图识别方法及装置 Download PDF

Info

Publication number
CN113111803B
CN113111803B CN202110422541.3A CN202110422541A CN113111803B CN 113111803 B CN113111803 B CN 113111803B CN 202110422541 A CN202110422541 A CN 202110422541A CN 113111803 B CN113111803 B CN 113111803B
Authority
CN
China
Prior art keywords
data
small sample
network
format
erasing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110422541.3A
Other languages
English (en)
Other versions
CN113111803A (zh
Inventor
付彦伟
韩文慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110422541.3A priority Critical patent/CN113111803B/zh
Publication of CN113111803A publication Critical patent/CN113111803A/zh
Application granted granted Critical
Publication of CN113111803B publication Critical patent/CN113111803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种小样本字符与手绘草图识别方法及装置,其特征在于,包括如下步骤:按照固定抹除比例抹除点序列格式的无标注源数据得到增广网络预训练数据;搭建基于高斯混合模型的BERT增广网络,基于增广网络预训练数据与点序列格式的无标注源数据训练得到增广器;按照各个随机抹除比例抹除点序列格式的有标注小样本数据得到抹除后小样本数据;采用增广器对抹除后小样本数据状态与坐标分别预测从而得到预测点,与抹除后小样本数据整合,并利用神经渲染器转换得到位图格式增广数据;基于位图格式的增广数据以及位图格式的有标注小样本数据训练卷积神经网络分类器,得到小样本字符与手绘草图识别模型,从而对待识别图像进行识别得到分类结果。

Description

一种小样本字符与手绘草图识别方法及装置
技术领域
本发明属于数据识别技术领域,具体涉及一种小样本字符与手绘草图识别方法及装置。
背景技术
深度学习模型革命性地改变了视觉识别任务,但模型效果在很大程度上得益于大量的标注训练集。而因为数据标注成本高以及某些类别(例如稀有物种,古代象形文字等)的自然数据稀缺,极大地限制了计算机视觉模型在实际任务中的部署。由于人类可以从极少数带有标签的示例中有效学习新的视觉概念并识别新的物体,因此,激发了小样本学习方面的研究,其最主要的目标是利用更小的数据集训练出鲁棒性较好的分类器。
在典型的小样本学习中,模型首先在大量有标注小样本数据上学习可迁移和通用的知识或表示,然后在新类别的有限标注“支持(support)”样本上训练后对“查询(query)”数据给出预测。最近有些方法还额外利用无标注“支持”数据(半监督学习)或“查询”数据中包含的信息(转导推理)。
上述小样本学习方法都假定存在大规模有标注的源数据,而这一条件在某些领域并不满足。字符(尤其是象形文字)和手绘草图与自然图像存在很大差别,具有稀疏性、多样性,可表示为动态过程和以形表意,并且缺少纹理和色彩。
以古文字甲骨文为例,到目前为止,从所发掘的甲骨中发现了30000多个不同的字符,这些字符可以代表大约4000个不同写法的单字,其中大多数仍未解密,未能破译的大量字符若能被模型利用,则具有重大意义。
手绘草图为二维平面上的抽象形式,既展现出所要表达的信息,又包含着无穷的想象空间。它能够方便地用于描绘物体或场景、勾勒故事情节、设计产品或建筑等,在绘画、设计类的工作中应用十分广泛。因其绘制门槛低,网络或者社交媒体上存在大量用户上传的无标注手绘草图数据。
甲骨文识别,尤其是某些受限于古人使用频率和考古发掘而仅具有极少量样本的类别的文字识别,是天然的小样本学习问题;而对于仅具有少量样本的手绘草图的识别与甲骨文具有诸多相似之处。
在无标注源数据背景下,主流的元学习方法,无论是基于初始化的元学习方法还是基于距离度量的元学习方法,都无法在小样本数据的基础上得到有效的训练,唯一可诉诸的方法是自监督学习和数据增广。但现有小样本领域的增广方法往往也需要有标注小样本数据;最常见的数据增广方法多为自然图像设计(翻转、旋转、裁剪或色彩抖动),在图像级别上进行转换,未能考虑到字符或草图局部形状的多样性。
发明内容
为解决上述问题,提供一种在无标注源数据条件下利用由小样本字符以及手绘草图训练得到的模型进行有效识别的识别方法及装置,本发明采用了如下技术方案:
本发明提供了一种小样本字符与手绘草图识别方法,在无标注源数据条件下对待识别图像进行识别,该待识别图像为字符图像或为手绘草图,其特征在于,包括如下步骤:步骤S1,将位图格式的无标注源数据转换为点序列格式的无标注源数据,按照预定的固定抹除比例抹除点序列格式的无标注源数据中的点从而得到增广网络预训练数据,其中,无标注源数据包括无标注字符数据以及无标注手绘草图数据;步骤S2,搭建基于高斯混合模型的BERT增广网络,将增广网络预训练数据输入BERT增广网络,并将点序列格式的无标注源数据作为目标从而进行训练,直到BERT增广网络收敛,得到训练好的BERT增广网络作为增广器;步骤S3,将位图格式的有标注小样本数据转换为点序列格式的有标注小样本数据,按照各个预定的随机抹除比例抹除点序列格式的有标注小样本数据中的点从而得到抹除后小样本数据,其中,有标注小样本数据包括小样本有标注字符数据以及小样本有标注手绘草图数据;步骤S4,采用增广器对抹除后小样本数据中各个被抹除的点的坐标进行建模得到分布模型,对该分布模型随机采样得到预测坐标,对各个被抹除的点的状态进行预测得到预测状态,将该预测状态与预测坐标作为预测点,并将预测点与抹除后小样本数据整合成点序列格式的增广数据;步骤S5,利用神经渲染器将点序列格式的增广数据转换为位图格式的增广数据;步骤S6,基于位图格式的增广数据以及位图格式的有标注小样本数据训练卷积神经网络分类器,从而得到训练好的卷积神经网络分类器,作为小样本字符与手绘草图识别模型;步骤S7,利用小样本字符与手绘草图识别模型对待识别图像进行识别得到分类结果,从而根据该预测结果确定待识别图像所对应的内容。
根据本发明提供的一种小样本字符与手绘草图识别方法,还可以具有这样的技术特征,其中,步骤S2包括如下子步骤:步骤S2-1,搭建基于高斯混合模型的BERT增广网络,该BERT增广网络至少包括全连接网络层、自注意力网络层以及高斯混合模型;步骤S2-2,利用全连接网络层将增广网络预训练数据转化为检索向量、键向量以及值向量;步骤S2-3,利用自注意力网络层对检索向量、键向量以及值向量进行注意力加权处理得到深度特征;步骤S2-4,基于深度特征,利用包含多个子分布的高斯混合模型对增广网络预训练数据的坐标分布进行建模,得到坐标分布预测模型,对增广网络预训练数据的状态进行预测得到预测状态;步骤S2-5,将点序列格式的无标注源数据作为目标,针对坐标分布预测模型以及预测状态分别构建坐标损失函数以及状态损失函数,并基于坐标损失函数以及状态损失函数训练BERT增广网络,直到BERT增广网络收敛,从而得到训练好的BERT增广网络作为增广器。
根据本发明提供的一种小样本字符与手绘草图识别方法,还可以具有这样的技术特征,其中,坐标损失函数为GMM损失函数,状态损失函数为交叉熵损失函数。
根据本发明提供的一种小样本字符与手绘草图识别方法,还可以具有这样的技术特征,其中,步骤S5包括如下子步骤:步骤S5-1,利用二次贝塞尔曲线将点序列格式的增广数据转换为贝塞尔曲线表示的增广数据;步骤S5-2,利用神经渲染器将贝塞尔曲线表示的增广数据转换为位图图像,其中神经渲染器由全连接层以及卷积层组成。
根据本发明提供的一种小样本字符与手绘草图识别方法,还可以具有这样的技术特征,其中,固定抹除比例为15%。
根据本发明提供的一种小样本字符与手绘草图识别方法,还可以具有这样的技术特征,其中,随机抹除比例通过如下方法生成:从预定的抹除比例集合中随机采样k次,从而得到由k个不同的随机抹除比例构成的随机抹除比例集合(m1,m2,…,mk),点序列格式的有标注小样本数据根据随机抹除比例集合中各个随机抹除比例依次抹除,从而得到k个被抹除比例不同的点序列格式的有标注小样本数据,作为抹除后小样本数据。
本发明还提供了一种小样本字符与手绘草图识别装置,在无标注源数据条件下对待识别图像进行识别,该待识别图像为字符图像或为手绘草图,其特征在于,包括:增广网络预训练数据获取模块,将位图格式的无标注源数据转换为点序列格式的无标注源数据,按照预定的固定抹除比例抹除点序列格式的无标注源数据中的点从而得到增广网络预训练数据,其中,无标注源数据包括无标注字符数据以及无标注手绘草图数据;增广器训练模块,搭建基于高斯混合模型的BERT增广网络,将增广网络预训练数据输入BERT增广网络,并将点序列格式的无标注源数据作为目标从而进行训练,直到BERT增广网络收敛,得到训练好的BERT增广网络作为增广器;抹除后小样本数据获取模块,将位图格式的有标注小样本数据转换为点序列格式的有标注小样本数据,按照各个预定的随机抹除比例抹除点序列格式的有标注小样本数据中的点从而得到抹除后小样本数据,其中,有标注小样本数据包括小样本有标注字符数据以及小样本有标注手绘草图数据;序列格式增广数据获取模块,采用增广器对抹除后小样本数据中各个被抹除的点的坐标进行建模得到分布模型,对该分布模型随机采样得到预测坐标,对各个被抹除的点的状态进行预测得到预测状态,将该预测状态与预测坐标作为预测点,并将预测点与抹除后小样本数据整合成点序列格式的增广数据;位图格式增广数据获取模块,利用神经渲染器将点序列格式的增广数据转换为位图格式的增广数据;识别模型训练模块,基于位图格式的增广数据以及位图格式的有标注小样本数据训练卷积神经网络分类器,从而得到训练好的卷积神经网络分类器,作为小样本字符与手绘草图识别模型;以及预测模块,利用小样本字符与手绘草图识别模型对待识别图像进行识别得到分类结果,从而根据该预测结果确定待识别图像所对应的内容。
发明作用与效果
根据本发明的一种小样本字符与手绘草图识别方法及装置,由于增广器为基于高斯混合模型的BERT增广网络,并基于大量的经过抹除处理的无标注源数据训练得到,因此,增广器在抹除-预测的自监督训练过程中能够学习到字符或手绘草图的形状与语义信息,从而为了小样本有标注数据的有效扩充做准备。另外,由于通过增广器对经过抹除处理的小样本有标注数据进行预测,从而得到增广数据,因此,通过增广器得到的增广数据不仅数量多,而且具有与小样本有标注数据相似的语义信息,并丰富了局部形状多样性,从而为卷积神经网络分类器的训练提供了大量高质量的增广样本,进而提高卷积神经网络分类器的分类准确度。还由于利用神经渲染器将点序列格式的增广数据转换为位图格式的增广数据作为增广数据,因此,使得整个转换可微,还使得卷积神经网络分类器的训练能够以端到端的形式进行。
相较于传统的小样本字符与手绘草图的识别方法,本发明一种小样本字符与手绘草图识别方法及装置利用大量无标注源数据训练得到增广器,从而对小样本有标注数据进行增广,可以应用于大量有标注数据无法获取的场景(例如大量未被考古学家释读出的甲骨文、社交网络中大量无标注的手绘草图)。
附图说明
图1为本发明实施例的一种小样本字符与手绘草图识别方法的流程图;
图2为本发明实施例的BERT增广网络利用无标注源数据训练的流程示意图;
图3为本发明实施例的利用增广器获取增广数据的流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种小样本字符与手绘草图识别方法及装置作具体阐述。
<实施例>
图1为本发明实施例的一种小样本字符与手绘草图识别方法的流程图;
图2为本发明实施例的BERT增广网络利用无标注源数据训练的流程示意图。
如图1以及图2所示,一种小样本字符与手绘草图识别方法包括如下步骤:
步骤S1,将位图格式的无标注源数据转换为点序列格式的无标注源数据,按照预定的固定抹除比例抹除点序列格式的无标注源数据中的点从而得到增广网络预训练数据,其中,无标注源数据包括无标注字符数据以及无标注手绘草图数据。
其中,位图格式的无标注源数据由一张张的字符或手绘草图图像构成,无论是字符图像还是手绘草图图像,图像上的内容都由不同线条构成.
将位图格式的无标注源数据转换为点序列格式的无标注源数据,即为将图像上的各个线条转为点序列形式(s1,s2,…sn),每一个点sn的具体形式为(Δx,Δy,p1,p2,p3),其中,(Δx,Δy)表示当前点相对于前一个点的坐标位移,(p1,p2,p3)是以独热编码表示的状态向量,p1,p2,p3值为1时分别表示一笔开始,一笔结束和字符或手绘草图结束时的状态。
根据点序列格式的无标注源数据中的各个点的不同状态,将每一个点序列中的点分为三类,对应的点数量分别为n1,n2,n3
在每一类点数据中按照固定抹除比例以及每一类点数据对应的点数量进行随机抹除,并进行嵌入式编码,从而得到增广网络预训练数据,该增广网络预训练数据中每个点序列中各个点的不同状态仍保持相对稳定。
本实施例中,固定抹除比例为15%。
步骤S2,搭建基于高斯混合模型的BERT增广网络,将增广网络预训练数据输入BERT增广网络,并将点序列格式的无标注源数据作为目标从而进行训练,直到BERT增广网络收敛,得到训练好的BERT增广网络作为增广器。
其中,步骤S2包括如下子步骤:
步骤S2-1,搭建基于高斯混合模型的BERT增广网络,该BERT增广网络至少包括全连接网络层、自注意力网络层以及高斯混合模型。
步骤S2-2,利用全连接层将增广网络预训练数据转化为检索向量Query、键向量Key以及值向量Value。
其中,检索向量Query、键向量Key以及值向量Value的点序列分别表示为(q1,q2,…qn)、(k1,k2,…kn)以及(v1,v2,…vn)。
步骤S2-3,利用自注意力网络层对检索向量Query、键向量Key以及值向量Value进行注意力加权处理得到深度特征。
其中,深度特征为
Figure BDA0003028425170000101
式中aij为注意力权重,具体为
Figure BDA0003028425170000102
N为键向量Key的维度。
步骤S2-4,基于深度特征,利用包含多个子分布的高斯混合模型对增广网络预训练数据的坐标分布进行建模,得到坐标分布预测模型,对增广网络预训练数据的状态进行预测得到预测状态。
首先,利用高斯混合模型中的M个子分布分别对增广网络预训练数据中被抹除部分的点的坐标位移(Δx,Δy)和状态向量(p1,p2,p3)进行建模得到M个分布模型。
然后,基于分布模型利用由四层全连接层(神经元数量为(128,128,64,6×M+3))组成的预测重建网络对增广网络预训练数据中被抹除部分的点的坐标与状态进行预测,预测结果表示为
Figure BDA0003028425170000103
将预测结果与增广网络预训练数据整合,得到预测重建数据。
其中,6×M+3维的向量可以解码为M个子分布的期望μxy,方差σxy,相关系数ρxy和在混合模型中发生的概率π,以及(p1,p2,p3)状态出现的概率q1,q2,q3
步骤S2-5,将点序列格式的无标注源数据作为目标,利用预测重建数据针对预测坐标以及预测状态分别构建坐标损失函数以及状态损失函数(坐标损失与状态损失合称为预测重建损失),并基于坐标损失函数以及状态损失函数训练BERT增广网络,直到BERT增广网络收敛,从而得到训练好的BERT增广网络作为增广器。
其中,坐标损失函数为GMM损失函数(即最大化所生成概率分布的对数似然),状态损失函数为交叉熵损失函数。
图3为本发明实施例的利用增广器获取增广数据的流程示意图。
步骤S3,将位图格式的有标注小样本数据转换为点序列格式的有标注小样本数据,按照各个预定的随机抹除比例抹除点序列格式的有标注小样本数据中的点从而得到抹除后小样本数据,其中,有标注小样本数据包括小样本有标注字符数据以及小样本有标注手绘草图数据。
根据点序列格式的小样本有标注小样本数据中的各个点的不同状态,将每一个点序列中的点分为三类,对应的点数量分别为n1,n2,n3
如图3所示,在每一类点数据中按照随机抹除比例以及每一类点数据对应的点数量进行随机抹除,并进行嵌入式编码,从而得到抹除后小样本数据。
其中,随机抹除比例通过如下方法生成:从预定的抹除比例集合中随机采样k次,从而得到由k个不同的随机抹除比例构成的随机抹除比例集合(m1,m2,…,mk)。
点序列格式的有标注小样本数据根据随机抹除比例集合中各个随机抹除比例依次抹除,从而得到k个被抹除比例不同的点序列格式的有标注小样本数据,作为抹除后小样本数据。
本实施例中,随机抹除比例的选取顺序可以是按照随机抹除比例集合内各个随机抹除比例的排列顺序,也可以是依次从随机抹除比例集合随机选取,直到所有随机抹除比例都被选中的随机顺序。
步骤S4,采用增广器对抹除后小样本数据中各个被抹除的点的坐标进行建模得到分布模型,对该分布模型随机采样得到预测坐标,对各个被抹除的点的状态进行预测得到预测状态,将该预测状态与预测坐标作为预测点,并将预测点与抹除后小样本数据整合成增广数据。
本实施例中,增广器先通过全连接网络对抹除后小样本数据进行嵌入式编码,然后对抹除后小样本数据中各个被抹除的点的坐标与状态进行预测从而得到点序列格式的增广数据。
步骤S5,利用神经渲染器将点序列格式的增广数据转换为位图格式的增广数据。
其中,步骤S5包括如下子步骤:
步骤S5-1,利用二次贝塞尔曲线将点序列格式的增广数据中各个点sn(其具体形式为(Δx,Δy,p1,p2,p3))转换为贝塞尔曲线表示的增广数据(其具体形式为(x0,y0,x1,y1,x2,y2,r0,t0,r1,t1))。
增广数据中(x0,y0,x1,y1,x2,y2)表示三个控制点的坐标,(r0,t0,r1,t1)表示笔画粗细和笔画终点的透明度。具体来说,给定笔画Si中两个相邻的点(si,t,si,t+1),令x0=si,t[x],y0=si,t[y],x1=x2=si,t+1[x],y1=y2=si,t+1[y],r0=r1=0.01,t0=t1=1。
步骤S5-2,利用神经渲染器将贝塞尔曲线表示的增广数据转换为位图图像,其中神经渲染器由全连接层以及卷积层组成。
本实施例中,神经渲染器中四层全连接层的神经元数量为(512,1024,2048,4096);六层卷积层的通道数为(32,32,16,16,8,4,3),步长和填充分别为3和1。
步骤S6,基于位图格式的增广数据以及位图格式的有标注小样本数据训练卷积神经网络分类器,从而得到训练好的卷积神经网络分类器,作为小样本字符与手绘草图识别模型;
步骤S7,利用小样本字符与手绘草图识别模型对待识别图像进行识别得到分类结果,从而根据该预测结果确定待识别图像所对应的内容。
上述一种小样本字符与手绘草图识别方法可以应用在计算机中并形成一个小样本字符与手绘草图识别装置,该小样本字符与手绘草图识别装置包括增广网络预训练数据获取模块、增广器训练模块、抹除后小样本数据获取模块、序列格式增广数据获取模块、位图格式增广数据获取模块、识别模型训练模块以及预测模块。
增广网络预训练数据获取模块用于将位图格式的无标注源数据转换为点序列格式的无标注源数据,按照预定的固定抹除比例抹除点序列格式的无标注源数据中的点并进行嵌入式编码从而得到增广网络预训练数据,其中,无标注源数据包括无标注字符数据以及无标注手绘草图数据。
增广器训练模块用于搭建基于高斯混合模型的BERT增广网络,将增广网络预训练数据输入BERT增广网络,并将点序列格式的无标注源数据作为目标从而进行训练,直到BERT增广网络收敛,得到训练好的BERT增广网络作为增广器。
抹除后小样本数据获取模块用于将位图格式的有标注小样本数据转换为点序列格式的有标注小样本数据,按照各个预定的随机抹除比例抹除点序列格式的有标注小样本数据中的点并进行嵌入式编码从而得到抹除后小样本数据,其中,有标注小样本数据包括小样本有标注字符数据以及小样本有标注手绘草图数据。
序列格式增广数据获取模块采用增广器对抹除后小样本数据中各个点的坐标与状态的分布进行建模得到分布模型,对分布模型随机采样得到采样后坐标与采样后状态,将该采样后坐标与采样后状态作为预测点,并将预测点与抹除后小样本数据整合成点序列格式的增广数据。
位图格式增广数据获取模块利用神经渲染器将点序列格式的增广数据转换为位图格式的增广数据。
识别模型训练模块基于位图格式的增广数据以及位图格式的有标注小样本数据训练卷积神经网络分类器,从而得到训练好的卷积神经网络分类器,作为小样本字符与手绘草图识别模型。
预测模块利用小样本字符与手绘草图识别模型对待识别图像进行识别得到分类结果,从而根据该预测结果确定待识别图像所对应的内容。
实施例作用与效果
根据本实施例提供的一种小样本字符与手绘草图识别方法及装置,由于增广器为基于高斯混合模型的BERT增广网络,并基于大量的经过抹除处理的无标注源数据训练得到,因此,增广器在抹除-预测的自监督训练过程中能够学习到字符或手绘草图的形状与语义信息,从而为了小样本有标注数据地有效扩充做准备。另外,由于通过增广器对经过抹除处理的小样本有标注数据进行预测,从而得到增广数据,因此,通过增广器得到的增广数据不仅数量多,而且具有与小样本有标注数据相似的语义信息,并丰富了局部形状多样性,从而为卷积神经网络分类器的训练提供了大量高质量的增广样本,进而提高卷积神经网络分类器的分类准确度。还由于利用神经渲染器将点序列格式的增广数据转换为位图格式的增广数据作为增广数据,因此,使得整个转换可微,还使得卷积神经网络分类器的训练能够以端到端的形式进行。
另外,在实施例中,由于不同状态点的比例按照固定抹除比例抹除点序列格式的无标注源数据中的点从而得到增广网络预训练数据,因此,增广网络预训练数据中每一种状态下的点分布较为均匀。
另外,在实施例中,由于按照各个随机抹除比例抹除点序列格式的有标注小样本数据中的点从而得到抹除后小样本数据,因此,丰富了小样本有标注数据的多样性,从而为后续卷积神经网络分类器的训练奠定了基础,可以得到识别精度较好的小样本字符与手绘草图识别模型。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
实施例中,固定抹除比例设定为15%,在本发明的其他方案中,也可以将抹除比例设定为10%、20%等其他不影响增广网络预训练数据质量的其他固定抹除比例。

Claims (7)

1.一种小样本字符与手绘草图识别方法,在无标注源数据条件下对待识别图像进行识别,该待识别图像为字符图像或为手绘草图,其特征在于,包括如下步骤:
步骤S1,将位图格式的所述无标注源数据转换为点序列格式的无标注源数据,按照预定的固定抹除比例抹除所述点序列格式的无标注源数据中的点从而得到增广网络预训练数据,其中,所述无标注源数据包括无标注字符数据以及无标注手绘草图数据;
步骤S2,搭建基于高斯混合模型的BERT增广网络,将所述增广网络预训练数据输入所述BERT增广网络,并将所述点序列格式的无标注源数据作为目标从而进行训练,直到所述BERT增广网络收敛,得到训练好的BERT增广网络作为增广器;
步骤S3,将位图格式的有标注小样本数据转换为点序列格式的有标注小样本数据,按照各个预定的随机抹除比例抹除所述点序列格式的有标注小样本数据中的点从而得到抹除后小样本数据,其中,所述有标注小样本数据包括小样本有标注字符数据以及小样本有标注手绘草图数据;
步骤S4,采用所述增广器对所述抹除后小样本数据中各个被抹除的点的坐标进行建模得到分布模型,对该分布模型随机采样得到预测坐标,对各个所述被抹除的点的状态进行预测得到预测状态,将该预测状态与所述预测坐标作为预测点,并将所述预测点与所述抹除后小样本数据整合成点序列格式的增广数据;
步骤S5,利用神经渲染器将所述点序列格式的增广数据转换为位图格式的增广数据;
步骤S6,基于所述位图格式的增广数据以及所述位图格式的有标注小样本数据训练卷积神经网络分类器,从而得到训练好的卷积神经网络分类器,作为小样本字符与手绘草图识别模型;
步骤S7,利用所述小样本字符与手绘草图识别模型对所述待识别图像进行识别得到分类结果,从而根据该预测结果确定待识别图像所对应的内容。
2.根据权利要求1所述的小样本字符与手绘草图识别方法,其特征在于:
其中,所述步骤S2包括如下子步骤:
步骤S2-1,搭建基于高斯混合模型的BERT增广网络,该BERT增广网络至少包括全连接网络层、自注意力网络层以及高斯混合模型;
步骤S2-2,利用所述全连接网络层将所述增广网络预训练数据转化为检索向量、键向量以及值向量;
步骤S2-3,利用所述自注意力网络层对所述检索向量、所述键向量以及所述值向量进行注意力加权处理得到深度特征;
步骤S2-4,基于所述深度特征,利用包含多个子分布的所述高斯混合模型对所述增广网络预训练数据的坐标分布进行建模,得到坐标分布预测模型,对所述增广网络预训练数据的状态进行预测得到预测状态;
步骤S2-5,将所述点序列格式的无标注源数据作为目标,针对所述坐标分布预测模型以及所述预测状态分别构建坐标损失函数以及状态损失函数,并基于所述坐标损失函数以及状态损失函数训练所述BERT增广网络,直到所述BERT增广网络收敛,从而得到所述训练好的BERT增广网络作为所述增广器。
3.根据权利要求2所述的小样本字符与手绘草图识别方法,其特征在于:
其中,所述坐标损失函数为GMM损失函数,所述状态损失函数为交叉熵损失函数。
4.根据权利要求1所述的小样本字符与手绘草图识别方法,其特征在于:
其中,所述步骤S5包括如下子步骤:
步骤S5-1,利用二次贝塞尔曲线将所述点序列格式的增广数据转换为贝塞尔曲线表示的增广数据;
步骤S5-2,利用所述神经渲染器将所述贝塞尔曲线表示的增广数据转换为位图图像,其中所述神经渲染器由全连接层以及卷积层组成。
5.根据权利要求1所述的小样本字符与手绘草图识别方法,其特征在于:
其中,所述固定抹除比例为15%。
6.根据权利要求1所述的小样本字符与手绘草图识别方法,其特征在于:
其中,所述随机抹除比例通过如下方法生成:从预定的抹除比例集合中随机采样k次,从而得到由k个不同的随机抹除比例构成的随机抹除比例集合(m1,m2,…,mk),
所述点序列格式的有标注小样本数据根据所述随机抹除比例集合中各个随机抹除比例依次抹除,从而得到k个被抹除比例不同的所述点序列格式的有标注小样本数据,作为所述抹除后小样本数据。
7.一种小样本字符与手绘草图识别装置,在无标注源数据条件下对待识别图像进行识别,该待识别图像为字符图像或为手绘草图,其特征在于,包括:
增广网络预训练数据获取模块,将位图格式的所述无标注源数据转换为点序列格式的无标注源数据,按照预定的固定抹除比例抹除所述点序列格式的无标注源数据中的点从而得到增广网络预训练数据,其中,所述无标注源数据包括无标注字符数据以及无标注手绘草图数据;
增广器训练模块,搭建基于高斯混合模型的BERT增广网络,将所述增广网络预训练数据输入所述BERT增广网络,并将所述点序列格式的无标注源数据作为目标从而进行训练,直到所述BERT增广网络收敛,得到训练好的BERT增广网络作为增广器;
抹除后小样本数据获取模块,将位图格式的有标注小样本数据转换为点序列格式的有标注小样本数据,按照各个预定的随机抹除比例抹除所述点序列格式的有标注小样本数据中的点从而得到抹除后小样本数据,其中,所述有标注小样本数据包括小样本有标注字符数据以及小样本有标注手绘草图数据;
序列格式增广数据获取模块,采用所述增广器对所述抹除后小样本数据中各个被抹除的点的坐标进行建模得到分布模型,对该分布模型随机采样得到预测坐标,对各个所述被抹除的点的状态进行预测得到预测状态,将该预测状态与所述预测坐标作为预测点,并将所述预测点与所述抹除后小样本数据整合成点序列格式的增广数据;
位图格式增广数据获取模块,利用神经渲染器将所述点序列格式的增广数据转换为位图格式的增广数据;
识别模型训练模块,基于所述位图格式的增广数据以及所述位图格式的有标注小样本数据训练卷积神经网络分类器,从而得到训练好的卷积神经网络分类器,作为小样本字符与手绘草图识别模型;以及
预测模块,利用所述小样本字符与手绘草图识别模型对所述待识别图像进行识别得到分类结果,从而根据该预测结果确定待识别图像所对应的内容。
CN202110422541.3A 2021-04-20 2021-04-20 一种小样本字符与手绘草图识别方法及装置 Active CN113111803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110422541.3A CN113111803B (zh) 2021-04-20 2021-04-20 一种小样本字符与手绘草图识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110422541.3A CN113111803B (zh) 2021-04-20 2021-04-20 一种小样本字符与手绘草图识别方法及装置

Publications (2)

Publication Number Publication Date
CN113111803A CN113111803A (zh) 2021-07-13
CN113111803B true CN113111803B (zh) 2022-03-22

Family

ID=76718637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110422541.3A Active CN113111803B (zh) 2021-04-20 2021-04-20 一种小样本字符与手绘草图识别方法及装置

Country Status (1)

Country Link
CN (1) CN113111803B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115700838A (zh) * 2021-07-29 2023-02-07 脸萌有限公司 用于图像识别模型的训练方法及其装置、图像识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
WO2020035446A1 (en) * 2018-08-13 2020-02-20 F. Hoffmann-La Roche Ag Systems and methods for using neural networks for germline and somatic variant calling
CN110837778A (zh) * 2019-10-12 2020-02-25 南京信息工程大学 一种基于骨架关节点序列的交警指挥手势识别方法
CN111915540A (zh) * 2020-06-17 2020-11-10 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质
CN112183099A (zh) * 2020-10-09 2021-01-05 上海明略人工智能(集团)有限公司 基于半监督小样本扩展的命名实体识别方法及系统
CN112580439A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 小样本条件下的大幅面遥感图像舰船目标检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035446A1 (en) * 2018-08-13 2020-02-20 F. Hoffmann-La Roche Ag Systems and methods for using neural networks for germline and somatic variant calling
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN110837778A (zh) * 2019-10-12 2020-02-25 南京信息工程大学 一种基于骨架关节点序列的交警指挥手势识别方法
CN111915540A (zh) * 2020-06-17 2020-11-10 华南理工大学 拓片甲骨文字符图像增广方法、系统、计算机设备及介质
CN112183099A (zh) * 2020-10-09 2021-01-05 上海明略人工智能(集团)有限公司 基于半监督小样本扩展的命名实体识别方法及系统
CN112580439A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 小样本条件下的大幅面遥感图像舰船目标检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Data uncertainty learing in face recognition";Jie Chang et al;《arXiv》;20200325;全文 *
"Transductive multi-view zero-shot learing";Y Fu et al;《IEEE》;20150303;全文 *
基于原型网络的小样本图像识别方法;樊笛等;《计算机与现代化》;20200315(第03期);全文 *
结合数据增广和迁移学习的高分辨率遥感影像场景分类;乔婷婷等;《测绘通报》;20200225(第02期);全文 *

Also Published As

Publication number Publication date
CN113111803A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN108510456B (zh) 基于感知损失的深度卷积神经网络的草图简化方法
CN108876796A (zh) 一种基于全卷积神经网络和条件随机场的道路分割系统及方法
CN109308485A (zh) 一种基于字典域适应的迁移稀疏编码图像分类方法
CN113378736B (zh) 基于变换一致性正则化的遥感影像半监督语义分割方法
CN104899821B (zh) 一种用于文档类图像可视水印的擦除方法
CN111553350A (zh) 一种基于深度学习的注意力机制文本识别方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113111803B (zh) 一种小样本字符与手绘草图识别方法及装置
CN114820380B (zh) 基于内容自适应对抗扰动的空域隐写载体图像增强方法
Wang Research on handwritten note recognition in digital music classroom based on deep learning
CN105426912A (zh) 一种置换混叠图像的盲分离方法
CN112381148B (zh) 一种基于随机区域插值的半监督图像分类方法
CN116958549A (zh) 基于视觉大模型的移动端定向分割方法
CN116310628A (zh) 一种基于令牌掩码机制的大尺度城中村提取方法
Zhang et al. A machine learning paradigm for Studying Pictorial realism: are constable's clouds more real than his contemporaries?
CN112926684B (zh) 一种基于半监督学习的文字识别方法
CN113610878B (zh) 一种基于轮廓自动生成的构造式信息隐藏方法
CN115331073A (zh) 一种基于TransUnet架构的影像自监督学习方法
CN108416389A (zh) 基于降噪稀疏自动编码器和密度空间采样的图像分类方法
CN116028899A (zh) 一种多重的高精度深度学习模型黑盒水印方法
CN114120447A (zh) 一种基于原型对比学习的行为识别方法及系统、存储介质
Miao et al. Chinese calligraphy generation based on residual dense network
CN114708473A (zh) 一种用于小样本甲骨文识别的数据增广方法、应用及装置
Park et al. A 2-D HMM method for offline handwritten character recognition
Jia et al. Printed score detection based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant