CN114708473A

CN114708473A - 一种用于小样本甲骨文识别的数据增广方法、应用及装置

Info

Publication number: CN114708473A
Application number: CN202011492114.4A
Authority: CN
Inventors: 付彦伟; 韩文慧; 任新麟; 林航宇; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2022-07-05

Abstract

本发明提供了一种用于小样本甲骨文识别的数据增广方法、应用及装置，其特征在于，包括如下步骤：对大样本数据、小样本数据序列化得到序列化大样本数据、序列化小样本数据；对序列化大样本数据抹除得到抹除大样本数据、完整大样本数据，对抹除大样本数据编码得到编码后抹除大样本数据；将编码后抹除大样本数据输入特征提取网络得到深度特征；利用预测网络对抹除大样本数据预测得到预测大样本数据；训练更新深度学习网络得到增广器；对序列化小样本数据随机抹除得到抹除小样本数据，并对抹除小样本数据编码得到编码后抹除小样本数据；将编码后抹除小样本数据输入增广器预测得到预测小样本数据，将该预测小样本数据作为增广样本。

Description

一种用于小样本甲骨文识别的数据增广方法、应用及装置

技术领域

本发明属于数据识别技术领域，具体涉及一种用于小样本甲骨文识别的数据增广方法、应用及装置。

背景技术

甲骨文，又称“契文”、“甲骨卜辞”、“殷墟文字”或“龟甲兽骨文”，是中国已知最古老的文字。和其他古文字识别一样，甲骨文识别同样面临着数据不足和不平衡的问题，针对某些样本数极其有限的甲骨文的识别天然地属于小样本学习任务，而此前的甲骨文分类研究多着眼于样本数较大的类别的识别问题。由于历史久远，甲骨文的考释十分困难，已发掘的4500多个单字中只有约2000个被成功释读。因此对于甲骨文识别任务，获取大量标注数据并不现实，无法满足标准小样本识别任务对大量有标注的源数据的需求。

除此之外，数量众多的尚未释读的甲骨文对于甲骨文识别也有其利用价值，可以通过收集未标注的甲骨文和其他古代中国文字辅助甲骨文识别任务。然而，未标注源数据无法满足小样本学习中常见的元学习模型和基于度量的模型的训练要求，只能依赖于自监督学习和数据增广。而传统的几何增广方法是为位图图像设计的，该方法是对所有样本执行类似的全局变换，考虑到汉字的笔画顺序和大致形状对人类识字十分重要，而基于位图图像格式的几何增广未考虑汉字整体和局部的形状信息，即未考虑到汉字样本的独特性和多样性，从而无法使得最后训练出来的用于识别甲骨文的模型具有较高的精度。

发明内容

为解决上述问题，提供一种在只有大量无标注源数据和小样本有标注数据的情况下通过自监督训练以及抹除-预测方式生成大量与原图相似且多样的高质量增广样本从而应用于甲骨文识别任务中的数据增广方法、应用及装置，本发明采用了如下技术方案：

本发明提供了一种用于小样本甲骨文识别的数据增广方法，利用无标注的包含汉字与甲骨文的大样本数据以及有标注的甲骨文的小样本数据进行数据增广得到增广样本，其特征在于，包括如下步骤：步骤S1，利用预定的序列化算法将位图格式的大样本数据以及小样本数据序列化，得到由坐标数据与状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据，并将该点序列格式的大样本数据设定为序列化大样本数据，将该点序列格式的小样本数据设定为序列化小样本数据；步骤S2，按照预定的抹除比例抹除序列化大样本数据中的点，将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据，并通过预定的编码网络对该抹除大样本数据进行编码得到编码后抹除大样本数据；步骤S3，利用预定的特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征；步骤S4，基于深度特征并利用预定的预测网络对抹除大样本数据进行预测得到预测大样本数据；步骤S5，基于完整大样本数据以及预测大样本数据通过预定的损失函数计算得到损失值，并基于该损失值对由编码网络、特征提取网络以及预测网络构成的深度学习网络进行训练更新，直到深度学习网络收敛从而得到训练好的深度学习网络作为增广器；步骤S6，按照预定的抹除比例生成方法生成多个随机抹除比例，序列化小样本数据的点按照随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据，并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据；步骤S7，将编码后抹除小样本数据输入增广器对抹除小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为增广样本。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，步骤S2-1，将序列化大样本数据中的每一样本中包含的点按照状态数据分成三类序列化大样本子数据；步骤S2-2，依次对序列化大样本子数据按照抹除比例对点进行抹除，最后将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据；步骤S2-3，针对抹除大样本数据中的坐标数据使用编码网络进行嵌入编码，针对状态数据使用预定的编码方法进行编码，从而得到编码后抹除大样本数据，其中，抹除比例为15％。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，步骤S3-1，利用特征提取网络将编码后抹除大样本数据转化为检索向量、键向量以及值向量；步骤S3-2，利用特征提取网络对检索向量、键向量以及值向量进行处理得到经注意力加权后的特征作为注意力特征；步骤S3-3，利用特征提取网络对注意力特征进行处理得到与输入特征维度相同的深度特征，其中，特征提取网络为基于双向编码表示和自注意机制的深度神经网络。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，步骤S6包括如下子步骤：步骤S6-1，将序列化小样本数据中的每一样本中包含的点按照状态数据分成三类序列化小样本子数据；步骤S6-2，利用抹除比例生成方法生成多个随机抹除比例，对每一类序列化小样本子数据的点按照随机挑选出的随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据；步骤S6-3，针对抹除小样本数据中的坐标数据使用编码网络进行嵌入编码，针对抹除小样本数据中的状态数据使用预定的编码方法进行编码，从而得到编码后抹除小样本数据。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，抹除比例生成方法为从区间[a,b],0<a,b≤1中以间隔k均匀采样得到

个不同的抹除比例

作为多个随机抹除比例。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，编码网络为由三层全连接层构成的神经网络，编码方法为字典编码方法。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，在步骤S5中针对完整大样本数据以及预测大样本数据中的坐标数据的损失函数为L1范数损失函数，在步骤S5中针对完整大样本数据以及预测大样本数据中的状态数据的损失函数为交叉熵损失函数。

根据本发明提供的一种用于小样本甲骨文识别的数据增广方法，还可以具有这样的技术特征，其中，在步骤S4中预测网络为由四层全连接层构成的神经网络。

本发明还提供了一种用于小样本甲骨文识别的数据增广方法在甲骨文识别任务中的应用，其特征在于：将增广样本以及完整小样本数据作为训练数据输入预定的卷积神经网络分类器进行训练从而得到用于甲骨文识别任务的训练好的甲骨文识别分类器。

本发明还提供了一种用于小样本甲骨文识别的数据增广装置，利用无标注的包含汉字与甲骨文的大样本数据以及有标注的甲骨文的小样本数据进行数据增广得到增广样本，其特征在于，包括：序列化部，利用预定的序列化算法将位图格式的大样本数据以及小样本数据序列化得到由坐标数据以及状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据，并将该点序列格式的大样本数据设定为序列化大样本数据，将该点序列格式的小样本数据设定为序列化小样本数据；大样本编码部，按照预定的抹除比例抹除序列化大样本数据中的点，将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据，并通过预定的编码网络对该抹除大样本数据进行编码得到编码后抹除大样本数据；特征提取部，利用预定的特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征；预测部，基于深度特征并利用预定的预测网络对抹除大样本数据进行预测得到预测大样本数据；增广器输出部，基于完整大样本数据以及预测大样本数据通过预定的损失函数计算得到损失值，并基于该损失值对由编码网络、特征提取网络以及预测网络构成的深度学习网络进行训练更新，直到深度学习网络收敛从而得到训练好的深度学习网络作为增广器；小样本编码部，按照预定的抹除比例生成方法生成多个随机抹除比例，序列化小样本数据的点按照随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据，并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据；以及增广样本部，将编码后抹除小样本数据输入增广器对抹除后小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为增广样本。

发明作用与效果

根据本发明的一种用于小样本甲骨文识别的数据增广方法，由于利用序列化算法将位图格式的大样本数据以及小样本数据序列化，从而得到点序列格式的大样本数据以及点序列格式的小样本数据，因此考虑到了甲骨文的本身的笔画顺序和大致形状并通过点序列的形式更加贴切地将甲骨文描述出来，便于借鉴自然语言领域领域的自监督学习模型以实现对无标注大样本数据的充分利用。同时，由于利用特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征，因此能够捕捉到汉字或甲骨文的基本形状信息和语义信息，并且避免了传统小样本学习中需要大量有标注源数据的缺点，从而保证了模型高效性的同时降低了数据收集成本。另外，由于增广器为训练好的深度学习网络，而该深度学习网络由编码网络、特征提取网络以及预测网络构成，并且是基于完整大样本数据以及预测大样本数据构成的损失值不断更新得到，因此充分利用了无标注的序列化大样本数据而降低了对监督数据的需求。除此之外，由于序列化小样本数据的点按照随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据，进而将编码后抹除小样本数据输入增广器，从而对抹除小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为增广样本，因此能够生成大量与原图相似又多样的高质量增广样本，从而使得应用于小样本甲骨文识别的模型具有较好的鲁棒性、较高的精确度、较强的泛化能力，并显著提高小样本甲骨文识别的结果。

附图说明

图1为本发明实施例的一种用于小样本甲骨文识别的数据增广方法的流程图；

图2为本发明实施例的步骤S2子步骤的流程图；

图3为本发明实施例的步骤S3子步骤的流程图；

图4为本发明实施例的步骤S6子步骤的流程图；

图5为本发明实施例的一种用于小样本甲骨文识别的数据增广装置的结构框图；

图6为本发明实施例的大样本编码部、特征提取部以及预测部工作的流程示意图；以及

图7为本发明实施例的小样本编码部以及增广样本部工作的流程示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种用于小样本甲骨文识别的数据增广方法、应用及装置作具体阐述。

<实施例>

本实施例中的大样本数据是指大量无标注的包含汉字以及甲骨文的图像数据，小样本数据是指小样本有标注的甲骨文的图像数据。

图1为本发明实施例的一种用于小样本甲骨文识别的数据增广方法的流程图。

如图1所示，一种用于小样本甲骨文识别的数据增广方法包括如下步骤：

步骤S1，利用预定的序列化算法将位图格式的大样本数据以及小样本数据序列化，得到由坐标数据与状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据，并将该点序列格式的大样本数据设定为序列化大样本数据，将该点序列格式的小样本数据设定为序列化小样本数据。

具体地，利用序列化算法对位图格式的大样本数据以及小样本数据进行序列化，从而得到一系列由点构成的笔画(s₁,s₂,…s_n)，每一个点都有对应的坐标位移以及状态向量，例如点s₂的具体形式为(Δx,Δy,p₁,p₂,p₃)，其中，(Δx,Δy)表示点s₂相对于点s₁的坐标位移，(p₁,p₂,p₃)是通过独热编码表示的点状态的状态向量，p₁,p₂,p₃分别表示一笔开始、一笔结束、汉字或甲骨文结束的状态。

其中，位图格式的大样本数据以及小样本数据是指由像素组成的图像数据。坐标数据为由各个点的坐标位移构成的数据，状态数据为由各个点的状态向量构成的数据。

步骤S2，按照预定的抹除比例抹除序列化大样本数据中的点，将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据，并通过预定的编码网络对该抹除大样本数据进行编码得到编码后抹除大样本数据。

图2为本发明实施例的步骤S2子步骤的流程图。

如图2所示，步骤S2包括如下子步骤：

步骤S2-1，将序列化大样本数据中的每一样本中包含的点按照状态数据分成三类序列化大样本子数据，三类序列化大样本子数据的数量分别记为n₁,n₂,n₃。

具体地，将序列化大样本数据中的每一样本(即每一张图像)中包含的所有点按照根据状态数据分成三类序列化大样本子数据，即按照该点是表示的一笔开始、一笔结束、汉字或甲骨文结束的状态中的哪种状态进而将序列化大样本数据中所有样本中的所有点都分成对应的三类序列化大样本子数据。

步骤S2-2，依次在序列化大样本子数据中按照抹除比例对点进行抹除，最后将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据。

具体地，抹除比例为15％。在每一类序列化大样本子数据中选择15％的点作为抹除数据，将剩下的点作为完整数据，最终得到抹除比例为15％的抹除大样本数据以及完整大样本数据。

步骤S2-3，针对抹除大样本数据中的坐标数据使用编码网络进行嵌入编码，针对状态数据使用预定的编码方法进行编码，从而得到编码后抹除大样本数据。

其中，针对抹除大样本数据中的坐标数据使用的编码网络为由三层全连接层构成的神经网络，具体地三层全连接层为神经元数量为(64，128，128)的全连接层。

另外，针对抹除大样本数据中的状态数据使用的编码方法为字典编码方法，具体地为对每一状态使用128维的向量进行编码。

步骤S3，利用预定的特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征。

图3为本发明实施例的步骤S3子步骤的流程图。

如图3所示，步骤S3包括如下子步骤：

步骤S3-1，利用特征提取网络将编码后抹除大样本数据转化为检索向量、键向量以及值向量。

其中，特征提取网络中包括残差网络以及全连接层。

具体地，利用特征提取网络中的全连接层将编码后抹除大样本数据中的各个点(s₁,s₂,…s_n)转化为检索向量Query、键向量Key以及值向量Value三种数据，具体表示为(q₁,q₂,…q_n)、(k₁,k₂,…k_n)以及(v₁,v₂,…v_n)。

步骤S3-2，利用特征提取网络对检索向量、键向量以及值向量进行处理得到经注意力加权后的特征作为注意力特征。

其中，注意力的权重为

其中N为键向量的维度，注意力特征为

步骤S3-3，利用特征提取网络对注意力特征进行处理得到与输入特征维度相同的深度特征。

具体地，利用特征提取网络中的残差网络以及全连接层对注意力特征进行处理得到与输入特征维度相同的输出特征作为深度特征。

其中，特征提取网络为基于双向编码表示和自注意机制的深度神经网络。

步骤S4，基于深度特征并利用预定的预测网络对抹除大样本数据进行预测得到预测大样本数据。

其中，预测网络为由四层全连接层构成的神经网络，具体为神经元数量为(128，128，64，5)的全连接层。

具体地，预测网络对抹除大样本数据中被抹除的点进行预测，从而得到预测的被抹除的点的坐标位移以及状态向量从而形成预测大样本数据，预测后的点可表示为

步骤S5，基于完整大样本数据以及预测大样本数据通过预定的损失函数计算得到损失值，并基于该损失值对由编码网络、特征提取网络以及预测网络构成的深度学习网络进行训练更新，直到深度学习网络收敛从而得到训练好的深度学习网络并作为增广器。

其中，针对完整大样本数据以及预测大样本数据中的坐标数据的损失函数为L1范数损失函数；针对完整大样本数据以及预测大样本数据中的状态数据的损失函数为交叉熵损失函数。

本实施例中，深度学习网络的训练更新是基于L1范数损失函数得到的损失值以及交叉熵损失函数得到的损失值两者联合下进行。

步骤S6，按照预定的抹除比例生成方法生成多个随机抹除比例，序列化小样本数据的点按照随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据，并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据。

图4为本发明实施例的步骤S6子步骤的流程图。

如图4所示，步骤S6包括如下子步骤：

步骤S6-1，将序列化小样本数据中的每一样本中包含的点按照状态数据分成三类序列化小样本子数据，数量记为n₄,n₅,n₆。

具体地，将序列化小样本数据中的每一样本(即每一张图像)中包含的所有点按照根据状态数据分成三类序列化小样本子数据，即按照该点是表示的一笔开始、一笔结束、甲骨文结束的状态中的哪种状态进而将序列化小样本数据中每一个样本中的所有点都分成三类序列化小样本子数据。

步骤S6-2，利用抹除比例生成方法生成多个随机抹除比例，对每一类序列化小样本子数据的点按照随机挑选出的随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据。

其中，抹除比例生成方法为从区间[a,b],0<a,b≤1中以间隔k均匀采样得到

个不同的抹除比例

作为多个随机抹除比例。

本实施例中，对所有图像中的每一类序列化小样本子数据的点按照随机挑选出的随机抹除比例m_i进行抹除，最后得到

个抹除比例不同的样本从而构成抹除小样本数据。

步骤S6-3，针对抹除小样本数据中的坐标数据使用编码网络进行嵌入编码，针对抹除小样本数据中的状态数据使用预定的编码方法进行编码，从而得到编码后抹除小样本数据。

其中，针对坐标数据使用的编码网络为由三层全连接层构成的神经网络，具体地，全连接层为神经元数量为(64，128，128)的全连接层。

另外，针对状态数据使用的编码方法为字典编码方法，具体地为对每一状态使用128维的向量进行编码。

步骤S7，将编码后抹除小样本数据输入增广器对抹除小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为增广样本。

本实施例中，增广器对编码后抹除小样本数据中被抹除的点进行预测，从而得到预测的被抹除的点的坐标位移以及状态向量从而形成预测小样本数据，并将该预测小样本数据作为增广样本。

具体地，利用增广器中训练好的特征提取网络对编码后抹除小样本数据进行特征提取得到对应的深度特征，进而将该深度特征输入训练好的预测网络中从而实现对被抹除部分的坐标数据和状态数据的预测得到预测小样本数据，最后将预测小样本数据作为增广样本。

另外，通过将增广样本以及完整小样本数据作为训练数据输入预定的卷积神经网络分类器进行训练从而得到用于甲骨文识别任务的训练好的甲骨文识别分类器的方式将上述的一种用于小样本甲骨文识别的数据增广方法应用在甲骨文识别任务中。

图5为本发明实施例的一种用于小样本甲骨文识别的数据增广装置的结构框图。

上述一种用于小样本甲骨文识别的数据增广方法应用可以应用在计算机中并形成一个数据增广装置1，该数据增广装置1包括序列化部11、大样本编码部12、特征提取部13、预测部14、增广器输出部15、小样本编码部16以及增广样本部17(如图5所示)。

序列化部11利用预定的序列化算法将位图格式的大样本数据以及小样本数据序列化得到由坐标数据以及状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据，并将点序列格式的大样本数据设定为序列化大样本数据，将点序列格式的小样本数据设定为序列化小样本数据。

图6为本发明实施例的大样本编码部、特征提取部以及预测部工作的流程示意图。

大样本编码部12按照预定的抹除比例抹除序列化大样本数据中的点，将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据，并通过预定的编码网络对抹除大样本数据进行编码得到编码后抹除大样本数据。

如图6所示，大样本编码部12对序列化大样本数据中的每一张图像上的点按照m＝15％的抹除比例进行抹除，从而形成抹除大样本数据，此时，该抹除大样本数据的各个点表示为(s₁,s₂,-,…,s_n-2,-,s_n)，对抹除大样本数据进行编码得到编码后抹除大样本数据，该编码后抹除大样本数据的各个点表示为(E₁,E₂,E_M,…,E_n-2,E_M,E_n)。

特征提取部13利用预定的特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征。

如图6所示，特征提取部13利用基于双向编码表示和自注意机制(即图6中的自注意力层)的特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征(O₁,O₂,O₃,…,O_n-2,O_n-1,O_n)。

预测部14基于深度特征并利用预定的预测网络对抹除大样本数据进行预测得到预测大样本数据。

如图6所示，预测部14根据深度特征(O₁,O₂,O₃,…,O_n-2,O_n-1,O_n)预测得到被抹除的点(S₃,S_n-1)，从而得到预测大样本数据。

增广器输出部15基于完整大样本数据以及预测大样本数据通过预定的损失函数计算得到损失值，并基于该损失值对由编码网络、特征提取网络以及预测网络构成的深度学习网络进行训练更新，直到深度学习网络收敛从而得到训练好的深度学习网络作为增广器。

如图6所示，深度学习网络基于完整大样本数据以及预测大样本数据构建的损失进行更新。

小样本编码部16按照预定的抹除比例生成方法生成多个随机抹除比例，序列化小样本数据的点按照随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据，并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据。

如图7所示，小样本编码部16分别按照随机抹除比例生成方法生成的随机抹除比例为m＝10％、m＝25％以及m＝50％的随机抹除比例对序列化小样本数据中的点进行抹除，该抹除小样本数据的各个点表示为(s₁,s₂,-,…,s_n-2,-,s_n)，对抹除小样本数据进行编码得到编码后抹除小样本数据，该编码后抹除小样本数据的各个点表示为(E₁,E₂,E_M,…,E_n-2,E_M,E_n)。

增广样本部17将编码后抹除小样本数据输入增广器对抹除小样本数据进行预测得到预测小样本数据，将预测小样本数据作为增广样本。

如图7所示，增广样本部17利用增广器中训练好的基于双向编码表示和自注意机制(即图7中的自注意力层)的特征提取网络对抹除小样本数据进行特征提取得到深度特征(O₁,O₂,O₃,…,O_n-2,O_n-1,O_n)，并输入增广器中训练好的预测网络进行预测得到被抹除的点(S₃,s_n-1)，从而得到预测小样本数据，将该预测小样本数据作为增广样本。

实施例作用与效果

根据本实施例提供的一种用于小样本甲骨文识别的数据增广方法、应用及装置，由于利用序列化算法将位图格式的大样本数据以及小样本数据序列化，从而得到点序列格式的大样本数据以及点序列格式的小样本数据，因此考虑到了甲骨文的本身的笔画顺序和大致形状并通过点序列的形式更加贴切地将甲骨文描述出来，便于借鉴自然语言领域领域的自监督学习模型以实现对无标注大样本数据的充分利用。同时，由于利用特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征，因此能够捕捉到汉字或甲骨文的基本形状信息和语义信息，并且避免了传统小样本学习中需要大量有标注源数据的缺点，从而保证了模型高效性的同时降低了数据收集成本。另外，由于增广器为训练好的深度学习网络，而该深度学习网络由编码网络、特征提取网络以及预测网络构成，并且是基于完整大样本数据以及预测大样本数据构成的损失值不断更新得到，因此充分利用了无标注的序列化大样本数据而降低了对监督数据的需求。除此之外，由于序列化小样本数据的点按照随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据，进而将编码后抹除小样本数据输入增广器，从而对抹除小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为增广样本，因此能够生成大量与原图相似又多样的高质量增广样本，从而使得应用于小样本甲骨文识别的模型具有较好的鲁棒性、较高的精确度、较强的泛化能力，并显著提高小样本甲骨文识别的结果。

另外，在实施例中，由于在步骤S2-2中将序列化大样本数据中的点按照状态数据分成三类序列化大样本子数据并且对每类序列化大样本子数据按照抹除比例对点进行抹除从而得到抹除大样本数据以及完整大样本数据，因此每一种状态下的点都按照抹除比例抹除从而使得抹除大样本数据以及完整大样本数据分布更均匀。

另外，在实施例中，由于特征提取网络为基于双向编码表示和自注意机制的深度神经网络，因此能够捕捉到汉字或甲骨文的基本形状信息和语义信息。

另外，在实施例中，由于在步骤S6-2中每一类序列化小样本子数据的点按照随机挑选出的随机抹除比例进行抹除，因此每一类序列化小样本子数据被抹除的比例是随机的，增加了后续步骤S7中通过增广器进行预测的对象的随机性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

实施例中，将一种用于小样本甲骨文识别的数据增广方法应用在甲骨文识别任务中，在本发明的其他方案中，也可以应用到其他汉字、各种文字和手绘草图的数据增广任务，从而生成大量与原图相似又多样的高质量增广样本。

实施例中，步骤S2中的抹除比例设定为15％，在本发明的其他方案中，也可以将抹除比例设定为10％、20％等其他不影响预测大样本数据质量的其他抹除比例。

Claims

1.一种用于小样本甲骨文识别的数据增广方法，利用无标注的包含汉字与甲骨文的大样本数据以及有标注的甲骨文的小样本数据进行数据增广得到增广样本，其特征在于，包括如下步骤：

步骤S1，利用预定的序列化算法将位图格式的所述大样本数据以及所述小样本数据序列化，得到由坐标数据与状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据，并将该点序列格式的大样本数据设定为序列化大样本数据，将该点序列格式的小样本数据设定为序列化小样本数据；

步骤S2，按照预定的抹除比例抹除所述序列化大样本数据中的点，将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据，并通过预定的编码网络对该抹除大样本数据进行编码得到编码后抹除大样本数据；

步骤S3，利用预定的特征提取网络对所述编码后抹除大样本数据进行特征提取得到深度特征；

步骤S4，基于所述深度特征并利用预定的预测网络对所述抹除大样本数据进行预测得到预测大样本数据；

步骤S5，基于所述完整大样本数据以及所述预测大样本数据通过预定的损失函数计算得到损失值，并基于该损失值对由所述编码网络、所述特征提取网络以及所述预测网络构成的深度学习网络进行训练更新，直到所述深度学习网络收敛从而得到训练好的深度学习网络作为增广器；

步骤S6，按照预定的抹除比例生成方法生成多个随机抹除比例，所述序列化小样本数据的点按照所述随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据，并通过所述编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据；

步骤S7，将所述编码后抹除小样本数据输入所述增广器对所述抹除小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为所述增广样本。

2.根据权利要求1所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，所述步骤S2包括如下子步骤：

步骤S2-1，将所述序列化大样本数据中的每一样本中包含的所述点按照所述状态数据分成三类序列化大样本子数据；

步骤S2-2，依次对所述序列化大样本子数据按照所述抹除比例对所述点进行抹除，最后将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据；

步骤S2-3，针对抹除大样本数据中的所述坐标数据使用所述编码网络进行嵌入编码，针对所述状态数据使用预定的编码方法进行编码，从而得到所述编码后抹除大样本数据，

其中，所述抹除比例为15％。

3.根据权利要求1所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，所述步骤S3包括如下子步骤：

步骤S3-1，利用所述特征提取网络将所述编码后抹除大样本数据转化为检索向量、键向量以及值向量；

步骤S3-2，利用所述特征提取网络对所述检索向量、所述键向量以及所述值向量进行处理得到经注意力加权后的特征作为注意力特征；

步骤S3-3，利用所述特征提取网络对所述注意力特征进行处理得到与输入特征维度相同的所述深度特征，

其中，所述特征提取网络为基于双向编码表示和自注意机制的深度神经网络。

4.根据权利要求1所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，所述步骤S6包括如下子步骤：

步骤S6-1，将所述序列化小样本数据中的每一样本中包含的所述点按照所述状态数据分成三类序列化小样本子数据；

步骤S6-2，利用所述抹除比例生成方法生成多个所述随机抹除比例，对每一类所述序列化小样本子数据的所述点按照随机挑选出的所述随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为所述抹除小样本数据，将未被抹除点的序列化小样本数据设定为所述完整小样本数据；

步骤S6-3，针对所述抹除小样本数据中的所述坐标数据使用所述编码网络进行嵌入编码，针对所述抹除小样本数据中的所述状态数据使用预定的编码方法进行编码，从而得到所述编码后抹除小样本数据。

5.根据权利要求4所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，所述抹除比例生成方法为从区间[a,b],0<a,b≤1中以间隔k均匀采样得到

个不同的抹除比例

作为多个所述随机抹除比例。

6.根据权利要求2或4所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，所述编码网络为由三层全连接层构成的神经网络，

所述编码方法为字典编码方法。

7.根据权利要求1所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，在所述步骤S5中针对所述完整大样本数据以及所述预测大样本数据中的所述坐标数据的所述损失函数为L1范数损失函数，

在所述步骤S5中针对所述完整大样本数据以及所述预测大样本数据中的所述状态数据的所述损失函数为交叉熵损失函数。

8.根据权利要求1所述的用于小样本甲骨文识别的数据增广方法，其特征在于：

其中，在所述步骤S4中所述预测网络为由四层全连接层构成的神经网络。

9.权利要求1至8中任意一项所述用于小样本甲骨文识别的数据增广方法在甲骨文识别任务中的应用，其特征在于：

将增广样本以及完整小样本数据作为训练数据输入预定的卷积神经网络分类器进行训练从而得到用于甲骨文识别任务的训练好的甲骨文识别分类器，

所述增广样本通过权利要求1至8中任意一项所述用于小样本甲骨文识别的数据增广方法得到。

10.一种用于小样本甲骨文识别的数据增广装置，利用无标注的包含汉字与甲骨文的大样本数据以及有标注的甲骨文的小样本数据进行数据增广得到增广样本，其特征在于，包括：

序列化部，利用预定的序列化算法将位图格式的所述大样本数据以及所述小样本数据序列化得到由坐标数据以及状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据，并将该点序列格式的大样本数据设定为序列化大样本数据，将该点序列格式的小样本数据设定为序列化小样本数据；

大样本编码部，按照预定的抹除比例抹除所述序列化大样本数据中的点，将被抹除点的序列化大样本数据设定为抹除大样本数据，将未被抹除点的序列化大样本数据设定为完整大样本数据，并通过预定的编码网络对该抹除大样本数据进行编码得到编码后抹除大样本数据；

特征提取部，利用预定的特征提取网络对所述编码后抹除大样本数据进行特征提取得到深度特征；

预测部，基于所述深度特征并利用预定的预测网络对所述抹除大样本数据进行预测得到预测大样本数据；

增广器输出部，基于所述完整大样本数据以及所述预测大样本数据通过预定的损失函数计算得到损失值，并基于该损失值对由所述编码网络、所述特征提取网络以及所述预测网络构成的深度学习网络进行训练更新，直到所述深度学习网络收敛从而得到训练好的深度学习网络作为增广器；

小样本编码部，按照预定的抹除比例生成方法生成多个随机抹除比例，所述序列化小样本数据的点按照所述随机抹除比例进行抹除，将被抹除点的序列化小样本数据设定为抹除小样本数据，将未被抹除点的序列化小样本数据设定为完整小样本数据，并通过所述编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据；以及

增广样本部，将所述编码后抹除小样本数据输入所述增广器对所述抹除后小样本数据进行预测得到预测小样本数据，将该预测小样本数据作为所述增广样本。