CN118097683A

CN118097683A - 数据集构建、文字识别方法、装置、设备及介质

Info

Publication number: CN118097683A
Application number: CN202410219359.1A
Authority: CN
Inventors: 毕晓君; 孙梓玮
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-05-28

Abstract

本公开实施例公开了一种数据集构建、文字识别方法、装置、设备及介质，该方法包括扫描设定语言的书籍图像并进行切分得到多个单字图像；通过神经网络模型提取多个单字图像的特征，神经网络模型基于训练样本和设定损失函数训练得到，训练样本包括各单字图像以及各单字图像的扩增图像，设定损失函数包括对比学习损失函数和聚类损失函数；根据各单字图像的特征分布对多个单字图像进行聚类；根据聚类结果构建单字数据集。通过神经网络模型提取单字图像的特征并通过聚类构建设定语言的单字数据集，节省了人力物力，且由于神经网络模型基于对比学习损失函数和聚类损失函数进行训练，具备准确确定单字类别和提取单字特征的能力，从而构建高质量数据集。

Description

数据集构建、文字识别方法、装置、设备及介质

技术领域

本公开实施例涉及人工智能技术领域，尤其涉及一种数据集构建、文字识别方法、装置、设备及介质。

背景技术

深度学习模型在古籍的单字识别、机器翻译等方面已取得了突破性进展，成为基于人工智能的古文、古籍研究的首选方法，但是该方法需要大量数据来训练深度学习模型，因此构建大规模且规范化的数据集成为非常重要的任务。

经查阅国内外相关研究文献，一些古文、古籍或少数民族文字尚有未公开的单字数据集，部分公开的古文、古籍或少数民族文字的单字数据集均采用人工仿写的方式，由于人工仿写数据与真实古籍图像存在特征差异较大的问题，通过人工仿写所构建的数据集质量不高，还会导致在真实古籍图像上的识别效果不够理想，这严重制约了深度学习在单字识别和机器翻译研究领域的发展，因此构建古文、古籍真实单字数据集十分必要。

发明内容

本公开实施例提供了一种数据集构建、文字识别方法、装置、设备及介质，提高神经网络模型提取单字图像特征的准确性，从而构建高质量单字数据集。

第一方面，提供了一种数据集构建方法，包括：

扫描设定语言的书籍图像并对所述书籍图像进行切分，得到多个单字图像；

通过神经网络模型提取所述多个单字图像的特征，其中，所述神经网络模型基于训练样本和设定损失函数训练得到，所述训练样本包括各所述单字图像以及各所述单字图像的扩增图像，所述设定损失函数包括对比学习损失函数和聚类损失函数，所述对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于所述同一单字图像的其他单字图像之间的不相似性，所述聚类损失函数用于描述同一单字图像的特征之间的距离相近性；

根据所述多个单字图像的特征对所述多个单字图像进行聚类，得到聚类结果；

根据所述聚类结果构建所述设定语言的单字数据集。

第二方面，提供了一种文字识别方法，包括：

获取设定语言的单字数据集；

根据所述设定语言的单字数据集训练文字识别模型；

将待识别的单字输入至所述文字识别模型，得到文字识别结果；

其中，所述单字数据集基于上述第一方面所述的数据集构建方法构建。

第三方面，提供了一种数据集构建装置，包括：

切分模块，用于扫描设定语言的书籍图像并对所述书籍图像进行切分，得到多个单字图像；

特征提取模块，用于通过神经网络模型提取所述多个单字图像的特征，其中，所述神经网络模型基于训练样本和设定损失函数训练得到，所述训练样本包括各所述单字图像以及各所述单字图像的扩增图像，所述设定损失函数包括对比学习损失函数和聚类损失函数，所述对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于所述同一单字图像的其他单字图像之间的不相似性，所述聚类损失函数用于描述同一单字图像的特征之间的距离相近性；

聚类模块，用于根据所述多个单字图像的特征对所述多个单字图像进行聚类，得到聚类结果；

构建模块，用于根据所述聚类结果构建所述设定语言的单字数据集。

第四方面，提供了一种文字识别装置，包括：

获取模块，用于获取设定语言的单字数据集；

模型训练模块，用于根据所述设定语言的单字数据集训练文字识别模型；

识别模块，用户将待识别的单字输入至所述文字识别模型，得到文字识别结果；

第五方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及；

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一方面所述的数据集构建方法或如上述第二方面所述的文字识别方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使控制器执行时实现本公开实施例上述第一方面所述的数据集构建方法或上述第二方面所述的文字识别方法。

本公开实施例提供了一种数据集构建、文字识别方法、装置、设备及介质，包括：扫描设定语言的书籍图像并对所述书籍图像进行切分，得到多个单字图像；通过神经网络模型提取所述多个单字图像的特征，其中，所述神经网络模型基于训练样本和设定损失函数训练得到，所述训练样本包括各所述单字图像以及各所述单字图像的扩增图像，所述设定损失函数包括对比学习损失函数和聚类损失函数，所述对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于所述同一单字图像的其他单字图像之间的不相似性，所述聚类损失函数用于描述同一单字图像的特征之间的距离相近性；根据所述多个单字图像的特征对所述多个单字图像进行聚类，得到聚类结果；根据所述聚类结果构建所述设定语言的单字数据集。本技术方案通过神经网络提取单字图像的特征，并根据提取的特征对多个单字图像进行聚类，进而得到设定语言的单字数据集。与现有技术相比，本技术方案通过神经网络模型提取单字图像的特征并通过聚类构建设定语言的单字数据集，节省了人力物力，并且由于神经网络模型基于对比学习损失函数和聚类损失函数进行训练，具备准确确定单字类别和提取单字特征的能力，从而构建高质量数据集。

应当理解，本部分所描述的内容并非旨在标识本公开实施例的关键或重要特征，也不用于限制本公开实施例的范围。本公开实施例的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例一提供的一种数据集构建方法的流程图；

图2是本公开实施例一提供的一种切分过程示意图；

图3是本公开实施例一提供的一种两个古彝文图像随机生成20次扩增图像的结果示意图；

图4是本公开实施例一提供的训练过程示意图；

图5是本公开实施例一提供的截取过程示意图；

图6是本公开实施例一提供的单字图像的检索过程示意图；

图7是本公开实施例一提供的数据集构建过程示意图；

图8是本公开实施例二提供的一种文字识别方法的流程图；

图9是本公开实施例三提供的一种数据集构建装置的结构示意图；

图10是本公开实施例四提供的一种文字识别装置的结构示意图；

图11给出了用来实施本公开实施例的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开实施例的方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开部分的实施例，而不是全部的实施例。基于本公开实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开实施例保护的范围。

需要说明的是，本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本公开实施例一提供的一种数据集构建方法的流程图，本实施例可适用于对数据集进行构建的情况，该方法可以由数据集构建装置来执行，该数据集构建装置可以采用硬件和/或软件的形式实现，该数据集构建装置可配置于电子设备中。如图1所示，该方法包括：

S110、扫描设定语言的书籍图像并对书籍图像进行切分，得到多个单字图像。

本实施例中，设定语言可以是预先设定好的使用人数少、晦涩难懂、较少公开和/或难以识别的语言，示例性的，设定语言可以是少数民族文字(如：彝文)、古籍中的文字、甲骨文和/或水书等。书籍图像可以是对设定语言进行介绍或包含是设定语言的书籍图像。

示例性的，当设定语言为彝文，书籍图像可以是《西南彝志》，其中，《西南彝志》包含古彝文单字30余万字，《西南彝志》古籍被称为彝族百科全书，是字数最多、篇幅最长、体量最大、内容最丰富、版面最清晰的彝文史籍巨著。

具体的，对设定语言的书籍图像进行扫描，然后进行切分，得到多个单字图像，其中，切分可以将裁剪后的书籍图像切分为多个单字图像的过程。图2为本实施例提供的切分过程的示意图，如图2所示，通过对书籍图像进行切分可以得到多个彝文单字图像。

S120、通过神经网络模型提取多个单字图像的特征，其中，神经网络模型基于训练样本和设定损失函数训练得到，训练样本包括各单字图像以及各单字图像的扩增图像，设定损失函数包括对比学习损失函数和聚类损失函数，对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于同一单字图像的其他单字图像之间的不相似性，聚类损失函数用于描述同一单字图像的特征之间的距离相近性。

本实施例中，在获取到多个单字图像后，可以通过神经网络模型提取多个单字图像的特征，其中，神经网络模型可以是残差网络(Residual Network50，ResNet50)网络模型。

需要说明的是，神经网络模型可以基于训练样本和设定损失函数训练得到，其中，训练样本包括各单字图像以及各单字图像的扩增图像，扩增图像可以是由单字图像扩增得到的图像，每个单字图像可以得到至少两个扩增图像。

接上述描述，设定损失函数可以包括对比学习损失函数和聚类损失函数，其中，对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于同一单字图像的其他单字图像之间的不相似性，聚类损失函数用于描述同一单字图像的特征之间的距离相近性。

需要解释的是，扩增指的是不实际增加原始数据，而是对原始数据做一些变换，从而创造出更多的数据，对图像进行扩增可以增加数据量、丰富数据多样性、也可以提高模型的泛化能力。在本实施例中，对图像进行扩增可以通过对单个文字进行裁剪、对单个文字进行随机抹除和/或对单个文字的部分位置进行模糊处理等。

本实施例中，可以借助对比学习实现对扩增图像相似性的判断，其中，对比学习可以学习同类图像之间的共同特征，区分不同图像之间的不同之处，对比学习不需要关注图像中繁琐的细节，只需要在抽象语义级别的特征空间上学会对图像进行区分即可，因此对比学习模型及其优化都较为简单，且泛化能力更好。通过对比学习损失函数训练神经网络模型，可以提高神经网络模型识别各单字的准确性。此外，通过聚类损失函数可以辅助对比学习进行训练，目的是尽量拉近相同字的特征的距离，并使得不同字的特征距离尽可能远，从而完成真实古彝文单字图像特征提取过程。

S130、根据多个单字图像的特征对多个单字图像进行聚类，得到聚类结果。

本实施例中，通过神经网络模型可以得到多个单字图像的特征，根据得到的多个单字图像的特征对多个单字图像进行聚类，可以得到聚类的结果。其中，聚类可以对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。

S140、根据聚类结果构建设定语言的单字数据集。

可以知道的是，通过对神经网络模型提取的特征进行聚类，得到聚类结果，其中，聚类结果可以是同一类型的字聚集在一起，不同类别的字不聚集。如：被识别为“的”的单字图像汇集在一处，被识别为“的”和“原”的单字图像互相远离。根据聚类结果构建设定语言的单字数据集，单字数据集可以用于训练设定语言的识别模型。

本实施例提供了一种数据集构建方法，包括：扫描设定语言的书籍图像并对书籍图像进行切分，得到多个单字图像；通过神经网络模型提取多个单字图像的特征，其中，神经网络模型基于训练样本和设定损失函数训练得到，训练样本包括各单字图像以及各单字图像的扩增图像，设定损失函数包括对比学习损失函数和聚类损失函数，对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于同一单字图像的其他单字图像之间的不相似性，聚类损失函数用于描述同一单字图像的特征之间的距离相近性；根据多个单字图像的特征对多个单字图像进行聚类，得到聚类结果；根据聚类结果构建设定语言的单字数据集。该方法通过神经网络提取单字图像的特征，并根据提取的特征对多个单字图像进行聚类，进而得到设定语言的单字数据集。本技术方案节省了人力物力，并且由于神经网络模型基于对比学习损失函数和聚类损失函数进行训练，具备准确确定单字类别和提取单字特征的能力，从而构建高质量数据集。

作为本实施例的一种实施方式，本实施例提供的数据集构建方法，还包括：

在神经网络模型的训练过程中，对每个单字图像进行扩增操作，得到相应的扩增图像；

具体的，根据多个单字图像训练神经网络模型的过程中，可以对单字图像进行扩增操作，得到与单个图像对应的扩增图像，扩增图像至少为两个。图3为本实施例提供的一种两个古彝文图像随机生成20次扩增图像的结果示意图，扩增结果如图3所示。

需要说明的是，扩增操作包括以下至少之一：按照设定裁剪比例和设定尺寸进行随机裁剪，其中，裁剪比例和设定尺寸可以设置，示例性的，裁剪比例可以是[0.9-1]，设定尺寸可以是100*100；按照设定放射角度和填充像素进行仿射变换，其中，仿射变换可以是图像可以通过一系列的几何变换来实现平移、旋转等多种操作，示例性的，放射角度可以是[-10,10]，填充像素可以是(255，255，255)；

按照第一随机概率和设定高斯模糊半径进行随机高斯模糊，其中，高斯模糊可以是以某个像素点为中心，取半径范围内的像素点进行加权平均作为中心的值，第一随机概率可以是随机高斯模糊的随机概率，示例性的，第一随机概率可以是0.5，高斯模糊的半径可以是[0.5,2]；

按照第二随机概率和设定膨胀卷积核随机膨胀，其中，膨胀可以将结构元素(卷积核，可以类比卷积神经网络模型中的卷积核)应用于图像中的每个像素点，并将该像素点的值更新为结构元素所覆盖区域内的最大值，第二随机概率可以是随机膨胀的随机概率，示例性的，第二随机概率可以是0.6，膨胀卷积核的大小为(3,3)；

按照第三随机概率、设定抹除面积比率和设定长宽比范围随机抹除操作，其中，第三随机概率可以是随机抹除的随机概率，示例性的，第三随机概率可以是0.8，设定抹除面积比率可以是(0.02,0.12)，设定长宽比范围为(0.8,2)。

作为本实施例的一种实施方式，本实施例提供的数据集构建方法还包括神经网络模型的训练过程，神经网络模型的训练过程包括：对于每个单字图像，

a1)通过神经网络模型提取该单字图像的扩增图像的特征；

具体的，可以对切分后的该单字图像进行扩增，得到该单字图像的扩增图像。在得到扩增图像后，可以通过神经网络模型提取扩增图像的特征。

示例性的，可以对一个单字图像进行扩增可以得到2个扩增图像，利用神经网络模型对扩增图像提取特征。

b1)通过动量编码器提取队列图像的特征，队列图像包括不同于该单字图像的指定数量的其他单字图像；

具体的，可以通过动量编码器提取队列图像的特征，其中，动量编码器可以是用来训练编码器权重的临时的编码器，队列图像可以包括不同于该单字图像的指定数量的其他单字图像，需要说明的是，其他单字图像可以是与该单字图像不同类别的单字图像(不同字)，也可以是与单字图像同一类别的单字图像(同一个字)。

示例性的，切分后得到10万张单字图像，可以对其中的每一个单字图像进行扩增，对于任意一个单字图像，扩增后得到2个扩增图像，2个扩增图像中的其中一个可以作为该单字图像对应的扩增图像，用于与队列图像进行对比学习；2个扩增图像中的另一个可以归属于队列图像，此外，队列图像中还可以包括从10万张单字图像中选出的除当前单字图像以外的1000个单字图像，这1000个单字图像可以与当前单字图像是同一个字(同一类)，也可以是不同字(不同类)。也就是说，队列图像可以包括1000张单字图像和1个扩增图像。

c1)根据扩增图像的特征和队列图像的特征，分别计算对比学习损失函数的函数值以及聚类损失函数的函数值；

本实施例中，根据单字图像可以得到至少两个扩增图像，其中一个扩增图像可作为待查询的图像，其余的扩增图像可以与指定数量的其他单字图像组成队列图像，根据神经网络模型可以提取扩增图像的特征，利用动量编码器可以提取队列图像的特征。根据扩增图像的特征和队列图像的特征，可以分别计算对比学习损失函数的函数值以及聚类损失函数的函数值。

需要说明的是，通过将每个单字图像得到的扩增图像分别作为待查询的图像和队列图像，可以判断神经网络模型是否可以将待查询的图像和由同一单字图像扩增得到的队列图像识别为同一类，而对于其他不是由同一单字图像扩增得到的队列图像(即使其他队列图像与当前待查询的图像中的单字图像是同一个字)，也会识别为不同的类，进而可以提高神经网络模型提取单字图像特征的准确性。

d1)若不满足训练结束条件，则根据对比学习损失函数的函数值以及聚类损失函数的函数值更新神经网络模型的参数和动量编码器的参数，并返回执行提取扩增图像的特征、提取队列图像的特征、以及计算函数值损失的步骤。

图4为本实施例给出的训练过程示意图，如图4所示，图4中的编码器即为神经网络模型，图4中的查询特征可以是神经网络模型提取的扩增图像(待查询的图像)的特征，队列特征可以是动量编码器提取的队列图像的特征，聚类特征可以是聚类后的特征。

可以知道的是，若不满足训练结束条件，可以根据对比学习损失函数的函数值以及聚类损失函数的函数值更新神经网络模型的参数和动量编码器的参数，其中，训练结束条件可以是确定神经网络模型训练是否可以结束的条件，示例性的，训练结束条件可以是对比学习损失函数的函数值以及聚类损失函数的函数值小于相应阈值、迭代次数达到最大、训练达到最大时长和/或神经网络模型的参数在连续几次迭代过程中不发生改变。

可选的，利用聚类损失函数还可以更新聚类中心。示例性的，可以进行10万次的对比学习，在每256次的对比学习结束后，通过积累的对比学习损失函数和聚类损失函数对聚类的中心进行更新，从而提高聚类的准确性，进而辅助训练神经网络模型使其具备更强的特征提取能力。

可选的，根据对比学习损失函数的函数值以及聚类损失函数的函数值更新神经网络模型的参数和动量编码器的参数，包括：

a2)根据对比学习损失函数的函数值以及聚类损失函数的函数值更新神经网络模型的参数；

具体的，通过计算对比学习损失函数的函数值以及聚类损失函数的函数值，可以基于反向传播的原理更新神经网络模型的参数，以使对比学习的损失以及聚类的损失尽量小。

b2)将动量编码器的参数更新为神经网络模型更新前的参数的第一预设倍数与编码器更新后的参数的第二预设倍数之和。

可以知道的是，根据计算得到的对比学习损失函数的函数值以及聚类损失函数的函数值更新神经网络模型的参数，动量编码器的参数可以更新为神经网络模型更新前的参数的第一预设倍数与编码器更新后的参数的第二预设倍数之和，其中，第一预设倍数可以是预先设定好的倍数，示例性的，第一预设倍数可以是0.95，第二预设倍数可以是预先设定好的倍数，示例性的，第二预设倍数可以是0.05。

示例性的，动量编码器的参数可以是编码器上一次训练参数的0.95倍与编码器当前训练参数的0.05倍的和。

在一实施例中，对书籍图像进行切分，得到多个单字图像，包括：

a3)截取书籍图像中包含设定语言的文字的部分，并将包含设定语言的文字的部分进行二值化，得到二值化图像；

本实施例中，可以截取书籍图像中包含设定语言的文字部分，并将包含设定语言的文字部分进行二值化，得到二值化图像，其中，二值化图像可以将整个图像呈现出明显的只有黑和白的视觉效果。

示例性的，书籍图像可以是《西南彝志》，由于该书已经采用四行译注法进行译注，因此书籍包含古彝文单字，国际音标，直译、意译四项内容。因此，需要对扫描得到的书籍图像进行截取，图5为本实施例提供的截取过程示意图，如图5所示，通过截取可以得到只包含古彝文单字的书籍图像。

b3)采用行投影法对二值化图像进行行切分，得到单行图像；

可以知道的是，在得到只包含设定语言的文字的部分的书籍图像后，可以通过行投影法对二值化图像进行行切分，可以得到单行图像。其中，行投影法可以是沿着文本行的方向对文本行进行投影。

c3)采用列投影法对单行图像进行列切分，得到多个单字图像。

接上述描述，在得到单行图像后，采用列投影法对单行图像进行列切分，进而可以得到多个单字图像，其中，列投影法可以是沿着文本列的方向对文本列进行投影。

可选的，对书籍图像进行切分，得到多个单字图像，还可以包括：

筛选行高在设定范围内的单行图像；设定范围根据书籍图像的卷数确定。

具体的，在得到单行图像后，可以筛选行高在设定范围内的单行图像，其中，设定范围可以是预先设定的，设定范围根据书籍图像的卷数确定。

示例性的，在《西南彝志》中，古彝文行与国际音标行存在行高差距，因此，对于古彝文单字来说，设定范围可以是160-220之间。同时，设定范围可以根据所扫描书籍的卷数、页面尺寸和/或色彩上的差距进行适应性的调整。

可选的，采用列投影法对单行图像进行列切分，得到多个单字图像，包括：

a4)对于每个单行图像，采用列投影法对单行图像进行列切分；

具体的，通过行投影法得到单行图像后，可以采用列投影法对单行图像进行列切分。

b4)当列切分得到的左右相邻的至少两个单字图像中单字的列宽均低于预设阈值时，将至少两个单字图像组合为一个单字图像。

需要解释的是，在列切分过程中，部分字呈现左右结构，甚至是左中右结构，如果仅按照投影阈值进行切分可能会出现单个文字被切成两个甚至三个。因此，可在对单行图像进行列切分时，当切分得到的左右相邻的至少两个单字图像中单字的列宽均低于预设阈值时，将至少两个单字图像组合为一个单字图像，其中，预设阈值可以是预先设定的判断阈值，示例性的，对于古彝文单字来说，预设阈值可以是行高的4/5。

示例性的，当列切分得到的左右相邻的至少两个单字图像中单字的列宽均低于行高的4/5时，便可以将至少两个单字图像组合为一个单字图像，减少的将一个完整的古彝文文字切分成多部分的情况，提高了切分的准确率。

在一实施例中，根据聚类结果构建设定语言的单字数据集，包括：

a5)对于聚类结果中的设定类别，选取设定类别中的一个单字图像，根据单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像；

本实施例中，相同的单字图像可以是一个类别，多个不同的单字图像对应于多个不同的类别，设定类别可以理解为需要进行图像检索以补充该类别中的样本(即通过聚类归到该类的单字图像)的类别。例如，设定类别可以指样本数量低于数量阈值的类别。具体的，聚类后各个文字类别包含的样本数量有所不同，当某一个文字类别中的样本数量低于数量阈值时，如：聚类后某一文字类别包含的单字图像只有5个，低于数量阈值(例如10)，则此时需要在更全面的检索库中，检索足够数量的该文字补充到此类中，其中，数量阈值可以是根据各类文字的数量确定，也可以根据各类别数量的均值、中指等统计量确定。

具体的，根据提取的单字图像的特征可以对多个单字图像进行聚类，得到聚类结果，得到聚类结果后，对于聚类结果中的设定类别，可在设定类别中选取任意一个单字图像作为待检索图像，将单字图像库作为检索图像库，根据单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像，其中，设定数量可以是预先设定好的数量，单字图像库可以是包含单字种类更丰富和/或数量更庞大的图像库，单字图像库可以包含设定类别中的一个单字图像，示例性的，单字图像库可以包含20万张单字图像，目标图像可以是与单字图像的相似度较高的图像，可用于补充低于数量阈值的单字图像。

b5)将目标图像加入设定类别；

可以知道的是，在得到目标图像中后，可以将目标图像加入至设定类别。

c5)根据聚类结果中各类别的单字图像构建设定语言的单字数据集。

具体的，在目标图像加入到设定类别后，可以根据聚类结果中各类别的单字图像构建设定语言的单字数据集。

示例性的，图6为本实施例给出的单字图像的检索过程示意图，如图6所示，可以计算待检索图像的特征，以及另外一个检索图像库中所有图像的特征一共20万张图像的特征，通过点乘运算计算图像之间的特征距离来判断待检索图像与图像库中所有图像的相似性，最终选择另外一个检索图像库中相似度排名前20张的图像作为该待检索图像所在类别的目标图像，进而可以实现对单字图像的补充。

可选的，根据单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像；包括：

a6)通过神经网络模型提取单字图像库的每个备选单字图像的特征；

具体的，可以通过经过训练的神经网络模型准确提取单字图像库的每个备选单字图像的特征，其中，单字图像库提供了可用于针对设定类别进行检索或补充设定类别的样本的备选单字图像。需要说明的是，备选单字图像不同于上述书籍图像切分得到的单字图像，切分得到的单字图像可经过聚类后构建初步的单字数据集，但对于其中的设定类别需要进行检索并补充样本时，则可以使用备选单字图像。示例性的，单字图像库中一共20万个备选单字图像，设定类别的单字图像的数量低于数量阈值时，可以在20万个备选单字图像中选取相似度最高的设定数量的目标图像补充至该设定类别中。

b6)将单字图像的特征分别与每个备选单字图像的特征点乘，得到单字图像与每个备选单字图像相应的相似度；

本实施例中，可以将单字图像的特征分别与每个备选单字图像的特征点乘，点乘可以用来计算单字图像与每个备选单字图像之间的特征距离，通过特征距离判断单字图像与每个备选单字图像的相应的相似度。

c6)将相似度较高的设定数量的备选单字图像作为单字图像对应的目标图像。

具体的，可以将相似度较高的设定数量的备选单字图像作为单字图像对应的目标图像，其中，设定数量可以是人工设定的数量。

示例性的，设定数量可以是20，可以选择相似度较高的20个备选单字图像作为单字图像对应的目标图像。

图7为本实施例给出的数据集构建过程示意图，如图7所示，本技术方案从真实古籍图像切分出真实古籍单字图像，通过本文提出的数据集构建方法，先使用无监督特征提取方法提取真实古籍单字图像特征，然后进行聚类，对样本较少的类别使用图像检索的方式扩充数据集样本数量，最终完成数据集构建过程，节省了人力物力，具备准确确定单字类别和提取单字特征的能力，构建了高质量数据集。

实施例二

图8为本公开实施例二提供的一种文字识别方法的流程图，本实施例可适用于对文字进行识别的情况，该方法可以由文字识别装置来执行，该文字识别装置可以采用硬件和/或软件的形式实现，该文字识别装置可配置于电子设备中。如图8所示，该方法包括：

S210、获取设定语言的单字数据集；

示例性的，可以获取彝文的单字数据集。

S220、根据设定语言的单字数据集训练文字识别模型；

具体的，根据获取的设定语言的单字数据集训练文字识别模型。示例性的，可以根据彝文的单字数据集训练彝文文字识别模型。

S230、将待识别的单字输入至文字识别模型，得到文字识别结果；其中，单字数据集基于实施例一中的数据集构建方法构建。

具体的，可以将待识别的单字输入至文字识别模型，可以得到文字识别结果，其中，所述单字数据集基于上述任意实施例中所述的数据集构建方法构建。

本实施例提供了一种文字识别方法，包括：获取设定语言的单字数据集；据设定语言的单字数据集训练文字识别模型；待识别的单字输入至文字识别模型，得到文字识别结果；其中，单字数据集基于上述任意实施例的数据集构建方法构建。本实施例的技术方案利用采用上述数据集构建方法构建的高质量数据集训练文字识别模型，提高了训练效果，进而提高了文字识别的准确率。

实施例三

图9为本公开实施例三提供的一种数据集构建装置的结构示意图。如图9所示，该装置包括：切分模块310、特征提取模块320、聚类模块330、构建模块340。

其中，切分模块310，用于扫描设定语言的书籍图像并对所述书籍图像进行切分，得到多个单字图像；

特征提取模块320，用于通过神经网络模型提取所述多个单字图像的特征，其中，所述神经网络模型基于训练样本和设定损失函数训练得到，所述训练样本包括各所述单字图像以及各所述单字图像的扩增图像，所述设定损失函数包括对比学习损失函数和聚类损失函数，所述对比学习损失函数用于描述同一单字图像的扩增图像之间的特征相似性，和/或同一单字图像的扩增图像与不同于所述同一单字图像的其他单字图像之间的不相似性，所述聚类损失函数用于描述同一单字图像的特征之间的距离相近性；

聚类模块330，用于根据所述多个单字图像的特征对所述多个单字图像进行聚类，得到聚类结果；

构建模块340，用于根据所述聚类结果构建所述设定语言的单字数据集。

本公开实施三提供了一种数据集构建装置，节省了人力物力，具备准确确定单字类别和提取单字特征的能力，从而构建高质量数据集。

进一步的，特征提取模块320还包括：对于每个所述单字图像，

单字特征提取单元，用于通过所述神经网络模型提取所述单字图像的扩增图像的特征；

动量编码器特征提取单元，用于通过动量编码器提取队列图像的特征，所述队列图像包括不同于所述单字图像的指定数量的其他单字图像；

计算单元，用于根据所述扩增图像的特征和所述队列图像的特征，分别计算对比学习损失函数的函数值以及聚类损失函数的函数值；

判断单元，用户若不满足训练结束条件，则根据所述对比学习损失函数的函数值以及所述聚类损失函数的函数值更新所述神经网络模型的参数和所述动量编码器的参数，并返回执行提取扩增图像的特征、提取队列图像的特征、以及计算函数值损失的步骤。

进一步的，判断单元，可以用于：

根据所述对比学习损失函数的函数值以及所述聚类损失函数的函数值更新所述神经网络模型的参数；

将所述动量编码器的参数更新为所述神经网络模型更新前的参数的第一预设倍数与所述编码器更新后的参数的第二预设倍数之和。

进一步的，所述装置还包括：

扩增模块，用于在所述神经网络模型的训练过程中，对每个所述单字图像进行扩增操作，得到相应的扩增图像；

扩增模块，可以用于：

按照设定裁剪比例和设定尺寸进行随机裁剪；

按照设定放射角度和填充像素进行仿射变换；

按照第一随机概率和设定高斯模糊半径进行随机高斯模糊；

按照第二随机概率和设定膨胀卷积核随机膨胀；

按照第三随机概率、设定抹除面积比率和设定长宽比范围随机抹除操作

进一步的，构建模块340，还可以包括

检索单元，用于对于所述聚类结果中的设定类别，选取所述设定类别中的一个单字图像，根据所述单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像；

添加单元，用于将所述目标图像加入所述设定类别；

构建单元，用于根据所述聚类结果中各类别的单字图像构建所述设定语言的单字数据集。

进一步的，检索单元，还可以用于：

通过所述神经网络模型提取所述单字图像库的每个备选单字图像的特征；

将所述单字图像的特征分别与每个备选单字图像的特征点乘，得到所述单字图像与每个备选单字图像相应的相似度；

将相似度较高的设定数量的备选单字图像作为所述单字图像对应的目标图像。

进一步的，切分模块310，可以包括：

截取单元，用于截取所述书籍图像中包含设定语言的文字的部分，并将所述包含设定语言的文字的部分进行二值化，得到二值化图像；

行切分单元，用于采用行投影法对所述二值化图像进行行切分，得到单行图像；

列切分单元，用于采用列投影法对所述单行图像进行列切分，得到多个单字图像。

进一步的，切分模块310，还可以包括：

筛选单元，用于筛选行高在设定范围内的单行图像；

所述设定范围根据所述书籍图像的卷数确定。

进一步的，列切分单元还可以用于：

对于每个所述单行图像，采用列投影法对所述单行图像进行列切分；

当列切分得到的左右相邻的至少两个单字图像中单字的列宽均低于预设阈值时，将所述至少两个单字图像组合为一个单字图像。

本公开实施例所提供的数据集构建装置可执行本公开实施例任意实施例所提供的数据集构建方法，具备执行方法相应的功能模块和有益效果。

实施例四

图10为本公开实施例四提供的一种文字识别装置的结构示意图。如图10所示，该装置包括：获取模块410、模型训练模块420、识别模块430。

其中，获取模块410，用于获取设定语言的单字数据集；

模型训练模块420，用于根据所述设定语言的单字数据集训练文字识别模型；

识别模块430，用户将待识别的单字输入至所述文字识别模型，得到文字识别结果；

其中，所述单字数据集基于上述任意实施例所述的数据集构建方法构建。

本公开实施四提供了一种文字识别装置，实现了对文字的准确识别。

本公开实施例所提供的文字识别装置可执行本公开实施例任意实施例所提供的文字识别方法，具备执行方法相应的功能模块和有益效果。

实施例五

图11示出了可以用来实施本公开实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开实施例的实现。

如图11所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微处理器等。处理器11执行上文所描述的各个方法和处理，例如数据集构建方法、文字识别方法。

在一些实施例中，数据集构建方法、文字识别方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的数据集构建方法、文字识别方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据集构建方法、文字识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开实施例的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开实施例的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现如上述任意实施例的数据集构建方法、文字识别方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开实施例中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开实施例的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开实施例保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开实施例的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开实施例保护范围之内。

Claims

1.一种数据集构建方法，其特征在于，包括：

根据所述聚类结果构建所述设定语言的单字数据集。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练过程包括：对于每个所述单字图像，

通过所述神经网络模型提取所述单字图像的扩增图像的特征；

通过动量编码器提取队列图像的特征，所述队列图像包括不同于所述单字图像的指定数量的其他单字图像；

根据所述扩增图像的特征和所述队列图像的特征，分别计算对比学习损失函数的函数值以及聚类损失函数的函数值；

若不满足训练结束条件，则根据所述对比学习损失函数的函数值以及所述聚类损失函数的函数值更新所述神经网络模型的参数和所述动量编码器的参数，并返回执行提取扩增图像的特征、提取队列图像的特征、以及计算函数值损失的步骤。

3.根据权利要求2所述的方法，其特征在于，根据所述对比学习损失函数的函数值以及所述聚类损失函数的函数值更新所述神经网络模型的参数和所述动量编码器的参数，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

在所述神经网络模型的训练过程中，对每个所述单字图像进行扩增操作，得到相应的扩增图像；

所述扩增操作包括以下至少之一：

按照设定裁剪比例和设定尺寸进行随机裁剪；

按照设定放射角度和填充像素进行仿射变换；

按照第一随机概率和设定高斯模糊半径进行随机高斯模糊；

按照第二随机概率和设定膨胀卷积核随机膨胀；

按照第三随机概率、设定抹除面积比率和设定长宽比范围随机抹除操作。

5.根据权利要求1所述的方法，其特征在于，根据所述聚类结果构建所述设定语言的单字数据集，包括：

对于所述聚类结果中的设定类别，选取所述设定类别中的一个单字图像，根据所述单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像；

将所述目标图像加入所述设定类别；

根据所述聚类结果中各类别的单字图像构建所述设定语言的单字数据集。

6.根据权利要求5所述的方法，其特征在于，根据所述单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像；包括：

7.根据权利要求1所述的方法，其特征在于，对所述书籍图像进行切分，得到多个单字图像，包括：

截取所述书籍图像中包含设定语言的文字的部分，并将所述包含设定语言的文字的部分进行二值化，得到二值化图像；

采用行投影法对所述二值化图像进行行切分，得到单行图像；

采用列投影法对所述单行图像进行列切分，得到多个单字图像。

8.根据权利要求7所述的方法，其特征在于，还包括：

筛选行高在设定范围内的单行图像；

所述设定范围根据所述书籍图像的卷数确定。

9.根据权利要求7所述的方法，其特征在于，采用列投影法对所述单行图像进行列切分，得到多个单字图像，包括：

10.一种文字识别方法，其特征在于，包括：

获取设定语言的单字数据集；

根据所述设定语言的单字数据集训练文字识别模型；

其中，所述单字数据集基于权利要求1-9中任一所述的数据集构建方法构建。

11.一种数据集构建装置，其特征在于，包括：

12.一种文字识别装置，其特征在于，包括：

获取模块，用于获取设定语言的单字数据集；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-9中任一所述的数据集构建方法或如权利要求10所述的文字识别方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的数据集构建方法或如权利要求10所述的文字识别方法。