CN114926847B

CN114926847B - 少数类语言的图像处理方法、装置、设备和存储介质

Info

Publication number: CN114926847B
Application number: CN202111478344.XA
Authority: CN
Inventors: 张素芳; 吕一; 邓天生; 于天宝; 贠挺; 林赛群
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2023-04-07
Anticipated expiration: 2041-12-06
Also published as: CN114926847A

Abstract

本公开提供了一种少数类语言的图像处理方法、装置、设备和存储介质，涉及人工智能技术领域，具体为自然语言处理、深度学习技术领域。具体实现方案为：获取少数类语言中的少数类字符元素；采用所述少数类字符元素构建少数类伪文本；将所述少数类伪文本转换为图像格式，并根据图像转换结果得到少数类语言图像。本公开实施例能够对少数类语言的处理效率。

Description

少数类语言的图像处理方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理、深度学习技术领域，具体涉及一种少数类语言的图像处理方法、装置、电子设备和计算机可读存储介质。

背景技术

互联网上的数据存在丰富的信息来源，视频，图像，语音，文字，网页等。其中视频图像中包含大量文字内容。世界现存文字包含近千种，主流语言十几种。除了主流语言之外的少数类语言，使用范围、普及度较低，因为对少数类语言的处理存在困难。

发明内容

本公开提供了一种用于少数类语言的图像处理方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种少数类语言的图像生成方法，包括：

获取少数类语言中的少数类字符元素；

采用所述少数类字符元素构建少数类伪文本；

将所述少数类伪文本转换为图像格式，并根据图像转换结果得到少数类语言图像。

根据本公开的一方面，提供了一种少数类语言的图像处理方法，包括：

获取待处理的目标图像；

采用少数类语言检测模型，从所述目标图像中提取少数类语言区域，根据少数类语言区域确定检测结果，并根据检测结果确定目标图像所属的目标少数类语种；

其中，所述少数类语言检测模型的训练样本采用本公开任意实施例所提供的少数类语言的图像生成方法确定。

根据本公开的一方面，提供了一种少数类语言的图像生成装置，包括：

字符元素获取模块，用于获取少数类语言中的少数类字符元素；

伪文本构建模块，用于采用所述少数类字符元素构建少数类伪文本；

文本转换模块，用于将所述少数类伪文本转换为图像格式；

图像生成模块，用于根据图像转换结果得到少数类语言图像。

根据本公开的一方面，提供了一种少数类语言的图像处理装置，包括：

图像获取模块，用于获取待处理的目标图像；

图像检测模块，用于采用少数类语言检测模型，从所述目标图像中提取少数类语言区域，根据少数类语言区域确定检测结果；

目标语种确定模块，用于根据检测结果确定目标图像所属的目标少数类语种；

其中，所述少数类语言检测模型的训练样本由本公开任意实施例所提供的少数类语言的图像生成装置确定。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所提供的少数类语言的图像生成方法或者少数类语言的图像处理方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任意实施例所提供的少数类语言的图像生成方法或者少数类语言的图像处理方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例所提供的少数类语言的图像生成方法或者少数类语言的图像处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1a是根据本公开实施例提供的一种少数类语言的图像生成方法的示意图；

图1b是根据本公开实施例提供的一种图像转换结果的示意图；

图1c是根据本公开实施例提供的一种少数类语言图像的示意图；

图2a是根据本公开实施例提供的另一种少数类语言的图像生成方法的示意图；

图2b是根据本公开实施例提供的一种维文编码表的示意图；

图3是根据本公开实施例提供的又一种少数类语言的图像生成方法的示意图；

图4是根据本公开实施例提供的一种少数类语言的图像处理方法的示意图；

图5是根据本公开实施例提供的另一种少数类语言的图像处理方法的示意图；

图6是根据本公开实施例提供的一种少数类语言的图像生成装置的示意图；

图7是根据本公开实施例提供的一种少数类语言的图像处理装置的示意图；

图8是用来实现本公开实施例的少数类语言的图像生成方法或少数类语言的图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下结合附图，对本公开实施例提供的该方案进行详细说明。

图1a是根据本公开实施例提供的一种少数类语言的图像生成方法的示意图，本公开实施例可适用于构建少数类语言图像的情况。该方法可由一种少数类语言的图像生成装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图1a，该方法具体包括如下：

S110、获取少数类语言中的少数类字符元素；

S120、采用所述少数类字符元素构建少数类伪文本；

S130、将所述少数类伪文本转换为图像格式，并根据图像转换结果得到少数类语言图像。

其中，少数类语言是指除主流语言之外的其他语言，少数类字符元素是指少数类语言中文字的基本组成单元，类似于中文中的偏旁部首、英文中的英文字母。少数类语言中的文字采用少数类字符元素组成。

其中，伪文本是指形式上具有文本的结构关系，但是可以没有实际语义。少数类语言伪文本可以通过对少数类字符元素进行排列、组合等处理得到，类似少数类语言文字，但没有可以实际语义。为了便于理解，英文伪文本可以通过对英文字母进行排列、组合得到，具有英文语句的形式结构，但是没有实际语义。通过生成少数类伪文本，而无需了解少数类伪文本的语义，甚至少数类伪文本没有实际语义，使得少数类伪文本的处理过程无需依赖先验知识。

在本公开实施例中，可以采用图像库，例如采用python的PIL库，将少数类伪文本转换为图像格式，得到图像转化结果。参考图1b，图像转化结果中可以包括少数类伪文本。并且，还可以将图像转化结果01添加到背景图像上得到少数类语言图像，参考图1c。

由于少数类语言的普及度较低，缺少了解少数类语言的工作人员，因而在自然语言处理过程中如何构建少数类语言样本十分困难，并且少数类语言数据量少，容易导致样本不均衡。本公开实施例实现了通过采用少数字符元素构建少数类伪文本，并将少数类伪文本转换为图像格式，自动化地生成少数语言图像，无需依赖先验知识，提高了少数类语言图像的构建效率，为对少数类语言进行检测、识别等自然语言处理奠定了基础。

具体的，本公开实施例可以针对维文、藏文、传统蒙文、新蒙文分别生成维文图像、藏文图像、传统蒙文图像、新蒙文图像，以构建维文检测模型为例，可以采用维文图像作为正样本，采用除维文图像之外的其他图像作为负样本。需要说明的是，负样本中不仅可以有其他少数类语言图像，也可以有主流语言图像，例如可以有中文图像、英文图像等。

本公开实施例的技术方案，通过采用少数类语言中的少数类字符元素构建少数类伪文本，并生成包括少数类伪文本的少数类语言图像，实现了少数类语言图像的自动化生成，无需依赖少数类语言先验知识，提高了少数类语言处理效率，便于后续对少数类语言进一步处理。

图2a是根据本公开实施例提供的另一种少数类语言的图像生成方法的示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2a，本实施例提供的少数类语言的图像生成方法包括：

S210、从支持少数类语言的编码库中，获取少数类语言中的少数类字符元素；

S220、采用所述少数类字符元素构建少数类伪文本；

S230、基于所述编码库中少数类字符元素的编码信息，将少数类伪文本转换为图像格式得到图像转换结果；

S240、根据图像转换结果得到少数类语言图像。

计算机的所有信息都以二进制数字表示，编码库中包括字符元素与字符编码(二进制)之间的关联关系。支持少数语言的编码库中包括少数语言的字符元素与字符编码之间的关联关系。

在本公开实施例中，可以基于少数类语言所属的语系，获取支持少数类语言的编码库，并从该编码库中获取少数类语言编码表，少数类语言编码表包括少数类字符元素与字符编码信息之间的关联关系。例如，维文属于阿尔泰语系，统一码(unicode)编码库支持维文，包括维文编码表，参考图2b，维文编码表包括维文字符元素与字符编码之间的关联关系。并且，可以从少数类语言编码表中获取少数类字符元素，并采用少数类字符元素组成句子，得到少数类伪文本。

在本公开实施例中，可以基于编码库中少数类字符元素的编码信息识别支持少数类语言的少数类字体，并且采用少数类字体，将少数类伪文本转换为图像格式。通过采用从编码库中获取的少数类字符元素构建少数类伪文本，并基于与少数类字符元素的编码信息所匹配的少数类字体，将少数类伪文本转换为图像格式，能够避免图像转换过程中产生编码混乱，导致图像转换过程中少数类伪文本出现乱码的问题，提高了少数类语言图像的生成效率和准确性。

在一种可选实施方式中，所述根据图像转换结果得到少数类语言图像，包括：获取背景图像，并从背景图像上选择随机位置信息；根据所述随机位置信息，将所述图像转换结果添加到所述背景图像上，得到少数类语言图像。

在本公开实施例中，还获取背景图像，并包括少数类伪文本的图像转换结果贴在背景图像上，得到少数类语言图像数据。本公开实施例对背景图像的尺寸不做具体限定。背景图像的尺寸不同导致图像转换结果中少数类伪文本的尺寸可能超过背景图像的尺寸，可以按照一定比例对少数类伪文本进行截断处理，也可以对背景图像进行缩放处理。并且，为了模拟不同场景中的少数类语言图像数据，可以图像转换结果可以随机地添加到背景图像上的不同位置处理，并且在支持少数类语言的编码库有多个的情况下，可以采用从不同编码库中提取的少数类字符元素构建不同字体、不同字号的少数类语言图像。

本公开实施例的技术方案，通过从支持少数类语言的编码库中获取的少数类字符元素构建少数类伪文本，并基于与少数类字符元素的编码信息所匹配的少数类字体，将少数类伪文本转换为图像格式，能够避免图像转换过程中产生乱码问题；并且，通过将图像转换结果随机地添加到背景图像上，能够模拟不同使用场景下的少数类语言图像。

图3是根据本公开实施例提供的又一种少数类语言的图像生成方法的示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图 3，本实施例提供的少数类语言的图像生成方法包括：

S310、获取少数类语言中的少数类字符元素；

S320、获取辅助语言的辅助文本；

S330、根据所述辅助文本中不同辅助字符元素之间的位置信息，对少数类字符元素进行排列，得到少数类伪文本；

S340、将所述少数类伪文本转换为图像格式，并根据图像转换结果得到少数类语言图像。

其中，辅助语言可以为任一种主流语言，辅助文本可以具有实际语义。例如，辅助语音可以为中文、拉丁文等。具体的，可以根据辅助文本中不同辅助字符元素之间的位置关系，确定少数类字符元素的位置关系，基于少数类字符元素的位置关系对少数类字符元素进行排列，得到少数类伪成本。通过借助辅助文本中辅助字符元素的位置关系构建少数类伪成本，可以提高少数类伪成本的准确度，从而提高少数类语言图像的准确度。其中，辅助语言可以与少数类语言属于相同、相似语系，或者字符元素形状相似，例如英文与新蒙文在结构上相似，英文可以作为新蒙文的辅助语言，从而进一步提高少数类语言图像的准确度。

在一种可选实施方式中，所述根据所述辅助文本中不同辅助字符元素之间的位置信息，对少数类字符元素进行排列，得到少数类伪文本，包括：基于少数类字符元素与辅助字符元素之间的关联关系，确定与辅助文本中的辅助字符元素所关联的少数类字符元素，并采用关联的少数类字符元素代替该辅助字符元素，得到少数类伪文本；所述少数类字符元素与辅助字符元素之间的关联关系随机确定。

在本公开实施例中，还可以构建少数类语言与辅助语言之间的随机字典，即可以随机构建少数类字符元素与辅助字符元素之间的关联关系，并将该关联关系添加到随机字典中。具体的，可以获取辅助文本，针对辅助文本中的每一辅助字符元素，从随机字典中查找与该辅助字符元素关联的少数类字符元素，并采用关联的少数类字符元素代替该辅助字符元素，从而将辅助文本转换为少数类伪文本。实现了基于借助辅助语言构建少数类伪文本，能够提高少数类伪文本的准确度。

本公开实施例的技术方案，通过借助辅助文本中辅助字符元素的位置关系，构建少数类伪文本，并根据少数类伪文本构建少数类语言图像，能够提高少数类语言图像的准确度。

图4是根据本公开实施例提供的一种少数类语言的图像处理方法的示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图4，本实施例提供的少数类语言的图像处理方法包括：

S410、获取待处理的目标图像；

S420、采用少数类语言检测模型，从所述目标图像中提取少数类语言区域，根据少数类语言区域确定检测结果，并根据检测结果确定目标图像所属的目标少数类语种。

其中，少数类语言检测模型的训练样本采用本公开任意实施例所提供的少数类语言的图像生成方法确定。

由于少数类语言普及度低，工作人员缺乏少数类语言的先验知识，并且互联网中少数类文本的数量较少等原因，少数类语言的样本量少、样本不均衡。

在本公开实施例中，可以采用少数类语言的图像生成方法所构建的少数类语言图像作为训练样本，对网络模型进行训练，得到少数类语言检测模型。少数类语言检测模块可以为多分类模型，即少数类语言检测模型可以用于对至少两种少数类语言进行检测。以可以对维文、藏文、传统蒙文、新蒙文进行检测为例，在正样本中，维文图像标注有维文，藏文图像标注有藏文，传统蒙文图像标注有传统蒙文，新蒙文图像标注有新蒙文；在负样本中，维文图像可以标注有除维文之外的其他语种，藏文图像可以标注有除藏文之外的其他语种，传统蒙文图像标注可以标注有除传统蒙文之外的其他语种，新蒙文图像可以标注有除新蒙文之外的其他语种。并且，负样本中还可以有主流语言图像。

由于少数类语言图像可以自动生成，并且少数类语言图像所属的少数类语种已知，因而少数类语言检测模型的训练样本、训练样本的少数类语种标注信息均可以自动化生成，不仅解决了样本量少、样本不均衡等问题，还可以实现自动化样本标注，能够进一步提高少数类语言检测模型的训练效率和准确度。

本公开实施例对少数类语言检测模型的网络结构不做具体限定，例如可以采用卷积神经网络(Convolutional Neural Networks,CNN)。少数类语言检测模型的输入图像尺寸固定。

其中，目标图像中可以包括少数类文本，即目标图像可以为待处理的少数类语言图像。需要说明的是，本公开实施例对目标图像的尺寸不做具体限定。在获取目标图像之后，可以对目标图像进行缩放、边缘填充、归一化等处理得到处理结果，使处理结果尺寸与少数类语言检测模型的输入图像尺寸一致。并且，将处理结果输入少数类语言检测模型，少数类语言检测模型从所述处理结果中提取少数类语言区域，根据少数类语言区域确定目标图像属于候选少数类语种的置信度，作为检测结果。并且，可以根据置信度从候选少数类语种中选择目标图像所属的目标少数类语种。少数类语言区域为少数类文本所在的图像区域。

本公开实施例的技术方案，通过采用自动化生成的少数类语言图像和少数类语言图像所属的少数类语种，为少数类语言检测模型自动化构建训练样本，能够提高少数类语言检测的效率和准确度。

图5是根据本公开实施例提供的另一种少数类语言的图像处理方法的示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图 5，本实施例提供的少数类语言的图像处理方法包括：

S510、获取待处理的目标图像；

S520、采用少数类语言检测模型，从所述目标图像中提取少数类语言区域，根据少数类语言区域确定检测结果；

若检测结果为目标图像属于第一少数类语种，且所述第一少数类语种的置信度大于第一置信度阈值，则继续执行S530；若检测结果为目标图像属于第二少数类语种，且所述第二少数类语种的置信度大于第二置信度阈值，则跳转执行S540。

S530、将所述第一少数类语种作为所述目标少数类语种；

S540、采用少数类语种识别模型确定目标图像所属的目标少数类语种。

其中，少数类语言检测模型的训练样本采用本公开任意实施例所提供的少数类语言的图像生成方法确定。少数类语言识别模型的训练样本也采用本公开任意实施例所提供的少数类语言的图像生成方法确定。第一置信度阈值大于第二置信度阈值。

其中，第一少数类语种、第二少数类语种、第一置信度值、第二置信度值可以根据少数类语言检测模型的检测质量预先确定。可以将检测准确率较高的少数类语种，作为第一少数类语种；将检测准确率较低的少数类语种，作为第二少数类语种。第一置信度值、第二置信度值可以为经验值。仍以少数类语言检测模型支持藏文、维文、传统蒙文、新蒙文为例，第一少数类语种可以为藏文或传统蒙文，第二少数类语种可以为维文或新蒙文。第一置信度阈值可以为0.77，第二置信度阈值可以为0.4。

具体的，若少数类语言检测模型对目标图像的检测结果为第一少数类语种，则只需第一少数类语种的置信度大于第一置信度阈值，即可将第一少数类语种作为目标图像所属的目标少数类语种。然而，由于少数类语言检测模型对第二少数类语种的检测精度存在局限性，误检率较高。若少数类语言检测模型对目标图像的检测结果为第二少数类语种，需要进一步采用少数类语言识别模型对目标图像进行细粒度识别。通过设置第二置信度阈值小于第一置信度阈值，降低第二少数类语种的筛选门槛，提高采用少数类语言识别模型继续对第二少数类语种进行细粒度识别的范围。

本公开实施例对少数类语种识别模型的网络结构不做具体限定，例如少数类语种识别模型的主干模型可以采用CNN网络，并且可以将CNN网络中的第四个卷积块替换为变形器(transformer)，从而降低少数类语种识别模型的计算量，提高语种识别效率。

其中，少数类语种识别模型的损失函数可以采用分类损失函数和差异性损失函数(例如Tripletloss)，其中，分类损失函数如公式(1)所示， Tripletloss如公式(2)所示。

L1＝ max(d(a,p)-d(a,n)+margin,0) (1)

其中，L1为分类损失函数，L2为差异性损失函数，a为锚框，p为正样本，n为负样本，margin为间隔。Tripletloss的优化目标可以是拉进锚框与正样本之间的距离，且拉远锚框与负样本之间的距离。i代表第i个少数类语种，少数类语种的总数量为K，y_i代表第i个样本是否属于第i个少数类语种，为第i个输出，p_i为第i个少数类语种的概率。

少数类语种识别模型的计算量大于少数类语种检测模型的计算量，因而少数类语种识别模型的识别结果精度大于少数类语种检测模型的检测结果精度。在通过少数类语言检测模型检测到目标图像可能属于第二少数类语种的情况下，还采用少数类语种识别模型对目标图像进行细粒度识别，进一步确定第二少数类语种是否为目标少数类语种，能够进一步提高第二少数类语种的识别准确度。

具体的，可以采用少数类语言识别模型对目标图像进行特征提取，得到目标图像特征；并且，确定目标图像特征与第二少数类语种的特征基准库进行匹配，若匹配成功，则将第二少数类语种作为目标少数类语种。其中，第二少数类语种的特征基准库通过预先对属于第二少数类语种的第二少数类语言图像进行处理得到。

本公开实施例的技术方案，通过采用少数类语种识别模型，对可能属于第二少数类语种的目标图像进行更细粒度地识别，能够进一步提高目标少数类语种的准确度。

在一种可选实施方式中，所述采用少数类语言识别模型确定目标图像所属的目标少数类语种，包括：将目标图像输入少数类语言识别模型，得到目标图像特征；将所述目标图像特征，与第二少数类语种的特征基准库进行匹配，得到第二少数类语种匹配度；将所述目标图像特征，与第二少数类语种的相似语种的特征基准库进行匹配，得到相似语种匹配度；若所述第二少数类语种匹配度大于所述相似语种匹配度，且所述第二少数类语种匹配度大于第三置信度阈值，则确定第二少数类语种为目标图像所属的目标少数类语种；所述第三置信度阈值大于所述第一置信度阈值。

在本公开实施例中，还可以获取第二少数类语种的相似语种，第二少数类语种与相似语种的字符元素具有形状相似性。在第二少数类语种为新蒙文的情况下，相似语种可以为英文。并且，还可以分别设置有第二少数类语种的特征基准库和相似语种的特征基准库；其中，第二少数类语种的特征基准库用于记录属于第二少数类语种的少数类语言图像所具有的图像特征，相似语种的特征基准库用于记录属于相似语种的相似语言图像所具有的图像特征。

具体的，采用少数类语言识别模型对目标图像进行特征提取得到目标图像特征，并且将目标图像特征，分别与第二少数类语种的特征基准库和相似语种的特征基准库进行匹配，得到第二少数类语种匹配度和相似语种匹配度。若第二少数类语种匹配度大于相似语种匹配度，且第二少数类语种匹配度大于第三置信度阈值，则确定第二少数类语种为目标图像所属的目标少数类语种。其中，第三置信度阈值可以大于第一置信度阈值，例如第一置信度阈值可以为0.77，第三置信度阈值可以为0.8。

通过根据目标图像特征不仅确定第二少数类语种匹配度，还确定相似语种匹配度，并结合第二少数类语种匹配度和相似语种匹配度确定第二少数类语种是否为目标少数类语种，能够进一步提高目标少数类语种的准确度。

在一种可选实施方式中，所述还包括：采用少数类语言识别模型，对少数类语言图像进行特征提取得到少数类语种特征，并对少数类语种特征进行聚类得到少数类语种的特征基准库；采用少数类语言识别模型，对相似语言图像进行特征提取得到相似语种特征，并对相似语种特征进行聚类得到相似语种的特征基准库。

具体的，针对每一待处理语种，可以采用少数类语言识别模型对属于该待处理语种的语言图像进行特征提取，得到该待处理语种的图像特征，并对待处理语种的图像特征进行聚类得到该待处理语种的特征基准库。待处理语种可以为第二少数类语种，也可以为第二少数类语种的相似语种，例如待处理语种可以为维文、新蒙文、英文等。通过采用少数类语言识别模型，分别构建待处理语种的特征基准库、能够提高特征基础库的准确性、一致性。

图6是根据本公开实施例提供的一种少数类语言的图像生成装置的示意图，本实施例可适用于生成少数类语言图像的情况，该装置配置于电子设备中，可实现本公开任意实施例所述的少数类语言的图像生成方法。参考图6，该少数类语言的图像生成装置600具体包括如下：

字符元素获取模块610，用于获取少数类语言中的少数类字符元素；

伪文本构建模块620，用于采用所述少数类字符元素构建少数类伪文本；

文本转换模块630，用于将所述少数类伪文本转换为图像格式；

图像生成模块640，用于根据图像转换结果得到少数类语言图像。

在一种可选实施方式中，所述字符元素获取模块610，具体用于从支持少数类语言的编码库中，获取少数类语言中的少数类字符元素；

所述文本转换模块，具体用于基于所述编码库中少数类字符元素的编码信息，将少数类伪文本转换为图像格式得到图像转换结果。

在一种可选实施方式中，所述伪文本构建模块620包括：

辅助文本获取单元，用于获取辅助语言的辅助文本；

伪文本构建单元，用于根据所述辅助文本中不同辅助字符元素之间的位置信息，对少数类字符元素进行排列，得到少数类伪文本。

在一种可选实施方式中，所述伪文本构建单元具体用于：

基于少数类字符元素与辅助字符元素之间的关联关系，确定与辅助文本中的辅助字符元素所关联的少数类字符元素，并采用关联的少数类字符元素代替该辅助字符元素，得到少数类伪文本；

所述少数类字符元素与辅助字符元素之间的关联关系随机确定。

在一种可选实施方式中，所图像生成模块640包括：

位置选择单元，用于获取背景图像，并从背景图像上选择随机位置信息；

图像生成单元，用于根据所述随机位置信息，将所述图像转换结果添加到所述背景图像上，得到少数类语言图像。

本实施例的技术方案，通过采用少数类语言中的少数类字符元素构建少数类伪文本，并生成包括少数类伪文本的少数类语言图像，实现了少数类语言图像的自动化生成。

图7是根据本公开实施例提供的一种少数类语言的图像处理装置的示意图，本实施例可适用于识别少数类语种的情况，该装置配置于电子设备中，可实现本公开任意实施例所述的少数类语言的图像处理方法。参考图 7，该少数类语言的图像处理装置700具体包括如下：

图像获取模块710，用于获取待处理的目标图像；

图像检测模块720，用于采用少数类语言检测模型，从所述目标图像中提取少数类语言区域，根据少数类语言区域确定检测结果；

目标语种确定模块730，用于根据检测结果确定目标图像所属的目标少数类语种；

其中，所述少数类语言检测模型的训练样本由本公开任意实施例所述的少数类语言的图像生成装置确定。

在一种可选实施方式中，所述目标语种确定模块730包括：

第一目标语种单元，用于若检测结果为目标图像属于第一少数类语种，且所述第一少数类语种的置信度大于第一置信度阈值，则将所述第一少数类语种作为所述目标少数类语种；

第二目标语种单元，用于若检测结果为目标图像属于第二少数类语种，且所述第二少数类语种的置信度大于第二置信度阈值，则采用少数类语种识别模型确定目标图像所属的目标少数类语种；

其中，所述第一置信度阈值大于所述第二置信度阈值；所述少数类语言识别模型的训练样本本公开任意实施例所提供的少数类语言的图像生成装置确定。

在一种可选实施方式中，所述第二目标语种单元包括：

特征提取子单元，用于将目标图像输入少数类语言识别模型，得到目标图像特征；

第二语种匹配子单元，用于将所述目标图像特征，与第二少数类语种的特征基准库进行匹配，得到第二少数类语种匹配度；

相似语种匹配子单元，用于将所述目标图像特征，与第二少数类语种的相似语种的特征基准库进行匹配，得到相似语种匹配度；

目标语种子单元，用于若所述第二少数类语种匹配度大于所述相似语种匹配度，且所述第二少数类语种匹配度大于第三置信度阈值，则确定第二少数类语种为目标图像所属的目标少数类语种；

所述第三置信度阈值大于所述第一置信度阈值。

在一种可选实施方式中，所述第二目标语种单元还包括特征基础库子单元，具体用于：

采用少数类语言识别模型，对少数类语言图像进行特征提取得到少数类语种特征，并对少数类语种特征进行聚类得到少数类语种的特征基准库；

采用少数类语言识别模型，对相似语言图像进行特征提取得到相似语种特征，并对相似语种特征进行聚类得到相似语种的特征基准库。

本公开实施例提供的技术方案，通过采用自动化生成的少数类语言图像和少数类语言图像所属的少数类语种，为少数类语言检测模型、少数类语言识别模型自动化构建训练样本，能够提高少数类语言检测、少数类语言识别的效率和准确度。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、 ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口 805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种执行机器学习模型算法的计算单元、数字信息处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如少数类语言的图像生成方法、少数类语言的图像处理方法。例如，在一些实施例中，少数类语言的图像生成方法、少数类语言的图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的少数类语言的图像生成方法、少数类语言的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行少数类语言的图像生成方法、少数类语言的图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上执行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种少数类语言的图像生成方法，包括：

获取少数类语言中的少数类字符元素；所述少数类字符元素为所述少数类语言中文字的基本组成单元；

获取辅助语言的辅助文本；所述辅助语言为任一种主流语言；所述辅助文本为具有实际语义的文本；

所述少数类字符元素与辅助字符元素之间的关联关系随机确定；

2.根据权利要求1所述的方法，其中，所述获取少数类语言中的少数类字符元素，包括：从支持少数类语言的编码库中，获取少数类语言中的少数类字符元素；

所述将所述少数类伪文本转换为图像格式，得到图像转换结果，包括：

基于所述编码库中少数类字符元素的编码信息，将少数类伪文本转换为图像格式得到图像转换结果。

3.根据权利要求1所述的方法，其中，所述根据图像转换结果得到少数类语言图像，包括：

获取背景图像，并从背景图像上选择随机位置信息；

根据所述随机位置信息，将所述图像转换结果添加到所述背景图像上，得到少数类语言图像。

4.一种少数类语言的图像处理方法，包括：

获取待处理的目标图像；

其中，所述少数类语言检测模型的训练样本采用如权利要求1-3中任一项所述的少数类语言的图像生成方法确定。

5.根据权利要求4所述的方法，其中，所述根据检测结果确定目标图像所属的目标少数类语种，包括：

若检测结果为目标图像属于第一少数类语种，且所述第一少数类语种的置信度大于第一置信度阈值，则将所述第一少数类语种作为所述目标少数类语种；

若检测结果为目标图像属于第二少数类语种，且所述第二少数类语种的置信度大于第二置信度阈值，则采用少数类语种识别模型确定目标图像所属的目标少数类语种；

其中，所述第一置信度阈值大于所述第二置信度阈值；所述少数类语言识别模型的训练样本采用如权利要求1-3中任一项所述的少数类语言的图像生成方法确定。

6.根据权利要求5所述的方法，其中，所述采用少数类语言识别模型确定目标图像所属的目标少数类语种，包括：

将目标图像输入少数类语言识别模型，得到目标图像特征；

将所述目标图像特征，与第二少数类语种的特征基准库进行匹配，得到第二少数类语种匹配度；

将所述目标图像特征，与第二少数类语种的相似语种的特征基准库进行匹配，得到相似语种匹配度；

若所述第二少数类语种匹配度大于所述相似语种匹配度，且所述第二少数类语种匹配度大于第三置信度阈值，则确定第二少数类语种为目标图像所属的目标少数类语种；

所述第三置信度阈值大于所述第一置信度阈值。

7.根据权利要求6所述的方法，所述方法还包括：

8.一种少数类语言的图像生成装置，包括：

字符元素获取模块，用于获取少数类语言中的少数类字符元素；所述少数类字符元素为所述少数类语言中文字的基本组成单元；

文本转换模块，用于将所述少数类伪文本转换为图像格式；

图像生成模块，用于根据图像转换结果得到少数类语言图像；

其中，所述伪文本构建模块包括：

辅助文本获取单元，用于获取辅助语言的辅助文本；所述辅助语言为任一种主流语言；所述辅助文本为具有实际语义的文本；

伪文本构建单元，用于根据所述辅助文本中不同辅助字符元素之间的位置信息，对少数类字符元素进行排列，得到少数类伪文本；

其中，所述伪文本构建单元具体用于：

9.根据权利要求8所述的装置，其中，所述字符元素获取模块，具体用于从支持少数类语言的编码库中，获取少数类语言中的少数类字符元素；

10.根据权利要求8所述的装置，其中，所图像生成模块包括：

11.一种少数类语言的图像处理装置，包括：

图像获取模块，用于获取待处理的目标图像；

其中，所述少数类语言检测模型的训练样本由如权利要求8-10中任一项所述的少数类语言的图像生成装置确定。

12.根据权利要求11所述的装置，其中，所述目标语种确定模块包括：

其中，所述第一置信度阈值大于所述第二置信度阈值；所述少数类语言识别模型的训练样本由如权利要求8-10中任一项所述的少数类语言的图像生成装置确定。

13.根据权利要求12所述的装置，其中，所述第二目标语种单元包括：

所述第三置信度阈值大于所述第一置信度阈值。

14.根据权利要求13所述的装置，所述第二目标语种单元还包括特征基础库子单元，具体用于：

15. 一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。