CN118096940A

CN118096940A - 藏文文本的数据集生成方法及系统

Info

Publication number: CN118096940A
Application number: CN202410010777.XA
Authority: CN
Inventors: 田辉; 王欢; 郭玉刚; 张志翔; 杨曦; 马泽华; 张卫明; 俞能海
Original assignee: Hefei High Dimensional Data Technology Co ltd; University of Science and Technology of China USTC
Current assignee: Hefei High Dimensional Data Technology Co ltd; University of Science and Technology of China USTC
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-05-28

Abstract

本申请涉及一种藏文文本的数据集生成方法及系统，应用于数据生成技术领域，其包括基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符和藏文辅助字符；对所述藏文数据进行预处理，获取藏文处理信息，所述藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号；根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息，生成藏文文本图片。本申请保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据，从而建立高可用性的通用藏文文本数据集，进而提高藏文目标检测模型的训练效果，以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。

Description

藏文文本的数据集生成方法及系统

技术领域

本申请涉及数据生成技术领域，尤其是涉及一种藏文文本的数据集生成方法及系统。

背景技术

藏文（Tibetan）是汉藏语系的一种语言，具有独特的字符集和语法结构，使得它与许多其他语言有很大的区别。藏文在西藏自治区及其周边地区具有重要的文化、地位。因此，能够生成高质量的藏文文本对于文化传承、教育、学术研究以及政府和商业用途都具有重要意义。现有的关于藏文文本生成方法主要建立在自然语言处理（NLP）领域的基础之上，从而对藏文文本进行理解和生成。

青海民族大学在其申请的专利文献“一种藏文网页摘要自动生成方法和系统”（申请号CN202011433753.3，申请公布号CN112328946A）中提供了一种自动生成藏文网页摘要的方法。该方法的实现步骤包括如下：第一步，使用藏文网页爬虫工具，爬取得到藏文网页摘要系统的训练和测试样本；第二步，判断藏文网页长度并判断该藏文网页超链接是否在数据库中；第三步，将爬取好的藏文网页进行去除噪音，生成藏文网页文本形式，然后对文本进行自动分词；第四步，对藏文网页文本句子按权重大小进行排序后，设定藏文网页摘要提取的阈值，根据阈值提取出藏文网页的初始摘要。该发明通过结合网络爬虫和自然语言处理技术，可以有效输出藏文网页摘要。

针对上述中的相关技术，认为由于藏文数据的有限性，建立高质量的藏文文本数据库是不切实际的，因此上述方法在使用过程中，难以建立通用藏文文本数据集，导致爬取数据质量参差不齐，影响藏文模型的训练。

发明内容

为了改善由于藏文数据的有限性，建立高质量的藏文文本数据库是不切实际的，因此上述方法在使用过程中，难以建立通用藏文文本数据集，导致爬取数据质量参差不齐，影响藏文目标检测模型的训练的问题，本申请提供一种藏文文本的数据集生成方法及系统。

第一方面，本申请提供的一种藏文文本的数据集生成方法，采用如下的技术方案：包括：

基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符和藏文辅助字符；

对所述藏文数据进行预处理，获取藏文处理信息，所述藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号；

根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息，生成藏文文本图片。

可选的，所述基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符，包括：

统计所有的藏文文本数据，提取藏文主体字符和所述藏文辅助字符，生成藏文语料库；

根据所述藏文语料库中的所述藏文主体字符，生成藏文主体字符频率表；

根据所述藏文主体字符频率表中频率由大到小的顺序，依次选择预设数量的藏文主体字符，作为所述高频藏文主体字符。

可选的，所述对所述藏文数据进行预处理，获取藏文处理信息，所述藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号，包括：

在预设的藏文背景库中抽取背景图片，并对所述背景图片进行裁剪和调整大小，获取所述藏文背景图；

在预设的藏文颜色库设置藏文文本的字符颜色及字体字号，得到所述文本颜色和所述文本字号；

将所述藏文背景图与所述文本颜色以及所述文本字号进行对应，得到文本生成方案。

可选的，在所述将所述藏文背景图与所述文本颜色以及所述文本字号进行对应，得到文本生成方案之后，还包括：

将多个所述文本字号以及多个所述文本颜色与同一个所述藏文背景图对应，生成文本增强方案。

可选的，所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息，生成藏文文本图片，包括：

在所述藏文背景图中随机选取首个坐标设置为生成的首个所述高频藏文主体字符的位置；

基于藏文语法规则随机从所述藏文语料库中选择所述藏文辅助字符与所述高频藏文主体字符生成完整藏文字符；

按照预设的行列式以及所述首个坐标确定所述完整藏文字符的嵌入位置；

根据所述嵌入位置以及所述文本生成方案将所述完整藏文字符嵌入所述藏文背景图中，生成所述藏文文本图片。

可选的，所述根据所述嵌入位置将所述完整藏文字符嵌入所述藏文背景图中之前，还包括：

根据预设的行列间距控制藏文文本格式；

根据预设的标准间距设置藏文字符边缘间距并控制所述藏文背景图上嵌入的藏文字符数量。

基于所述藏文背景图随机选择若干个不重叠的区域作为所述高频藏文主体字符的嵌入坐标；

根据所述嵌入坐标以及所述文本生成方案将所述完整藏文字符嵌入所述藏文背景图中，生成藏文文本图片。

第二方面，本申请一种藏文文本的数据集生成装置，采用如下技术方案，包括：

频率统计模块，用于基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符和藏文辅助字符；

藏文处理模块，用于对所述藏文数据进行预处理，获取藏文处理信息，所述藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号；

图片生成模块，用于根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息，生成藏文文本图片。

第三方面，本申请还提供一种控制设备，所述设备包括：

包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述藏文文本的数据集生成方法的计算机程序。

第四方面，本申请还提供一种计算机可读存储介质，存储有能够被处理器加载并执行如上述藏文文本的数据集生成方法的计算机程序。

综上所述，本申请中系统对藏文字符进行频率统计，筛选出频率最高的高频藏文主体字符，然后随机抽取藏文背景图、文本颜色、文本字号等，组成文本生成方案和文本增强方案，系统再根据行列式分布或随机式分布的方法对藏文背景图中藏文的排序和坐标进行确认，然后系统根据藏文辅助字符和高频藏文主体字符，随机组合成完整藏文字符，最后将完整藏文字符按照文本生成方案或文本增强方案嵌入藏文背景图中，生成藏文文本图片，能够保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据，从而建立高可用性的通用藏文文本数据集，进而提高藏文目标检测模型的训练效果，以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。并且，由于藏文文本数据集的生成完全不依赖于外部藏文数据，因此也避免了潜在的信息泄漏问题。

附图说明

图1是一种藏文文本的数据集生成方法的流程示意图。

图2是按照行列排序的藏文文本图片。

图3是按照随机分布排序的藏文文本图片。

图4是一种藏文文本的数据集生成装置的结构框图。

附图标记说明：210、频率统计模块；220、藏文处理模块；230、图片生成模块。

具体实施方式

以下结合图1－图4对本申请作进一步详细说明。

藏文可由基字、元音、腭化符号、上加字、下加字、前加字和后加字组成，考虑到现实场景下的藏文文本生成，藏文字符变体库包括基字、基字+元音、基字+下加字、基字+下加字+元音、基字+腭化符号、基字+腭化符号+元音、基字+下加字+腭化符号+元音，与主流语言不同。

目前的自然语言处理模型如GPT系列在一些主流语言上表现出色，但在藏文等少数语言上可能表现不佳，因为它们通常在大规模语言上进行预训练。然而，由于藏文数据的有限性，建立高质量的藏文文本数据库是不切实际的。此外，由于藏文字体需要符合严格的语法或文化规范以确保文本的质量，现有方法针对藏文的多种方言和变体无法很好地支持。

基于此，本申请在保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据，从而建立高可用性的通用藏文文本数据集，提高藏文目标检测模型的训练效果，以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。

参照图1，本申请实施例至少包括步骤S10至步骤S30。

S10，基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符和藏文辅助字符。

S20，对藏文数据进行预处理，获取藏文处理信息。

其中，藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号。

S30，根据预设的藏文分布模式、藏文辅助字符、高频藏文主体字符以及藏文处理信息，生成藏文文本图片。

其中，藏文分布模式是指藏文在背景图片中的分布格式，可以理解为藏文的文本格式。藏文语法规则是指藏文字体中藏文主体字符和藏文辅助字符的组成方法等。

具体来说，系统对已存的藏文数据进行字符频率统计，选择出现频率最高的部分藏文主体字符，即高频藏文主体字符，接着系统基于藏文语法规则将藏文辅助字符与高频藏文主体字符统合，生成完整藏文字符，系统再对藏文数据进行预处理，获取藏文背景图、文本颜色和文本字号等信息，最后系统根据藏文分布模式、完整藏文字符、藏文处理信息，生成藏文文本图片，从而建立高可用性的通用藏文文本数据集，提高藏文目标检测模型的训练效果，以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。

在一些实施例中，步骤S10具体包括以下步骤：统计所有的藏文文本数据，提取藏文主体字符和藏文辅助字符，生成藏文语料库；根据藏文语料库中的藏文主体字符，生成藏文主体字符频率表；根据藏文主体字符频率表中频率由大到小的顺序，依次选择预设数量的藏文主体字符，作为高频藏文主体字符。

具体来说，系统对藏文文本中出现的藏文主体字符和藏文辅助字符进行提取，再根据出现频率筛选出现次数最多的部分藏文主体字符，即高频藏文主体字符，从而便于收集常用的藏文字符，进而便于生成的藏文数据集更加贴近真实场景，以便于后续模型训练时效果更加真实。

在一些实施例中，步骤S20具体包括以下步骤：在预设的藏文背景库中抽取背景图片，并对背景图片进行裁剪和调整大小，获取藏文背景图；在预设的藏文颜色库设置藏文文本的字符颜色及字体字号，得到文本颜色和文本字号；将藏文背景图与文本颜色以及文本字号进行对应，得到文本生成方案。

具体来说，系统随机从藏文背景库中抽取背景图片，并对背景图片进行处理，获取藏文背景图，系统再根据藏文颜色库中设置藏文文本的字符颜色和字体字号，最后系统选择一个藏文背景图、一个文本颜色和一个文字字号，生成一个文本生成方案，以便于后续将藏文字体按照文本颜色、文本字号嵌入藏文背景图中。

进一步的，系统将多个文本字号以及多个文本颜色与同一个藏文背景图对应，生成文本增强方案。从而便于在一个藏文背景图中嵌入多个文本字号和多个文本颜色的藏文字体，进而便于增强藏文文本的噪声，以便于在对于藏文模型训练时，使藏文目标检测模型的鲁棒性更强。

应当理解的是，在使用文本增强方案时，藏文字符嵌入藏文背景图时，可以随机确定文本字号和文本颜色，也可以预先设定文本字号和文本颜色。

在一些实施例中，步骤S30具体包括以下步骤：在藏文背景图中随机选取首个坐标设置为生成的首个高频藏文主体字符的位置；基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符；按照预设的行列式将以及首个坐标确定完整藏文字符的嵌入位置；根据嵌入位置以及文本生成方案将完整藏文字符嵌入藏文背景图中，生成藏文文本图片。

参照图2，图2为按照行列式排序进行的藏文文本图片，具体来说，系统在藏文背景图中随机选取一个坐标作为嵌入的首个高频藏文主体字符的位置，系统再基于藏文语法规则随机从藏文语料库中选择藏文辅助字符并随机选取高频藏文主体字符，生成完整藏文字符，系统再按照行列式的排列顺序以及文本生成方案或文本增强方案将完整藏文字符嵌入藏文背景图中，最后得到藏文文本图片，从而在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据，从而建立高可用性的通用藏文文本数据集。

进一步的，系统还可以根据预设的行列间距控制藏文文本格式；并根据预设的标准间距设置藏文字符边缘间距并控制藏文背景图上嵌入的藏文字符数量，以减少藏文背景图中藏文字符嵌入过多导致模糊不清的情况发生。

在一个实施例中，步骤S30具体包括以下步骤：基于藏文背景图随机选择若干个不重叠的区域作为高频藏文主体字符的嵌入坐标；基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符；根据嵌入坐标以及文本生成方案将完整藏文字符嵌入藏文背景图中，生成藏文文本图片。

参照图3，图3为按照随机分配排序的藏文文本图片，具体来说，系统在藏文背景图中随机选择若干个不重叠的区域作为高频藏文主体字符的嵌入坐标，系统再基于藏文语法规则随机从藏文语料库中选择藏文辅助字符并随机选取高频藏文主体字符，生成完整藏文字符，系统再按照嵌入坐标以及文本生成方案或文本增强方案将随机将完整藏文字符嵌入藏文背景图中，最后得到藏文文本图片，从而在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据，从而建立高可用性的通用藏文文本数据集。

应当理解的是，本申请中采用两种藏文分布模式对嵌入藏文背景图中的藏文进行排序，但是并不仅仅只表示这两种排序方法，其他与本申请中相近的排序方法也应当属于本申请的保护范围中。

本申请实施例一种藏文文本的数据集生成方法的实施原理为：系统对藏文字符进行频率统计，筛选出频率最高的高频藏文主体字符，然后随机抽取藏文背景图、文本颜色、文本字号等，组成文本生成方案和文本增强方案，系统再根据行列式分布或随机式分布的方法对藏文背景图中藏文的排序和坐标进行确认，然后系统根据藏文辅助字符和高频藏文主体字符，随机组合成完整藏文字符，最后将完整藏文字符按照文本生成方案或文本增强方案嵌入藏文背景图中，生成藏文文本图片，能够保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据，从而建立高可用性的通用藏文文本数据集，进而提高藏文目标检测模型的训练效果，以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。并且，由于藏文文本数据集的生成完全不依赖于外部藏文数据，因此也避免了潜在的信息泄漏问题。

图1为一个实施例中藏文文本的数据集生成方法的流程示意图。应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行；除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行；并且图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于相同的技术构思，参照图4，本申请实施例还提供了一种藏文文本的数据集生成装置，采用如下技术方案，该装置包括：

频率统计模块210，用于基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符和藏文辅助字符；

藏文处理模块220，用于对藏文数据进行预处理，获取藏文处理信息，藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号；

图片生成模块230，用于根据预设的藏文分布模式、藏文辅助字符、高频藏文主体字符以及藏文处理信息，生成藏文文本图片。

在一些实施例中，频率统计模块210具体用于统计所有的藏文文本数据，提取藏文主体字符和藏文辅助字符，生成藏文语料库；

根据藏文语料库中的藏文主体字符，生成藏文主体字符频率表；

根据藏文主体字符频率表中频率由大到小的顺序，依次选择预设数量的藏文主体字符，作为高频藏文主体字符。

在一些实施例中，藏文处理模块220具体用于在预设的藏文背景库中抽取背景图片，并对背景图片进行裁剪和调整大小，获取藏文背景图；

在预设的藏文颜色库设置藏文文本的字符颜色及字体字号，得到文本颜色和文本字号；

将藏文背景图与文本颜色以及文本字号进行对应，得到文本生成方案。

在一些实施例中，藏文处理模块220还用于将多个文本字号以及多个文本颜色与同一个藏文背景图对应，生成文本增强方案。

在一些实施例中，图片生成模块230具体用于在藏文背景图中随机选取首个坐标设置为生成的首个高频藏文主体字符的位置；

基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符；

按照预设的行列式将以及首个坐标确定完整藏文字符的嵌入位置；

根据嵌入位置以及文本生成方案将完整藏文字符嵌入藏文背景图中，生成藏文文本图片。

在一些实施例中，图片生成模块230还用于根据预设的行列间距控制藏文文本格式；

根据预设的标准间距设置藏文字符边缘间距并控制藏文背景图上嵌入的藏文字符数量。

在一些实施例中，图片生成模块230具体用于基于藏文背景图随机选择若干个不重叠的区域作为高频藏文主体字符的嵌入坐标；

根据嵌入坐标以及文本生成方案将完整藏文字符嵌入藏文背景图中，生成藏文文本图片。

本申请实施例还公开一种控制设备。

具体来说，该控制设备包括存储器和处理器，存储器上存储有能够被处理器加载并执行上述藏文文本的数据集生成方法的计算机程序。

本申请实施例还公开一种计算机可读存储介质。

具体来说，该计算机可读存储介质，其存储有能够被处理器加载并执行如上述藏文文本的数据集生成方法的计算机程序，该计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种藏文文本的数据集生成方法，其特征在于，包括：

2.根据权利要求1所述的一种藏文文本的数据集生成方法，其特征在于，所述基于预设的藏文数据统计藏文字符的出现频率，获取高频藏文主体字符，包括：

3.根据权利要求2所述的一种藏文文本的数据集生成方法，其特征在于，所述对所述藏文数据进行预处理，获取藏文处理信息，所述藏文处理信息至少包括：藏文背景图、文本颜色以及文本字号，包括：

4.根据权利要求3所述的一种藏文文本的数据集生成方法，其特征在于，在所述将所述藏文背景图与所述文本颜色以及所述文本字号进行对应，得到文本生成方案之后，还包括：

5.根据权利要求3所述的一种藏文文本的数据集生成方法，其特征在于，所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息，生成藏文文本图片，包括：

6.根据权利要求5所述的一种藏文文本的数据集生成方法，其特征在于，所述根据所述嵌入位置将所述完整藏文字符嵌入所述藏文背景图中之前，还包括：

根据预设的行列间距控制藏文文本格式；

7.根据权利要求3所述的一种藏文文本的数据集生成方法，其特征在于，所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息，生成藏文文本图片，包括：

8.一种藏文文本的数据集生成装置，其特征在于，所述装置包括：

9.一种控制设备，其特征在于，所述设备包括：

包括存储器和处理器，所述存储器上存储有能够被所述处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。