CN118096940A - 藏文文本的数据集生成方法及系统 - Google Patents

藏文文本的数据集生成方法及系统 Download PDF

Info

Publication number
CN118096940A
CN118096940A CN202410010777.XA CN202410010777A CN118096940A CN 118096940 A CN118096940 A CN 118096940A CN 202410010777 A CN202410010777 A CN 202410010777A CN 118096940 A CN118096940 A CN 118096940A
Authority
CN
China
Prior art keywords
tibetan
text
characters
frequency
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410010777.XA
Other languages
English (en)
Inventor
田辉
王欢
郭玉刚
张志翔
杨曦
马泽华
张卫明
俞能海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei High Dimensional Data Technology Co ltd
University of Science and Technology of China USTC
Original Assignee
Hefei High Dimensional Data Technology Co ltd
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei High Dimensional Data Technology Co ltd, University of Science and Technology of China USTC filed Critical Hefei High Dimensional Data Technology Co ltd
Priority to CN202410010777.XA priority Critical patent/CN118096940A/zh
Publication of CN118096940A publication Critical patent/CN118096940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本申请涉及一种藏文文本的数据集生成方法及系统,应用于数据生成技术领域,其包括基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片。本申请保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集,进而提高藏文目标检测模型的训练效果,以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。

Description

藏文文本的数据集生成方法及系统
技术领域
本申请涉及数据生成技术领域,尤其是涉及一种藏文文本的数据集生成方法及系统。
背景技术
藏文(Tibetan)是汉藏语系的一种语言,具有独特的字符集和语法结构,使得它与许多其他语言有很大的区别。藏文在西藏自治区及其周边地区具有重要的文化、地位。因此,能够生成高质量的藏文文本对于文化传承、教育、学术研究以及政府和商业用途都具有重要意义。现有的关于藏文文本生成方法主要建立在自然语言处理(NLP)领域的基础之上,从而对藏文文本进行理解和生成。
青海民族大学在其申请的专利文献“一种藏文网页摘要自动生成方法和系统”(申请号CN202011433753.3,申请公布号CN112328946A)中提供了一种自动生成藏文网页摘要的方法。该方法的实现步骤包括如下:第一步,使用藏文网页爬虫工具,爬取得到藏文网页摘要系统的训练和测试样本;第二步,判断藏文网页长度并判断该藏文网页超链接是否在数据库中;第三步,将爬取好的藏文网页进行去除噪音,生成藏文网页文本形式,然后对文本进行自动分词;第四步,对藏文网页文本句子按权重大小进行排序后,设定藏文网页摘要提取的阈值,根据阈值提取出藏文网页的初始摘要。该发明通过结合网络爬虫和自然语言处理技术,可以有效输出藏文网页摘要。
针对上述中的相关技术,认为由于藏文数据的有限性,建立高质量的藏文文本数据库是不切实际的,因此上述方法在使用过程中,难以建立通用藏文文本数据集,导致爬取数据质量参差不齐,影响藏文模型的训练。
发明内容
为了改善由于藏文数据的有限性,建立高质量的藏文文本数据库是不切实际的,因此上述方法在使用过程中,难以建立通用藏文文本数据集,导致爬取数据质量参差不齐,影响藏文目标检测模型的训练的问题,本申请提供一种藏文文本的数据集生成方法及系统。
第一方面,本申请提供的一种藏文文本的数据集生成方法,采用如下的技术方案:包括:
基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;
对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;
根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片。
可选的,所述基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符,包括:
统计所有的藏文文本数据,提取藏文主体字符和所述藏文辅助字符,生成藏文语料库;
根据所述藏文语料库中的所述藏文主体字符,生成藏文主体字符频率表;
根据所述藏文主体字符频率表中频率由大到小的顺序,依次选择预设数量的藏文主体字符,作为所述高频藏文主体字符。
可选的,所述对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号,包括:
在预设的藏文背景库中抽取背景图片,并对所述背景图片进行裁剪和调整大小,获取所述藏文背景图;
在预设的藏文颜色库设置藏文文本的字符颜色及字体字号,得到所述文本颜色和所述文本字号;
将所述藏文背景图与所述文本颜色以及所述文本字号进行对应,得到文本生成方案。
可选的,在所述将所述藏文背景图与所述文本颜色以及所述文本字号进行对应,得到文本生成方案之后,还包括:
将多个所述文本字号以及多个所述文本颜色与同一个所述藏文背景图对应,生成文本增强方案。
可选的,所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片,包括:
在所述藏文背景图中随机选取首个坐标设置为生成的首个所述高频藏文主体字符的位置;
基于藏文语法规则随机从所述藏文语料库中选择所述藏文辅助字符与所述高频藏文主体字符生成完整藏文字符;
按照预设的行列式以及所述首个坐标确定所述完整藏文字符的嵌入位置;
根据所述嵌入位置以及所述文本生成方案将所述完整藏文字符嵌入所述藏文背景图中,生成所述藏文文本图片。
可选的,所述根据所述嵌入位置将所述完整藏文字符嵌入所述藏文背景图中之前,还包括:
根据预设的行列间距控制藏文文本格式;
根据预设的标准间距设置藏文字符边缘间距并控制所述藏文背景图上嵌入的藏文字符数量。
可选的,所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片,包括:
基于所述藏文背景图随机选择若干个不重叠的区域作为所述高频藏文主体字符的嵌入坐标;
基于藏文语法规则随机从所述藏文语料库中选择所述藏文辅助字符与所述高频藏文主体字符生成完整藏文字符;
根据所述嵌入坐标以及所述文本生成方案将所述完整藏文字符嵌入所述藏文背景图中,生成藏文文本图片。
第二方面,本申请一种藏文文本的数据集生成装置,采用如下技术方案,包括:
频率统计模块,用于基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;
藏文处理模块,用于对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;
图片生成模块,用于根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片。
第三方面,本申请还提供一种控制设备,所述设备包括:
包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述藏文文本的数据集生成方法的计算机程序。
第四方面,本申请还提供一种计算机可读存储介质,存储有能够被处理器加载并执行如上述藏文文本的数据集生成方法的计算机程序。
综上所述,本申请中系统对藏文字符进行频率统计,筛选出频率最高的高频藏文主体字符,然后随机抽取藏文背景图、文本颜色、文本字号等,组成文本生成方案和文本增强方案,系统再根据行列式分布或随机式分布的方法对藏文背景图中藏文的排序和坐标进行确认,然后系统根据藏文辅助字符和高频藏文主体字符,随机组合成完整藏文字符,最后将完整藏文字符按照文本生成方案或文本增强方案嵌入藏文背景图中,生成藏文文本图片,能够保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集,进而提高藏文目标检测模型的训练效果,以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。并且,由于藏文文本数据集的生成完全不依赖于外部藏文数据,因此也避免了潜在的信息泄漏问题。
附图说明
图1是一种藏文文本的数据集生成方法的流程示意图。
图2是按照行列排序的藏文文本图片。
图3是按照随机分布排序的藏文文本图片。
图4是一种藏文文本的数据集生成装置的结构框图。
附图标记说明:210、频率统计模块;220、藏文处理模块;230、图片生成模块。
具体实施方式
以下结合图1-图4对本申请作进一步详细说明。
藏文可由基字、元音、腭化符号、上加字、下加字、前加字和后加字组成,考虑到现实场景下的藏文文本生成,藏文字符变体库包括基字、基字+元音、基字+下加字、基字+下加字+元音、基字+腭化符号、基字+腭化符号+元音、基字+下加字+腭化符号+元音,与主流语言不同。
目前的自然语言处理模型如GPT系列在一些主流语言上表现出色,但在藏文等少数语言上可能表现不佳,因为它们通常在大规模语言上进行预训练。然而,由于藏文数据的有限性,建立高质量的藏文文本数据库是不切实际的。此外,由于藏文字体需要符合严格的语法或文化规范以确保文本的质量,现有方法针对藏文的多种方言和变体无法很好地支持。
基于此,本申请在保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集,提高藏文目标检测模型的训练效果,以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。
参照图1,本申请实施例至少包括步骤S10至步骤S30。
S10,基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符。
S20,对藏文数据进行预处理,获取藏文处理信息。
其中,藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号。
S30,根据预设的藏文分布模式、藏文辅助字符、高频藏文主体字符以及藏文处理信息,生成藏文文本图片。
其中,藏文分布模式是指藏文在背景图片中的分布格式,可以理解为藏文的文本格式。藏文语法规则是指藏文字体中藏文主体字符和藏文辅助字符的组成方法等。
具体来说,系统对已存的藏文数据进行字符频率统计,选择出现频率最高的部分藏文主体字符,即高频藏文主体字符,接着系统基于藏文语法规则将藏文辅助字符与高频藏文主体字符统合,生成完整藏文字符,系统再对藏文数据进行预处理,获取藏文背景图、文本颜色和文本字号等信息,最后系统根据藏文分布模式、完整藏文字符、藏文处理信息,生成藏文文本图片,从而建立高可用性的通用藏文文本数据集,提高藏文目标检测模型的训练效果,以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。
在一些实施例中,步骤S10具体包括以下步骤:统计所有的藏文文本数据,提取藏文主体字符和藏文辅助字符,生成藏文语料库;根据藏文语料库中的藏文主体字符,生成藏文主体字符频率表;根据藏文主体字符频率表中频率由大到小的顺序,依次选择预设数量的藏文主体字符,作为高频藏文主体字符。
具体来说,系统对藏文文本中出现的藏文主体字符和藏文辅助字符进行提取,再根据出现频率筛选出现次数最多的部分藏文主体字符,即高频藏文主体字符,从而便于收集常用的藏文字符,进而便于生成的藏文数据集更加贴近真实场景,以便于后续模型训练时效果更加真实。
在一些实施例中,步骤S20具体包括以下步骤:在预设的藏文背景库中抽取背景图片,并对背景图片进行裁剪和调整大小,获取藏文背景图;在预设的藏文颜色库设置藏文文本的字符颜色及字体字号,得到文本颜色和文本字号;将藏文背景图与文本颜色以及文本字号进行对应,得到文本生成方案。
具体来说,系统随机从藏文背景库中抽取背景图片,并对背景图片进行处理,获取藏文背景图,系统再根据藏文颜色库中设置藏文文本的字符颜色和字体字号,最后系统选择一个藏文背景图、一个文本颜色和一个文字字号,生成一个文本生成方案,以便于后续将藏文字体按照文本颜色、文本字号嵌入藏文背景图中。
进一步的,系统将多个文本字号以及多个文本颜色与同一个藏文背景图对应,生成文本增强方案。从而便于在一个藏文背景图中嵌入多个文本字号和多个文本颜色的藏文字体,进而便于增强藏文文本的噪声,以便于在对于藏文模型训练时,使藏文目标检测模型的鲁棒性更强。
应当理解的是,在使用文本增强方案时,藏文字符嵌入藏文背景图时,可以随机确定文本字号和文本颜色,也可以预先设定文本字号和文本颜色。
在一些实施例中,步骤S30具体包括以下步骤:在藏文背景图中随机选取首个坐标设置为生成的首个高频藏文主体字符的位置;基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符;按照预设的行列式将以及首个坐标确定完整藏文字符的嵌入位置;根据嵌入位置以及文本生成方案将完整藏文字符嵌入藏文背景图中,生成藏文文本图片。
参照图2,图2为按照行列式排序进行的藏文文本图片,具体来说,系统在藏文背景图中随机选取一个坐标作为嵌入的首个高频藏文主体字符的位置,系统再基于藏文语法规则随机从藏文语料库中选择藏文辅助字符并随机选取高频藏文主体字符,生成完整藏文字符,系统再按照行列式的排列顺序以及文本生成方案或文本增强方案将完整藏文字符嵌入藏文背景图中,最后得到藏文文本图片,从而在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集。
进一步的,系统还可以根据预设的行列间距控制藏文文本格式;并根据预设的标准间距设置藏文字符边缘间距并控制藏文背景图上嵌入的藏文字符数量,以减少藏文背景图中藏文字符嵌入过多导致模糊不清的情况发生。
在一个实施例中,步骤S30具体包括以下步骤:基于藏文背景图随机选择若干个不重叠的区域作为高频藏文主体字符的嵌入坐标;基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符;根据嵌入坐标以及文本生成方案将完整藏文字符嵌入藏文背景图中,生成藏文文本图片。
参照图3,图3为按照随机分配排序的藏文文本图片,具体来说,系统在藏文背景图中随机选择若干个不重叠的区域作为高频藏文主体字符的嵌入坐标,系统再基于藏文语法规则随机从藏文语料库中选择藏文辅助字符并随机选取高频藏文主体字符,生成完整藏文字符,系统再按照嵌入坐标以及文本生成方案或文本增强方案将随机将完整藏文字符嵌入藏文背景图中,最后得到藏文文本图片,从而在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集。
应当理解的是,本申请中采用两种藏文分布模式对嵌入藏文背景图中的藏文进行排序,但是并不仅仅只表示这两种排序方法,其他与本申请中相近的排序方法也应当属于本申请的保护范围中。
本申请实施例一种藏文文本的数据集生成方法的实施原理为:系统对藏文字符进行频率统计,筛选出频率最高的高频藏文主体字符,然后随机抽取藏文背景图、文本颜色、文本字号等,组成文本生成方案和文本增强方案,系统再根据行列式分布或随机式分布的方法对藏文背景图中藏文的排序和坐标进行确认,然后系统根据藏文辅助字符和高频藏文主体字符,随机组合成完整藏文字符,最后将完整藏文字符按照文本生成方案或文本增强方案嵌入藏文背景图中,生成藏文文本图片,能够保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集,进而提高藏文目标检测模型的训练效果,以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。并且,由于藏文文本数据集的生成完全不依赖于外部藏文数据,因此也避免了潜在的信息泄漏问题。
图1为一个实施例中藏文文本的数据集生成方法的流程示意图。应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
基于相同的技术构思,参照图4,本申请实施例还提供了一种藏文文本的数据集生成装置,采用如下技术方案,该装置包括:
频率统计模块210,用于基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;
藏文处理模块220,用于对藏文数据进行预处理,获取藏文处理信息,藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;
图片生成模块230,用于根据预设的藏文分布模式、藏文辅助字符、高频藏文主体字符以及藏文处理信息,生成藏文文本图片。
在一些实施例中,频率统计模块210具体用于统计所有的藏文文本数据,提取藏文主体字符和藏文辅助字符,生成藏文语料库;
根据藏文语料库中的藏文主体字符,生成藏文主体字符频率表;
根据藏文主体字符频率表中频率由大到小的顺序,依次选择预设数量的藏文主体字符,作为高频藏文主体字符。
在一些实施例中,藏文处理模块220具体用于在预设的藏文背景库中抽取背景图片,并对背景图片进行裁剪和调整大小,获取藏文背景图;
在预设的藏文颜色库设置藏文文本的字符颜色及字体字号,得到文本颜色和文本字号;
将藏文背景图与文本颜色以及文本字号进行对应,得到文本生成方案。
在一些实施例中,藏文处理模块220还用于将多个文本字号以及多个文本颜色与同一个藏文背景图对应,生成文本增强方案。
在一些实施例中,图片生成模块230具体用于在藏文背景图中随机选取首个坐标设置为生成的首个高频藏文主体字符的位置;
基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符;
按照预设的行列式将以及首个坐标确定完整藏文字符的嵌入位置;
根据嵌入位置以及文本生成方案将完整藏文字符嵌入藏文背景图中,生成藏文文本图片。
在一些实施例中,图片生成模块230还用于根据预设的行列间距控制藏文文本格式;
根据预设的标准间距设置藏文字符边缘间距并控制藏文背景图上嵌入的藏文字符数量。
在一些实施例中,图片生成模块230具体用于基于藏文背景图随机选择若干个不重叠的区域作为高频藏文主体字符的嵌入坐标;
基于藏文语法规则随机从藏文语料库中选择藏文辅助字符与高频藏文主体字符生成完整藏文字符;
根据嵌入坐标以及文本生成方案将完整藏文字符嵌入藏文背景图中,生成藏文文本图片。
本申请实施例还公开一种控制设备。
具体来说,该控制设备包括存储器和处理器,存储器上存储有能够被处理器加载并执行上述藏文文本的数据集生成方法的计算机程序。
本申请实施例还公开一种计算机可读存储介质。
具体来说,该计算机可读存储介质,其存储有能够被处理器加载并执行如上述藏文文本的数据集生成方法的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种藏文文本的数据集生成方法,其特征在于,包括:
基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;
对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;
根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片。
2.根据权利要求1所述的一种藏文文本的数据集生成方法,其特征在于,所述基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符,包括:
统计所有的藏文文本数据,提取藏文主体字符和所述藏文辅助字符,生成藏文语料库;
根据所述藏文语料库中的所述藏文主体字符,生成藏文主体字符频率表;
根据所述藏文主体字符频率表中频率由大到小的顺序,依次选择预设数量的藏文主体字符,作为所述高频藏文主体字符。
3.根据权利要求2所述的一种藏文文本的数据集生成方法,其特征在于,所述对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号,包括:
在预设的藏文背景库中抽取背景图片,并对所述背景图片进行裁剪和调整大小,获取所述藏文背景图;
在预设的藏文颜色库设置藏文文本的字符颜色及字体字号,得到所述文本颜色和所述文本字号;
将所述藏文背景图与所述文本颜色以及所述文本字号进行对应,得到文本生成方案。
4.根据权利要求3所述的一种藏文文本的数据集生成方法,其特征在于,在所述将所述藏文背景图与所述文本颜色以及所述文本字号进行对应,得到文本生成方案之后,还包括:
将多个所述文本字号以及多个所述文本颜色与同一个所述藏文背景图对应,生成文本增强方案。
5.根据权利要求3所述的一种藏文文本的数据集生成方法,其特征在于,所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片,包括:
在所述藏文背景图中随机选取首个坐标设置为生成的首个所述高频藏文主体字符的位置;
基于藏文语法规则随机从所述藏文语料库中选择所述藏文辅助字符与所述高频藏文主体字符生成完整藏文字符;
按照预设的行列式以及所述首个坐标确定所述完整藏文字符的嵌入位置;
根据所述嵌入位置以及所述文本生成方案将所述完整藏文字符嵌入所述藏文背景图中,生成所述藏文文本图片。
6.根据权利要求5所述的一种藏文文本的数据集生成方法,其特征在于,所述根据所述嵌入位置将所述完整藏文字符嵌入所述藏文背景图中之前,还包括:
根据预设的行列间距控制藏文文本格式;
根据预设的标准间距设置藏文字符边缘间距并控制所述藏文背景图上嵌入的藏文字符数量。
7.根据权利要求3所述的一种藏文文本的数据集生成方法,其特征在于,所述根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片,包括:
基于所述藏文背景图随机选择若干个不重叠的区域作为所述高频藏文主体字符的嵌入坐标;
基于藏文语法规则随机从所述藏文语料库中选择所述藏文辅助字符与所述高频藏文主体字符生成完整藏文字符;
根据所述嵌入坐标以及所述文本生成方案将所述完整藏文字符嵌入所述藏文背景图中,生成藏文文本图片。
8.一种藏文文本的数据集生成装置,其特征在于,所述装置包括:
频率统计模块,用于基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;
藏文处理模块,用于对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;
图片生成模块,用于根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片。
9.一种控制设备,其特征在于,所述设备包括:
包括存储器和处理器,所述存储器上存储有能够被所述处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种所述方法的计算机程序。
CN202410010777.XA 2024-01-04 2024-01-04 藏文文本的数据集生成方法及系统 Pending CN118096940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410010777.XA CN118096940A (zh) 2024-01-04 2024-01-04 藏文文本的数据集生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410010777.XA CN118096940A (zh) 2024-01-04 2024-01-04 藏文文本的数据集生成方法及系统

Publications (1)

Publication Number Publication Date
CN118096940A true CN118096940A (zh) 2024-05-28

Family

ID=91158141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410010777.XA Pending CN118096940A (zh) 2024-01-04 2024-01-04 藏文文本的数据集生成方法及系统

Country Status (1)

Country Link
CN (1) CN118096940A (zh)

Similar Documents

Publication Publication Date Title
CN101620680B (zh) 字符图像的识别和翻译方法以及装置
CN109272043B (zh) 用于光学字符识别的训练数据生成方法、系统和电子设备
CN112686850A (zh) 基于空间位置和原型网络的ct图像的少样本分割方法和系统
CN116541542B (zh) 一种基于扩散模型的图文检索后门攻击方法、装置及设备
CN110209862A (zh) 文本配图方法、电子装置及计算机可读存储介质
CN110019749B (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN112052687A (zh) 基于深度可分离卷积的语义特征处理方法、装置及介质
CN111612871A (zh) 手写样本生成方法、装置、计算机设备和存储介质
US20220319141A1 (en) Method for processing image, device and storage medium
US11189010B2 (en) Method and apparatus for image processing
CN110348013A (zh) 基于人工智能的写作辅助方法、设备及可读存储介质
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN118096940A (zh) 藏文文本的数据集生成方法及系统
CN114579796B (zh) 机器阅读理解方法及装置
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN114565751A (zh) Ocr识别模型训练方法、ocr识别方法及相关装置
CN113496225A (zh) 图像处理方法、装置、计算机设备及存储介质
CN113591845A (zh) 一种多题型识别方法、装置和计算机设备
CN113436160A (zh) 一种病理图像处理及显示系统、客户端、服务端及介质
Zheng et al. Chinese/English mixed character segmentation as semantic segmentation
CN108021918B (zh) 文字识别方法及装置
CN117893643B (zh) 油气站压缩机气体泄漏图像生成方法、装置、设备及介质
CN115223171B (zh) 文本识别方法、装置、设备及存储介质
CN113076956B (zh) 一种图像描述生成方法、系统、介质及电子设备
CN115963954A (zh) 一种信息发布的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination