CN112183020A - 多字体样本合成方法、装置、电子设备和存储介质 - Google Patents

多字体样本合成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112183020A
CN112183020A CN202011159106.8A CN202011159106A CN112183020A CN 112183020 A CN112183020 A CN 112183020A CN 202011159106 A CN202011159106 A CN 202011159106A CN 112183020 A CN112183020 A CN 112183020A
Authority
CN
China
Prior art keywords
corpus
font
sample
characters
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011159106.8A
Other languages
English (en)
Inventor
张舒怡
田强
唐林玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202011159106.8A priority Critical patent/CN112183020A/zh
Publication of CN112183020A publication Critical patent/CN112183020A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本申请提供一种多字体样本合成方法、装置、电子设备和存储介质,用以提升语料质量、有效模拟真实样本,节省样本合成时间和模型训练时间。多字体样本合成方法,包括:获取原始语料图像,提取原始语料图像中的语料样本;根据预设字符集,为语料样本配置字体;根据语料样本和字体,设置画布;在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。

Description

多字体样本合成方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种多字体样本合成方法、装置、电子设备和存储介质。
背景技术
随着图像处理技术的不断发展,用于文本识别的训练样本合成方法,可以替代真实样本、广泛应用于文本识别模型训练。目前业内多采用一张图片上一段文字使用同一字体、并随机旋转的方法,合成图像训练样本。
目前常见的一张图片上一段文字仅使用一种字体的样本合成技术中,存在以下缺点:
一、一张图片上不同字符可能使用不同字体、且整体需要按一定角度旋转。当前技术在生成多字体字符时,无法使各字符排成一行且保持统一角度旋转,因此无法有效模拟真实样本。
二、无法对字符灵活指定字体,导致样本多样性和灵活性受限。如某点阵字体仅支持中文字符,如想通过新闻语料生成样本,则特殊符号无法正常显示,行业内的常用做法是使用支持大部分字符的字体(如宋体),或将不支持的字符删除,这种做法会降低合成样本的多样性;另外,行驶证中的地址中,中文和数字使用不同字体,现有技术无法很好地模拟真实样本。
三、不同字体的样本需分开合成,合成时间成本高;同时导致样本数量多,训练时间长。
发明内容
本申请实施例的目的在于提供一种多字体样本合成方法、装置、电子设备和存储介质,用以提升语料质量、有效模拟真实样本,节省样本合成时间和模型训练时间。
第一方面,本发明实施例提供一种多字体样本合成方法,包括:获取原始语料图像,提取原始语料图像中的语料样本;根据预设字符集,为语料样本配置字体;根据语料样本和字体,设置画布;在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。
在可选的实施方式中,根据预设字符集,为语料样本配置字体,包括:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。
在可选的实施方式中,根据语料样本和字体,设置画布,包括:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。
在可选的实施方式中,在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片,包括:获取语料样本的旋转角度数据;根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点;计算字符串的匹配点数据;根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。
第二方面,本发明实施例提供一种多字体样本合成装置,包括:第一获取模块,用于获取原始语料图像,提取原始语料图像中的语料样本;第一配置模块,用于根据预设字符集,为语料样本配置字体;第一设置模块,用于根据语料样本和字体,设置画布;第一合成模块,用于在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。
在可选的实施方式中,第一配置模块还用于:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。
在可选的实施方式中,第一设置模块还用于:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。
在可选的实施方式中,第一合成模块还用于:获取语料样本的旋转角度数据;根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点;计算字符串的匹配点数据;根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。
第三方面,本发明实施例提供一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行如前述实施方式中任一项的方法。
第四方面,本发明实施例提供一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得电子设备执行前述实施方式中任一项的方法。
本申请实施例提供的一种多字体样本合成方法、装置、电子设备和存储介质,其语料合成过程中,使用不同字体生成文字,并拼接为一行。具有以下特性:
1.使用不同字体合成不同字符,然后拼接成一行,并保持统一旋转角度、合成在一张图片上,从而与单字体文字排成一行的情况保持一致,贴近真实样本,从而提升模型准确性;
2.字体可定义对应的专有字符集,使得在一张图片中,不同字符可以使用不同字体并能完整显示,也可以对特定的字符指定字体,从而提升样本多样性和灵活性;
3.不同字体可以在一个样本中合成,节省样本合成时间,同时减少样本数量,进而减少模型训练时间。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种多字体样本合成方法的流程图;
图3为本申请实施例提供的一种样本图示;
图4为本申请实施例提供的另一种样本图示;
图5为本申请实施例提供的一种多字体样本合成装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行。
于一实施例中,电子设备1可以是手机、笔记本电脑等设备,电子设备1可以具有图像拾取组件,如摄像头。
于一实施例中,由于语料存在随机旋转角度,使用不同字体生成文字存在拼接难点。可以通过预先定义各字体支持的字符集,实现一行文字中使用多种字体。之后通过计算前后字符的相对位置,依次将文字绘制在画布上,使一行语料保持统一旋转角度。
如图2所示,其为本申请实施例提供的一种多字体样本合成方法的流程图,该方法可由图1所示的电子设备1来执行,以实现通过预先定义各字体支持的字符集,实现一行文字中使用多种字体。之后通过计算前后字符的相对位置,依次将文字绘制在画布上,使一行语料保持统一旋转角度。该方法包括如下步骤:
步骤201:获取原始语料图像,提取原始语料图像中的语料样本。
在本步骤中,原始语料图像上可以是图像拾取组件获取的带有手写或打印文字的图片。
步骤202:根据预设字符集,为语料样本配置字体。
在本步骤中,在合成样本前,确定各字体支持的字符,定义相应的预定义字符集。根据预设字体集合,确定字体支持的字符,在配置文件中设置单个语料使用的字体组合,如楷体和Arial字体组合。根据字体支持的字符,生成预设字符集。提取语料样本中的字符串,判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。
于一实施例中,对字体集合F中的各字体fj∈F,j=1,2,3…,存在相应的预定义字符集合Sj,j=1,2,3…;对字符串A中的字符ai∈A,i=1,2,3…和字体fj,若ai∈Sj,则对字符集合Br={ai}和字体fj定义配置关系
Figure BDA0002742020390000061
对于字符ai+1,若ai,ai+1∈Sj,则
Figure BDA0002742020390000062
否则,若ai+1∈Sz,z=1,2,3…,z≠j,有
Figure BDA0002742020390000063
重复以上步骤,直至对每个字符ai,i=1,2,3…都存在配置字体f。最终,形成多个子字符集合
Figure BDA0002742020390000064
且Br∪Br+1∪…∪Bn=A。
其中,以文字“后广平胡同36号”和楷体、Arial字体集为例:
在生成样本前,对于字体集合F={f,fA},分别确定楷体f和Arial字体fA支持的字符,定义相应的预定义字符集合S,SA
合成时,对于文字“后广平胡同36号”中的字符,后,广,平,胡,同∈S,则有
Figure BDA0002742020390000065
Figure BDA0002742020390000066
且3,6∈SA,则有
Figure BDA0002742020390000067
Figure BDA0002742020390000068
同理,号∈S
Figure BDA0002742020390000069
最终形成3个子字符集合:B1,B2,B3
步骤203:根据语料样本和字体,设置画布。
在本步骤中,根据语料样本中的字符串,计算字符串使用目标字体时的维度数据,其中,维度数据可以是宽高数据,即获取字符串A在某一字体下的宽度lbound和高度lspace。再根据维度数据和预设放大规则,生成画布数据。由于添加旋转角度会使得高度变化较大,因此对字符串的宽度和高度放大一定倍数,形成画布宽度Pw和高度Ph,一般采用Pw=lbound*2.5,Ph=lspace*5。
步骤204:在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。
在本步骤中,获取语料样本的旋转角度数据。对于旋转角度α∈Z且α∈[-5,5]和画布左上角点Otop,画布左下角点Odown存在如下关系:
Figure BDA0002742020390000071
如图3所示,起始点为左上角则文字顺时针旋转,起始点为左下角则文字逆时针旋转。
根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点。如图4所示,对字段A的第一个字符串B1,计算其左上角点o1,以此为基准点写入画布P。
计算字符串的匹配点数据,根据以下公式计算o1坐标(x1,y1):
x1=bearingX1+width1
Figure BDA0002742020390000072
根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。
计算下一个字段的左上角点oi,i=2,3,4…并依次书写。根据以下公式,计算下一个字段Bi的横坐标位移量Δxi、相应的纵坐标位移量Δyi
Δxi=bearingXi+widthi
Figure BDA0002742020390000073
由于Δyi需取整,因此额外计算Δyi小数部分的残差值Δ∈i以及残差值和ΔSi,当ΔSi累加至1时对yi补1,且使ΔSi=0。
Figure BDA0002742020390000081
Figure BDA0002742020390000082
Figure BDA0002742020390000083
根据以下公式计算左上角点oi的坐标(xi,yi):
xi=xi-1+Δxi
yi=yi-1-(Δyi+addi)
重复该步骤,直至全部字段写入画布。
参阅图5,其为本申请实施例提供的一种多字体样本合成装置500,该多字体样本合成装置500可应用于图1所示的电子设备1,以实现通过预先定义各字体支持的字符集,实现一行文字中使用多种字体。之后通过计算前后字符的相对位置,依次将文字绘制在画布上,使一行语料保持统一旋转角度。该装置包括:第一获取模块501、第一配置模块502、第一设置模块503和第一合成模块504。具体原理关系如下:
第一获取模块501,用于获取原始语料图像,提取原始语料图像中的语料样本。详细请参阅上述实施例中对步骤201的描述。
第一配置模块502,用于根据预设字符集,为语料样本配置字体。
在可选的实施方式中,第一配置模块502还用于:根据预设字体集合,确定字体支持的字符;根据字体支持的字符,生成预设字符集;提取语料样本中的字符串;判断字符串中的字符是否存在于预设字符集,若是则生成字符与字体的配置关系。详细请参阅上述实施例中对步骤202的描述。
第一设置模块503,用于根据语料样本和字体,设置画布。
在可选的实施方式中,第一设置模块503还用于:根据语料样本中的字符串,计算字符串使用目标字体时的维度数据;根据维度数据和预设放大规则,生成画布数据。详细请参阅上述实施例中对步骤203的描述。
第一合成模块504,用于在画布上将语料样本中的文字按照预设角度进行拼接,合成语料字体图片。
在可选的实施方式中,第一合成模块504还用于:获取语料样本的旋转角度数据;根据旋转角度数据和预设角度定点条件,确定语料样本的旋转起始点;计算字符串的匹配点数据;根据匹配点数据将字符串与旋转起始点匹配,将字符串写入画布。详细请参阅上述实施例中对步骤204的描述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种多字体样本合成方法,其特征在于,包括:
获取原始语料图像,提取所述原始语料图像中的语料样本;
根据预设字符集,为所述语料样本配置字体;
根据所述语料样本和所述字体,设置画布;
在所述画布上将所述语料样本中的文字按照预设角度进行拼接,合成语料字体图片。
2.根据权利要求1所述的方法,其特征在于,所述根据预设字符集,为所述语料样本配置字体,包括:
根据预设字体集合,确定字体支持的字符;
根据所述字体支持的所述字符,生成预设字符集;
提取所述语料样本中的字符串;
判断所述字符串中的字符是否存在于所述预设字符集,若是则生成字符与字体的配置关系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语料样本和所述字体,设置画布,包括:
根据所述语料样本中的字符串,计算所述字符串使用目标字体时的维度数据;
根据所述维度数据和预设放大规则,生成画布数据。
4.根据权利要求3所述的方法,其特征在于,所述在所述画布上将所述语料样本中的文字按照预设角度进行拼接,合成语料字体图片,包括:
获取所述语料样本的旋转角度数据;
根据所述旋转角度数据和预设角度定点条件,确定所述语料样本的旋转起始点;
计算所述字符串的匹配点数据;
根据所述匹配点数据将所述字符串与所述旋转起始点匹配,将所述字符串写入画布。
5.一种多字体样本合成装置,其特征在于,包括:
第一获取模块,用于获取原始语料图像,提取所述原始语料图像中的语料样本;
第一配置模块,用于根据预设字符集,为所述语料样本配置字体;
第一设置模块,用于根据所述语料样本和所述字体,设置画布;
第一合成模块,用于在所述画布上将所述语料样本中的文字按照预设角度进行拼接,合成语料字体图片。
6.根据权利要求5所述的装置,其特征在于,所述第一配置模块还用于:
根据预设字体集合,确定字体支持的字符;
根据所述字体支持的所述字符,生成预设字符集;
提取所述语料样本中的字符串;
判断所述字符串中的字符是否存在于所述预设字符集,若是则生成字符与字体的配置关系。
7.根据权利要求6所述的装置,其特征在于,所述第一设置模块还用于:
根据所述语料样本中的字符串,计算所述字符串使用目标字体时的维度数据;
根据所述维度数据和预设放大规则,生成画布数据。
8.根据权利要求7所述的装置,其特征在于,所述第一合成模块还用于:
获取所述语料样本的旋转角度数据;
根据所述旋转角度数据和预设角度定点条件,确定所述语料样本的旋转起始点;
计算所述字符串的匹配点数据;
根据所述匹配点数据将所述字符串与所述旋转起始点匹配,将所述字符串写入画布。
9.一种电子设备,其特征在于,包括:
存储器,用以存储计算机程序;
处理器,用以执行如权利要求1至4中任一项所述的方法。
10.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至4中任一项所述的方法。
CN202011159106.8A 2020-10-26 2020-10-26 多字体样本合成方法、装置、电子设备和存储介质 Pending CN112183020A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011159106.8A CN112183020A (zh) 2020-10-26 2020-10-26 多字体样本合成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011159106.8A CN112183020A (zh) 2020-10-26 2020-10-26 多字体样本合成方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112183020A true CN112183020A (zh) 2021-01-05

Family

ID=73923373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011159106.8A Pending CN112183020A (zh) 2020-10-26 2020-10-26 多字体样本合成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112183020A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522975A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN110135413A (zh) * 2019-05-08 2019-08-16 深圳前海达闼云端智能科技有限公司 一种字符识别图像的生成方法、电子设备和可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522975A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN110135413A (zh) * 2019-05-08 2019-08-16 深圳前海达闼云端智能科技有限公司 一种字符识别图像的生成方法、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
Williams Non-Designer's Type Book, The (Non-Designer's)
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
CN102117269B (zh) 对文档进行数字化的装置及方法
US9047511B1 (en) Describing inter-character spacing in a font file
EP3794494A1 (en) Table detection in spreadsheet
US9245361B2 (en) Consolidating glyphs of a font
US9715484B1 (en) Providing different font hints based on device, text and font context
CN111767924B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
CN116933728A (zh) 文本处理方法、电子设备及存储介质
CN112183020A (zh) 多字体样本合成方法、装置、电子设备和存储介质
US11763064B2 (en) Glyph accessibility and swash control system
CN112765506B (zh) 一种页面文本内容显示方法、装置、设备及存储介质
EP2310963B1 (en) Information output apparatus, information output method, and recording medium
CN111079771B (zh) 点读图像的特征提取方法、系统、终端设备及存储介质
CN112365402A (zh) 智能组卷方法、装置、存储介质及电子设备
KR20210060808A (ko) 문서에 적용되어 있는 글꼴이 지원되는 글꼴인지 확인이 가능한 문서 편집 장치 및 그 동작 방법
CN113672835B (zh) 网页动态特效的设置方法、装置、设备及存储介质
CN110989892B (zh) 文本显示方法、装置、电子设备及存储介质
CN114780095B (zh) 离屏渲染方法、装置、打印方法、计算设备和存储介质
CN113536169B (zh) 一种网页的文字排版方法、装置、设备和存储介质
US20230099764A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN113704655A (zh) 页面操作控件设置方法、装置及存储介质
US20110296292A1 (en) Efficient application-neutral vector documents
CN117807264A (zh) Png格式的图像预览方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination