CN110136225B - 生成书面印刷数据的样本的方法、装置及计算机存储介质 - Google Patents

生成书面印刷数据的样本的方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN110136225B
CN110136225B CN201910252659.9A CN201910252659A CN110136225B CN 110136225 B CN110136225 B CN 110136225B CN 201910252659 A CN201910252659 A CN 201910252659A CN 110136225 B CN110136225 B CN 110136225B
Authority
CN
China
Prior art keywords
corpus
generating
sample
background pattern
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910252659.9A
Other languages
English (en)
Other versions
CN110136225A (zh
Inventor
张婕蕾
曹志敏
贺欣
刘毅博
谢锋明
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201910252659.9A priority Critical patent/CN110136225B/zh
Publication of CN110136225A publication Critical patent/CN110136225A/zh
Application granted granted Critical
Publication of CN110136225B publication Critical patent/CN110136225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)
  • Image Processing (AREA)

Abstract

提供了一种生成书面印刷数据的样本的方法、装置及计算机存储介质。该方法包括:生成语料并为所述语料选取字体;生成背景图案;根据所述背景图案为所述语料选取字体颜色;将所述语料渲染至所述背景图案生成样本。由此可见,本发明实施例的生成书面印刷数据的样本的方法能够生成语料和背景图像,并渲染为印刷数据的样本,能够模拟真实印刷的各种现象,保证样本的真实性。并且该过程无需大量的人力,能够极大地节约人力物力和财力,节省开支。

Description

生成书面印刷数据的样本的方法、装置及计算机存储介质
技术领域
本发明涉及图像处理领域,更具体地涉及一种生成书面印刷数据的样本的方法、装置及计算机存储介质。
背景技术
在对图像识别时,通常首先需要大量的样本通过深度学习得到模型。样本对于深度学习非常重要,更多的样本和更符合实际的样本能很大提升识别准确率。
在对图像识别的场景中,很多时候会涉及文字识别。在文字识别中,需要提供越来越多的样本改进学习效果,然而真实样本往往难以获取或者不够充分,因此需要生成大量数据代替真实样本。
目前开源的数据生成的方法中,一种方法是基于自然场景生成文字数据,然而由于自然场景与真实纸面有很大的差距,因此这种方法生成的文字数据与真实纸面的文字数据(比如,票据证件上的文字数据)也有一定差距。另一种方法是通过人工采集真实数据,然而时间和金钱成本会大大提升,并且也很难甚至不可能涵盖到所有现象。
发明内容
本发明提供了一种生成书面印刷数据的样本的方法及装置,能够模拟真实印刷的各种现象。
根据本发明的一方面,提供了一种生成书面印刷数据的样本的方法,其特征在于,所述方法包括:
生成语料并为所述语料选取字体;
生成背景图案;
根据所述背景图案为所述语料选取字体颜色;
将所述语料渲染至所述背景图案生成样本。
在一种实现方式中,所述生成背景图案,包括:
随机选取背景颜色生成单色图案;
随机选取概率对所述单色图案执行以下操作的一个或多个,生成所述背景图案:模糊、光照、全局或局部仿射变换。
在一种实现方式中,所述根据所述背景图案为所述语料选取字体颜色,包括:
为所述语料选取字体颜色,使得所述字体颜色满足预设条件;
为所述语料选取透明通道。
在一种实现方式中,为所述语料选取字体颜色,使得所述字体颜色满足预设条件,包括:
计算所述背景图案中每个像素点的RGB通道的归一化颜色;
计算所述背景图案中所有像素点的RGB通道的归一化颜色的平均值;
为所述语料进行等概率随机颜色选取,并计算所述随机颜色的归一化颜色;
判断所述随机颜色的归一化颜色是否满足第一预设条件,判断所述随机颜色的归一化颜色与所述平均值的关系是否满足第二预设条件;
如果不满足所述第一预设条件或者不满足所述第二预设条件,则重新选取所述随机颜色,使得同时满足所述第一预设条件和所述第二预设条件。
在一种实现方式中,
第一预设条件表示为fr+fg+fb<2;
第二预设条件表示为|r-rm|>A或|g-gm|>A或|b-bm|>A,
其中,r,g和b表示所述随机颜色的归一化颜色,rm,gm和bm表示所述背景图案的归一化颜色的平均值,
其中,若rm+gm+bm>P,则fr=bool(r-t),fg=bool(g-t),fb=bool(b-t);若rm+gm+bm≤P,则fr=bool(1-r-t),fg=bool(1-g-t),fb=bool(1-b-t),
其中,A和t均为小于1的预设正值,P为小于3的预设正值。
在一种实现方式中,A=0.2,P=1.5,t=0.8。
在一种实现方式中,为所述语料选取透明通道,包括:从区间[0.6,1]为所述语料选取透明通道。
在一种实现方式中,将所述语料渲染至所述背景图案生成样本,包括:
将所述语料渲染至所述背景图案生成渲染后的图像;
基于所述渲染后的图像生成样本。
在一种实现方式中,基于所述渲染后的图像生成样本包括:
将所述渲染后的图像作为样本;
或者,
对三角网格进行变形,以便模拟实际印刷品存在的褶皱,然后将所述渲染后的图像作为纹理贴到变形后的三角网格从而生成样本。
在一种实现方式中,将所述语料渲染至所述背景图案生成渲染后的图像,包括:
对所述语料执行以下操作的一个或多个,再与所述背景图案融合生成所述渲染后的图像:
部分或全部加粗、偏移、倾斜、拉伸、收缩、高斯模糊、光照亮度、噪声、局部仿射和弹性变换、在所述语料的周围生成文字。
根据本发明的另一方面,提供了一种生成书面印刷数据的样本的装置,所述装置用于实现前述方面或任一实现方式所述方法的步骤,所述装置包括:
第一生成模块,用于生成语料并为所述语料选取字体;
第二生成模块,用于生成背景图案;
颜色选取模块,用于根据所述背景图案为所述语料选取字体颜色;
渲染模块,用于将所述语料渲染至所述背景图案生成样本。
根据本发明的又一方面,提供了一种生成书面印刷数据的样本的装置,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方面或任一实现方式所述的生成书面印刷数据的样本的方法的步骤。
根据本发明的再一方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方面或任一实现方式所述的生成书面印刷数据的样本的方法的步骤。
由此可见,本发明实施例的生成书面印刷数据的样本的方法能够生成语料和背景图像,并渲染为印刷数据的样本,能够模拟真实印刷的各种现象,保证样本的真实性。并且该过程无需大量的人力,能够极大地节约人力物力和财力,节省开支。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明实施例的电子设备的一个示意性框图;
图2是本发明实施例的生成书面印刷数据的样本的方法的一个示意性流程图;
图3是采用本发明实施例的方法所生成的样本的示意图;
图4是本发明实施例的生成书面印刷数据的样本的装置的一个示意性框图;
图5是本发明实施例的生成书面印刷数据的样本的装置的另一个示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
本发明实施例可以应用于电子设备,图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114,这些组件通过总线系统112和/或其它形式互连。应当注意,图1所示的电子设备10的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以包括中央处理单元(Central Processing Unit,CPU)1021和图形处理单元(Graphics Processing Unit,GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,例如现场可编程门阵列(Field-Programmable GateArray,FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine,ARM)等,并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或更多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory,ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令,处理器102可以运行所述程序指令,以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或更多个。
所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
当注意,图1所示的电子设备10的组件和结构只是示例性的,尽管图1示出的电子设备10包括多个不同的装置,但是根据需要,其中的一些装置可以不是必须的,其中的一些装置的数量可以更多等等,本发明对此不限定。
图2是本发明实施例的生成书面印刷数据的样本的方法的一个示意性流程图。图2所示的方法包括:
S110,生成语料并为所述语料选取字体;
S120,生成背景图案;
S130,根据所述背景图案为所述语料选取字体颜色;
S140,将所述语料渲染至所述背景图案生成样本。
示例性地,S110中生成语料可以是基于语料库生成语料。其中,语料库可以是开源语料库。或者可以在S110之前创建语料库,并基于所创建的语料库生成语料。或者,可以基于开源语料库和创建的语料库的合并语料库,生成语料。
其中,本发明实施例中的语料可以为中文、英文、数字、或其他任何一种语种、或其任意组合。尤其地,由于现有的开源的数据生成的方法中,中文文本相对较少,因此,本发明下述实施例主要结合中文语料进行详细分析。
举例来说,可以创建电话号码语料库,根据固定电话号码的规则(如3位或4位区号加8位号码)随机生成一系列固定电话号码,根据手机号码的规则(如13、15、17、18等开头的11位号码)随机生成一系列手机号码。
举例来说,可以创建中文地址语料库,例如地址规则可以为××省××县××乡××村,或者(××省)××市××区××街道××号,等等。
举例来说,也可以创建公司名称语料库、人名语料库、价格语料库、等等。这里不再一一罗列。
可以将所创建的各个语料库添加至已有的开源语料库,形成一个语料库,并在S110中基于该形成的一个语料库生成语料。
示例性地,在S110中,为生成的语料选取字体。本发明实施例中的样本用于作为书面印刷数据,因此可以为语料选取印刷字体。例如,可以为语料中的中文汉字选取宋体、仿宋、楷体等字体,为英文、数字等选择Times New Roman、Arial等字体。
示例性地,S120中所生成的背景图案可以模拟实际印刷品上可能存在的花纹图案。
作为一例,S120可以包括:随机选取背景颜色生成单色图案;随机选取概率对所述单色图案执行以下操作的一个或多个,生成所述背景图案:模糊、光照、全局或局部仿射变换。
作为一例,S120可以包括:随机选取背景颜色生成单色图案;在所述单色图案上生成花纹,所述花纹用于模拟印刷纸张上的花纹图案,然后再随机选取概率执行以下操作的一个或多个,生成所述背景图案:模糊、光照、全局或局部仿射变换。
其中,随机选取的背景颜色可以为任意颜色,例如,黑色、白色、蓝色或其他等任一种。可以通过随机选取RGB三通道的颜色来随机选取背景颜色,例如随机选取的RGB可以分别为255,255,255。另外,在本步骤中,随机选取背景颜色可以是非等概率的。由于实际印刷品的纸张多个白色的胶版纸或者泛黄的轻型纸,因此可以为白色或淡黄色设置较高的概率,而为较少用到的黑色等设置较低的概率。
其中,在单色图案上生成花纹,可以是随机地生成花纹。这里的花纹可以是线条,包括直线、曲线等;或者,可以是一些企业logo等。可选地,可以预先构建花纹库,即可以预先采集或生成多种花纹样本,将这些花纹样本的集合作为花纹库。这样,可以从花纹库中随机选取花纹,作为背景图案。
其中,模糊、光照、全局和局部仿射变换(affine transform)等操作可以称为对背景图案的数据增强操作。可以随机选取概率执行这些操作中的一个或多个,如此能够更加真实地模拟实际印刷纸张存在的弯曲等问题。这些操作的具体过程可以参见现有技术中对图像处理的相关流程,此处不再赘述。例如,可以对图像进行均值滤波、中值滤波、高斯滤波、双边滤波中的任意一种实现模糊操作。例如,可以通过非线性的灰度变换、高斯差分滤波等实现光照操作。例如,可以构建变换矩阵,通过矩阵运算实现对图像的全局和局部仿射变换操作。
可见,S120生成背景图案可以包括:随机选取背景颜色和背景花纹,然后进行一定概率的数据增强操作。这里的一定概率可以是0到1之间随机选择的任一值。
示例性地,S130可以包括:为所述语料选取字体颜色,使得所述字体颜色满足预设条件;为所述语料选取透明通道。其中,预设条件根据字体颜色以及背景图案的颜色设定。
可以计算所述背景图案中每个像素点的RGB通道的归一化颜色;计算所述背景图案中所有像素点的RGB通道的归一化颜色的平均值;为所述语料进行等概率随机颜色选取,并计算所述随机颜色的归一化颜色;判断所述随机颜色的归一化颜色是否满足第一预设条件,判断所述随机颜色的归一化颜色与所述平均值的关系是否满足第二预设条件;如果不满足所述第一预设条件或者不满足所述第二预设条件,则重新选取所述随机颜色,使得同时满足所述第一预设条件和所述第二预设条件。
第一预设条件表示为fr+fg+fb<2;第二预设条件表示为|r-rm|>A或|g-gm|>A或|b-bm|>A。其中,r,g和b表示所述随机颜色的归一化颜色,rm,gm和bm表示所述背景图案的归一化颜色的平均值。其中,若rm+gm+bm>P,则fr=bool(r-t),fg=bool(g-t),fb=bool(b-t);若rm+gm+bm≤P,则fr=bool(1-r-t),fg=bool(1-g-t),fb=bool(1-b-t)。其中,A和t均为小于1的预设正值,P为小于3的预设正值。作为一例,A=0.2,P=1.5,t=0.8。
为所述语料选取透明通道,可以包括:从区间[0.6,1]为所述语料选取透明通道。
可理解,可以同时选取文字颜色和透明通道,然后再判断文字颜色是否满足预设条件,如果不满足,则重新选取文字颜色直到其满足预设条件。也就是说,选取透明通道的步骤可以与首次选取文字颜色并行或先后执行,或者,也可以在确定选取的文字颜色满足预设条件之后再选取透明通道,本发明对此不限定。
具体地,假设选取的文字颜色的RGB三通道的归一化颜色为r,g,b。该颜色可以是等概率随机选取的。例如,若选取的文字颜色为白色,对应的RGB为(255,255,255),则文字颜色的RGB三通道的归一化颜色为r=1,g=1,b=1。若选取的文字颜色为黑色,对应的RGB为(0,0,0),则文字颜色的RGB三通道的归一化颜色为r=0,g=0,b=0。
计算背景图案中每个像素点的RGB三通道的归一化颜色,表示为ri,gi,bi。假设总的像素个数为n(n为正整数),则i的取值范围为1至n,即1≤i≤n。从而可以计算得到背景图案中所有像素点的RGB通道的归一化颜色的平均值,表示为rm,gm,bm:具体可以通过下式计算得到:
Figure BDA0002012783180000081
在实际的书本印刷中,一般纸张颜色较浅,如白底黑字;但有时候也会采用深颜色的纸张,如黑底白字。本发明实施例可以通过定义P区分,rm+gm+bm>P说明背景颜色较浅,相反rm+gm+bm≤P说明背景颜色较深。其中,P为0到3之间的值,例如,P=1.5或P=2或其他值等。例如,若背景颜色为白色,即rm=gm=bm=1,则rm+gm+bm>P。若背景颜色为黑色,即rm=gm=bm=0,则rm+gm+bm≤P。
当rm+gm+bm>P时,定义fr=bool(r-t),fg=bool(g-t),fb=bool(b-t)。当rm+gm+bm≤P时,定义fr=bool(1-r-t),fg=bool(1-g-t),fb=bool(1-b-t)。其中bool为布尔运算,若x>0,则bool(x)=1,否则bool(x)=0。其中,t为0到1之间的预设值,例如t=0.6或t=0.7。在一个实施例中,t=0.8。
由于定义了第一预设条件为fr+fg+fb<2(即fr+fg+fb等于0或1),则可以确保语料的字体颜色不会太耀眼,用户阅读时不会感觉到眼睛不适,即最大限度地模拟了真实的文本印刷。
定义第二预设条件为|r-rm|>A或|g-gm|>A或|b-bm|>A,也就是说,|r-rm|>A、|g-gm|>A和|b-bm|>A三个不等式至少一个成立,从而语料的字体颜色与背景颜色能够区分开,字体颜色不会太过接近于背景颜色而造成阅读困难,也是最大限度地模拟了真实的文本印刷。其中,A的设定值越大,说明文本颜色与背景颜色反差越大。本发明实施例中,可以设定A=0.3或A=0.4或其他值等,作为一例,A=0.2。
具体地,选取透明通道,可以包括选取归一化的透明通道,将其表示为alpha,即alpha为0到1之间的值。由于实际的书面印刷文本要便于阅读,因此透明通道的值不能太小,也就是说,alpha的值不能太过接近于0。本发明实施例中,可以设定从区间[0.6,1]选取归一化的透明通道。可理解,也可以设定其他的区间进行选取,如[0.6,0.9]或[0.7,1]等,本发明对此不限定。
这样,经过S130可以为语料选定合适的字体颜色。本发明实施例中,S110中所生成的语料可以分布在多行。即在模拟印刷文本是,可以被印刷在不同的行。随后可以逐行地执行S130,为不同的行选取相同或不同的字体颜色,同一行的文本被选取了同一个颜色。举例来说,S110中生成的语料将被排在两行,称为第一行和第二行。则在S120之后,可以先针对于第一行执行S130,再针对于第二行执行S130,或并行地同时执行。
示例性地,S140可以包括:将所述语料渲染至所述背景图案生成渲染后的图像;基于所述渲染后的图像生成样本。
其中,将所述语料渲染至所述背景图案生成渲染后的图像,可以包括:对所述语料执行以下操作的一个或多个,再与所述背景图案融合从而生成所述渲染后的图像:部分或全部加粗、偏移、倾斜、拉伸、收缩、高斯模糊、光照亮度、噪声、局部仿射和弹性变换、在所述语料的周围生成文字。
也就是说,在S140中,可以对语料的文字进行一定概率的数据增强操作。在将语料渲染至背景图案时,可以对语料的文字进行一定概率的加粗、各方向偏移、倾斜、拉伸、收缩等操作,从而增加文字的多样性。
然后在一定概率下,对文字图片加入一定概率的高斯模糊、光照亮度、中值噪声、椒盐噪声、模拟打印或拍照使得文字图片不清晰的情况。例如,可以对图像进行均值滤波、中值滤波、高斯滤波、双边滤波中的任意一种实现模糊操作。考虑有可能存在的间距不齐的情况,在生成文字时在字与字之间随机产生一定数量(如[0,3]之间的任一值)的空格。并且考虑到检测时的鲁棒性,会在文字的上下左右任意方生成只有一半或者更小的文字或空白区域。再者,考虑到印刷时可能局部有规律或无规律地少墨多墨的情况等,可以使用了局部仿射和弹性变换来模拟印刷造成的各种现象。
其中,基于所述渲染后的图像生成样本可以包括:将所述渲染后的图像作为样本;或者,对三角网格进行变形,以便模拟实际印刷品存在的褶皱,然后将所述渲染后的图像作为纹理贴到变形后的三角网格从而生成样本。
可选地,基于渲染后的图像生成样本可以包括:对三角网格进行变形,以便模拟实际印刷品存在的褶皱,随后可以将渲染后的图像作为纹理贴到变形后的三角网格从而生成样本。或者,可选地,基于渲染后的图像生成样本可以包括:将所述渲染后的图像作为样本。可理解,变形三角网格再纹理贴图的过程可以以一定概率实现,也就是说,在生成样本时,无需为每个样本执行该过程,而是按照一定概率对其中的一部分执行该过程以模拟纸张褶皱。
其中,对三角网格进行变形,以便模拟实际印刷品可能存在的褶皱,可以包括:构建三角网格(例如可以是均匀的三角网格),然后将部分三角网格进行变形使得部分区域的三角网格的角度变得极大或极小。其中,极大或极小是指变形后的角度与60°的差的绝对值大于预定阈值。例如,预定阈值等于40°或50°等,还可以为其他值,本发明对此不限定。
可理解,一张平整的纸面所呈现的三角网格是均匀分布的,并且几乎每个三角网格均为等边三角形。当纸面存在褶皱等时,三角网格也会发生变形,在其褶皱弯曲区域的三角网格往往会变得密集,并且会出现大量极大或极小的角度。因此,可以通过变形三角网格,将部分区域的三角网格的角度变得极大或极小,来模拟纸张褶皱。可理解,本发明实施例对此处的极大或极小的角度的具体范围不作限定,例如,极大的角度可能为130°甚至160°等,极小的角度可能为20°甚至5°等。
在变形三角网格之后,可以采用纹理贴图的方式,将上述渲染后的图像作为纹理贴到变形后的三角网格,这样得到的样本能够模拟真实印刷书本中的褶皱。
可见,在S140中,通过各种数据增强操作,在渲染时,能够更大化地模拟印刷的真实状况,增加了鲁棒性。如图3(a)-(d)示出了使用本发明的方法生成的印刷文本的样本的示意图。
进一步地,在S140之后,可以将生成的样本添加至用于训练得到模型的数据集中,通过多次执行图2所示的方法,能够得到大量的样本,从而能够使得基于数据集通过训练得到的模型也更加准确,进而能够保证基于训练得到的模型之后的识别也更加准确。
图4是本发明实施例的生成书面印刷数据的样本的装置的一个示意性框图。图4所示的装置40可以包括第一生成模块410、第二生成模块420、颜色选取模块430和渲染模块440。
第一生成模块410,用于生成语料并为所述语料选取字体;
第二生成模块420,用于生成背景图案;
颜色选取模块430,用于根据所述背景图案为所述语料选取字体颜色;
渲染模块440,用于将所述语料渲染至所述背景图案生成样本。
示例性地,第一生成模块410,具体用于:随机选取背景颜色生成单色图案;随机选取概率对所述单色图案执行以下操作的一个或多个,生成所述背景图案:模糊、光照、全局或局部仿射变换。
示例性地,颜色选取模块430具体用于为所述语料选取字体颜色,使得所述字体颜色满足预设条件;为所述语料选取透明通道。
示例性地,颜色选取模块430具体用于:计算所述背景图案中每个像素点的RGB通道的归一化颜色;计算所述背景图案中所有像素点的RGB通道的归一化颜色的平均值;为所述语料进行等概率随机颜色选取,并计算所述随机颜色的归一化颜色;判断所述随机颜色的归一化颜色是否满足第一预设条件,判断所述随机颜色的归一化颜色与所述平均值的关系是否满足第二预设条件;如果不满足所述第一预设条件或者不满足所述第二预设条件,则重新选取所述随机颜色,使得同时满足所述第一预设条件和所述第二预设条件。
示例性地,第一预设条件表示为fr+fg+fb<2;第二预设条件表示为|r-rm|>A或|g-gm|>A或|b-bm|>A。其中,r,g和b表示所述随机颜色的归一化颜色,rm,gm和bm表示所述背景图案的归一化颜色的平均值。其中,若rm+gm+bm>P,则fr=bool(r-t),fg=bool(g-t),fb=bool(b-t);若rm+gm+bm≤P,则fr=bool(1-r-t),fg=bool(1-g-t),fb=bool(1-b-t)。其中,A和t均为小于1的预设正值,P为小于3的预设正值。例如,A=0.2,P=1.5,t=0.8。
示例性地,颜色选取模块430为所述语料选取透明通道,包括:从区间[0.6,1]为所述语料选取透明通道。
示例性地,渲染模块440具体用于:将所述语料渲染至所述背景图案生成渲染后的图像;基于所述渲染后的图像生成样本。
示例性地,渲染模块440基于所述渲染后的图像生成样本,具体用于:将所述渲染后的图像作为样本;或者,对三角网格进行变形,以便模拟实际印刷品存在的褶皱,然后将所述渲染后的图像作为纹理贴到变形后的三角网格从而生成样本。
示例性地,渲染模块440生成所述渲染后的图像具体用于:对所述语料执行以下操作的一个或多个,再与所述背景图案融合从而生成所述渲染后的图像:部分或全部加粗、偏移、倾斜、拉伸、收缩、高斯模糊、光照亮度、噪声、局部仿射和弹性变换、在所述语料的周围生成文字。其中,可以在语料的文字的上、下、左、右任意一个或几个方向生成半个或更小的其他文字或空白区域。
由此可见,本发明实施例的生成书面印刷数据的样本的方法能够生成语料和背景图像,并渲染为印刷数据的样本,能够模拟真实印刷的各种现象,保证样本的真实性。并且该过程无需大量的人力,能够极大地节约人力物力和财力,节省开支。
图4所示的装置40能够实现前述图2所示的生成书面印刷数据的样本的方法,为避免重复,这里不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,本发明实施例还提供了另一种生成书面印刷数据的样本的装置,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,处理器执行所述程序时实现前述图2所示的生成书面印刷数据的样本的方法的步骤。
如图5所示,该装置50可以包括存储器510和处理器520。存储器510存储用于实现根据本发明实施例的生成书面印刷数据的样本的方法中的相应步骤的计算机程序代码。处理器520用于运行存储器510中存储的计算机程序代码,以执行根据本发明实施例的生成书面印刷数据的样本的方法的相应步骤,并且用于实现根据本发明实施例的图4所述的装置中的各个模块。
示例性地,在所述计算机程序代码被处理器520运行时执行以下步骤:生成语料并为所述语料选取字体;生成背景图案;根据所述背景图案为所述语料选取字体颜色;将所述语料渲染至所述背景图案生成样本。
另外,本发明实施例还提供了一种电子设备,该电子设备可以包括图4所示的装置40。该电子设备可以实现前述图2所示的生成书面印刷数据的样本的方法。
另外,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述图2所示的生成书面印刷数据的样本的方法的步骤。例如,该计算机存储介质为计算机可读存储介质。
计算机存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合,例如一个计算机可读存储介质包含用于生成书面印刷数据的样本的计算机可读的程序代码,另一个计算机可读存储介质包含用于生成书面印刷数据的样本的计算机可读的程序代码。
由此可见,本发明实施例的生成书面印刷数据的样本的方法能够生成语料和背景图像,并渲染为印刷数据的样本,能够模拟真实印刷的各种现象,保证样本的真实性。并且该过程无需大量的人力,能够极大地节约人力物力和财力,节省开支。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing,DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种生成书面印刷数据的样本的方法,其特征在于,所述方法包括:
生成语料并为所述语料选取字体;
生成背景图案;
根据所述背景图案为所述语料选取字体颜色,包括:为所述语料选取字体颜色,使得所述字体颜色满足预设条件;
将所述语料渲染至所述背景图案生成样本;
其中,使得所述字体颜色满足预设条件,包括:计算所述背景图案中每个像素点的RGB通道的归一化颜色;计算所述背景图案中所有像素点的RGB通道的归一化颜色的平均值;为所述语料进行等概率随机颜色选取,并计算所述随机颜色的归一化颜色;判断所述随机颜色的归一化颜色是否满足第一预设条件,判断所述随机颜色的归一化颜色与所述平均值的关系是否满足第二预设条件;不满足所述第一预设条件或者不满足所述第二预设条件,则重新选取所述随机颜色,使得同时满足所述第一预设条件和所述第二预设条件;
其中,第一预设条件表示为fr+fg+fb < 2;第二预设条件表示为|r-rm|>A或|g-gm|>A或|b-bm|>A,r,g和b表示所述随机颜色的归一化颜色,rm,gm和bm表示所述背景图案的归一化颜色的平均值;若rm+gm+bm>P,则fr=bool(r-t),fg=bool(g-t),fb=bool(b-t);若rm+gm+bm≤P,则fr=bool(1-r-t),fg=bool(1-g-t),fb=bool(1-b-t),其中,A和t均为小于1的预设正值,P为小于3的预设正值。
2.根据权利要求1所述的方法,其特征在于,所述生成背景图案,包括:
随机选取背景颜色生成单色图案;
随机选取概率对所述单色图案执行以下操作的一个或多个,生成所述背景图案:模糊、光照、全局或局部仿射变换。
3.根据权利要求1所述的方法,其特征在于,所述根据所述背景图案为所述语料选取字体颜色,还包括:为所述语料选取透明通道。
4.根据权利要求1所述的方法,其特征在于,A=0.2,P=1.5,t =0.8。
5.根据权利要求3所述的方法,其特征在于,为所述语料选取透明通道,包括:从区间[0.6, 1]为所述语料选取透明通道。
6.根据权利要求1至5中任一项所述的方法,其特征在于,将所述语料渲染至所述背景图案生成样本,包括:
将所述语料渲染至所述背景图案生成渲染后的图像;
基于所述渲染后的图像生成样本。
7.根据权利要求6所述的方法,其特征在于,基于所述渲染后的图像生成样本包括:
将所述渲染后的图像作为样本;或者,
对三角网格进行变形,以便模拟实际印刷品存在的褶皱,然后将所述渲染后的图像作为纹理贴到变形后的三角网格从而生成样本。
8.根据权利要求6所述的方法,其特征在于,将所述语料渲染至所述背景图案生成渲染后的图像,包括:
对所述语料执行以下操作的一个或多个,再与所述背景图案融合生成所述渲染后的图像:
部分或全部加粗、偏移、倾斜、拉伸、收缩、高斯模糊、光照亮度、噪声、局部仿射和弹性变换、在所述语料的周围生成文字。
9.一种生成书面印刷数据的样本的装置,其特征在于,所述装置用于实现权利要求1至8中任一项所述方法的步骤,所述装置包括:
第一生成模块,用于生成语料并为所述语料选取字体;
第二生成模块,用于生成背景图案;
颜色选取模块,用于根据所述背景图案为所述语料选取字体颜色;
渲染模块,用于将所述语料渲染至所述背景图案生成样本。
10.一种生成书面印刷数据的样本的装置,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
CN201910252659.9A 2019-03-29 2019-03-29 生成书面印刷数据的样本的方法、装置及计算机存储介质 Active CN110136225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910252659.9A CN110136225B (zh) 2019-03-29 2019-03-29 生成书面印刷数据的样本的方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910252659.9A CN110136225B (zh) 2019-03-29 2019-03-29 生成书面印刷数据的样本的方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110136225A CN110136225A (zh) 2019-08-16
CN110136225B true CN110136225B (zh) 2023-05-30

Family

ID=67568857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910252659.9A Active CN110136225B (zh) 2019-03-29 2019-03-29 生成书面印刷数据的样本的方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110136225B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612871A (zh) * 2020-04-09 2020-09-01 北京旷视科技有限公司 手写样本生成方法、装置、计算机设备和存储介质
CN115497106B (zh) * 2022-11-14 2023-01-24 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255826A (zh) * 2018-10-11 2019-01-22 平安科技(深圳)有限公司 中文训练图像生成方法、装置、计算机设备及存储介质
CN109272043A (zh) * 2018-09-21 2019-01-25 北京京东金融科技控股有限公司 用于光学字符识别的训练数据生成方法、系统和电子设备
CN109344904A (zh) * 2018-10-16 2019-02-15 杭州睿琪软件有限公司 生成训练样本的方法、系统及存储介质
CN109493400A (zh) * 2018-09-18 2019-03-19 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10025539B2 (en) * 2016-02-12 2018-07-17 Xerox Corporation Adaptive selection of rendering intent for negative text embedded with image objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493400A (zh) * 2018-09-18 2019-03-19 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质
CN109272043A (zh) * 2018-09-21 2019-01-25 北京京东金融科技控股有限公司 用于光学字符识别的训练数据生成方法、系统和电子设备
CN109255826A (zh) * 2018-10-11 2019-01-22 平安科技(深圳)有限公司 中文训练图像生成方法、装置、计算机设备及存储介质
CN109344904A (zh) * 2018-10-16 2019-02-15 杭州睿琪软件有限公司 生成训练样本的方法、系统及存储介质

Also Published As

Publication number Publication date
CN110136225A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN109829453A (zh) 一种卡证中文字的识别方法、装置以及计算设备
CN109635627A (zh) 图片信息提取方法、装置、计算机设备及存储介质
US10198801B2 (en) Image enhancement using self-examples and external examples
US11823358B2 (en) Handwritten content removing method and device and storage medium
Bako et al. Removing shadows from images of documents
CN108304814A (zh) 一种文字类型检测模型的构建方法和计算设备
US20150070373A1 (en) Clarification of Zoomed Text Embedded in Images
CN110136225B (zh) 生成书面印刷数据的样本的方法、装置及计算机存储介质
CN111311523A (zh) 图像处理方法、装置、系统和电子设备
Hata et al. Automatic generation of accentuated pencil drawing with saliency map and LIC
CN113592776A (zh) 图像处理方法及装置、电子设备、存储介质
WO2012082132A1 (en) Method and system for determining void pantograph settings
CN111931783A (zh) 一种训练样本生成方法、机读码识别方法及装置
CN112990205A (zh) 手写字符样本的生成方法及装置、电子设备、存储介质
CN109934003A (zh) 一种电子印章加盖方法、装置及电子设备
CN111612871A (zh) 手写样本生成方法、装置、计算机设备和存储介质
CN111027545A (zh) 卡证图片标志检测方法、装置、计算机设备及存储介质
CN114332895A (zh) 文本图像合成方法、装置、设备、存储介质和程序产品
CN111767924B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
US20130114113A1 (en) Method and System for Generating a Document Having a Layered Void Pantograph
CN113762235A (zh) 检测页面叠加区域的方法和装置
Pangestu et al. Histogram equalization implementation in the preprocessing phase on optical character recognition
CN112116565A (zh) 篡改翻拍图像的对抗样本生成方法、设备及存储介质
KR101159387B1 (ko) 강조된 앤티-에일리어싱 비트맵을 생성하기 위한 입력 흑백비트맵의 사용
Dey Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant