CN106056055B - 基于部件组合的梵音藏文联机手写样本生成方法 - Google Patents

基于部件组合的梵音藏文联机手写样本生成方法 Download PDF

Info

Publication number
CN106056055B
CN106056055B CN201610349438.XA CN201610349438A CN106056055B CN 106056055 B CN106056055 B CN 106056055B CN 201610349438 A CN201610349438 A CN 201610349438A CN 106056055 B CN106056055 B CN 106056055B
Authority
CN
China
Prior art keywords
component
word
sample
brahma
tibetan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610349438.XA
Other languages
English (en)
Other versions
CN106056055A (zh
Inventor
王维兰
卢小宝
蔡正琦
才科扎西
沈文韬
付吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Minzu University
Original Assignee
Northwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Minzu University filed Critical Northwest Minzu University
Priority to CN201610349438.XA priority Critical patent/CN106056055B/zh
Publication of CN106056055A publication Critical patent/CN106056055A/zh
Application granted granted Critical
Publication of CN106056055B publication Critical patent/CN106056055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明属于中文信息及数据处理技术领域。现代藏文有500多个字丁,加上梵音藏文共计7240个字丁,在文字识别领域属于大类别的字符集,其样本采集是庞大而复杂的工程,鉴于此,本发明提供了一种基于部件组合的梵音藏文手写样本生成方法;主要包括:(1)确定梵音藏文字符集和梵音藏文部件集;(2)梵音藏文字丁的部件位置信息获取;(3)联机手写梵音藏文部件的样本采集;(4)联机手写梵音藏文字符集样本库的生成。本发明为联机手写梵音藏文识别的研究提供字符训练样本库和测试样本库,本发明提高了手写梵音藏文样本采集效率和样本多样性,降低了样本采集成本,既可以用于联机手写样本采集,也可以用于脱机手写样本采集。

Description

基于部件组合的梵音藏文联机手写样本生成方法
技术领域
本发明属于中文信息处理的联机手写字符识别研究领域,特别涉及基于部件组合的梵音藏文联机手写样本生成方法。
背景技术
藏文输入与汉字以及其他文字一样,有键盘输入、手写识别输入和扫描识别输入,本发明涉及手写识别输入。藏文包括现代藏文和梵音藏文,而现代藏文通常又称为藏文,有五百多个字丁。2009年,我们完成了现代藏文517个字丁和45个常用梵音藏文共计562个字丁的联机手写输入研发,并获得授权专利:一种联机手写藏文字丁的识别方法,专利号:ZL200910128595.8,以及软件著作权登记,登记号:2009SR020818、软件名称为:联机手写藏文识别系统V1.0。而梵音藏文字符的联机手写识别还未见相关报道。在实际应用过程中,现代藏文和梵音藏文混合使用,在本发明中,联机手写梵音藏文的字丁包括:《信息技术信息交换用藏文编码字符集基本集》中的42个字丁,以及《信息技术藏文编码字符集(扩充集A)》的1536个字丁、《信息技术藏文编码字符集(扩充集B)》的5662个字丁,以下分别简称为:基本集、扩充集A和扩充集B,共计7240个字丁,在本发明中统称为梵音藏文字符集。梵音藏文字符集的特点:字符集大,在模式识别中就是7240个类别,需要5000套样本用于识别分类器的训练和识别性能的测试。
对7240个字丁的联机手写梵音藏文识别软件系统的研究与开发,手写样本起着举足轻重的作用,样本库的质量好坏直接影响最后的识别效果。而要采集这样一个大的字符集的手写样本,采集人群要分布在不同的区域、不同的年龄段以及不同的教育水平等等,这是一个非常庞大和复杂的工程。鉴于此,我们发明了基于部件组合的梵音藏文联机手写样本生成方法,以解决大字符集梵音藏文的联机手写识别样本数量及样本多样性的问题。
发明内容
本发明的目的在于针对梵音藏文大字符集采样工程量的局限性,提供一种基于部件组合的梵音藏文联机手写样本生成方法。该样本生成方法能够有效地提高梵音藏文手写样本采集效率和样本多样性,从而降低样样本采集成本。
本发明的目的通过以下技术措施实现:一种基于部件组合的梵音藏文联机手写样本生成方法,步骤为:(1)确定梵音藏文字符集和梵音藏文部件集;梵音藏文字符集由7240个字丁组成,部件集由81个基本集字符和85个构件组成,形成166个部件的梵音藏文部件集;(2)梵音藏文字丁的部件位置信息获取;将7240个梵音藏文的每一个字丁放置于xy平面的大小为M×N的框内,标注该字丁各个部件的外接矩形框,获取并存储该字丁各个部件的坐标数据信息;(3)部件的样本采集;将166个部件中的待采集部件显示在其部件矩形显示框,采集人员根据部件矩形显示框所显示的部件,在采集区域矩形空白框书写相同的部件,并保存采集部件的信息,完成第1到第166个部件的采集和存储形成一套样本,所有参加采集人员重复该步骤,完成与参加采集人员数量相同的部件样本套数,得到部件样本库;(4)梵音藏文字符集样本库的生成;根据步骤(2)所获取的字丁各个部件的坐标数据信息,将字丁的部件样本逐一从部件样本库中取出,依次按照它们的位置信息映射到对应位置矩形,便得到字丁的样本;生成7240个梵音藏文字丁的4000~7000套样本。为联机手写梵音藏文识别的研究与开发奠定字符集的样本库基础。实际应用中,采集人员100~200人,生成5000余套样本就可满足需要。具体过程如下。
a.确定梵音藏文字符集和梵音藏文部件集
a.1确定梵音藏文字符集
去掉扩充集A、B中一些重复的字丁,以及扩充集A和扩充集B的重复字丁,确定梵音藏文字符集包括基本集的42个字丁、扩充集A的1536个字丁和扩充集B的5662个,共计7240个字丁;
a.2确定梵音藏文部件集
部件集由81个基本集字符和85个构件共166个部件组成,部件集中的部件按照顺序从1到166依次编号;
扩充集A和扩充集B中的字丁都是基本集中的字符上下叠加组合而成,字丁不等高;根据部件集中的部件来拆分梵音藏文字丁,可将字丁拆分为1到6个不等的部件,从上到下按照1到6的顺序编为层号;获取字丁上下叠加的部件以及部件的位置信息;
b.梵音藏文字丁的部件位置信息获取
将7240个梵音藏文的每一个字丁放置于xy平面的大小为M×N的框内,标注该字丁各个部件的外接矩形框,获取并存储该字丁各个部件的坐标数据信息;
b.1梵音藏文字丁的位置
对同一字体、字号的梵音藏文7240个,都放置于xy平面的大小为M×N的框内;
b.2梵音藏文字丁的部件位置信息标注
将待标注字丁显示在宽×高为M×N的标注平面上,本发明在实际标注中宽M=240、高N=480,单位为像素;根据字丁部件信息,按照从上到下的顺序,逐个部件标注位置信息,标注过程就是在M×N的平面上截取各个部件的外接矩形框,存储每个部件外接矩形框的左上角与右下角的坐标;用程序获取并存储坐标数据信息,7420个字丁的数据信息库分别记录字丁的序号、Unicode编码、梵音藏文、部件个数,从上到下的部件1、部件2、部件3、部件4、部件5、部件6各个部件的编号,以及对应的各个部件;
b.3梵音藏文字丁的信息数据库
按照b.1、b.2的方法对7240个梵音藏文字丁进行部件位置信息的标注,并将其存入数据库,存储的信息包括:ID号、字丁、梵音藏文序号、各个部件的序号、各个部件从上到下的序号,以及各个部件的外接矩形左上角和右下角的坐标;
c.联机手写梵音藏文部件的样本采集
在Android平台的iPad上完成部件的手写样本采集,获得书写更加流畅、自然、符合书写习惯的部件样本库;采样分别在不同区域、不同年龄段以及不同教育水平人中进行;
c.1部件的样本采集设置
设计部件样本采集软件,界面包括部件集中166个部件按顺序排序的部件矩形显示框,以及对应的采集区域矩形空白框;将166个部件中的待采集部件显示在其部件矩形显示框,采集人员根据部件矩形显示框所显示的部件,在采集区域矩形空白框书写相同的部件;
c.2部件的手写信息采集和存储
保存采集部件的信息,包括部件的BMP位图文件和部件笔划信息文件,笔划信息文件中包含书写时笔迹经过的点、笔划结束和部件结束的标记信息:
其中表示第t个笔划的第nt个点的坐标,(-1,-1)表示从落笔到抬笔一个笔划的结束,(-2,-2)表示一个部件书写结束;
c.3部件样本库
将每个人书写的部件按照c.2的方法,完成第1到第166个部件的采集和存储形成一套样本,100~200人书写则完成100~200多套部件样本,采样后要进一步对采集样本进行后期处理,去除或修正错误样本;为保证样本的质量,还需要对部件样本进行预处理,主要是去除孤立点和倾斜校正,从而获得了部件样本库;
d.联机手写梵音藏文字丁样本库的生成
根据字丁拆分和位置矩形标注的结果,将构成字丁的部件样本逐一从部件样本库中取出,依次按照它们的位置信息映射到对应位置矩形,便得到字丁的样本;设梵音藏文字丁Z由m个部件r1、r2、r3、…、rm-1、rm构成,构成字丁Z的m个部件中部件ri的样本数为ksi,则字丁Z可生成的样本有ks1×ks2×…×ksi×…×ksm种,实际中,部件样本是成套采集的,因此ks1=ks2=…=ksi=…=ksm=k,其中k为部件样本的套数;
d.1部件样本映射到字丁对应位置矩形方法
将c.3部件样本库中的部件样本,映射到按b完成的7240个字丁的部件位置,梵音藏文字丁相应位置如图9所示,其中a是部件样本的位置矩形,位置矩形表示为Z(hsc1,vsc1,hsc2,vsc2),其中hsc1和vsc1为矩形左上角的横坐标和纵坐标,hsc2和vsc2为矩形右下角的横坐标和纵坐标,M'×N'是部件采集平面;图9中b所示是a所对应部件映射平面的位置矩形,M″×N″为部件映射平面,图中位置矩形由部件位置信息样本库通过线性变换来计算,即:
参数
这个变换确定了部件在映射平面中的位置,其中(hd1,vd1,hd2,vd2)为部件映射平面的位置信息样本库中该部件的位置信息;
部件映射就是对采样平面中位置矩形内的部件做线性变换,然后复制到映射平面的过程,线性变换参数
部件样本复制到映射平面的位置矩形后出现三种情况,设部件样本上的任一点为(x,y),对应校正后的点为(x’,y’);是否校正分为三种情况:
(1)当时,位置矩形外切于部件,不需要位置校正;
(2)当时,部件外接框与部件左右相切而上下只有一边相切,需要对部件做垂直校正,校正方法如下式:
(3)当时,部件的外接框与部件上下相切而左右只有一边相切,需要对部件做水平校正,校正方法如下式:
d.27240个字丁样本库的生成
用于7240个类别的模式识别问题,需要的训练样本和测试样本4000~7000套;
采用非线性变换、稀疏化的方法增加单部件字丁的样本数量,但是非线性变换的长宽比必须控制在一定范围内,超出范围将造成字符严重扭曲变形以致无法识别,同样,稀疏化的方法也应控制在一定范围;非线性变换实际上就是对图像做非同比伸缩变换,以此来改变字丁中点的空间位置信息来增加样本的数量;稀疏化是一种类似于数据丢包的方法,该方法通过随机丢点的方法来改变字丁中笔画的轨迹信息,丢点太多则有可能完全失去字符的空间信息,丢点太少则不足以改变字符的空间信息,选择适当的范围也是关键所在;生成梵音藏文字丁样本库的步骤如下:
d.2.1.判断待生成字丁的部件层数;
d.2.2.如果字丁层数为1,则转d.2.3,如果字丁层数为2,则转d.2.4,如果字丁层数大于等于3,则转d.2.5;
d.2.3.通过非线性变换和稀疏化得到的样本存放到一起,并随机的将其分配到每一套梵音藏文样本中;
(1)采用非线性变换
其中(x,y)为字丁样本上的任一点,变换后的对应点为(x″,y″),本发明中,0.7≤α≤1.3和0.7≤β≤1.3,通过歩长0.01的变化获得更多的字丁样本;
(2)稀疏化分四步:
①读取所采集的字丁存入数组中;
②设置丢点的数目υ并计算数组大小len,本发明中,丢点的数目υ的范围是:0.05len≤υ≤0.3len;
③产生υ个数组索引随机数rand,0≤rand≤len-1;
④删除υ个随机数索引对应的点,存储新生成的字丁样本;
d.2.4.根据b.2梵音藏文字丁的部件位置信息标注结果,将一个字丁的两个部件从上到下按照其编号和位置信息从b.3得到的信息数据库读取,并映射到大小为M×N的位置矩形中;
d.2.5.根据b.2梵音藏文字丁的部件位置信息标注结果,将组成字丁的部件从上到下均匀的从部件样本库中取出,然后映射到大小为M×N的位置矩阵中;
所谓均匀的从部件样本库中取出部件的方式:
首先,部件库中有p类部件,p=166,每类部件分别存放在单独的文件夹中,且每类部件的数量一样都为K,在本方法中K=100;设字丁T由部件Cx1,Cx2,......,Cxt构成,这里3≤t≤6,也就是三到六个部件,每个字丁T需要生成L个;
其次,循环的从部件库中取部件,从每个部件文件夹中取部件时,选取的间隔为其中L、K、t、分别为要生成的字丁个数、部件数量、字丁层数、向下取整和向上取整;采用均匀的从部件样本库中取出部件的方式可以最大限度的确保字丁样本的多样性。
本发明是对7240个类别的梵音藏文字丁联机手写样本库,利用166个部件的100套样本,生成了5000套的联机手写梵音藏文字丁样本库,可用于训练与测试,提高了手写梵音藏文样本采集效率和样本多样性,降低了样本采集成本,既可以用于联机手写样本采集,也可以用于脱机手写样本采集。
附图说明
图1基于部件组合的梵音藏文联机手写样本生成流程图;
图2藏文字丁、梵音藏文字丁不等高示意图;
图3藏文字丁、梵音藏文字丁放置于xy平面M×N矩形的示意图;
图4梵音藏文部件及其在xy平面M×N矩形位置信息的示意图;
图5三个部件的梵音藏文字丁从上至下截取外切矩形获取每个部件信息过程示意图;
图6梵音藏文字丁组成部件的信息数据库的示意图;
图7梵音藏文字丁及其部件的位置信息数据库内容示意图;
图8梵音藏文字丁部件的显示和采集示意图;
图9部件样本映射到梵音藏文字丁相应位置示意图;
图10部件样本到映射平面的位置情况示意图;
图11不同层数梵音藏文字丁合成的样本实例图。
具体实施方式
一种基于部件组合的梵音藏文联机手写样本生成方法,按照下述步骤进行:
a.确定梵音藏文字符集和梵音藏文部件集
a.1确定梵音藏文字符集
去掉扩充集A、B中一些重复的字丁,以及扩充集A和扩充集B的重复字丁,确定梵音藏文字符集包括基本集的42个字丁、扩充集A的1536个字丁和扩充集B的5662个,共计7240个字丁;
a.2确定梵音藏文部件集
为了提高样本质量和生成效率,降低采样成本,梵音藏文部件集的确定遵循三个原则:第一、部件集越小越好;第二、本着最小化原则,字丁中笔划不相连的基本集字符,例如是基本集中的字丁,它可拆分为和三个基本集部件上下叠加而成的字丁;第三、根据书写习惯,字丁中笔划相连的基本集字符本着最大化和出现高频率原则,把相连的基本集字符称为构件,并将其作为新部件加入部件集,例如字丁其国际标准Unicode码为3个,即由基本集中的和构成,但是由于第2层和第3层书写时相连,本着最大化原则可将其拆分为由和构成,且在其他字符中作为部件出现的频率较高;部件集由81个基本集字符和85个构件共166个部件组成,部件集中的部件按照顺序从1到166依次编号;
扩充集A和扩充集B中的字丁都是基本集中的字符上下叠加组合而成,字丁不等高;基于以上三个原则,根据部件集中的部件来拆分梵音藏文字丁,可将其拆分为1到6个不等的部件构成的字丁,从上到下按照1到6的顺序编为层号;
梵音藏文部件集为梵音藏文字丁的拆分奠定基础,根据部件确定的三个原则拆分梵音藏文,获取字丁上下叠加的部件以及部件的位置信息;
b.梵音藏文字丁的部件位置信息获取
166个部件可以组合所有的梵音藏文字丁,获取梵音藏文字丁中每个部件的空间位置信息至关重要;
b.1梵音藏文字丁的位置
梵音藏文字丁不等高、不等宽,但所有的字丁依基线对齐,基线之上有元音符号或者没有任何符号,图2所示,前两个是现代藏文字丁,后两个是梵音藏文字丁;
对同一字体、字号的梵音藏文7240个,都放置于xy平面的大小为M×N的框内,如图3所示为图2的四个字丁放置于xy平面M×N框内的示意图;
b.2梵音藏文字丁的部件位置信息标注
将待标注字丁显示在宽×高为M×N的标注平面上,本发明在实际标注中宽M=240、高N=480,单位为像素;如图4所示的字丁有两个部件组成,上面部件位置矩形表示为Z(hd1,vd1,hd2,vd2),也就是标注每一个部件的外接矩形框,获得其左上角坐标(hd1,vd1)和右下角坐标(hd2,vd2),就获得了该部件的位置信息;
根据字丁部件信息,按照从上到下的顺序,逐个部件标注位置信息,标注过程就是在M×N的平面上截取各个部件的外接矩形,从而获得每个部件的位置信息;
图5中a、b、c所示从上到下依次框出三个部件的外接矩形框,以便存储每个部件外接矩形框的左上角与右下角的坐标;用程序获取并存储坐标数据信息,7420个字丁的数据信息库分别记录字丁的序号、Unicode编码、梵音藏文、部件个数,从上到下的部件1、部件2、部件3、部件4、部件5、部件6各个部件的编号,以及对应的各个部件;如图6所示为梵音藏文字丁组成部件的信息数据库的示意图,序号为1的字丁,Unicode编码为0F00、梵音藏文为部件个数为3,从上到下部件1、部件2和部件3的编号分别为43、41和35,对应的三个部件分别为和图6中同样还给出了序号为2、5、814、1089、4619的字丁,它们的部件个数分别是1、2、4、5、6;
b.3梵音藏文字丁的信息数据库
按照b.1、b.2的方法对7240个梵音藏文字丁进行部件位置信息的标注,并将标注过程中的信息存入数据库,存储的信息包括:ID号、字丁、梵音藏文序号、各个部件的序号、各个部件从上到下的序号,以及各个部件的外接矩形左上角和右下角的坐标;图7为梵音藏文字丁及其部件的位置信息数据库内容示意图,ID号、字丁Tibetan、字丁序号TibetanOrder、部件序号Code、部件从上到下的序号Sort,以及第一个部件左上角横坐标hd1和纵坐标vd1、右下角横坐标hd2和纵坐标vd2
c.联机手写梵音藏文部件的样本采集
识别字符集样本库的好坏直接影响所研究和开发联机手写识别系统最后的识别效果,好的样本库建立在样本正确性和多样性的基础之上;因此,部件样本的好坏对生成好的梵音藏文样本库尤为重要;
为了获得高质量的部件样本库,在Android平台的iPad上完成部件的手写样本采集,以获得书写更加流畅、自然、符合书写习惯的部件样本库;同时,为了确保部件样本的多样性,采样分别在不同区域、不同年龄段以及不同教育水平人中进行;部件采集步骤如下c.1、c.2和c.3;
c.1部件的样本采集设置
设计部件样本采集软件,界面包括部件集中166个部件按顺序排序的部件矩形显示框,以及对应的采集区域矩形空白框;将166个部件中的待采集部件显示在其部件矩形显示框,采集人员根据部件矩形显示框所显示的部件,在采集区域矩形空白框书写相同的部件;图8所示,a、b所示分别为部件的显示区域和采集区域的手写结果;
c.2部件的手写信息采集和存储
保存采集部件的信息,包括部件的BMP位图文件和部件笔划信息文件,笔划信息文件中包含书写时笔迹经过的点、笔划结束和部件结束的标记信息:
其中表示第t个笔划的第nt个点的坐标,(-1,-1)表示从落笔到抬笔一个笔划的结束,(-2,-2)表示一个部件书写结束;
c.3部件样本库
将每个人书写的部件按照c.2的方法,完成第1到第166个部件的采集和存储形成一套样本,200多人书写则完成200多套部件样本,样本的实际分布情况包括书写者所在的地域、年龄、学历和技术领域因素;采样后要进一步对采集样本进行后期处理,去除或修正错误样本,甚至整套删除;为保证样本的质量,还需要对部件样本进行预处理,主要是去除孤立点和倾斜校正,从而获得了部件样本库;
d.联机手写梵音藏文字丁样本库的生成
根据字丁拆分和位置矩形标注的结果,将构成字丁的部件样本逐一从部件样本库中取出,依次按照它们的位置信息映射到对应位置矩形,便得到字丁的样本;设梵音藏文字丁Z由m个部件r1、r2、r3、…、rm-1、rm构成,构成字丁Z的部件中部件ri的样本数为ksi,则字丁Z可生成的样本有ks1×ks2×…×ksi×…×ksm种,实际中,部件样本是成套采集的,因此ks1=ks2=…=ksi=…=ksm=k,其中k为部件样本的套数;
d.1部件样本映射到字丁对应位置矩形方法
将c.3部件样本库中的部件样本,映射到按b完成的7240个字丁的部件位置,梵音藏文字丁相应位置如图9所示,其中a是部件样本的位置矩形,位置矩形表示为Z(hsc1,vsc1,hsc2,vsc2),其中hsc1和vsc1为矩形左上角的横坐标和纵坐标,hsc2和vsc2为矩形右下角的横坐标和纵坐标,M'×N'是部件采集平面;图9中b所示是a所对应部件映射平面的位置矩形,M″×N″为部件映射平面,图中位置矩形由部件位置信息样本库通过线性变换来计算,即:
参数
这个变换确定了部件在映射平面中的位置,其中(hd1,vd1,hd2,vd2)为部件映射平面的位置信息样本库中该部件的位置信息;
部件映射就是对采样平面中位置矩形内的部件做线性变换,然后复制到映射平面的过程,线性变换参数
部件样本复制到映射平面的位置矩形后出现图10所示的三种情况,为了取得更好的字丁生成效果,需要校正部件在映射平面位置矩形内的数值,设部件样本上的任一点为(x,y),对应校正后的点为(x’,y’);校正可分为三种情况:
(1)当时,位置矩形外切于部件,如图10a所示的情况,不需要位置校正;
(2)当时,部件外接框与部件左右相切而上下只有一边相切,如图10b所示的情况,需要对部件做垂直校正,校正方法如下式:
(3)当时,部件的外接框与部件上下相切而左右只有一边相切,如图10c所示的情况,需要对部件做水平校正,校正方法如下式:
d.27240个字丁样本库的生成
用于7240个类别的模式识别问题,需要的训练样本和测试样本4000~7000,实施过程生成5000套;
采用非线性变换、稀疏化的方法增加单部件字丁的样本数量,但是非线性变换的长宽比必须控制在一定范围内,超出范围将造成字符严重扭曲变形以致无法识别,同样,稀疏化的方法也应控制在一定范围;非线性变换实际上就是对图像做非同比伸缩变换,以此来改变字丁中点的空间位置信息来增加样本的数量;稀疏化是一种类似于数据丢包的方法,该方法通过随机丢点的方法来改变字丁中笔画的轨迹信息,丢点太多则有可能完全失去字符的空间信息,丢点太少则不足以改变字符的空间信息,选择适当的范围也是关键所在;生成梵音藏文字丁样本库的步骤如下:
d.2.1.判断待生成字丁的部件层数;
d.2.2.如果字丁层数为1,则转d.2.3,如果字丁层数为2,则转d.2.4,如果字丁层数大于等于3,则转d.2.5;
d.2.3.通过非线性变换和稀疏化得到的样本存放到一起,并随机的将其分配到每一套梵音藏文样本中;
(1)采用非线性变换
其中(x,y)为字丁样本上的任一点,变换后的对应点为(x″,y″),本发明中,0.7≤α≤1.3和0.7≤β≤1.3,通过歩长0.01的变化获得更多的字丁样本;
(2)稀疏化分四步:
①读取所采集的字丁存入数组中;
②设置丢点的数目υ并计算数组大小len,本发明中,丢点的数目υ的范围是:0.05len≤υ≤0.3len;
③产生υ个数组索引随机数rand,0≤rand≤len-1;
④删除υ个随机数索引对应的点,存储新生成的字丁样本;
d.2.4.根据b.2梵音藏文字丁的部件位置信息标注结果,将一个字丁的两个部件从上到下按照其编号和位置信息从b.3得到的信息数据库读取,并映射到大小为M×N的位置矩形中;
d.2.5.根据b.2梵音藏文字丁的部件位置信息标注结果,将组成字丁的部件从上到下均匀的从部件样本库中取出,然后映射到大小为M×N的位置矩阵中;
所谓均匀的从部件样本库中取出部件的方式:
首先,部件库中有p类部件,p=166,每类部件分别存放在单独的文件夹中,且每类部件的数量一样都为K,在本方法中K=100;设字丁T由部件Cx1,Cx2,......,Cxt构成,这里3≤t≤6,也就是三到六个部件,每个字丁T需要生成L个;
其次,循环的从部件库中取部件,从每个部件文件夹中取部件时,选取的间隔为其中L、K、t、分别为要生成的字丁个数、部件数量、字丁层数、向下取整和向上取整;采用均匀的从部件样本库中取出部件的方式可以最大限度的确保字丁样本的多样性。
图11所示为所生成的不同部件层数的梵音藏文字丁样本实例图,图11中的a、b、c、d、e和f分别两个部件、三个部件、四个部件、五个部件、六个部件的梵音藏文样本。
本发明已确定梵音藏文字符集7240个类别和梵音藏文部件集166个部件,开发软件完成了梵音藏文字丁的部件位置信息获取,形成梵音藏文字符集各个字丁部件位置信息的数据库,开发了联机手写梵音藏文部件的样本采集软件,已采集了200多套的部件样本,同时完成了联机手写梵音藏文字符集样本库的生成软件,现已生成联机手写梵音藏文字丁样本库5000套,用于联机手写梵音藏文识别研究和开发的训练样本与测试样本,提高了手写梵音藏文样本采集效率和样本多样性,降低了样本采集成本,既可以用于联机手写样本采集,也可以用于脱机手写样本采集。

Claims (3)

1.一种基于部件组合的梵音藏文联机手写样本生成方法,其特征在于步骤为:(a)确定梵音藏文字符集和梵音藏文部件集;梵音藏文字符集由7240个字丁组成,部件集由81个基本集字符和85个构件组成,形成166个部件的梵音藏文部件集;(b)梵音藏文字丁的部件位置信息获取;将7240个梵音藏文的每一个字丁放置于xy平面的大小为M×N的框内,标注该字丁各个部件的外接矩形框,获取并存储该字丁各个部件的坐标数据信息;(c)联机手写梵音藏文部件的样本采集;将166个部件中的待采集部件显示在其部件矩形显示框,采集人员根据部件矩形显示框所显示的部件,在采集区域矩形空白框书写相同的部件,并保存采集部件的信息,完成第1到第166个部件的采集和存储形成一套样本,所有参加采集人员重复该步骤,完成与参加采集人员数量相同的部件样本套数,得到部件样本库;(d)联机手写梵音藏文字符集样本库的生成;根据步骤(b)所获取的字丁各个部件的坐标数据信息,将字丁的部件样本逐一从部件样本库中取出,依次按照它们的位置信息映射到对应位置矩形,便得到字丁的样本;生成7240个梵音藏文字丁的4000~7000套样本。
2.如权利要求1所述的一种基于部件组合的梵音藏文联机手写样本生成方法,其特征在于:步骤(a)~(d)的具体过程如下:
a.确定梵音藏文字符集和梵音藏文部件集
a.1确定梵音藏文字符集
去掉扩充集A、B中一些重复的字丁,以及扩充集A和扩充集B的重复字丁,确定梵音藏文字符集包括基本集的42个字丁、扩充集A的1536个字丁和扩充集B的5662个,共计7240个字丁;
a.2确定梵音藏文部件集
部件集由81个基本集字符和85个构件共166个部件组成,部件集中的部件按照顺序从1到166依次编号;
扩充集A和扩充集B中的字丁都是基本集中的字符上下叠加组合而成,字丁不等高;根据部件集中的部件来拆分梵音藏文字丁,将字丁拆分为1到6个不等的部件,从上到下按照1到6的顺序编为层号;获取字丁上下叠加的部件以及部件的位置信息;
b.梵音藏文字丁的部件位置信息获取
将7240个梵音藏文的每一个字丁放置于xy平面的大小为M×N的框内,标注该字丁各个部件的外接矩形框,获取并存储该字丁各个部件的坐标数据信息;
b.1梵音藏文字丁的位置
对同一字体、字号的梵音藏文7240个,都放置于xy平面的大小为M×N的框内;
b.2梵音藏文字丁的部件位置信息标注
将待标注字丁显示在宽×高为M×N的标注平面上,本发明在实际标注中宽M=240、高N=480,单位为像素;根据字丁部件信息,按照从上到下的顺序,逐个部件标注位置信息,标注过程就是在M×N的平面上截取各个部件的外接矩形框,存储每个部件外接矩形框的左上角与右下角的坐标;用程序获取并存储坐标数据信息,7420个字丁的数据信息库分别记录字丁的序号、Unicode编码、梵音藏文、部件个数,从上到下的部件1、部件2、部件3、部件4、部件5、部件6各个部件的编号,以及对应的各个部件;
b.3梵音藏文字丁的信息数据库
按照b.1、b.2的方法对7240个梵音藏文字丁进行部件位置信息的标注,并将其存入数据库,存储的信息包括:ID号、字丁、梵音藏文序号、各个部件的序号、各个部件从上到下的序号,以及各个部件的外接矩形左上角和右下角的坐标;
c.联机手写梵音藏文部件的样本采集
在Android平台的iPad上完成部件的手写样本采集,获得书写流畅、自然、符合书写习惯的部件样本库;采样分别在不同区域、不同年龄段以及不同教育水平人中进行;
c.1部件的样本采集设置
设计部件样本采集软件,界面包括部件集中166个部件按顺序排序的部件矩形显示框,以及对应的采集区域矩形空白框;将166个部件中的待采集部件显示在其部件矩形显示框,采集人员根据部件矩形显示框所显示的部件,在采集区域矩形空白框书写相同的部件;
c.2部件的手写信息采集和存储
保存采集部件的信息,包括部件的BMP位图文件和部件笔划信息文件,笔划信息文件中包含书写时笔迹经过的点、笔划结束和部件结束的标记信息:
………
其中表示第t个笔划的第nt个点的坐标,(-1,-1)表示从落笔到抬笔一个笔划的结束,(-2,-2)表示一个部件书写结束;
c.3部件样本库
将每个人书写的部件按照c.2的方法,完成第1到第166个部件的采集和存储形成一套样本,100~200人书写则完成100~200套部件样本,采样后要进一步对采集样本进行后期处理,去除或修正错误样本;为保证样本的质量,还需要对部件样本进行预处理,主要是去除孤立点和倾斜校正,从而获得了部件样本库;
d.联机手写梵音藏文字丁样本库的生成
根据字丁拆分和位置矩形标注的结果,将构成字丁的部件样本逐一从部件样本库中取出,依次按照它们的位置信息映射到对应位置矩形,便得到字丁的样本;设梵音藏文字丁Z由m个部件r1、r2、r3、…、rm-1、rm构成,构成字丁Z的m个部件中部件ri的样本数为ksi,则字丁Z生成的样本有ks1×ks2×…×ksi×…×ksm种,实际中,部件样本是成套采集的,因此ks1=ks2=…=ksi=…=ksm=k,其中k为部件样本的套数;
d.1部件样本映射到字丁对应位置矩形方法
将c.3部件样本库中的部件样本,映射到按b完成的7240个字丁的部件位置;梵音藏文字丁相应部件样本的位置矩形表示为Z(hsc1,vsc1,hsc2,vsc2),hsc1和vsc1为矩形左上角的横坐标和纵坐标,hsc2和vsc2为矩形右下角的横坐标和纵坐标,M'×N'是部件采集平面;所述位置矩形与部件映射平面的位置矩形对应,M″×N″为部件映射平面,映射平面位置矩形由部件位置信息样本库通过线性变换来计算,即:
参数
这个变换确定了部件在映射平面中的位置,其中(hd1,vd1,hd2,vd2)为部件映射平面的位置信息样本库中该部件的位置信息;
部件映射就是对采样平面中位置矩形内的部件做线性变换,然后复制到映射平面的过程,线性变换参数
部件样本复制到映射平面的位置矩形后出现三种情况,设部件样本上的任一点为(x,y),对应校正后的点为(x’,y’);是否校正分为三种情况:
(1)当时,位置矩形外切于部件,不需要位置校正;
(2)当时,部件外接框与部件左右相切而上下只有一边相切,需要对部件做垂直校正,校正方法如下式:
(3)当时,部件的外接框与部件上下相切而左右只有一边相切,需要对部件做水平校正,校正方法如下式:
d.27240个字丁样本库的生成
用于7240个类别的模式识别问题,需要的训练样本和测试样本4000~7000套;
采用非线性变换、稀疏化的方法增加单部件字丁的样本数量;非线性变换实际上就是对图像做非同比伸缩变换,以此来改变字丁中点的空间位置信息来增加样本的数量;稀疏化是一种类似于数据丢包的方法;生成梵音藏文字丁样本库的步骤如下:
d.2.1.判断待生成字丁的部件层数;
d.2.2.如果字丁层数为1,则转d.2.3,如果字丁层数为2,则转d.2.4,如果字丁层数大于等于3,则转d.2.5;
d.2.3.通过非线性变换和稀疏化得到的样本存放到一起,并随机的将其分配到每一套梵音藏文样本中;
(1)采用非线性变换
其中(x,y)为字丁样本上的任一点,变换后的对应点为(x″,y″),本发明中,0.7≤α≤1.3和0.7≤β≤1.3,通过步长0.01的变化获得更多的字丁样本;
(2)稀疏化分四步:
①读取所采集的字丁存入数组中;
②设置丢点的数目υ并计算数组大小len,本发明中,丢点的数目υ的范围是:0.05len≤υ≤0.3len;
③产生υ个数组索引随机数rand,0≤rand≤len-1;
④删除υ个随机数索引对应的点,存储新生成的字丁样本;
d.2.4.根据b.2梵音藏文字丁的部件位置信息标注结果,将一个字丁的两个部件从上到下按照其编号和位置信息从b.3得到的信息数据库读取,并映射到大小为M×N的位置矩形中;
d.2.5.根据b.2梵音藏文字丁的部件位置信息标注结果,将组成字丁的部件从上到下均匀的从部件样本库中取出,然后映射到大小为M×N的位置矩阵中。
3.如权利要求2所述的一种基于部件组合的梵音藏文联机手写样本生成方法,其特征在于:步骤
d.2.5所述的均匀的从部件样本库中取出部件的方式为:
首先,部件库中有p类部件,p=166,每类部件分别存放在单独的文件夹中,且每类部件的数量一样都为K;设字丁T由部件Cx1,Cx2,......,Cxt构成,这里3≤t≤6,每个字丁T需要生成L个;
其次,循环的从部件库中取部件,从每个部件文件夹中取部件时,选取的间隔为其中L、K、t、分别为要生成的字丁个数、部件数量、字丁层数、向下取整和向上取整。
CN201610349438.XA 2016-05-24 2016-05-24 基于部件组合的梵音藏文联机手写样本生成方法 Active CN106056055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610349438.XA CN106056055B (zh) 2016-05-24 2016-05-24 基于部件组合的梵音藏文联机手写样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610349438.XA CN106056055B (zh) 2016-05-24 2016-05-24 基于部件组合的梵音藏文联机手写样本生成方法

Publications (2)

Publication Number Publication Date
CN106056055A CN106056055A (zh) 2016-10-26
CN106056055B true CN106056055B (zh) 2019-05-03

Family

ID=57174249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610349438.XA Active CN106056055B (zh) 2016-05-24 2016-05-24 基于部件组合的梵音藏文联机手写样本生成方法

Country Status (1)

Country Link
CN (1) CN106056055B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330430B (zh) * 2017-06-27 2020-12-04 司马大大(北京)智能系统有限公司 藏文字符识别装置与方法
CN107730511B (zh) * 2017-09-20 2020-10-27 北京工业大学 一种基于基线估计的藏文历史文献文本行切分方法
CN108764036A (zh) * 2018-04-24 2018-11-06 西安电子科技大学 一种手写体藏文字丁识别方法
CN108665010B (zh) * 2018-05-12 2022-01-04 新疆大学 一种联机手写维吾尔文单词数据增强方法
CN113095167A (zh) * 2021-03-25 2021-07-09 北京有竹居网络技术有限公司 一种图像采集方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641686A (zh) * 2004-01-17 2005-07-20 中国科学院计算技术研究所 乱笔顺库建立方法及联机手写汉字识别评测系统
CN101510259A (zh) * 2009-03-18 2009-08-19 西北民族大学 一种联机手写藏文字丁的识别方法和识别系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641686A (zh) * 2004-01-17 2005-07-20 中国科学院计算技术研究所 乱笔顺库建立方法及联机手写汉字识别评测系统
CN101510259A (zh) * 2009-03-18 2009-08-19 西北民族大学 一种联机手写藏文字丁的识别方法和识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Online Recognition of Chinese Characters:The State-of-the-Art;Cheng-Lin Liu 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20040229;第26卷(第2期);198-213
联机手写藏文识别中字丁规范化处理;柳洪铁;《计算机应用研究》;20060930(第9期);179-181
藏文基本字符识别算法研究;王维兰;《西北民族学院学报(自然科学版)》;19990930;第20卷(第3期);20-23

Also Published As

Publication number Publication date
CN106056055A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106056055B (zh) 基于部件组合的梵音藏文联机手写样本生成方法
Azlah et al. Review on techniques for plant leaf classification and recognition
Lawgali et al. HACDB: Handwritten Arabic characters database for automatic character recognition
CN109740603A (zh) 基于cnn卷积神经网络下的车辆字符识别方法
Ahranjany et al. A very high accuracy handwritten character recognition system for Farsi/Arabic digits using convolutional neural networks
CN105701513A (zh) 快速提取掌纹感兴趣区域的方法
CN108804397A (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN107610200A (zh) 一种基于特征模板的字库快速生成方法
CN103679191B (zh) 基于静态图片的自动套牌车检测方法
CN1018092B (zh) 表意文字的处理方法及装置
CN105893968A (zh) 基于深度学习的文本无关的端到端的笔迹识别方法
CN101840582B (zh) 一种地籍图地块的边界数字化方法
Xing et al. Oracle bone inscription detection: a survey of oracle bone inscription detection based on deep learning algorithm
CN107944451A (zh) 一种藏文古籍文档的行切分方法及系统
Siountri et al. The classification of cultural heritage buildings in athens using deep learning techniques
CN106650686A (zh) 一种基于隐马尔科夫模型的联机手写化学符号识别方法
CN118135584A (zh) 一种基于深度学习的手写表单自动识别方法和系统
CN101819683A (zh) 一种汉字字体的重构方法
Chacko et al. Handwritten character recognition in malayalam scripts-a review
CN105719296B (zh) 基于地址-事件表示的高速图像二值连通域标记方法
CN108009537A (zh) 一种识别问卷批改得分的方法
CN107066997A (zh) 一种基于图像识别的电气元件报价方法
Lu et al. Research on authentic signature identification method integrating dynamic and static features
CN103927533B (zh) 一种针对早期专利文档扫描件中图文信息的智能处理方法
Scius-Bertrand et al. Annotation-free character detection in historical Vietnamese stele images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant