CN103345481B - 一种维吾尔文图像文件的标注方法 - Google Patents
一种维吾尔文图像文件的标注方法 Download PDFInfo
- Publication number
- CN103345481B CN103345481B CN201310244905.9A CN201310244905A CN103345481B CN 103345481 B CN103345481 B CN 103345481B CN 201310244905 A CN201310244905 A CN 201310244905A CN 103345481 B CN103345481 B CN 103345481B
- Authority
- CN
- China
- Prior art keywords
- word
- image
- image file
- text
- characteristic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
本发明公开了一种维吾尔文图像文件的标注方法,包括:预先存储经扫描图像文件以及与图像文件一一对应的文本文件;在标注每一页图像文件对应的文本文件的标注信息时,提取每页图像文件的特征向量和对应的文本文件的特征向量,利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息并校正标注。本发明提供的标注方法,利用数字图像处理技术结合文件特征向量的相似性特点,采用二分法迭代原理,快速地查找到文本文件中的错误标注信息并标注。
Description
技术领域
本发明涉及维吾尔文字识别领域,尤其涉及一种维吾尔文图像文件的标注方法。
背景技术
维吾尔文是新疆等地少数民族所使用的拼音文字。现行维吾尔文有32个字母,自右至左横书。每个字母按出现在单词首、单词中、单词末的位置有不同的形式。维吾尔文形成图像文件时,根据实际需要对文件(例如:出版物上的维吾尔文)进行扫描得到图像文件,然后进行识别图像文件上的维吾尔文工作。
在识别维吾尔文之前还需要对图像文件中图像单词进行标注工作(即将图像文件与文本文件的内容一一对应起来),其工作难点在于:如何正确的标注图像文件的标注信息。然而在现有技术中,图像文件通过人工标注文本信息,其缺点在于人工标注效率很低,另外很容易出现错误的标注信息,然而由于数据处理量较大,通过人工操作方法在大量的文本文件中找到错误标注信息再进行校正和标注,同样会浪费很长的时间,这样整个标注过程的处理效率都很难得到保障。
发明内容
本发明的目的在于提供一种维吾尔文图像文件的标注方法,以解决上述问题。
为了达到上述目的,本发明的技术方案是这样实现的:
一种维吾尔文图像文件的标注方法,包括如下步骤:
预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件;
在标注每一页图像文件对应的文本文件的标注信息时,提取每页图像文件的特征向量和对应的文本文件的特征向量,利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息;
对不相似的单词图像对应的错误标注信息进行校正,再执行标注操作;
所述图像文件包括多个维吾尔文扫描图像文件;所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件。
与现有技术相比,本发明实施例的优点在于:
本发明提供的一种维吾尔文图像文件的标注方法,包括如下步骤:
首先,预先存储经扫描处理的多个图像文件以及与所述图像文件一一对应的文本文件;这是实现查找错误标注信息的预处理过程。
然后,提取每个页图像文件的图像特征向量和对应的每页文本文件的特征向量,并分析图像文件的特征向量与文本文件的特征向量的相似性;显然每页图像文件中的单词图像与文本文件中的单词标注信息都是一一对应的,如果两个文件相似度很高,那么图像文件中的单词图像被文本单词正确标注;相反地,如果不相似,那么说明图像文件中的单词图像存在错误标注。
利用上述原理并结合二分法迭代计算相似性查找错误标注信息,在不断的使用二分法的过程中,不断地缩小不相似区域,并最终确定错误标注信息;利用二分法初始化查找时,将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域,判断当前图像文件的子区域与当前文本文件的子区域相似性,若相似,则说明单词图像标注信息正确,对相似单词图像部分进行自动标注;若不相似,则可以判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息。然后将在含有错误标注信息的子区域继续分成两个等分子区域,再判定相似性,不断缩小错误标注信息的区域,最终确定单词的精确区域位置,这样经过二分法迭代(多次)查找后,并最终确定不相似的单词图像以及单词图像对应的错误标注信息。对不相似的单词图像对应的错误标注信息进行校正标注信息,再执行标注操作;这样便可以完成了完整的自动标注流程。
本发明提供的维吾尔文图像文件的标注方法,利用数字图像处理技术结合文件特征向量的相似性特点,采用二分法迭代原理,从而快速地查找到了文本文件中的错误标注信息。
附图说明
图1为本发明实施例提供的维吾尔文图像文件的标注方法的流程示意图。
具体实施方式
下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。
参见图1,本发明实施例提供了一种维吾尔文图像文件的标注方法,包括如下步骤:
步骤S100、预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件;
步骤S200、在标注每一页图像文件对应的文本文件的标注信息时,提取每页图像文件的特征向量和对应的文本文件的特征向量,利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息;
步骤S300、对不相似的单词图像对应的错误标注信息进行校正,再执行标注操作;
所述图像文件包括多个维吾尔文扫描图像文件;所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件。
在本发明实施例中,首先,预先存储经扫描处理的多个图像文件以及与所述图像文件一一对应的文本文件;这是实现查找错误标注信息的预处理过程。
然后,提取每个页图像文件的图像特征向量和对应的每页文本文件的特征向量,并分析图像文件的特征向量与文本文件的特征向量的相似性;显然每页图像文件中的单词图像与文本文件中的单词标注信息都是一一对应的,如果两个文件相似度很高,那么图像文件中的单词图像被文本单词正确标注;相反地,如果不相似,那么说明图像文件中的单词图像存在错误标注。
利用上述原理并结合二分法迭代计算相似性查找错误标注信息,在不断的使用二分法的过程中,不断地缩小不相似区域,并最终确定错误标注信息;利用二分法初始化查找时,将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域,判断当前图像文件的子区域与当前文本文件的子区域相似性,若相似,则说明单词图像标注信息正确,对相似单词图像部分进行自动标注;若不相似,则可以判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息。然后将在含有错误标注信息的子区域继续分成两个等分子区域,再判定相似性,不断缩小错误标注信息的区域,最终确定单词的精确区域位置,这样经过二分法迭代(多次)查找后,并最终确定不相似的单词图像以及单词图像对应的错误标注信息。对不相似的单词图像对应的错误标注信息进行校正标注信息,再执行标注操作;这样便可以完成了完整的自动标注流程。
本发明实施例提供的维吾尔文图像文件的标注方法,利用数字图像处理技术结合二分法迭代的原理(具体利用了余弦函数的算法进行相似性迭代计算),从而快速地查找到了文本文件中的错误标注信息。
其基本原理为:获取图像文件和其所对应的文本文件的共同全局特征,图像文件内容为标注对象,利用余弦公式检测在指定位置(如文件夹)与每个文本文件的相似度,当它们足够相似时,再进一步通过不断缩小区域的方式(二分法迭代查找)寻找不太相似单词或连体段所在区域位置。对于有相似特征图像单词或连体段由对应文本文件的单词或连体段标注,对于不太相似的可进行人工标注。
下面对上述各步骤进行详细说明:
在执行获取图像文件的特征向量的操作时,包括如下流程:
在扫描页的图像文本中,经预理后,可以获得图像文本行和及连通域。把连通域作为连体段,那么单词由一个或多个连体段构成。单词之间较大间隔称为空白,连体段之间较小的间隔称为间隙。设连体段间的空白间隔宽度为GWj,其中j=1,2,…m;由统计得到宽度阈值TW作为单词界限,在图像文件中,由上到下,从右向左顺序计算GWj,当GWj>TW时,说明是单词间空白,从而得到单词图像。统计推算出图像文件中的单词数、连体段数、行数;由1个连体段构成单词、由2个连体段构成单词,…,由n个体段构成单词的特征向量;与前一个连体段相关的特征向量。
在执行获取文本文件的特征向量的操作时,包括如下流程:
同样提取与图像文件类似特征,在文本文件中,单词是由空格区分,单词中的连体段由维吾尔文字母11个字母 确定,同样可统计出文本文件中的单词个数,连体段个数以及与图像文件相同的特征向量。
具体地,在步骤S200中,所述提取每页图像文件的特征向量和对应的文本文件的特征向量,包括如下步骤:
步骤S210、在图像文件中,通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计,获取图像特征向量;
步骤S220、在文本文件中,通过对所有的单词之间所包含空格的统计,获取标注信息特征向量;
其中,所述单词包括一个或多个连体段。
较佳地,在步骤S210中,所述在图像文件中,通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计,获取图像特征向量,包括如下步骤:
步骤S211、在图像文件中,求取各个单词之间的间隔宽度GWj及各个连体段之间的间隔宽度GWj,其中:j=1、2、3…m,m为常数;
步骤S212、预设宽度阈值TW作为单词界限,在整页图像文件的区域中,依照由上到下,从右向左的顺序计算相邻的每两个连体段的间隔宽度GWj;
步骤S213、判断GWj与TW的大小关系,若GWj大于或等于TW,则判定两个相邻的连体段之间的间隔为不同单词图像之间的空白,并确定单词图像的一个边界,经过多次判断确定单词图像的另一个边界,确定完整的单词图像;若GWj小于TW,则判定两个相邻的连体段之间的间隔为同一单词图像之间的间隙;
步骤S214、计算得到每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数,单词数,并作为图像文件的特征向量;
其中,单词图像之间的间隔称为空白,同一单词图像内部的连体段之间的间隔称为间隙。
较佳地,在步骤S220中,所述在文本文件中,通过对所有的单词之间所包含空格的统计,获取标注信息特征向量,包括如下步骤:
步骤S221、在整页文本文件的区域中,依照由上到下,从右向左的顺序查找空格,经过查找确定完整的单词;
步骤S222、计算得到每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数,单词数,并作为文本文件的特征向量;
其中,相邻的不同单词之间包括一个空格,单词中的连体段由维吾尔文11个字母:确定。
较佳地,在步骤S200中,所述利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息,包括如下步骤:
步骤S230、利用二分法初始化查找处理时,将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域,利用余弦函数分别计算两个子区域内图像文件的特征向量与对应的子区域内文本文件的特征向量的相似度值,判断相似度值是否大于相似度阈值;若是,则判定单词图像标注信息正确,对相似单词图像部分进行自动标注;
步骤S240、若否,则判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息,在含有错误标注信息的子区域内继续利用二分法迭代查找确定单词的位置,并不断缩小错误标注信息所在区域,最终确定不相似的单词图像以及单词图像对应的错误标注信息。
举例说明:利用二分法不断缩小查找不太相似区域。设相似度值阈值为t,设文件为区域Q,求文件间的相似度r,当r≥t,说明两个文件相似,二分区域Q为Q1,Q2,计算Q1的相似度r,当r≥t,Q1区域相似;不太相似单词肯定在Q2区域。通过不断缩小检测相似度范围,寻找r<t时的范围,找到不相似的文本行,用人工编辑文本文件中相应的单词或连体段,而相似区域单词或连体段由对应的文本文件自动标注。
需要说明的是,较佳地,所述余弦函数为:
其中,图像文件的特征向量为xi;i=1、2、3…n,n为常数;文本文件的特征向量为yi;i=1、2、3…n,相似度值为r;
所述图像文件的特征向量包括每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数,单词数的特征向量;
所述文本文件的特征向量包括每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数,单词数的特征向量;
为图像文件区域内的特征向量的均值;为文本文件区域内的特征向量的均值;
所述相似度阈值为t;t为正数;当r≥t时,图像文件所在区域与对应文本文件所在区域相似;当r<t时,图像文件所在区域与对应文本文件所在区域不相似。
当r=1时,说明图像文件与文本文件完全相似;当r=0时,说明图像文件与文本文件完全不相似;
为了更好地说明本发明实施例提供的维吾尔文图像文件的标注方法中余弦函数的应用,举一个实际的例子加以说明。
举例说明:以下为两个图像文件对应的两个文本文件的特征向量,具体数字对应于文本文件的特征向量x1,x2,…xn;图像文件的特征向量y1,y2…yn;
文本文件UB0001NN.txt的特征向量:
0,0,1,3,0,0,1,0,0,3,1,3,0,0,0,0,2,0,0,1,0,1,0,0,0,5,0,1,2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,1,2,0,0,0,0,0,0,1,7,0,0,0,0,2,2,1,0,0,0,0,0,5,5,6,4,0,0,0,0,0,0,1,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,0,1,0,0,0,0,0,3,1,2,0,0,0,0,2,1,0,1,0,0,0,0,2,1,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,2,1,0,0,0,4,2,2,6,0,2,0,0,1,1,3,2,1,0,0,0,2,4,0,1,0,0,0,0,0,1,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;
图像文件UB0001NN.GIF的特征向量:
0,0,1,3,0,0,1,0,0,3,1,3,0,0,0,0,2,0,0,1,0,1,0,0,0,5,0,1,2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,1,2,0,0,0,0,0,0,1,7,0,0,0,0,2,2,1,0,0,0,0,0,5,5,6,4,0,0,0,0,0,0,1,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,0,1,0,0,0,0,0,3,1,2,0,0,0,0,2,1,0,1,0,0,0,0,2,1,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,2,1,0,0,0,4,2,2,6,0,2,0,0,1,1,3,2,1,0,0,0,2,4,0,1,0,0,0,0,0,1,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;
文本文件UB0002NN.txt的特征向量:
3,1,5,1,1,0,0,0,3,1,2,2,0,1,0,0,2,3,3,5,1,0,0,0,1,1,3,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,1,4,0,0,0,0,6,9,4,0,0,0,0,0,2,3,2,1,0,1,0,1,5,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,2,4,1,0,0,0,0,0,1,5,3,2,0,0,1,0,1,4,4,3,1,0,0,0,1,4,2,4,1,0,0,0,0,0,1,2,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,2,2,4,0,0,1,0,0,1,3,1,2,0,0,0,0,2,0,3,2,1,0,0,0,2,1,1,0,1,0,0,0,2,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;
图像文件UB0002NN.GIF的特征向量:
2,2,1,0,1,0,0,0,3,2,2,3,0,1,0,0,1,1,3,2,1,0,0,0,1,1,2,1,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,3,0,3,1,0,0,0,2,5,7,1,0,0,0,0,1,3,4,2,0,0,1,1,5,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,1,0,0,0,0,0,1,3,3,3,0,0,1,0,1,4,4,4,2,0,0,0,1,4,1,2,2,0,0,0,0,0,2,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,2,4,1,0,1,0,0,4,3,0,1,0,0,0,0,1,0,3,1,1,0,0,0,1,1,1,0,1,0,0,0,3,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,1,1,0,0,0,0,1,0,0,0,0,0,0,1,2,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0;
通过余弦定理计算结果:
图像 | 文本 | 相似度 |
UB0001NN.GIF | UB0001NN.txt | 1 |
UB0001NN.GIF | UB0002NN.txt | 0.449831847 |
UB0002NN.GIF | UB0002NN.txt | 0.868155331 |
UB0002NN.GIF | UB0001NN.txt | 0.499244382 |
例如:当r≥0.8时被认为相似;当r=1时;认为完全相似。
当r<0.8时被认为不相似(即文本文件所在区域或是子区域内存在错误的标注信息)。
本领域技术人员应该可以理解,本发明实施例提供维吾尔文图像文件标注方法,能够在指定的目录中查询相似的文本文件,自动找到相似部分和不相似特征向量,并确定不相似单词或连体段所在区域,利用数字图像处理技术结合文件特征向量的相似性特点,采用二分法迭代原理,从而快速地查找到了文本文件中的错误标注信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种维吾尔文图像文件的标注方法,其特征在于,包括如下步骤:
预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件;
在标注每一页图像文件对应的文本文件的标注信息时,提取每页图像文件的特征向量和对应的文本文件的特征向量,利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息;
对不相似的单词图像对应的错误标注信息进行校正,再执行标注操作;
所述图像文件包括多个维吾尔文扫描图像文件;所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件;
所述提取每页图像文件的特征向量和对应的文本文件的特征向量,包括如下步骤:
在图像文件中,通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计,获取图像特征向量;
在文本文件中,通过对所有的单词之间所包含空格的统计,获取标注信息特征向量;
其中,所述单词包括一个或多个连体段。
2.如权利要求1所述的维吾尔文图像文件的标注方法,其特征在于,
所述在图像文件中,通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计,获取图像特征向量,包括如下步骤:
在图像文件中,求取各个单词之间的间隔宽度GWj及各个连体段之间的间隔宽度GWj,其中:j=1、2、3…m,m为常数;
预设宽度阈值TW作为单词界限,在整页图像文件的区域中,依照由上到下,从右向左的顺序计算相邻的每两个连体段的间隔宽度GWj;
判断GWj与TW的大小关系,若GWj大于或等于TW,则判定两个相邻的连体段之间的间隔为不同单词图像之间的空白,并确定单词图像的一个边界,经过多次判断确定单词图像的另一个边界,确定完整的单词图像;若GWj小于TW,则判定两个相邻的连体段之间的间隔为同一单词图像之间的间隙;
计算得到每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数,单词数,并作为图像文件的特征向量;
其中,单词图像之间的间隔称为空白,同一单词图像内部的连体段之间的间隔称为间隙。
3.如权利要求2所述的维吾尔文图像文件的标注方法,其特征在于,
所述在文本文件中,通过对所有的单词之间所包含空格的统计,获取标注信息特征向量,包括如下步骤:
在整页文本文件的区域中,依照由上到下,从右向左的顺序查找空格,经过查找确定完整的单词;
计算得到每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数,单词数,并作为文本文件的特征向量;
其中,相邻的不同单词之间包括一个空格,单词中的连体段由维吾尔文11个字母: 确定。
4.如权利要求3所述的维吾尔文图像文件的标注方法,其特征在于,
所述利用余弦函数计算并分析图像文件与文本文件特征向量相似性,在每一页图像文件与对应的每一页文本文件的区域中,利用二分法迭代计算相似性,查找相似单词图像及对应的标注信息进行标注,缩小错误标注信息所在区域,最终查找不相似的单词图像对应的错误标注信息,包括如下步骤:
利用二分法初始化查找处理时,将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域,利用余弦函数分别计算两个子区域内图像文件的特征向量与对应的子区域内文本文件的特征向量的相似度值,判断相似度值是否大于相似度阈值;若是,则判定单词图像标注信息正确,对相似单词图像部分进行自动标注;
若否,则判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息,在含有错误标注信息的子区域内继续利用二分法迭代查找确定单词的位置,并不断缩小错误标注信息所在区域,最终确定不相似的单词图像以及单词图像对应的错误标注信息。
5.如权利要求4所述的维吾尔文图像文件的标注方法,其特征在于,
所述余弦函数为:
其中,图像文件的特征向量为xi;i=1、2、3…n,n为常数;文本文件的特征向量为yi;i=1、2、3…n,相似度值为r;
所述图像文件的特征向量包括每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数,单词数的特征向量;
所述文本文件的特征向量包括每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数,单词数的特征向量;
为图像文件区域内的特征向量的均值;为文本文件区域内的特征向量的均值;
所述相似度阈值为t;t为正数;当r≥t时,图像文件所在区域与对应文本文件所在区域相似;当r<t时,图像文件所在区域与对应文本文件所在区域不相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310244905.9A CN103345481B (zh) | 2013-06-19 | 2013-06-19 | 一种维吾尔文图像文件的标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310244905.9A CN103345481B (zh) | 2013-06-19 | 2013-06-19 | 一种维吾尔文图像文件的标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103345481A CN103345481A (zh) | 2013-10-09 |
CN103345481B true CN103345481B (zh) | 2016-08-24 |
Family
ID=49280276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310244905.9A Expired - Fee Related CN103345481B (zh) | 2013-06-19 | 2013-06-19 | 一种维吾尔文图像文件的标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103345481B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106155994B (zh) * | 2016-06-30 | 2019-04-26 | 广东小天才科技有限公司 | 一种页面内容的比较方法及装置、终端设备 |
CN108197520A (zh) * | 2017-12-29 | 2018-06-22 | 苏州德创测控科技有限公司 | 一种标签检测方法及检测装置 |
CN113033728B (zh) * | 2021-03-02 | 2024-03-08 | 岭东核电有限公司 | 核电定期试验中的试验设备确定方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419606A (zh) * | 2008-11-13 | 2009-04-29 | 浙江大学 | 一种基于语义和内容的半自动图像标注方法 |
CN101571921A (zh) * | 2008-04-28 | 2009-11-04 | 富士通株式会社 | 关键字识别方法和装置 |
CN101587478A (zh) * | 2008-05-20 | 2009-11-25 | 株式会社理光 | 图像训练、自动标注、检索方法及装置 |
CN102117337A (zh) * | 2011-03-31 | 2011-07-06 | 西北工业大学 | 一种融合空间信息的Bag of Words图像检索方法 |
CN102542067A (zh) * | 2012-01-06 | 2012-07-04 | 上海交通大学 | 基于尺度学习和关联标号传播的自动图像语义标注方法 |
-
2013
- 2013-06-19 CN CN201310244905.9A patent/CN103345481B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571921A (zh) * | 2008-04-28 | 2009-11-04 | 富士通株式会社 | 关键字识别方法和装置 |
CN101587478A (zh) * | 2008-05-20 | 2009-11-25 | 株式会社理光 | 图像训练、自动标注、检索方法及装置 |
CN101419606A (zh) * | 2008-11-13 | 2009-04-29 | 浙江大学 | 一种基于语义和内容的半自动图像标注方法 |
CN102117337A (zh) * | 2011-03-31 | 2011-07-06 | 西北工业大学 | 一种融合空间信息的Bag of Words图像检索方法 |
CN102542067A (zh) * | 2012-01-06 | 2012-07-04 | 上海交通大学 | 基于尺度学习和关联标号传播的自动图像语义标注方法 |
Non-Patent Citations (1)
Title |
---|
维吾尔文联机手写识别的预处理和特征提取;阿力木江·亚森等;《新疆大学学报(自然科学版)》;20100531;第27卷(第2期);232-241 * |
Also Published As
Publication number | Publication date |
---|---|
CN103345481A (zh) | 2013-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021223B (zh) | 一种句子相似度的计算方法及系统 | |
Mihalcea | Language independent extractive summarization | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
US20150095769A1 (en) | Layout Analysis Method And System | |
CN104679728A (zh) | 一种文本相似度检测方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
Deschacht et al. | Text analysis for automatic image annotation | |
CN106127265B (zh) | 一种基于激活力模型的图片中文本识别纠错方法 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN105183715B (zh) | 一种基于词分布和文档特征的垃圾评论自动分类方法 | |
CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
CN106055667A (zh) | 一种基于文本‑标签密度的网页核心内容提取方法 | |
CN103345481B (zh) | 一种维吾尔文图像文件的标注方法 | |
CN108268440A (zh) | 一种未登录词识别方法 | |
CN108920482A (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN112084451B (zh) | 一种基于视觉分块的网页logo提取系统及方法 | |
CN109165382A (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
CN106529492A (zh) | 面向网络查询基于多图融合视频主题分类与描述方法 | |
Gordo et al. | Document classification and page stream segmentation for digital mailroom applications | |
CN110516257A (zh) | 一种基于边界识别与组合的裁判文书证据抽取方法 | |
Kaplan et al. | Citation block determination using textual coherence | |
CN102737045B (zh) | 一种相关度计算方法和装置 | |
CN101004753A (zh) | 一种概念型文档的识别方法和系统 | |
CN108763218A (zh) | 一种基于crf的影视检索实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent for invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Halimulati.Maimaiti Inventor after: Erkin Sevdin Inventor before: Halimulati.Maimaiti |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: HALIMULATI MAIMAITI TO: HALIMULATI MAIMAITI ARKEN SAIFUDING |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 Termination date: 20170619 |