CN103345481B

CN103345481B - 一种维吾尔文图像文件的标注方法

Info

Publication number: CN103345481B
Application number: CN201310244905.9A
Authority: CN
Inventors: 哈力木拉提·买买提; 艾尔肯·赛甫丁
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2013-06-19
Filing date: 2013-06-19
Publication date: 2016-08-24
Anticipated expiration: 2033-06-19
Also published as: CN103345481A

Abstract

本发明公开了一种维吾尔文图像文件的标注方法，包括：预先存储经扫描图像文件以及与图像文件一一对应的文本文件；在标注每一页图像文件对应的文本文件的标注信息时，提取每页图像文件的特征向量和对应的文本文件的特征向量，利用余弦函数计算并分析图像文件与文本文件特征向量相似性，在每一页图像文件与对应的每一页文本文件的区域中，利用二分法迭代计算相似性，查找相似单词图像及对应的标注信息进行标注，缩小错误标注信息所在区域，最终查找不相似的单词图像对应的错误标注信息并校正标注。本发明提供的标注方法，利用数字图像处理技术结合文件特征向量的相似性特点，采用二分法迭代原理，快速地查找到文本文件中的错误标注信息并标注。

Description

一种维吾尔文图像文件的标注方法

技术领域

本发明涉及维吾尔文字识别领域，尤其涉及一种维吾尔文图像文件的标注方法。

背景技术

维吾尔文是新疆等地少数民族所使用的拼音文字。现行维吾尔文有32个字母，自右至左横书。每个字母按出现在单词首、单词中、单词末的位置有不同的形式。维吾尔文形成图像文件时，根据实际需要对文件（例如：出版物上的维吾尔文）进行扫描得到图像文件，然后进行识别图像文件上的维吾尔文工作。

在识别维吾尔文之前还需要对图像文件中图像单词进行标注工作（即将图像文件与文本文件的内容一一对应起来），其工作难点在于：如何正确的标注图像文件的标注信息。然而在现有技术中，图像文件通过人工标注文本信息，其缺点在于人工标注效率很低，另外很容易出现错误的标注信息，然而由于数据处理量较大，通过人工操作方法在大量的文本文件中找到错误标注信息再进行校正和标注，同样会浪费很长的时间，这样整个标注过程的处理效率都很难得到保障。

发明内容

本发明的目的在于提供一种维吾尔文图像文件的标注方法，以解决上述问题。

为了达到上述目的，本发明的技术方案是这样实现的：

一种维吾尔文图像文件的标注方法，包括如下步骤：

预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件；

在标注每一页图像文件对应的文本文件的标注信息时，提取每页图像文件的特征向量和对应的文本文件的特征向量，利用余弦函数计算并分析图像文件与文本文件特征向量相似性，在每一页图像文件与对应的每一页文本文件的区域中，利用二分法迭代计算相似性，查找相似单词图像及对应的标注信息进行标注，缩小错误标注信息所在区域，最终查找不相似的单词图像对应的错误标注信息；

对不相似的单词图像对应的错误标注信息进行校正，再执行标注操作；

所述图像文件包括多个维吾尔文扫描图像文件；所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件。

与现有技术相比，本发明实施例的优点在于：

本发明提供的一种维吾尔文图像文件的标注方法，包括如下步骤：

首先，预先存储经扫描处理的多个图像文件以及与所述图像文件一一对应的文本文件；这是实现查找错误标注信息的预处理过程。

然后，提取每个页图像文件的图像特征向量和对应的每页文本文件的特征向量，并分析图像文件的特征向量与文本文件的特征向量的相似性；显然每页图像文件中的单词图像与文本文件中的单词标注信息都是一一对应的，如果两个文件相似度很高，那么图像文件中的单词图像被文本单词正确标注；相反地，如果不相似，那么说明图像文件中的单词图像存在错误标注。

利用上述原理并结合二分法迭代计算相似性查找错误标注信息，在不断的使用二分法的过程中，不断地缩小不相似区域，并最终确定错误标注信息；利用二分法初始化查找时，将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域，判断当前图像文件的子区域与当前文本文件的子区域相似性，若相似，则说明单词图像标注信息正确，对相似单词图像部分进行自动标注；若不相似，则可以判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息。然后将在含有错误标注信息的子区域继续分成两个等分子区域，再判定相似性，不断缩小错误标注信息的区域，最终确定单词的精确区域位置，这样经过二分法迭代（多次）查找后，并最终确定不相似的单词图像以及单词图像对应的错误标注信息。对不相似的单词图像对应的错误标注信息进行校正标注信息，再执行标注操作；这样便可以完成了完整的自动标注流程。

本发明提供的维吾尔文图像文件的标注方法，利用数字图像处理技术结合文件特征向量的相似性特点，采用二分法迭代原理，从而快速地查找到了文本文件中的错误标注信息。

附图说明

图1为本发明实施例提供的维吾尔文图像文件的标注方法的流程示意图。

具体实施方式

下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。

参见图1，本发明实施例提供了一种维吾尔文图像文件的标注方法，包括如下步骤：

步骤S100、预先存储经扫描图像文件以及与所述图像文件一一对应的文本文件；

步骤S200、在标注每一页图像文件对应的文本文件的标注信息时，提取每页图像文件的特征向量和对应的文本文件的特征向量，利用余弦函数计算并分析图像文件与文本文件特征向量相似性，在每一页图像文件与对应的每一页文本文件的区域中，利用二分法迭代计算相似性，查找相似单词图像及对应的标注信息进行标注，缩小错误标注信息所在区域，最终查找不相似的单词图像对应的错误标注信息；

步骤S300、对不相似的单词图像对应的错误标注信息进行校正，再执行标注操作；

在本发明实施例中，首先，预先存储经扫描处理的多个图像文件以及与所述图像文件一一对应的文本文件；这是实现查找错误标注信息的预处理过程。

本发明实施例提供的维吾尔文图像文件的标注方法，利用数字图像处理技术结合二分法迭代的原理（具体利用了余弦函数的算法进行相似性迭代计算），从而快速地查找到了文本文件中的错误标注信息。

其基本原理为：获取图像文件和其所对应的文本文件的共同全局特征，图像文件内容为标注对象，利用余弦公式检测在指定位置（如文件夹）与每个文本文件的相似度，当它们足够相似时，再进一步通过不断缩小区域的方式（二分法迭代查找）寻找不太相似单词或连体段所在区域位置。对于有相似特征图像单词或连体段由对应文本文件的单词或连体段标注，对于不太相似的可进行人工标注。

下面对上述各步骤进行详细说明：

在执行获取图像文件的特征向量的操作时，包括如下流程：

在扫描页的图像文本中，经预理后，可以获得图像文本行和及连通域。把连通域作为连体段，那么单词由一个或多个连体段构成。单词之间较大间隔称为空白，连体段之间较小的间隔称为间隙。设连体段间的空白间隔宽度为GWj，其中j=1,2,…m;由统计得到宽度阈值TW作为单词界限，在图像文件中，由上到下，从右向左顺序计算GWj，当GWj>TW时,说明是单词间空白，从而得到单词图像。统计推算出图像文件中的单词数、连体段数、行数；由1个连体段构成单词、由2个连体段构成单词，…，由n个体段构成单词的特征向量；与前一个连体段相关的特征向量。

在执行获取文本文件的特征向量的操作时，包括如下流程：

同样提取与图像文件类似特征，在文本文件中，单词是由空格区分，单词中的连体段由维吾尔文字母11个字母确定，同样可统计出文本文件中的单词个数，连体段个数以及与图像文件相同的特征向量。

具体地，在步骤S200中，所述提取每页图像文件的特征向量和对应的文本文件的特征向量，包括如下步骤：

步骤S210、在图像文件中，通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计，获取图像特征向量；

步骤S220、在文本文件中，通过对所有的单词之间所包含空格的统计，获取标注信息特征向量；

其中，所述单词包括一个或多个连体段。

较佳地，在步骤S210中，所述在图像文件中，通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计，获取图像特征向量，包括如下步骤：

步骤S211、在图像文件中，求取各个单词之间的间隔宽度GWj及各个连体段之间的间隔宽度GWj，其中：j=1、2、3…m，m为常数；

步骤S212、预设宽度阈值TW作为单词界限，在整页图像文件的区域中，依照由上到下，从右向左的顺序计算相邻的每两个连体段的间隔宽度GWj；

步骤S213、判断GWj与TW的大小关系，若GWj大于或等于TW，则判定两个相邻的连体段之间的间隔为不同单词图像之间的空白，并确定单词图像的一个边界，经过多次判断确定单词图像的另一个边界，确定完整的单词图像；若GWj小于TW，则判定两个相邻的连体段之间的间隔为同一单词图像之间的间隙；

步骤S214、计算得到每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数，单词数，并作为图像文件的特征向量；

其中，单词图像之间的间隔称为空白，同一单词图像内部的连体段之间的间隔称为间隙。

较佳地，在步骤S220中，所述在文本文件中，通过对所有的单词之间所包含空格的统计，获取标注信息特征向量，包括如下步骤：

步骤S221、在整页文本文件的区域中，依照由上到下，从右向左的顺序查找空格，经过查找确定完整的单词；

步骤S222、计算得到每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数，单词数，并作为文本文件的特征向量；

其中，相邻的不同单词之间包括一个空格，单词中的连体段由维吾尔文11个字母:确定。

较佳地，在步骤S200中，所述利用余弦函数计算并分析图像文件与文本文件特征向量相似性，在每一页图像文件与对应的每一页文本文件的区域中，利用二分法迭代计算相似性，查找相似单词图像及对应的标注信息进行标注，缩小错误标注信息所在区域，最终查找不相似的单词图像对应的错误标注信息，包括如下步骤：

步骤S230、利用二分法初始化查找处理时，将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域，利用余弦函数分别计算两个子区域内图像文件的特征向量与对应的子区域内文本文件的特征向量的相似度值，判断相似度值是否大于相似度阈值；若是，则判定单词图像标注信息正确，对相似单词图像部分进行自动标注；

步骤S240、若否，则判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息，在含有错误标注信息的子区域内继续利用二分法迭代查找确定单词的位置，并不断缩小错误标注信息所在区域，最终确定不相似的单词图像以及单词图像对应的错误标注信息。

举例说明：利用二分法不断缩小查找不太相似区域。设相似度值阈值为t，设文件为区域Q，求文件间的相似度r，当r≥t，说明两个文件相似，二分区域Q为Q1,Q2，计算Q1的相似度r，当r≥t，Q1区域相似；不太相似单词肯定在Q2区域。通过不断缩小检测相似度范围，寻找r<t时的范围，找到不相似的文本行，用人工编辑文本文件中相应的单词或连体段，而相似区域单词或连体段由对应的文本文件自动标注。

需要说明的是，较佳地，所述余弦函数为：

r = \frac{Σ (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ {(x_{i} - \overset{&OverBar;}{x})}^{2}} \sqrt{Σ {(y_{i} - \overset{&OverBar;}{y})}^{2}}}

其中，图像文件的特征向量为xi；i=1、2、3…n，n为常数；文本文件的特征向量为yi；i=1、2、3…n，相似度值为r；

所述图像文件的特征向量包括每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数，单词数的特征向量；

所述文本文件的特征向量包括每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数，单词数的特征向量；

为图像文件区域内的特征向量的均值；为文本文件区域内的特征向量的均值；

所述相似度阈值为t；t为正数；当r≥t时，图像文件所在区域与对应文本文件所在区域相似；当r＜t时，图像文件所在区域与对应文本文件所在区域不相似。

当r=1时，说明图像文件与文本文件完全相似；当r=0时，说明图像文件与文本文件完全不相似；

为了更好地说明本发明实施例提供的维吾尔文图像文件的标注方法中余弦函数的应用，举一个实际的例子加以说明。

举例说明：以下为两个图像文件对应的两个文本文件的特征向量，具体数字对应于文本文件的特征向量x1,x2,…xn;图像文件的特征向量y1,y2…yn;

文本文件UB0001NN.txt的特征向量：

0,0,1,3,0,0,1,0,0,3,1,3,0,0,0,0,2,0,0,1,0,1,0,0,0,5,0,1,2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,1,2,0,0,0,0,0,0,1,7,0,0,0,0,2,2,1,0,0,0,0,0,5,5,6,4,0,0,0,0,0,0,1,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,0,1,0,0,0,0,0,3,1,2,0,0,0,0,2,1,0,1,0,0,0,0,2,1,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,2,1,0,0,0,4,2,2,6,0,2,0,0,1,1,3,2,1,0,0,0,2,4,0,1,0,0,0,0,0,1,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0；

图像文件UB0001NN.GIF的特征向量：

文本文件UB0002NN.txt的特征向量：

3,1,5,1,1,0,0,0,3,1,2,2,0,1,0,0,2,3,3,5,1,0,0,0,1,1,3,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,2,1,4,0,0,0,0,6,9,4,0,0,0,0,0,2,3,2,1,0,1,0,1,5,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,2,4,1,0,0,0,0,0,1,5,3,2,0,0,1,0,1,4,4,3,1,0,0,0,1,4,2,4,1,0,0,0,0,0,1,2,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,2,2,4,0,0,1,0,0,1,3,1,2,0,0,0,0,2,0,3,2,1,0,0,0,2,1,1,0,1,0,0,0,2,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0；

图像文件UB0002NN.GIF的特征向量：

2,2,1,0,1,0,0,0,3,2,2,3,0,1,0,0,1,1,3,2,1,0,0,0,1,1,2,1,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,3,0,3,1,0,0,0,2,5,7,1,0,0,0,0,1,3,4,2,0,0,1,1,5,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,1,0,0,0,0,0,1,3,3,3,0,0,1,0,1,4,4,4,2,0,0,0,1,4,1,2,2,0,0,0,0,0,2,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,2,4,1,0,1,0,0,4,3,0,1,0,0,0,0,1,0,3,1,1,0,0,0,1,1,1,0,1,0,0,0,3,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,1,1,0,0,0,0,1,0,0,0,0,0,0,1,2,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0；

通过余弦定理计算结果：

图像	文本	相似度
			UB0001NN.GIF	UB0001NN.txt	1
UB0001NN.GIF	UB0002NN.txt	0.449831847
			UB0002NN.GIF	UB0002NN.txt	0.868155331
UB0002NN.GIF	UB0001NN.txt	0.499244382

例如：当r≥0.8时被认为相似；当r=1时;认为完全相似。

当r＜0.8时被认为不相似（即文本文件所在区域或是子区域内存在错误的标注信息）。

本领域技术人员应该可以理解，本发明实施例提供维吾尔文图像文件标注方法，能够在指定的目录中查询相似的文本文件，自动找到相似部分和不相似特征向量，并确定不相似单词或连体段所在区域，利用数字图像处理技术结合文件特征向量的相似性特点，采用二分法迭代原理，从而快速地查找到了文本文件中的错误标注信息。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种维吾尔文图像文件的标注方法，其特征在于，包括如下步骤：

所述图像文件包括多个维吾尔文扫描图像文件；所述文本文件包括与多个维吾尔文扫描图像文件对应的标注信息文件；

所述提取每页图像文件的特征向量和对应的文本文件的特征向量，包括如下步骤：

在图像文件中，通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计，获取图像特征向量；

在文本文件中，通过对所有的单词之间所包含空格的统计，获取标注信息特征向量；

其中，所述单词包括一个或多个连体段。

2.如权利要求1所述的维吾尔文图像文件的标注方法，其特征在于，

所述在图像文件中，通过对所有的单词图像的宽度间隔的统计及每个单词中所包含连体段之间的宽度间隔的统计，获取图像特征向量，包括如下步骤：

在图像文件中，求取各个单词之间的间隔宽度GWj及各个连体段之间的间隔宽度GWj，其中：j＝1、2、3…m，m为常数；

预设宽度阈值TW作为单词界限，在整页图像文件的区域中，依照由上到下，从右向左的顺序计算相邻的每两个连体段的间隔宽度GWj；

判断GWj与TW的大小关系，若GWj大于或等于TW，则判定两个相邻的连体段之间的间隔为不同单词图像之间的空白，并确定单词图像的一个边界，经过多次判断确定单词图像的另一个边界，确定完整的单词图像；若GWj小于TW，则判定两个相邻的连体段之间的间隔为同一单词图像之间的间隙；

计算得到每个单词图像的连体段数、相邻连体段之间关联特征以及图像文件所在区域内的行数，单词数，并作为图像文件的特征向量；

3.如权利要求2所述的维吾尔文图像文件的标注方法，其特征在于，

所述在文本文件中，通过对所有的单词之间所包含空格的统计，获取标注信息特征向量，包括如下步骤：

在整页文本文件的区域中，依照由上到下，从右向左的顺序查找空格，经过查找确定完整的单词；

计算得到每个单词标注信息的连体段数、相邻连体段标注信息之间关联特征以及文本文件所在区域内的行数，单词数，并作为文本文件的特征向量；

其中，相邻的不同单词之间包括一个空格，单词中的连体段由维吾尔文11个字母: 确定。

4.如权利要求3所述的维吾尔文图像文件的标注方法，其特征在于，

所述利用余弦函数计算并分析图像文件与文本文件特征向量相似性，在每一页图像文件与对应的每一页文本文件的区域中，利用二分法迭代计算相似性，查找相似单词图像及对应的标注信息进行标注，缩小错误标注信息所在区域，最终查找不相似的单词图像对应的错误标注信息，包括如下步骤：

利用二分法初始化查找处理时，将整页图像文件的区域与对应的整页文本文件的区域均分为两个等分子区域，利用余弦函数分别计算两个子区域内图像文件的特征向量与对应的子区域内文本文件的特征向量的相似度值，判断相似度值是否大于相似度阈值；若是，则判定单词图像标注信息正确，对相似单词图像部分进行自动标注；

若否，则判定当前文本文件的子区域中含有与当前图像文件的子区域内单词图像对应的错误标注信息，在含有错误标注信息的子区域内继续利用二分法迭代查找确定单词的位置，并不断缩小错误标注信息所在区域，最终确定不相似的单词图像以及单词图像对应的错误标注信息。

5.如权利要求4所述的维吾尔文图像文件的标注方法，其特征在于，

所述余弦函数为：

r = \frac{Σ (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ {(x_{i} - \overset{&OverBar;}{x})}^{2}} \sqrt{Σ {(y_{i} - \overset{&OverBar;}{y})}^{2}}}

其中，图像文件的特征向量为xi；i＝1、2、3…n，n为常数；文本文件的特征向量为yi；i＝1、2、3…n，相似度值为r；