CN106844481B - 字体相似度及字体替换方法 - Google Patents
字体相似度及字体替换方法 Download PDFInfo
- Publication number
- CN106844481B CN106844481B CN201611208107.0A CN201611208107A CN106844481B CN 106844481 B CN106844481 B CN 106844481B CN 201611208107 A CN201611208107 A CN 201611208107A CN 106844481 B CN106844481 B CN 106844481B
- Authority
- CN
- China
- Prior art keywords
- font
- chinese character
- text block
- character text
- equal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Controls And Circuits For Display Device (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种字体相似度和字体替换方法,包括:步骤1、根据预设的影响字体视觉效果的属性值,分别构造汉字文本块图像,以生成汉字文本块图像样本库;其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;步骤2、计算汉字文本块图像集合的纹理特征值;步骤3、采用静态替换方法或动态替换方法对缺失的字体进行替换。
Description
技术领域
本发明涉及数据处理技术领域,尤其是指一种字体相似度和字体替换方法。
背景技术
字体是文字的表现形式。在文艺作品中,字体即是语言文字的载体,其丰富的外在形式又形成了独有的字体艺术。印刷字体的选用一般与印刷内容相关,可以区分标题的主次和篇章的重点;以中文来说,例如黑体庄重,适合标题;宋体浓淡适中,适合阅读;仿宋秀丽轻盈,适合出版古籍和诗歌。对于信息时代的数字出版而言,计算机字体是出版物构成的基础要素。
一般来说,当出现字体缺失的时候,阅读器处理方式一般包括:
1)文字不出现,用空缺符号表示;这种处理方式会严重影响对文章内容的理解;
2)采用缺省字体显示;这种方式不影响对内容的理解,但是会影响排版的效果,或导致跑版;
3)采用替代字体;一些阅读器厂商内置了一些替代字体方案,当某种字体不存在时,会用另一种字体替代;这种方式既可以保证文章内容得以呈现,又可以尽可能好地保证版面效果。但是这种方式仍然也还存在问题:如果替代字体也不存在如何处理?如何确定最优视觉效果的替代字体?
想要找到最佳的替代字体就需要一种字体分类处理方法,能够将最“相似”的字体归到同一种类之中;这样就可以在进行字体替代的时候用同一类的字体相互替代。但是现有技术中缺少很好的字体分类处理方法。
发明内容
针对现有技术中存在的问题,本发明要解决的技术问题是提供一种字体相似度和字体替换方法,能够简单准确的对字体进行识别分类,以提高文字处理的准确性。
为了解决上述问题,本发明实施例提出了一种字体相似度和字体替换方法,包括:
步骤1、根据预设的影响字体视觉效果的属性值,分别构造汉字文本块图像,以生成汉字文本块图像样本库;其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;
步骤2、计算汉字文本块图像集合的纹理特征值;
步骤3、采用静态替换方法或动态替换方法对缺失的字体进行替换;
其中,所述步骤1具体包括:利用常用汉字,根据预设的影响字体视觉效果的属性值,如字体、字号、行间距、字符间距、字型等属性,构造出不同的汉字文本块,以构建汉字文本块图像样本库,其中,
不同字体,记为集合A={a1,a2,a3...ai...an}(1≤n≤k1);
不同字号,记为集合B={b1,b2,b3...bi...bn}(1≤n≤k2);
不同行间距,记为集合C={c1,c2,c3…ci…cn}(1≤n≤k3);
不同字符间距,记为集合D={d1,d2,d3…di…dn}(1≤n≤k4);
不同字型,记为集合E={e1,e2,e3,e4},4种字型分别为标准体、粗体、斜体、粗斜体。
其中,步骤2具体包括:
步骤21、构建汉字文本块图像样本库,其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;其中每一汉字文本块图像为M×N像素;根据属性值将汉字文本图像进行分类,构成集合W,记为
W={wi|i∈R,且1≤i≤k1×k2×k3×k4×4};其中R为实数
每一类文本图像记为
wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;
步骤22、分别从wi(i=1,2,3......)中选取m(m≥2)幅汉字文本块图像,构成集合Ui;
步骤23、分别提取m幅汉字文本块图像的纹理特征,得到m幅汉字文本块图像的纹理特征向量;其中m≥2;
步骤24、计算m个纹理特征向量的质心Yi,即为第i类汉字文本块wi的特征向量。
其中,所述步骤23中采用Garbor小波纹理特征提取算法提取纹理特征向量;具体包括:
步骤2311,对每幅汉字文本块图像进行Gabor小波变换,选用二维Gabor滤波函数:
其中,Sx、Sy是变量在x轴、y轴变化的范围,即选定的gabor小波的窗口的大小;f为正弦函数的频率;theta为Gabor滤波器的方向;
其中
xp=x*cos(theta)+y*sin(theta)
yp=y*cos(theta)-x*sin(theta)
其中,x∈Sx,y∈Sy,theta为Gabor滤波器的方向,xp为汉字文本块图像通过theta方向的gabor滤波器,在x轴方向上的能量值;yp为汉字文本块图像通过theta方向的gabor滤波器,在y轴方向上的能量值;得到多个不同通道图像;
步骤2312,对滤波后的图像做傅里叶变换,将图像变换到频域,将图像做归一化处理;
步骤2313,分别提取每幅图像多个纹理特征以得到多维特征向量;其中纹理特征包括但不限于:提取图像的平均值Mean、标准偏差Std;其中每个通道输出图像的平均值Mean和标准偏差Std分别为:
其中,h(x,y)为汉字文本块图像在点(x,y)的灰度值。
经过发明人的详尽试验,本发明实施例中不仅仅可以利用Gabor小波纹理特征提取算法提取纹理特征向量;事实上在大多数已有的纹理特征提取算法中,本发明实施例都可以取得令人满意的结果。因此采用Gabor小波纹理特征提取算法只是为了举例说明,而非对本发明实施例的限定。
其中,所述步骤3具体中利用K-means聚类算法得到每一类wi的纹理特征向量Yi,具体包括:
其中,步骤32中通过以下公式计算两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的欧氏距离作为字体相似度度:
其中,其中步骤32中通过以下四种公式中的任一种计算两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离作为字体相似度:
个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的欧氏距离作为字体相似度度:
或
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离为曼哈顿距离,通过以下公式计算:
或
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离为标准化欧氏距离,通过以下公式计算:
其中,Sk为标准差分量,记为,
或
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离为向量余弦,通过以下公式计算:
经过发明人的详尽试验,本发明实施例中不仅仅可以利用曼哈顿距离、标准欧氏距离、向量余弦三种度量向量相似度方法;事实上在大多数相似度计算方法中,本发明技术仍能取得令人满意的结果。其实还有很多字体相似度的计算方法,并非只有文中提到的这三种方法。因此采用Gabor小波纹理特征提取算法只是为了举例说明,而非对本发明实施例的限定。
其中,所述静态替换方法包括:
步骤4、对每一类汉字文本块wi,将其他文本块按照与wi的相似度由大到小顺序排序;得到第i类文本块wi的相似度链表,构建替换规则表;
步骤5:已知待显示文档中文本字体、字号、行间距、字符间距及字型的属性值;判断阅读器系统中是否存在待显示文档文本块图像的文本字体,若系统中不存在该汉字文本块图像文本的字体,根据待显示文档文本字体替换规则的建立,通过查询替换规则表,寻找最优视觉效果替换字体;
步骤6:静态替换方法,通过查询替换规则表,查找替换字体,具体步骤包括:
步骤6.1:在替换规则表中,查询第一列,定位待显示文档字体所在的行。如果替换规则表中不存在待显示文档字体,则默认选取宋体,字号、行间距、字符间距等属性与待显示文档相同。如果替换规则表中存在待显示文档字体,则筛选与该字体相关的所有行,继续执行步骤6.2。
步骤6.2:在步骤6.1筛选出的行中,查询第二列,定位待显示文档字号所在的行。如果不存在待显示文档字号,则选取与其字号差别最小的行,并筛选与该字号相关的所有行,继续执行步骤6.3。
步骤6.3:在步骤6.2筛选出的行中,查询第三列,定位待显示文档行间距所在的行。如果不存在待显示文档行间距,则选取与其行间距差别最小的行,并筛选与该行间距相关的所有行,继续执行步骤6.4。
步骤6.4:在步骤6.3筛选出的行中,查询第四列,定位待显示文档字符间距属性。如果不存在待显示文档字符间距,则选取与其字符间距差别最小的行,并筛选与该字符间距相关的所有行,继续执行步骤6.5。
步骤6.5:在步骤6.4筛选出的行中,查询第五列,定位字型属性,并得到相似度链表。从相似度链表的第一个节点开始,找到第一个阅读器拥有的字体,即为替换字体。
其中,所述动态替换方法包括:
步骤4、根据步骤2-3获取的不同属性的文本格式的汉字文本块图像的纹理特征向量,构建每一类汉字文本块图像的纹理特征值的数据集合,并对该纹理特征值的数据集合,对搜索空间进行层次划分,构建空间索引树;
步骤5、已知待显示文档中文本字体、字号、行间距、字符间距及字型的属性值;判断阅读器系统中是否存在待显示文档文本块图像的文本字体,根据步骤4中空间索引树的建立,为汉字文本块图像的纹理特征值建立索引。
其中,所述建立索引的方法具体包括:
步骤5.1:输入需要待显示的汉字文本块图像的纹理特征值,通过遍历步骤4构建的空间索引树,得到与待显示汉字文本块图像中最相似的k种字体,k种字体按照与待显示文档相似度由大到小的顺序排序,并依次判断系统中是否存在这些字体;如果系统中存在汉字文本块图像替换字体,则进行替换,如果系统中不存在替换字体,则查询下一种最相近字体;
步骤5.2:如果阅读器系统中不存在步骤5.1中得到的k种近邻字体,则将步骤4中构建的空间索引树中的k种字体节点删除,得到新的索引树,重复步骤5.2。
本发明的上述技术方案的有益效果如下:本发明实施例提出了一种字体相似度和字体替换方法,构造一种基于最优视觉效果的字体分类方法,将视觉上相似的字体归为一类,为字体替代奠定基础,填补字体分类没有确定分类原则的空白。同时本发明实施例建立了字体替换的规则,解决电子出版物在多种平台上阅读时,字体替换使用私有的技术,造成风格不一致,版面不美观,甚至出现错误(简繁体)的问题。本发明实施例研究最优视觉效果字体替换方法,静态替换方法,根据字体替换规则的建立来构建替换查询树,动态替换方法,通过K-d Tree、Ball Tree或者R-Tree等算法,构建汉字文本块图像的纹理特征值大规模空间数据索引,然后对搜索空间进行层次划分,再进行k-近邻查询,保证搜索的效率;当待显示文档字体缺失时,准确、高效地找到最优视觉效果的替换字体。
附图说明
图1为本发明实施例的出版物字体替换框架示意图;
图2为本发明实施例的出版物字体替换查询树叶子相似度链表节点示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提出了一种字体相似度和字体替换方法,该方法典型的可以用于基于出版物的字体相似度计算和替换。本发明实施例的方法可以分为静态替换方法和动态替换方法,本发明对这两个方法作为两个实施例来进行说明,以便于理解。
对于静态字体替换方法,具体步骤如下:
一、出版物字体相似度的计算方法
步骤1:样本集的构造。
利用常用汉字,根据预设的影响字体视觉效果的属性值,如字体、字号、行间距、字符间距、字型等属性,构造出不同的汉字文本块,以得到汉字文本块图像,其中,
不同字体,记为集合A={a1,a2,a3...ai...an}(1≤n≤k1);
不同字号,记为集合B={b1,b2,b3...bi...bn}(1≤n≤k2);
不同行间距,记为集合C={c1,c2,c3…ci…cn}(1≤n≤k3);
不同字符间距,记为集合D={d1,d2,d3…di…dn}(1≤n≤k4);
不同字型,记为集合E={e1,e2,e3,e4},4种字型分别为标准体、粗体、斜体、粗斜体。
步骤2:计算汉字文本块图像集合的纹理特征值。
步骤2.1:构建汉字文本块图像样本库,其中所述汉字文本块图像包括n×n(n≥2)个不交叠的汉字;根据属性值的不同,将汉字文本图像分为若干类,构成集合W,记为
W={wi|i∈R(R为实数)且1≤i≤k1×k2×k3×k4×4};
每一类文本图像记为
wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;
步骤2.2:分别从wi(i=1,2,3......)中选取m(m≥2)幅汉字文本块图像,构成集合Ui。
步骤2.3:利用纹理特征提取方法,例如,用Garbor小波纹理特征提取算法,对m(m≥2)幅汉字文本块图像分别进行Gabor小波变换,分别提取每幅图像的多个通道的均值和标准偏差等纹理特征,得到m幅汉字文本块图像的纹理特征向量,再利用K-means等聚类算法计算m个纹理特征向量的质心Yi,即为第i类汉字文本块wi的特征向量。
关于字体相似度处理方法,以下列举Gabor小波纹理特征提取方法,其特征在于,所述方法具体包括:
步骤2.3.1:对每幅汉字文本块图像进行Gabor小波变换,选用二维Gabor滤波函数:
其中,Sx、Sy是变量在x轴、y轴变化的范围,即选定的gabor小波的窗口的大小;f为正弦函数的频率;theta为Gabor滤波器的方向;
其中
xp=x*cos(theta)+y*sin(theta)
yp=y*cos(theta)-x*sin(theta)
其中,x∈Sx,y∈Sy,theta为Gabor滤波器的方向,xp为汉字文本块图像通过theta方向的gabor滤波器,在x轴方向上的能量值;yp为汉字文本块图像通过theta方向的gabor滤波器,在y轴方向上的能量值;
得到多个不同通道图像;
步骤2.3.2:对滤波后的图像做傅里叶变换,将图像变换到频域,将图像做归一化处理;
步骤2.3.3:分别提取每幅图像的多个通道的均值和标准偏差等纹理特征,得到多维特征向量,例如提取图像的平均值(Mean)和标准偏差(Std)表示纹理特征。每个通道输出图像的平均值Mean和标准偏差Std分别为:
其中,h(x,y)为汉字文本块图像在点(x,y)的灰度值。
需要指出的是,本发明技术并不局限于以上所提到的汉字文本块纹理特征提取方法,一方面,这里选择将汉字文本块图像变换到频域上进行分析,目的是从视觉纹理特性的角度出发,提出一种字体相似度客观度量方法。另一方面,在大多数纹理特征提取算法上,本发明技术都能取得令人满意的结果。
步骤3:字体相似度的计算
步骤3.1:通过上述步骤,分别提取集合Ui中所有汉字文本块图像的纹理特征向量,利用K-means等聚类算法,得到每一类wi的质心纹理特征向量Yi,记为:
需要指出的是,本发明技术在计算每一类文本块的纹理特征时,并不仅仅局限于以上所提到的K-means聚类算法,可根据数据集的实际情况选择合适的算法,计算每一类wi的质心。
步骤3.2:对于计算两类汉字文本块wi与wj的纹理特征向量Yi与Yj之间的距离,也即这两类字体之间的相似度。方法如下:通过以下公式计算两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的欧氏距离:
需要指出的是,本发明技术并不局限于以上所提到的利用欧氏距离来作为字体相似度度量方法,其他距离计算方法同样适用。例如
(1)曼哈顿距离,记为,
(2)标准化欧氏距离,记为,
Sk为标准差分量,记为,
(3)向量之间的夹角余弦,记为,
需要指出的是,不仅仅是前述的欧氏距离、曼哈顿距离、标准欧氏距离、向量余弦这四种度量向量相似度的方法;事实上在大多数向量之间相似度计算方法上,本发明技术都能取得令人满意的结果。
步骤3.3:通过上述步骤计算Yi到Yj(j≠i)之间的相似度,构成n×n维的矩阵,得到不同字体之间的相似度。
二、待显示文档字体替换规则的建立
步骤4:待显示文档文本字体替换规则的建立。
步骤4.1:执行步骤1,得到汉字文本块图像样本库;
步骤4.2:重复执行步骤2和步骤3,得到文本格式属性不同对应的汉字文本块图像的纹理特征向量以及相似度;
步骤4.3:根据步骤3得到不同类汉字文本块图像之间的相似度,对于每一类汉字文本块图像wi,选取多个与其最相似的汉字文本块图像类别,并按照与wi的相似度由大到小的顺序排序,得到第i类汉字文本块图像wi的相似度链表,记为Li,相似度链表Li中的每一个节点node(j),表示wi的第j个相似度节点,即替换字体节点,记为node(j)={dij、aj、bj、cj、dj、ej}。
其中,dij是第i类汉字文本块图像wi和第j类汉字文本块图像wj的相似度,aj是第j类汉字文本块图像wj的字体属性,bj是第j类汉字文本块图像wj中的字号属性,cj是第j类汉字文本块图像wj中的行间距属性,dj是第j类汉字文本块图像wj中的字符间距属性,ej是第j类汉字文本块图像wj中的字型属性。由此可以建立字体的替换规则表,如表1和表2所示,其中最后一栏为对应的相似度链表。三、最优视觉效果字体替换方法
步骤5:已知待显示文档中文本字体、字号、行间距、字符间距及字型的属性值。判断阅读器系统中是否存在待显示文档文本块图像的文本字体,若系统中不存在该汉字文本块图像文本的字体,根据待显示文档文本字体,查询替换规则表,寻找最优视觉效果的替换字体。
步骤6:静态替换方法,通过查询替换规则表,查找替换字体。
静态替换方法,具体步骤包括:
步骤6.1:在替换规则表中,查询第一列,定位待显示文档字体所在的行。如果替换规则表中不存在待显示文档字体,则默认选取宋体,字号、行间距、字符间距等属性与待显示文档相同。如果替换规则表中存在待显示文档字体,则筛选与该字体相关的所有行,继续执行步骤6.2。
步骤6.2:在步骤6.1筛选出的行中,查询第二列,定位待显示文档字号所在的行。如果不存在待显示文档字号,则选取与其字号差别最小的行,并筛选与该字号相关的所有行,继续执行步骤6.3。
步骤6.3:在步骤6.2筛选出的行中,查询第三列,定位待显示文档行间距所在的行。如果不存在待显示文档行间距,则选取与其行间距差别最小的行,并筛选与该行间距相关的所有行,继续执行步骤6.4。
步骤6.4:在步骤6.3筛选出的行中,查询第四列,定位待显示文档字符间距属性。如果不存在待显示文档字符间距,则选取与其字符间距差别最小的行,并筛选与该字符间距相关的所有行,继续执行步骤6.5。
步骤6.5:在步骤6.4筛选出的行中,查询第五列,定位字型属性,并得到相似度链表。从相似度链表的第一个节点开始,找到第一个阅读器拥有的字体,即为替换字体。
表1替换规则表
表2替换规则实例表
动态替换方法,具体步骤如下:
一、出版物字体相似度的计算方法
步骤1:样本集的构造。
利用常用汉字,根据预设的影响字体视觉效果的属性值,如字体、字号、行间距、字符间距、字型等属性,构造出不同的汉字文本块,以得到汉字文本块图像,其中,
不同字体,记为集合A={a1,a2,a3...ai...an}(1≤n≤k1);
不同字号,记为集合B={b1,b2,b3...bi...bn}(1≤n≤k2);
不同行间距,记为集合C={c1,c2,c3…ci…cn}(1≤n≤k3);
不同字符间距,记为集合D={d1,d2,d3…di…dn}(1≤n≤k4);
不同字型,记为集合E={e1,e2,e3,e4},4种字型分别为标准体、粗体、斜体、粗斜体。
步骤2:计算汉字文本块图像集合的纹理特征值。
步骤2.1:构建汉字文本块图像样本库,其中所述汉字文本块图像包括n×n(n≥2)个不交叠的汉字;根据属性值的不同,将汉字文本图像分为若干类,构成集合W,记为
W={wi|i∈R(R为实数)且1≤i≤k1×k2×k3×k4×4};
每一类文本图像记为
wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;
步骤2.2:分别从wi(i=1,2,3......)中选取m(m≥2)幅汉字文本块图像,构成集合Ui。
步骤2.3:利用纹理特征提取方法,例如,用Garbor小波纹理特征提取算法,对m(m≥2)幅汉字文本块图像分别进行Gabor小波变换,分别提取每幅图像的多个通道的均值和标准偏差等纹理特征,得到m幅汉字文本块图像的纹理特征向量,再利用K-means等聚类算法计算m个纹理特征向量的质心Yi,即为第i类汉字文本块wi的特征向量。
关于字体相似度处理方法,以下列举Gabor小波纹理特征提取方法,其特征在于,所述方法具体包括:
步骤2.3.1:对每幅汉字文本块图像进行Gabor小波变换,选用二维Gabor滤波函数:
其中,Sx、Sy是变量在x轴、y轴变化的范围,即选定的gabor小波的窗口的大小;f为正弦函数的频率;theta为Gabor滤波器的方向;
其中
xp=x*cos(theta)+y*sin(theta)
yp=y*cos(theta)-x*sin(theta)
其中,x∈Sx,y∈Sy,theta为Gabor滤波器的方向,xp为汉字文本块图像通过theta方向的gabor滤波器,在x轴方向上的能量值;yp为汉字文本块图像通过theta方向的gabor滤波器,在y轴方向上的能量值;
得到多个不同通道图像;
步骤2.3.2:对滤波后的图像做傅里叶变换,将图像变换到频域,将图像做归一化处理;
步骤2.3.3:分别提取每幅图像的多个通道的均值和标准偏差等纹理特征,得到多维特征向量,例如提取图像的平均值(Mean)和标准偏差(Std)表示纹理特征。每个通道输出图像的平均值Mean和标准偏差Std分别为:
其中,h(x,y)为汉字文本块图像在点(x,y)的灰度值。
需要指出的是,本发明技术并不局限于以上所提到的汉字文本块纹理特征提取方法,一方面,这里选择将汉字文本块图像变换到频域上进行分析,目的是从视觉纹理特性的角度出发,提出一种字体相似度客观度量方法。另一方面,在大多数纹理特征提取算法上,本发明技术都能取得令人满意的结果。
步骤3:字体相似度的计算
步骤3.1:通过上述步骤,分别提取集合Ui中所有汉字文本块图像的纹理特征向量,利用K-means等聚类算法,得到每一类wi的质心纹理特征向量Yi,记为:
需要指出的是,本发明技术在计算每一类文本块的纹理特征时,并不仅仅局限于以上所提到的K-means聚类算法,可根据数据集的实际情况选择合适的算法,计算每一类wi的质心。
步骤3.2:对于计算两类汉字文本块wi与wj的纹理特征向量Yi与Yj之间的距离,也即这两类字体之间的相似度。方法如下:通过以下公式计算两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的欧氏距离:
需要指出的是,本发明技术并不局限于以上所提到的字体相似度度量方法,其他距离计算方法同样适用。例如曼哈顿距离,记为,
标准化欧氏距离,记为,
Sk为标准差分量,记为,
计算向量之间的夹角余弦,记为,
等等,在大多数向量之间相似度计算方法上,本发明技术都能取得令人满意的结果。
步骤3.3:通过上述步骤计算Yi到Yj(j≠i)之间的欧氏距离,构成n×n维的矩阵,得到不同字体之间的相似度。
二、空间索引树的建立
步骤4:汉字文本块图像纹理特征空间索引树的建立。
步骤4.1:执行步骤1,得到汉字文本块图像样本库;
步骤4.2:重复执行步骤2和步骤3,得到不同格式属性对应的汉字文本块图像的纹理特征向量;
步骤4.3:由计算步骤4.2中获得的每一类汉字文本块图像的纹理特征值构成数据集合,按照K-d Tree、Ball Tree或者R-Tree等算法对搜索空间进行层次划分,构建空间索引树。
三、最优视觉效果字体替换方法
已知待显示文档中文本字体、字号、行间距、字符间距及字型的属性值。判断阅读器系统中是否存在待显示文档文本块图像的文本字体,根据步骤4中空间索引树的建立,通过BBF、K-近邻、BR等算法,为步骤2和步骤3中获得的汉字文本块图像的纹理特征值建立索引,本发明以K-d Tree作为实施例。
动态替换方法,具体步骤包括:
步骤5.1:输入需要待显示的汉字文本块图像的纹理特征值,通过BBF查找算法、BR算法等算法,遍历步骤4构建的空间索引树,得到与待显示汉字文本块图像中最相似的k种字体,k种字体按照与待显示文档相似度由大到小的顺序排序,并依次判断系统中是否存在这些字体。如果系统中存在汉字文本块图像替换字体,则进行替换,如果系统中不存在替换字体,则查询下一种最相近字体。
步骤5.2:如果阅读器系统中不存在步骤5.1中得到的k种近邻字体,那么将步骤4中构建的空间索引树中的k种字体节点删除,得到新的索引树,重复步骤5.2。
需要指出的是,K-近邻查找的索引算法并不局限于以上所提到的K-d Tree、BallTree或者R-Tree几种,在保证高效的查询精确度和效率的前提下,在大多数索引算法上,本发明技术都能取到令人满意的结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种字体相似度处理和字体替换方法,其特征在于,包括:
步骤1、根据预设的影响字体视觉效果的属性值,分别构造汉字文本块图像,以生成汉字文本块图像样本库;其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;
步骤2、计算汉字文本块图像集合的纹理特征值;
步骤3、采用静态替换方法对缺失的字体进行替换;
所述静态替换方法包括:
步骤4、对每一类汉字文本块wi,将其他文本块按照与wi的相似度由大到小顺序排序;得到第i类文本块wi的相似度链表,构建替换规则表;
步骤5:已知待显示文档中文本字体、字号、行间距、字符间距及字型的属性值;判断阅读器系统中是否存在待显示文档文本块图像的文本字体,若系统中不存在该汉字文本块图像文本的字体,根据待显示文档文本字体替换规则的建立,通过查询替换规则表,寻找最优视觉效果替换字体;
步骤6:静态替换方法,通过查询替换规则表,查找替换字体,具体步骤包括:
步骤6.1:在替换规则表中,查询第一列,定位待显示文档字体所在的行;如果替换规则表中不存在待显示文档字体,则默认选取宋体,字号、行间距、字符间距属性与待显示文档相同;如果替换规则表中存在待显示文档字体,则筛选与该字体相关的所有行,继续执行步骤6.2;
步骤6.2:在步骤6.1筛选出的行中,查询第二列,定位待显示文档字号所在的行;如果不存在待显示文档字号,则选取与其字号差别最小的行,并筛选与该字号相关的所有行,继续执行步骤6.3;
步骤6.3:在步骤6.2筛选出的行中,查询第三列,定位待显示文档行间距所在的行;如果不存在待显示文档行间距,则选取与其行间距差别最小的行,并筛选与该行间距相关的所有行,继续执行步骤6.4;
步骤6.4:在步骤6.3筛选出的行中,查询第四列,定位待显示文档字符间距属性;如果不存在待显示文档字符间距,则选取与其字符间距差别最小的行,并筛选与该字符间距相关的所有行,继续执行步骤6.5;
步骤6.5:在步骤6.4筛选出的行中,查询第五列,定位字型属性,并得到相似度链表;从相似度链表的第一个节点开始,找到第一个阅读器拥有的字体,即为替换字体。
2.根据权利要求1所述的方法,其特征在于,其中所述步骤1具体包括:利用常用汉字,根据预设的影响字体视觉效果的属性值,包括字体、字号、行间距、字符间距、字型属性,构造出不同的汉字文本块,以构建汉字文本块图像样本库,其中,
不同字体,记为集合A={a1,a2,a3...ai...an}其中1≤n≤k1;
不同字号,记为集合B={b1,b2,b3...bi...bn}其中1≤n≤k2;
不同行间距,记为集合C={c1,c2,c3…ci…cn}其中1≤n≤k3;
不同字符间距,记为集合D={d1,d2,d3…di…dn}其中1≤n≤k4;
不同字型,记为集合E={e1,e2,e3,e4},4种字型分别为标准体、粗体、斜体、粗斜体。
3.根据权利要求2所述的方法,其特征在于,步骤2具体包括:
步骤21、构建汉字文本块图像样本库,其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;其中每一汉字文本块图像为M×N像素;根据属性值将汉字文本图像进行分类,构成集合W,记为
W={wi|i∈R,且1≤i≤k1×k2×k3×k4×4};其中R为实数
每一类文本图像记为
Wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;
步骤22、分别从wi中选取m幅汉字文本块图像,构成集合Ui;其中i=1,2,3......以及,m≥2;
步骤23、分别提取m幅汉字文本块图像的纹理特征,得到m幅汉字文本块图像的纹理特征向量;其中m≥2;
步骤24、计算m个纹理特征向量的质心Yi,即为第i类汉字文本块wi的特征向量。
4.根据权利要求3所述的方法,其特征在于,其中所述步骤23中采用Garbor小波纹理特征提取算法提取纹理特征向量;具体包括:
步骤2311,对每幅汉字文本块图像进行Gabor小波变换,选用二维Gabor滤波函数:
其中,Sx、Sy是变量在x轴、y轴变化的范围,即选定的gabor小波的窗口的大小;f为正弦函数的频率;theta为Gabor滤波器的方向;
其中
xp=x*cos(theta)+y*sin(theta)
yp=y*cos(theta)-x*sin(theta)
其中,x∈Sx,y∈Sy,theta为Gabor滤波器的方向,xp为汉字文本块图像通过theta方向的gabor滤波器,在x轴方向上的能量值;yp为汉字文本块图像通过theta方向的gabor滤波器,在y轴方向上的能量值;得到多个不同通道图像;
步骤2312,对滤波后的图像做傅里叶变换,将图像变换到频域,将图像做归一化处理;
步骤2313,分别提取每幅图像多个纹理特征以得到多维特征向量;其中纹理特征包括但不限于:提取图像的平均值Mean、标准偏差Std;其中每个通道输出图像的平均值Mean和标准偏差Std分别为:
其中,h(x,y)为汉字文本块图像在点(x,y)的灰度值。
6.根据权利要求5所述的方法,其特征在于,步骤32中通过欧氏距离或曼哈顿距离或标准化欧氏距离或向量余弦这四种方式中的任一种计算两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离作为字体相似度,具体包括:
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的欧氏距离作为字体相似度:
或
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离为曼哈顿距离,通过以下公式计算:
或
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离为标准化欧氏距离,通过以下公式计算:
其中,Sk为标准差分量,记为,
或
两个n维特征向量Yi(yi1,yi2,...yin)与Yj(yj1,yj2,...yjn)间的距离为向量余弦,通过以下公式计算:
7.一种字体相似度处理和字体替换方法,其特征在于,包括:
步骤1、根据预设的影响字体视觉效果的属性值,分别构造汉字文本块图像,以生成汉字文本块图像样本库;其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;
步骤2、计算汉字文本块图像集合的纹理特征值;利用常用汉字,根据预设的影响字体视觉效果的属性值,包括字体、字号、行间距、字符间距、字型属性,构造出不同的汉字文本块,以构建汉字文本块图像样本库,其中,
不同字体,记为集合A={a1,a2,a3...ai...an}其中1≤n≤k1;
不同字号,记为集合B={b1,b2,b3...bi...bn}其中1≤n≤k2;
不同行间距,记为集合C={c1,c2,c3…ci…cn}其中1≤n≤k3;
不同字符间距,记为集合D={d1,d2,d3…di…dn}其中1≤n≤k4;
不同字型,记为集合E={e1,e2,e3,e4},4种字型分别为标准体、粗体、斜体、粗斜体;
所述步骤2具体包括:
步骤21、构建汉字文本块图像样本库,其中所述汉字文本块图像包括n×n个不交叠的汉字,其中n≥2;其中每一汉字文本块图像为M×N像素;根据属性值将汉字文本图像进行分类,构成集合W,记为
W={wi|i∈R,且1≤i≤k1×k2×k3×k4×4};其中R为实数
每一类文本图像记为
Wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;
步骤22、分别从wi中选取m幅汉字文本块图像,构成集合Ui;其中i=1,2,3......以及,m≥2;
步骤23、分别提取m幅汉字文本块图像的纹理特征,得到m幅汉字文本块图像的纹理特征向量;其中m≥2;
步骤24、计算m个纹理特征向量的质心Yi,即为第i类汉字文本块wi的特征向量;
步骤3、采用动态替换方法对缺失的字体进行替换;
所述动态替换方法包括:
步骤4、根据步骤2获取的不同属性的文本格式的汉字文本块图像的纹理特征向量,构建每一类汉字文本块图像的纹理特征值的数据集合,并按照K-d Tree算法或BallTree算法或R-Tree算法对搜索空间进行层次划分,构建空间索引树;
步骤5、已知待显示文档中文本字体、字号、行间距、字符间距及字型的属性值;判断阅读器系统中是否存在待显示文档文本块图像的文本字体,根据步骤4中建立的空间索引树,通过BBF算法或K-近邻算法或BR算法,为汉字文本块图像的纹理特征值建立索引;
所述建立索引的方法具体包括:
步骤5.1:输入需要待显示的汉字文本块图像的纹理特征值,通过遍历步骤4构建的空间索引树,得到与待显示汉字文本块图像中最相似的k种字体,k种字体按照与待显示文档相似度由大到小的顺序排序,并依次判断系统中是否存在这些字体;如果系统中存在汉字文本块图像替换字体,则进行替换,如果系统中不存在替换字体,则查询下一种最相近字体;
步骤5.2:如果阅读器系统中不存在步骤5.1中得到的k种近邻字体,则将步骤4中构建的空间索引树中的k种字体节点删除,得到新的索引树,重复步骤5.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611208107.0A CN106844481B (zh) | 2016-12-23 | 2016-12-23 | 字体相似度及字体替换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611208107.0A CN106844481B (zh) | 2016-12-23 | 2016-12-23 | 字体相似度及字体替换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844481A CN106844481A (zh) | 2017-06-13 |
CN106844481B true CN106844481B (zh) | 2021-01-05 |
Family
ID=59135339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611208107.0A Active CN106844481B (zh) | 2016-12-23 | 2016-12-23 | 字体相似度及字体替换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844481B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416355B (zh) * | 2018-03-09 | 2021-07-30 | 浙江大学 | 一种基于机器视觉的工业现场生产数据的采集方法 |
CN109272025B (zh) * | 2018-08-29 | 2021-07-16 | 昆明理工大学 | 一种相似常用汉字查找方法 |
CN109978078B (zh) * | 2019-04-10 | 2022-03-18 | 厦门元印信息科技有限公司 | 字体版权检测方法、介质、计算机设备及装置 |
CN110210476B (zh) * | 2019-05-24 | 2021-04-09 | 北大方正集团有限公司 | 字符部件聚类方法、装置、设备及计算机可读存储介质 |
CN113642289A (zh) * | 2021-08-26 | 2021-11-12 | 珠海金山办公软件有限公司 | 文本的排版方法和装置、电子设备、服务器及存储介质 |
CN113536005B (zh) * | 2021-09-17 | 2021-12-24 | 网娱互动科技(北京)股份有限公司 | 一种相似图片或字体查找方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484173A (zh) * | 2003-08-10 | 2004-03-24 | 卢小林 | 基于汉字形状的中文单词拼写错误校正方法 |
CN101561813A (zh) * | 2009-05-27 | 2009-10-21 | 东北大学 | 一种Web环境下的字符串相似度的分析方法 |
CN102739969A (zh) * | 2011-05-06 | 2012-10-17 | 新奥特(北京)视频技术有限公司 | 一种不同操作系统下字体匹配的方法和装置 |
CN104462582A (zh) * | 2014-12-30 | 2015-03-25 | 武汉大学 | 一种基于结构和内容二级过滤的Web数据相似性检测方法 |
CN104794455A (zh) * | 2015-05-04 | 2015-07-22 | 北京信息科技大学 | 一种东巴象形文字识别方法 |
CN105631486A (zh) * | 2014-10-27 | 2016-06-01 | 深圳Tcl数字技术有限公司 | 图像文字识别方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1128423C (zh) * | 1999-04-21 | 2003-11-19 | 中国科学院自动化研究所 | 基于纹理分析的字体和笔迹识别方法 |
US20050210019A1 (en) * | 2002-11-20 | 2005-09-22 | Fujitsu Limited | Method and apparatus for retrieving image from database, and computer product |
US20070174309A1 (en) * | 2006-01-18 | 2007-07-26 | Pettovello Primo M | Mtreeini: intermediate nodes and indexes |
CN101615195B (zh) * | 2009-07-24 | 2011-04-27 | 中国传媒大学 | 一种基于傅氏频谱的汉字图像纹理特征提取方法 |
CN105046205B (zh) * | 2015-06-24 | 2019-02-01 | 西安理工大学 | 一种基于局部和全局特征融合的掌纹识别方法 |
CN105117740B (zh) * | 2015-08-21 | 2021-06-15 | 北京旷视科技有限公司 | 字体识别方法及装置 |
-
2016
- 2016-12-23 CN CN201611208107.0A patent/CN106844481B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484173A (zh) * | 2003-08-10 | 2004-03-24 | 卢小林 | 基于汉字形状的中文单词拼写错误校正方法 |
CN101561813A (zh) * | 2009-05-27 | 2009-10-21 | 东北大学 | 一种Web环境下的字符串相似度的分析方法 |
CN102739969A (zh) * | 2011-05-06 | 2012-10-17 | 新奥特(北京)视频技术有限公司 | 一种不同操作系统下字体匹配的方法和装置 |
CN105631486A (zh) * | 2014-10-27 | 2016-06-01 | 深圳Tcl数字技术有限公司 | 图像文字识别方法及装置 |
CN104462582A (zh) * | 2014-12-30 | 2015-03-25 | 武汉大学 | 一种基于结构和内容二级过滤的Web数据相似性检测方法 |
CN104794455A (zh) * | 2015-05-04 | 2015-07-22 | 北京信息科技大学 | 一种东巴象形文字识别方法 |
Non-Patent Citations (2)
Title |
---|
Font Recognition Based on Global Texture Analysis;Yong Zhu etc;《Proceedings of the Fifth International Conference on Document Analysis and Recognition》;19990922;第349-352页 * |
字体匹配技术分析及标准化建议;陈亚军;《信息技术与标准化》;20120910(第09期);第26-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106844481A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844481B (zh) | 字体相似度及字体替换方法 | |
Chen et al. | A survey of document image classification: problem statement, classifier architecture and performance evaluation | |
Zhang et al. | Three-dimensional densely connected convolutional network for hyperspectral remote sensing image classification | |
Jobin et al. | Docfigure: A dataset for scientific document figure classification | |
Bunke et al. | Improving vector space embedding of graphs through feature selection algorithms | |
Dimitrovski et al. | Improving bag-of-visual-words image retrieval with predictive clustering trees | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN102663447B (zh) | 基于判别相关分析的跨媒体检索方法 | |
CN102750347B (zh) | 一种用于图像或视频搜索重排序的方法 | |
Zhou et al. | Image retrieval based on effective feature extraction and diffusion process | |
Iakovidou et al. | Localizing global descriptors for content-based image retrieval | |
CN105740378B (zh) | 一种数字病理全切片图像检索方法 | |
CN103559191A (zh) | 基于隐空间学习和双向排序学习的跨媒体排序方法 | |
Cao et al. | Local information-based fast approximate spectral clustering | |
Amelio et al. | Data mining: clustering | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
Grana et al. | Layout analysis and content enrichment of digitized books | |
CN116187444A (zh) | 一种基于K-means++的专业领域敏感实体知识库构建方法 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
Diem et al. | Semi-automated document image clustering and retrieval | |
Li et al. | Multiscale shape context and re-ranking for deformable shape retrieval | |
Shabbir et al. | Tetragonal Local Octa-Pattern (T-LOP) based image retrieval using genetically optimized support vector machines | |
Jobin et al. | Document image analysis using deep multi-modular features | |
Richter et al. | Leveraging community metadata for multimodal image ranking | |
Becattini et al. | Indexing quantized ensembles of exemplar-SVMs with rejecting taxonomies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |