CN106650716A

CN106650716A - 一种计算机字体识别方法及装置

Info

Publication number: CN106650716A
Application number: CN201611141174.5A
Authority: CN
Inventors: 王寒晖
Original assignee: Fujian Word Guest Network Technology Co Ltd
Current assignee: Fujian Word Guest Network Technology Co Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-05-10

Abstract

本发明公开了一种计算机字体识别方法，涉及图像处理领域，包括：步骤S1：获取待识别文字的图像；步骤S2：对图像进行分析处理；步骤S3：通过处理结果生成查询索引；步骤S4：对字形进行认定。采用上述技术方案，通过获取文字的图像并使用图像索引查询认定计算机字体的方式，使得原本图像当中无法辨别的计算机字体无需借助其他软件便能够识别，极大地方便各类用户的需求。

Description

一种计算机字体识别方法及装置

技术领域

本发明涉及图像处理领域，特别涉及一种计算机字体识别方法及装置。

背景技术

文字，历来是艺术表达的一种重要形式，被广泛应用于各类艺术设计作品中。而计算机字体，则是把文字存储为电子信息的载体。当社会发展步入电子信息时代后，设计领域越来越倚重于电子信息技术，计算机字体在设计领域的地位之重要也不言而喻了。

遗憾的是计算机字体相关技术的发展，远滞后于日益膨胀的文字设计需求。其中比较突出的一个方面就是计算机字体识别：设计师看中了某艺术作品中所用文字，却苦于无从得知文字来源，这类现象比比皆是。而综观中外电子信息产业，提供计算机字体识别技术的网站和软件却屈指可数，与庞大的需求形成鲜明反差。鉴于此，电子信息领域亟须提供和发展此项技术。

发明内容

本发明要解决的技术问题是提供一种计算机字体识别方法及装置，解决现有技术中无法识别出计算机字体的问题。

为了解决上述技术问题，本发明的技术方案为：

一种计算机字体识别方法，包括：

步骤S1：获取待识别文字的图像；

步骤S2：对图像进行分析处理；

步骤S3：通过处理结果生成查询索引；

步骤S4：对字形进行认定。

其中，所述步骤S2对图像进行分析处理，包括：

步骤S201：将图像先进行二值化；

步骤S202：将二值化图像的前景进行分割成为单片图；

步骤S203：通过单片图进行配字符操作。

具体的，在将图像先进行二值化之前，首先需要设定亮度阈值和图像相性。

具体的，所述步骤S202将二值化图像的前景进行分割成为单片图，包括：

步骤S2021：确定应分割图像的像素；

步骤S2022：确定有前景色像素的起始行和终止行；

步骤S2023：由起始行至终止行逐像素扫描；

步骤S2024：计算像素团集合；

步骤S2025：连通像素团形成单片图。

具体的，所述步骤S203通过单片图进行配字符操作，包括：手动配字符操作和自动配字符操作。

其中，所述步骤S3通过处理结果生成查询索引，包括：

步骤S301：根据单片图及所配字符生成字符图；

步骤S302：为生成的字符图生成字形索引。

其中，所述步骤S4对字形进行认定，包括：

步骤S401：在数据库中依据字形索引查找匹配；

步骤S402：比对数据，得出相似度；

步骤S403：根据字形以及相似度得出字形。

具体的，所述步骤S401在数据库中依据字形索引查找匹配，包括：

步骤S4011：计算形索值和码索值；

步骤S4012：读取数据库；

步骤S4013：根据形索值和码索值在数据库中查找节项。

一种计算机字体识别装置，包括：

图像获取模块：用于获取待识别文字的图像；

图像分析模块：用于对图像进行分析处理；

索引查询模块：用于通过处理结果生成查询索引；

字形认定模块：用于对字形进行认定。

其中，所述图像分析模块包括：

图像二值化单元：用于将图像进行二值化；

单片图生成单元：用于将二值化图像的前景进行分割成为单片图；

配字符单元：用于通过单片图进行配字符操作。

采用上述技术方案，通过获取文字的图像并使用图像索引查询认定计算机字体的方式，使得原本图像当中无法辨别的计算机字体无需借助其他软件便能够识别，极大地方便各类用户的需求。

附图说明

图1为本发明计算机字体识别方法的流程图；

图2为本发明中步骤S2对图像进行分析处理的方法流程图；

图3为本发明中步骤S202将二值化图像的前景进行分割成为单片图的方法流程图；

图4为本发明中步骤S3通过处理结果生成查询索引的方法流程图；

图5为本发明中步骤S301根据单片图及所配字符生成字符图的方法流程图；

图6为本发明中步骤S302为生成的字符图生成字形索引的方法流程图；

图7为本发明中步骤S4对字形进行认定的方法流程图；

图8为本发明中步骤S401在数据库中依据字形索引查找匹配的方法流程图；

图9为本发明计算机字体识别装置的结构示意图；

图10为本发明中图像分析模块的结构示意图；

图11为本发明中索引查询模块的结构示意图；

图12为本发明中字形认定模块的结构示意图。

图中，1-图像获取模块，2-图像分析模块，21-图像二值化单元，22-单片图生成单元，23-配字符单元，3-索引查询模块，31-字符图生成单元，32-字形索引生成单元，4-字形认定模块，41-查找匹配单元，42-数据比对单元，43-字形认定单元。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

作为本发明的第一实施例，提出一种计算机字体识别方法，如图1所示，首先用户需要将需要识别的文字转化为图像(步骤S1)，可以使用拍照、扫描等方式让待识别文字转化为图像。在转化为照片之后为了更好对图像进行识别，可以适当提升图像的锐化度。之后便开始对图像进行分析处理(步骤S2)，如图2所示，先将用户上传的原始图像转换为二值化图像(步骤S201)。二值化图像指的是尺寸与原始图像相同，而且每个像素的取值范围只有前景色或背景色两个抽象颜色值而非真实颜色值的图像。

优选的，转换开始前，还需要先设定两个参数：分别是阈值与相性。阈值指的是一个颜色亮度临界点，即将色值划分为较亮颜色和较暗颜色两部分，将较亮部分或较暗部分的色值对应为前景色，将剩余部分的色值对应为背景色。相性分正相和反相：将较暗部分对应前景色称为正相，将较亮部分对应前景色称为反相。阈值和相性可自动设定，也可由用户手动设定。

其中，自动设定阈值的方法为：先分析原始图像中每个像素颜色的亮度，再总结宏观分布规律(类似数学当中直方图的概念)，再将最亮的那个亮度值信息忽略(最亮值常在图像中被分配最广泛的区域，大大拉高图像的亮度中值)，忽略后再重建新的分布规律，再运用大律(Ostu)算法即可得出阈值。自动设定相性是依据图像整体亮度得出的，其原理为：图像整体偏亮，则相性为正相，反之则为反相。用户既可以自动获得计算出的阈值和相性，又可自行调节阈值和相性，给用户提供方便而强大的生成二值图像的功能。

接下来，继续如图2所示，在将原始图像转为二值图像之后，系统开始分割前景图形工作(步骤S202)。该阶段检查前景图形是否应分割为多个图形，若是则进行分割，分割后的每一个部分称为单片图；否则不进行分割，整个前景图形视为单片图。若前景图形中的每一个像素连接任何其他前景像素点的路径均不必经过背景图形部分，则该前景图形判断为不应分割，否则判断为应分割。

如图3所示，将前景图形分割为多个单片图的算法包括：

首先，设二值图像里这种类型的像素为L(步骤S2021)：其为前景图形的像素，但其左边相邻的像素为背景图形的像素，或者其本身就是最左像素，无左边相邻像素；设二值图像里这种类型的像素为R：其为前景图形的像素，但其右边相邻的像素为背景图形的像素，或者其本身就是最右像素，无右边相邻像素。

之后，设S为二值图像里含有至少一个前景色像素的所有行里的第一行(步骤S2022)，设E为二值图像里含有至少一个前景色像素的所有行里的最后一行。

再者，对整个二值图像从第S行从上到下逐行扫描到第E行(含第S行和第E行本身)，行内则从最左向最右逐像素扫描(步骤S2023)。例如，3×3大小的前景图形各像素被扫描的顺序为：左上角像素、正上方像素、右上角像素、正左方像素、正中间像素、正右方像素、左下角像素、正下方像素、右下角像素。

然后，设b函数：若像素p本身为L，则b(p)为p，若p像素不为L，则b(p)为扫描到像素p之前，最后一个被扫描的L；设l函数：p为某像素，则l(p)为集合，二者关系l(p)＝{p,b(p)}；设C函数：二值图像第l行里若无R，则C(l)为若有R，则C(l)为这些R的集合；设H函数：x为二值图像某行的行数，则H(x)＝{l(u)|u∈C(x)}；设T集合为{h|h∈{H(x)|S≤x≤E}}。

由上可见，T集合中的每个元素又是一个包含两个像素的集合。T的每个元素的其中一个像素到另一个像素的最短路径所经过的所有像素组合成一个像素团(步骤S2024)。

若团跟其相邻的行里的其他团是相连的，则该团跟所有相邻团的所有像素可以组合起来形成一个新团，参与组合的原团则不再存在，这个过程称为连通。团与团之间尽量多地连通，直至不能再连通为止，则最终的每个团成为一个单片图(步骤S2025)。假设二值图像的总像素数量为n。采取以上算法将前景图形分割为单片图，时间复杂度T＝O(n)，极为高效。

继续如图2所示，在将前景图形分割为单片图之后，则开始进行配字符操作(步骤S203)。配字符操作有两种标准，其一是正好是某个字符的形状的单片图指出所对应的字符；另一个是正好构成某个字符形状的多张单片图指出所对应的字符。

配字符可手动或自动完成，手动配字符要求用户做一些操作后才能完成，例如在桌面端手动配字符一般由用户用键盘输入字符完成，若是为构成单个字符的多张单片图配字符，还要求用户用鼠标拖拽合并这些单片图等操作。而自动配字符可为用户省却这些操作。自动配字符包括两方面功能：自动组字功能和光学字符识别(OCR)功能。前者帮助用户把多张单片图组成一个构成字符形状的字符图，后者帮助用户自动指定字符。

如图1所示，在配字符完成之后，系统开始通过处理结果生成查询索引(步骤S3)。首先，如图4所示，系统先根据单片图及所配字符生成字符图(步骤S301)。生成字符图的算法如图5所示，包括：

首先设U集合，U集合的元素为所有交由系统处理的字符(步骤S3011)。接着设TL函数(步骤S3012)：c为某字符，则LF(c)为所有对应这个字符的单片图中里的所有像素中，位于最左上角的那个像素；设RB函数：c为某字符，则RB(c)为所有对应这个字符的单片图中里的所有像素中，位于最右下角的那个像素。之后设X函数(设定每个像素的函数)：若p为二值图像中最左边的像素，则X(p)＝0，否则X(p)为p像素正左方的像素的数量；设Y函数：若p为二值图像中最左边的像素，则Y(p)＝0，否则Y(p)为p像素正上方的像素的数量。最后设R函数：a、b皆为二值图像中的像素，且a位于b的左上角，则R(a,b)为这样一个四方形：左上角刚好包括a、右下角刚好包括b、其中两边的边长长度为X(b)-X(a)像素、另两边的边长长度为Y(b)-Y(a)像素的四方形，从而可以求出G集合：G＝{R(TL(c),RB(c)|c∈U}；G集合中的每个元素围成的像素就构成了一张字符图(步骤S3014)。由计算结果可知，字符图总跟字符一一对应，即字符的数量总是等于字符图的数量。

在所有字符图都生成之后，则开始生成字形索引(步骤S302)，如图6所示：对于每一个字符图，循环进行下列步骤。在以下循环步骤中，简称当前循环所针对的字符图为i。

先将i背景部分的每个像素的色值置为255，将背景部分的每个像素的色值置为0(步骤S3021)。然后将i缩放至8×8像素尺寸(步骤S3022)。缩放采用插值并重采样的算法，以计算机处理器的微弱性能代价，确保i缩放后的精度尽可能少丢失。之后给i的每个像素编号(步骤S3023)，编号第一顺序为从上到下，第二顺序为从左到右，编号从1开始，每次递增1，例如第2行第3列像素的编号为8×(2-1)+(3-1)＝10，第3行第2列像素的编号为8×(3-1)+(2-1)＝17。然后设C函数：n为像素编号，则C(n)为像素色值，并计算c函数的前景色重w；再计算出疑似上界和疑似下界(t为上界，b为下界)；最后设降噪系数设疑似区间S为(b-8×r,t-8×r]，色值属于疑似区间的像素，称为疑似点，色值大于t的像素，称为确定点。一个字形索引图疑似点的总数量记作C。当C≤4，所有可能的S区间里必有一个最大的S区间，这个S区间所有的确定点称为终确点，所有的疑似点称为终疑点(步骤S3024)。所有的疑似点即可视为终确点，也可不视为确定点，终确点组成一个8×8的图，称作i的字形索引图。按照排列组合原理，则最多可能有C²种字形索引图，因为C≤4，即i最多可能有4²＝16种字形索引图(步骤S3025)。

该阶段高效地为每个字符图生成字形索引，同时为了考虑到清晰度不够的字符的识别，为了降噪，又增加了疑似点的概念，但把疑似点的最大数量设置在一定范围内，使得可能出现的字形索引图的数量不至于太多(字形索引图太多将造成接下来的识别降低效率)，在识别范围、识别准确、识别效率三方面达到比较合理的平衡。

继续如图1所示，在完成字形索引图之后便开始最终的字形认定操作(步骤S4)。如图7所示，首先在数据库中依据字形索引查找匹配(步骤S401)，具体的步骤如图8所示，包括：

系统先将64像素的字形索引图里的终确点记1，其余点记0。如此，64像素正好转化为一个8字节的2进制数值，该数值称作形索值；字形索引图所对应的字符的4个字节的2进制统一码(Unicode)编码称作码索值(步骤S4011)。之后系统便开始读取fki数据库和fkr数据库(步骤S4012)；整个识别流程开始前两个数据库皆已预先存在，非本阶段生成。fki数据库主要由众多节点构成，每个节点由一个40字节的节头、169个16字节的节项、170个8字节的节指构成，共计4096字节。节头位于节点起始位置，后面跟着第1个节指，再跟着是第1个节头，再跟着是第2个节指……，节指与节项如此交叉存储，直至第170个节点。节头主要存储该节点的一些重要信息，主要包括该节点内的有效节项的数量和该节点的父节点地址。一个节点最多有1个父节点，最少有1个子节点，最多有170个子节点(与其节指数量相同)。若该节点没有父节点，则该节点最少有1个有效节项(有效节项的介绍见下)，若该节点有父节点，则该节点最少由85个有效节项。节项分有效节项和无效节项。所有16个字节值全为0的称为无效节项，否则称为有效节项。有效节项存储三个信息：8个字节的形索值、4个字节的码索值、4个字节的计算机字体标识。若计算机字体标识2进制的最高位为0，低31位表示计算机字体编号；若计算机字体标识2进制的最高位为1，表示有多个计算机字体编号对应该节项的形索值和索码值，低31位指向fkr数据库中这些计算机字体编号的地址。上下两个节项(即相隔一个节指的两个节项)若都是有效节项，则必须存在如下关系：

1、设上一个节项记作P，下一个节项记作N；

2、设函数G：I为有效节项，G(I)为该节项的形索值；

3、设函数U：I为有效节项，U(I)为该节项的码索值；

4、

5、上一个节项若为无效节项，则下一个节项也是无效节项；下一个节项若为有效节项，则上一个节项也是有效节项。

节指存储0值则为无效节指，否则为有效节指，有效节指存储的是该节指所在节点的一个子节点。有效节指存储的子节点与有效节指必须存在如下关系：

1、该节指记作E，该子节点记作C；

2、设函数P：若X不是所在节点的第一个节指，则P(X)＝跟X相邻的前一个节项，否则，

3、设函数N：若X不是所在节点的最后一个节指，且跟X相邻的后一个节项是有效节项，则N(X)＝跟X相邻的后一个节项；否则，

4、设函数G：I为有效节项，G(I)为该节项的形索值；

5、设函数U：I为有效节项，U(I)为该节项的码索值；

6、设函数LG：O为节点，LG(O)为O最后一个有效节项的形索值；

7、设函数LU：O为节点，LG(O)为O最后一个有效节项的码索值；

8、

继续如图8所示，依据用户给出的字符图和字符，开始在fki数据库中查找节项(步骤S4013)，包括：首先规定fki数据库中有且仅有一个无父节点的节点，这个节点的地址登记在整个fki文件的头部某处，读出这个无父节点，设i＝该节点。之后再将i的有效项数从头至尾逐个比对：若当前节项形索值≥字符图形索值，且该节项前边紧邻的节指为无效节指，则系统向用户宣告找不到计算机字体，识别流程终止。若当前节项形索值>字符图形索值时，取出当前节项前边节指所存储的子节点地址，读出该子节点，设i＝该子节点，重复该b步骤；若当前节项形索值＝字符图形索值，且当前节项码索值>字符图码索值时，取出当前节项前边节指所存储的子节点地址，读出该子节点，设i＝该子节点，重复该b步骤；若当前节项形索值和码索值全部与字符图相等，则从当前节项的计算机字体标识中取出所有匹配的计算机字体编号，索引阶段完成。

如图7所示，通过前面一个索引阶段找到的计算机字体编号来定位计算机字体文件。利用FreeType对字符进行二值渲染，若该计算机字体的字号是有限的，则选择渲染最大字号；若该计算机字体的字号不限，则渲染128×128像素的字号。大字号可保证尽可能获得高精度字形，提升对比准确率。渲染出图后，将该图缩放为96×96像素尺寸，或者72×72像素尺寸，再将二值图像中对应该字符的字符图也缩放至相同尺寸，此时两张图已同尺寸，将两张图逐个进行同位像素比对(即将渲染出的图的第x列第y行与字符图第x列第y行进行比对)，得出相似度＝相同次数÷字符图的像素数量，最后将计算机字体编号及其对应相似度返回给用户(步骤S402)。识别过程告罄。

目前几乎所有普通机械磁盘的扇区大小为4096字节，与fki数据库的节点长度一致。则读一次磁盘即可以完成整个节点的读取。除了没有父节点的最顶层的那一个节点最少可以只有1个有效节项1个节指以外，其他所有节点都包含最少85个有效节项86个节指，读一次硬盘，最少可查1个节项，读两次硬盘，可查范围最少为1+85个节项，3次则可查范围最少为1+85²个节项，3次则可查范围最少为1+85³个节项，依次类推。可见，从整个数据库角度来看，可查的节项数量正好随读盘次数的增加而呈指数级增长，时间复杂度仅为T＝O(log N)，专用性使得fki数据库结构紧凑，已经把磁盘的读取次数降到很少。由于大量计算机字体的同一个字符存在相同相仿字形的现象比较常见，即码索值和形索值都相同，故将这类计算机字体编号存储于fkr文件当中，不单独耗费一个fki节项，使得空间利用率得到很大提升。

最后，用户通过计算机字体编号和计算机字体的相似度百分比来判定是否识别出的计算机字体为待识别图像中所示的计算机字体(步骤S403)。

本套识别计算机字体的发明综合多种技术，为用户提供良好的用户体验，较高的识别正确率和较快的识别效率(较单个计算机字体文件而言的平均效率)。通过获取文字的图像并使用图像索引查询认定计算机字体的方式，使得原本图像当中无法辨别的计算机字体无需借助其他软件便能够识别，极大地方便各类用户的需求。

作为本发明的第二实施例，提出一种计算机字体识别装置，如图9所示，包括：图像获取模块1、图像分析模块2、索引查询模块3和字形认定模块4；其中，图像获取模块1：用于获取待识别文字的图像；图像分析模块2：用于对图像进行分析处理；索引查询模块3：用于通过处理结果生成查询索引；字形认定模块4：用于对字形进行认定。

具体的，如图10所示，图像分析模块2又包括：图像二值化单元21、单片图生成单元22和配字符单元23；其中，图像二值化单元21：用于将图像进行二值化；单片图生成单元22：用于将二值化图像的前景进行分割成为单片图；配字符单元23：用于通过单片图进行配字符操作。

如图11所示，索引查询模块3包括：字符图生成单元31和字形索引生成单元32；其中，字符图生成单元31用于根据单片图及所配字符生成字符图；字形索引生成单元32用于为生成的字符图生成字形索引。

如图12所示，字形认定模块4包括：查找匹配单元41、数据比对单元42和字形认定单元43；其中，查找匹配单元41用于在数据库中依据字形索引查找匹配；数据比对单元42用于比对数据，得出相似度；字形认定单元43用于根据字形以及相似度得出字形。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种计算机字体识别方法，其特征在于，包括：