CN105117740B

CN105117740B - 字体识别方法及装置

Info

Publication number: CN105117740B
Application number: CN201510520116.2A
Authority: CN
Inventors: 姚聪; 周舒畅; 周昕宇; 印奇
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2021-06-15
Anticipated expiration: 2035-08-21
Also published as: CN105117740A

Abstract

本发明提供了一种字体识别方法及装置。所述字体识别方法包括：计算给定文字图像的图像特征；以及基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像中的文字的字体。本发明提供的字体识别方法及装置通过图像特性自动判断给定文字的字体，识别精度高且速度快，此外还免去了人工辨识字体的过程，因此可以极大提高文档处理、艺术设计等过程的效率。

Description

字体识别方法及装置

技术领域

本发明涉及图像处理技术领域，具体而言涉及一种字体识别方法及装置。

背景技术

在世界范围内，不同国家、不同地区的人使用不同种类的语言，相应地，文字也各不相同。即使是同一种文字，其字体也可能存在差异(如图1所示)。对于文档图像处理而言，文字字体的变化可能会对文字识别(OCR)的精度产生影响；对于艺术设计而言，不同的字体可以表达不同的设计理念和视觉效果。然而，普通人的字体识别能力是非常有限的，因为目前的常用文字(如中文、英文等)字体繁多，可能高达数千种，且某些字体类别之间的差异微乎其微；即使是专业人士，也必须经过长时间的训练且借助于工具才能具备超群的字体识别能力。因此，基于图像的自动化字体识别在文档图像处理和艺术设计等领域一直是一项重要的技术。

目前，已经存在一些可以直接通过文字图像判断字体的技术。然而，有的方法可以区分中文和英文字符，但是无法识别具体的字体；有的方法可以支持手写字体识别，但是处理的类别非常有限；有的方法仅针对单个汉字，无法处理由多个字符组成的词语或短语；还有的方法采用图像匹配的方式实现字体识别，但是只能识别最常见的几种英文字体，不是针对字体识别的通用解决方案。总之，目前已有的技术和系统在自动化字体识别的精度和适应性等方面仍存在不足之处。

发明内容

针对现有技术的不足，一方面，本发明提供一种字体识别方法，所述字体识别方法包括：计算给定文字图像的图像特征；以及基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像中的文字的字体。

在本发明的一个实施例中，所述分类模型的训练包括：构建文字图像数据库，所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签，所述标签指示相应的文字图像中的文字的字体；计算所述文字图像数据库中的每个文字图像的图像特征；基于所述标签和所计算的每个文字图像的图像特征构建训练集；以及采用随机森林(RandomForest)算法在所述训练集上训练出所述分类模型。

在本发明的一个实施例中，在所述分类模型的训练中：所述计算文字图像数据库中的每个文字图像的图像特征包括：将每个文字图像的高度归一化；在高度归一化后的每个文字图像中采集第一预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。所述基于所述标签和所计算的每个文字图像的图像特征构建训练集包括：基于每个图像块的标签和所计算的每个图像块的图像特征构建训练集，其中，每个图像块的标签为其所源自的文字图像的标签。

在本发明的一个实施例中，所述计算给定文字图像的图像特征包括：将给定文字图像的高度归一化；在高度归一化后的给定文字图像中采集第二预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。

示例性地，所述基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像中的文字的字体包括：将所计算的所述第二预定数目的图像块的图像特征分别输入到所述分类模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定文字图像中的文字的字体的最终识别结果。

示例性地，所述第二预定数目为100。

示例性地，所述图像块的高度和宽度相等。

示例性地，所述第一预定数目为50。

在本发明的一个实施例中，计算图像特征包括计算纹理特征和/或形状特征。

示例性地，计算纹理特征包括计算词袋模型(Bag of Words)。

示例性地，计算形状特征包括计算形状上下文(Shape Context)。

另一方面，本发明还提供一种字体识别装置，所述字体识别装置包括：特征提取模块，用于计算给定文字图像的图像特征；以及图像分类模块，用于利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像中的文字的字体。

在本发明的一个实施例中，所述分类模型的训练包括：构建文字图像数据库，所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签，所述标签指示相应的文字图像中的文字的字体；计算所述文字图像数据库中的每个文字图像的图像特征；基于所述标签和所计算的每个文字图像的图像特征构建训练集；以及采用随机森林算法在所述训练集上训练出所述分类模型。

在本发明的一个实施例中，所述特征提取模块计算给定文字图像的图像特征的方法包括：将给定文字图像的高度归一化；在高度归一化后的给定文字图像中采集第二预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。

示例性地，所述图像分类模块利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像中的文字的字体的方法包括：将所计算的所述第二预定数目的图像块的图像特征分别输入到所述分类模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定文字图像中的文字的字体的最终识别结果。

示例性地，所述第二预定数目为100。

示例性地，所述图像块的高度和宽度相等。

示例性地，所述第一预定数目为50。

在本发明的一个实施例中，所述特征提取模块计算图像特征的方法包括计算纹理特征和/或形状特征。

示例性地，所述特征提取模块计算纹理特征的方法包括计算词袋模型。

示例性地，所述特征提取模块计算形状特征的方法包括计算形状上下文。

本发明提供的字体识别方法及装置通过图像特性自动判断给定文字的字体，识别精度高且速度快，此外还免去了人工辨识字体的过程，因此可以极大提高文档处理、艺术设计等过程的效率。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述，用来解释本发明的原理。

附图中：

图1示出了不同字体文字图像的示例；

图2示出了根据本发明实施例的字体识别方法的流程图；以及

图3示出了根据本发明实施例的字体识别装置的结构框图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的步骤以及详细的结构，以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

本发明的一个实施例提供一种字体识别方法，用于通过图像特性自动判断给定文字图像(例如包含文字的图像)中的文字的字体，免去人工辨识字体的过程，提高文档处理、艺术设计等过程的效率。

下面，参照图2来具体描述根据本发明的一个实施例的字体识别方法。图2示出了根据本发明实施例的、字体识别方法200的流程图。如图2所示，字体识别方法200包括如下步骤：

步骤201：计算给定文字图像的图像特征；以及

步骤202：基于所计算的图像特征利用训练好的分类模型确定该给定文字图像中的文字的字体。

示例性地，步骤201可以包括：计算给定文字图像的纹理特征和/或形状特征。不同字体的文字(字符)，其纹理和形状特征存在较为显著的区别，因此通过计算给定文字图像的纹理特征和/或形状特征可以提高字体识别的精度。可选地，纹理特征和形状特征既可以独立使用，也可以拼接起来作为组合特征使用。

根据本发明的一个实施例，计算文字图像的纹理特征可以包括计算文字图像的词袋模型。词袋模型是图像纹理特征的一种统计表达，可以有效描述图像的整体和局部特性。词袋模型的计算可以包括两个主要步骤(a)和(b)：

(a)建立码本：从一个训练图像集合中随机提取大量的图像描述符(如SIFT、HOG等)，每个图像描述符都是一个向量，采用K-means聚类算法对这些图像描述符进行聚类，得到K个类别(K为可以调节的参数，典型值为1024、2048、10000等)。聚类中心被称为“词”，聚类得到的所有类别组成一个“码本”。

(b)图像描述：对于一幅图像，以稠密的方式提取特征描述符(如SIFT、HOG等)；对于每一个描述符，在码本中搜索最相似的聚类中心(也即词)。统计不同词在该图像中出现的频度，形成一个直方图。对该直方图作L1归一化，得到最后的基于词袋模型的图像纹理特征。

根据本发明的一个实施例，计算文字图像的形状特征可以包括计算文字图像的形状上下文。形状上下文是基于物体轮廓样本点进行描述的。前期的预处理工作可以包括边缘提取和采样(例如均匀采样)，得到一个物体形状的点集合。单个点进行形状信息描述，每个点的形状信息由所有其他点与之形成的相对向量集表示。为了方便计算统计，采用直方图表示这些向量。在得到每个采样点的形状上下文特征后，整个图像的形状上下文表示由采样点的形状上下文特征的集合构成。在实际应用中，不同文字图像的长宽比可能并不相同。为处理不同长宽比的文字图像，可以在计算形状上下文之前对图像进行归一化处理：将所有图像缩放到相同的高度(例如48像素)，同时保持其长宽比不变。同时，在采样的过程中，将采样点的数目设置为统一的数值(例如512或1024)。

现在回到字体识别方法200，在步骤202中所述的分类模型可以通过训练得到。示例性地，分类模型的训练可以包括如下步骤(A)～(D)：

(A)：收集一组包含文字的图像。对于每一张文字图像，标注标签指明其中的文字的字体，构建一个文字图像数据库。

(B)：对于文字图像数据库中的每一幅图像I，计算其特征x，特征的计算方法类似于上文所述的对文字图像的纹理特征和/或形状特征的计算，因此此处不再赘述。

(C)：将所有图像的特征和标签汇总，得到一个训练集，所述训练集可以表示为：S＝{x_i,y_i},i＝1,2,...N，其中N为文字图像数据库中图像的数目，x_i为图像I_i的特征向量，y_i为图像I_i的标签，该标签指明图像I_i中的文字为哪种字体。

(D)：采用随机森林算法，在训练集S上训练一个分类模型C。

基于训练好的分类模型C，对于给定的文字图像J，在步骤202中可以将在步骤201计算得到的图像特征x(J)输入到分类模型C，得到识别结果y(J)。y(J)指明文字图像J中的文字的字体。

根据本发明的一个实施例，在分类模型的训练中，步骤(B)可以包括：将每个文字图像的高度归一化；在高度归一化后的每个文字图像中采集第一预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。例如，对于文字图像数据库中的每一幅图像I，对其进行高度归一化，例如将其高度缩放到标准尺寸(如64个像素)，同时保持其长宽比不变。在高度归一化之后的图像中随机采集P个不同尺度的图像块(也即子图像)，其中P为参数，其典型值例如可以为50。这些图像块的高度和宽度相等，高度和宽度的像素值例如可以在区间[16,64]内随机变化。

在该实施例中，分类模型训练的步骤(C)可以包括：基于图像块的标签和所计算的每个图像块的图像特征构建训练集。其中，图像块的标签为该图像块所源自的文字图像的标签，即从同一个文字图像所采集的图像块的标签相同，均为原文字图像的标签。例如，可以将所有图像块的特征和其所对应的标签汇总，得到一个训练集S＝{x_i,y_i},i＝1,2,…,N*P，其中N为文字图像数据库中文字图像的数目，P为从每个文字图像采集的不同尺寸的图像块的数目，x_i为图像块K_i的特征向量，K_i为多尺度采样之后得到的图像块中的一个，y_i为图像块K_i的标签，该标签指明图像块K_i中的文字为哪种字体，也即图像块K_i所在的原图中的文字的字体。

根据本发明的一个实施例，字体识别方法200的步骤201可以进一步包括：将给定文字图像的高度归一化；在高度归一化后的给定文字图像中采集第二预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。例如，将给定文字图像J的高度归一化，例如将其高度缩放到标准尺寸(如64个像素)，同时保持其长宽比不变；然后对高度归一化后的图像中随机采集Q个不同尺度的图像块(也即子图像)R_m，其中m＝1,2,...,Q，其中Q为参数，其数值可以根据实际需要进行设定，其典型值例如可以为100。这些图像块的高度和宽度相等，高度和宽度的像素值例如可以在区间[16,64]内随机变化；最后计算这些图像块R_m各自的图像特征x(R_m)。

在该实施例中，字体识别方法200的步骤202可以进一步包括：将所计算的上述图像块R_m的图像特征x(R_m)分别输入到训练好的分类模型C以得到多个识别结果y(R_m)，然后对所得到的多个识别结果y(R_m)取平均值作为给定文字图像中的文字的字体的最终识别结果y(J)，该最终识别结果y(J)用公式表示为：

通过提取图像的多尺度图像特征，对字体的识别精度更高、适应性更强。

根据本发明上述实施例的字体识别方法提供了适用于文档处理、艺术设计等应用场景的自动化解决方案。该方法通过图像特性自动判断给定文字图像中文字的字体，具有精度高、速度快的特点；此外，该方法采用机器学习技术，可以同时处理不同语言类别的文字及字体，避免了人工查看和判断的过程，因此可以极大提高处理效率。

根据本发明的另一方面，还提供了一种字体识别装置。图3示出了根据本发明实施例的字体识别装置300的结构框图。如图3所示，字体识别装置300包括：特征提取模块301和图像分类模块302。其中，特征提取模块301用于计算给定文字图像(例如所输入的文字图像)的图像特征；图像分类模块302用于利用其包括的训练好的分类模型、基于特征提取模块301所计算的图像特征确定该给定文字图像中的文字的字体。例如，图像分类模块302可以输出针对给定文字图像中文字字体的识别结果。

其中，训练好的分类模型为图像分类模块302的一部分。示例性地，分类模型的训练可以包括：构建文字图像数据库，所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签，所述标签指示文字图像中的文字的字体；计算所述文字图像数据库中的每个文字图像的图像特征；基于所述标签和所计算的每个文字图像的图像特征构建训练集；以及采用随机森林算法在所述训练集上训练出所述分类模型。

根据本发明的一个实施例，在所述分类模型的训练中：所述计算文字图像数据库中的每个文字图像的图像特征可以包括：将每个文字图像的高度归一化；在高度归一化后的每个文字图像中采集第一预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。所述基于所述标签和所计算的每个文字图像的图像特征构建训练集可以包括：基于每个图像块的标签和所计算的每个图像块的图像特征构建训练集，其中，每个图像块的标签为其所源自的文字图像的标签。

根据本发明的一个实施例，特征提取模块301计算给定文字图像的图像特征的方法可以包括：将给定文字图像的高度归一化；在高度归一化后的给定文字图像中采集第二预定数目的不同尺寸的图像块；以及计算每个图像块的图像特征。所述图像分类模块利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像中的文字的字体的方法包括：将所计算的所述第二预定数目的图像块的图像特征分别输入到所述分类模型以得到多个识别结果；以及对所述多个识别结果取平均值作为所述给定文字图像中的文字的字体的最终识别结果。

其中，所述第一预定数目和所述第二预定数目的数值可以根据实际需要进行设定。示例性地，所述第一预定数目可以为50；所述第二预定数目可以为100。在一个示例中，所述图像块的高度和宽度相等。

根据本发明的一个实施例，特征提取模块301计算图像特征的方法可以包括计算纹理特征和/或形状特征。

示例性地，特征提取模块301计算纹理特征的方法可以包括计算词袋模型。

示例性地，特征提取模块301计算形状特征的方法可以包括计算形状上下文。

关于词袋模型和形状上下文的计算，上文已进行了详细描述，因此此处不再赘述。

本发明实施例的各个模块可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的字体识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在存储载体上提供，或者以任何其他形式提供。

本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

1.一种字体识别方法，其特征在于，所述字体识别方法包括：

在给定文字图像中采集多个不同尺度的图像块；其中所述图像块的高度和宽度的像素值在一定区间内随机变化；

针对每个所述图像块计算图像特征，包括：计算该图像块的纹理特征和形状特征，并将该图像块的所述纹理特征和所述形状特征拼接成组合特征以作为该图像块的图像特征；以及

基于所计算的每个所述图像块的图像特征利用训练好的分类模型确定所述给定文字图像中的文字的字体。

2.如权利要求1所述的字体识别方法，其特征在于，所述分类模型的训练包括：

构建文字图像数据库，所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签，所述标签指示相应的文字图像中的文字的字体；

计算所述文字图像数据库中的每个文字图像的图像特征；

基于所述标签和所计算的每个文字图像的图像特征构建训练集；以及

采用随机森林算法在所述训练集上训练出所述分类模型。

3.如权利要求2所述的字体识别方法，其特征在于，在所述分类模型的训练中：

所述计算文字图像数据库中的每个文字图像的图像特征包括：

将每个文字图像的高度归一化；

在高度归一化后的每个文字图像中采集第一预定数目的不同尺度的图像块；以及

计算每个图像块的图像特征，

所述基于所述标签和所计算的每个文字图像的图像特征构建训练集包括：

基于每个图像块的标签和所计算的每个图像块的图像特征构建训练集，其中，每个图像块的标签为其所源自的文字图像的标签。

4.如权利要求1所述的字体识别方法，其特征在于，所述基于所计算的每个所述图像块的图像特征利用训练好的分类模型确定所述给定文字图像中的文字的字体包括：

将每个所述图像块的图像特征分别输入到所述分类模型以得到多个识别结果；以及

对所述多个识别结果取平均值作为所述给定文字图像中的文字的字体的最终识别结果。

5.如权利要求1-4中的任一项所述的字体识别方法，其特征在于，所述图像块的高度和宽度相等。

6.如权利要求3所述的字体识别方法，其特征在于，所述第一预定数目为50。

7.如权利要求1所述的字体识别方法，其特征在于，计算纹理特征包括计算词袋模型，计算形状特征包括计算形状上下文。

8.一种字体识别装置，其特征在于，所述字体识别装置包括：

特征提取模块，用于在给定文字图像中采集多个不同尺度的图像块并针对每个所述图像块计算图像特征，包括：计算该图像块的纹理特征和形状特征，并将该图像块的所述纹理特征和所述形状特征拼接成组合特征以作为该图像块的图像特征；其中所述图像块的高度和宽度的像素值在一定区间内随机变化；以及

图像分类模块，用于利用其包括的训练好的分类模型、基于所述特征提取模块所计算的每个所述图像块的图像特征确定所述给定文字图像中的文字的字体。

9.如权利要求8所述的字体识别装置，其特征在于，所述分类模型的训练包括：

计算所述文字图像数据库中的每个文字图像的图像特征；

采用随机森林算法在所述训练集上训练出所述分类模型。

10.如权利要求9所述的字体识别装置，其特征在于，在所述分类模型的训练中：

将每个文字图像的高度归一化；

计算每个图像块的图像特征，

11.如权利要求8所述的字体识别装置，其特征在于，所述图像分类模块利用其包括的训练好的分类模型、基于所述特征提取模块所计算的每个所述图像块的图像特征确定所述给定文字图像中的文字的字体的方法包括：

12.如权利要求8-11中的任一项所述的字体识别装置，其特征在于，所述图像块的高度和宽度相等。

13.如权利要求10所述的字体识别装置，其特征在于，所述第一预定数目为50。

14.如权利要求8所述的字体识别装置，其特征在于，所述特征提取模块计算纹理特征的方法包括计算词袋模型，所述特征提取模块计算形状特征的方法包括计算形状上下文。