CN115565178A

CN115565178A - 一种字体识别的方法及装置

Info

Publication number: CN115565178A
Application number: CN202211302856.5A
Authority: CN
Inventors: 杨攀
Original assignee: Pacific Insurance Technology Co Ltd
Current assignee: Pacific Insurance Technology Co Ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-03

Abstract

本申请公开了一种字体识别的方法及装置，应用于人工智能领域。本申请中，通过利用每一个字符的坐标信息，切割图像得到每一个字符的图像块，识别获得每一个字符的图像块的识别结果，利用识别结果生成对应的字符的多个标准字体图像。提取每一个字符的图像块的特征向量和多个标准字体图像中的每个标准字体图像的特征向量，确定每一个字符的字体是否为标准字体的一种。通过将背景较为复杂的字体图像转化为标准字体图像，确定字符图像块与预设的字体合集的标准字体图像间的关系。即使在图像背景复杂的环境下，也可以较为准确的判断使用的字体是否为预设的字体合集中的字体。因此提高了字符识别准确度，降低了字体侵权风险，提高审核人员工作效率。

Description

一种字体识别的方法及装置

技术领域

本申请涉及人工智能领域，特别是涉及一种字体识别的方法及装置。

背景技术

在设计环节，通常会购买一定数量的字体以供使用，设计人员可以利用不同的字体进行制作，但在设计制作的过程中，可能会使用到预设的字体合集中没有的字体。

一般情况下，采用人工肉眼识别字体是否为预设的字体集合中的一种。这种识别方式，对于图像背景较为复杂的字符的字体无法准确识别，增加了字体侵权的风险，降低了审核人员的工作效率。

发明内容

基于上述问题，本申请提供了一种字体识别的方法及装置，以便识别图像中的字符的字体，提高了字体识别的准确度，降低了字体侵权的风险，提高了审核人员的工作效率。

本申请实施例公开了如下技术方案：

第一方面，本申请提供一种字体识别的方法，包括：

检测得到图像中每一个字符的坐标信息；

利用每一个所述字符的所述坐标信息，对所述图像进行图像切割，以获取每一个所述字符的图像块；

获取每一个所述字符的图像块的字符识别结果；

利用所述字符识别结果生成对应的所述字符的多个标准字体图像，所述多个标准字体图像中的每个标准字体图像，为对应的所述字符的一种标准字体的白底黑字图像；

获取每一个所述字符的图像块的特征向量，并获取对应的所述每个标准字体图像的特征向量；

根据每一个所述字符的图像块的特征向量，以及对应的所述每个标准字体图像的特征向量，确定每一个所述字符的字体是否为所述多种标准字体中的一种。

可选地，所述检测得到图像中每一个字符的坐标信息，具体包括：

利用单字符文本检测模型，检测得到所述图像中每一个字符坐标信息；所述单字符文本检测模型，利用单字符检测数据进行训练得到，所述单字符检测数据由识别结果已知的字符和所述识别结果已知的字符的坐标信息合成得到。

可选地，每种所述标准字体为预设的标准字体集合中的一种。

可选地，所述获取每一个所述字符的图像块的特征向量，并获取对应的所述每个标准字体图像的特征向量，具体包括：

利用字体和背景图像合成图像数据；

利用所述图像数据进行训练，获得字体分类模型，所述字体分类模型输出层中数值最大的特征向量，作为每一个所述字符的图像块的特征向量和对应的所述每个标准字体图像的特征向量。

可选地，所述根据每一个所述字符的图像块的特征向量，以及对应的所述每个标准字体图像的特征向量，确定每一个所述字符的字体是否为所述多种标准字体中的一种，具体包括：

当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，大于0.4且小于1时，每一个所述字符的字体是所述多种标准字体的一种；

当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，小于等于0.4且大于0时，每一个所述字符的字体不是所述多种标准字体的一种。可选地，所述当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，大于0.4且小于1时，每一个所述字符的字体是所述多种标准字体的一种后，还包括：

当每一个所述字符的字体是所述多种标准字体的一种时，确定每一个所述字符的具体的字体。

第二方面，本申请提供了一种字体识别的装置，包括：

单字符文本检测单元，用于将获取的图像进行单字符文本检测，得到每一个字符的坐标信息；

图像切割单元，用于根据所述每一个字符的坐标信息切割图像，得到每一个字符的图像块；

文字识别单元，用于识别所述每一个字符的图像块中的文字，得到文字识别结果；

标准字体图像生成单元，用于与所述字符识别结果对应的所述字符的多个标准字体图像，所述多个标准字体图像中的每个标准字体图像，为对应的所述字符的一种标准字体的白底黑字图像；

特征提取单元，用于获取所述每一个字符指定的多种标准字体图像的特征向量和所述每一个字符的图像块的特征向量；

检测字体单元，用于确认检测字符是否为多种标准字体中的一种。

可选地，所述单字符文本检测单元，用于利用单字符文本检测模型，检测得到所述图像中每一个字符坐标信息；所述单字符文本检测模型，利用单字符检测数据进行训练得到，所述单字符检测数据由识别结果已知的字符和所述识别结果已知的字符的坐标信息合成得到。

可选地，所述特征提取模块，用于利用字体和背景图像合成图像数据；利用所述图像数据进行训练，获得字体分类模型，所述字体分类模型输出层中数值最大的特征向量，作为每一个所述字符的图像块的特征向量和对应的所述每个标准字体图像的特征向量。

可选地，所述检测字体单元，用于当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，大于0.4且小于1时，每一个所述字符的字体是所述多种标准字体的一种；

当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，小于等于0.4且大于0时，每一个所述字符的字体不是所述多种标准字体的一种。

可选地，所述检测字体单元还用于，当每一个所述字符的字体是所述多种标准字体的一种时，确定每一个所述字符的具体的字体。

相较于现有技术，本申请具有以下有益效果：

本申请技术方案中，通过利用每一个字符的坐标信息，切割图像得到每一个字符的图像块，识别每一个字符的图像块，获得每一个字符的图像块的字符识别结果，利用识别结果生成对应的字符的多个标准字体图像。提取每一个字符的图像块的特征向量和多个标准字体图像中的每个标准字体图像的特征向量，利用余弦相似度计算方法，确定每一个字符的字体是否为标准字体的一种。通过将背景较为复杂的字体图像转化为标准字体图像，确定字符图像块与预设的字体合集的标准字体图像间的关系。即使在图像背景复杂的环境下，也可以较为准确的判断使用的字体是否为预设的字体合集中的字体。因此提高了字符识别的准确度，降低了字体侵权的风险，提高了审核人员的工作效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种字体识别的方法的流程图；

图2为本申请实施例提供的一种字体识别的方法的另一种流程图；

图3为本申请实施例提供的一种字体识别的装置的结构示意图。

具体实施方式

为了使本领域技术人员更清楚地理解本公开的技术方案，下面首先说明本公开方案的应用场景。

一般企业内部通常会购买一定数量的字体，用于企业宣传海报的设计。但是，海报设计人员在宣传海报制作过程中可能会使用未购买的个人免费字体，但是企业需要付费的字体。字体合规审核方法的核心技术是字体识别，对字体进行识别检测，可以确定使用的字体是否为企业购买的字体。

目前，行业内的字体识别方法，主要针对的是简单背景图像，比如白底黑字图像，并且需要用户手动截取单个字符的图像送入其识别接口。企业宣传海报的图像背景较为复杂，且一张图像中通常存在多种字体，极端情况下，一行文本中相邻两个字符使用的字体也可能不一样，难以在该场景取得有效的结果。同时在字体合规的人工审核阶段，肉眼往往难以识别海报中的字体类型，进一步判断这些字体是否已购买。这种字体识别方法，用户体验较差，同时识别效果不佳，对于区分度较低的字体往往识别错误，缺少为审核人员提供辅助的合规字体审核方法。会导致降低了字符识别的准确度，提高了字体侵权的风险，降低了审核人员的工作效率。

本申请技术方案中，通过利用每一个所述字符的所述坐标信息，切割所述图像得到每一个所述字符的图像块，识别每一个所述字符的图像块，获得每一个所属字符的图像块的字符识别结果，利用所述识别结果生成对应的所述字符的多个标准字体图像。提取每一个所述字符的图像块的特征向量和所述多个标准字体图像中的每个标准字体图像的特征向量，利用余弦相似度计算方法，确定每一个所述字符的字体是否为所述标准字体的一种。通过将背景较为复杂的字体图像转化为标准字体图像，确定字符图像块与预设的字体合集的标准字体图像间的关系。即使在图像背景复杂的环境下，也可以较为准确的判断使用的字体是否为预设的字体合集中的字体。因此提高了字符识别的准确度，降低了字体侵权的风险，提高了审核人员的工作效率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种字体识别的方法的流程图。如图1所示，该方法包括：

S101：检测得到图像中每一个字符的坐标信息。

用户可以将需要检测的图像存储在服务器中，存储路径可以是指定的路径。其中，被检测的图像的画面质量需要是清晰的，以人眼可以看清作为清晰的标准。

利用单字符文本检测模型对图像进行检测，可以得到图像中每一个字符的坐标信息。每一个字符的坐标信息是字符对角线上两个顶点的位置信息。

举例说明，每一个字符的坐标信息可以是每一个字符的左上顶点的横纵坐标和右下顶点的横纵坐标。每一个字符的坐标信息具体可以表示为：[x1,y1,x2,y2]，其中，x1可以是左上顶点的横坐标，y1可以是左上顶点的纵坐标，x2可以是右下顶点的横坐标，y2可以是右下顶点的纵坐标。

可以理解的是，每一个字符的坐标信息还可以是每一个字符右上顶点的横纵坐标和左下顶点的横纵坐标。

S102：利用每一个字符的坐标信息，对图像进行图像切割。

根据获得的每一个字符的坐标信息，对图像利用图像切割模型进行切割。将图像切割为只含有单个字符的图像块，即为每一个字符的图像块。

S103：获取每一个字符的图像块的字符识别结果。

对文字识别模型进行训练，利用文字识别模型，识别每一个字符的图像块，可以得到每一个字符的图像块的字符识别结果。

字符识别结果包括每一个字符本身的文字内容。

举例说明，经过S102的切割，获得了一个字符的图像块，利用文字识别模型进行识别后，可以得到这个字符的图像块的文字识别结果，这个结果是“明”。

S104：利用字符识别结果生成对应的字符的多个标准字体图像。

根据预设的标准字体集合，可以利用标准字体图像生成模型生成字符识别结果的标准字体图像。标准字体图像可以是白底黑字的图像。设置为白底黑字的图像，在识别时干扰较少，可以有利于字符字体的识别。

其中，一个字符识别结果需要根据预设的标准字体集合，生成多个标准字体图像。这些图像的文字内容相同，区别在于，每一个图像的字体不同。

S105：获取每一个字符的图像块的特征向量，获取对应的每个标准字体图像的特征向量。

利用特征提取模型获取每一个字符的图像块的特征向量，并利用特征提取模型获取每个标准字体图像的特征向量。

具体的，需要先训练字体分类模型，利用常用字体和背景图像合成含有字符的图像数据。再利用合成的图像数据对字体分类模型进行训练，因为字体分类模型是分层模型的一种，所以得到的模型具有多层，将字体分类模型的输出层中数值最大的特征向量，作为每一个字符的图像块的特征向量和每个标准字体图像的特征向量。

S106：根据每一个字符的图像块的特征向量，以及对应的每个标准字体图像的特征向量，确定每一个字符的字体是否为多种标准字体中的一种。

根据S105获得的每一个字符的图像块的特征向量，和每个标准字体图像的特征向量，可以确定每一个字符的图像块中的字符字体是否为预设的字体合集中多种标准字体的一种。

举例说明，可以利用余弦相似度计算方法进行对比。用每一个字符的图像块的特征向量比上每个标准字体图像的特征向量。通常情况下，大于0.4且小于1时是相似的，且越靠近1时，相似度越高；小于等于0.4且大于0时是不相似的。

本申请技术方案中，通过利用每一个字符的坐标信息，切割图像得到每一个字符的图像块，识别每一个字符的图像块，获得每一个字符的图像块的字符识别结果，利用识别结果生成对应的字符的多个标准字体图像。提取每一个字符的图像块的特征向量和多个标准字体图像中的每个标准字体图像的特征向量，确定每一个字符的字体是否为标准字体的一种。因此，提高了字符识别的准确度，降低了字体侵权的风险，提高了审核人员的工作效率。

图2为本申请实施例提供的一种字体识别的方法的另一种流程图。如图2所示，该方法包括：

S201：获取用户上传的图像，并将其存储在服务器指定路径。

获取用户需要上传检测的图像，将图像存储在服务器中，存储路径可以是指定的路径。

对于被检测的图像进行举例，图像可以是宣传海报，宣传单等，图像上具有字符，字符可以是具有设计字体的字符。

S202：将图像送入单字符文本检测模型，获得图像中每一个字符的坐标信息。

根据图像在服务器中的存储路径，加载图像并利用单字符文本检测模型对图像中的每一个字符进行检测，得到每一个字符的坐标信息。其中，每一个字符的坐标信息可以保存为json文件。

举例说明，图像中存在一个字符，这个字符在图像中的坐标信息是[12,8,16,4]。其中12是字符左上顶点的横坐标，8是字符左上顶点的纵坐标，16是字符右下顶点的横坐标，4是字符右下顶点的纵坐标。

对单字符文本检测模型的获得举例说明，采用DBNet-ASF文本检测算法，选择MobileNetv3网络作为DBNet-ASF文本检测算法的主干网络，构成单字符文本检测模型。其中，选择MobileNetv3网络检测效果和检测速度更良好。

利用合成算法合成单字符文本检测数据，其中，合成数据用于DBNet-ASF文本检测模型的预训练，合成的数据可以是100万张。合成数据包括字符和字符的坐标信息，且字符和字符的坐标信息是已知的。

可以自行收集5000张图像，对图像中的单字符文本进行检测标注，标注的单字符文本用于DBNet-ASF文本检测模型的微调训练以及测试中。其中，微调训练可以让得到的模型更加准确。

在以MobileNetv3网络为主干的DBNet-ASF单字符文本检测模型上，预训练合成的100万个单字符文本检测数据，得到DBNet-ASF单字符文本检测预训练模型。再利用5000张图像中的单字符文本检测数据对预训练模型进行微调训练以及测试，保存训练过程中生成的模型权重值文件以及模型网络结构文件，可以获得单字符文本检测模型。

S203：将图像以及其中每一个字符的坐标信息送入图像切割模型，得到每一个字符的图像块。

根据S202中得到的每一个字符的坐标信息的json文件，和图像在服务器中的存储路径，将图像送入到图像切割模块中。对图像中对应的字符进行图像切割，可以获得每一个字符的图像块。

举例说明，得到一个字符的坐标信息是[12,8,16,4]，则在图像中对应的坐标处进行切割，就可以得到只有这个字符存在的图像块。

对图像切割模型进行举例说明，可以使用opencv图像库以及python中的numpy库进行图像切割模型的构建。

S204：将每一个字符的图像块送入文字识别模型，得到每一个字符的图像块的字符识别结果。

利用文字识别数据对文字识别模型进行训练，将每一个字符的图像块在文字识别模型中进行识别，可以得到每一个字符的图像块的字符识别结果。其中，每一个字符的图像块可以统一到32×32尺寸，此时的图像块更加清晰。

对文字识别模型进行举例说明，可以采用SVTR文字识别算法，其中，选择用SVTR-Tiny进行文字识别，识别速度更加良好。

采用不同的数据增强方法对文字识别数据进行合成，可以合成1000万条数据，合成数据用于SVTR-Tiny文字识别模型的预训练中，得到SVTR-Tiny文字识别预训练模型。文字识别预训练模型上，使用10万条自行标注的真实数据集进行微调训练以及测试，保存训练过程中生成的模型权重值文件以及模型网络结构文件，得到可用的文字识别模型。

此处的微调训练于上述单字符文本识别模型中的微调训练作用一致，是为了可以获得更加准确的文字识别模型。

其中，数据增强可以是，当图像块中的文字存在线条过细的情况，可以对文字进行加粗，当图像块中的文字存在重影重叠的情况，可以对文字进行消除重叠部分。数据加强的本意是对图像块中的文字进行处理，让文字更加清晰，以便于后续的识别。可以数据增强的情况包括但不限于上述内容，在此不一一赘述。

S205：将字符识别结果送入标准字体图像生成模型，得到多个标准字体图像。

根据预设的标准字体合集，利用标准字体图像生成模型生成字符识别结果对应的多个标准字体图像。将多个标准字体图像的尺寸统一扩大到64×64。对多个标准字体图像的尺寸进行扩大，可以让图像在后续的识别中更加清晰。

对标准字体图像生成模型进行举例，可以利用python中的fontTools和Pillow构建标准字体图像生成模型，将需要生成多个标准字体图像的字符识别结果添加到标准字体图像生成模型中，可以得到与字符识别结果对应的多个标准字体图像。其中，标准字体图像可以是白底黑字的图像。

S206：将每个标准字体图像送入特征提取模型，得到每个标准字体图像对应的特征向量。

利用特征提取模型获取每个标准字体图像对应的特征向量。

对特征提取模型进行举例，在获得特征提取模型之前，需要获得字体分类模型。可以采用ResNet50作为主干网络配合Softmax进行字体分类模型的训练。

具体的，可以自行收集500中常用字体，1万张背景图像，利用常用字体和背景图像合成1000万张图像。其中每种字体2万张图像并确保每个字符有2张以上图像，以确保模型训练的准确性。

利用合成的1000万字体识分类据集，对ResNet50-Softmax字体分类模型进行训练，保存训练过程中生成的模型权重值文件以及模型网络结构文件，得到可用的字体分类模型。

获取字体分类模型输出层的最大值的特征向量作为单字符字体图像的特征向量，可以得到特征提取模型。对特征向量进行举例说明，可以取字体分类模型输出层的512维特征向量作为单字符字体图像的特征向量。

S207：将每一个字符的图像块送入特征提取模型，得到每一个字符的图像块对应的特征向量。

前文提到，获取每个标准字体图像的特征向量的方法，获取每一个字符的图像块对应的特征向量的方法与获取每个标准字体图像的特征向量一致，故在此不再赘述。

S208：利用余弦相似度计算方法，得到每一个字符的对比结果。

可以采用余弦相似度计算方法，将S207得到的每一个字符的图像块的特征向量与S206得到的每个标准字体图像的特征向量依次进行比较。

当比较结果大于0.4且小于1时，则说明每一个字符的字体与标准字体相似，当比较结果小于等于0.4且大于0时，每一个字符的字体与标准字体不相似。

举例说明，一个字符的字体与第一标准字体的余弦值为0.9，与第二标准字体的余弦值为0.5，与第三标准字体的余弦值为0.2。可以说明，这个字符的字体与第三标准字体不相似，而对于第一标准字体和第二标准字体来说，这个字符的字体与第一标准字体更为相似。可以确定这个字符的字体是第一标准字体。

当一个字符的字体与多个标准字体进行余弦值比较后均小于等于0.4且大于0时，可以说明，这个字符的字体不在预设的字体合集中。

其中，当一个字符的字体与标准字体相似时，可以得到字体的具体类别。举例说明，这个字符的字体与第一标准字体更为相似，第一标准字体为宋体，则这个字符的字体是宋体。

图3为本申请实施例提供的一种字体识别的装置的流程图。如图3所示，该装置包括：

单字符文本检测单元310，用于将获取的图像进行单字符文本检测，得到每一个字符的坐标信息。

单字符文本检测单元310可以根据图像在服务器中的存储路径，加载图像并利用单字符文本检测模型对图像中的每一个字符进行检测，得到每一个字符的坐标信息。

图像切割单元320，用于根据每一个字符的坐标信息切割图像，得到每一个字符的图像块。

图像切割单元320根据S202中得到的每一个字符的坐标信息的json文件，和图像在服务器中的存储路径，对图像中对应的字符进行图像切割，可以获得每一个字符的图像块。

文字识别单元330，用于识别每一个字符的图像块中的文字，得到文字识别结果。

文字识别单元330利用文字识别数据对文字识别模型进行训练，将每一个字符的图像块在文字识别模型中进行识别，可以得到每一个字符的图像块的字符识别结果。

标准字体图像生成单元340，用于与所述字符识别结果对应的所述字符的多个标准字体图像。

标准字体图像生成单元340根据预设的标准字体合集，利用标准字体图像生成模型生成字符识别结果对应的多个标准字体图像。

特征提取单元350，用于获取每个标准字体图像的特征向量和每一个字符的图像块的特征向量。

首先获得字体分类模型，从字体分类模型中选取特征向量组成特征提取模型。利用特征提取模型获取每个标准字体图像对应的特征向量和每一个字符的图像块的特征向量。

检测字体单元360，用于确认检测字符是否为多种标准字体中的一种。

检测字体单元360将特征提取单元350得到的每一个字符的图像块的特征向量与每个标准字体图像的特征向量依次进行比较，确定每一个字符的字体不是多种标准字体的一种。

本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种字体识别的方法，其特征在于，包括：

检测得到图像中每一个字符的坐标信息；

获取每一个所述字符的图像块的字符识别结果；

2.根据权利要求1所述的方法，其特征在于，所述检测得到图像中每一个字符的坐标信息，具体包括：

3.根据权利要求1所述的方法，其特征在于，每种所述标准字体为预设的标准字体集合中的一种。

4.根据权利要求1所述的方法，其特征在于，所述获取每一个所述字符的图像块的特征向量，并获取对应的所述每个标准字体图像的特征向量，具体包括：

利用字体和背景图像合成图像数据；

5.根据权利要求1所述的方法，其特征在于，所述根据每一个所述字符的图像块的特征向量，以及对应的所述每个标准字体图像的特征向量，确定每一个所述字符的字体是否为所述多种标准字体中的一种，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，大于0.4且小于1时，每一个所述字符的字体是所述多种标准字体的一种后，还包括：

7.一种字体识别的装置，其特征在于包括：

8.根据权利要求7所述的装置，其特征在于，所述单字符文本检测单元，用于利用单字符文本检测模型，检测得到所述图像中每一个字符坐标信息；所述单字符文本检测模型，利用单字符检测数据进行训练得到，所述单字符检测数据由识别结果已知的字符和所述识别结果已知的字符的坐标信息合成得到。

9.根据权利要求7所述的装置，其特征在于，所述特征提取模块，用于利用字体和背景图像合成图像数据；利用所述图像数据进行训练，获得字体分类模型，所述字体分类模型输出层中数值最大的特征向量，作为每一个所述字符的图像块的特征向量和对应的所述每个标准字体图像的特征向量。

10.根据权利要求7所述的装置，其特征在于，所述检测字体单元，用于当利用余弦值相似度计算方法，确定满足每一个所述字符的图像块的特征向量与对应的所述每个标准字体图像的特征向量的余弦值，大于0.4且小于1时，每一个所述字符的字体是所述多种标准字体的一种；

11.根据权利要求10所述的装置，其特征在于，所述检测字体单元还用于，当每一个所述字符的字体是所述多种标准字体的一种时，确定每一个所述字符的具体的字体。