CN115019322A

CN115019322A - 字体检测方法、装置、设备及介质

Info

Publication number: CN115019322A
Application number: CN202210615925.1A
Authority: CN
Inventors: 缪瑜; 刘奎龙; 杨昌源
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-06

Abstract

本申请提供一种字体检测方法、装置、设备及介质，该字体检测方法包括：在待检测图像上，确定包含文字的区域图像和区域图像中的文字；对区域图像进行图像分类，得到区域图像对应的候选字体；对区域图像进行目标分割，得到区域图像对应的文字图像；根据区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体。从而，在字体检测过程中，用户只需要提供待检测图像，即可得到待检测图像中文字的字体，提高了字体检测效率，能够实现批量图像的字体识别，同时，通过图像分类、目标分割多个阶段实现字体检测，有效地提高了字体检测的准确性。

Description

字体检测方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种字体检测方法、装置、设备及介质。

背景技术

在电商平台上，商家针对商品上新、商品促销等活动，制作相应的宣传素材，在制作宣传素材时，需要使用到不同的字体。为避免商家在不知情的情况下商用了有版权的字体，也为了保护字体所有者的版权，有必要为用户(尤其是商家)提供字体检测服务。

在相关技术中，对输入图像中的文字进行分割，得到分割图像并输出，由用户根据文字结构对分割图像进行拼接，并针对拼接的图像输入相应的文字，结合用户拼接的图像和用户输入的文字，进行字体检测。

然而，上述方式中需要用户进行繁琐的操作，导致字体检测效率较低。

发明内容

本申请提供一种字体检测方法、装置、设备及介质，用以解决字体检测效率较低的问题。

第一方面，本申请实施例提供一种字体检测方法，应用于服务器，该字体检测方法包括：在待检测图像上，确定包含文字的区域图像和区域图像中的文字；对区域图像进行图像分类，得到区域图像对应的候选字体；对区域图像进行目标分割，得到区域图像对应的文字图像；根据区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体。

第二方面，本申请实施例提供一种字体检测方法，应用于客户端，该字体检测方法包括：响应于用户请求检测待检测图像中文字字体的交互操作，向服务器发送字体检测请求，字体检测请求用于检测待检测图像上文字的字体；接收服务器返回的字体检测结果，字体检测结果与待检测图像上区域图像中文字所属的目标字体相关，目标字体是通过对区域图像进行图像分类和目标分割并结合区域图像中的文字确定的。

第三方面，本申请实施例提供一种字体检测装置，应用于服务器，该字体检测装置包括：第一确定单元，用于在待检测图像上，确定包含文字的区域图像和区域图像中的文字；字体识别单元，用于对区域图像进行图像分类，得到区域图像对应的候选字体；目标分割单元，用于对区域图像进行目标分割，得到区域图像对应的文字图像；第二确定单元，用于根据区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体。

第四方面，本申请实施例提供一种字体检测装置，应用于客户端，该字体检测装置包括：发送单元，用于响应于用户请求检测待检测图像中文字字体的交互操作，向服务器发送字体检测请求，字体检测请求用于检测待检测图像上文字的字体；接收单元，用于接收服务器返回的字体检测结果，字体检测结果与待检测图像上区域图像中文字所属的目标字体相关，目标字体是通过对区域图像进行图像分类和目标分割并结合区域图像中的文字确定的。

第五方面，本申请实施例提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备能够执行本申请第一方面和/或第二方面提供的字体检测方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请第一方面和/或第二方面提供的字体检测方法。

第七方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行本申请第一方面和/或第二方面提供的字体检测方法。

由上述技术方案可见，本申请实施例提供一种字体检测方法、装置、设备及介质，在待检测图像上，确定包含文字的区域图像和区域图像中的文字，基于区域图像和区域图像中的文字，对区域图像中的文字进行字体检测，相较于对整张待检测图像进行字体检测，对区域图像进行字体检测的准确性和效率较高。在字体检测过程中，通过将字体检测分为如下几个阶段，提高字体检测的准确性：对区域图像进行图像分类，得到区域图像对应的候选字体，对区域图像进行目标分割，得到区域图像对应的文字图像，结合区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体。从而，在字体检测过程中，用户仅需提供图像，即可实现图像中文字的字体检测，尤其是实现批量图像的文字字体检测，有效提高了字体检测的效率，而且还提高了字体检测的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种字体检测方法的场景示意图；

图2为本申请实施例提供的字体检测方法的流程示意图一；

图3为本申请实施例提供的目标分割模型的结构示意图一；

图4为本申请实施例提供的字体检测方法的流程示意图二；

图5(a)为本申请实施例提供的目标分割模型的结构示意图二；

图5(b)为本申请实施例提供的目标分割模型的结构示意图三；

图6为本申请实施例提供的字体检测装置60的结构框图；

图7为本申请实施例提供的字体检测装置70的结构框图；

图8为本申请示例性实施例提供的一种云服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

在不支持图像到字体的端对端检测的字体检测技术中，需要用户进行辅助操作，比如用户对图像拼接并输入相应的文字，而不支持图像到字体的端到端检测。在支持图像到字体的端对端检测的字体检测技术中，对输入图像的要求较高，比如：对输入图像的尺寸要求较高，对输入图像中文字的排版方式要求较高等。用户需要挑选满足要求的图像或者通过对图像进行人工处理使得图像满足要求后，再做进一步的字体检测。

可见，上述字体检测技术均增加了用户的使用成本，影响用户的使用体验，而且字体检测效率低，无法实现图像批量检测。

为解决上述问题，本申请实施例提供了一种字体检测方法、装置、设备及介质，在待检测图像上，确定包含文字的区域图像和区域图像中的文字，结合区域图像和区域图像中的文字，检测区域图像中文字的字体。相较于对整张待检测图像进行字体检测，在区域图像上进行字体检测的效率和准确性更高。在字体检测过程中，通过将字体检测分为如下几个阶段，提高字体检测的准确性：对区域图像进行图像分类，得到区域图像对应的候选字体，对区域图像进行目标分割，得到区域图像对应的文字图像，结合区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体。从而，实现了图像到字体的端对端检测，对图像无特殊要求，有效地提高了字体检测的效率和准确性，有利于实现批量图像的字体检测。

图1为本申请实施例提供的字体检测方法的应用场景示意图。如图1所示，执行字体检测方法的装置为字体检测装置，字体检测装置可连接客户端。

客户端可以是任何具有一定数据处理能力的计算设备。此时，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器(Read-Only memory，简称ROM)、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System，简称OS)、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选的，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。可选地，客户端可以为PC(personalcomputer)终端、手持终端(例如：智能手机、平板电脑)等。

字体检测装置可以为向客户端提供字体检测服务的设备。在字体检测装置中，可以部署字体检测模型，字体检测模型可包括与字体检测相关的一个或多个算法模型，基于该一个或多个算法模型实现图像上文字的字体检测。

在物理实现上，字体检测装置可以是任何能够提供计算服务，响应服务请求，并进行处理的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。字体检测装置的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

其中，客户端可与字体检测装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端与字体检测装置是通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。

在字体检测场景中，客户端可以向字体检测装置发送字体检测请求，请求字体检测装置对待检测图像上的文字进行字体检测。字体检测装置可以响应于客户端的字体检测请求，对待检测图像上的文字进行字体检测。之后，字体检测装置还可将字体检测结果返回至客户端，以便用户查看。此外，字体检测装置也可以用于来自本地或远程数据库(图1未示出)的批量图像进行字体检测，可将检测到的字体写入本地或者远程数据库中。

在字体检测场景中，字体检测装置主要用于：确定待检测图像上的区域图像和文字、针对区域图像进行候选字体的识别和文字图像的分割、以及确定区域图像中文字所属的目标字体。如此，实现图像上文字的字体检测。

上述只是示例性的一个应用场景。本申请实施例可以应用于互联网中任何字体检测场景中，比如，在客户端上对客户端本地的图像进行字体检测，在服务器上对服务器本地的图像进行字体检测等。

下面，结合附图，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的字体检测方法的流程示意图一，该方法可应用于服务器。如图2所示，本申请实施例提供的字体检测方法，包括：

S201、在待检测图像上，确定包含文字的区域图像和区域图像中的文字。

其中，待检测图像为包含文字的图像，可从本地数据库中获取待检测图像，也可以获取来自其他设备的待检测图像，比如获取来自客户端的待检测图像。在待检测图像上，文字分布在一个或多个区域，因此，待检测图像上包含文字的区域图像的数量可为一个或多个，区域图像中文字的数量也可为一个或多个。文字可以包括英文、数字和/或汉字等一种或多种类型的字符。

本实施例中，在获得待检测图像后，可检测待检测图像中的文字。基于待检测图像上检测出的文字的图像位置分布，在待检测图像中确定包含文字的区域图像，并可获得区域图像中的文字。

S202、对区域图像进行图像分类，得到区域图像对应的候选字体。

其中，字体检测模型中包括图像分类模型，图像分类模型用于基于字体类型对图像进行分类，换句话说，图像分类模型用于确定图像的字体类别，即图像中文字的字体类别。比如，确定区域图像中文字的字体类别为楷体。

其中，候选字体的数量为一个或多个。

本实施例中，通过图像分类模型对区域图像进行图像分类的方式，初步预测区域图像中文字所属的字体类型，在初步预测的区域图像中文字所属的字体类型中，确定区域图像对应的候选字体。在区域图像为多个的情况下，可通过图像分类模型对每个区域图像分别进行图像分类的方式，得到每个区域图像分别对应的候选字体。

在通过图像分类确定候选字体的过程中，可通过图像分类模型对区域图像进行图像分类，得到区域图像在多个字体类型下的概率，其中，区域图像在字体类型下的概率表示区域图像中的文字属于该字体类型的概率。基于区域图像在多个字体类型下的概率，在多个字体类型中选取区域图像对应的候选字体。在一种方式中，如果区域图像在字体类型下的概率大于概率阈值，则将该字体类型确定为区域图像对应的候选字体；在另一种方式中，确定区域图像对应的候选字体为按照概率从大到小的顺序排列在前预设位的字体类型，比如按照概率从大到小排列在前10位的字体类型。

作为示例的，通过图像分类模型对区域图像进行分类，得到区域图像在多个字体类型下的概率，按照概率从大到小的顺序，抽取出前10个(Top-10)可能的字体类型作为候选字体，在这10个候选字体中通常包括与区域图像中文字所属的真实字体风格近似的字体。

S203、对区域图像进行目标分割，得到区域图像对应的文字图像。

其中，字体检测模型还包括目标分割模型，目标分割模型用于以文字为目标对图像进行目标分割，得到仅包括文字的文字图像。

本实施例中，在区域图像中除文字之外，还可以包括其他内容，比如人物、商品，文字可以看作前景，其他内容可以看作背景，采用目标分割模型对区域图像进行目标分割(即将区域图像中的前景与背景区分出来，以分割出区域图像中的前景)，得到仅包含文字的文字图像。

S204、根据区域图像中的文字、区域图像对应的候选字体和区域图像对应的文字图像，确定区域图像中文字所属的目标字体。

本实施例中，可基于区域图像中的文字和区域图像对应的候选字体，得到候选字体下的文字，比如，区域图像中的文字为“你好”，候选字体包括楷体和宋体，则可基于文字和候选字体，生成楷体的“你好”和宋体的“你好”。将候选字体下的文字与区域图像对应的文字图像进行匹配，根据匹配结果，在候选字体中确定区域图像中的文字所属的目标字体。从而，结合图像分类所得到的候选字体、目标分割所得到的文字图像以及区域图像中的文字，有效地提高了对图像进行字体检测的准确性。

一种方式中，在候选字体中，如果候选字体下的文字与区域图像对应的文字图像的匹配程度大于匹配阈值，则将该候选字体确定为区域图像中文字所属的目标字体；又一种方式中，在候选字体下的文字中，确定与文字图像的匹配程度最高的候选字体下的文字，将该候选字体确定为目标字体；又一种方式中，在候选字体下的文字中，确定与文字图像的匹配程度最高且匹配程度大于匹配阈值的候选字体下的文字，将该候选字体确定为目标字体。

本申请实施例中，将待检测图像的字体检测，转换为区域图像的字体检测，将区域图像上文字的字体检测分为如下几个步骤：针对区域图像进行图像分类，得到区域图像对应的候选字体；针对区域图像进行目标分割，得到区域图像对应的文字图像；根据区域图像中的文字、区域图像对应的候选字体以及区域图像对应的文字图像，在候选字体中确定区域图像中文字所属的目标字体。可见，实现了图像到字体的端到端检测，提高了字体检测效率，可实现批量图像的字体检测，同时还提高了字体检测的准确性。

在一些实施例中，可通过光学字符识别(Optical Character Recognition，OCR)对待检测图像进行图像处理，得到包含文字的区域图像和区域图像中的文字。其中，OCR可识别出待检测图像中的文本框和文本框中的文字，文本框即为包含文字的区域图像，文本框中的文字即区域图像中的文字。从而，基于OCR的字符识别能力，提高区域图像和区域图像中文字的准确性。

在一些实施例中，可基于预训练的视觉转换(Vision Transformer，ViT)模型得到图像分类模型。其中，预训练的ViT模型是在大规模数据上训练得到，且具有精度较高的图像分类能力。在得到预训练的ViT模型后，可在字体检测任务上对ViT模型做进一步的训练，即对ViT模型的模型参数进行微调，使得ViT模型能够基于字体类型对图像进行分类，得到图像分类模型。从而，基于ViT模型有效地提高了对区域图像进行图像分类的准确性，提高了区域图像对应的候选字体的准确性。

在一些实施例中，图3为本申请实施例提供的目标分割模型的结构示意图一，如图3所示，目标分割模型包括特征提取网络、检测网络和分割网络。其中，特征提取网络用于提取特征图，检测网络和分割网络基于特征提取网络提取的特征图分别进行文字检测和文字分割。待检测图像的区域图像经过图像特征提取、文字检测、文字分割后，得到区域图像对应的文字图像。从而，在特征提取网络、检测网络和分割网络的协同下，提高文字检测、文字分割的准确性。其中，检测网络与分割网络之间也可以进行数据传递，检测网络的检测结果可传递至分割网络中，以辅助分割网络进行目标分割。

基于图3所示的目标分割网络，图4为本申请实施例提供的字体检测方法的流程示意图二。如图4所示，本申请实施例提供的字体检测方法，包括：

S401、在待检测图像上，确定包含文字的区域图像和区域图像中的文字。

S402、对区域图像进行图像分类，得到区域图像对应的候选字体。

其中，S401～S402的实现原理和技术效果可参照前述实施例，不再赘述。

S403、在目标分割模型中，通过特征提取网络对区域图像进行特征提取，得到区域图像的特征图。

其中，特征提取网络为神经网络，在特征提取网络中包括多个网络层。

本实施例中，可将区域图像输入至特征提取网络中，或者，可对区域图像进行预处理，将预处理后的区域图像输入至特征提取网络中，在特征提取网络中，通过多个网络层对区域图像进行图像特征提取，得到区域网络的特征图。在区域图像为多个时，可通过特征提取网络对各个区域图像分别进行图像特征提取，得到各个区域图像的特征图。

在一些实施例中，如图3所示，目标分割模型还包括边缘检测网络，边缘检测网络用于检测图像中更多的边缘信息。边缘检测网络检测得到的边缘信息用于辅助特征提取网络的特征提取，以解决特征提取、目标检测和目标分割的注意力集中在文字的主体部分而忽略文字的边缘部分，进而导致从区域图像中分割得到的文字图像不准确的问题，即提高了对区域图像进行特征提取的准确性，提高了后续对区域图像进行目标检测和目标分割的准确性。

基于目标分割模型还包括边缘检测网络，S403的一种可能的实现方式包括：将区域图像输入至边缘检测网络，在边缘检测网络中，对区域图像进行文字边缘检测，得到区域图像的文字边缘检测图；根据区域图像、文字边缘检测图和特征提取网络，进行区域图像的特征提取，得到区域图像的特征图。

本实现方式中，可将区域图像输入至边缘检测网络中，或者将预处理后的区域图像输入至边缘检测网络，在边缘检测网络中，检测区域图像中文字的边缘信息，得到区域图像的文字边缘检测图，在区域图像的文字边缘检测图中，显示有文字的边缘部分，而弱化了区域图像的背景和文字的主体部分。之后，可将区域图像输入至特征提取网络中，或者将预处理后的区域图像输入至特征提取网络中，在特征提取网络中对区域图像进行特征提取，同时，可利用文字边缘检测图辅助特征提取网络对区域图像的特征提取，以帮助特征提取网络获取更多的文字边缘特征，提高特征提取网络提取图像特征的准确性，进而解决后续过程中目标检测和目标分割的注意力集中在文字的主体部分而忽略了文字的边缘部分的问题，提高目标检测和目标分割的准确性。

在根据区域图像、文字边缘检测图和特征提取网络，进行区域图像的特征提取，得到区域图像的特征图的过程中，可基于注意力机制，将文字边缘检测图融合至特征提取网络对区域图像的特征提取过程中。

可选的，边缘检测网络采用整体嵌套的边缘检测(Holistically-nested EdgeDetection，HED)网络，以通过HED网络提高文字边缘检测的准确性。

在一些实施例中，如图3所示，目标检测网络还包括注意力网络，注意力网络用于对边缘检测网络输出的文字边缘检测图进行处理，以得到相应的注意力权重，注意力权重用于辅助特征提取网络对区域图像的特征提取，以提高特征提取网络对区域图像的特征提取的准确性。

基于目标检测网络还包括注意力网络，在根据区域图像、文字边缘检测图和特征提取网络，进行区域图像的特征提取，得到区域图像的特征图的过程中，一种可能的实现方式包括：将文字边缘检测图输入至注意力网络，在注意力网络中对文字边缘检测图进行特征提取，得到区域图像对应的注意力权重；将区域图像输入至特征提取网络中，基于区域图像对应的注意力权重，在特征提取网络中对区域图像进行特征提取，得到区域图像的特征图。

其中，注意力网络利用注意力机制(Attention Mechanism)在文字边缘检测图像上学习注意力权重。注意力网络的输入数据为文字边缘检测图像，输出数据为多个权重图(weight map)，不同的权重图表示不同的注意力权重。注意力权重可用于辅助特征提取网络中多个网络层的融合，进一步的，注意力权重可用于辅助特征提取网络中多个网络层的输出数据的融合。

本实现方式中，将文字边缘检测图输入至注意力网络，在注意力网络中利用注意力机制，对文字边缘检测图进行特征提取，得到区域图像对应的多个权重图，即区域图像对应的多个注意力权重。之后，将区域图像输入至特征提取网络中，在特征提取网络中：可通过多个网络层对区域图像进行特征提取，得到多个网络层的输出数据；可基于网络层与注意力权重的对应关系，将网络层的输出数据与网络层对应的注意力权重进行加权的方式，实现不同网络层之间的融合。一种方式中，基于多个网络层对应的注意力权重，将多个网络层的输出数据进行加权，得到区域图像的特征图；另一种方式中，针对各个网络层，可将网络层的输出数据与网络层对应的注意力权重进行加权，得到网络层对应的加权结果，将加权结果输入至下一网络层，直至得到最后一个网络层输出的特征图，即区域图像的特征图。

如此，基于区域图像上文字的边缘特征和注意力机制，引导特征提取网络的多个网络层的融合，使得特征提取网络层能够提取到更多的文字边缘特征，提高了特征图的准确性和特征丰富性。

其中，特征提取网络中的网络层与注意力网络输出的注意力权重的对应关系可预先设置，比如，预先设置第一个网络层对应第一个注意力权重、第二个网络层对应第二个注意力权重等等。

除了利用注意力机制将文字边缘检测图应用于特征提取网络的方式，还可以为特征提取网络设置多个输入通道，将文字边缘检测图和区域图像一起输出至特征提取网络中进行特征提取，得到区域图像的特征图；或者，还可以将文字边缘检测图与区域图像进行加权，将加权后的图像输入至特征提取网络中进行特征提取，得到区域图像的特征图。如此，为特征提取网络输入数据更丰富的文字边缘信息，确保特征提取网络提取到文字边缘特征。

在一些实施例中，特征提取网络可采用特征金字塔网络(Feature PyramidNetwork，简称FPN)，FPN包括自底向上的尺度不同的上采样层和自顶向下的尺度不同的下采样层，能够提取到丰富多样的图像特征。因此，在目标分割模型中，采用FPN对区域图像进行特征提取，得到区域图像的特征图，有效地提高了区域图像的特征图的特征丰富性。

基于特征提取网络采用FPN，S403的一种可能的实现方式包括：在目标分割模型中，通过FPN对区域图像进行特征提取，得到FPN中自顶向下的最后一层输出的特征图，即得到区域图像的特征图。其中，在FPN中，自顶向下的网络层所输出的特征图的分辨率是逐层递减的，比如以2倍的速度逐层递交，所以最后一层输出的特征图的分辨率最高，获取最后一层输出的特征图即获取分辨率最高的特征图，提高了区域图像的特征图的准确性。

在特征提取网络采用FPN的情况下，可结合前述边缘检测网络和注意力网络，提高FPN对区域图像的特征提取准确性和丰富性。尤其地，可采用注意力网络引导FPN中多个网络层的融合，进一步地，可采用注意力网络引导FPN中自顶向下的不同网络层输出的特征图的融合，以弥补FPN中不同网络层的特征图在尺度上和语义上的差异，有效缓解FPN所存在的线索组合问题(cue combination problem，又称为提示组合问题)，线索是指FPN中的网络层，线索组合问题是指尺度和语义上存在差异的特征相互结合所存在的问题。

在一种方式中，可在FPN自顶向下的网络层中，将网络层输出的特征图与注意力权重进行加权，将加权结果输入至下一网络层中，直至得到最后一个网络层输出的特征图。

在另一种方式中，得到FPN中自顶向下的各个网络层输出的特征图，可根据FPN中自顶向下的网络层与注意力权重的对应关系，以注意力权重为加权运算的权重，对FPN中自顶向下的各个网络层输出的特征图进行加权求和，得到区域图像的特征图。可见，注意力权重相当于与FPN中自顶向下的网络层并行，与FPN中自顶向下的网络层对应的注意力权重，决定了FPN中网络层输出的特征图对区域图像的特征图的影响。

可选的，特征提取网络所采取的注意力机制为空间注意(spatial attention)。基于空间注意，提高引导FPN中不同网络层的融合的效果。

S404、在目标分割模型中，基于特征图，通过检测网络和分割网络分别对区域图像进行文字检测和文字分割，得到文字图像。

其中，检测网络和分割网络也均为神经网络，均包括多个网络层。

本实施例中，在获得区域图像的特征图后，可将特征图输入至检测网络，在检测网络中，通过特征图进行特征处理，检测出区域图像中文字的图像位置。可基于区域图像中文字的图像位置和区域图像的特征图，通过分割网络对区域图像进行文字分割，得到从区域图像中分割得到的文字图像。从而，通过特征提取网络、检测网络和分割网络的结合，提高了目标分割的准确性，即提高了从区域图像中分割文字图像的准确性。

在一些实施例中，如图3所示，检测网络包括第一边界框检测网络和第二边界框检测网络，第一边界框检测网络用于区域图像上文字的初次检测，第二边界框检测网络用于区域图像上文字的再次检测，第一边界框检测网络输出的检测结果可用于辅助第二边界框检测网络的文字检测。从而，结合第一边界检测网络和第二边界检测网络，提高文字检测准确性。

基于检测网络包括第一边界框检测网络和第二边界框检测网络，区域图像中文字的图像位置包括区域图像中文字的边界框位置，如图4所示，S404的一种可能的实现方式包括：S4041、在第一边界框检测网络中，基于区域图像的特征图进行文字边界框的初次检测，得到区域图像中文字的边界框初始位置；S4042、基于区域图像中文字的边界框初始位置和区域图像的特征图，通过第二边界框检测网络进行文字边界框的再次检测，得到区域图像中文字的边界框目标位置；S4043、根据区域图像中文字的边界框目标位置和区域图像的特征图，通过分割网络进行文字分割，得到区域图像中文字对应的掩码图；S4044、根据区域图像中文字对应的掩码图和区域图像，生成文字图像。

在S4041中，可将区域图像的特征图输入至第一边界框检测网络中，在第一边界框检测网络中，对区域图像的特征图进行特征处理，可检测得到区域图像中多个锚框(anchorbox)的类别概率(即该区域是属于文字区域还是属于背景区域的概率)和文字所在的边界框位置。为了便于区分，将经过第一边界框检测网络检测得到的区域图像中文字所在的边界框位置，称为区域图像中文字的边界框初始位置。其中，区域图像中文字的边界框初始位置可用于辅助第二边界框检测网络的文字检测，区域图像中多个锚框的类别概率主要在字体检测模型的训练过程中起作用，用于提高字体检测的准确性。

可选的，第一边界框检测网络可采用区域提议网络(Region Proposal Network，简称RPN，又称为区域选取网络)，以提高文字检测的准确性。

在S4042中，可基于区域图像中文字的边界框初始位置，在区域图像的特征图中确定与文字相关的初始图像特征，将与文字相关的初始图像特征输入至第二边界框检测网络中，进行文字边界框的再次检测，得到区域图像中多个锚框的类别概率和文字所在的边界框位置。为了便于区分，将经过第二边界框检测网络检测得到的区域图像中文字所在的边界框位置，称为区域图像中文字的边界框目标位置。其中，同样的，经第二边界框检测网络检测得到的区域图像中多个锚框的类别概率主要在字体检测模型的训练过程中起作用，用于提高字体检测的准确性。其中，文字所在的边界框位置可包括文字所在的边界框的多个位置参数，比如边界框的4个顶点的位置坐标。

在S4043中，可基于区域图像中文字的边界框目标位置，在区域图像的特征图中确定与文字相关的目标图像特征，将与文字相关的目标图像特征输入至分割网络中，在分割网络中，基于与文字相关的目标图像特征进行文字分割，得到区域图像中文字对应的掩码图。文字对应的掩码图为二进制掩码图，在该掩码图上，像素点的像素值为1则表示该像素点位于文字所在的区域内，像素点的像素值为0则表示该像素点不位于文字所在的区域内。

可选的，S4042的一种可能的实现方式包括：在区域图像的特征图中，确定与边界框初始位置对应的特征矩阵；将与边界框初始位置对应的特征矩阵输入至第二边界框检测网络，在第二边界框检测网络中，基于与边界框初始位置对应的特征矩阵，进行文字边界框的再次检测，得到区域图像中文字的边界框目标位置。其中，与边界框初始位置对应的特征矩阵可以看作是基于边界框初始位置确定的感兴趣区域(即文字可能出现的区域)的特征矩阵。从而，基于特征图和边界框初始位置，提高第二边界框检测网络的输入数据的准确性，进而提高了文字检测和文字分割的准确性。

可选的，考虑到图像上的文字数量是有限的，可预先设置第一边界框检测网络检测出的边界框数目为第一阈值，其中，第一阈值小于第一边界框检测网络能够检测出的边界框数目(或者，小于第一边界框检测网络检测出的边界框标准数目)。从而，通过减少第一边界框检测网络检测出的边界框数目，减少文字检测所占用的计算资源，为文字分割预留出更多的计算资源，比如为文字分割预留出更多的显卡内存，提高文字分割效率和准确性。

可选的，S4043的一种可能的实现方式包括：在特征图中，确定与边界框目标位置对应的特征矩阵；将与边界框目标位置对应的特征矩阵输入至分割网络，在分割网络中基于与边界框目标位置对应的特征矩阵进行文字分割，得到区域图像中文字对应的掩码图。其中，与边界框目标位置对应的特征矩阵可以看作是基于边界框目标位置确定的感兴趣区域(即文字可能出现的区域)的特征矩阵。从而，基于特征图和边界框目标位置，提高了分割网络的输入数据的准确性，并且实现第二边缘检测网络与分割网络的串行化，即第二边缘检测网络处理后的数据进入分割网络，提高了文字分割的准确性。

可选的，考虑到图像上的文字数量是有限的，可减少进入分割网络的特征矩阵的数量。第二边缘检测网络检测出的边界框都进入分割阶段是存在一定的资源浪费的，在理想情况下，我们希望检测的边界框很多，但用于文字分割阶段的只有几个就好，因此，可仅剩余与真实文字的个数接近的边界框用于文字分割，提高文字分割效率。此外，由于进入文字分割阶段的边界框数目减少了，基于边界框目标位置与区域图像的特征图可以提取分辨率更高的特征矩阵，提高了文字分割的准确性。

可选的，除了基于区域图像中文字的边界框目标位置和区域图像的特征图，确定分割网络的输入数据之外，还可以基于区域图像中文字的边界框初始位置和区域图像的特征图，确定分割网络的输入数据。此时，第二边缘检测网络与分割网络为并行关系，而非串行化关系，第二边缘检测网络主要用于在模型训练过程中提高模型准确性。需要说明的是，由于第二边缘检测网络输出的边界框目标位置的准确性高于第一边缘检测网络输出的边界框初始位置，第二边缘检测网络与分割网络为串行化关系相较于第二边缘检测网络与分割网络为并行关系，能够提高文字分割的准确性。

其中，基于区域图像中文字的边界框初始位置和区域图像的特征图，确定分割网络的输入数据，可以参照基于区域图像中文字的边界框目标位置和区域图像的特征图确定分割网络的输入数据的过程，不再赘述。

在S4044中，在得到区域图像中文字对应的掩码图后，可基于掩码图，从区域图像中提取得到文字图像。

在一些实施例中，如图3所示，目标分割模型还包括深度抠图网络，深度抠图网络用于对分割模型输出的掩码图像进行精细化，解决掩码图像上文字边缘的过度平滑化和文字轮廓的模糊化的问题，恢复文字边缘结构。

基于目标分割模型还包括深度抠图网络(Deep Image Matting，简称DIM)，S4044的一种可能的实现方式包括：根据区域图像和掩码图，通过DIM进行图像处理，生成文字图像。其中，DIM用于对分割网络输出的掩码图进行精细化，通过alpha matting的方式，解决掩码图中边缘过度平滑和文字轮廓模糊化的问题，恢复文字边缘结构，提高文字图像的图像质量。

本实现方式中，可对区域图像中文字对应的掩码图进行形态学操作(比如腐蚀、膨胀处理，可理解为对掩码图的扭曲处理)，得到形态学操作后的掩码图，将区域图像和形态学操作后的掩码图输出至DIM，在DIM中，通过对区域图像和区域图像中的文字对应的掩码图进行特征处理，生成文字图像。

图像在过曝光时文字的边缘像素和图像的背景像素高度相似，只采用局部信息无法区分文字边缘和图像背景，而且区域图像和掩码图作为DIM的输入时DIM缺乏用于判断文字边缘的足够的语义信息，考虑到检测网络、分割网络中提取了语义信息，可将检测网络和/或分割网络中的图像特征也作为DIM的一部分输入数据，为DIM提供足够的语义信息。因此，可选的，可根据区域图像、掩码图和基于区域图像的特征图得到的与边界框目标位置对应的特征矩阵，在DIM中进行图像处理，得到文字图像。相当于将DIM的输入层由二通道改进为三通道，以区域图像、掩码图和基于区域图像的特征图得到的与边界框目标位置对应的特征矩阵作为DIM的输入数据，为DIM提供足够的语义信息，提高生成文字图像的质量。

可选的，DIM的图像处理过程为多次迭代过程，其中，一次迭代过程包括：基于DIM上次迭代后的输出图像、区域图像和基于区域图像的特征图得到的与边界框目标位置对应的特征矩阵，在DIM中进行图像处理。从而，通过多次迭代，提高文字图像的图像质量。

本可选方式中，在第一次迭代中，可将掩码图像(或者形态学操作后的掩码图像)、区域图像和基于区域图像的特征图得到的与边界框目标位置对应的特征矩阵，输入至DIM中进行图像处理，得到DIM的输出图像。在第二次迭代中，将DIM在第一次迭代中的输出图像、区域图像和基于区域图像的特征图得到的与边界框目标位置对应的特征矩阵，输入至DIM中进行图像处理，又得到DIM的输出图像。如此，通过多次迭代优化文字图像。

基于前述对目标分割模型的描述，图5(a)为本申请实施例提供的目标分割模型的结构示意图二，图5(b)为本申请实施例提供的目标分割模型的结构示意图三。其中，在图5(a)和图5(b)中：FPN表示特征金字塔网络，在目标分割模型中充当特征提取网络；RPN表示区域提议网络，在目标分割模型中充当第一边界框检测网络；C0表示区域提议网络检测得到的区域图像中多个锚框的类别概率，B0表示区域提议网络检测得到的文字所在的边界框位置，即边界框初始位置；Rol0表示基于区域图像的特征图和初始边界框(即边界框初始位置)确定感兴趣区域(即文字所在区域，或者边界框)的特征矩阵的网络，可以理解为特征矩阵提取网络或者感兴趣区域的特征矩阵提取网络；BH(Box Head，用于检测边界框且包括多个网络层的网络)表示第二边界框检测网络；C1表示BH检测得到的区域图像中多个锚框的类别概率，B1表示BH检测得到的文字所在的边界框位置，即边界框目标位置；Rol1表示基于区域图像的特征图和目标边界框(即边界框目标位置)确定感兴趣区域的特征矩阵的网络，可以理解为特征矩阵提取网络或者感兴趣区域的特征矩阵提取网络；MH(Mask Head，用于目标分割且包括多个网络层的网络)表示分割网络，M表示经分割网络进行目标分割得到的掩码图。

在图5(a)中，待检测图像的区域图像输入至FPN中后，得到区域图像的特征图，将特征图输入至RPN中进行文字检测，得到相应的分类结果C0(即多个锚框的类别概率)和区域图像中文字的边界框初始位置B0，基于B0所反映的初始边界框，在特征图上通过Rol0提取得到相应的特征矩阵后，将特征矩阵输入至BH中，经过BH再次进行文字检测，得到分类结果C1和区域图像中文字的边界框目标位置B1，此时C0、C1和B1均是在模型训练过程中起作用，B0可以用于模型应用过程中的文字分割阶段。基于B0所反映的初始边界框，在特征图上通过Rol1提取得到相应的特征矩阵后，将特征矩阵输入至MH中，经过MH进行文字分割，得到掩码图M，之后基于掩码图M进一步得到文字图像，完成文字图像的分割。

与图5(a)所示的目标分割模型不同的是，图5(b)所示的目标分割模中增加了HED、注意力网络以及DIM，同时，还实现了检测网络与分割网络的串行化关系，即基于BH检测得到的边界框目标位置B1可以用于分割网络MH的文字分割过程，B1的准确性高于B0，所以将B1用于MH的文字分割相较于将B0用于文字分割，能够提高MH的文字分割的准确性。其中，HED表示整体嵌套的边缘检测网络，在目标分割模型中充当边缘检测网络，DIM表示深度抠图网络，在目标分割模型中用于恢复文字边缘结构。

在图5(b)中，将待检测图像的区域图像输入至HED，得到区域图像中文字的边缘信息，如前述实施例中的文字边缘检测图；基于文字的边缘信息，通过注意力网络得到相应的注意力权重；将待检测图像的区域图像输入至FPN中，在FPN中结合注意力权重进行特征提取，得到区域图像的特征图；将特征图输入至RPN中进行文字检测，得到C0和B0，基于B0所反映的初始边界框，在特征图上通过Rol0提取得到相应的特征矩阵；接着，将特征矩阵输入至BH中，经过BH再次进行文字检测，得到C1和B1，C0和C1均是在模型训练过程中起作用。基于B1所反映的目标边界框，在特征图上通过Rol1提取得到相应的特征矩阵，将特征矩阵输入至MH中，经过MH进行文字分割，得到掩码图M。之后，基于掩码图M、Rol1提取得到的特征矩阵以及区域图像，在DIM中迭代的图像处理，得到文字图像。

S405、根据区域图像中的文字、区域图像对应的候选字体和区域图像对应的文字图像，确定区域图像中文字所属的目标字体。

其中，S405的实现原理和技术效果可参照前述实施例，不再赘述。

在一些实施例中，S405的一种可能的实现方式包括：根据区域图像中的文字，生成与候选字体对应的文字候选图像；将文字候选图像与文字图像进行相似度比较，根据比较结果，确定区域图像中文字所属的目标字体。从而，通过图像相似度比较的方式，提高字体检测准确性。

其中，文字候选图像中文字的字体为文字候选图像对应的候选字体。

本实现方式中，在候选字体为多个时，针对每个候选字体，可生成以候选字体的样式呈现区域图像中文字的文字候选图像。比如，候选字体包括“宋体”和“楷体”，区域图像中的文字为“字体检测测试”，则可以生成包含宋体样式的“字体检测测试”的文字候选图像和包含楷体样式的“字体检测测试”的文字候选图像。如此，生成每个候选字体分别对应的文字候选图像。将文字候选图像与文字图像进行比较，得到比较结果，比较结果包括文字候选图像与文字图像的相似度。在文字候选图像中，可确定与文字图像的相似度最高的文字候选图像，确定区域图像中文字所属的目标字体为与文字图像的相似度最高的文字候选图像所对应的候选字体。

因此，通过图像分类、目标分割和相似度比较这几个阶段，实现图像上文字的端对端的字体检测，提高了图像上文字字体检测的准确性。

本申请实施例中，字体检测模型包括图像分类模型和目标分割模型，目标分割模型包括特征提取网络、检测网络和分割网络，基于这些模型，实现了图像上文字字体的端对端检测，提高了图像上文字字体的检测效率，同时还提高了图像上文字字体的检测准确性。

在一些实施例中，客户端可响应于用户请求检测待检测图像中文字字体的交互操作，向服务器发送字体检测请求。服务器响应于来自客户端的字体检测请求，在待检测图像上，确定包含文字的区域图像和区域图像中的文字。接着，可确定区域图像中文字的目标字体。之后，服务器可向客户端返回字体检测结果，字体检测结果与待检测图像上区域图像中文字所属的目标字体相关。从而，用户在客户端触发字体检测请求，即可实现待检测图像上文字字体的检测，提高了图像上文字字体检测的便捷性和效率，提高了用户体验。

其中，字体检测请求用于请求检测待检测图像上文字的字体。

其中，目标字体是通过对区域图像进行图像分类和目标分割并结合区域图像中的文字确定的，具体可参照前述实施例，不再赘述。

本实施例中，在客户端上，可在检测到用户输入待检测图像和/或输入待检测图像的相关信息(比如待检测图像的标识、存储地址)，或者，可在检测到用户点击字体检测控件的操作的情况下，向服务器发送字体检测请求。字体检测请求中可包含待检测图像和/或待检测图像的相关信息。服务器在接收到字体检测请求后，可基于字体检测请求，对待检测图像进行字体检测，得到待检测图像上一个或多个区域图像中的文字所属的目标字体。之后，服务器可向客户端返回字体检测结果，以便客户端的用户了解字体检测情况。

其中，字体检测结果可包括如下至少一种内容：目标字体、目标字体是否属于版权保护字体、目标字体所属的版权方信息、目标字体的价格信息。目标字体所属的版权方信息比如版权方名称、版权方的联系方式、版权方提供的字体授权信息(可包括字体出售信息)等。因此，客户端在接收到字体检测结果后，用户可以在客户端上了解到待检测图像上文字的字体、待检测图像上文字的字体是否存在侵权风险、待检测图像在字体上所需耗费的成本等。可见，基于本申请实施例，可有效提高字体侵权检测的便捷性，降低图像上字体侵权风险，增强字体的版权保护，提高用户体验。

可选的，在字体检测结果反映目标字体属于版权保护字体的情况下(比如字体检测结果指示目标字体属于版权保护字体，或者，又如客户端从字体检测结果中获得目标字体，在字体库中查询出目标字体属于版权保护字体)，客户端还可执行如下至少一种操作：

操作一、显示提示消息，以向用户提示目标字体属于版权保护字体、购买目标字体和/或修改待检测图像上文字的字体；操作二、显示目标字体的购买页面；操作三、显示待检测图像对应的字体修改页面。

在操作一中，客户端可在字体检测页面上显示提示消息，也可以通过短信、即时通讯消息的方式向用户发送提示消息。提示消息在提示目标字体属于版权保护字体、购买目标字体和/或修改待检测图像上文字的字体的情况下，还可以提示待检测图像上文字的字体为目标字体。例如，提示消息为“图像上文字的字体属于版权保护字体”、“图像上文字的字体为A字体，A字体属于版权保护字体”、“图像上文字的字体需购买才能使用”、“图像上文字的字体属于版权保护字体，请购买或者修改字体”。

可选的，提示消息还可以提示目标字体的版权方信息，以向用户提供更详细的信息，无需用户再花时间去了解目标字体的版权，节省用户时间。

在操作二中，客户端在确定目标字体属于版权保护字体的情况下，可基于目标字体的版权方信息(可有服务器提供，也可以由客户端查询得到)，显示目标字体的购买页面。从而，为用户购买字体提供便利。

在操作三中，客户端在确定目标字体属于版权保护字体的情况下，显示待检测图像对应的字体修改页面，便于用户在字体修改页面直接修改待检测图像上文字对应的字体，避免发生字体侵权，提高用户体验。

图6为本申请实施例提供的字体检测装置60的结构框图，字体检测装置60应用于服务器。如图6所示，字体检测装置60包括：第一确定单元61、字体识别单元62、目标分割单元63和第二确定单元64，其中：

第一确定单元61，用于在待检测图像上，确定包含文字的区域图像和区域图像中的文字；

字体识别单元62，用于识别区域图像的字体类型，得到区域图像对应的候选字体；

目标分割单元63，用于对区域图像进行目标分割，得到区域图像对应的文字图像；

第二确定单元64，用于根据区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体。

在本申请的一个实施例中，目标分割模型包括特征提取网络、检测网络和分割网络，在对区域图像进行目标分割，得到区域图像对应的文字图像的过程中，目标分割单元63具体用于：在目标分割模型中，通过特征提取网络对区域图像进行特征提取，得到区域图像的特征图；在目标分割模型中，基于特征图，通过检测网络和分割网络分别对区域图像进行文字检测和文字分割，得到文字图像。

在本申请的一个实施例中，目标分割模型还包括边缘检测网络，在目标分割模型中，通过特征提取网络对区域图像进行特征提取，得到区域图像的特征图的过程中，目标分割单元63具体用于：将区域图像输入至边缘检测网络，在边缘检测网络中，对区域图像进行文字边缘检测，得到区域图像的文字边缘检测图；根据区域图像、文字边缘检测图和特征提取网络，进行区域图像的特征提取，得到特征图。

在本申请的一个实施例中，目标分割模型还包括注意力网络，在根据区域图像、文字边缘检测图和特征提取网络，进行区域图像的特征提取，得到特征图的过程中，目标分割单元63具体用于：将文字边缘检测图输入至注意力网络，在注意力网络中对文字边缘检测图进行特征提取，得到区域图像对应的注意力权重；将区域图像输入至特征提取网络，基于注意力权重，在特征提取网络中对区域图像进行特征提取，得到特征图，注意力权重用于辅助特征提取网络中多个网络层的融合。

在本申请的一个实施例中，特征提取网络为特征金字塔网络，在目标分割模型中，通过特征提取网络对区域图像进行特征提取，得到区域图像的特征图的过程中，目标分割单元63具体用于：在目标分割模型中，通过特征金字塔网络对区域图像进行特征提取，得到特征金字塔网络中自顶向下的最后一层输出的特征图。

在本申请的一个实施例中，检测网络包括第一边界框检测网络和第二边界框检测网络，在目标分割模型中，基于特征图，通过检测网络和分割网络分别对区域图像进行文字检测和文字分割，得到文字图像的过程中，目标分割单元63具体用于：在第一边界框检测网络中，基于特征图进行文字边界框的初次检测，得到区域图像中文字的边界框初始位置；基于边界框初始位置和特征图，通过第二边界框检测网络进行文字边界框的再次检测，得到区域图像中文字的边界框目标位置；基于边界框目标位置和特征图，通过分割网络进行文字分割，得到区域图像中文字对应的掩码图；根据掩码图和区域图像，生成文字图像。

在本申请的一个实施例中，在基于边界框目标位置和特征图，通过分割网络进行文字分割，得到区域图像中文字对应的掩码图的过程中，目标分割单元63具体用于：在特征图中，确定与边界框目标位置对应的特征矩阵；将特征矩阵输入至分割网络，在分割网络中基于特征矩阵进行文字分割，得到掩码图。

在本申请的一个实施例中，目标分割模型还包括深度抠图网络，在根据掩码图和区域图像，生成文字图像的过程中，目标分割单元63具体用于：根据区域图像和掩码图，通过深度抠图网络进行图像处理，生成文字图像。

在本申请的一个实施例中，深度抠图网络的图像处理过程为多次迭代过程，其中，一次迭代过程包括：基于深度抠图网络上次迭代后的输出图像、区域图像和基于特征图得到的与边界框目标位置对应的特征矩阵，在深度抠图网络中进行图像处理。

在本申请的一个实施例中，在根据区域图像中的文字、候选字体和文字图像，确定区域图像中文字所属的目标字体的过程中，第二确定单元64具体用于：根据区域图像中的文字，生成与候选字体对应的文字候选图像；将文字候选图像与文字图像进行相似度比较，根据比较结果，确定区域图像中文字所属的目标字体。

在本申请的一个实施例中，在待检测图像上，确定包含文字的区域图像和区域图像中的文字的过程中，第一确定单元61具体用于：响应于来自客户端的字体检测请求，在待检测图像上，确定包含文字的区域图像和区域图像中的文字，字体检测请求用于检测待检测图像上文字的字体。

其中，本申请实施例提供的技术方案，可在云服务器上实现。

图7为本申请实施例提供的字体检测装置70的结构框图，字体检测装置70应用于客户端。如图7所示，字体检测装置70包括：发送单元71和接收单元72，其中：

发送单元71，用于响应于用户请求检测待检测图像中文字字体的交互操作，向服务器发送字体检测请求，字体检测请求用于检测待检测图像上文字的字体；

接收单元72，用于接收服务器返回的字体检测结果，字体检测结果与待检测图像上区域图像中文字所属的目标字体相关，目标字体是通过对区域图像进行字体类型识别和目标分割并结合区域图像中的文字确定的。

在本申请的一个实施例中，字体检测结果反映目标字体属于版权保护字体，字体检测装置70还包括显示单元73，显示单元73用于执行如下至少一种操作：显示提示消息，以向用户提示目标字体属于版权保护字体、购买目标字体和/或修改待检测图像上文字的字体；显示目标字体的购买页面；显示待检测图像对应的字体修改页面。

其中，本申请实施例提供的技术方案，可在终端上实现。

图8为本申请示例性实施例提供的一种云服务器的结构示意图。该云服务器用于运行前述任一方法实施例提供的字体检测方法。如图8所示，该云服务器包括：存储器83和处理器84。

存储器83，用于存储计算机程序，并可被配置为存储其它各种数据以支持在云服务器上的操作。该存储器83可以是对象存储(Object Storage Service，OSS)。

存储器83可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器84，与存储器83耦合，用于执行存储器83中的计算机程序，以用于执行前述任一实施例提供的字体检测方法。

进一步，如图8所示，该云服务器还包括：防火墙81、负载均衡器82、通信组件85、电源组件86等其它组件。图8中仅示意性给出部分组件，并不意味着云服务器只包括图8所示组件。

上述图8中的通信组件85被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件85所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件85经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件85还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图8中的电源组件86，为电源组件86所在设备的各种组件提供电力。电源组件86可以包括电源管理系统，一个或多个电源，及其他与为电源组件86所在设备生成、管理和分配电力相关联的组件。

相应地，本申请实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备能够执行上述方法实施例中的步骤。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现上述方法实施例中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现上述方法实施例中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种字体检测方法，应用于服务器，其特征在于，包括：

在待检测图像上，确定包含文字的区域图像和所述区域图像中的文字；

对所述区域图像进行图像分类，得到所述区域图像对应的候选字体；

对所述区域图像进行目标分割，得到所述区域图像对应的文字图像；

根据所述区域图像中的文字、所述候选字体和所述文字图像，确定所述区域图像中文字所属的目标字体。

2.根据权利要求1所述的字体检测方法，其特征在于，目标分割模型包括特征提取网络、检测网络和分割网络，所述对所述区域图像进行目标分割，得到所述区域图像对应的文字图像，包括：

在所述目标分割模型中，通过所述特征提取网络对所述区域图像进行特征提取，得到所述区域图像的特征图；

在所述目标分割模型中，基于所述特征图，通过所述检测网络和所述分割网络分别对所述区域图像进行文字检测和文字分割，得到所述文字图像。

3.根据权利要求2所述的字体检测方法，其特征在于，所述目标分割模型还包括边缘检测网络，所述在所述目标分割模型中，通过所述特征提取网络对所述区域图像进行特征提取，得到所述区域图像的特征图，包括：

将所述区域图像输入至所述边缘检测网络，在所述边缘检测网络中，对所述区域图像进行文字边缘检测，得到所述区域图像的文字边缘检测图；

根据所述区域图像、所述文字边缘检测图和所述特征提取网络，进行所述区域图像的特征提取，得到所述特征图。

4.根据权利要求3所述的字体检测方法，其特征在于，所述目标分割模型还包括注意力网络，所述根据所述区域图像、所述文字边缘检测图和所述特征提取网络，进行所述区域图像的特征提取，得到所述特征图，包括：

将所述文字边缘检测图输入至所述注意力网络，在所述注意力网络中对所述文字边缘检测图进行特征提取，得到区域图像对应的注意力权重；

将所述区域图像输入至所述特征提取网络，基于所述注意力权重，在所述特征提取网络中对所述区域图像进行特征提取，得到所述特征图，所述注意力权重用于辅助所述特征提取网络中多个网络层的融合。

5.根据权利要求2所述的字体检测方法，其特征在于，所述特征提取网络为特征金字塔网络，所述在所述目标分割模型中，通过所述特征提取网络对所述区域图像进行特征提取，得到所述区域图像的特征图，包括：

在所述目标分割模型中，通过所述特征金字塔网络对所述区域图像进行特征提取，得到所述特征金字塔网络中自顶向下的最后一层输出的特征图。

6.根据权利要求2至5中任一项所述的字体检测方法，其特征在于，所述检测网络包括第一边界框检测网络和第二边界框检测网络，所述在所述目标分割模型中，基于所述特征图，通过所述检测网络和所述分割网络分别对所述区域图像进行文字检测和文字分割，得到所述文字图像，包括：

在所述第一边界框检测网络中，基于所述特征图进行文字边界框的初次检测，得到所述区域图像中文字的边界框初始位置；

基于所述边界框初始位置和所述特征图，通过所述第二边界框检测网络进行文字边界框的再次检测，得到所述区域图像中文字的边界框目标位置；

基于所述边界框目标位置和所述特征图，通过所述分割网络进行文字分割，得到所述区域图像中文字对应的掩码图；

根据所述掩码图和所述区域图像，生成所述文字图像。

7.根据权利要求6所述的字体检测方法，其特征在于，所述基于所述边界框目标位置和所述特征图，通过所述分割网络进行文字分割，得到所述区域图像中文字对应的掩码图，包括：

在所述特征图中，确定与所述边界框目标位置对应的特征矩阵；

将所述特征矩阵输入至所述分割网络，在所述分割网络中基于所述特征矩阵进行文字分割，得到所述掩码图。

8.根据权利要求6所述的字体检测方法，其特征在于，所述目标分割模型还包括深度抠图网络，所述根据所述掩码图和所述区域图像，生成所述文字图像，包括：

根据所述区域图像和所述掩码图，通过所述深度抠图网络进行图像处理，生成所述文字图像。

9.根据权利要求8所述的字体检测方法，其特征在于，所述深度抠图网络的图像处理过程为多次迭代过程，其中，一次迭代过程包括：

基于所述深度抠图网络上次迭代后的输出图像、所述区域图像和基于所述特征图得到的与所述边界框目标位置对应的特征矩阵，在所述深度抠图网络中进行图像处理。

10.根据权利要求1至5中任一项所述的字体检测方法，其特征在于，所述根据所述区域图像中的文字、所述候选字体和所述文字图像，确定所述区域图像中文字所属的目标字体，包括：

根据所述区域图像中的文字，生成与所述候选字体对应的文字候选图像；

将所述文字候选图像与文字图像进行相似度比较，根据比较结果，确定所述区域图像中文字所属的目标字体。

11.根据权利要求1至5中任一项所述的字体检测方法，其特征在于，所述在待检测图像上，确定包含文字的区域图像和所述区域图像中的文字，包括：

响应于来自客户端的字体检测请求，在所述待检测图像上，确定包含文字的区域图像和所述区域图像中的文字，所述字体检测请求用于请求检测所述待检测图像上文字的字体。

12.一种字体检测方法，应用于客户端，其特征在于，包括：

响应于用户请求检测待检测图像中文字字体的交互操作，向服务器发送字体检测请求，所述字体检测请求用于检测所述待检测图像上文字的字体；

接收所述服务器返回的字体检测结果，所述字体检测结果与所述待检测图像上区域图像中文字所属的目标字体相关，所述目标字体是通过对所述区域图像进行图像分类和目标分割并结合所述区域图像中的文字确定的。

13.根据权利要求12所述的字体检测方法，其特征在于，所述字体检测结果反映所述目标字体属于版权保护字体，所述接收所述服务器返回的字体检测结果之后，还执行如下至少一种操作：

显示提示消息，以向用户提示所述目标字体属于版权保护字体、购买所述目标字体和/或修改所述待检测图像上文字的字体；

显示所述目标字体的购买页面；

显示所述待检测图像对应的字体修改页面。

14.一种字体检测装置，应用于服务器，其特征在于，包括：

第一确定单元，用于在待检测图像上，确定包含文字的区域图像和所述区域图像中的文字；

字体识别单元，用于对所述区域图像进行图像分类，得到所述区域图像对应的候选字体；

目标分割单元，用于对所述区域图像进行目标分割，得到所述区域图像对应的文字图像；

第二确定单元，用于根据所述区域图像中的文字、所述候选字体和所述文字图像，确定所述区域图像中文字所属的目标字体。

15.一种字体检测装置，应用于客户端，其特征在于，包括：

发送单元，用于响应于用户请求检测待检测图像中文字字体的交互操作，向服务器发送字体检测请求，所述字体检测请求用于检测所述待检测图像上文字的字体；

接收单元，用于接收所述服务器返回的字体检测结果，所述字体检测结果与所述待检测图像上区域图像中文字所属的目标字体相关，所述目标字体是通过对所述区域图像进行图像分类和目标分割并结合所述区域图像中的文字确定的。

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行权利要求1至13中任一项所述的字体检测方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的字体检测方法。