CN113657364A

CN113657364A - 用于识别文字标志的方法、装置、设备以及存储介质

Info

Publication number: CN113657364A
Application number: CN202110929257.5A
Authority: CN
Inventors: 刘星; 张言; 邓远达; 梁晓旭; 胡旭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-16
Anticipated expiration: 2041-08-13
Also published as: CN113657364B

Abstract

本公开提供了用于识别文字标志的方法、装置、设备、存储介质以及程序产品，涉及图像处理技术领域，尤其涉及图像识别和深度学习技术领域。具体实现方案为：获取待识别文字标志，待识别文字标志中包括第一样式文字；对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块；对图像区块进行区块映射，得到目标图像区块，目标图像区块中包括第二样式文字；对第二样式文字进行字符识别，得到待识别文字标志的识别结果。该方案实现了一种更加高效、全面的文字标志识别方法和设备。

Description

用于识别文字标志的方法、装置、设备以及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及图像识别和深度学习技术领域，特别涉及用于识别文字标志的方法、装置、设备、存储介质以及程序产品。

背景技术

随着互联网图片化和视频化的不断发展，图片物料爆炸性增长，含有艺术字体样式的LOGO也随之增长，为了保护版权人的利益，维护平台健康发展，需要建立一套针对文字样式类型的机器识别系统，以便对图片或视频中的侵权风险进行判定。

现有针对文字型LOGO的识别技术方案主要包括：第一，对图像通过光学字符识别(Optical Character Recognition，简称OCR)模型进行文字提取识别，然后利用文本实体识别模型识别出其中的文字型LOGO，能够识别图片上横向或者纵向的楷体规整文字样式类LOGO；第二，基于标注人员对于LOGO的储备知识去识别图像中的LOGO名称。

发明内容

本公开提供了一种用于识别文字标志的方法、装置、设备、存储介质以及程序产品。

根据本公开的第一方面，提供了一种用于识别文字标志的方法，包括：获取待识别文字标志，待识别文字标志中包括第一样式文字；对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块；对图像区块进行区块映射，得到目标图像区块，目标图像区块中包括第二样式文字；对第二样式文字进行字符识别，得到待识别文字标志的识别结果。

根据本公开的第二方面，提供了一种用于识别文字标志的装置，包括：获取模块，被配置成获取待识别文字标志，待识别文字标志中包括第一样式文字；定位模块，被配置成对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块；映射模块，被配置成对图像区块进行区块映射，得到目标图像区块，目标图像区块中包括第二样式文字；识别模块，被配置成对第二样式文字进行字符识别，得到待识别文字标志的识别结果。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

根据本公开的技术采用获取待识别文字标志，待识别文字标志中包括第一样式文字，对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块，对图像区块进行区块映射，得到目标图像区块，目标图像区块中包括第二样式文字，对第二样式文字进行字符识别，得到待识别文字标志的识别结果，实现了一种更加高效、全面的文字标志识别方法和设备。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的用于识别文字标志的方法的第一实施例的示意图；

图2是可以实现本公开实施例的用于识别文字标志的方法的场景图；

图3是根据本公开用于识别文字标志的方法的第二实施例的示意图；

图4是根据本公开用于识别文字标志的方法的第三实施例的示意图；

图5是根据本公开的用于识别文字标志的装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的用于识别文字标志的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的用于识别文字标志的第一实施例的示意图 100。该用于识别文字标志的方法，包括以下步骤：

步骤101，获取待识别文字标志。

在本实施例中，执行主体(例如服务器)可以通过有线连接或无线连接的方式从其他电子设备或者本地获取待识别文字标志，其中，待识别文字标志中可以包括第一样式文字。待识别的文字标志是指需要进行识别的文字标志。作为示例，待识别的文字标志可以为产品或企业的商标LOGO，第一样式文字可以为字体样式不标准的各类艺术字，例如某人物字体等，标准字体样式的文字是指字体样式较为规整的、预先已定义样式的文字，例如楷体文字、宋体文字等。需要说明的是，上述无线连接方式可以包括但不限于3G、4G、5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee 连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤102，对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块。

在本实施例中，执行主体可以利用区域定位算法对待识别文字标志中的每个或多个第一样式文字进行图像像素区域定位，得到与每个或多个第一样式文字对应的至少一个图像区块。其中，区域定位算法可以是基于滑窗的选择性搜索Selective Search算法，也可以基于CNN的区域提取网络的算法模型，提取网络可以为区域生成网络RPN(Region Proposal Network)， YOLO(You Only Look Once)网络等，通过定位文字标志图像中的第一样式文字区域，去除无关背景对于后续处理模块的影响。

步骤103，对图像区块进行区块映射，得到目标图像区块。

在本实施例中，执行主体可以利用图像区块映射法对图像区块进行区块映射，得到目标图像区块。其中，目标图像区块中包括第二样式文字。图像区块映射法是指将包括第一样式文字的图像区块映射为包括第二样式文字的目标图像区块的过程，图像区块映射法的目的是对图像区块中的文字进行字体样式的变换。映射过程可以为一次映射，即为直接将图像像素区块映射为目标图像像素区块的过程，映射过程也可以为多次映射，即将图像像素区块经历多个中间变换状态，间接的变换为目标图像像素区块的过程。作为示例，第二样式文字可以为与第一样式文字对应的另一字体样式的文字，比如另一字体样式为宋体，映射过程可以为将艺术字图像像素区块经过第一映射过程转变为中间映射态，然后中间映射态经过第二映射过程转变为宋体文字图像像素区块。映射过程中的变换方式可以包括傅里叶变换、小波变换等。

步骤104，对第二样式文字进行字符识别，得到待识别文字标志的识别结果。

在本实施例中，执行主体可以利用字符识别方法对步骤103得到的第二样式文字进行字符识别，得到待识别文字标志的识别结果。其中，识别结果指图像中真实的文字标志。

需要说明的是，上述图像映射技术和字符识别技术是目前广泛研究和应用的公知技术，在此不再赘述。

为了便于理解，提供可以实现本公开实施例的用于识别文字标志的方法的场景，参见图2，本实施例的用于识别文字标志的方法200运行于服务器201中。首先服务器201获取待识别文字标志202，待识别文字标志中包括第一样式文字，然后服务器201对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块203，接着服务器201对图像区块进行区块映射，得到目标图像区块204，目标图像区块中包括第二样式文字，最后服务器201对第二样式文字进行字符识别，得到待识别文字标志的识别结果205。

本公开的上述实施例提供的用于识别文字标志的方法采用获取待识别文字标志，待识别文字标志中包括第一样式文字，对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块，对图像区块进行区块映射，得到目标图像区块，目标图像区块中包括第二样式文字，对第二样式文字进行字符识别，得到待识别文字标志的识别结果，通过将复杂的艺术字体型图像区块进行图像层面的变形处理，解决艺术字体的不规则性导致不能识别的问题，同时解决了利用人工识别成本较高的问题，实现了一种更加高效、全面、鲁棒性能强的文字标志识别方法，提高了文字标志识别的准确率，扩大了文字标志识别的宽度和广度。

进一步参考图3，其示出了用于识别文字标志的方法的第二实施例的示意图300。该方法的流程包括以下步骤：

步骤301，获取待识别文字标志。

步骤302，对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块。

在本实施例的一些可选的实现方式中，还包括：对图像区块进行像素修补，即针对文字像素区块被遮挡或者人为拉长的部分进行修补和剪切，使文字识别更加精准而高效。

步骤303，从标准字体数据库中获取标准图像区块，对图像区块进行区块映射，得到目标图像区块。

在本实施例中，执行主体可以从标准字体数据库中获取标准图像区块，然后利用图像区块映射法对图像区块进行区块映射，得到目标图像区块。其中，目标图像区块中包括第二样式文字，第二样式文字包括标准字体文字。图像区块映射法是指将包括第一样式文字的图像区块映射为包括标准字体文字的目标图像区块的过程，图像区块映射法的目的是对图像区块中的文字进行字体样式的变换。作为示例，将标准字体文字定义为楷体，则映射过程可以为将艺术字图像像素区块经过第一映射过程转变为中间映射态，然后中间映射态经过第二映射过程转变为楷体文字图像像素区块。

在本实施例的一些可选的实现方式中，对图像区块进行区块映射，得到目标图像区块，包括：利用以下步骤进行迭代处理，直到满足迭代停止条件：对图像区块进行一次区块映射，得到当前的第一图像区块；判断当前的第一图像区块是否为标准图像区块，若否，增加区块映射的映射次数；若是，则停止迭代，并将当前的第一图像区块作为目标图像区块。迭代停止条件为当前的第一图像区块与标准图像区块的差异度是否满足设定阈值。通过迭代循环的映射过程，找到图像区块与标准图像区块之间满足阈值的最优的第一图像区块作为目标图像区块，使得映射过程更为精准。

在本实施例的一些可选的实现方式中，在对图像区块进行区块映射，得到目标图像区块之前，还包括：基于不同的变换目的对图像区块进行空间变换，得到变换后的图像区块，空间变换包括：旋转变换、颜色变换和 /或放射变换。变换目的可以包括：噪声去除、对比度提升、颜色对比增强、弯曲归正、纹理信息凸显等。通过采用多种空间变换，使变换后的图像区块达到图像处理的最佳效果，实现更加精准地图像变换，同时，可以针对不同展现样式的文字类型采用不同的变换手段，提高之后文字识别的效率，扩大文字识别的宽度和广度。

步骤304，对第二样式文字进行字符识别，得到第一识别结果。

在本实施例中，执行主体可以采用文字分类法或预先训练得到的文字识别模型对第二样式文字进行字符识别，得到第一识别结果。文字识别模型利用机器学习技术预先训练得到，文字识别模型可以为机器算法模型，例如OCR模型。

步骤305，响应于第一识别结果未包括待识别文字标志中的全部文字，将待识别文字标志中未被识别出的部分作为第一文字标志。

在本实施例中，当执行主体判定第一识别结果未包括待识别文字标志中的全部文字，将待识别文字标志中未被识别出的部分作为第一文字标志。

步骤306，对第一文字标志进行特征提取，得到第一文字标志对应的多个特征向量。

在本实施例中，执行主体可以利用图像特征提取方法对步骤305得到的第一文字标志进行特征提取，得到第一文字标志对应的多个特征向量。图像特征提取方法可以包括对图像中的文字标志进行多模态语义分析和非规范化字体分析后进行的图像特征提取。特征可以包括局部特征，比如尺度不变特征变换SIFT特征，也可以包括全局特征，比如卷积神经网络 CNN特征。图像特征可以是用于对图像的特征进行表征的信息，图像的特征可以是图像的各种基本要素(例如颜色、形状、线条、纹理等)。

在本实施例的一些可选的实现方式中，对第一文字标志进行特征提取，得到第一文字标志对应的各个特征向量，包括：利用训练得到的特征提取模型对第一文字标志进行特征提取，得到第一文字标志对应的各个特征向量，其中，特征提取模型基于卷积神经网络和Transformer网络而构建。提高了特征提取的效率，提升了特征检索的准确率。

步骤307，将多个特征向量中的各个特征向量与模板库中的样本向量进行比对，生成第二识别结果。

在本实施例中，执行主体可以将多个特征向量中的各个特征向量与预先建立的向量模板库中的样本向量进行比对，根据比对结果生成第二识别结果。

步骤308，对第一识别结果和第二识别结果进行整合，得到待识别文字标志的识别结果。

在本实施例中，执行主体可以利用结果整合方法对步骤304得到的第一识别结果和步骤307生成的第二识别结果进行整合，得到待识别文字标志的识别结果。结果整合方法可以包括结果合并、结果叠加和其他更复杂的图像整合算法。

在本实施例的一些可选的实现方式中，对第二样式文字进行字符识别，得到识别结果，还包括：响应于第一识别结果包括待识别文字标志中的全部文字，将第一识别结果作为待识别文字标志的识别结果。通过一次识别完成图像中文字标志的识别，实现一种快速、准确的文字标志识别。

需要说明的是，上述执行主体中可以存储有预先训练的文字识别模型和特征提取模型，技术人员可以根据实际需求，自行设定上述各个模型的模型结构，本公开的各个实施例对此不做限定。上述机器学习技术和图像转换是目前广泛研究和应用的公知技术，在此不再赘述。

在本实施例中，步骤301～302的具体操作与图1所示的实施例中的步骤101～102的操作基本相同，在此不再赘述。

从图3中可以看出，与图1对应的实施例相比，本实施例中的用于识别文字标志的方法的示意图300采用响应于第一识别结果未包括待识别文字标志中的全部文字，将待识别文字标志中未被识别出的部分作为第一文字标志，对第一文字标志进行特征提取，得到第一文字标志对应的多个特征向量，将多个特征向量中的各个特征向量与模板库中的样本向量进行比对，生成第二识别结果，对第一识别结果和第二识别结果进行整合，得到待识别文字标志的识别结果，通过对于变换识别还不能解决的艺术字体类或者弯曲形LOGO采用基于文字型图像训练向量的相似检索方式进行识别，实现了更加全面的文字标志识别方法。通过建立向量检索库对图像之间相似程度进行判定，快速地解决变换识别不能覆盖的情况，提高了文字标志识别的效率，增加机器判定识别覆盖广度。特征提取采用对子标识进行多模态语义分析和非规范化字体分析，提高了特征提取效率，提升了检索的准确率。通过将文字转换为标准字体文字进行识别，实现了更为简单、有效的文字识别过程。

进一步参考图4，其示出了用于识别文字标志的方法的第三实施例的示意图400。该方法的流程包括以下步骤：

步骤401，获取初始文字标志。

在本实施例中，执行主体可以通过有线连接或无线连接的方式从其他电子设备或者本地获取初始文字标志，其中，初始文字标志中可以包括第一样式文字和其他样式文字。其他样式文字可以指通过字符识别方法能够快速识别的标准样式文字。

步骤402，对初始文字标志进行字符识别，得到初始识别结果。

在本实施例中，执行主体可以利用字符识别模型对步骤401获取的初始文字标志进行字符识别，得到初始识别结果。

步骤403，将初始文字标志中未被识别出的部分作为待识别文字标志。

在本实施例中，执行主体可以基于步骤402的初始识别结果，将初始文字标志中未被识别出的部分作为待识别文字标志。待识别文字标志中包括第一样式文字，第一样式文字可以为非标准字体样式文字。

步骤404，对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块。

步骤405，对图像区块进行区块映射，得到包括第二样式文字的目标图像区块。

步骤406，对第二样式文字进行字符识别，得到第一识别结果。

步骤407，响应于第一识别结果包括待识别文字标志中的全部文字，将第一识别结果作为待识别文字标志的识别结果。

在本实施例中，当执行主体判定第一识别结果包括待识别文字标志中的全部文字，将第一识别结果作为待识别文字标志的识别结果。

步骤408，对初始识别结果和待识别文字标志的识别结果进行整合，得到初始文字标志的最终识别结果。

在本实施例中，执行主体可以利用结果整合方法对初始识别结果和待识别文字标志的识别结果进行整合，得到初始文字标志的最终识别结果。

在本实施例的一些可选的实现方式中，方法还包括：对初始文字标志的最终识别结果进行授权核验；输出授权核验结果对应的提示信息。通过对最终识别结果授权核验，进行企业产品和企业商标的侵权行为判定，有效控制侵权风险的露出，维护了公司的良好社会形象，促进公司业务健康、绿色发展。

在本实施例中，步骤404～405的具体操作与图1所示的实施例中的步骤102～103的操作基本相同，步骤406的具体操作与图3所示的实施例中的步骤304的操作基本相同，在此不再赘述。

从图4中可以看出，与图1和图3对应的实施例相比，本实施例中的用于识别文字标志的方法的示意图400采用获取初始文字标志，对初始文字标志进行字符识别，得到初始识别结果，将初始文字标志中未被识别出的部分作为待识别文字标志，对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块，对图像区块进行区块映射，得到包括第二样式文字的目标图像区块，对第二样式文字进行字符识别，得到第一识别结果，响应于第一识别结果包括待识别文字标志中的全部文字，将第一识别结果作为待识别文字标志的识别结果，对初始识别结果和待识别文字标志的识别结果进行整合，得到初始文字标志的最终识别结果，通过对于整个文字类型LOGO的识别采用层级结构，不同展现样式的文字类型采用不同技术手段进行解决，实现完整的文字类型LOGO的识别过程，扩大了文字类型LOGO识别的宽度和广度，实现了更为全面、精准、有效的图像识别。。

进一步参考图5，作为对上述图1～4所示方法的实现，本公开提供了一种用于识别文字标志的装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图1所示的方法实施例相同或相应的特征，以及产生与图1所示的方法实施例相同或相应的效果，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于识别文字标志的装置500包括：获取模块501、定位模块502、映射模块503和识别模块504，其中，获取模块，被配置成获取待识别文字标志，待识别文字标志中包括第一样式文字；定位模块，被配置成对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块；映射模块，被配置成对图像区块进行区块映射，得到目标图像区块，目标图像区块中包括第二样式文字；识别模块，被配置成对第二样式文字进行字符识别，得到待识别文字标志的识别结果。

在本实施例中，用于识别文字标志的装置400的获取模块501、定位模块502、映射模块503和识别模块504具体处理及其所带来的技术效果可分别参考图1对应的实施例中的步骤101到步骤104的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，映射模块包括：迭代子模块，被配置成利用以下步骤进行迭代处理，直到满足迭代停止条件，映射子模块，被配置成对图像区块进行一次区块映射，得到当前的第一图像区块；调整子模块，被配置成判断当前的第一图像区块是否为标准图像区块，若否，增加区块映射的映射次数；确定子模块，被配置成若是，则停止迭代，并将当前的第一图像区块作为目标图像区块。

在本实施例的一些可选的实现方式中，映射模块中的第二样式文字包括标准字体文字；映射模块还包括：获取子模块，被配置成从标准字体数据库中获取标准图像区块。

在本实施例的一些可选的实现方式中，装置还包括：变换模块，被配置成对图像区块进行空间变换，得到变换后的图像区块，空间变换包括：旋转变换、颜色变换和/或放射变换。

在本实施例的一些可选的实现方式中，识别模块包括：识别子模块，被配置成采用文字分类法或预先训练得到的文字识别模型对第二样式文字进行字符识别，得到第一识别结果；判断子模块，被配置成响应于第一识别结果包括待识别文字标志中的全部文字，将第一识别结果作为待识别文字标志的识别结果。

在本实施例的一些可选的实现方式中，识别子模块还包括：确定子模块，被配置成响应于第一识别结果未包括待识别文字标志中的全部文字，将待识别文字标志中未被识别出的部分作为第一文字标志；提取子模块，被配置成对第一文字标志进行特征提取，得到第一文字标志对应的多个特征向量；比对子模块，被配置成将多个特征向量中的各个特征向量与模板库中的样本向量进行比对，生成第二识别结果；整合子模块，被配置成对第一识别结果和第二识别结果进行整合，得到待识别文字标志的识别结果。

在本实施例的一些可选的实现方式中，提取子模块进一步被配置成利用训练得到的特征提取模型对第一文字标志进行特征提取，得到第一文字标志对应的各个特征向量，其中，特征提取模型基于卷积神经网络和 Transformer网络而构建。

在本实施例的一些可选的实现方式中，获取模块包括：获取子模块，被配置成获取初始文字标志；识别子模块，被配置成对初始文字标志进行字符识别，得到初始识别结果；确定子模块，被配置成将初始文字标志中未被识别出的部分作为待识别文字标志。

在本实施例的一些可选的实现方式中，装置还包括：整合模块，被配置成对初始识别结果和待识别文字标志的识别结果进行整合，得到初始文字标志的最终识别结果。

在本实施例的一些可选的实现方式中，装置还包括：核验模块，被配置成对初始文字标志的最终识别结果进行授权核验；输出模块，被配置成输出授权核验结果对应的提示信息。

本公开的上述实施例提供模型训练装置，通过获取模块获取待识别文字标志，定位模块对待识别文字标志进行图像区域定位，得到与第一样式文字对应的图像区块，映射模块对图像区块进行区块映射，得到目标图像区块，识别模块对第二样式文字进行字符识别，得到待识别文字标志的识别结果，实现了一种效率更高、鲁棒性更强、更加全面的文字标志识别设备。

这里指出，本公开的技术方案中若涉及到用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、 ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口 605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如用于识别文字标志的方法。例如，在一些实施例中，用于识别文字标志的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600 上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的用于识别文字标志的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用于识别文字标志的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于识别文字标志的方法，包括：

获取待识别文字标志，所述待识别文字标志中包括第一样式文字；

对所述待识别文字标志进行图像区域定位，得到与所述第一样式文字对应的图像区块；

对所述图像区块进行区块映射，得到目标图像区块，所述目标图像区块中包括第二样式文字；

对所述第二样式文字进行字符识别，得到待识别文字标志的识别结果。

2.根据权利要求1所述的方法，其中，所述对所述图像区块进行区块映射，得到目标图像区块，包括：

利用以下步骤进行迭代处理，直到满足迭代停止条件：

对所述图像区块进行一次区块映射，得到当前的第一图像区块；

判断当前的第一图像区块是否为标准图像区块，若否，增加所述区块映射的映射次数；

若是，则停止迭代，并将当前的第一图像区块作为目标图像区块。

3.根据权利要求2所述的方法，其中，所述第二样式文字包括标准字体文字；

所述对所述图像区块进行区块映射，得到目标图像区块，还包括：

从标准字体数据库中获取标准图像区块。

4.根据权利要求1-3任一项所述的方法，其中，在所述对所述图像区块进行区块映射，得到目标图像区块之前，还包括：

对所述图像区块进行空间变换，得到变换后的图像区块，所述空间变换包括：旋转变换、颜色变换和/或放射变换。

5.根据权利要求1所述的方法，其中，所述对所述第二样式文字进行字符识别，得到识别结果，包括：

采用文字分类法或预先训练得到的文字识别模型对所述第二样式文字进行字符识别，得到第一识别结果；

响应于所述第一识别结果包括所述待识别文字标志中的全部文字，将所述第一识别结果作为所述待识别文字标志的识别结果。

6.根据权利要求5所述的方法，其中，所述对所述第二样式文字进行字符识别，得到识别结果，还包括：

响应于所述第一识别结果未包括所述待识别文字标志中的全部文字，将所述待识别文字标志中未被识别出的部分作为第一文字标志；

对所述第一文字标志进行特征提取，得到所述第一文字标志对应的多个特征向量；

将所述多个特征向量中的各个特征向量与模板库中的样本向量进行比对，生成第二识别结果；

对所述第一识别结果和所述第二识别结果进行整合，得到所述待识别文字标志的识别结果。

7.根据权利要求6所述的方法，其中，所述对所述第一文字标志进行特征提取，得到所述第一文字标志对应的各个特征向量，包括：

利用训练得到的特征提取模型对所述第一文字标志进行特征提取，得到所述第一文字标志对应的各个特征向量，其中，所述特征提取模型基于卷积神经网络和Transformer网络而构建。

8.根据权利要求1-7任一项所述的方法，其中，所述获取待识别文字标志包括：

获取初始文字标志；

对所述初始文字标志进行字符识别，得到初始识别结果；

将所述初始文字标志中未被识别出的部分作为待识别文字标志。

9.根据权利要求8所述的方法，还包括：

对所述初始识别结果和所述待识别文字标志的识别结果进行整合，得到所述初始文字标志的最终识别结果。

10.根据权利要求1-9任一项所述的方法，还包括：

对所述初始文字标志的最终识别结果进行授权核验；

输出所述授权核验结果对应的提示信息。

11.一种用于识别文字标志的装置，包括：

获取模块，被配置成获取待识别文字标志，所述待识别文字标志中包括第一样式文字；

定位模块，被配置成对所述待识别文字标志进行图像区域定位，得到与所述第一样式文字对应的图像区块；

映射模块，被配置成对所述图像区块进行区块映射，得到目标图像区块，所述目标图像区块中包括第二样式文字；

识别模块，被配置成对所述第二样式文字进行字符识别，得到待识别文字标志的识别结果。

12.根据权利要求11所述的装置，其中，所述映射模块包括：

迭代子模块，被配置成利用以下步骤进行迭代处理，直到满足迭代停止条件，

映射子模块，被配置成对所述图像区块进行一次区块映射，得到当前的第一图像区块；

调整子模块，被配置成判断当前的第一图像区块是否为标准图像区块，若否，增加所述区块映射的映射次数；

确定子模块，被配置成若是，则停止迭代，并将当前的第一图像区块作为目标图像区块。

13.根据权利要求12所述的装置，其中，所述映射模块中的所述第二样式文字包括标准字体文字；所述映射模块还包括：

获取子模块，被配置成从标准字体数据库中获取标准图像区块。

14.根据权利要求11-13任一项所述的装置，其中，所述装置还包括：

变换模块，被配置成对所述图像区块进行空间变换，得到变换后的图像区块，所述空间变换包括：旋转变换、颜色变换和/或放射变换。

15.根据权利要求11所述的装置，其中，所述识别模块包括：

识别子模块，被配置成采用文字分类法或预先训练得到的文字识别模型对所述第二样式文字进行字符识别，得到第一识别结果；

判断子模块，被配置成响应于所述第一识别结果包括所述待识别文字标志中的全部文字，将所述第一识别结果作为所述待识别文字标志的识别结果。

16.根据权利要求15所述的装置，其中，所述识别子模块还包括：

确定子模块，被配置成响应于所述第一识别结果未包括所述待识别文字标志中的全部文字，将所述待识别文字标志中未被识别出的部分作为第一文字标志；

提取子模块，被配置成对所述第一文字标志进行特征提取，得到所述第一文字标志对应的多个特征向量；

比对子模块，被配置成将所述多个特征向量中的各个特征向量与模板库中的样本向量进行比对，生成第二识别结果；

整合子模块，被配置成对所述第一识别结果和所述第二识别结果进行整合，得到所述待识别文字标志的识别结果。

17.根据权利要求16所述的装置，其中，所述提取子模块进一步被配置成利用训练得到的特征提取模型对所述第一文字标志进行特征提取，得到所述第一文字标志对应的各个特征向量，其中，所述特征提取模型基于卷积神经网络和Transformer网络而构建。

18.根据权利要求11-17任一项所述的装置，其中，所述获取模块包括：

获取子模块，被配置成获取初始文字标志；

识别子模块，被配置成对所述初始文字标志进行字符识别，得到初始识别结果；

确定子模块，被配置成将所述初始文字标志中未被识别出的部分作为待识别文字标志。

19.根据权利要求18所述的装置，还包括：

整合模块，被配置成对所述初始识别结果和所述待识别文字标志的识别结果进行整合，得到所述初始文字标志的最终识别结果。

20.根据权利要求11-19任一项所述的装置，还包括：

核验模块，被配置成对所述初始文字标志的最终识别结果进行授权核验；

输出模块，被配置成输出所述授权核验结果对应的提示信息。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。