CN112733830A

CN112733830A - 店铺招牌识别方法及装置、存储介质和计算机设备

Info

Publication number: CN112733830A
Application number: CN202011639439.0A
Authority: CN
Inventors: 毛小明; 陈新泽; 姬东飞; 包敏豪; 黄冠; 都大龙
Original assignee: Shanghai Xinyi Intelligent Technology Co ltd
Current assignee: Shanghai Xinyi Intelligent Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30

Abstract

一种店铺招牌识别方法及装置、存储介质和计算机设备，所述方法包括：获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；对各个文本区域进行文本识别，以得到各个文本区域的文本内容；将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。由此，能够提高对店铺招牌识别的效果。

Description

店铺招牌识别方法及装置、存储介质和计算机设备

技术领域

本发明涉及计算机技术领域，具体地涉及一种店铺招牌识别方法及装置、存储介质和计算机设备。

背景技术

自然场景图像的文本检测识别作为机器理解图像的关键步骤，具有重要的现实意义和应用价值，广泛应用于机器翻译、助盲导航、自动驾驶等领域。

传统地对招牌进行检测时，传统的方法是采用字符分割方法将招牌中的各个文字分割出来，再进行单字符识别。然而该方法主要适用一些背景简单的场景，比如对单据的内容识别等。在针对招牌对应的自然场景时，由于图片中的背景等噪声影响，使得字符分割难度加大，导致招牌识别的效果较差。

由此，亟需一种店铺招牌方法以提高招牌识别的效果。

发明内容

本发明解决的技术问题是如何提高店铺招牌识别的效果。

为解决上述技术问题，本发明实施例提供一种店铺招牌识别方法，所述方法包括：获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；对各个文本区域进行文本识别，以得到各个文本区域的文本内容；将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。

可选的，所述对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域，包括：提取所述目标图片的具有不同分辨率的若干个第一特征图；对所述若干个第一特征图进行特征增强，并将若干个增强的第一特征图进行特征融合，得到第二特征图；根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域。

可选的，所述将若干个增强的第一特征图进行特征融合，得到第二特征图，还包括：对若干个增强的第一特征图分别卷积，以得到各个增强的第一特征图对应的第三特征图；经双线性差值处理将各个第三特征图放大/缩小到相同的分辨率，并对放大/缩小后的若干个第三特征图进行特征融合，得到所述第二特征图。

可选的，所述根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域，包括：将所述第二特征图分别进行多次卷积处理，在所述第二特征图中标注所述文本区域、所述文本区域的核以及所述文本区域的相似向量；结合所述第二特征图中标注的文本区域、核和相似向量，从所述第二特征图中分割出一个或多个所述文本区域。

可选的，所述对各个文本区域进行文本识别，以得到各个文本区域的文本内容，包括：针对每一文本区域，通过特征提取网络提取该文本区域的若干个不同分辨率的文本特征图；将若干个所述文本特征图经卷积对准模块，得到各个文本特征图的注意力权重矩阵；根据各个文本特征图及其注意力权重矩阵，得到待识别招牌中包含的文本对应的特征注意力结果；使用解码器对所述特征注意力结果进行解码，以得到该文本区域的文本内容。

可选的，所述根据各个文本特征图及其注意力权重矩阵，得到待识别招牌中包含的文本对应的特征注意力结果，包括：计算各个文本特征图与其注意力权重矩阵之间的点积之和，所述和为所述特征注意力结果。

可选的，所述文本内容包括若干个字符，所述解码器在解码过程中，将当前字符的前一字符的解码结果引入所述当前字符的解码过程中。

可选的，所述招牌信息库中还存储各个招牌信息对应的位置信息，所述方法还包括：获取所述待识别招牌的地理位置信息；结合所述待识别招牌的地理位置信息，将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配。

可选的，所述将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，包括：若匹配不成功，则将所述待识别招牌的所有文本内容作为新增招牌信息存入所述招牌信息库，并将所述待识别招牌的位置信息对应存入所述招牌信息库。

本发明实施例还提供一种店铺招牌识别装置，所述装置包括：目标图片获取模块，用于获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；检测模块，用于对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；识别模块，用于对各个文本区域进行文本识别，以得到各个文本区域的文本内容；匹配模块，用于将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供的店铺招牌识别方法包括：获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；对各个文本区域进行文本识别，以得到各个文本区域的文本内容；将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。较之现有技术，本发明实施例的方案采用二阶段的方法，检测和识别分开训练，每个模型只负责完成部分任务，相对一阶段的一个模型负责检测和识别两个任务，所需要的特征提取网络可以更小。同时检测模型的输入支持随机裁剪，不需要整张目标图片作为输入，以降低训练设备成本。能够有效提高对店铺招牌识别的效果。

另外，对于自然场景中获取的目标图片，其中包含的文本区域可能会很多，如果对检测模型的输出都用识别模型去进行预测会影响实时性，可以根据拍摄距离、高度和角度的变化范围，限定店铺招牌文本在图片中的可能区域、以及大小、形状，剔除检测模型输出的不符合要求的文本，从而降低模型预测时间

进一步地，能够对目标图片进行特征分析、特征增强，以获取目标图片对应的识别效果更好的第二特征图，以解决光照、噪声、倾斜带来的影响，提高文本区域的获取效果，也得到了更容易进行文本检测的第二特征图，提高后续的文本识别的准确度。

进一步地，能够准确分割目标图片包含的多个文本区域，以解决现实图片采集时由于光照、背景等干扰因素造成的文本区域分割困难的问题，从而提高后续店铺招牌识别的准确性。

进一步地，能够通过人工合成数据来弥补数据不足，解决字体、形状、大小、颜色带来的影响。并通过在人工合成非真实数据集上预训练，有限量的真实数据集上做微调的方法解决小样本应用场景(即真实数据难获得或者标注成本高的场景)，且提高模型检测的准确性。

进一步地，能够结合文本检测识别技术和地理位置定位技术解决特定区域内店铺招牌识别的业务需求。

附图说明

图1是本发明实施例的一种店铺招牌识别方法的流程示意图；

图2是图1中步骤S102的一个实施例的流程示意图；

图3是图1中步骤S103的一个实施例的流程示意图；

图4是图1中步骤S103的一个实施例的处理步骤示意图；

图5为本发明实施例的一种店铺招牌识别方法中模型训练过程的示意图；

图6为本发明具体实例的一种店铺招牌识别方法的处理流程示意图；

图7是本发明实施例的一种店铺招牌识别装置的结构示意图。

具体实施方式

如背景技术所言，现有技术的店铺招牌检测需要更大内存的显卡，设备成本提高；此外检测和识别的联合调参比较难，需要花费更多的人力和设备运行时间。

为解决上述问题，本发明实施例提供一种店铺招牌识别方法，所述方法包括：获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；对各个文本区域进行文本识别，以得到各个文本区域的文本内容；将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。由此，能够减小使用的设备内存，以提高处理和检测效率。

为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

请参见图1，图1为本发明实施例的一种店铺招牌识别方法的流程示意图，所述方法包括以下步骤：

步骤S101，获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；

其中，目标图片为要进行店铺招牌识别的图片，例如可以为对店铺招牌进行拍摄或扫描得到的图片，此时要识别的店铺招牌即为待识别招牌。可选的，目标图片可以为真彩图片(也即，RGB图像)，也可以为其他格式的图片。

步骤S102，对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；

其中，文本区域是指目标图片中包含的存在文字的区域，其可以是指店铺招牌中包含的文字区域，也可指目标图片中的其他文字所在的区域，如布告栏对应的区域等等。

可选的，可对目标图片进行纹理分析，将其中包含文字的区域提取出来。在纹理分析时，可识别文字所在的区域的边框，如店铺招牌的边框等，作为检测出的文本区域的边界线，从而将各个文本区域从目标图片中切割出来。

具体地，可通过数据训练得到检测模型，将目标图片输入所述检测模型，通过该检测模型得到一个或多个文本区域。其中，为了进行数据增强，提高模型的泛化能力，在将目标图片输入所述检测模型之前，可按照70％的概率在一张目标图片的文本区域做随机裁剪，30％的概率以整张目标图片做随机裁剪。采用这一裁剪方式，够保证输入给检测模型的图片大概率包含文本区域。

可选的，在步骤S102之后，还可以包括：对得到的一个或多个文本区域进行筛选，挑选出其中的店铺招牌对应的文本区域。更具体而言，可设置预设的检测规则，该检测规则可根据招牌中文字的字数、分布规律设定，以从步骤S102中得到的文本区域中挑选出店铺招牌对应的文本区域。

步骤S103，对各个文本区域进行文本识别，以得到各个文本区域的文本内容；

其中，文本内容为对文本区域的文字识别结果，也即文本区域中包含的实际文字内容。可以采用光学字符识别(Optical Character Recognition，简称OCR)技术进行文字识别。

可选的，可通过大数据训练得到识别模型，以利用该识别模型对文本区域按照文字的特征进行文字识别，以使得该识别模型输出各个文本区域的文字内容。识别模型的训练样本与所述文本区域相对应，可以为在真实场景中对招牌区域进行图像采集得到的图片，或者真实场景中采集图片、并截取取值的招牌区域得到图片。

可选的，识别模型和检测模型的支柱(Backbone)采用轻量化网络以减少部署设备成本，轻量化网络可以为MobileNet、裁剪后的Resnet18等。

步骤S104，将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。

其中，招牌信息库为已经建立的、包含若干店铺招牌的信息库。可选的，可收集各个街道、区域的店铺招牌建立招牌信息库。或者，还可以从第三方平台，(如大众点评、工商登记数据等)爬取不同地理位置的招牌信息或者店铺信息，并存入所述招牌信息库。可选的，招牌信息可以包括各个招牌中的文字内容(包括店铺名称、招牌落款等全部文字)、招牌材料等在图片识别中表现出的特征、各个店铺招牌对应的地理位置等信息。

在通过步骤S102和步骤S103得到目标图片中各个图片的文本区域的文本内容之后，可将各个文本区域的文本内容与招牌信息库的招牌信息相匹配，若匹配成功，也即目标图片中包含招牌信息库中存储的某一店铺招牌的信息，此时，从招牌信息库中获取匹配成功的招牌信息作为该目标图片的匹配结果，并输出。若匹配失败，则输出失败的消息。

图1所述的方法采用二阶段的方法，检测和识别分开训练，每个模型只负责完成部分任务，相对于一阶段的一个模型负责检测和识别两个任务的方案，所需要的特征提取网络可以更小。同时检测模型的输入支持随机裁剪，不需要整张目标图片作为输入，以降低训练设备成本。另外，对于自然场景中获取的目标图片，其中包含的文本区域可能会很多，如果对检测模型的输出都用识别模型去进行预测会影响实时性，可以根据拍摄距离、高度和角度的变化范围，限定店铺招牌文本在图片中的可能区域、以及大小、形状，剔除检测模型输出的不符合要求的文本，从而降低模型预测时间。

请参见图2，图2为图1中步骤S102所述对所述目标图片进行文本区域识别，以得到所述待识别招牌中包含的一个或多个文本区域，可以包括以下步骤：

步骤S201，提取所述目标图片的具有不同分辨率的若干个第一特征图；

具体地，可利用对图片处理的轻量级的网络提取该若干个第一特征图，该轻量级网络通过不同的卷积核和通道对目标图片分别对目标图片进行卷积处理。可选的，可提取四张第一特征图，该四张第一特征图的分辨率分别为目标图片分辨率的1/4,1/8,1/16和1/32。

步骤S202，对所述若干个第一特征图进行特征增强，并将若干个增强的第一特征图进行特征融合，得到第二特征图；

具体地，可将所述若干个第一特征图各自通过卷积(如3×3卷积)，进行自适应增强；再将增强后的若干个第一特征图进行上采样和/或下采样，以统一分辨率，再对同样分辨率的若干个第一特征图进行特征融合，得到第二特征图。所述第二特征图至少为一张。

需要说明的是，本发明实施例的特征融合可以采用现有技术中常用的特征融合方式，这里不作详细阐述。

步骤S203，根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域。

根据第二特征图中的特征分布情况，获取其中符合文本区域分布的一个或多个文本区域。可选的，可在步骤S203中获取符合店铺招牌的文本区域分布，由此，无需再对得到的文本区域进行筛选。

可选的，图2的步骤S202所述将若干个增强的第一特征图进行特征融合，得到第二特征图，还包括：

步骤S2021，对若干个增强的第一特征图分别卷积，以得到各个增强的第一特征图对应的第三特征图；

具体地，可将所述若干个第一特征图各自通过卷积(如3×3卷积)进行自适应增强，由此得到若干个第三特征图。可选的，将上述若干个第一特征图经过经多个特征金字塔增强模块(Feature Pyramid Enhancement Module，简称FPEM)得到各个第一特征图对应的第三特征图。FPEM实际上是把深层(分辨率相对较低)的语义信息传递给浅层(分辨率相对较高)的特征图，同时把浅层的位置信息传递给深层特征图。

可选的，在步骤S2021之后，还包括：对各个第三特征图进行特征增强，以增强后的第三特征图继续执行下述步骤S2022。

进一步，对各个第三特征图进行特征增强包括：对各个第三特征图进行卷积处理(如3×3卷积等)。由此，能够进一步细化第三特征图，以提高步骤S2022的处理效果。

步骤S2022，经双线性差值处理将各个第三特征图放大/缩小到相同的分辨率，并对放大/缩小后的若干个第三特征图进行特征融合，得到所述第二特征图。

将若干个第三特征图进行上采样和/或下采样，以统一第三特征图的分辨率。可选的，输出的若干个第三特征图经域分解机(Field-aware Factorization Machine，FFM)模块，将原图经双线性差值放大到原图的1/4大小后，在通道维度连接(concat)输出第二特征图。如，第三特征图的分辨率分别为目标图片分辨率的1/4,1/8,1/16和1/32，可将三张小图放大至与其与一张图的大小相同。

现有技术中，对于自然场景采集的图片由于噪声、光照、倾斜、字体等影响，基于有限的公开数据集训练得到的模型无法满足实际业务的需求，而自然场景的文本标注又极其耗费人力成本，无论是二阶段的方法还是端到端的方法都面临这一问题。

本发明实施例通过图2所述的方法，能够对目标图片进行特征分析、特征增强，以获取目标图片对应的识别效果更好的第二特征图，以解决光照、噪声、倾斜带来的影响，提高文本区域的获取效果，也得到了更容易进行文本识别的第二特征图，提高后续的文本识别的准确度。

可选的，图2中步骤S203所述根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域，还可以包括：

步骤S2031，将所述第二特征图分别进行多次卷积处理，在所述第二特征图中标注所述文本区域、所述文本区域的核以及所述文本区域的相似向量；

步骤S2032，结合所述第二特征图中标注的文本区域、核和相似向量，从所述第二特征图中分割出一个或多个所述文本区域。

具体地，输出的第二特征图接3个1×1的卷积，生成第二特征图中包含的多个文本区域(Text Region)、以及各个文本区域对应的核函数(Kernel)和相似向量(SimilarityVector)。

其中，文本区域为对应文本实例的完整形状的区域。kernel为文本实例的聚类中心，需要被聚类的样本是文本对应的像素。

相似向量为第二特征图每个点的特征向量，其维度可以设为4。同一文本区域每个点的特征向量与其Kernel的特征向量的欧式距离应该很小，而不同文本区域的Kernel之间的特征向量欧式距离需要保持一定距离。在实际推断时，由Kernel开始，逐渐向外计算相邻点的特征向量与Kernel特征向量的欧式距离，当超过预先设置的阈值时，认为该相邻点与Kernel不是同一个文本区域。通过这种方式能够将紧密靠在一起的文本区域区分开，得到第二特征图的一个或多个文本区域。

由此，能够准确分割目标图片包含的多个文本区域，以解决现实图片采集时由于光照、背景等干扰因素造成的文本区域分割困难的问题，从而提高后续店铺招牌识别的准确性。

在一个实施例中，请参见图1和图3和图4，图3和图4为图1中步骤S103在一个实施例中的示意图，步骤S103所述对各个文本区域进行特征检测，以得到各个文本区域的文本内容，具体可以包括以下步骤：

步骤S301，针对每一文本区域，通过特征提取网络提取该文本区域的若干个不同分辨率的文本特征图(Feature map)；

其中，特征提取网络用于对文本区域通过不同的卷积核和通道卷积处理，得到该文本区域的若干个文本特征图。可选的，特征提取网络为图4所示的特征编码器(FeatureEncoder)401。

步骤S302，将若干个所述文本特征图经卷积对准模块(Convolutional AlignmentModule，简称CAM)(图4中CAM 402)，得到各个文本特征图的注意力权重矩阵(AttentionMap，也称注意力图)；

CAM 402接收特征编码器中的多尺度特征，采用全卷积结构，输出与特征图等尺寸的注意力权重矩阵。CAM 402采用全卷积结构，该模块的输入融合了特征提取过程中各个尺度的特征，在反卷积阶段，提取的每层文本特征图会与卷积阶段相应特征进行加和(可采用图4中的求和模块403执行)。CAM 402的输出经过sigmoid函数(也称S型函数)激活得到。maxT个特征图的注意力权重矩阵。再对每个注意力权重矩阵进行归一化。其中，maxT是解码的最长时间步，即文本的最大字符数，其与训练过程有关。

步骤S303，根据各个文本特征图及其注意力权重矩阵，得到待识别招牌中包含的文本对应的特征注意力结果；

结合各个文本特征图以及与文本特征图对应的注意力图，可将各个文本区域中的单个字符区分出来。

可选的，步骤S303具体可以包括：计算各个文本特征图与其注意力权重矩阵之间的点积之和，所述和为所述特征注意力结果。

可对各个文本特征图与其注意力权重矩阵之间的点积求和，计算步骤可以采用公式(1)表示：

其中，CM为特征注意力结果，maxT是解码的最长时间步，即文本的最大字符数，i的取值为1,2,…,maxT。C_i为注意力权重矩阵中的第i个值，E_i为文本特征图中的第i个像素值。

步骤S304，使用解码器(Decoder)(即图4中解码器404)对所述特征注意力结果进行解码，以得到该文本区域的文本内容。

可采用常用的意力解码器作为步骤S304的解码器(Decoder)，以得到各个文本区域的识别结果，也即文本内容。

进一步，解码器(Decoder)为去耦解码器(Decoupled Text Decoder)，其与其他注意力解码器运算过程相似，对每个字符依次进行解码。去耦解码器能够对注意力矩阵和上一时间步的解码过程解耦，注意力矩阵由编码器(Encoder)部分的特征图生成，与上一时间步解码过程的中间状态层无关。

在对目标图片进行采集时，可能存在采集得到的目标图片模糊、对比度低、文本倾斜等现象，加大了文本识别的难度；此外文本的字体、形状、大小存在差异，且夹杂各种语言，也在一定程度上给识别的准确性带来挑战。

由此，在执行图1中的步骤S103时，可采用人工合成大量图片作为训练的字体样本，以设计尽可能多的字体、形状、大小和颜色，对合成图片与非合成图片随机加入噪声、旋转，随机改变色度、对比度、饱和度等，并在训练的字体样本中添加背景等噪声因素。由此，模型可以先在合成图片上进行预训练学习尽可能多的文本特征，再在有限量的真实的自然场景图片上做微调，以满足业务需求。

由此，能够通过人工合成数据来弥补数据不足，解决字体、形状、大小、颜色带来的影响。并通过在人工合成非真实数据集上预训练，有限量的真实数据集上做微调的方法解决小样本应用场景(即真实数据难获得或者标注成本高的场景)，且提高模型识别的准确性。

在一个实施例中，所述招牌信息库中还存储各个招牌信息对应的位置信息。请再次参见图1，图1所述的方法还可以包括：获取所述待识别招牌的地理位置信息；步骤S104进行匹配时可结合所述待识别招牌的地理位置信息，将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配。

其中，待识别招牌的地理位置信息为该待识别招牌在实际生活中的地理位置的信息，如经纬度坐标、街道名称、门牌号等等。获取所述待识别招牌的地理位置信息的方式，可以是在获取目标图片时开启定位权限，以得到获取目标图片的地理位置的信息作为待识别招牌的地理位置信息。或者，也可以另行上传待识别招牌的地理位置信息。

也即，在待识别招牌的文本内容与招牌信息库中存储的招牌信息相匹配，且待识别招牌的地理位置信息与匹配到的招牌信息对应的地理位置之间的误差不超过预设距离阈值时，则认为待识别招牌与匹配到的招牌信息为同一家店面，也即二者匹配。

在具体场景中，在采集目标图片的前端拍摄设备上加一个定位传感器(如全球定位系统(GPS)传感器等)，每张目标图片会对应一个定位信息作为其地理位置信息。从工商登记数据库里查找店铺招牌名称及对应的登记位置信息，再提取定位信息在登记的位置一定小范围内的图片对应的识别结果进行匹配，判断待识别招牌是否能与工商登记数据库中登记的招牌相匹配。

可选的，图1中步骤S104所述将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，还包括：若匹配不成功，则将所述待识别招牌的所有文本内容作为新增招牌信息存入所述招牌信息库，并将所述待识别招牌的位置信息对应存入所述招牌信息库。

当二者匹配不成功时，可先判定在对应的区域内可能增加了新的店铺，将待识别招牌的所有文本内容和其地理位置信息增加到招牌信息库中。可选的，可对其进行再次检验，以判定该区域是否新增店铺。

进一步，在对某个区域(如某条街道)完成所有店铺招牌的识别后，可结合招牌信息库的招牌信息判定该区域内是否存在新增或缺失的招牌。若有，则生成对应的消息进行提示。

由此，能够结合文本识别技术和地理位置定位技术解决特定区域内店铺招牌识别的业务需求。

请参见图5，图5为本发明实施例的一种店铺招牌识别方法中模型训练的示意图；在检测模型和识别模型的训练过程中，可以将合成数据(也即合成的图片)作为训练样本，并对合成数据进行数据增强，以对初始模型进行预训练，得到预训练模型。以真实数据(即真实的图片)作为补充的训练样本，将真实数据进行数据增强后对预训练模型进行微调训练，得到最终的检测模型和/或识别模型。

请参见图6，图6为本发明具体实例的一种店铺招牌识别方法的处理流程示意图；将目标图片通过检测模型得到该目标图片中包含的文本区域，并对得到的文本区域进行筛选，得到与待识别招牌对应的文本区域(也即图6中筛选后的文本区域)。从目标图片中获取所有的文本区域的数量，将其作为文本图片输出识别模型，得到识别结果，也即文本内容。将识别结果和目标图片的定位信息与工商登记信息进行字符串匹配，并输出匹配结果。

请参见图7，本发明实施例还提供一种店铺招牌识别装置70，所述装置包括：

目标图片获取模块701，用于获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；

检测模块702，用于对所述目标图片进行文本区域识别，以得到所述待识别招牌中包含的一个或多个文本区域；

识别模块703，用于对各个文本区域进行特征检测，以得到各个文本区域的文本内容；

匹配模块704，用于将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。

在一个实施例中，所述检测模块702，包括：

第一特征图提取单元，用于提取所述目标图片的具有不同分辨率的若干个第一特征图；

特征增强单元，用于对所述若干个第一特征图进行特征增强，并将若干个增强的第一特征图进行特征融合，得到第二特征图；

文本区域获取单元，用于根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域。

在一个实施例中，所述特征增强单元，还包括：

第三特征图获取子单元，用于对若干个增强的第一特征图分别卷积，以得到各个增强的第一特征图对应的第三特征图；

第二特征图获取子单元，用于经双线性差值处理将各个第三特征图放大/缩小到相同的分辨率，并对放大/缩小后的若干个第三特征图进行特征融合，得到所述第二特征图。

在一个实施例中，所述文本区域获取单元还包括：

标注子单元，用于将所述第二特征图分别进行多次卷积处理，在所述第二特征图中标注所述文本区域、所述文本区域的核以及所述文本区域的相似向量；

文本区域分割子单元，用于结合所述第二特征图中标注的文本区域、核和相似向量，从所述第二特征图中分割出一个或多个所述文本区域。

在一个实施例中，所述识别模块703，包括：

文本特征图获取单元，用于针对每一文本区域，通过特征提取网络提取该文本区域的若干个不同分辨率的文本特征图；

注意力矩阵获取单元，用于将若干个所述文本特征图经卷积对准模块，得到各个文本特征图的注意力权重矩阵；

特征注意力结果获取单元，用于根据各个文本特征图及其注意力权重矩阵，得到待识别招牌中包含的文本对应的特征注意力结果；

文本内容检测单元，用于使用解码器对所述特征注意力结果进行解码，以得到该文本区域的文本内容。

在一个实施例中，所述特征注意力结果获取单元，还用于计算各个文本特征图与其注意力权重矩阵之间的点积之和，所述和为所述特征注意力结果。

在一个实施例中，所述文本内容包括若干个字符，所述解码器在解码过程中，将当前字符的前一字符的解码结果引入所述当前字符的解码过程中。

在一个实施例中，所述招牌信息库中还存储各个招牌信息对应的位置信息，所述店铺招牌识别装置70还包括：

地理位置信息获取模块，用于获取所述待识别招牌的地理位置信息；

结合匹配模块，用于结合所述待识别招牌的地理位置信息，将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配。

在一个实施例中，所述结合匹配模块，还用于若匹配不成功，则将所述待识别招牌的所有文本内容作为新增招牌信息存入所述招牌信息库，并将所述待识别招牌的位置信息对应存入所述招牌信息库。

关于该店铺招牌识别装置70的原理、具体实现和有益效果请参照前文及图1至图6示出的所述方法的相关描述，此处不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行图1至图6所述方法的步骤。

本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行图1至图6所述方法的步骤。所述计算机设备包括但不限于手机、计算机、平板电脑等终端设备。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二、第三等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种店铺招牌识别方法，其特征在于，所述方法包括：

获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；

对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；

对各个文本区域进行文本识别，以得到各个文本区域的文本内容；

将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域，包括：

提取所述目标图片的具有不同分辨率的若干个第一特征图；

对所述若干个第一特征图进行特征增强，并将若干个增强的第一特征图进行特征融合，得到第二特征图；

根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域。

3.根据权利要求2所述的方法，其特征在于，所述将若干个增强的第一特征图进行特征融合，得到第二特征图，还包括：

对若干个增强的第一特征图分别卷积，以得到各个增强的第一特征图对应的第三特征图；

经双线性差值处理将各个第三特征图放大/缩小到相同的分辨率，并对放大/缩小后的若干个第三特征图进行特征融合，得到所述第二特征图。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第二特征图得到所述待识别招牌中包含的一个或多个文本区域，包括：

将所述第二特征图分别进行多次卷积处理，在所述第二特征图中标注所述文本区域、所述文本区域的核以及所述文本区域的相似向量；

结合所述第二特征图中标注的文本区域、核和相似向量，从所述第二特征图中分割出一个或多个所述文本区域。

5.根据权利要求1所述的方法，其特征在于，所述对各个文本区域进行文本识别，以得到各个文本区域的文本内容，包括：

针对每一文本区域，通过特征提取网络提取该文本区域的若干个不同分辨率的文本特征图；

将若干个所述文本特征图经卷积对准模块，得到各个文本特征图的注意力权重矩阵；

根据各个文本特征图及其注意力权重矩阵，得到待识别招牌中包含的文本对应的特征注意力结果；

使用解码器对所述特征注意力结果进行解码，以得到该文本区域的文本内容。

6.根据权利要求5所述的方法，其特征在于，所述根据各个文本特征图及其注意力权重矩阵，得到待识别招牌中包含的文本对应的特征注意力结果，包括：

计算各个文本特征图与其注意力权重矩阵之间的点积之和，所述和为所述特征注意力结果。

7.根据权利要求5或6所述的方法，其特征在于，所述文本内容包括若干个字符，所述解码器在解码过程中，将当前字符的前一字符的解码结果引入所述当前字符的解码过程中。

8.根据权利要求1所述的方法，其特征在于，所述招牌信息库中还存储各个招牌信息对应的位置信息，所述方法还包括：

获取所述待识别招牌的地理位置信息；

结合所述待识别招牌的地理位置信息，将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配。

9.根据权利要求8所述的方法，其特征在于，所述将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，包括：

若匹配不成功，则将所述待识别招牌的所有文本内容作为新增招牌信息存入所述招牌信息库，并将所述待识别招牌的位置信息对应存入所述招牌信息库。

10.一种店铺招牌识别装置，其特征在于，所述装置包括：

目标图片获取模块，用于获取目标图片，所述目标图片通过对待识别招牌进行图像采集得到；

检测模块，用于对所述目标图片进行文本区域检测，以得到所述待识别招牌中包含的一个或多个文本区域；

识别模块，用于对各个文本区域进行文本识别，以得到各个文本区域的文本内容；

匹配模块，用于将所述待识别招牌的所有文本内容与招牌信息库中存储的招牌信息相匹配，并输出匹配结果。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至9任一项所述方法的步骤。

12.一种计算机设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至9任一项所述方法的步骤。