CN110889403A

CN110889403A - 文本检测方法以及相关装置

Info

Publication number: CN110889403A
Application number: CN201911072570.0A
Authority: CN
Inventors: 陈媛媛; 熊剑平
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-03-17

Abstract

本申请公开了一种文本检测方法以及相关装置，其中，文本检测方法包括：获取摄像器件对待检测场景拍摄得到的多帧原始图像，其中，多帧原始图像是摄像器件基于不同的曝光参数拍摄的；基于多帧原始图像的图像信息，将多帧原始图像融合为一帧待检测图像；利用预设文本检测方式对待检测图像进行检测，确定待检测场景中是否包含文本。上述方案，能够提高文本检测的准确性。

Description

文本检测方法以及相关装置

技术领域

本申请涉及信息技术领域，特别是涉及一种文本检测方法以及相关装置。

背景技术

随着城市建设的推进，城市管理的压力越来越大，而在城市管理的各种业务需求中，由于乱贴的广告，或者非法喷涂的广告等文本内容严重影响了市容市貌，故此，对于上述文本内容的检查又是城市管理的重点之一。

目前，监控相机等摄像器件愈发密集地布控于城市的小区、商业街等场所，城市监控系统得以不断完善。有赖于此，城市管理正在从繁重的人力成本压力中解放出来，且智能化水平也在不断提升。然而，在实际应用过程中，不可避免地存在光线幽暗，或光线强烈等极端条件，从而造成摄像器件所采集到的图像细节不清晰，或者不完整，甚至丢失，进而降低文本检测的准确性。有鉴于此，如何提高文本检测的准确性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种文本检测方法以及相关装置，能够提高文本检测的准确性。

为了解决上述问题，本申请第一方面提供了一种文本检测方法，包括：获取摄像器件对待检测场景拍摄得到的多帧原始图像，其中，多帧原始图像是摄像器件基于不同的曝光参数拍摄的；基于多帧原始图像的图像信息，将多帧原始图像融合为一帧待检测图像；利用预设文本检测方式对待检测图像进行检测，确定待检测场景中是否包含文本。

为了解决上述问题，本申请第二方面提供了一种文本检测装置，包括相互耦接的存储器和处理器，处理器用于执行存储器存储的程序指令，以实现上述第一方面中的文本检测方法。

为了解决上述问题，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的文本检测方法。

上述方案，获取摄像器件对待检测场景拍摄得到的多帧原始图像，且多帧原始图像是摄像器件基于不同的曝光参数拍摄的，并基于多帧原始图像的图像信息，将多帧原始图像融合为一帧待检测图像，从而有利于将采用不同曝光参数拍摄的多帧原始图像的信息互补，使得融合得到的待检测图像保留尽可能完整的待检测场景的信息，进而能够在利用预设文本检测方式对待检测图像进行检测，以确定待检测场景中是否包含文本时，提高文本检测的准确性。

附图说明

图1是本申请文本检测方法一实施例的流程示意图；

图2是图1中步骤S12一实施例的流程示意图；

图3是图2中步骤S121一实施例的流程示意图；

图4是图2中步骤S122一实施例的流程示意图；

图5是图1中步骤S13一实施例的流程示意图；

图6是图5中步骤S132一实施例的流程示意图；

图7是边缘图像一实施例的示意图；

图8是本申请文本检测装置一实施例的框架示意图；

图9是本申请文本检测装置另一实施例的框架示意图；

图10是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请文本检测方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取摄像器件对待检测场景拍摄得到的多帧原始图像。

本实施例中，多帧原始图像是摄像器件基于不同的曝光参数拍摄的。曝光参数可以包括但不限于：光圈、快门。多帧原始图像的数量可以是2帧、3帧、4帧等等，本实施例在此不做具体限制。

本实施例中，待检测场景可以根据具体的应用场景而进行设置，例如，对于商铺应用场景中，待检测场景可以是商铺的橱窗；对于街道应用场景，待检测场景可以是街道的墙壁；对于道路应用场景，待检测场景可以是电线杆、公交站台，本实施例在此不再一一举例。

本实施例中，摄像器件可以根据具体的应用场景而进行设置，例如，针对室外应用场景中，摄像器件可以是防水摄像机；对于室内应用场景，摄像器件可以是普通的网络摄像机，本实施例在此不做具体限制。

在一个实施场景中，为了实现对待检测场景的实时检测，可以实时获取摄像器件对待检测场景拍摄得到的多帧原始图像，具体地，可以通过RTSP(Real Time StreamingProtocol，实时流协议)传输协议获取多帧原始图像。在另一个实施场景中，还可以通过离线的方式获取摄像器件在一段时间内对待检测场景累积的多帧原始图像，本实施例在此不做具体限制。

步骤S12：基于多帧原始图像的图像信息，将多帧原始图像融合为一帧待检测图像。

本实施例中，多帧原始图像的融合指的是将多帧原始图像中对应像素点的像素值通过一定的计算方式统一为一个像素值，并将计算得到的像素值作为待检测图像对应像素点的像素值。在一个实施场景中，为了提高图像融合的准确性，在图像融合之前，还可以将多帧原始图像进行配准，图像配准(Image Registration)是指同一目标的两幅或两幅以上的图像在空间位置的对准。图像配准的具体方法可以包括半自动配准和自动配准，半自动配准的方式通过人机交互方式提取特征(如角点)，然后利用计算机对图像进行特征匹配、变换和重采样；而自动配准的方式是指计算机基于灰度或基于特征自己完成配准工作。

在一个具体的实施场景中，为了保留尽可能完整的待检测场景的信息，可以计算多帧原始图像中每个像素点的对比度、饱和度和曝光度，从而基于每个像素点的对比度、饱和度和曝光度确定多帧原始图像在融合时对应像素点的融合权重，进而利用确定的融合权重对多帧原始图像中对应像素点的像素值做加权处理，得到待检测图像中对应像素点的像素值。

在另一个具体的实施场景中，为了保留尽可能完整的待检测场景的信息，还可以通过多尺度图像曝光融合的方式，得到待检测图像。具体地，可以将多帧原始图像进行下采样，得到不同分辨率的下采样图像，然后再参考上述方式将同一分辨率的下采样图像进行融合，从而得到具有不同分辨率的融合图像，最后再将具有不同分辨率的融合图像进行二次融合，得到待检测图像。

步骤S13：利用预设文本检测方式对待检测图像进行检测，确定待检测场景中是否包含文本。

在一个实施场景中，为了提高文本检测的准确性，预设文本检测方式可以是基于深度学习的文本检测模型。基于深度学习的文本检测模型可以包括以下任意一者：基于pixelLink的文本检测模型、基于textboxes++的文本检测模型，此外，基于深度学习的文本检测模型也可以是其他模型，例如，segLink模型、EAST模型等等，本实施例在此不做具体限制。

在另一个实施场景中，为了提高文本检测的准确性，预设文本检测方法还可以是MSER(Maximum Stable Extrernal Region，最大稳定极值区域)等检测方法。MSER是基于分水岭概念的检测方法，简单来说，就是对图像进行二值化，二值化阈值可以取[0,255]，这样二值化图像就经历一个从全黑到全白的过程(就像水位不断上升的俯瞰图)，在这个过程中，有些连通区域面积随着阈值的上升而变化的幅度很小，这种区域就叫做最大稳定极值区域。

在又一个实施场景中，为了提高文本检测的准确性，预设文本检测方法还可以是先利用基于深度学习的文本检测模型进行检测，再利用诸如MSER的检测方法进行检测，从而能够进一步提高文本检测的准确性。

请参阅图2，图2是图1中步骤S12一实施例的流程示意图。具体地，可以包括如下步骤：

步骤S121：基于多帧原始图像各个像素点的图像信息，获取多帧原始图像的融合权重。

本实施例中，像素点的图像信息可以包括像素点在各通道的像素值，例如，R通道像素值、G通道像素值、B通道像素值。具体地，请结合参阅图3，图3是图1中步骤S121一实施例的流程示意图，获取融合权重的步骤可以包括：

步骤S31：基于多帧原始图像各个像素点的图像信息，获取多帧原始图像各个像素点的对比度、饱和度、曝光度。

在一个实施场景中，可以获取每个像素点的灰度值，利用每个像素点的灰度值计算每个像素点的梯度值，作为像素点的对比度。像素点的灰度值可以通过浮点算法、整数算法、移位算法、平均值法等计算方法获得，本实施例在此不再赘述。具体地，可以参阅下式：

C(i,j)＝F(i-1,j)+F(i+1,j)+F(i,j-1)+F(i,j+1)-4F(i,j)

上式中，C(i,j)表示像素点(i,j)处的梯度值，F(i,j)表示像素点(i,j)处的灰度值。

在另一个实施场景中，可以获取每个像素点各个颜色通道的像素值的均值，并将每个像素点各个颜色通道的像素值与均值之差的均方根作为对应像素点的饱和度。具体地，获取每个像素点各个颜色通道的像素值的均值的方式可以参阅下式：

mu(i,j)＝(R(i,j)+G(i,j)+B(i,j))/3

上式中，R(i,j)、G(i,j)、B(i,j)分别表示R通道像素值、G通道像素值、B通道像素值，mu(i,j)表示像素点(i,j)处像素值的均值。

具体地，获取每个像素点处饱和度的方式可以参阅下式：

上式中，S(i,j)表示像素点(i,j)处的饱和度。

在又一个实施场景中，还可以基于每个像素点各个颜色通道的像素值的均值，计算与原始图像对应的方差，再利用方差对每个像素点各个颜色通道的像素值进行处理，获取对应像素点各个颜色通道的曝光度，最后将像素点各个颜色通道的曝光度之积作为像素点的曝光度。具体地，R通道的曝光度可以表示为：

上式中，ER(i,j)表示像素点(i,j)处的R通道曝光度，R(i,j)表示像素点(i,j)处的R通道像素值，δ表示方差。

以此类推，可以计算得到像素点(i,j)处的G通道曝光度EG(i,j)，以及像素点(i,j)处的B通道曝光度EB(i,j)，从利用下式计算得到像素点(i,j)处的曝光度：

E(i,j)＝ER(i,j)·EG(i,j)·EB(i,j)

步骤S32：基于对比度、饱和度、曝光度，确定多组融合权重。

本实施例中，每组融合权重包含对应一分辨率的多个子权重，多个子权重分别对应于多帧原始图像。具体地，可以先确定对应于原始图像的原始分辨率的融合权重，再对与原始分辨率对应的融合权重进行下采样，得到多组融合权重。

具体地，与原始分辨率对应的融合权重可以表示为：

W_k(i,j)＝(C_k(i,j))^wc·(S_k(i,j))^ws·(E_k(i,j))^we

上式中，W_k(i,j)表示多帧原始图像中第k帧原始图像像素点(i,j)处的融合权重，C_k(i,j)表示多帧原始图像中第k帧原始图像像素点(i,j)处的对比度，S_k(i,j)表示多帧原始图像中第k帧原始图像像素点(i,j)处的饱和度，E_k(i,j)表示多帧原始图像中第k帧原始图像像素点(i,j)处的曝光度，wc、ws、we分别表示对比度、饱和度、曝光度的调节参数，本实施例中，wc、ws、we可以均为1。

在构建得到与原始图像的原始分辨率对应的融合权重之后，可以利用预设降采样策略对与原始分辨率对应的融合权重进行采样，得到对应于不同分辨率的融合权重，具体地，预设降采样策略可以是高斯金字塔降采样策略，可以参阅下式：

上式中，0<l≤N，其中，N表示高斯金字塔最顶层，0≤i<COL_l，其中，COL_l表示高斯金字塔第l层图像的列数，0≤j<ROW_l，其中，ROW_l表示高斯金字塔第l层图像的行数，1≤k≤M，其中，N表示多帧原始图像的数量，w(m,n)为高斯滤波函数的对称函数，

表示与多帧原始图像的第k帧原始图像对应的高斯金字塔第l层图像的融合权重，

表示与多帧原始图像的第k帧原始图像对应的高斯金字塔第l-1层图像的融合权重。

高斯金字塔同一层图像所对应的分辨率相同，因此，可以将

作为一组对应于与高斯金字塔第l层图像的分辨率对应的融合权重，其中，

分别为对应于多帧原始图像中的第1帧原始图像的子权重，对应于多帧原始图像中的第2帧原始图像的子权重，对应于多帧原始图像中的第k帧原始图像的子权重，以及对应于多帧原始图像中的第M帧原始图像的子权重。

步骤S122：基于融合权重，对多帧原始图像进行融合，得到待检测图像。

本实施例中，可以结合参阅图4，图4是图2中步骤S122一实施例的流程示意图，图像融合具体可以包括：

步骤S41：获取多组分层图像，其中，每组分层图像包含对应一分辨率的多个子图像，多个子图像分别对应于多帧原始图像。

在一个实施场景中，可以参考上述获取多组融合权重的方式，获取多组分层图像。具体地，可以利用预设降采样策略分别对多帧原始图像进行采样，得到对应于不同分辨率的降采样图像，将多帧原始图像作为一组对应于原始分辨率的分层图像，并将对应于同一分辨率的降采样图像作为一组分层图像。在一个具体的实施场景中，可以采样高斯降采样对多帧原始图像进行采样，具体可以参阅下式：

上式中，0<l≤N，其中，N表示高斯金字塔最顶层，0≤i<COL_l，其中，COL_l表示高斯金字塔第l层图像的列数，0≤j<ROW_l，其中，ROW_l表示高斯金字塔第l层图像的行数，1≤k≤M，其中，N表示多帧原始图像的数量，w(m,n)为窗口函数，

表示与多帧原始图像的第k帧原始图像对应的高斯金字塔第l层图像，

表示与多帧原始图像的第k帧原始图像对应的高斯金字塔第l-1层图像。

高斯金字塔同一层图像所对应的分辨率相同，因此，可以将

作为一组与高斯金字塔第l层图像对应的分层图像，其中，

表示多帧原始图像中的第1帧原始图像在高斯金字塔第l层图像、

表示多帧原始图像中的第2帧原始图像在高斯金字塔第l层图像，

表示多帧原始图像中的第k帧原始图像在高斯金字塔第l层图像，

表示多帧原始图像中的第M帧原始图像在高斯金字塔第l层图像。

步骤S42：利用对应同一分辨率的多个子权重分别对每组分层图像中的多个子图像进行加权处理，得到与同一分辨率对应的融合子图像。

在一个实施场景中，可以利用对应一分辨率的一组融合权重中所包含的多个子权重分别对与同一分辨率对应的一组分层图像中所包含的多个字图像进行加权处理，从而得到与上述分辨率对应的融合子图像。具体地，可以参阅下式：

上式中，

表示多帧原始图像中的第k帧原始图像对应于金字塔第l层图像在像素点(i,j)处的子权重，

表示多帧原始图像中的第k帧原始图像对应于金字塔第l层图像在像素点(i,j)处的像素值，R^l(i,j)表示第l层融合子图像在像素点(i,j)处的像素值。

在另一个实施场景中，为了使融合得到的图像所保留的信息尽可能地完整，还可以基于上述高斯金字塔各层图像，得到拉普拉斯金字塔图像，具体地，可以将高斯金字塔各层图像进行内插图像点的放大操作，请参阅下式：

其中，当

的取值为整数时，

的取值即为

当

的取值为其他数值时，

的取值为0。

即将

的图像层内插像素点还原为

图像层，由于

图像层是因上一层图像内插放大而得到的，与原

高斯图像层有着细节上的差别，故此将原始高斯金字塔图像与内插还原得到的图像层进行减法运算，能够得到图像的细节轮廓，具体表示表示为：

再利用与上述类似的步骤，得到融合子图像，具体地，可以表示为：

上式中，

表示多帧原始图像中的第k帧原始图像对应于拉普拉斯金字塔第l层图像在像素点(i,j)处的像素值，R^l(i,j)表示第l层融合子图像在像素点(i,j)处的像素值。

步骤S43：将分别对多组分层图像进行加权处理得到的多个融合子图像进行图像重构，得到待检测图像。

本实施例中，在图像重构时，可以采用上述窗口函数进行还原操作，从而可以避免图像层间变换时对融合结果的影响，具体地，可以参阅下式：

其中，

是拉普拉斯金字塔图像细节层和还原层的综合体，具体可以表示为：

从而通过不断迭代计算，对多个融合子图像进行图像重构，最终得到待检测图像。

上述方案，通过基于多帧原始图像各个像素点的图像信息，获取多帧原始图像的融合权重，从而基于融合权重，对多帧原始图像进行融合，得到待检测图像，能够使待检测图像保留尽可能完整的待检测场景的信息，进而有利于提高文本检测的准确性。

请参阅图5，图5是图1中步骤S13一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S131：利用基于深度学习的文本检测模型对待检测图像进行检测，得到至少一个疑似与文本对应的目标区域。

本实施例中，基于深度学习的文本检测模型可以是pixelLink检测模型，pixelLink检测模型主要基于CNN(Convolutional Neural Networks，卷积神经网络)，分别做文本和非文本预测、像素的8个方向是否连接预测这两个任务，然后基于连通域操作，获得不同大小的文本连通域，并进行噪声滤除，最终通过并查集合合并出最终的文本框，即本实施例所指的疑似与文本对应的目标区域。

此外，在一个实施场景中，还可以基于pixelLink检测模型以外的其他文本检测模型对待检测图像进行检测，例如，textboxes++文本检测模型等等，本实施例在此不做具体限制。

步骤S132：检测目标区域的图像数据，确定目标区域中是否包含文本。

具体地，请结合参阅图6，图6是图5中步骤S132一实施例的流程示意图，检测目标区域的图像数据的步骤可以为：

步骤S61：对目标区域的图像数据进行边缘检测，获取边缘图像，其中，边缘图像中包含多个边缘像素点。

本实施例中，可以采用canny算子对目标区域的图像数据进行边缘检测，从而得到与目标区域的图像数据对应的边缘图像，且边缘图像中包含多个边缘像素点。具体地，可以使用高斯滤波核对目标区域的图像数据进行降噪，然后使用sobel算子计算水平和垂直方向的一阶导数，从而计算得到边界的梯度和方向，之后再使用滞后阈值法进一步确定边界点，即当像素点的梯度高于设定的最大值时，确定为真的边界点，低于设定的最小值时，则舍弃，如果介于最大值和最小值之间，则判断像素点是否与某个确定为真的边界点相邻，若是，则判定为真的边界点，否则将其舍弃。

在一个具体的实施场景中，目标区域的方向可能与水平方向存在一夹角，则在对目标区域的图像数据进行边缘检测之前，还可以对目标区域的图像数据进行仿射变换，使得目标区域与水平方向平行，然后再对进行仿射变换后的目标区域的图像数据进行灰度处理，获取灰度图像，从而得以对灰度图像进行边缘检测，获取边缘图像。

在一个具体的实施场景中，请结合参阅图7，图7是边缘图像一实施例的示意图，图中黑色填充为边缘像素点。

步骤S62：基于当前边缘像素点的梯度方向，在多个边缘像素点中查找符合预设条件的匹配边缘像素点。

本实施例中，预设条件包括：梯度方向之差在预设梯度值范围内，例如-30°～+30°，具体地，可以在与当前边缘像素点的梯度方向相反的方向上搜索另一边缘像素点，若当前边缘像素点的梯度方向的相反的方向与另一边缘像素点的梯度方向之差在预设梯度值范围内，则将另一边缘像素点作为当前边缘像素点的匹配边缘像素点。

请结合参阅图7，当前边缘像素点p的梯度方向为图7中虚线箭头方向，在与虚线箭头方向相反的方向上搜索到另一边缘像素点q，另一边缘像素点q的梯度方向为图7中实线箭头方向，另一边缘像素点q的梯度方向符合预设条件，则将另一边缘像素点q作为当前边缘像素点p的匹配边缘像素点。

步骤S63：获取当前边缘像素点和匹配边缘像素点之间的距离，并将当前边缘像素点、匹配边缘像素点，以及当前边缘像素点到匹配边缘像素点路径上的其他像素点在笔画宽度图像中对应位置像素点的像素值赋值为距离。

本实施例中，笔画宽度图像是与目标区域尺寸相同的图像，且笔画宽度图像中各像素点的像素值是与各像素点位置对应的当前边缘像素点的像素值，或匹配边缘像素点的像素值，或两者路径上的其他像素点的像素值，在初始状态时，可以将笔画宽度图像中各个像素点的像素值置为空，即不赋予其具体的像素值。

本实施例中，当前边缘像素点和匹配边缘像素点之间的距离为欧氏距离。具体地，在搜索匹配边缘像素点的过程中，若笔画宽度图像中对应位置像素点未被赋值，则将对应位置像素点的像素值赋值为距离；若笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值小于距离，则保持对应位置像素点已经被赋值的像素值不变；若笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值不小于距离，则将对应位置像素点重新赋值为距离。

请结合参阅图7，图7中斜线填充的即为当前边缘像素点p到匹配边缘像素点q的路径上的其他像素点。具体地，其他像素点是以当前边缘像素点p为起点，沿与当前边缘像素点p的梯度方向相反的方向到匹配边缘像素点q的路径上所经过的像素点。

步骤S64：基于笔画宽度图像中各个像素点的像素值，确定目标区域中是否包含文本。

具体地，可以基于笔画宽度图像中各个被赋值的像素点的像素值，计算这些像素点的像素均值，若像素均值在预设像素值范围内，则确定目标区域包含文本，若像素均值不在预设像素值范围内，则确定目标区域不包含文本。

步骤S133：基于对目标区域的检测结果，确定待检测场景中是否包含文本。

具体地，若任一目标区域中均不包含文本，则确定待检测场景不包含文本，反之，若至少一个目标区域中包含文本，则确定待检测场景包含文本。

上述方案，在利用基于深度学习的文本检测模型对待检测图像进行检测，得到至少一个疑似与文本对应的目标区域之后，进一步检测目标区域的图像数据，确定目标区域中是否包含文本，进而基于对目标区域的检测结果，确定待检测场景中是否包含文本，从而能够对目标区域的图像数据进行双重检测，进而能够提高文本检测的准确性。

请参阅图8，图8是本申请文本检测装置80一实施例的框架示意图。文本检测装置80包括图像获取模块81、图像融合模块82和文本检测模块83，图像获取模块81用于获取摄像器件对待检测场景拍摄得到的多帧原始图像，其中，多帧原始图像是摄像器件基于不同的曝光参数拍摄的，图像融合模块82用于基于多帧原始图像的图像信息，将多帧原始图像融合为一帧待检测图像，文本检测模块83用于利用预设文本检测方式对待检测图像进行检测，确定待检测场景中是否包含文本。

在一些实施例中，文本检测模块83包括第一检测子模块，用于利用基于深度学习的文本检测模型对待检测图像进行检测，得到至少一个疑似与文本对应的目标区域，文本检测模块83还包括第二检测子模块，用于检测目标区域的图像数据，确定目标区域中是否包含文本，文本检测模块83还包括确定子模块，用于基于对目标区域的检测结果，确定待检测场景中是否包含文本。

区别于前述实施例，在利用基于深度学习的文本检测模型对待检测图像进行检测，得到至少一个疑似与文本对应的目标区域之后，进一步检测目标区域的图像数据，确定目标区域中是否包含文本，进而基于对目标区域的检测结果，确定待检测场景中是否包含文本，从而能够对目标区域的图像数据进行双重检测，进而能够提高文本检测的准确性。

在一些实施例中，第二检测子模块还包括边缘检测单元，用于对目标区域的图像数据进行边缘检测，获取边缘图像，其中，边缘图像中包含多个边缘像素点，第二检测子模块还包括像素查找单元，用于基于当前边缘像素点的梯度方向，在多个边缘像素点中查找符合预设条件的匹配边缘像素点，第二检测子模块还包括笔画宽度获取单元，用于获取当前边缘像素点和匹配边缘像素点之间的距离，并将当前边缘像素点、匹配边缘像素点，以及当前边缘像素点到匹配边缘像素点路径上的其他像素点在笔画宽度图像中对应位置像素点的像素值赋值为距离，第二检测子模块还包括文本确定单元，用于基于笔画宽度图像中各个像素点的像素值，确定目标区域中是否包含文本。

在一些实施例中，笔画宽度获取单元具体用于若笔画宽度图像中对应位置像素点未被赋值，则将对应位置像素点的像素值赋值为距离；若笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值小于距离，则保持对应位置像素点已经被赋值的像素值不变；若笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值不小于距离，则将对应位置像素点重新赋值为距离。

在一些实施例中，预设条件包括：梯度方向之差在预设梯度值范围内，像素查找单元具体用于在与当前边缘像素点的梯度方向相反的方向上搜索另一边缘像素点，若相反的方向与另一边缘像素点的梯度方向之差在预设梯度值范围内，则将另一边缘像素点作为当前边缘像素点的匹配边缘像素点。

在一些实施例中，文本确定单元具体用于基于笔画宽度图像中各像素点的像素值，计算与笔画宽度图像对应的像素均值，若像素均值在预设像素值范围内，则确定目标区域中包含文本，若像素均值不在预设像素值范围内，则确定目标区域中不包含文本。

在一些实施例中，第二检测子模块还包括仿射变换单元，用于对目标区域的图像数据进行仿射变换，使得目标区域与水平方向平行，第二检测子模块还包括灰度处理单元，用于对进行仿射变换后的目标区域的图像数据进行灰度处理，获取灰度图像，边缘检测单元具体用于对灰度图像进行边缘检测，获取边缘图像。

在一些实施例中，确定子模块具体用于当任一目标区域中均不包含文本时，确定待检测场景中不包含文本，当至少一个目标区域中包含文本时，确定待检测场景中包含文本。

在一些实施例中，图像融合模块82包括融合权重获取子模块，用于基于多帧原始图像各个像素点的图像信息，获取多帧原始图像的融合权重，图像融合模块82还包括图像融合子模块，用于基于融合权重，对多帧原始图像进行融合，得到待检测图像。

区别于前述实施例，通过基于多帧原始图像各个像素点的图像信息，获取多帧原始图像的融合权重，从而基于融合权重，对多帧原始图像进行融合，得到待检测图像，能够使待检测图像保留尽可能完整的待检测场景的信息，进而有利于提高文本检测的准确性。

在一些实施例中，融合权重获取子模块包括对比度获取单元，用于基于多帧原始图像各个像素点的图像信息，获取多帧原始图像各个像素点的对比度，融合权重获取子模块包括饱和度获取单元，用于基于多帧原始图像各个像素点的图像信息，获取多帧原始图像各个像素点的饱和度，融合权重获取子模块包括曝光度获取单元，用于基于多帧原始图像各个像素点的图像信息，获取多帧原始图像各个像素点的曝光度，融合权重获取子模块还包括权重确定单元，用于基于对比度、饱和度、曝光度，确定多组融合权重，其中，每组融合权重包含对应一分辨率的多个子权重，多个子权重分别对应于多帧原始图像。

在一些实施例中，图像融合子模块包括图像分层单元，用于获取多组分层图像，其中，每组分层图像包含对应一分辨率的多个子图像，多个子图像分别对应于多帧原始图像，图像融合子模块还包括加权处理单元，用于利用对应同一分辨率的多个子权重分别对每组多层图像中的多个子图像进行加权处理，得到与同一分辨率对应的融合子图像，图像融合子模块还包括图像重构单元，用于将分别对多组分层图像进行加权处理得到的多个融合子图像进行图像重构，得到待检测图像。

在一些实施例中，对比度获取单元具体用于获取每个像素点的灰度值，利用每个像素点的灰度值计算每个像素点的梯度值，作为像素点的对比度，饱和度获取单元具体用于获取每个像素点各个颜色通道的像素值的均值，将每个像素点各个颜色通道的像素值与均值之差的均方根作为对应像素点的饱和度，曝光度获取单元具体用于基于每个像素点各个颜色通道的像素值的均值，计算与原始图像对应的方差，利用方差对每个像素点各个颜色通道的像素值进行处理，获取对应像素点各个颜色通道的曝光度，将像素点各个颜色通道的曝光度之积作为像素点的曝光度。

在一些实施例中，图像分层单元具体用于利用预设降采样策略分别对多帧原始图像进行采样，得到对应于不同分辨率的降采样图像，将多帧原始图像作为一组对应于原始分辨率的分层图像，并将对应同一分辨率的降采样图像作为一组分层图像。

请参阅图9，图9是本申请文本检测装置90一实施例的框架示意图。文本检测装置90包括相互耦接的存储器91和处理器92，处理器92用于执行存储器91存储的程序指令，以实现上述任一文本检测方法实施例中的步骤。

具体而言，处理器92用于控制其自身以及存储器91以实现上述任一文本检测方法实施例中的步骤。处理器92还可以称为CPU(Central Processing Unit，中央处理单元)。处理器92可能是一种集成电路芯片，具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器92可以由多个集成电路芯片共同实现。

本实施例中，处理器92用于获取摄像器件对待检测场景拍摄得到的多帧原始图像，其中，多帧原始图像是摄像器件基于不同的曝光参数拍摄的，处理器92还用于基于多帧原始图像的图像信息，将多帧原始图像融合为一帧待检测图像，处理器92还用于利用预设文本检测方式对待检测图像进行检测，确定待检测场景中是否包含文本。

在一些实施例中，处理器92还用于利用基于深度学习的文本检测模型对待检测图像进行检测，得到至少一个疑似与文本对应的目标区域，处理器92还用于检测目标区域的图像数据，确定目标区域中是否包含文本，处理器92还用于基于对目标区域的检测结果，确定待检测场景中是否包含文本。

在一些实施例中，处理器92还用于对目标区域的图像数据进行边缘检测，获取边缘图像，其中，边缘图像中包含多个边缘像素点，处理器92还用于基于当前边缘像素点的梯度方向，在多个边缘像素点中查找符合预设条件的匹配边缘像素点，处理器92还用于获取当前边缘像素点和匹配边缘像素点之间的距离，并将当前边缘像素点、匹配边缘像素点，以及当前边缘像素点到匹配边缘像素点路径上的其他像素点在笔画宽度图像中对应位置像素点的像素值赋值为距离，处理器92还用于基于笔画宽度图像中各个像素点的像素值，确定目标区域中是否包含文本。

在一些实施例中，处理器92还用于若笔画宽度图像中对应位置像素点未被赋值，则将对应位置像素点的像素值赋值为距离，处理器92还用于若笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值小于距离，则保持对应位置像素点已经被赋值的像素值不变，处理器92还用于若笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值不小于距离，则将对应位置像素点重新赋值为距离。

在一些实施例中，处理器92还用于在与当前边缘像素点的梯度方向相反的方向上搜索另一边缘像素点，处理器92还用于若相反的方向与另一边缘像素点的梯度方向之差在预设梯度值范围内，则将另一边缘像素点作为当前边缘像素点的匹配边缘像素点。

在一些实施例中，处理器92还用于基于笔画宽度图像中各像素点的像素值，计算与笔画宽度图像对应的像素均值，处理器92还用于若像素均值在预设像素值范围内，则确定目标区域中包含文本，处理器92还用于若像素均值不在预设像素值范围内，则确定目标区域中不包含文本。

在一些实施例中，处理器92还用于对目标区域的图像数据进行仿射变换，使得目标区域与水平方向平行，处理器92还用于对进行仿射变换后的目标区域的图像数据进行灰度处理，获取灰度图像，处理器92还用于对灰度图像进行边缘检测，获取边缘图像。

在一些实施例中，处理器92还用于若任一目标区域中均不包含文本，则确定待检测场景中不包含文本，处理器92还用于若至少一个目标区域中包含文本，则确定待检测场景中包含文本。

在一些实施例中，处理器92还用于基于多帧原始图像各个像素点的图像信息，获取多帧原始图像的融合权重，处理器92还用于基于融合权重，对多帧原始图像进行融合，得到待检测图像。

在一些实施例中，处理器92还用于基于多帧原始图像各个像素点的图像信息，获取多帧原始图像各个像素点的对比度、饱和度、曝光度，处理器92还用于基于对比度、饱和度、曝光度，确定多组融合权重，其中，每组融合权重包含对应一分辨率的多个子权重，多个子权重分别对应于多帧原始图像。

在一些实施例中，处理器92还用于获取多组分层图像，其中，每组分层图像包含对应一分辨率的多个子图像，多个子图像分别对应于多帧原始图像，处理器92还用于利用对应同一分辨率的多个子权重分别对每组多层图像中的多个子图像进行加权处理，得到与同一分辨率对应的融合子图像，处理器92还用于将分别对多组分层图像进行加权处理得到的多个融合子图像进行图像重构，得到待检测图像。

在一些实施例中，处理器92还用于获取每个像素点的灰度值，处理器92还用于利用每个像素点的灰度值计算每个像素点的梯度值，作为像素点的对比度。

在一些实施例中，处理器92还用于获取每个像素点各个颜色通道的像素值的均值，处理器92还用于将每个像素点各个颜色通道的像素值与均值之差的均方根作为对应像素点的饱和度。

在一些实施例中，处理器92还用于基于每个像素点各个颜色通道的像素值的均值，计算与原始图像对应的方差，处理器92还用于利用方差对每个像素点各个颜色通道的像素值进行处理，获取对应像素点各个颜色通道的曝光度，处理器92还用于将像素点各个颜色通道的曝光度之积作为像素点的曝光度。

在一些实施例中，处理器92还用于利用预设降采样策略分别对多帧原始图像进行采样，得到对应于不同分辨率的降采样图像，处理器92还用于将多帧原始图像作为一组对应于原始分辨率的分层图像，并将对应同一分辨率的降采样图像作为一组分层图像。

在一些实施例中，文本检测装置90还包括摄像器件，用于基于不同的曝光参数拍摄得到多帧原始图像。

请参阅图10，图10为本申请存储装置100一实施例的框架示意图。存储装置100存储有能够被处理器运行的程序指令110，程序指令110用于实现上述任一文本检测方法实施例中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本检测方法，其特征在于，包括：

获取摄像器件对待检测场景拍摄得到的多帧原始图像，其中，所述多帧原始图像是所述摄像器件基于不同的曝光参数拍摄的；

基于所述多帧原始图像的图像信息，将所述多帧原始图像融合为一帧待检测图像；

利用预设文本检测方式对所述待检测图像进行检测，确定所述待检测场景中是否包含文本。

2.根据权利要求1所述的文本检测方法，其特征在于，所述利用预设文本检测方式对所述待检测图像进行检测，确定所述待检测场景中是否包含文本包括：

利用基于深度学习的文本检测模型对所述待检测图像进行检测，得到至少一个疑似与文本对应的目标区域；

检测所述目标区域的图像数据，确定所述目标区域中是否包含文本；

基于对所述目标区域的检测结果，确定所述待检测场景中是否包含文本。

3.根据权利要求2所述的文本检测方法，其特征在于，所述检测所述目标区域的图像数据，确定所述目标区域中是否包含文本包括：

对所述目标区域的图像数据进行边缘检测，获取边缘图像，其中，所述边缘图像中包含多个边缘像素点；

基于当前边缘像素点的梯度方向，在所述多个边缘像素点中查找符合预设条件的匹配边缘像素点；

获取所述当前边缘像素点和所述匹配边缘像素点之间的距离，并将所述当前边缘像素点、所述匹配边缘像素点，以及所述当前边缘像素点到所述匹配边缘像素点路径上的其他像素点在笔画宽度图像中对应位置像素点的像素值赋值为所述距离；

基于所述笔画宽度图像中各个像素点的像素值，确定所述目标区域中是否包含文本。

4.根据权利要求3所述的文本检测方法，其特征在于，所述将所述当前边缘像素点、所述匹配边缘像素点，以及所述当前边缘像素点到所述匹配边缘像素点路径上的其他像素点在笔画宽度图像中对应位置像素点的像素值赋值为所述距离，包括：

若所述笔画宽度图像中对应位置像素点未被赋值，则将对应位置像素点的像素值赋值为所述距离；

若所述笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值小于所述距离，则保持对应位置像素点已经被赋值的像素值不变；

若所述笔画宽度图像中对应位置像素点已经被赋值，且已经被赋值的像素值不小于所述距离，则将对应位置像素点重新赋值为所述距离。

5.根据权利要求3所述的文本检测方法，其特征在于，所述预设条件包括：梯度方向之差在预设梯度值范围内，所述基于当前边缘像素点的梯度方向，在所述多个边缘像素点中查找符合预设条件的匹配边缘像素点包括：

在与所述当前边缘像素点的梯度方向相反的方向上搜索另一边缘像素点；

若所述相反的方向与所述另一边缘像素点的梯度方向之差在所述预设梯度值范围内，则将所述另一边缘像素点作为所述当前边缘像素点的匹配边缘像素点。

6.根据权利要求3所述的文本检测方法，其特征在于，所述基于所述笔画宽度图像中各个像素点的像素值，确定所述目标区域中是否包含文本包括：

基于所述笔画宽度图像中各像素点的像素值，计算与所述笔画宽度图像对应的像素均值；

若所述像素均值在预设像素值范围内，则确定所述目标区域中包含文本；

若所述像素均值不在所述预设像素值范围内，则确定所述目标区域中不包含文本。

7.根据权利要求3所述的文本检测方法，其特征在于，所述对所述目标区域的图像数据进行边缘检测，获取边缘图像之前，所述方法还包括：

对所述目标区域的图像数据进行仿射变换，使得所述目标区域与水平方向平行；

对进行仿射变换后的目标区域的图像数据进行灰度处理，获取灰度图像；

所述对所述目标区域的图像数据进行边缘检测，获取边缘图像包括：

对所述灰度图像进行边缘检测，获取所述边缘图像。

8.根据权利要求2所述的文本检测方法，其特征在于，所述基于对所述目标区域的检测结果，确定所述待检测场景中是否包含文本包括：

若任一所述目标区域中均不包含文本，则确定所述待检测场景中不包含文本；

若至少一个所述目标区域中包含文本，则确定所述待检测场景中包含文本。

9.根据权利要求1所述的文本检测方法，其特征在于，所述基于所述多帧原始图像的图像信息，将所述多帧原始图像融合为一帧待检测图像包括：

基于所述多帧原始图像各个像素点的图像信息，获取所述多帧原始图像的融合权重；

基于所述融合权重，对所述多帧原始图像进行融合，得到所述待检测图像。

10.根据权利要求9所述的文本检测方法，其特征在于，所述基于所述多帧原始图像各个像素点的图像信息，获取所述多帧原始图像的融合权重包括：

基于所述多帧原始图像各个像素点的图像信息，获取所述多帧原始图像各个像素点的对比度、饱和度、曝光度；

基于所述对比度、所述饱和度、所述曝光度，确定多组融合权重，其中，每组所述融合权重包含对应一分辨率的多个子权重，所述多个子权重分别对应于所述多帧原始图像；

所述基于所述融合权重，对所述多帧原始图像进行融合，得到所述待检测图像包括：

获取多组分层图像，其中，每组所述分层图像包含对应一分辨率的多个子图像，所述多个子图像分别对应于所述多帧原始图像；

利用对应同一分辨率的多个子权重分别对每组所述分层图像中的多个子图像进行加权处理，得到与所述同一分辨率对应的融合子图像；

将分别对所述多组分层图像进行所述加权处理得到的多个所述融合子图像进行图像重构，得到所述待检测图像。

11.根据权利要求10所述的文本检测方法，其特征在于，所述基于所述多帧原始图像各个像素点的图像信息，获取所述多帧原始图像各个像素点的对比度包括：

获取每个所述像素点的灰度值；

利用每个所述像素点的灰度值计算每个所述像素点的梯度值，作为所述像素点的对比度；

和/或，

所述基于所述多帧原始图像各个像素点的图像信息，获取所述多帧原始图像各个像素点的饱和度包括：

获取每个所述像素点各个颜色通道的像素值的均值；

将每个所述像素点各个颜色通道的像素值与所述均值之差的均方根作为对应像素点的饱和度；

和/或，

所述基于所述多帧原始图像各个像素点的图像信息，获取所述多帧原始图像各个像素点的曝光度包括：

基于每个所述像素点各个颜色通道的像素值的均值，计算与所述原始图像对应的方差；

利用所述方差对每个像素点各个颜色通道的像素值进行处理，获取对应像素点各个颜色通道的曝光度；

将所述像素点各个颜色通道的曝光度之积作为所述像素点的曝光度。

12.根据权利要求10所述的文本检测方法，其特征在于，所述获取多组分层图像包括：

利用预设降采样策略分别对所述多帧原始图像进行采样，得到对应于不同分辨率的降采样图像；

将所述多帧原始图像作为一组对应于原始分辨率的分层图像，并将对应同一分辨率的降采样图像作为一组所述分层图像。

13.一种文本检测装置，其特征在于，包括相互耦接的存储器和处理器；

所述处理器用于执行所述存储器存储的程序指令，以实现权利要求1至12任一项所述的文本检测方法。

14.根据权利要求13所述的文本检测装置，其特征在于，所述文本检测装置还包括摄像器件，用于基于不同的曝光参数拍摄得到多帧原始图像。

15.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至12任一项所述的文本检测方法。