CN114492733A

CN114492733A - 一种文本检测方法、装置、设备及存储介质

Info

Publication number: CN114492733A
Application number: CN202111647444.0A
Authority: CN
Inventors: 乔美娜; 刘珊珊; 吴亮; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-13

Abstract

本公开提供了一种文本检测方法、装置、设备及存储介质，涉及计算机技术领域，尤其涉及光学字符识别(OCR，Optical Character Recognition)领域。具体实现方案为：获取待检测图像；对所述待检测图像进行特征提取，得到第一特征图；根据所述待检测图像和所述第一特征图得到主体检测结果；对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。本公开通过主体检测与文字检测相结合的检测方法，可以提高文本中心行的检测精度。

Description

一种文本检测方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及光学字符识别(OCR，Optical CharacterRecognition)领域的一种文本检测方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，面向移动端的OCR产品也逐渐增多，这些产品在使用过程中大多需要对文本中心行进行识别。现有的文本中心行检测方法，主要基于文字行检测的方法，以图片为输入，通过OCR文字检测方法，先输出每一行文字的坐标结果，然后通过计算每一行文字与中心区域的距离或交并比(IOU，Intersection over Union)，找到距离中心区域最近的或与中心区域IOU最大的文本行，以该文本行作为最终的文本中心行。

发明内容

本公开提供了一种检测精度更高的文本检测方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本检测方法，包括：获取待检测图像；对所述待检测图像进行特征提取，得到第一特征图；根据所述待检测图像和所述第一特征图得到主体检测结果；对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。

根据本公开的另一方面，提供了一种文本检测装置，包括：获取模块，用于获取待检测图像；特征提取模块，用于对所述待检测图像进行特征提取，得到第一特征图；主体检测模块，用于根据所述待检测图像和所述第一特征图得到主体检测结果；文字检测模块，用于对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；中心行确定模块，用于根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开所述的方法。

本公开提供的一种文本检测方法、装置、设备以及存储介质，能够提高文本中心行检测的精度，提升用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的一种文本检测方法的流程示意图；

图2是根据本公开第一实施例的操作示意图；

图3是根据本公开第二实施例的一种文本检测方法的流程示意图；

图4是根据本公开第二实施例的操作示意图；

图5是根据本公开第三实施例的一种文本检测方法的流程示意图；

图6是根据本公开第三实施例的操作示意图；

图7是根据本公开第四实施例的一种文本检测方法的流程示意图；

图8是根据本公开第五实施例的一种文本检测方法的流程示意图；

图9是根据本公开第六实施例的一种文本检测方法的流程示意图；

图10是根据本公开第六实施例的操作示意图；

图11是根据本公开第七实施例的一种文本检测装置的结构示意图；

图12是根据本公开第八实施例的一种文本检测装置的结构示意图；

图13是根据本公开第九实施例的一种文本检测装置的结构示意图；

图14是根据本公开第十实施例的一种文本检测装置的结构示意图；

图15是根据本公开第十一实施例的一种文本检测装置的结构示意图；

图16是根据本公开第十二实施例的一种文本检测装置的结构示意图；

图17是用来实现本公开实施例的一种文本检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本公开第一实施例的一种文本检测方法的流程示意图，如图1所示，该方法主要包括：

步骤S101，获取待检测图像。

在本实施例中，首先需要获取待检测图像。在一可实施方式中，可以通过摄像设备拍摄或光学扫描等方法获取待检测图像，待检测图像的格式可为JPEG(JointPhotographic Experts Group，联合图像专家组)、BMP(Bitmap，位图)、GIF(GraphicsInterchange Format，图片交换格式)、PNG(Portable Network Graphics，便携式网络图形)等，本公开不对获取待检测图像的方法和待检测图像的格式进行限制。

步骤S102，对待检测图像进行特征提取，得到第一特征图。

在本实施例中，需要对待检测图像进行特征提取，得到待检测图像的特征图，即第一特征图，以便后续利用第一特征图进行主体检测和文字检测。具体地，由于计算机无法识别待检测图像，因此首先需要从待检测图像中提取出计算机可以识别的数据或信息，例如数值、向量或符号等，用这些数据或信息来描述待检测图像的特征。

在一可实施方式中，可以卷积神经网络(Convolutional Neural Network，CNN)为主要模型对待检测图像进行特征提取，首先利用CNN中的卷积核对待检测图像进行卷积，提取出待检测图像的特征，包括待检测图像的颜色特征、纹理特征、形状特征或空间关系特征等，然后对卷积后得到的特征图进行池化(Pooling，也称下采样)，池化主要用于特征降维，压缩数据和参数的数量，对特征图进行池化可以减小过拟合，同时提高模型的容错性，池化的方法主要有最大池化(Max Pooling)或平均池化(Average Pooling)等，最后通过输出层输出经过若干次卷积和池化的特征图，即第一特征图。

在一可实施方式中，还可以使用其他模型对待检测图像进行特征提取，例如循环神经网络(Recurrent Neural Network,RNN)或长短期记忆网络(LSTM，Long Short-TermMemory)等，本公开不对特征提取模型进行限制。

步骤S103，根据待检测图像和第一特征图得到主体检测结果。

在本实施例中，需要确定待检测图像的中心区域，然后根据第一特征图及其与待检测图像的映射关系，对待检测图像的中心区域进行主体检测，在一可实施方式中，主体检测结果可以用于表征待检测图像中心区域是否包含文字。

步骤S104，对第一特征图进行OCR处理，得到文字检测结果，文字检测结果包括待检测图像中每一文本行的坐标。

在本实施例中，需要对第一特征图进行OCR处理，得到待检测图像中每一文本行的坐标。

在一可实施方式中，可以利用EAST(Efficient and Accuracy Scene Text，精确高效的场景文本检测)算法对第一特征图进行OCR处理，第一特征图经过EAST算法的输出层后，可输出待检测图像中每一文本行的检测框的置信度、坐标、旋转角度等信息。

在一可实施方式中，还可以使用CTPN(Connectionist Text Proposal Network，文字检测网络)算法、SegLink算法或PixelLink算法等对第一特征图进行OCR处理，本公开不对OCR处理算法进行限制。

图2是本公开第一实施例的操作示意图，如图2所示，待检测图像为图OCGD，其中，O、C、G、D分别代表待检测图像的四个顶点，对其进行特征提取和OCR处理后，就可以得到待检测图像中每个文本行对应的检测框及其坐标等信息，以待检测图像的左上顶点O为原点，每一文本行的坐标可以表示为L＝<X,Y,width,height>，其中，X表示该文本行对应的检测框左上顶点的横坐标，Y表示该文本行对应的检测框左上顶点的纵坐标，width表示该文本行对应的检测框的宽度，height表示该文本行对应的检测框的高度。

步骤S105，根据主体检测结果和文字检测结果，确定待检测图像的文本中心行坐标。

在本实施例中，在得到主体检测结果和文字检测结果后，可以根据上述结果进行中心行决议，确定待检测图像的文本中心行坐标。

在一可实施方式中，若主体检测结果表征待检测图像中心区域包含文字，则在文字检测结果中选取文字对应的文本行坐标，并根据文本行坐标与待检测图像中心区域的坐标，选取待检测图像的文本中心行坐标；若主体检测结果表征待检测图像中心区域不包含文字，则将距离待检测图像中心区域最近的文本行坐标作为待检测图像的文本中心行坐标。

在本公开第一实施例中，首先对待检测图像进行特征提取，得到第一特征图，然后根据第一特征图对待检测图像进行主体检测和文字检测，最后根据主体检测结果和文字检测结果确定待检测图像的文本行坐标，本实施例通过主体检测和文字检测的结合，可以提高文本中心行的检测精度，同时，对待检测图像进行特征提取时可以选用轻量的卷积结构，提高系统的响应速度，提升用户体验。

图3是本公开第二实施例的一种文本检测方法的流程示意图，如图3所示，步骤S103主要包括：

步骤S201，根据待检测图像，得到待检测图像的中心区域的坐标。

在本实施例中，首先需要得到待检测图像的中心区域的坐标。

在一可实施方式中，若待检测图像的宽度和高度分别为w和h，以待检测图像的左上顶点为原点，则中心区域的坐标可表示为R1＝<left,top,width,height>＝<0,h/3,w,h/3>，其中，left、top、width和height分别表示中心区域左上顶点的横坐标、中心区域左上顶点的纵坐标、中心区域的宽度和中心区域的高度。需要强调的是，中心区域的选取可根据实际情况按照不同比例的确定，例如，中心区域的坐标也可表示为R1＝<left,top,width,height>＝<0,2h/5,w,h/5>，或者其他取值，本公开对其不做限定。

图4是本公开第二实施例的操作示意图，如图4所示，待检测图像为图OCGD，其宽度OD为w，高度OC为h，若以待检测图像的左上顶点O为原点构建坐标系，则中心区域ABFE的坐标可以表示为R1＝<X,Y,AE,AB>＝<0,h/3,w,h/3>，其中，X和Y分别表示中心区域左上顶点A的横坐标和纵坐标，AE表示中心区域的宽度，AB表示中心区域的高度。

步骤S202，根据第一特征图与中心区域的坐标，得到第二特征图，第二特征图为中心区域的特征图。

在本实施例中，在得到中心区域的坐标之后，需要根据第一特征图与中心区域的坐标，截取得到中心区域的特征图，即第二特征图。

在一可实施方式中，可根据第一特征图与待检测图像的坐标映射关系，截取得到中心区域的特征图，若待检测图像中心区域的坐标为R1＝<left,top,width,height>＝<0,h/3,w,h/3>，且第一特征图为经过三次卷积和池化得到的特征图，那么第一特征图上对应的中心区域的坐标可以表示为R2＝<left,top,width,height>＝<0,h/24,w/8,h/24>，从第一特征图中截取相应的区域，即可得到中心区域的特征图。

步骤S203，对第二特征图进行上采样操作，得到主体检测结果。

在本实施例中，在得到第二特征图后，需要对第二特征图进行上采样操作，得到主体检测结果。

在一可实施方式中，可以采用双线性插值、转置卷积、上采样(Unsampling)或上池化(Unpooling)等方法对第二特征图进行上采样操作，此处对第二特征图进行上采样操作主要是为了使经过步骤S102卷积和池化(下采样)的第二特征图可以在分辨率更高的显示设备上显示。

在一可实施方式中，上采样的次数可以与池化(下采样)的次数相等，即若第一特征图经过三次池化(下采样)后得到的第二特征图的坐标R2＝<left,top,width,height>＝<0,h/24,w/8,h/24>，则经过三次上采样的第二特征图的坐标为R3＝<left,top,width,height>＝<0,h/3,w,h/3>。那么，主体检测结果可以为：一个由0和1组成的矩阵；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素为文字，则对应点在矩阵内的元素为1；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素不为文字，则对应点在矩阵内的元素为0。具体地，主体检测结果可以表示为：S_(i，j)＝{0,1}，其中，i为经过上采样操作后的第二特征图中任一点的横坐标，j为经过上采样操作后的第二特征图中任一点的纵坐标，以经过上采样操作后的第二特征图的左上顶点为原点，则i∈[0,w)，j∈[0,h/3)。若(i,j)映射到待检测图像的坐标对应的像素为文字，则对应的S_(i,j)＝1；若(i,j)映射到待检测图像的坐标对应的像素不为文字，则对应的S_(i,j)＝0。

在本公开第二实施例中，通过第一特征图与待检测图像中心区域的坐标的映射关系，在第一特征图中截取得到第二特征图，即中心区域的特征图，然后对第二特征图进行上采样操作，得到主体检测结果，主体检测结果用于表征待检测图像中心区域是否包含文字。本实施例中主体检测的实现可以确定待检测图像中心区域的文本情况，以便后续根据中心区域的文本情况确定待检测图像的文本中心行，提高文本中心行检测的准确性。

图5是本公开第三实施例的一种文本检测方法的流程示意图，如图5所示，步骤S105主要包括：

步骤S301，根据主体检测结果，得到中心区域是否包含文本行的第一判断结果。

在本实施例中，若待检测图像的中心区域包含文本行，则只需在中心区域内的文本行中选取待检测图像的文本中心行；若待检测图像的中心区域不包含文本行，则需要考虑在中心区域以外的文本行中选取待检测图像的文本中心行，因为在两种情况下，选取文本中心行的方式不同，因此首先需要判断待检测图像的中心区域中是否包含文本行。

在一可实施方式中，可以根据上述第二实施例中得到的主体检测结果对中心区域是否包含文本行进行判断。

步骤S302，第一判断结果为中心区域不包含文本行，则根据文字检测结果和中心区域的坐标，将距离中心区域最近的文本行坐标确定为待检测图像的文本中心行坐标。

在本实施例中，若中心区域不包含文本行，则以距离中心区域最近的文本行作为待检测图像的文本中心行。

在一可实施方式中，可以根据中心区域的坐标确定中心区域的中心线，然后根据文字检测结果中的每一文本行的坐标，计算待检测图像中每一文本行与中心线的距离，将距离中心线最近的文本行确定为待检测图像的文本中心行。

图6是本公开第三实施例的操作示意图，如图6所示，待检测图像为图OCGD，中心区域ABFE中不包含文本行，若文本行“Twinkle,twinkle,little star，”距离中心区域的中心线最近，则以该文本行的坐标作为待检测图像的文本中心行。

步骤S303，第一判断结果为中心区域包含文本行，则根据文字检测结果，得到文字检测结果是否包含文本行的坐标的第二判断结果。

在本实施例中，若中心区域包含文本行，则需要判断文字检测结果中是否包含中心区域内文本行的坐标，以便后续根据文本行的坐标和中心区域的坐标确定待检测图像的文本中心行。

步骤S304，根据第二判断结果，确定待检测图像的文本中心行坐标。

在本实施例中，第二判断结果表征文字检测结果中是否包含中心区域内的文本行的坐标，若文字检测结果中包含中心区域内的文本行的坐标，则根据文本行的坐标和中心区域的坐标确定待检测图像的文本中心行；若文字检测结果中不包含中心区域内的文本行的坐标，则证明在对第一特征图进行OCR处理时存在漏检，此时可以以中心区域的坐标作为待检测图像的文本中心行。

在本公开第三实施例中，首先根据主体检测结果判断中心区域是否包含文本行，若中心区域不包含文本行，则将距离所述中心区域最近的文本行坐标确定为所述待检测图像的文本中心行坐标；若中心区域包含文本行，则判断文字检测结果中是否包含该文本行的坐标，然后根据判断结果，确定待检测图像的文本中心行坐标。在本实施例中，将主体检测结果与文字检测结果进行结合，用于确定待检测图像的文本中心行坐标，为文本中心行的检测提供了双重保障，可大大提高中心行检测的精度，减少漏检，并且适用不同情况的待检测图像，具有较强的通用性。

图7是本公开第四实施例的一种文本检测方法的流程示意图，如图7所示，步骤S301主要包括：

步骤S401，根据中心区域的坐标，计算中心区域的面积。

在本实施例中，可以根据待检测图像中心区域的坐标，计算待检测图像中心区域的面积，例如，如图4所示，中心区域ABFE的坐标可以表示为R1＝<X,Y,AE,AB>＝<0,h/3,w,h/3>，则以中心区域的宽度AE和高度AB相乘，即可得到中心区域的面积为wh/3。

步骤S402，根据主体检测结果，计算中心区域中最大连通域的面积。

在本实施例中，可以根据第二实施例中得到的主体检测结果S_(i,j)＝{0,1}，计算中心区域中每个连通域的面积，然后选取出面积最大的连通域作为最大连通域。

在一可实施方式中，S_(i,j)＝{0,1}为一个由0和1组成的矩阵，若(i,j)映射到待检测图像的坐标对应的像素为文字，则对应的S_(i,j)＝1，在本实施例中，需要计算S_(i,j)＝1对应的连通区域的面积，具体地，可以利用四邻域连通区域计算法或种子填充法来获取连通区域，再使用OpenCV中的函数connectedComponentsWithStats来计算连通区域的面积，之后选取出最大连通域。

步骤S403，最大连通域的面积与中心区域的面积的比值大于第一阈值，则中心区域包含文本行。

步骤S404，最大连通域的面积与中心区域的面积的比值不大于第一阈值，则中心区域不包含文本行。

在本实施例中，计算出中心区域的面积和最大连通域的面积后，可以根据中心区域的面积和最大连通域的面积，判断待检测图像的中心区域是否包含文本行。

在一可实施方式中，第一阈值可以为0.5，即若最大连通域的面积与中心区域的面积的比值大于0.5，则中心区域包含文本行；若最大连通域的面积与中心区域的面积的比值不大于0.5，则中心区域不包含文本行。具体地，第一阈值的取值可以根据实际情况确定，本公开不对其取值大小进行限制。

图8是本公开第五实施例的一种文本检测方法的流程示意图，如图8所示，步骤S303主要包括：

步骤S501，根据文字检测结果和中心区域的坐标，计算待检测图像中每一文本行与中心区域的交并比，并选取最大交并比。

在本实施例中，在第一判断结果为中心区域包含文本行的情况下，需要判断文字检测结果中是否包含中心区域内文本行的坐标。

在一可实施方式中，首先需要根据文字检测结果和中心区域的坐标，计算出待检测图像中每一文本行与中心区域的交并比，交并比表征每一文本行对应的检测框区域与中心区域的重叠程度。具体地，可以使用公式

来计算待检测图像中每一文本行与中心区域的交并比，其中，A∩B表征该文本行对应的检测框区域与中心区域的重合面积，A∪B表征该文本行对应的检测框区域与中心区域的相并面积。在本实施例中，计算出待检测图像中每一文本行与中心区域的交并比之后，还需选取出最大交并比。

步骤S502，最大交并比大于第二阈值，则文字检测结果包含文本行的坐标。

步骤S503，最大交并比不大于第二阈值，则文字检测结果不包含文本行的坐标。

在本实施例中，计算出最大交并比后，可以根据最大交并比判断文字检测结果是否包含文本行的坐标。

在一可实施方式中，可设置第二阈值为0.5，若最大交并比大于0.5，则文字检测结果包含文本行的坐标；若最大交并比不大于0.5，则文字检测结果不包含文本行的坐标。具体地，若在第一判断结果为中心区域包含文本行的情况下，待检测图像中每一文本行与中心区域的交并比的最大值却小于第二阈值0.5，则可以证明文字检测结果中不包含中心区域内文本行的坐标。具体地，第二阈值的取值可以根据实际情况确定，第一阈值的取值与第二阈值的取值可以相同也可以不同，本公开不对其取值大小进行限制。

在本公开第四和第五实施例中，根据文字检测结果判断待检测图像的中心区域是否包含文本行，根据文字检测结果和中心区域的坐标判断文字检测结果中是否包含上述文本行的坐标，以便后续根据不同的判断结果采用不同的文本中心行检测方法，以提高文本中心行的检测效率和精度。

图9是本公开第六实施例的一种文本检测方法的流程示意图，如图9所示，步骤S304主要包括：

步骤S601，第二判断结果为文字检测结果包含文本行的坐标，则将与最大交并比对应的文本行坐标作为待检测图像的文本中心行坐标。

在本实施例中，可以根据第二判断结果来确定待检测图像的文本中心行坐标。

在一可实施方式中，若第二判断结果为文字检测结果包含文本行的坐标，则将与最大交并比对应的文本行坐标作为待检测图像的文本中心行坐标。

图10是本公开第六实施例的操作示意图，如图10所示，待检测图像为图OCGD，其中心区域ABFE中包含“How I wonder what you are.”和“Up above the world so high，”这两个文本行，且文字检测结果中也包含这两个文本行对应的检测框的坐标，若“How Iwonder what you are.”这个文本行对应的检测框区域与中心区域的交并比为最大交并比，则将这个文本行的坐标作为待检测图像的文本中心行坐标。

在另一可实施方式中，若待检测图像的中心区域的包含多个文本行，文字检测结果中也包含多个文本行对应的检测框的坐标，且最大交并比不唯一，则根据中心区域的坐标确定中心区域的中心线，计算中心区域内的多个文本行与中心线的距离，将距离中心线最近的文本行确定为待检测图像的文本中心行。

如图10所示，待检测图像为图OCGD，其中心区域ABFE中包含“How I wonder whatyou are.”和“Up above the world so high，”这两个文本行，且文字检测结果中也包含这两个文本行对应的检测框的坐标，若“How I wonder what you are.”和“Up above theworld so high，”这两个文本行对应的检测框区域与中心区域的交并比相同，则将距离中心线最近的文本行确定为待检测图像的文本中心行。

步骤S602，第二判断结果为文字检测结果不包含文本行的坐标，则将中心区域的坐标确定为待检测图像的文本中心行坐标。

在一可实施方式中，若第二判断结果为文字检测结果不包含文本行的坐标，则证明在对第一特征图进行OCR处理时存在漏检，此时可以强制中心行，即以中心区域的坐标作为待检测图像的文本中心行。

在本公开第六实施例中，若文字检测结果中包含文本行的坐标，则将与最大交并比对应的文本行坐标作为待检测图像的文本中心行坐标；若文字检测结果中不包含文本行的坐标，则将中心区域的坐标确定为待检测图像的文本中心行坐标，对于中心区域文本行的不同情况，采用不同的文本中心行确定方法，可以进一步提高文本中心行检测的准确性。

图11为本公开第七实施例的一种文本检测装置的结构示意图，如图11所示，该装置主要包括：

获取模块10，用于获取待检测图像；特征提取模块20，用于对待检测图像进行特征提取，得到第一特征图；主体检测模块30，用于根据待检测图像和第一特征图得到主体检测结果；文字检测模块40，用于对第一特征图进行光学字符识别OCR处理，得到文字检测结果，文字检测结果包括待检测图像中每一文本行的坐标；中心行确定模块50，用于根据主体检测结果和文字检测结果，确定待检测图像的文本中心行坐标。

图12为本公开第八实施例的一种文本检测装置的结构示意图，如图12所示，主体检测模块30主要包括：

中心区域坐标确定子模块301，用于根据待检测图像，得到待检测图像的中心区域的坐标；第二特征图提取子模块302，用于根据第一特征图与中心区域的坐标，得到第二特征图，第二特征图为中心区域的特征图；上采样子模块303，用于对第二特征图进行上采样操作，得到主体检测结果。其中，所述主体检测结果为一个由0和1组成的矩阵；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素为文字，则对应点在所述矩阵内的元素为1；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素不为文字，则对应点在所述矩阵内的元素为0。

图13为本公开第九实施例的一种文本检测装置的结构示意图，如图13所示，中心行确定模块50主要包括：

第一判断子模块501，用于根据主体检测结果，得到中心区域是否包含文本行的第一判断结果；第一文本中心行确定子模块502，用于第一判断结果为所述中心区域不包含文本行，则根据文字检测结果和中心区域的坐标，将距离中心区域最近的文本行坐标确定为待检测图像的文本中心行坐标；第二判断子模块503，用于第一判断结果为中心区域包含文本行，则根据文字检测结果，得到文字检测结果是否包含文本行的坐标的第二判断结果；第二文本中心行确定子模块504，用于根据第二判断结果，确定待检测图像的文本中心行坐标。

图14为本公开第十实施例的一种文本检测装置的结构示意图，如图14所示，第一判断子模块501主要包括：

中心区域面积确定单元5011，用于根据中心区域的坐标，计算中心区域的面积；最大连通域确定单元5012，用于根据主体检测结果，计算中心区域中最大连通域的面积；第一判断结果单元5013，用于最大连通域的面积与中心区域的面积的比值大于第一阈值，则中心区域包含文本行；第二判断结果单元5014，用于最大连通域的面积与中心区域的面积的比值不大于第一阈值，则所述中心区域不包含文本行。

图15为本公开第十一实施例的一种文本检测装置的结构示意图，如图15所示，第二判断子模块503主要包括：

最大交并比确定单元5031，用于根据文字检测结果和中心区域的坐标，计算待检测图像中每一文本行与中心区域的交并比，并选取最大交并比；第三判断结果单元5032，用于最大交并比大于第二阈值，则文字检测结果包含文本行的坐标；第四判断结果单元5033，用于最大交并比不大于第二阈值，则文字检测结果不包含文本行的坐标。

图16为本公开第十二实施例的一种文本检测装置的结构示意图，如图16所示，第二文本中心行确定子模块504主要包括：

第三文本中心行确定单元5041，用于第二判断结果为文字检测结果包含文本行的坐标信息，则将与最大交并比对应的文本行坐标作为待检测图像的文本中心行坐标；第四文本中心行确定单元5042，用于第二判断结果为文字检测结果不包含文本行的坐标信息，则将中心区域的坐标确定为待检测图像的文本中心行坐标。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图17示出了可以用来实施本公开的实施例的示例电子设备1700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图17所示，设备1700包括计算单元1701，其可以根据存储在只读存储器(ROM)1702中的计算机程序或者从存储单元1708加载到随机访问存储器(RAM)1703中的计算机程序，来执行各种适当的动作和处理。在RAM 1703中，还可存储设备1700操作所需的各种程序和数据。计算单元1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。

设备1700中的多个部件连接至I/O接口1705，包括：输入单元1706，例如键盘、鼠标等；输出单元1707，例如各种类型的显示器、扬声器等；存储单元1708，例如磁盘、光盘等；以及通信单元1709，例如网卡、调制解调器、无线通信收发机等。通信单元1709允许设备1700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1701执行上文所描述的各个方法和处理，例如一种文本检测方法。例如，在一些实施例中，一种文本检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1702和/或通信单元1709而被载入和/或安装到设备1700上。当计算机程序加载到RAM 1703并由计算单元1701执行时，可以执行上文描述的一种文本检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种文本检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本检测方法，包括：

获取待检测图像；

对所述待检测图像进行特征提取，得到第一特征图；

根据所述待检测图像和所述第一特征图得到主体检测结果；

对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；

根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。

2.根据权利要求1所述的方法，其中，所述根据待检测图像和所述第一特征图得到主体检测结果，包括：

根据所述待检测图像，得到所述待检测图像的中心区域的坐标；

根据所述第一特征图与所述中心区域的坐标，得到第二特征图，所述第二特征图为所述中心区域的特征图；

对所述第二特征图进行上采样操作，得到所述主体检测结果。

3.根据权利要求2所述的方法，其中，所述主体检测结果为一个由0和1组成的矩阵；

若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素为文字，则对应点在所述矩阵内的元素为1；

若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素不为文字，则对应点在所述矩阵内的元素为0。

4.根据权利要求2所述的方法，其中，所述根据主体检测结果和文字检测结果，得到所述待检测图像的文本中心行坐标，包括：

根据所述主体检测结果，得到所述中心区域是否包含文本行的第一判断结果；

所述第一判断结果为所述中心区域不包含文本行，则根据所述文字检测结果和所述中心区域的坐标，将距离所述中心区域最近的文本行坐标确定为所述待检测图像的文本中心行坐标；

所述第一判断结果为所述中心区域包含文本行，则根据所述文字检测结果，得到所述文字检测结果是否包含所述文本行的坐标的第二判断结果；

根据所述第二判断结果，确定所述待检测图像的文本中心行坐标。

5.根据权利要求4所述的方法，其中，所述根据主体检测结果，得到所述中心区域是否包含文本行的第一判断结果，包括：

根据所述中心区域的坐标，计算所述中心区域的面积；

根据所述主体检测结果，计算所述中心区域中最大连通域的面积；

所述最大连通域的面积与所述中心区域的面积的比值大于第一阈值，则所述中心区域包含文本行；

所述最大连通域的面积与所述中心区域的面积的比值不大于第一阈值，则所述中心区域不包含文本行。

6.根据权利要求4所述的方法，其中，根据所述文字检测结果，得到所述文字检测结果是否包含所述文本行的坐标的第二判断结果，包括：

根据所述文字检测结果和所述中心区域的坐标，计算所述待检测图像中每一文本行与所述中心区域的交并比，并选取最大交并比；

所述最大交并比大于第二阈值，则所述文字检测结果包含所述文本行的坐标；

所述最大交并比不大于第二阈值，则所述文字检测结果不包含所述文本行的坐标。

7.根据权利要求6所述的方法，其中，所述根据第二判断结果，确定所述待检测图像的文本中心行坐标，包括：

所述第二判断结果为所述文字检测结果包含所述文本行的坐标，则将与所述最大交并比对应的文本行坐标作为所述待检测图像的文本中心行坐标；

所述第二判断结果为所述文字检测结果不包含所述文本行的坐标，则将所述中心区域的坐标确定为所述待检测图像的文本中心行坐标。

8.一种文本检测装置，包括：

获取模块，用于获取待检测图像；

特征提取模块，用于对所述待检测图像进行特征提取，得到第一特征图；

主体检测模块，用于根据所述待检测图像和所述第一特征图得到主体检测结果；

文字检测模块，用于对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；

中心行确定模块，用于根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。

9.根据权利要求8所述的装置，其中，所述主体检测模块包括：

中心区域坐标确定子模块，用于根据所述待检测图像，得到所述待检测图像的中心区域的坐标；

第二特征图提取子模块，用于根据所述第一特征图与所述中心区域的坐标，得到第二特征图，所述第二特征图为所述中心区域的特征图；

上采样子模块，用于对所述第二特征图进行上采样操作，得到所述主体检测结果。

10.根据权利要求9所述的装置，其中，所述主体检测结果为一个由0和1组成的矩阵；

11.根据权利要求9所述的装置，其中，所述中心行确定模块包括：

第一判断子模块，用于根据所述主体检测结果，得到所述中心区域是否包含文本行的第一判断结果；

第一文本中心行确定子模块，用于所述第一判断结果为所述中心区域不包含文本行，则根据所述文字检测结果和所述中心区域的坐标，将距离所述中心区域最近的文本行坐标确定为所述待检测图像的文本中心行坐标；

第二判断子模块，用于所述第一判断结果为所述中心区域包含文本行，则根据所述文字检测结果，得到所述文字检测结果是否包含所述文本行的坐标的第二判断结果；

第二文本中心行确定子模块，用于根据所述第二判断结果，确定所述待检测图像的文本中心行坐标。

12.根据权利要求11所述的装置，其中，所述第一判断子模块包括：

中心区域面积确定单元，用于根据所述中心区域的坐标，计算所述中心区域的面积；

最大连通域确定单元，用于根据所述主体检测结果，计算所述中心区域中最大连通域的面积；

第一判断结果单元，用于所述最大连通域的面积与所述中心区域的面积的比值大于第一阈值，则所述中心区域包含文本行；

第二判断结果单元，用于所述最大连通域的面积与所述中心区域的面积的比值不大于第一阈值，则所述中心区域不包含文本行。

13.根据权利要求11所述的装置，其中，所述第二判断子模块包括：

最大交并比确定单元，用于根据所述文字检测结果和所述中心区域的坐标，计算所述待检测图像中每一文本行与所述中心区域的交并比，并选取最大交并比；

第三判断结果单元，用于所述最大交并比大于第二阈值，则所述文字检测结果包含所述文本行的坐标；

第四判断结果单元，用于所述最大交并比不大于第二阈值，则所述文字检测结果不包含所述文本行的坐标。

14.根据权利要求13所述的装置，其中，所述第二文本中心行确定子模块包括：

第三文本中心行确定单元，用于所述第二判断结果为所述文字检测结果包含所述文本行的坐标，则将与所述最大交并比对应的文本行坐标作为所述待检测图像的文本中心行坐标；

第四文本中心行确定单元，用于所述第二判断结果为所述文字检测结果不包含所述文本行的坐标，则将所述中心区域的坐标确定为所述待检测图像的文本中心行坐标。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1－7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1－7中任一项所述的方法。