CN113869306A

CN113869306A - 一种文本定位方法、装置及电子设备

Info

Publication number: CN113869306A
Application number: CN202010623533.0A
Authority: CN
Inventors: 韦涛; 张宏源
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-12-31
Anticipated expiration: 2040-06-30
Also published as: CN113869306B

Abstract

本发明公开了一种文本定位方法、装置及电子设备，该方法包括：对待检测图像进行区域划分，获得n个图像区域，n≥2；针对每个所述图像区域，通过文本行检测模型对所述图像区域进行文本识别，若识别出所述图像区域包含文本，对所述图像区域进行文本行上下边界的关键点回归检测，获得文本行上下边界的关键点坐标；基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。上述技术方案，通过将文本行检测转换为关键点的检测，简化了检测任务，提高了检测速度和精度。

Description

一种文本定位方法、装置及电子设备

技术领域

本发明涉及软件技术领域，特别涉及一种文本定位方法、装置及电子设备。

背景技术

扫描笔又名微型扫描仪或手刮式扫描笔，一般的扫描笔其大小只有“折扇”大小或更小，方便携带、便于移动办公。扫描笔主要是用于扫描办公文件、文字、身份证、名片或大型工程图等，更好的满足了现场扫描与现场执法的需求，广泛的应用于各个领域。

其中，文本行检测是扫描笔的一常用功能，要求检测速度快、检测精度高。现有的文本行检测方法中，基于深度学习的文本行检测精度高、支持复杂背景下的文本行检测，但速度较慢，不太适合运行在移动端。如何提高文本行检测的速度和精度成为了当前亟待解决的技术问题。

发明内容

本发明实施例提供一种文本定位方法、装置及电子设备，用于解决现有技术中文本行检测速度和精度较低的技术问题。

本发明实施例提供一种文本定位方法，所述方法包括：

对待检测图像进行区域划分，获得n个图像区域，n≥2；

针对每个所述图像区域，通过文本行检测模型对所述图像区域进行文本识别，若识别出所述图像区域包含文本，对所述图像区域进行文本行上下边界的关键点回归检测，获得文本行上下边界的关键点坐标；

基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。

可选的，所述文本行检测模型为轻量化卷积神经网络。

可选的，所述文本行检测模型的训练方法包括：

获得文本行扫描图像；

对所述文本行扫描图像进行区域划分和标记，获得表征每个图像区域是否包含文本的文本区域标识和表征包含文本的图像区域的文本行上下边界的关键点；

基于所述文本行扫描图像、所述文本区域标识及所述关键点获得训练样本；

基于多个所述训练样本对所述文本行检测模型进行模型训练。

可选的，所述基于多个所述训练样本对所述文本行检测模型进行模型训练，包括：

基于多个所述训练样本和角度损失函数对所述文本行检测模型进行模型训练，其中，所述角度损失函数用于约束所述关键点之间的位置关系。

可选的，所述基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像，包括：

根据n个所述图像区域的文本识别结果，获得所述待检测图像的最左侧文字区域和最右侧文字区域；

根据所述最左侧文字区域、所述最右侧文字区域以及预设长度的图像区域，获得所述文本行的左右边界；

基于所述文本行的左右边界和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。

本发明实施例还提供一种文本定位装置，所述装置包括：

区域划分单元，用于对待检测图像进行区域划分，获得n个图像区域，n≥2；

检测单元，用于针对每个所述图像区域，通过文本行检测模型对所述图像区域进行文本识别，若识别出所述图像区域包含文本，对所述图像区域进行文本行上下边界的关键点回归检测，获得文本行上下边界的关键点坐标；

提取单元，用于基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。

可选的，所述文本行检测模型为轻量化卷积神经网络。

可选的，所述装置还包括训练单元，用于：

获得文本行扫描图像；

可选的，所述训练单元还用于：

可选的，所述提取单元用于：

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本申请实施例提供一种文本定位方法，对待检测图像进行区域划分，获得n个图像区域；针对每个图像区域，通过文本行检测模型对图像区域进行文本识别，若识别出图像区域包含文本，对图像区域进行文本行上下边界的关键点回归检测，获得文本行上下边界的关键点坐标，即通过文字区域识别和关键点回归检测将文本行检测转换为关键点检测问题，简化了检测任务，检测过程简单、快速；由此基于n个图像区域的文字区域识别结果和文本行上下边界的关键点坐标，获得待检测图像中的文本图像。由于关键点检测任务相对简单，大大提高了文本行检测的速度，并且通过文本行上下边界的关键点回归检测，使得获得的关键点紧贴文本行，检测出的文本图像上下噪声较小，有效的提升了文本识别精度，解决了现有技术中文本行检测速度和精度较低的技术问题。

附图说明

图1为本申请实施例提供的一种文本定位方法的流程示意图；

图2为本申请实施例提供的一种文本定位装置的方框图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

在本申请实施例提供的技术方案中，提供一种文本定位方法，通过文本行上下边界的关键点回归检测，简化文本行检测任务、提高文本行检测精度，从而解决现有技术中文本行检测速度和精度较低的技术问题。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

本申请实施例提供一种文本定位方法，适用于文本行检测，尤其适用于扫描笔的文本行检测。请参考图1，该文本定位方法包括：

S11、对待检测图像进行区域划分，获得n个图像区域，n≥2；

S13、针对每个所述图像区域，通过文本行检测模型对所述图像区域进行文本识别，若识别出所述图像区域包含文本，对所述图像区域进行文本行上下边界的关键点回归检测，获得文本行上下边界的关键点坐标；

S15、基于n个所述图像区域的文字区域识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。

具体实施过程中，在S11之前或之后，可以对待检测图像进行预处理，包括图像归一化、标准化处理等。S11进行区域划分时，可以将待检测图像沿水平方向等分为若干份图片区域，记作{x0；x1；x2……xn}。其中，n可以取16、32等不同值，具体可以根据文本行检测模型最后的特征图的缩小倍数或实际情况设置。

在预处理和区域划分之后，执行S13将预处理和区域划分之后的图像输入文本行检测模型，通过文本行检测模型进行文字识别和关键点回归检测。其中，文字识别是指对当前图像区域是否包含文本进行分类。关键点回归检测是指对对文本行上下边界的位置进行回归检测，最后输出分类为文本的图像区域中文本行上下边界的关键点坐标，即文本行上边界的关键点坐标和文本行下边界的关键点坐标。关键点回归检测时，具体可以先进行上下边界位置的回归检测，然后获得图像区域的中间点对应的上下边界点为该图像区域的关键点，进而获取关键点坐标。

在S13之后进一步执行S15，基于n个图像区域的文本识别结果和文本行上下边界的关键点坐标，获得待检测图像中的文本图像。具体的，将n个图像区域中包含文本的图像区域的关键点坐标进行转换，如将所有文本上边界的关键点相连、将所有文本行下边界的关键点相连，即可得到文本行位置，再经过图像后处理获得待检测图像中的文本图像。由于通过关键点得到的文本行位置比较精确，可以用多种后处理方法得到最后的文本图像，如利用最小外接矩形得到包含文本行区域的矩形框，再根据文本行的区域，只保留文本行区域内的内容，其余位置涂白(降低噪声)，最后利用透视变换将其拉成水平框，即为最后的文本图像。

具体实施过程中，为了进一步提高文本行左右边界的准确性，S15还可以先根据n个图像区域的文本识别结果，获得待检测图像的最左侧文字区域和最右侧文字区域，例如，若图像区域划分是按从左至右水平划分的，那么左侧包含有文本的图像区域则为最左侧文字区域，最右侧包含有文本的图像区域为最右侧文字区域。进一步，根据最左侧文字区域、最右侧文字区域以及预设长度的图像区域，获得文本行的左右边界，如在最左侧文字区域的左边界外扩预设长度的图像区域获得文本行的左边界，右边界同理。最后，基于文本行的左右边界和文本行上下边界的关键点坐标，获得待检测图像中的文本图像。

本实施例提供对各个图像区域进行文本行关键点回归检测，大大简化了文本行检测的任务量，可大大降低对文本行检测模型的要求，为此本实施例的文本行检测模型可以采用深度学习算法来实现，如采用轻量化卷积神经网络作为文本行检测模型。轻量化卷积神经网络简单、速度快且精度高，且由于采用深度学习算法，支持在复杂背景下的文本行检测。具体的，轻量化卷积神经网络可以是基于Depthwise卷积获得的卷积神经网络，如ShuffleNet、EfficientNet等。

其中，文本行检测模型的训练方法，可以先获得文本行扫描图像，若是针对扫描笔的文本行检测，则获取扫描笔扫描获得的扫描图像。随后，对文本行扫描图像进行区域划分和标记，获得表征每个图像区域是否包含文本的文本区域标识和表征包含文本的图像区域的文本行上下边界的关键点。标记完成之后，基于文本行扫描图像、文本区域标识及关键点获得训练样本，即将文本行扫描图像或预处理后的文本行扫描图像作为输入数据，文本区域标识和关键点作为文本扫描图像的标注。最后，基于多个训练样本对文本行检测模型进行模型训练。需要说明的是，由于文本行检测模型检测任务的简化，减少了对训练样本数量的需求，简化了模型的负载，更适合移动端的使用。

基于采用深度学习算法的文本行检测模型，本实施例采用数据驱动的方式，进一步提高对复杂背景的文本行检测、多行文本检测的准确性。具体的，针对复杂背景下的文本行检测，可以获取多种背景的文本行扫描图像作为训练样本，通过多背景样本训练，使得模型学习并复杂背景下文本行的位置。针对多行文本行检测问题，在标记时可以由人工进行中心文本标记，通过多行文本行样本训练，模型可自行学习到用户意图所在的中心行，解决多行文本检测问题。

针对文本行检测噪声问题，本实施一方面通过文本行上下边界的关键点检测，检测出的关键点紧贴文本行，使得检测出的文本图像上下噪声较小，有效的提升了文本行检测的精度。另一方面，本实施例还在文本行检测模型训练时，基于多个训练样本和角度损失函数对文本行检测模型进行模型训练，其中，角度损失函数用于约束关键点之间的位置关系。具体的，角度损失函数可以参考如下公式：

lossangle＝smoothL1Loss(arctan(y)/(pi/2)),tanh(y’))

其中y为相邻的关键点之间的斜率，arctan(y)/(pi/2)是将y归一化到区间(-1，1)，tanh(y’)为检测模型预测的归一化角度，tanh为卷积神经网络的激活函数。在文本行检测模型的训练过程中，增加角度约束建模关键点之间的位置关系，使得关键点的位置更贴合文本位置，从而降低多余噪声。

基于上述实施例提供的文本定位方法，第一方面，针对无法同时保证精度和速度的问题，提出了基于关键点的文本行检测算法，简化了任务，并采用轻量网络设计，保证了精度高的同时有极快的速度。第二方面，本实施例基于深度学习的检测算法，支持复杂背景的文本行检测，且基于轻量化卷积神经网络进行文本行检测，支持在各场景下的检测，尤其是移动端的文本行检测，鲁棒性高。第三方面，针对多行场景如何定位用户意图的问题，采用数据驱动，利用人工标签，准确的选择较为靠近中心的文本行，使得检测出的文本行结果与用户意图基本保持一致。第四方面，针对传统方法检测出的文本框倾斜且包含过多上下噪声问题，通过关键点检查方法和关键点之间角度约束，使得该方法能预测较为准确的文本边界位置，提取出几乎不包含上下噪声的文本图像。

针对上述实施例提供一种文本定位方法，本申请实施例还对应提供一种文本定位装置，请参考图2，该装置包括：

区域划分单元21，用于对待检测图像进行区域划分，获得n个图像区域，n≥2；

检测单元22，用于针对每个所述图像区域，通过文本行检测模型对所述图像区域进行文本识别，若识别出所述图像区域包含文本，对所述图像区域进行文本行上下边界的关键点回归检测，获得文本行上下边界的关键点坐标；

提取单元23，用于基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。

其中，所述文本行检测模型可以为轻量化卷积神经网络。

作为一种可选的实施方式，所述装置还包括训练单元24，用于：

获得文本行扫描图像；对所述文本行扫描图像进行区域划分和标记，获得表征每个图像区域是否包含文本的文本区域标识和表征包含文本的图像区域的文本行上下边界的关键点；基于所述文本行扫描图像、所述文本区域标识及所述关键点获得训练样本；基于多个所述训练样本对所述文本行检测模型进行模型训练。

作为一种可选的实施方式，所述训练单元24还用于：基于多个所述训练样本和角度损失函数对所述文本行检测模型进行模型训练，其中，所述角度损失函数用于约束所述关键点之间的位置关系。

作为一种可选的实施方式，所述提取单元23用于：根据n个所述图像区域的文本识别结果，获得所述待检测图像的最左侧文字区域和最右侧文字区域；根据所述最左侧文字区域、所述最右侧文字区域以及预设长度的图像区域，获得所述文本行的左右边界；基于所述文本行的左右边界和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种用于实现文本定位方法的电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/展现(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为展现和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于展现音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种文本定位方法，所述方法包括：

对待检测图像进行区域划分，获得n个图像区域，n≥2；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本定位方法，其特征在于，所述方法包括：

对待检测图像进行区域划分，获得n个图像区域，n≥2；

2.如权利要求1所述的方法，其特征在于，所述文本行检测模型为轻量化卷积神经网络。

3.如权利要求1所述的方法，其特征在于，所述文本行检测模型的训练方法包括：

获得文本行扫描图像；

4.如权利要求3所述的方法，其特征在于，所述基于多个所述训练样本对所述文本行检测模型进行模型训练，包括：

5.如权利要求1～4任一所述的方法，其特征在于，所述基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标，获得所述待检测图像中的文本图像，包括：

6.一种文本定位装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述文本行检测模型为轻量化卷积神经网络。

8.如权利要求6所述的装置，其特征在于，所述装置还包括训练单元，用于：

获得文本行扫描图像；

9.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1～5任一所述的方法对应的操作指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5任一所述的方法对应的步骤。