CN115004261A

CN115004261A - 文本行检测

Info

Publication number: CN115004261A
Application number: CN202080093448.6A
Authority: CN
Inventors: 孙雷; 霍强; 马驰翔; 钟卓耀
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2022-09-02
Also published as: US20230036812A1; EP4091097A4; WO2021142765A1; EP4091097A1

Abstract

本公开的实现提供了用于文本行检测的解决方案。在该解决方案中，从图像中确定包括至少第一文本元素的第一部分的第一文本区域和包括至少第二文本元素的第二部分的第二文本区域。从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。第一特征表示和第二特征表示包括图像的图像特征表示或图像的语义特征表示中的至少一项。然后可以至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系。链接关系可以指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。以这种方式，通过检测文本区域并且基于其特征表示确定其链接关系，可以提高检测各种图像中的文本行的准确性和效率。

Description

文本行检测

背景技术

检测和识别图像中的文本行的技术正在广泛应用于诸如文本识别、文本翻译和图像标记等很多真实世界的应用中。图像中的文本行是指空间相关或语义相关的字符集和/或符号。例如，用户可以使用他/她的智能电话捕获带有文本的图像，并且可能期望图像中的文本行被识别。与捕获良好的文档图像(诸如，文档的扫描版本)中的文本行检测相比，捕获自然场景的图像中的文本行检测是更具挑战性的工作，因为图像中文本外观和周围背景两者的巨大多样性。例如，自然场景图像中的文本行可能处于任何定向，并且可能在字体、大小、颜色等方面发生巨大变化。因此，需要提高图像中文本行检测的准确性和效率。

发明内容

根据本文中描述的主题的实现，提供了一种用于文本行检测的解决方案。在该解决方案中，从图像中确定包括至少第一文本元素的第一部分的第一文本区域和包括至少第二文本元素的第二部分的第二文本区域。从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。第一特征表示和第二特征表示包括图像中包含的文本内容的图像特征表示或语义特征表示中的至少一项。然后可以至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系。链接关系可以指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。以这种方式，通过检测文本区域并且基于其特征表示来确定其链接关系，可以提高检测各种图像中文本行的准确性和效率。

提供本“发明内容”是为了以简化的形式介绍概念的选择，这些概念将在下面的详细描述中进一步描述。本“发明内容”并非旨在确定所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

图1示出了可以在其中实现本文中描述的主题的各种实现的计算设备的框图；

图2示出了根据本文中描述的主题的实现的用于文本行检测的过程的流程图；

图3示出了根据本文中描述的主题的实现的文本区域检测模块的示例结构；

图4示出了根据本文中描述的主题的实现的链接关系确定模块的示例结构；

图5示出了根据本文中描述的主题的实现的文本行区域确定的示例结构；以及

图6示出了根据本文中描述的主题的实现的用于提供文本行区域的过程的流程图。

在整个附图中，相同或相似的附图标记指代相同或相似的元素。

具体实施方式

现在将参考多个示例实现来讨论本文中描述的主题。应当理解，讨论这些实现仅仅是为了使得本领域的技术人员能够更好地理解并且因此实现本文中描述的主题，而不是暗示对主题范围的任何限制。

如本文中使用的，术语“包括”及其变型应当被理解为表示“包括但不限于”的开放术语。术语“基于”应当理解为“至少部分基于”。术语“一个实现”和“实现”应当理解为“至少一个实现”。术语“另一实现”应当理解为“至少一个其他实现”。术语“第一”、“第二”等可以指代不同或相同的对象。下面可以包括其他定义(无论是明确的还是隐含的)。

示例环境

文本行检测现在在很多基于内容的视觉智能应用中发挥着重要作用，诸如图像检索、自动驾驶、OCR翻译等。常规的文本行检测技术可以很好地应用于捕获良好的文档图像。然而，由于这些图像中文本外观和周围背景两者的巨大多样性，这些常规的文本行检测方法在自然场景的图像中表现不佳。良好的文本行检测解决方案应当能够从扫描的文档图像和自然场景图像两者中稳健地检测任何语言和任何定向的文本行。然而，由于文本外观和周围背景两者的巨大多样性，现有的文本检测方法(包括自上而下和自下而上的方法两者)都无法实现这一目标。在本文中描述的主题的实现中，提供了用于通用文本行检测的解决方案。

图1示出了可以在其中实现本文中描述的主题的各种实现的计算设备100的框图。应当理解，图1所示的计算设备100仅出于说明的目的，而不暗示以任何方式对本文中描述的主题的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150和一个或多个输出设备160。

在一些实现中，计算设备100可以实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供方提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端，包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合，包括这些设备的附件和外围设备、或其任何组合。可以设想，计算设备100可以支持到用户的任何类型的接口(诸如，“可穿戴”电路系统等)。

处理单元110可以是物理或虚拟处理器，并且可以基于存储在存储器120中的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令以提高计算设备100的并行处理能力。处理单元110也可以称为中央处理单元(CPU)、微处理器、控制器或微控制器。

计算设备100通常包括各种计算机存储介质。这样的介质可以是计算设备100可访问的任何介质，包括但不限于易失性和非易失性介质、或可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如，寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储设备130可以是任何可拆卸或不可拆卸介质，并且可以包括机器可读介质，诸如存储器、闪存驱动器、磁盘、或其他介质，该介质可以用于存储信息和/或数据并且可以在计算设备100中访问。

计算设备100还可以包括附加的可拆卸/不可拆卸的易失性/非易失性存储介质。尽管在图1中未示出，但可以提供一种用于读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器、和一种用于读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下，每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。

通信单元140经由通信介质与另一计算设备通信。此外，计算设备100中的组件的功能可以由单个计算集群或多个计算机器来实现，该多个计算机器可以经由通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、联网个人计算机(PC)或另外的通用网络节点的逻辑连接在联网环境中操作。

输入设备150可以是多种输入设备中的一种或多种设备，诸如鼠标、键盘、跟踪球、语音输入设备等。输出设备160可以是多种输出设备中的一种或多种设备，诸如显示器、扬声器、打印机等。如果需要，通过通信单元140，计算设备100可以进一步与一个或多个外部设备(未示出)(诸如，存储设备和显示设备)通信，与使用户能够与计算设备100交互的一个或多个设备通信，或者与使得计算设备100能够与一个或多个其他计算设备通信的任何设备(诸如，网卡、调制解调器等)通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，作为集成在单个设备中的备选方案，计算设备100的一些或所有组件也可以布置在云计算架构中。在云计算架构中，组件可以远程提供并且一起工作以实现本文中描述的主题中描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，这将不需要最终用户了解提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用合适的协议经由广域网(诸如，互联网)提供服务。例如，云计算提供方通过广域网提供应用，应用可以通过网络浏览器或任何其他计算组件访问。云计算架构的软件或组件以及对应数据可以存储在远程位置处的服务器上。云计算环境中的计算资源可以合并或分布在远程数据中心中的位置处。云计算基础设施可以通过共享数据中心提供服务，尽管它们充当用户的单一接入点。因此，云计算架构可以用于从远程位置处的服务提供方提供本文中描述的组件和功能。备选地，它们可以从常规服务器提供或者直接或以其他方式安装在客户端设备上。

计算设备100可以用于在本文中描述的主题的实现中实现文本行检测。因此，在下文中，计算设备100也被称为“文本行检测设备”。存储器120可以包括具有一个或多个程序指令的一个或多个文本行检测模块122。这些模块由处理单元110可访问和可执行以执行本文中描述的各种实现的功能。

为了实现文本行检测，计算设备100可以通过输入设备150来接收图像170。文本行检测模块122对图像170执行文本行检测，并且可以确定一个或多个文本行区域185。文本行检测模块122可以进一步确定图像170中文本行区域185的边界框的坐标。在一些实施例中，输出设备160可以输出包括检测到的文本行区域185中的每个区域的边界框坐标的文件。在一些实施例中，为了可视化的目的，文本行检测模块122可以进一步生成已更新的图像180，其中检测到的文本行区域185的边界框被突出显示以指示包括文本行区域185的文本元素位于同一文本行中。输出设备160可以向用户呈现例如将已更新的图像180。

如本文中使用的，“文本元素”是指用于呈现文本或图形信息的元素。“文本元素”的示例可以包括但不限于字符或符号，诸如英文字母、汉字、标点或图形标记等。在某些情况下，“文本元素”也可以称为“文本实例”。

如本文中使用的，“文本区域”是指图像的被检测为包括至少文本元素的至少一部分的区域。在某些情况下，“文本区域”也可以称为“文本基元(primitive)”。例如，文本区域可以包括文本元素的一半、完整文本元素、多个完整文本元素、或不同文本元素的多个部分。如本文中使用的，“文本行”是指根据它们的空间和/或语义关系在图像中形成行的文本元素集。如本文中使用的，“文本行区域”是指图像的区域，该区域界定被确定为位于同一文本行中的该组文本元素的至少部分。

应当理解，图1所示的图像和文本行区域仅用于说明目的。在其他示例中，可以处理任何图像并且可以相应地确定任何文本行区域。

粗略地说，常规的基于深度学习的文本行检测解决方案有两种，即自上而下的方法和自下而上的方法。自上而下的方法对附近的长倾斜/弯曲文本行不稳健。自下而上的方法要么预测像素级文本得分映射，要么首先检测候选文本分段，然后使用不同方法将检测到的文本分段或文本像素分组为文本行并且计算对应边界框。基于像素的方法不能稳健地检测具有大字符间距离的文本行。由基于文本分段的方法使用的行分组方法不稳健，因此这些方法很难应用于其中包括的文本元素以不规则方式组织的图像。(这里，基于分段的方法和基于像素的方法的局限性是不同的。)

以实现文本行检测的工作原理和示例结构

根据本文中描述的主题的实现，提出了用于文本行检测的解决方案。在该解决方案中，检测包括文本元素的至少一部分的文本区域。基于从文本区域对中提取的特征表示进一步确定该文本区域对之间的链接关系。链接关系可以指示该对文本区域中包括的文本元素是否位于同一文本行中。以这种方式，通过检测文本区域并且基于其特征表示确定其链接关系，可以提高检测各种图像中文本行的准确性和效率。

下面参考附图描述本文中描述的主题的基本原理和多个示例实现。

首先参考图2，图2示出了根据本文中描述的主题的实现的文本行检测模块的框图。为了说明的目的，图1的计算设备100中的文本行检测模块122被称为用于实现本文中描述的文本行检测的示例。文本行检测模块122包括用于实现检测图像中的一个或多个文本行的多个阶段的多个模块。

文本行检测过程可以使用图2中的文本行检测模块122来实现。如图所示，文本行检测模块122包括文本区域检测阶段或模块210和链接关系确定阶段或模块220。在一些实现中，文本行检测模块122还可以包括文本行区域确定阶段或模块230。

在一些实现中，可以提供图像170作为文本区域检测模块210的输入。文本区域检测模块210可以例如通过使用机器学习技术来确定图像170中的多个文本区域212。图像170中的每个所确定的文本区域212可以包括文本元素的至少一部分。

例如，文本区域检测模块210可以首先根据滑动窗口确定多个候选区域，然后获取多个候选区域中的每个候选区域的特征映射。然后可以将特征映射输入到机器学习模型中，以确定对应候选区域是否为文本区域。应当理解，以上讨论的特定文本区域仅用于说明目的。当前使用的或将来要开发的用于自动或手动辅助文本区域检测的任何方法都可以用于检测图像170中的文本区域。

随着多个文本区域212被确定，链接关系确定模块220被配置为检测多个文本区域212中的文本区域对之间的链接关系222。链接关系222可以指示该文本区域对中包括的(多个)文本元素或(多个)文本元素的(多个)部分是否位于同一文本行中。在一些实现中，链接关系确定模块220可以首先分别从该文本区域对中提取对应特征表示。然后该文本区域对之间的链接关系222可以使用机器学习模型基于所提取的特征表示来确定。下面将详细讨论基于所提取的特征表示的链接关系的确定。

在一些实现中，文本行检测模块122还可以包括文本行区域确定阶段或模块230。链接关系确定模块220的结果(即，文本区域之间的链接关系)被提供给文本行区域确定阶段或模块230。文本行区域确定阶段或模块230被配置为根据链接关系确定哪些文本区域212位于同一文本行中，然后确定图像170中界定这些文本区域的文本行区域185。下面将详细讨论文本行区域确定230中的过程。

在一些实现中，文本行区域确定模块230的结果(即，所确定的(多个)文本行区域185)可以进一步用于其他目的，诸如用于文本识别、移动搜索、文本翻译等。例如，文本行区域185可以被提供给基于图像的文本识别模块以用于识别在文本行区域185中呈现的特定文本。备选地或附加地，可以生成已更新的图像180，所确定的(多个)文本行区域的边界框在已更新的图像180中被突出显示。例如，通过将所确定的文本行区域清楚地呈现给例如开发方，可以清楚地示出由文本行检测模块230检测到的文本行是否是准确的。

应当理解，图2中的模块可以实现为一个或多个软件引擎、硬件组件或其组合等，该软件引擎、硬件组件或其组合配置有用于实现归属于特定模块的功能的逻辑。每个模块可以使用这样的软件引擎、硬件组件等中的一个或多个来实现。软件引擎等在一个或多个计算系统或设备的一个或多个处理器上执行，并且在一个或多个计算系统上利用或操作存储在一个或多个存储设备、存储器等中的数据。在一些实现中，图2中的不同模块可以被实现为单个模块，并且图2中的单个模块可以被分离为一个以上的模块。在一些实现中，一个或多个另外的模块可以被包括到文本行检测模块122中。

文本区域检测

为了检测图像170中的一个或多个文本区域，文本区域检测模块122可以例如根据基于滑动窗口的方案来确定多个候选区域。在一些实现中，为了检测具有各种大小的文本元素，文本区域检测模块122可以使用不同大小的滑动窗口来从图像170中检测对应大小的候选区域。

图3示出了根据本文中描述的主题的实现的文本区域检测模块210的示例严格器(stricter)300。在图3的示例中，特征金字塔网络(FPN)用于特征提取。具体地，图像170被提供作为FPN 310的输入，以用于生成具有不同大小的特征映射。FPN 310有两条路径，即自下而上的路径315和自上而下的路径320。自下而上的路径315是主干卷积神经网络(ConvNet)的前馈计算，其计算由若干尺度的特征映射组成的特征层次结构，尺度步长为2。在图3的示例中，包括4级特征金字塔，其步幅分别为4、8、16和32个像素。自上而下的路径320通过从更高的金字塔等级对空间上更粗糙但语义上更强的特征映射进行上采样来生成更高分辨率的特征。这些特征然后经由横向连接使用自下而上路径的特征被增强。应当知道，与FPN相关的具体参数(例如，等级数、步幅等)仅用于说明目的，可以应用任何适当的模型参数。

如图3所示，三个尺度特定文本区域预测模块330-1、330-2和330-3(在本文中单独或统称为文本区域预测模块330)分别被配置为接收特征映射325-1、325-2和325-3(在本文中单独或统称为特征映射325)并且分别被设计为检测小(例如，4px-23px)、中(例如，24px-48px)和大(例如，>48px)文本元素。在一些实现中，区域提议网络(RPN)可以应用于文本区域预测模块330-1、330-2和330-3中的每个模块中。例如，文本区域预测模块330-1、330-2和330-3可以应用无锚RPN以执行文本元素的密集的逐像素预测。

例如，如果金字塔等级的像素位于该金字塔等级的文本元素的核心区域中，则对应文本区域预测模块330可以将该像素标记为“文本”像素，并且直接预测从它到其对应四边形文本区域的顶点的偏移。在一些实现中，文本区域预测模块330中的每个模块可以实现为3×3卷积层，后跟两个同级1×1卷积层，分别用于文本/非文本分类和四边形边界框回归。

在一些实现中，文本区域预测模块330可以首先针对候选区中的每个候选区域生成得分(例如，0到1)，其中得分可以表示对应候选区域是文本区域的概率。文本区域预测模块330然后可以通过将每个候选区域的得分与得分阈值(例如，0.85)进行比较来确定图像170中的对应文本区域212。这样，得分高于阈值的候选区域将被确定为文本区域。例如，如图3所示，可以由文本区域预测模块330-1确定两个小文本区域212-1和212-6，可以由文本区域预测模块330-2确定中等文本区域212-2，并且可以由文本区域预测模块330-3确定三个文本区域212-3、212-4和212-5。

如图3所示，文本区域212-1包括相对小的尺寸的字符“M”，文本区域212-3包括相对大的尺寸字符“R”。应当理解，图3中为了说明的目的示出了文本区域312-1、312-2、312-3、312-4、312-5和312-6，并且可以存在由文本区域预测模块330确定的、在图3中未示出的其他文本区域212。虽然图3所示的文本区域仅包括完整字符，但是应当理解，文本区域也可以包括字符的部分，符号、符号的部分、多个字符、多个符号、(多个)字符和(多个)符号的组合等。

应当注意，文本区域预测模块330中包括的FPN 310和RPN可以一起训练以确定图像中不同大小的文本区域。联合训练中的总损失可以通过计算在尺度特定文本区域预测模块330中应用的模型的损失的总和来确定。

如以上讨论的文本区域检测模块210的特定结构仅仅是示例性的，并不旨在限制主题的范围。可以采用用于文本区域检测模块的任何其他适当结构来检测图像170中的文本区域。

链接关系确定

利用由文本区域检测模块122确定的文本区域212，链接关系确定模块220可以首先从多个文本区域中选择第一文本区域和第二文本区域。继续图3的示例，链接关系确定模块220可以遍历由文本区域检测模块122确定的所有文本区域212。

在一些实现中，链接关系确定模块220可以确定文本区域212与另一文本区域212之间的链接关系。现在将参考图4讨论链接关系确定的过程。图4示出了根据本文中描述的主题的实现的链接关系确定模块220的示例结构400。

如图所示，链接关系确定模块220包括被配置为从文本区域对中提取特征表示的特征提取模块410和被配置为确定该文本区域对之间的链接关系的关系预测模型440。

以图4所示的文本区域212-3作为第一文本区域的示例。在一些实现中，链接关系确定模块220可以确定文本区域212-3与其他文本区域中的每个区域之间的链接关系。

备选地，考虑到同一文本行中的文本元素的大小应当相似，特征提取模块410可以通过确定文本区域212-3的第一大小与另一文本区域的大小之间的差是否低于大小阈值来从其他文本区域中选择第二文本区域。在确定大小差低于大小阈值时，特征提取模块410可以继续从该文本区域对中提取特征表示。否则，特征提取模块410可以忽略这文本区域对。

例如，对于图4中的文本区域212-3，特征提取模块410可以确定文本区域212-2与212-3之间的大小差超过大小阈值。因此，特征提取模块410可以忽略该文本区域对212-2和212-3。相反，如图4所示，文本区域212-4的大小类似于文本区域212-3的大小，因此特征提取模块410可以中提取这两个文本区域的特征表示。以这种方式，可以通过减少不必要的计算来提高链接关系的确定效率。

备选地或附加地，考虑到两个相邻文本区域之间的距离不应当太大，特征提取模块410可以通过确定文本区域212-3的第一中心与另一区域的中心之间的第一距离是否低于距离阈值来从其他文本区域中选择第二文本区域。在一些实现中，距离阈值可以基于第一文本区域的大小来设置，例如，第一文本区域的高度的五倍。

在确定距离低于距离阈值时，特征提取模块410可以继续从该对文本区域中提取特征表示。否则，该对文本区域可以被相应地忽略。

例如，关于图4中的文本区域212-3，特征提取模块410可以确定文本区域212-3的第一中心与文本区域212-5的第二中心之间的距离超过距离阈值。因此，特征提取模块410可以忽略该对文本区域212-2和212-5。相反，如图4所示，文本区域212-3和212-4的中心之间的距离是小于距离阈值，并且因此两个文本区域的特征表示可以由特征提取模块410提取。

在一些实现中，特征提取模块410可以考虑大小差和距离两者。在使用FPN生成不同尺度的特征映射的示例中，如图3所示，特征提取模块410可以只考虑从同一金字塔等级检测到的并且其中心之间的距离小于距离阈值的各对文本区域。例如，如图4的示例中所示，特征提取模块410将考虑两个文本区域对(文本区域212-3和212-4、以及文本区域212-4和212-5)。

在第一文本区域和第二文本区域被选择的情况下，特征提取模块410然后可以从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。在一些实现中，第一特征表示和第二特征表示可以包括图像特征表示。例如，特征提取模块410可以从由如图3所示的FPN 310生成的特征映射325中获取第一特征表示和第二特征表示。

备选地，第一特征表示和第二特征表示可以包括语义特征表示。特征提取模块410可以首先使用任何适当的基于图像的文本识别技术来识别第一区域和第二区域中包括的至少第一文本元素和第二文本元素。特征提取模块410然后可以基于在其中识别的第一文本元素和第二文本元素来生成第一语义特征表示和第二语义特征表示，例如通过使用word2vec技术。应当理解，用于文本语义特征表示生成的任何方法(无论是现有的还是将来要开发的)都可以用于生成所识别的表示的语义特征表示。通过使用语义特征表示，根据本公开的实现的解决方案可以准确地检测其中文本元素在空间上不是非常相关但在语义上非常相关的文本行。

如图4的示例所示，特征提取模块410可以从第一文本区域212-3中提取第一特征表示420并且从第二文本区域212-4中提取第二特征表示425。在一些实现中，特征提取模块410然后可以将第一特征表示和第二特征表示组合成经组合的特征表示435。

然后，组合特征表示435可以被提供给关系预测模型440。关系预测模型440被配置为基于组合特征表示435来确定第一文本区域与第二文本区域之间的链接关系222。关系预测模型440可以是任何适当类型的机器学习模型，其示例可以包括梯度提升决策树(GBDT)模型、支持向量机(SVM)、随机森林、神经网络等。

在关系预测模型440的训练期间，可以应用多个正训练样本和负训练样本。在一些实现中，可以通过选择位于例如由用户标识的已知文本行中的文本区域对来生成正训练样本。可以通过选择被标识为位于已知的两个不同文本行中的文本区域对来生成负训练样本。在训练期间，特征表示可以从训练样本中包括的文本区域对中提取，并且然后被输入到关系预测模型中。关系预测模型的参数可以逐轮调节，以使预测结果接近训练样本的真实结果。

在一些实现中，特征提取模块410可以进一步基于第一文本区域和第二文本区域两者来提取第三特征表示430。例如，链接关系确定模块220可以通过确定第一文本区域与第二文本区域之间的空间关系来提取第三特征表示430。在一些实现中，特征提取模块410可以首先确定与第一文本区域相关联的第一坐标集和与第二文本区域相关联的第二坐标集。例如，第一坐标集和第二坐标集可以包括图像170中第一区域和第二区域的边界框的相应坐标。

特征提取模块410可以进一步基于第一坐标集和第二坐标集来确定第三特征表示430。例如，第三特征表示可以是级联6-d向量的18维向量，每个向量指示第一文本区域和第二文本区域的差。例如，6-d向量可以包括

其中每个维度由下式给出：

其中x^S和y^S表示第一文本区域的中心的坐标，w^S和h^S表示第一文本区域的宽度和高度，x^O和y^O表示第二文本区域的中心的坐标，w^O和h^O表示第二文本区域的宽度和高度。

备选地，第三特征表示430也可以通过从至少界定第一文本区域和第二文本区域的第三文本区域中提取特征来确定。继续图4所示的示例，特征提取模块410可以首先基于第一文本区域212-3和第二文本区域212-4来确定第三文本区域415。如图4所示，第三文本区域415界定第一文本区域212-3和第二文本区域212-4两者。

此外，特征提取模块410然后可以从所确定的第三文本区域415中提取第三表示430。在一些实现中，第三特征表示430可以是从图像中的第三文本区域415中提取的图像特征表示。备选地，第三特征表示430可以是从第三文本区域415中提取的语义特征表示。提取第三特征表示430的过程可以参考如上所述的从第一文本区域和第二文本区域中提取第一特征表示420和第二特征表示425的过程来执行，这里不再详细讨论。

如图4所示，在提取第三特征表示430的示例中，所提取的第一特征表示420、第二特征表示425和第三特征表示430可以进一步级联在一起成为组合特征表示435，并且然后提供给关系预测模型440用于确定第一文本区域212-3与第二文本区域212-4之间的链接关系222。应当理解，在关系预测模型440的训练期间，模型的输入还应当包括第三特征表示，该第三特征表示从训练样本中所包括的文本区域对中生成。通过在关系预测模型440的预测期间考虑另外的第三特征表示430，可以确定更准确的预测结果。

通过上述方法，通过使用从文本区域中提取的特征表示来预测链接关系，根据本公开的实现的解决方案可以提高关系确定的准确性。例如，与常规的基于图像分割的文本行检测方案相比，根据本公开的实现的解决方案可以准确地确定两个文本区域以相对较大距离定位的文本行。

此外，在一些实现中，可以在链接关系确定期间考虑图像和语义特征表示两者。这将有助于确定语义相关的两个文本区域的链接关系，尽管文本区域在空间上不是很相关。例如，用户可以在纸上打印出单词“姓名”之后签署他/她的姓名，而该签署的姓名可能与印刷单词“姓名”相距较远，并且与单词“姓名”并不完全对准。结合语义特征表示将有助于标识出签署的姓名和单词“姓名”位于同一行中。

文本行区域确定

图像中包括的每个文本区域对212之间的链接关系222可以进一步提供给文本行区域确定模块230。文本行区域确定模块230被配置为基于链接关系222来确定文本行区域185。现在将参考图5讨论文本行区域确定的过程。图5示出了根据本文中描述的主题的实现的文本行区域确定模块230的示例结构500。

如图所示，文本行区域确定模块230包括文本区域分组模块510和文本行区域消歧(disambiguation)模块520，文本区域分组模块510被配置为基于链接关系222将文本区域212分组为不同集以确定一个或多个候选文本行区域，文本行区域消歧模块520被配置为对多个重叠的候选文本行区域进行消歧。

在一些实现中，文本区域分组模块510可以接收链接关系222并且相应地将文本区域212分组为不同集。例如，如果链接关系指示文本区域212-3和212-4与同一文本行相关并且文本区域212-4和212-5与同一文本行相关，则文本区域分组模块510可以将文本区域212-3、212-4和212-5分组成同一集。

文本区域分组模块510然后可以基于分组的文本区域集来确定候选文本行区域185。在一些实现中，文本区域分组模块510可以确定候选文本行区域，该候选文本行区域至少界定图像中被分组到同一文本区域集中的文本区域。例如，文本区域分组模块510可以至少部分基于文本区域212-3、212-4和212-5的边界框的坐标、以及被分组到与它们相同的文本区域集中的其他文本区域的坐标来确定候选文本行区域515-1。

所确定的(多个)候选文本行区域被提供给文本行区域消歧模块520。在一些实现中，使用多个尺度特定文本区域预测模块(例如，尺度特定文本区域预测模块330)，并且因此可以针对同一文本行确定多个重叠的候选文本行区域。如图5所示，由文本区域分组模块510确定两个候选文本行区域515-1和515-2(单独或统称为候选文本行区域515)。为了避免针对同一文本行生成多个重叠的文本行区域，文本行区域消歧模块520可以从候选文本行区域515中确定最终文本行区域。

例如，对于候选文本行区域515-1，文本行区域消歧模块520可以进一步选择图像170中的候选文本行区域515-2。在一些实施例中，文本行区域消歧模块520可以根据确定候选文本行区域515-1与515-2之间的重叠面积超过面积阈值来选择候选文本行区域515-2。备选地，文本行区域消歧模块520可以根据确定候选文本行区域515-1和515-2之间的重叠面积与候选文本行区域515-1和515-2的并集面积的比率超过比率阈值来选择候选文本行区域515-2。

在一些实施例中，文本行区域消歧模块520可以基于其相应得分来对两个候选文本行区域515-1和515-2进行消歧。如上所述，可以由文本区域预测模块330为每个文本区域分配得分，以用于指示该文本区域包括至少文本元素的一部分的可能性。候选文本行区域的得分可以被确定为候选文本行区域中所包括的文本区域的得分。此外，文本行区域消歧模块520可以仅向候选文本行区域提供更高得分。

备选地，文本行区域消歧模块520可以应用另外的关系预测模型来对两个候选文本行区域515-1和515-2进行消歧。类似于参考图3的过程，文本行区域消歧模块520可以分别从两个候选文本行区域515-1和515-2中提取特征表示。应当理解，第四特征表示和第五特征表示的提取过程可以参考上述第一特征表示和第二特征表示的提取技术来执行，在此不再赘述。

在一些实现中，文本行区域消歧模块520可以进一步基于文本行区域515-1和515-2两者来确定第六特征表示。确定第六特征表示的过程可以与如以上参考图3讨论的确定第三特征表示的过程430一起执行。类似于图3中的过程，第四特征表示、第五特征表示和第六特征表示的组合可以被提供给文本行区域消歧模块520中包括的关系预测模型，以用于确定要提供候选文本行区域515-1和515-2中的哪个区域。文本行区域消歧模块520中包括的关系预测模型可以是任何适当类型的机器学习模型，其示例可以包括梯度提升决策树(GBDT)模型、支持向量机(SVM)、随机森林、神经网络等。

对于文本行区域消歧模块520中包括的关系预测模型的训练，训练样本可以通过选择文本行区域对来生成，其中该文本行区域对之间的重叠面积超过区域阈值，并且用于训练的真实值(ground-truth)可以是用户对更准确的文本行区域的选择。

在一些实现中，根据确定要提供候选文本行区域515-1，文本行区域消歧模块520可以仅在图像中提供文本行区域185-3(候选文本行区域515-1)而不提供候选文本行区域515-2。以这种方式，根据本公开的实现的解决方案可以提供更准确的文本行区域，从而避免针对同一文本行提供重复的文本行区域。

在一些实施例中，文本行区域消歧模块520可以生成包括针对所确定的文本行区域185中的每个文本行区域的边界框的坐标的文件。在一些实现中，文本行区域消歧模块520还可以生成已更新的图像180，其中文本行区域515-1被突出显示。以这种方式，所确定的文本行区域185可以清晰地呈现给例如用户，以用于确认文本行检测是否准确。

示例过程

图6示出了根据如本文中描述的主题的一些实现的文本行检测的过程600的流程图。过程600可以由计算设备100来实现，例如由计算设备110中的文本行检测模块122来实现。过程600也可以由与计算设备100类似的任何其他设备或设备集群来实现。为了描述的目的，参考图1描述过程600。

在框610处，计算设备100确定图像中的第一文本区域和第二文本区域，其中第一文本区域包括至少第一文本元素的第一部分，并且第二文本区域包括至少第二文本元素的第二部分。在框620处，计算设备100从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示，其中第一特征表示和第二特征表示包括图像特征表示或语义特征表示中的至少一项。在框630处，计算设备100至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系，其中链接关系指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。

在一些实现中，确定第一文本区域和第二文本区域包括：从图像中标识多个文本区域；根据以下至少一项从多个文本区域中选择第一文本区域和第二文本区域：确定第一文本区域的第一大小与第二文本区域的第二大小之间的差低于大小阈值，或者确定第一文本区域的第一中心与第二文本区域的第二中心之间的第一距离低于距离阈值。

在一些实现中，确定第一文本区域与第二文本区域之间的链接关系包括：提取指示以下至少一项的第三特征表示：第一文本区域与第二文本区域之间的空间关系、或第一文本元素与第二文本元素之间的语义关系；以及进一步基于第三特征表示确定链接关系。

在一些实现中，提取第三特征表示包括：确定至少界定第一文本区域和第二文本区域的第三文本区域；以及从第三文本区域中提取第三特征表示。

在一些实现中，确定第三特征表示包括：获取与第一文本区域相关联的第一坐标集和与第二文本区域相关联的第二坐标集；以及基于第一坐标集和第二坐标集来确定第三特征表示。

在一些实现中，该方法还包括：根据链接关系指示第一文本区域中的文本元素的至少一部分和第二文本区域中的文本元素的至少一部分位于同一文本行中，确定在图像中至少界定第一文本区域和第二文本区域的第一文本行区域；以及提供第一文本行区域。

在一些实现中，提供第一文本行区域包括：确定图像中的第二文本行区域，第一文本行区域与第二文本行区域之间的重叠面积超过面积阈值；从第一文本行区域中提取第四特征表示并且从第二文本行区域中提取第五特征表示；使用另外的机器学习模型并且至少部分基于第四特征表示和第五特征表示来确定第一文本行区域是否要被提供；以及根据确定第一文本行区域要被提供，在图像中提供第一文本行区域而不提供第二文本行区域。

在一些实现中，提供第一文本行区域包括：在图像中突出显示第一文本行区域。

在一些实现中，第一文本元素包括字符或符号中的至少一项。

示例实现

下面列出了本文中描述的主题的一些示例实现。

在第一方面，本文中描述的主题提供了计算机实现的方法。该方法包括确定图像中的第一文本区域和第二文本区域，第一文本区域包括至少第一文本元素的第一部分，并且第二文本区域包括至少第二文本元素的第二部分；从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示，第一特征表示和第二特征表示包括图像特征表示或语义特征表示中的至少一项；以及使用机器学习模型并且至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系，链接关系指示第一文本元素的第一部分和第二文本元素的第二部分是否位于同一文本行中。

在一些实施例中，从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示包括：从第一文本区域中识别至少第一文本元素并且从第二文本区域中识别至少第二文本元素；以及基于所识别的第一文本元素来生成第一语义特征表示并且基于所识别的第二文本元素来生成第二语义特征表示。

在一些实现中，确定第一文本区域和第二文本区域包括：从图像中标识多个文本区域；以及根据以下至少一项从多个文本区域中选择第一文本区域和第二文本区域：确定第一文本区域的第一大小与第二文本区域的第二大小之间的差低于大小阈值，或者确定第一文本区域的第一中心与第二文本区域的第二中心之间的第一距离低于距离阈值。

在一些实现中，确定第一文本区域与第二文本区域之间的链接关系包括：提取指示以下至少一项的第三特征表示：第一文本区域与第二文本区域之间的空间关系、或第一文本元素与第二文本元素之间的语义关系；以及进一步基于第三特征表示来确定链接关系。

在一些实现中，确定该关系特征集包括：获取与第一文本区域相关联的第一坐标集和与第二文本区域相关联的第二坐标集；以及基于第一坐标集和第二坐标集来确定第三特征表示。

在一些实现中，该方法还包括：根据链接关系指示第一文本区域中的第一文本元素的至少一部分和第二文本区域中的第二文本元素的至少一部分位于同一文本行中，确定在图像中界定至少第一文本区域和第二文本区域的第一文本行区域；以及提供第一文本行区域。

在第二方面，本文中描述的主题提供了一种电子设备。该电子装置包括处理单元；以及耦合到处理单元并且具有存储在其上的指令的存储器，该指令在由处理单元执行时使电子设备执行动作，该动作包括：确定图像中的第一文本区域和第二文本区域，第一文本区域包括至少第一文本元素的第一部分，并且第二文本区域包括至少第二文本元素的第二部分；从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示，第一特征表示和第二特征表示包括图像特征表示或语义特征表示中的至少一项；以及至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系，该链接关系指示第一文本元素的第一部分和第二文本元素的第二部分是否是位于同一文本行中。

在一些实现中，从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示包括：从第一文本区域中识别至少第一文本元素并且从第二文本区域中识别至少第二文本元素；以及基于所识别的第一文本元素来生成第一语义特征表示并且基于所识别的第二文本元素来生成第二语义特征表示。

在一些实现中，提取第三特征表示包括：确定至少界定第一文本区域与第二文本区域的第三文本区域；以及从第三文本区域中提取第三特征表示。

在一些实现中，该动作还包括：根据链接关系指示第一文本区域中的第一文本元素的至少一部分和第二文本区域中的第二文本元素的至少一部分位于同一文本行中，确定在图像中界定至少第一文本区域和第二文本区域的第一文本行区域；以及提供第一文本行区域。

在第三方面，本文中描述的主题提供了一种有形地存储在计算机存储介质上并且包括机器可执行指令的计算机程序产品，该机器可执行指令在由设备执行时使该设备执行根据第一方面的方法。计算机存储介质可以是非暂态计算机存储介质。

在第四方面，本文中描述的主题提供了一种其上存储有机器可执行指令的非暂态计算机存储介质，该机器可执行指令在由设备执行时使该设备执行根据第一方面的方法。

本文中描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、系统上芯片系统(SOC)、复杂可编程逻辑器件(CPLD)等。

用于执行本文中描述的主题的方法的程序代码可以以一种或多种编程语言的任何组合来编写。程序代码可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码在由处理器或控制器执行时引起在流程图和/或框图中指定的功能/操作被实现。程序代码可以完全或部分在机器上执行，作为独立软件包部分在机器上、部分在远程机器上或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是可以包含或存储程序以供指令执行系统、装置或设备使用或与其结合使用的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子、磁、光、电磁、红外或半导体系统、装置或设备、或前述的任何合适组合。机器可读存储介质的更具体示例将包括具有一根或多根电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或上述各项的任何合适的组合。

此外，虽然操作以特定顺序描述，但这不应当理解为要求这样的操作以所示特定顺序或按顺序执行，或者执行所有所示操作以获取期望的结果。在某些情况下，多任务和并行处理可能是有利的。同样，虽然在上述讨论中包含了若干具体的实现细节，但这些不应当被解释为对本文中描述的主题范围的限制，而是对可能特定于特定实施的特征的描述。在单独实现的上下文中描述的某些特征也可以在单个实现中组合实现。相反，在单个实现中描述的各种特征也可以在多个实现中分别实现或以任何合适的子组合实现。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，在所附权利要求中指定的主题不必然限于上述特定特征或动作。相反，上述具体特征和动作被公开作为实现权利要求的示例形式。

Claims

1.一种计算机实现的方法，包括：

确定图像中的第一文本区域和第二文本区域，所述第一文本区域包括至少第一文本元素的第一部分，并且所述第二文本区域包括至少第二文本元素的第二部分；

从所述第一文本区域中提取第一特征表示并且从所述第二文本区域中提取第二特征表示，所述第一特征表示和所述第二特征表示包括图像特征表示或语义特征表示中的至少一项；以及

至少部分基于所述第一特征表示和所述第二特征表示，来确定所述第一文本区域与所述第二文本区域之间的链接关系，所述链接关系指示所述第一文本元素的所述第一部分和所述第二文本元素的所述第二部分是否位于同一文本行中。

2.根据权利要求1所述的方法，其中从所述第一文本区域中提取第一特征表示并且从所述第二文本区域中提取第二特征表示包括：

从所述第一文本区域中识别至少所述第一文本元素，并且从所述第二文本区域中识别至少所述第二文本元素；以及

基于所识别的所述第一文本元素而生成第一语义特征表示，并且基于所识别的所述第二文本元素而生成第二语义特征表示。

3.根据权利要求1所述的方法，其中确定所述第一文本区域和所述第二文本区域包括：

从所述图像中标识多个文本区域；以及

根据以下至少一项，从所述多个文本区域中选择所述第一文本区域和所述第二文本区域：

确定所述第一文本区域的第一大小与所述第二文本区域的第二大小之间的差低于大小阈值，或者

确定所述第一文本区域的第一中心与所述第二文本区域的第二中心之间的第一距离低于距离阈值。

4.根据权利要求1所述的方法，其中确定所述第一文本区域与所述第二文本区域之间的链接关系包括：

提取指示以下至少一项的第三特征表示：所述第一文本区域与所述第二文本区域之间的空间关系、或所述第一文本元素与所述第二文本元素之间的语义关系；以及

进一步基于所述第三特征表示来确定所述链接关系。

5.根据权利要求4所述的方法，其中提取所述第三特征表示包括：

确定至少界定所述第一文本区域和所述第二文本区域的第三文本区域；以及

从所述第三文本区域中提取所述第三特征表示。

6.根据权利要求4所述的方法，其中确定所述第三特征表示包括：

获取与所述第一文本区域相关联的第一坐标集和与所述第二文本区域相关联的第二坐标集；以及

基于所述第一坐标集和所述第二坐标集来确定所述第三特征表示。

7.根据权利要求1所述的方法，还包括：

根据所述链接关系指示所述第一文本区域中的所述第一文本元素的所述至少一部分和所述第二文本区域中的所述第二文本元素的所述至少一部分位于所述同一文本行中，确定在所述图像中至少界定所述第一文本区域和所述第二文本区域的第一文本行区域；以及

提供所述第一文本行区域。

8.根据权利要求7所述的方法，其中提供所述第一文本行区域包括：

确定所述图像中的第二文本行区域，所述第一文本行区域与所述第二文本行区域之间的重叠面积超过面积阈值；

从所述第一文本行区域中提取第四特征表示，并且从所述第二文本行区域中提取第五特征表示；

至少部分基于所述第四特征表示和所述第五特征表示来确定所述第一文本行区域是否要被提供；以及

根据确定所述第一文本行区域要被提供，在所述图像中提供所述第一文本行区域，而不提供所述第二文本行区域。

9.根据权利要求7所述的方法，其中提供所述第一文本行区域包括：

在所述图像中突出显示所述第一文本行区域。

10.根据权利要求1所述的方法，其中所述第一文本元素包括字符或符号中的至少一项。

11.一种电子设备，包括：

处理单元；以及

存储器，被耦合到所述处理单元并且具有存储在其上的指令，所述指令在由所述处理单元执行时使所述电子设备执行动作，所述动作包括：

至少部分基于所述第一特征表示和所述第二特征表示来确定所述第一文本区域与所述第二文本区域之间的链接关系，所述链接关系指示所述第一文本元素和所述第二文本元素的所述第一部分和所述第二部分是否位于同一文本行中。

12.根据权利要求11所述的电子设备，其中从所述第一文本区域中提取第一特征表示并且从所述第二文本区域中提取第二特征表示包括：

13.根据权利要求11所述的电子设备，其中确定所述第一文本区域和所述第二文本区域包括：

从所述图像中标识多个文本区域；以及

14.根据权利要求11所述的电子设备，其中确定所述第一文本区域与所述第二文本区域之间的链接关系包括：

进一步基于所述第三特征表示来确定所述链接关系。

15.一种有形地被存储在计算机存储介质上并且包括机器可执行指令的计算机程序产品，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至10中任一项所述的方法。