CN114365202A

CN114365202A - 经由上下文无关的递归文档分解来学习的可扩展结构

Info

Publication number: CN114365202A
Application number: CN202080063240.XA
Authority: CN
Inventors: M.戈亚尔; A.阿亚
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-16
Filing date: 2020-09-15
Publication date: 2022-04-15
Anticipated expiration: 2040-09-15
Also published as: GB202203443D0; DE112020003002T5; US11188748B2; US20210081662A1; JP2022547962A; WO2021053510A1; CN114365202B; GB2602229A; GB2602229B

Abstract

提供了一种方法，其中文档被转换成位图图像，并且处理方法将来自位图图像的像素值集聚合成行总和值集和列总和值集。位图图像是文档的像素化表示。该方法对行总和值集和列总和值集应用局部傅立叶变换以生成行总和值集的频率表示和频率总和值集。该方法基于在频率表示集中识别的至少一个分离位置，将位图图像分解成图像部分集，并且将图像部分集发送到文本辨识系统。

Description

经由上下文无关的递归文档分解来学习的可扩展结构

背景技术

当今的文档处理系统简化了企业文档的捕获、识别和分类以提取重要的信息。文档处理系统使用光学字符辨识(OCR)、自然语言处理、文本分析和机器学习技术来自动识别、分类和提取来自非结构化或可变文档的内容。

一些文档处理系统使用监督或半监督机器学习技术来从扫描的文件或PDF文件中提取文本和文档结构。其他文档处理系统要求人类指纹文档，然后使用该指纹文档来从类似类型的文档中提取信息。其他文档处理系统使用人类监督和深度学习的组合来挖掘、学习文本边界、构建本体、以及使用该信息以尝试从类似类型的文档中提取信息。这些文档处理系统中的每一个都依赖于可靠的文本提取、理解文本内容以及理解文档的上下文。

发明内容

根据本发明的一个实施例，提供一种方法，其中所述方法将来自位图图像的像素值集聚合成行总和值集和列总和值集。位图图像是文档的像素化表示。所述方法对所述行总和值集和所述列总和值集应用局部傅立叶变换以生成所述行总和值集的频率表示和频率总和值集。该方法基于在频率表示集中识别的至少一个分离位置将位图图像分解成图像部分集，并且将该图像部分集发送到文本辨识系统。

前述内容是概述，并且因此必然包含细节的简化、概括和省略；因此，本领域的技术人员将认识到该概述仅是说明性的并且不旨在以任何方式进行限制。仅由权利要求限定的本公开的其他方面、创造性特征、和优点将在以下阐述的非限制性详细说明中变得清楚。

附图说明

通过参考附图，本公开可以被更好地理解，并且其多个目的、特征和优点对于本领域技术人员变得显而易见，其中：

图1是可以实现本文描述的方法的数据处理系统的框图；图2提供了图1中示出的信息处理系统环境的扩大，以示出本文描述的方法可以在在联网环境中操作的各种各样的信息处理系统上执行；

图3是描绘将文档数字化成位图图像并递归地将位图图像分解成馈送至文本辨识系统的图像部分的计算机系统的示例性图；

图4是描绘准备好进行分解的发票文档的示例性图；

图5是描绘被分解为图像部分的位图图像的示例性图；

图6是示出将文档转换成位图图像并将该位图图像递归地分解为图像部分所采取的步骤的示例性流程图；

图7是示出评估是否递归地分解图像部分所采取的步骤的示例性流程图；

图8是描绘用于描述位图图像分解的各种图的示例性图；

图9是描绘图像部分和通过对图像部分应用傅里叶变换而产生的时间直方图的示例性示图；以及

图10是描绘图像部分的频谱表示的示例性图。

具体实施方式

本文中使用的术语仅用于描述具体实施方式的目的，而并非旨在限制本公开。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还应当理解，当在本说明书中使用术语“包括(comprises)”和/或“包含(comprising)”时，其指定所述特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。

以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行所述功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了对本公开的描述，但并不旨在是详尽的或限于所公开形式的本公开。在不背离本公开的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述实施例以便最好地解释本公开的原理和实际应用，并且使本领域的其他普通技术人员能够针对具有适合于预期的特定用途的各种修改的各种实施例来理解本公开。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储媒质(或多个媒质)。

计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储媒质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储媒质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实施方式中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。以下详细说明将总体上遵循如以上所阐明的本公开的概述，在必要时进一步解释和扩大本公开的不同方面和实施例的定义。

图1示出信息处理系统100，其是能够执行本文描述的计算操作的计算机系统的简化示例。信息处理系统100包括耦合到处理器接口总线112的一个或多个处理器110。处理器接口总线112将处理器110连接到北桥115，北桥115也被称为存储器控制器集线器(MCH)。北桥115连接到系统存储器120并且为处理器110提供访问系统存储器的装置。图形控制器125还连接到北桥115。在一个实施例中，外围组件互连(PCI)Express总线118将北桥115连接到图形控制器125。图形控制器125连接到显示设备130，诸如计算机监视器。

北桥115和南桥135使用总线119彼此连接。在一些实施例中，总线是在北桥115和南桥135之间的每个方向上以高速传送数据的直接媒体接口(DMI)总线。在一些实施例中，PCI总线连接北桥和南桥。南桥135，也称为输入/输出(I/O)控制器集线器(ICH)，是通常实施以比北桥提供的能力更慢的速度操作的能力的芯片。南桥135通常提供用于连接各种组件的不同总线。这些总线包括例如PCI和PCI Express总线、ISA总线、系统管理总线(SMBus或SMB)和/或低引脚数(LPC)总线。LPC总线通常连接低带宽设备，诸如引导ROM 196和“传统”I/O设备(使用“超级I/O”芯片)。“传统”I/O设备(198)可以包括例如串行和并行端口、键盘、鼠标和/或软盘控制器。南桥135中通常包括的其他组件包括直接存储器存取(DMA)控制器、可编程中断控制器(PIC)和使用总线184将南桥135连接到非易失性存储装置185(例如硬盘驱动器)的存储装置控制器。

ExpressCard 155是将热插拔设备连接到信息处理系统的插槽。ExpressCard 155支持PCI Express和通用串行总线(USB)连接性两者，因为其使用USB和PCI Express总线两者连接到南桥135。南桥135包括USB控制器140，其向连接到USB的装置提供USB连接性。这些设备包括网络摄像头(相机)150、红外(IR)接收器148、键盘和触控板144、以及提供无线个域网(PAN)的蓝牙设备146。USB控制器140还提供与其他各种USB连接设备142的USB连通性，所述其他各种USB连接设备诸如鼠标、可移动非易失性存储设备145、调制解调器、网卡、综合业务数字网(ISDN)连接器、传真机、打印机、USB集线器和许多其他类型的USB连接设备。尽管可移除非易失性存储设备145被示出为USB连接的设备，但是可移除非易失性存储设备145可以使用不同的接口(诸如火线接口等)来连接。

无线局域网(LAN)设备175经由PCI或PCI Express总线172连接到南桥135。LAN设备175通常实现空中调制技术的电子工程师协会(IEEE)802.11标准之一，其全部使用相同的协议来在信息处理系统100与另一计算机系统或设备之间进行无线通信。光存储设备190使用串行模拟电话适配器(ATA)(SATA)总线188连接到南桥135。串行ATA适配器和装置通过高速串行链路通信。串行ATA总线还将南桥135连接至其他形式的存储设备，诸如硬盘驱动器。音频电路160(例如声卡)经由总线158连接到南桥135。音频电路160还提供与音频硬件相关联的功能，诸如音频线路输入和光学数字音频输入端口162、光学数字输出和耳机插孔164、内部扬声器166和内部麦克风168。以太网控制器170使用总线(例如PCI或PCIExpress总线)连接到南桥135。以太网控制器170将信息处理系统100连接到计算机网络，例如局域网(LAN)、互联网和其他公共和专用计算机网络。

虽然图1示出了一个信息处理系统，但是信息处理系统可以采取许多形式。例如，信息处理系统可以采取台式机、服务器、便携式、膝上型、笔记本或其他形状因数计算机或数据处理系统的形式。此外，信息处理系统可以采取其他形式的因素，诸如个人数字助理(PDA)、游戏设备、自动柜员机(ATM)、便携式电话设备、通信设备或包括处理器和存储器的其他设备。

图2提供了图1所示的信息处理系统环境的扩大，以示出本文所描述的方法可以在在联网环境中操作的各种各样的信息处理系统上执行。信息处理系统的类型范围从诸如手持式计算机/移动电话210之类的小型手持式设备到诸如大型计算机270之类的大型机系统。手持式计算机210的示例包含个人数字助理(PDA)、个人娱乐装置，例如移动图像专家组层3音频(MP3)播放器、便携式电视和光盘播放器。信息处理系统的其他示例包括笔触式或平板计算机220、膝上型或笔记本计算机230、工作站240、个人计算机系统250和服务器260。图2中未单独示出的其他类型的信息处理系统由信息处理系统280表示。如图所示，不同信息处理系统可以使用计算机网络200联网在一起。可以用于互连各种信息处理系统的计算机网络类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其他无线网络和可以用于互连信息处理系统的任何其他网络拓扑。许多信息处理系统包括非易失性数据存储，诸如硬盘驱动器和/或非易失性存储器。图2中所示的信息处理系统的实施例包括单独的非易失性数据存储装置(更具体地，服务器260利用非易失性数据存储装置265，大型计算机270利用非易失性数据存储装置275，以及信息处理系统280利用非易失性数据存储装置285)。非易失性数据存储装置可以是在各种信息处理系统外部的组件，或可以在信息处理系统之一内部的组件。此外，可以使用各种技术在两个或更多个信息处理系统之间共享可移动非易失性存储设备145，诸如将可移动非易失性存储设备145连接到信息处理系统的USB端口或其他连接器。

如上所述，现有文档处理系统依赖于可靠的文本提取、理解文本内容以及理解文档的上下文。然而，当企业需求要扩展到来自各种源的数百万个文档时，即使在相同的上下文(例如，金融文档)内，现有的文档处理系统也不充分地起作用，因为不同的文档结构在上下文(例如，不同的组织、不同的行/列字段等)中不一致。因此，需要具有上下文无关的(不依赖于文档的上下文)并且可靠地跨多个文档/文档类型扩展的文档处理系统。

可商购的OCR引擎从文档或图像中以合理的分辨率提取文本。然而，OCR引擎失去文档结构(例如，是“5345”发票号、电话号码、美元金额等)，并且所提取的文本因此从数据分析的观点而言是不可用的。许多企业问题还需要对文档结构的理解，因此提取是有意义的，诸如具有发票、简历、订单、票券等的情况。当今的文档处理系统需要学习或训练过程，该学习或训练过程进而使得提取过程难以扩展。此外，每个文档及其来源在其结构中是唯一的(例如，不同的供应商发票)。结果，对样本文档集的学习常常在结构上不同的大规模文档上不是可靠的。

图3至10描绘了一种方法，该方法将文档数字化成位图图像并且基于通过傅立叶变换识别文档的结构而将位图图像递归地分解成图像部分。该方法不依赖于理解文档的内容，而是将文档视为位图图像并提取文档的底层结构以分解文档图像。该方法然后将经分解的图像部分提供到文本辨识系统以使用用于高度可靠提取的标准OCR技术可靠地解析图像部分。该方法通过针对对应于原始文档的每个经分解的图像部分进行移除背景(同质背景)和排版来提高可靠性。如本文中所描述，文本辨识系统是辨识图像中所包含的文本的任何系统。

如本文所讨论的，该方法(i)测量文档位图图像的聚合强度信号和文档归一化；(ii)使用局部傅立叶变换来估计文档频谱并且分析图像的低频(行/列之间的位图值的低变化)部分和高频(行/列之间的位图值的高变化)部分；(iii)使用基于傅里叶谱的决策树分割方法将图像分解为具有不相交信息内容的图像部分；(iv)使用基于决策树的分解停止方法来避免过度分解；以及(v)将经分解的文档映射到单元格矩阵(例如，电子表格)上。

图3是描绘将文档310数字化成位图图像340并递归地将位图图像340分解成馈送至文本辨识系统370的图像部分360的计算机系统320的示例性图。如本文所讨论的，计算机系统320通过提供(i)对文档结构的自动可扩展上下文无关提取；(ii)从文档310中对在同一文档内具有可变背景的文本进行可靠提取(克服已知文本提取器的平均行为)；以及(iii)对与文档语言无关的质量差的源文档进行颜色着色和可靠地执行，来增强当今的认知数字化产品。

计算机系统320从文档存储装置300检索文档310。文档310可以是例如图4所示的发票。计算机系统320使用位图生成器330来创建文档310的黑白位图图像340。在一个实施例中，位图生成器330在位图图像像素强度被递归分解器350处理之前对位图图像像素强度进行归一化(参见图6和对应的文本以获得进一步的细节)。

递归分解器350将基于每行/每列的经归一化的像素值聚合成行总和值(RSV)和列总和值(CSV)。递归分解器350然后将行总和值分组成行总和信号；将列总和值分组成列总和信号；并且对行总和信号和列总和信号应用局部傅立叶变换(例如，短时傅立叶变换(STFT))以生成行总和信号和列总和信号的频率表示(参见图6、8以及相应的文本以获得进一步的细节)。

递归分解器350修剪边界(例如，去除白色边缘)并且基于局部傅立叶变换结果将图像切割成两个图像部分360。递归分解器350递归地分解图像部分360，直到图像部分360达到它们不能被进一步分解的大小，此时，图像部分360被发送至文本辨识系统370用于进一步处理。

例如，文本辨识系统370可个别地将光学字符辨识(OCR)应用于图像部分360中的每一个。照此，文本辨识系统370具有优于先前OCR引擎的优点，因为通过将OCR个别地应用于图像部分360中的每一个，文本辨识系统370在经分解的文档的每一组成部分具有同质背景和排版时更可靠地提取信息。此外，本文讨论的方法帮助文本辨识系统370发现关联规则而不需要向每个属性分配含义。例如，文本辨识系统370可以发现关联规则，即，对应于标题“发票号码”的数字将总是位于与标题相同的单元格中或者位于该单元格右侧的单元格中或者位于给定单元格下面的单元格中。

图4是描绘准备好使用本文所论述的方法进行分解的发票文档的示例性图。文档310是包括各种信息量的发票。文档310可具有不同于先前评估的发票的文档结构，这与此处所讨论的方法不相关，因为计算机系统320基于其文档结构而不基于文档中的上下文来分解每个文档(参见图5和对应的文本以获得进一步的细节)。

图5是描绘被分解为图像部分的位图图像的示例性图。如图3所示，位图生成器330根据文档310创建位图图像340。进而，递归分解器350生成图像部分360。图5示出了与图4所示的文档310相对应的图像部分360的详细内容，其是图像部分500、510、520、530、540、550和560。

如本文所讨论的，当分解图像的第一遍产生可被进一步分解的图像部分时，递归分解器350执行步骤以进一步分解图像部分。照此，递归分解器350在后续递归分解(一个或多个)时将图像部分560分解成单独的图像部分565、570、575、580和590(参见图6、7以及对应的文本以获得进一步的细节)。

图6是示出将文档转换成位图图像并将该位图图像递归地分解为图像部分所采取的步骤的示例性流程图。处理开始于600，随后在步骤610处，该过程检索文档并将该文档转换成黑/白位图图像。在步骤620处，该过程归一化黑/白位图图像像素强度。此时，在一个实施例中，每个像素由“1”(黑色像素)或“0”(白色像素)表示。

在步骤625处，该过程将基于每行/每列的经归一化的像素值聚合成行总和值(RSV)和列总和值(CSV)。例如，假设行包括1,000个像素，黑色线的行总和是1,000个“1”的和＝1,000，白色空白的行总和是1,000个“0”的和＝0。在步骤635处，该过程将行总和值分组成行总和信号并且将列总和值分组成列总和信号(参见图8和对应的文本以获得进一步的细节)。

在步骤635处，该过程对行总和信号和列总和信号应用局部傅立叶变换。在一个实施例中，该过程使用短时傅里叶变换(STFT)作为局部傅里叶变换：

其中：

x(n)＝时间n处的输入信号

w(n)＝长度M窗口函数(例如，汉明窗口)

x_m(w)＝以时间mR为中心的窗口化数据的DTFT(离散时间傅里叶变换)

R＝连续DTFT之间样本的跳跃大小

在该实施例中，窗口长度M通常对于文档是固定的，并且通常被设置为等于行间隔的倍数。通过缓慢增加窗口长度直到获得峰值纯零频率信号来导出行间距。长的窗口长度提供更多的DTFT点并且导致更多的频率分辨率，而且还导致更低的时间精度。短的窗口长度提供更多的时间片以及更高的时间精度，但也导致不良的频率分辨率。

在步骤640处，该过程修剪边界(例如，白色边缘)以去除最大跨距零频率信号。零频率信号与具有相同行/列总和值的行的连续组块(例如，行1RSV＝1,000，行2RSV＝1,000……)相对应。在步骤650处，该过程在零频率信号的分离位置处将图像切割成两个图像部分，该两个图像部分是其相邻行/列值不改变的区域(例如，空白)。在一个实施例中，如果存在多个零频率信号，则该过程选择具有最长跨度的零频率信号的分离位置。在步骤660处，该过程将两个图像部分堆叠(存储)到堆叠存储装置665中，寄存其相对位置，并且删除母图像。

在预定义过程670处，该过程分析图像部分以确定图像部分中的一个或两个是否允许被进一步分解(参见图7和对应的文本以获得处理细节)。在步骤675处，该过程“弹出”不能够被进一步分解的图像部分并且将其标记在寄存器存储装置680中。

该过程基于来自670的结果确定是否存在可被进一步分解的任何更多图像部分(判定685)。如果存在允许被进一步分解的图像部分，那么判定685分支到‘是’分支，于是在步骤690处，该过程将识别用于进一步分解的图像部分之一的像素值聚合成行/列总和值。该过程然后根据如上所述的步骤630至675处理行/列总和值。

该循环继续，直到没有图像部分允许被进一步分解，此时，判定685分支到退出循环的‘否’分支。此后，图6在695处结束过程。

图7是示出评估是否递归地分解图像部分所采取的步骤的示例性流程图。处理开始于700，随后在步骤710处，处理选择堆叠存储装置665中的第一图像部分。下面讨论的以下步骤评估所选择的图像部分的行总和信号(RSS)直方图以识别其行间距和字体大小，其充当停止图像被分解得过于“薄”的停止标准。当图像被分解得过于薄时，例如，当图像高度接近字体大小时，字符‘I’看起来是一条黑线，这导致在字符处分割图像。

在步骤720，该过程评估所选择的图像部分的行总和信号(RSS)直方图并确定零频率信号跨度大小。在一个实施例中，该过程在分离位置处将图6中生成的RSS直方图分成两个直方图，以表示被评估的两个图像部分。例如，图9的RSS直方图900对应于图像部分510并且示出了多个零频率信号跨度(x轴值25至60、145-155、180-200等)。在步骤730，该过程评估所选择的图像部分的RSS直方图并确定非零频率信号跨度大小(例如，零频率信号之间的跨度)。例如，图9的RSS直方图900示出了多个非零频率行信号跨度(x轴值60-80、156-175等)。

该过程确定所选择的图像部分的高度在大小上是否类似于零频率信号跨度大小和非零频率信号跨度大小的最小线性组合(判定740)。在某一点的最小线性组合将是文本的行之间的空间(行间距)和最小非零频率信号跨度大小(字体大小)。在一个实施例中，该过程添加“高度缓冲器”以确保图像部分高度不会减小到接近字体大小的大小。例如，该过程可以使用停止规则“如果图像高度＜1.5*最小零频率信号跨度大小+1*两个连续的零频率信号跨度大小(非零频率信号跨度)之间的最小跨度长度，则停止图像分割。”

如果所选择的图像部分的高度在大小上类似于最小零频率信号跨度大小和最小非零频率行信号跨度的线性组合，则判定740分支到‘是’分支，随后在步骤750处，该过程将所选择图像部分标记为最终图像部分分解。

另一方面，如果所选择的图像部分的高度在大小上与最小零频率信号跨度大小和最小非零频率行信号跨度的线性组合不相似，那么判定750分支到‘否’分支。

该过程确定在特定分析轮回期间是否存在要分析的更多图像部分(判定760)。如果有更多的图像部分要分析，那么判定760分支到‘是’分支，其循环回以选择和处理下一个图像部分。该循环继续，直到在特定分析轮回期间不再有图像分析为止，此时，判定760分支到退出循环的‘否’分支。此后，图7在795处返回到调用例程(见图6)。

图8是描绘用于描述位图图像分解的各种图的示例性图。图800示出了递归分解器350如何将位图图像值聚合成行总和值810和列总和值820的图形视图。行总和值810中的每一个是其对应行中的像素值的聚合。同样，列总和值820中的每一个是其对应列中的像素值的聚合。图800中所示的值是为了说明的目的，并且不与位图图像340的实际值相关。

然后，递归分解器350将行总和值810组合成行总和信号(RSS)815，以馈送至如本文所讨论的局部傅里叶变换，以产生行总和值810之间的差的频率表示，该频率表示在RSS直方图830中示出并在下文讨论。同样地，递归分解器350将列总和值820组合成列总和信号(CSS)825以馈送至如本文中所讨论的局部傅立叶变换，以产生列总和值820之间的差的频率表示，该频率表示在以下所讨论的CSS直方图855中示出。

RSS直方图830示出了零频率区域835和840，其对应于文档310中在步骤640(图6)期间被修剪掉的上和下位图边界区域(页边)。区域845示出对应于文档310上的水平线的几个高条。区域850示出了零频率区域，该零频率区域对应于“总”行之后的最后一个水平线与文档310底部的术语和条件语言之间的区域(参见图4)。

CSS直方图855示出零频率区域860和870，其对应于文档310中的在步骤640(图6)期间被修剪的左和右位图边界区域(页边)。区域880示出对应于文档310上的垂直线的若干高条。基于时间直方图800和850，递归分解器350相应地将位图图像340分解为图像部分360。例如，递归分解器350可以选择在区域850的中间的分离位置以分离位图图像。图9示出了对图像部分360之一的进一步分析。

图9是描绘图像部分510以及通过对图像部分510应用傅里叶变换而产生的时间直方图900和950的示例性图。图像部分510是从位图图像340中分解的，如本文所讨论的。递归分解器350对与图像部分510相对应的行总和信号和列总和信号应用局部傅立叶变换，并且生成RSS直方图900和CSS直方图950。

RSS直方图900对应于图像510的高度，并且示出对应于图像部分510中的水平线的高条910、920及930。基于RSS直方图900，递归分解器350基于高条910、920和930来确定图像部分510可被进一步垂直分解，如本文所讨论的。

CSS直方图950与图像510的宽度有关并且示出高条960和零频率区域970，其分别对应于位置0处的垂直线和来自位置375-500的空白区域。基于时间直方图950，递归分解器350确定图像部分510不是进一步可垂直分解的。

图10是描绘具有沿宽度(X轴)的文档空间(表示为时间)、沿高度(Y轴)的频率分量以及沿幅度(Z轴)的频率或强度的幅度的图像部分的时间频谱表示1000的示例性图。在一个实施例中，频谱表示1000是诸如行总和信号(RSS)和列总和信号(CSS)之类的信号的组合的短时傅里叶变换(STFT)。

虽然已经示出和描述了本公开的特定实施例，但是对于本领域技术人员显而易见的是，基于本文的教导，在不背离本公开及其更广泛的方面的情况下可以做出改变和修改。因此，所附权利要求书将在其范围内涵盖在本公开的范围内的所有这样的改变和修改。本领域技术人员将理解，如果旨在具体数量的所引入的权利要求元素，则这样的意图将在权利要求中明确叙述，而在没有这样的叙述的情况下，不存在这样的限制。作为非限制性示例，为了帮助理解，以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”来引入权利要求元素。然而，这种短语的使用不应解释为暗示通过不定冠词“一个(a)”或“一种(an)”引入权利要求元素将包含这种引入的权利要求元素的任何特定权利要求限制为仅包含一个这种元素的公开，即使当相同的权利要求包括引入性短语“一个或多个”或“至少一个”以及不定冠词“一个(a)”或“一种(an)”时；这同样适用于定冠词的权利要求中的用途。

Claims

1.一种处理文档的方法，所述方法包括：

将所述文档转换成位图图像，所述位图图像将所述文档表示为像素值集；

将来自所述位图图像的像素值集聚合成行总和值集和列总和值集；

将局部傅立叶变换应用于所述行总和值集和所述列总和值集，以生成所述行总和值集和所述列总和值集的频率表示集；

基于在所述频率表示集中识别的至少一个分离位置，将位图图像分解成图像部分集；以及

将所述图像部分集发送到文本辨识系统。

2.根据权利要求1所述的方法，还包括：

将所述行总和值集组合成行总和信号；

将所述列总和值集组合成列总和信号；以及

将所述局部傅里叶变换应用于所述行总和信号以生成行频率表示，并且将所述局部傅里叶变换应用于所述列总和信号以生成列频率表示。

3.根据权利要求1或2所述的方法，还包括：

在所述行频率表示中识别零频率区域，其中所述零频率区域对应于所述位图图像中的相邻行之间的所述行总和值集的子集的不改变；以及

在所述零频率区域内选择所述分离位置。

4.根据权利要求1、2或3所述的方法，其中，在所述分解之前，所述方法还包括：

在所述列频率表示中识别与所述位图图像的第一组位图边界区域相对应的第一组零频率区域；

在所述行频率表示中识别与所述位图图像的第二组位图边界区域相对应的第二组零频率区域；以及

从所述位图图像中去除所述第一组位图边界区域和所述第二组位图边界区域。

5.根据前述权利要求中任一项所述的方法，其中，所述图像部分集包括第一图像部分和第二图像部分，所述方法还包括：

将来自所述第一图像部分的像素值的子集聚合成行总和值的子集和列总和值的子集；

将所述局部傅里叶变换应用于所述行总和值的子集和所述列总和值的子集，以生成频率表示的子集；以及

基于在所述频率表示的子集中识别的至少一个不同的分离位置来将所述第一图像部分递归地分解为第三图像部分和第四图像部分。

6.根据前述权利要求中任一项所述的方法，其中，所述频率表示集包括对应于所述行总和值集的行频率表示，并且其中，所述图像部分集包括第一图像部分和第二图像部分，所述方法还包括：

评估所述行频率表示的与所述第一图像部分相对应的一部分；

根据所述评估识别零频率信号跨度大小和非零频率信号跨度大小的最小线性组合；

确定所述最小线性组合是否接近所述第一图像部分的高度；以及

响应于确定所述最小线性组合接近所述第一图像部分的高度而终止所述第一图像部分的分解。

7.根据前述权利要求中任一项所述的方法，还包括：

由所述文本辨识系统对所述图像部分的集中的每一个应用光学字符辨识，以生成文本部分集，其中所述文本部分集中的每一个文本部分与所述图像部分中的一个相对应。

8.根据前述权利要求中任一项所述的方法，其中，转换所述文档包括：

将所述文档转换成包括像素强度集的黑/白图像；以及

将所述像素强度集归一化，以生成所述位图图像的所述像素值集。

9.一种信息处理系统，包括：

一个或多个处理器；

存储器，所述存储器耦合到所述处理器中的至少一个；

计算机程序指令集，其存储在所述存储器中并由所述处理器中的至少一个执行，以便通过执行以下动作来处理文档：

将来自所述位图图像的像素值集聚合成行总和值集和列总和值集，其中所述位图图像是文档的像素化表示；

基于在频率表示集中识别的至少一个分离位置，将位图图像分解成图像部分集；以及

将所述图像部分集发送到文本辨识系统。

10.根据权利要求9所述的信息处理系统，其中，所述处理器执行附加动作，所述附加动作包括：

将所述行总和值集组合成行总和信号；

将所述列总和值集组合成列总和信号；以及

11.根据权利要求9或10所述的信息处理系统，其中，所述处理器执行附加动作，所述附加动作包括：

在所述零频率区域内选择所述分离位置。

12.根据权利要求9、10或11所述的信息处理系统，其中，在所述分解之前，所述处理器执行附加动作，所述附加动作包括：

13.根据权利要求9至12中任一项所述的信息处理系统，其中，所述图像部分集包括第一图像部分和第二图像部分，并且其中，所述处理器执行附加动作，所述附加动作包括：

14.根据权利要求9至13中任一项所述的信息处理系统，其中，所述频率表示集包括对应于所述行总和值集的行频率表示，并且其中，所述图像部分集包括第一图像部分和第二图像部分，所述处理器执行附加动作，所述附加动作包括：

响应于确定所述最小线性组合接近所述第一图像部分的高度而终止所述第一图像的分解。

15.根据权利要求9至14中任一项所述的信息处理系统，其中，所述处理器执行附加动作，所述附加动作包括：

由所述文本辨识系统对所述图像部分集中的每一个应用光学字符辨识，以生成文本部分集，其中所述文本部分集中的每一个文本部分与所述图像部分中的一个相对应。

16.一种存储在计算机可读存储介质中的计算机程序产品，包括计算机程序代码，所述计算机程序代码在由信息处理系统执行时使所述信息处理系统执行动作，所述动作包括：

将文档转换成位图图像，所述位图图像将所述文档表示为像素值集；

基于在所述频率表示集中识别的至少一个分离位置，将所述位图图像分解成图像部分集；以及

将所述图像部分集发送到文本辨识系统。

17.根据权利要求16所述的计算机程序产品，其中，所述信息处理系统执行包括以下的进一步动作：

将所述行总和值集组合成行总和信号；

将所述列总和值集组合成列总和信号；以及

18.根据权利要求16或17所述的计算机程序产品，其中，所述信息处理系统执行包括以下的进一步动作：

在所述零频率区域内选择所述分离位置。

19.根据权利要求16、17或18所述的计算机程序产品，其中，在所述分解之前，所述信息处理系统执行包括以下的进一步动作：

20.根据权利要求16至19中任一项所述的计算机程序产品，其中，所述图像部分集包括第一图像部分和第二图像部分，所述信息处理系统执行包括以下的进一步动作：

基于在所述频率表示的子集中识别的至少一个不同分离位置将所述第一图像部分递归地分解为第三图像部分和第四图像部分。

21.一种包括指令的计算机程序，当所述程序由计算机执行时，使所述计算机执行根据权利要求1至8中任一项所述的方法。