CN104487966A

CN104487966A - 文档分类

Info

Publication number: CN104487966A
Application number: CN201280074859.6A
Authority: CN
Inventors: 卡罗来纳·加列吉略斯
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2012-07-23
Filing date: 2012-07-23
Publication date: 2015-04-01
Also published as: US20150178563A1; WO2014018001A1; EP2875446A4; EP2875446A1

Abstract

本文公开一种用于文档分类的系统。该系统的示例包括光源、相机、图像特征数据库及处理器，该相机用于采集文档的视频帧，该图像特征数据库包括与文档的类型相关的数据。该系统附加地包括非暂时性存储介质，该非暂时性存储介质包括指令，该指令在由该处理器执行时引起该处理器：将该文档的第一视频帧与该文档的第二视频帧作比较以确定是否已发生动作，基于第一视频帧或第二视频帧生成文档的图像描述，将该文档的图像描述与该图像特征数据库中与文档的类型相关的数据做比较，以及基于与所述数据的比较而分类该文档的图像描述。本文还公开了一种文档分类方法及计算机程序。

Description

文档分类

背景技术

终端用户欣赏电子设备的易于使用性和可靠性。例程和/或常规任务的自动化也是期望的。因此，设计者和制造商会尝试创建或建立对准这些目标中一个或多个目标的电子设备。

附图说明

下面的详细描述参照附图，其中：

图1是用于文档分类的系统的示例。

图2是用于文档分类的流程图的示例。

图3是文档分类的方法的示例。

图4是图3的文档分类的方法的附加要素的示例。

具体实施方式

当采集文档的图像以用于电子存储时，对这样的文档进行分类以用于之后的检索和使用是有用的。随着这样存储的文档数量的增加，这是特别实际的。这样的分类有助于提供对之前采集的文档的更快检索及其它任务，如文档收集管理及编辑。

终端用户越容易执行这样的文档图像采集及分类，则越好。能够做几件事来完成这一点，如提供在采集后自动地分类文档的系统、方法及计算机程序。这样的系统、方法和计算机程序可以为终端用户提供与这样的分类的确定性有关的可信度。这将向终端用户警示特定文档误分类的可能问题，文档误分类可以在文档图像采集时被纠正，这有助于增强文档图像收集的完整性和价值。

允许这样的文档图像采集及分类在自然的和/或人工的各种照明条件下发生，也提高了这种系统、方法和计算机程序的鲁棒性和可靠性。例如，终端用户可以在由于间歇性的云的原因而周期性地转阴的阳光充足的条件下开始工作。作为另一示例，在该系统、方法和计算机程序的不同使用时间期间，终端用户可以在不同类型的人工照明(例如白炽的和荧光的)之间切换。

通过使用各种不同类型的设备和部件允许这样的文档图像采集及分类发生，额外地增加了这样的系统、方法和计算机程序的有效性、可访问性及多功能性。例如，允许使用具有不同层次质量、特征和成本的各种不同类型的相机。作为另一示例，允许使用来自复杂大型机和服务器以及个人计算机、便携式计算机和平板计算机的各种不同计算设备。图1示出这样用于文档分类的系统10的示例。

如本文所用的，术语“非暂时性存储介质”以及“非暂时性计算机可读存储介质”被定义为包括但不一定限于：能够包含、存储或保持程序、信息及数据的任意介质。非暂时性存储介质和非暂时性计算机可读存储介质可以包括许多物理介质中的任一种，如电子介质、磁性介质、光介质、电磁介质或半导体介质。合适的非暂时性存储介质及非暂时性计算机可读存储介质的更具体示例包括但不限于：磁性计算机盘(如软盘或硬驱)、磁带、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪驱、光盘(CD)或数字视频光盘(DVD)。

如本文所用的，术语“处理器”被定义为包括但不一定限于：指令执行系统，如基于计算机/处理器的系统、专用集成电路(ASIC)、计算设备、或能够从非暂时性存储介质或非暂时性计算机可读存储介质取得或获取逻辑并执行非暂时性存储介质或非暂时性计算机可读存储介质中包含的指令的硬件和/或软件系统。“处理器”还可以包括任意控制器，状态机，微处理器，基于云的实体、服务或特征，或它们的任意其它模拟的、数字的和/或机械的实现方式。

如本文所用的，“相机”被定义为包括但不一定限于：以数字(例如，网络相机或视频相机)或模拟(例如，胶片)格式采集图像的设备。这些图像可以是彩色的或黑白的。如本文所用的，“视频”被定义为包括但不一定限于：采集、记录、处理、传送和/或存储图像的序列。如本文所用的，“视频帧”被定义为包括但不一定限于视频图像。

如本文所用的，“文档”被定义为包括但不一定限于被写的、被印刷的或电子的物质、信息、数据或提供信息或传递表达的物品。文档的示例包括：文本、一个或多个照片、名片、收据、邀请函等等。如本文所用的，“计算机程序”被定义为包括但不一定限于用于用处理器执行任务的指令。“光源”和“照明”被定义为包括但不一定限于：自然的(例如阳光、日光等)、人工的(例如白炽的、荧光的、LED等等)或其结合的具有任意波长和/或强度的一个或多个照明源。

再次参照图1，系统10包括光源12以及用于采集文档16的视频帧的相机14。如大体由虚线箭头20和22表示的那样，文档16被例如终端用户置于表面18上，使得可以采集这样的视频帧。如下面更充分地讨论的，根据系统10的配置以及这样的采集的成效，这些被采集的视频帧可以是连续的或非连续的。表面18可以包括用于文档16的任意类型的支撑(例如，桌子、垫子、台、座等)，且包括允许该表面区别于文档16的至少一个特性(例如，颜色、纹理、抛光、外形等)。

如图1中能够看到的，系统10附加地包括处理器24以及图像特征数据库26，图像特征数据库26包括与文档的一个或多个类型相关的数据。如图1中附加地能够看到的，系统10附加地包括非暂时性存储介质28，非暂时性存储介质28包括指令(例如，计算机程序)，如下面更充分地讨论的，该指令在由处理器24执行令时引起处理器24将由相机14采集的文档16的第一视频帧与由相机14采集的文档16的第二视频帧做比较，以确定是否已发生动作。

非暂时性存储介质28还包括其它指令，还如下面更充分地讨论的，该指令在由处理器24执行时引起处理器24基于第一视频帧或第二视频帧生成文档16的图像描述以及引起处理器24将文档16的该图像描述与图像特征数据库26中与文档的该类型有关的数据做比较。非暂时性存储介质28进一步包括指令，如下面附加地更充分地讨论的，该指令在由处理器24执行时引起处理器24基于与图像特征数据库26中与文档的该类型有关的数据的比较，对文档16的图像描述进行分类。非暂时性存储介质28可以更进一步包括指令，如下面进一步讨论的，该指令在由处理器24执行时，引起处理器24确定文档16的图像描述的分类的可信度。

如图1中能进一步看到的，处理器24联接至非暂时性存储介质28，如大体由双头箭头30表示的，以接收上述指令、接收和评估来自图像特征数据库26的数据以及将数据写或存储至非暂时性存储介质28。处理器24还联接至相机14，如大体由双头箭头32所表示的，以接收由相机14采集的文档16的视频帧以及控制相机14的操作。尽管在图1中将图像特征数据库26示出为位于非暂时性存储介质28上，但是应理解，在系统10的其它示例中，图像特征数据库26可以与非暂时性存储介质28分离。

图2示出通过系统10的用于文档分类的流程图34的示例。流程图34的技术或材料还可以以各种其它方式实现，如计算机程序或方法。如图2中能够看到的，通过如大体由框38表示的那样经由相机14采集文档16的第一视频帧图像以及经由相机14采集文档16的第二视频帧图像，流程图34开始36。在这样的示例中，这些图像以RGB色彩空间表示，且具有800×600像素的大小。将这些图像传递给动作识别模块40，以便确定是否已发生动作。如果文档16正被置于表面18上或正从表面18上被移除，则动作正在发生。否则，未发生动作。

计算这些视频帧图像之间的差异，以确定是否发生动作。也即，减去这些视频帧图像中的像素。如果两个帧不一样，那么正发生动作，且如图2中由箭头42所表示的那样，采集新的视频帧图像。通过不考虑比预定量(例如，300个像素)更小的差异，解决光的变化。如果未发生动作，那么流程图34继续到图像描述模块或框44。

如图2示出的该示例中能够看到的，图像描述模块或框44包括四个部分：分割46、文档大小或面积百分比(％)48、行检测50以及色彩或RGB分布52。分割部分46涉及在所采集的视频帧中的一个内定位文档16的图像，并将其与需要移除的任何背景部分(如表面18)隔离。

接下来的图像描述44利用三个不同的文档特性：分别由部分48、50及52表示的文档大小(α)、检测到的文本行的数目(β)以及色彩分布(h_RGB)，以更准确地区分每个文档类别。在该示例中，不利用任何图像增强或二值化来构造图像描述符，以节省计算时间。该描述符是刻画文档图像的特征的50维特征(D_i)，且可以被表示为：D_i＝(α,β,h_RGB)。

在该示例中，文档大小或面积百分比(％)部分48，通过对文档图像运行卡尼(Canny)边缘检测并随后计算所有边界而工作。丢弃比平均边界更小的所有边界。此后，计算凸包，且随后确定连接的部分。如果区域的朝向未接近零度(0°)，那么旋转图像并确定区域的范围。通过计算由对应的边界框划分的区域的面积，确定该范围。如果该范围小于70％，则意味着已将噪声区域视为文档的部分。这是假设文档是矩形对象的结果。

通过计算图像中对象的凸包，丢弃这些噪声区域。如果存在两(2)个以上的区域，那么移除那些与具有最大凸包面积的质心最远且其面积比中值小两(2)倍的区域。接下来，计算最大凸包，并将此区域的边界视为文档的分割。然后，相对于图像帧的大小计算文档的面积。

在该示例中，行检测部分50通过使用图像处理函数而工作。由于文档16的图像解析度可能对于区分字母不够好，所以通过定位被布置为基本上直线的显著区域来估计文本行。若有一图像，则利用卡尼边缘检测并然后利用霍夫(Hough)变换找出行，可以定位该图像的边缘。假设文档16在表面18上以大致平行的朝向放置，因此仅考虑具有85度和115度之间朝向的那些行。为了考虑可能对应于文本的那些行，还对图像运行哈里斯(Harri)角点检测器，以获得显著像素位置。穿过三(3)个以上显著像素的行被视为文本行。

在该示例中，色彩或RGB分布部分52通过计算包含文档16的区域的48维RGB色彩直方图而工作。每个直方图是对应于该图像的红色(R)通道、绿色(G)通道及蓝色(B)通道的三(3)个16位直方图的串联。

如在图2中还能看到的，在图像描述模块44完成时，接下来执行或实施分类模块54。在此过程期间使用图像特征数据库26，如大体由双头箭头56所表示的。

在图2图示的该示例中，最近邻居分类方法被用于分类文档图像。首先，将对应于不同文档的m个图像的集合置于表面18上并分别采集。每个文档分类c_i，c_i∈C具有类似数量的图像示例。然后，对于数据库26中该集合中的每个图像，计算50维文档描述符D_i，I＝1...m。然后，一旦分类新的文档图像，就使用所生成的对应于每个文档分类的图像特征D_i及标签c_i。

为了分类之前从未遇到过的文档16，计算其各自的文档描述符D_i。然后，利用卡方距离(chi-square distance)函数χ(.)找到图像特征数据库26D_m中此描述符的k个最近邻居。最后，利用其根据每个分类的示例数量加权的k个最近邻居计算文档描述符D_j的标签的概率分布：

P(C＝c|D_i)＝Σχ(D_j,D_i)/ωc；i∈η,c_i＝c

其中，c_i是数据库D_m中描述符D_i的标签，ω_c是分类c中示例的数量。最后，用标签c_j分类文档：

c_j＝argmaxP(C＝c|D_j)。

再次参照图2，如流程图34的框或模块58图示的，桌面区域为空是可能的，或者根本未检测到文档是可能的。如果情况是这样，则流程图34返回到图像采集框或模块38，以再次开始，如大体由箭头60表示的。如果检测到文档，那么为终端用户呈现文档类型和文档类型分类的可信度，如大体由箭头62和框或模块64表示的。在该示例中，可信度被呈现为百分比(例如，80％确信正确分类)。如果终端用户不满意该特别呈现的可信度，则他或她可通过返回框或模块38来重新采集文档的图像。

流程图34接下来继续到框或模块66，以确定是否存在另一文档图像要采集。如果存在，那么流程图34返回图像采集模块38，如箭头68所表示的。如果不存在，那么流程图34结束70。

图3示出文档分类的方法72的示例。如图3中能够看到的，方法72通过采集文档的第一视频帧(如框或模块76所表示的)和采集文档的第二视频帧(如框和模块78所表示的)开始74。通过将文档的第一视频帧与文档的第二视频帧做比较以确定是否已发生动作(如框或模块80所表示的)以及基于第一视频帧或第二视频帧生成文档的图像描述(如框或模块82所表示的)，方法72继续。接下来，通过将文档的图像描述与图像特征数据库做比较(如框或模块84所表示的)以及基于该比较而分类文档的图像描述(如框或模块86所表示的)，方法72继续。然后，方法72可以结束88。

图4示出文档分类的方法72的附加要素的示例。如图4中能够看到的，方法72可以进一步通过确定文档的图像描述的分类的可信度而继续，如框或模块90所表示的。

第一视频帧的采集及第二视频帧的采集可以在不同照明下发生。生成文档的图像描述的要素82可以包括将文档图像与背景图像分割开。生成文档的图像描述的要素82可以还或可选地包括估计文档的面积。生成文档的图像描述的要素82可以附加地或可选地包括估计文档中文本的行数。生成文档的图像描述的要素82可以进一步或可选地包括描述文档的色彩分布。最后，文档可以包括文本、照片、名片、收据和/或邀请函。

尽管已详细地描述和图示了几个示例，但是应清楚地理解，这几个示例的目的仅作为图示及示例。这些示例不旨在是穷尽的或将本发明局限于精确的形式或所公开的示例性实施例。修改和变化可能对本领域技术人员而言是显而易见的。本发明的精神和范围应仅由以下权利要求的项限制。

此外，除非明确规定，否则对单数元素的引用不旨在表示一个或仅一个，而是表示一个或多个。此外，元素或部分不旨在捐献给公众，不论以下权利要求中是否明确列举了该元素或部分。

Claims

1.一种文档分类方法，包括：

采集文档的第一视频帧；

采集所述文档的第二视频帧；

将所述文档的所述第一视频帧与所述文档的所述第二视频帧做比较，以确定是否已发生动作；

基于所述第一视频帧和所述第二视频帧中的一个，生成所述文档的图像描述；

将所述文档的所述图像描述与图像特征数据库做比较；以及

基于该比较，分类所述文档的所述图像描述。

2.根据权利要求1所述的文档分类方法，其中所述第一视频帧的采集和所述第二视频帧的采集在不同照明下发生。

3.根据权利要求1所述的文档分类方法，进一步包括：确定所述文档的所述图像描述的分类的可信度。

4.根据权利要求1所述的文档分类方法，其中生成所述文档的图像描述包括：将文档图像与背景图像分割开。

5.根据权利要求1所述的文档分类方法，其中生成所述文档的图像描述包括：估计所述文档的面积。

6.根据权利要求1所述的文档分类方法，其中生成所述文档的图像描述包括：估计所述文档中文本的行数。

7.根据权利要求1所述的文档分类方法，其中生成所述文档的图像描述包括：描述所述文档的色彩分布。

8.根据权利要求1所述的文档分类方法，其中所述文档包括文本、照片、名片、收据及邀请函中的一个。

9.一种用于文档分类的系统，包括：

光源；

相机，用于采集文档的视频帧；

图像特征数据库，包括与文档的类型相关的数据；

处理器；

非暂时性存储介质，包括指令，该指令在由所述处理器执行时引起所述处理器：

将由所述相机采集的所述文档的第一视频帧与由所述相机采集的所述文档的第二视频帧做比较，以确定是否已发生动作；

将所述文档的所述图像描述与所述图像特征数据库中与文档的类型相关的所述数据做比较；以及

基于与所述图像特征数据库中与文档的所述类型相关的所述数据的该比较，分类所述文档的所述图像描述。

10.根据权利要求9所述的系统，其中所述光源具有可变强度和可变照度之一。

11.根据权利要求9所述的系统，其中所述非暂时性存储介质包括附加指令，该附加指令在由所述处理器执行时引起所述处理器确定所述文档的所述图像描述的分类的可信度。

12.根据权利要求9所述的系统，其中生成所述图像的图像描述包括以下指令中的一个：用于将文档图像与背景图像分割开的指令，用于估计所述文档的面积的指令，用于估计所述文档中文本的行数的指令，以及用于描述所述文档的色彩分布的指令。

13.根据权利要求9所述的系统，其中所述图像特征数据库中与文档的类型相关的所述数据包括与文本、照片、名片、收据及邀请函中的一个有关的数据。

14.根据权利要求9所述的系统，其中所采集的视频帧是连续的。

15.一种非暂时性存储介质上的计算机程序，包括：

在由处理器执行时引起所述处理器采集文档的第一视频帧的指令；

在由处理器执行时引起所述处理器采集所述文档的第二视频帧的指令；

在由处理器执行时引起所述处理器将所述文档的所述第一视频帧与所述文档的所述第二视频帧做比较以确定是否已发生动作的指令；

在由处理器执行时引起所述处理器基于所述第一视频帧和所述第二视频帧中的一个而生成图像描述的指令；

在由处理器执行时引起所述处理器将所述文档的所述图像描述与图像特征数据库做比较的指令；以及

在由处理器执行时引起所述处理器基于该比较来分类所述文档的所述图像描述的指令。

16.根据权利要求15所述的计算机程序，进一步包括在由处理器执行时引起所述处理器确定所述文档的所述图像描述的分类的可信度的指令。

17.根据权利要求15所述的计算机程序，其中所述在由处理器执行时引起所述处理器生成所述文档的图像描述的指令包括：将文档图像与背景图像分割开的指令。

18.根据权利要求15所述的计算机程序，其中所述在由处理器执行时引起所述处理器生成所述文档的图像描述的指令包括：估计所述文档的面积的指令。

19.根据权利要求15所述的计算机程序，其中所述在由处理器执行时引起所述处理器生成所述文档的图像描述的指令包括：估计所述文档中文本的行数的指令。

20.根据权利要求15所述的计算机程序，其中所述在由处理器执行时引起所述处理器生成所述文档的图像描述的指令包括：描述所述文档的色彩分布的指令。

21.根据权利要求15所述的计算机程序，其中所述图像包括文本、照片、名片、收据及邀请函中的一个。