CN101661458B

CN101661458B - 电子文档处理装置及电子文档处理方法

Info

Publication number: CN101661458B
Application number: CN2009101665726A
Authority: CN
Inventors: 伊丹刚
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-08-29
Filing date: 2009-08-26
Publication date: 2012-08-29
Anticipated expiration: 2029-08-26
Also published as: US20100058175A1; JP2010055512A; US8225205B2; JP5247311B2; CN101661458A

Abstract

本发明提供一种电子文档处理装置及电子文档处理方法，该电子文档处理装置及电子文档处理方法即使对包含装饰文本串的图像也能够进行高精确度的诸如概念检索的高级检索。从包含布局信息的电子文档中提取文本串，并检测所提取的文本串的基线。随后，设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段。针对不同的文本串，确定如果对所述不同的文本串设置的所述线段A和所述线段B相互交叠，则所述不同的文本串联结。

Description

电子文档处理装置及电子文档处理方法

技术领域

本发明涉及电子文档处理装置及电子文档处理方法，尤其涉及从包含电子文档布局信息的电子文档中提取文本的电子文档处理装置及电子文档处理方法。

背景技术

传统上，通过提取电子文档中所包含的文本并确定其中是否包含检索关键字(search key)来进行电子文档中的文本的检索。作为检索方法，通常要确定在所提取的字符中是否包含检索关键字的至少一部分。

作为进一步限定的检索技术，存在确定是否完整地包含词的完全匹配词检索，以及使用由包括空格的多个词构成的短语作为检索关键字的短语检索。此外还存在全文检索，其对电子文档进行全面检索以查找检索词，并且如果找到包含有与所述检索词匹配的文本的电子文档，则将写有该文本的位置取回作为检索结果。

此外，还存在一种例如概念检索的高级检索技术，其允许以句子的形式指定想要检索的内容，并检索其内容与该句子相近的信息。

例如，我们假定从电子文档提取的文本是“He is a good boy.But，she isa bad girl”。利用概念检索，该检索认定“nice boy”和“good boy”符合，而“bad boy”在该检索中不符合。这是因为该检索处理适用于所提取的文本与文本所表示的概念相符的情况。

因此，当进行概念检索时，要求如果提取的文本是用日语写的，则该文本作为日语句子连贯，如果提取的文本是用英语写的，则该文本作为英语句子连贯。

另一方面，在包含字符的布局信息的电子文档中，存在表示文本绘制的命令(以下，称为文本绘制命令)的顺序与所述文本绘制命令在页面上被指定的绘制开始位置相互独立的情况。例如，可能存在如下情况：第一文本绘制命令从页面的中心开始，随后，第二文本绘制命令从页面的下部开始，最后，末文本绘制命令从页面的上部开始。

在实际的电子文档中，存在以PDF(便携式文件格式，注册商标)或PDL(页面描述语言)表示的情况。例如，存在作为用于创建PDF的软件的打印机驱动程序型软件。该打印机驱动程序型软件是这样一种软件，该软件用于当在创建了原始文档的字处理应用程序或绘图应用程序中给出打印指令时，如果选择了用于创建PDF的驱动程序来代替通常的打印机驱动程序，则根据打印命令创建PDF文件。

在此情况下，其中创建了原始文档的应用程序向PDF创建驱动程序传送打印命令的文本绘制的顺序取决于该应用程序。例如，该应用程序可以是自由布局的电子文档创建应用程序(例如，Microsoft Office PowerPoint、Microsoft Office Visio，二者均为注册商标)。利用该应用程序，可能存在如下情况：当不考虑页面上的句子布局而进行文本绘制时，文本绘制命令以句子明显缺乏连贯性的顺序输入到由PDF创建驱动程序创建的PDF文件中。换言之，虽然文本绘制命令在页面上所表示的坐标位置是正确的，但是文本绘制命令在PDF文件中的顺序却是随机的。

在自由布局的电子文档创建应用程序的情况下，按照操作者创建文本对象的顺序对所述对象依次进行编号和管理。然而，由于操作者利用自由布局的可操作性创建文档，因此，为保持句子的连贯性，不必按照创建文本对象的顺序来排列文本对象。如果根据这样的电子文档创建PDF文件，则创建的PDF文件例如图1所示。

图1例示了由自由布局的电子文档创建应用程序创建的PDF文件的示例性预览101以及该PDF文件中文本绘制命令的排列102。文本绘制命令以例如排列102的形式排列的原因在于，文本对象是由自由布局的电子文档创建应用程序创建的。在此情况下创建文本对象的顺序是“Michael”、“Confidential”、“sushi”、“Michael”、“Possibly”、“appreciates”。然而，所述文本对象随后被按照预览101所示的形式重新排列，使得按照操作者的意图组成句子。如果将该电子文档转换为PDF文件，则将按照排列102所示的顺序输入文本绘制命令。

由于当从这种PDF文件提取文本时无法保持句子的连贯性，因此接收到该结果的检索引擎充其量只能进行词检索，而在诸如概念检索的高级检索中存在精确度降低的问题。

为了克服这种基本问题，日本特开平08-194697号公报(1996)“识别PDL文件中记述的词的装置及方法”公开了一种当获取页面中的文本时根据坐标对文本绘制命令进行排序的示例性现有技术。日本特开平08-194697号公报(1996)公开了如下技术：不根据在电子文档中记述文本绘制命令的顺序提取文本，而暂时提取所有文本绘制命令和与其相关联的资源信息(例如，坐标)。随后，对文本绘制命令的偏移坐标(offset coordinate)(文本绘制的开始位置)进行排序，并按照排序结果的顺序提取文本，从而获得根据文本排列的文本提取结果。

然而，使用自由布局的电子文档创建软件(应用程序)，可能存在如下情况：由于装饰文本串可能被创建成例如以弧状形式排列的文本串，因此通过按照文本绘制命令的偏移坐标的顺序对文本进行排序无法成功地获取所述文本。

在本说明书中，“装饰文本串”指弧状、波状、圆状(环状)、方形或星形形式的文本排列，由此无法沿预定方向整齐排列文本。

图2例示了以图1所示的PDF文件为例，虽然按照偏移坐标的顺序对文本绘制命令进行了排序，但是无法成功获取文本的示例。

在图2中，对文本(文本串)进行了装饰使得其以弧状形式排列。表示“Possibly”的文本202具有坐标(4，20)。表示“Michael”的文本203具有坐标(8，25)。表示“appreciates”的文本204具有坐标(12，25)。表示“sushi”的文本205具有坐标(20，17)。表示“Michael”的文本206具有坐标(5，10)。表示“Confidential”的文本207具有坐标(10，10)。

通过按照文本绘制命令的偏移坐标的顺序对上述文本进行排序，基于各文本的坐标按照如下顺序获取图2所示的文本。换言之，按照文本203、文本204、文本202、文本205、文本206、文本207的顺序获取上述文本。然而，在如图2所示的PDF文件的情况下，该页面的设计想要的文本顺序自然是文本202、文本203、文本204、文本205、文本206、文本207。

取决于如何装饰文本，通过上述的按照文本绘制命令的偏移坐标的顺序排序可能随机地排列获取的文本。

传统上，当在包含装饰文本的图像中进行要求整个页面中的句子连贯性的高级检索(例如，概念检索)时，存在通过文本串提取所获取的文本与原句不同的情况。

发明内容

本发明提供一种即使对包含装饰文本串的图像也能够进行高精确度的、诸如概念检索的高级检索的电子文档处理装置及电子文档处理方法。

本发明提供一种电子文档处理装置，包括：提取单元，用于从包含布局信息的电子文档中提取多个文本串；检测单元，用于检测所提取的文本串中的各个文本串的基线；设置单元，用于对所提取的文本串中的各个文本串，设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段；以及确定单元，用于针对多个不同的文本串，当对所述不同的文本串设置的所述第一线段和所述第二线段交叠时，确定所述不同的文本串联结。

本发明提供一种电子文档处理方法，包括以下步骤：从包含布局信息的电子文档中提取多个文本串；检测所提取的文本串中的各个文本串的基线；对所提取的文本串中的各个文本串，设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段；以及针对多个不同的文本串，当对所述不同的文本串设置的所述第一线段和所述第二线段交叠时，确定所述不同的文本串联结。

根据本发明，由于可以检索到文本串的联结(concatenation)，因此对即使包含装饰文本串的图像也能够进行高精确度的、诸如概念检索的高级检索。

根据以下示例性实施例的描述(参照附图)，本发明的其他特征将变得明确。

附图说明

图1例示了现有技术的PDF文件的示例性预览以及在该PDF文件中的文本绘制命令的示例性排列；

图2例示了以图1所示的PDF文件为例的、虽然按照偏移坐标的顺序对文本绘制命令进行了排序但是无法成功获取文本的示例；

图3是例示根据本发明的实施例实现电子文档处理装置的示例性硬件结构的框图；

图4是例示根据本发明的实施例的文档处理的示例性过程的流程图；

图5是例示根据本发明的实施例的布局分析处理的流程图及其补充图；

图6例示了根据本发明的实施例的作为文本串样式的构成部分的示例性基线；

图7例示了根据本发明的实施例的用于输入条件的示例性用户界面；

图8A是例示根据本发明的实施例的联结(concatenating)文本串的处理的流程图；

图8B是图8A的流程图的补充图；

图9A是例示根据本发明的实施例的对文本串分组的处理的流程图；

图9B是图9A的流程图的补充图；

图10例示了根据本发明的实施例的用于输入条件的示例性用户界面；

图11A是例示根据本发明的实施例的对文本串分组的处理的流程图；

图11B是图11A的流程图的补充图；

图12是例示根据本发明的实施例的对分组后的文本串进行排列的处理的流程图；

图13例示了根据本发明的实施例的其中文本串联结并产生了分支的示例性状态；

图14例示了根据本发明的实施例的用于输入条件的示例性用户界面。

具体实施方式

以下将参照附图对本发明的实施例进行详细的说明。在附图中，对具有相同功能的组件设置相同的附图标记，并省略其重复说明。

为了在再现包含装饰文本串的图像中的句子的同时还能够提取该图像的文本串，本发明的实施例检测装饰文本串中的文本串的联结。

换言之，根据本发明的实施例的电子文档处理装置(也称作信息处理装置)包括，为了当如上所述装饰性地对将要从中提取文本的电子文档进行排列时检测文本的联结而依次进行如下处理的功能。

处理1：电子文档处理装置基于由各文本绘制命令所指定的文本串的基线来创建两种类型的线段(例如，创建自文本串向前延伸的线段A(第一线段)和自文本串向后延伸的线段B(第二线段))。

处理2：电子文档处理装置将作为在处理1中创建的两种类型的线段的线段A和线段B映射到坐标上。

处理3：当在电子文档处理装置中定义的条件下，第一文本串的线段A和第二文本串的线段B相互交叠时，电子文档处理装置确定线段A侧的文本串(第一文本串)与线段B侧的文本串联结。随后，将确定为联结的文本串连接(link)(分组)。

处理4：电子文档处理装置按照坐标的顺序对在处理3中分组后的文本串进行排序。

处理5：电子文档处理装置提取处理4的排序结果的文本。

如上所述，本发明的实施例具有检测文本串的联结和连接文本串的机制。因此，即使从具有装饰文本串的电子文档(由具有自由布局电子文档创建功能的应用程序生成)中，也能够不损害整页的句子的连贯性而获取文本。

因此，通过例如将根据本发明的实施例的电子文档处理装置应用于检索引擎，能够提高要求整页的所有句子的连贯性的高级检索(例如，概念检索)的精确度。

(第一实施例)

图3是例示本实施例的电子文档处理装置(信息处理装置)的示例性结构的框图。

附图标记301表示控制操作的CPU。附图标记302表示用于输入数据和指令的键盘。附图标记303表示显示电子文档图像的显示器。附图标记304表示用于存储电子文档的硬盘。附图标记305表示用于预先存储控制装置的程序和必要信息的ROM。附图标记306表示用作各种工作区的RAM。

与用于分析电子文档的结构的分析单元相对应的附图标记307表示布局分析处理器，用于对电子文档中由文本绘制命令所指定的文本串的配置特性进行分析。附图标记308表示文本串连接处理器，用于确定不同的文本串是否联结、并在确定联结的情况下将不同的文本串连接并分组。换言之，如果在电子文档处理装置中预先定义的条件下，不同的文本串的线段A和线段B相互交叠，则文本串连接处理器308确定线段A侧的文本串与线段B侧的文本串联结并将所述两个文本串连接。随后，文本串连接处理器308将连接的文本串分组。附图标记309表示按照坐标的顺序对分组后的文本串进行排序的排列处理器。

布局分析处理器307、文本串连接处理器308和排列处理器309在CPU301执行ROM 305中存储的计算机程序时得以实现。换言之，计算机程序能够使计算机(例如，根据本实施例的电子文档处理装置)用作布局分析处理器307、文本串连接处理器308和排列处理器309。存储计算机程序的计算机可读存储介质不限于ROM 305，还可以是例如硬盘304。

(本实施例的电子文档处理装置(信息处理器)的示例性操作)

图4是根据本实施例的文档处理的流程图。

在步骤S401中，布局分析处理器307进行如下参照图5所述的布局分析处理。在步骤S402中，文本串连接处理器308进行如下参照图8A、图9A以及图11A所述的文本串连接处理。在步骤S403中，排列处理器309进行如下参照图12所述的排列处理。在步骤S404中，电子文档处理装置基于步骤S401到步骤S403的处理结果，按照排列的顺序提取文本串的文本。

图5是例示在步骤S401中进行的布局分析处理的流程图及其补充图。

在步骤S501中，布局分析处理器307获取包含在电子文档中页面内的所有的文本绘制命令。当以PDF文件作为电子文档的示例时，文本绘制命令用T_j表示，同时在电子文档中给予图1的排列102所示的描述。

在步骤S502中，布局分析处理器307从与获取到的文本绘制命令相对应的字形信息中，获取由文本绘制命令所表示的文本串的基线，如附图标记5A所示。如图6的附图标记601所示，作为文本串样式的构成部分的基线是字形信息的一个构成部分。基线作为要求沿文本串的排列引导视线的线，可以简称为线。结果如图6所示，当排列文本时，各字符排列在作为基线601的直线上。

在步骤S503中，布局分析处理器307获取在步骤S502中获取的基线的偏移坐标，如附图标记5B所示。基线的偏移坐标定义首字符的基线的开始位置。

在步骤S504中，布局分析处理器307在基线上创建自文本串的首字符向前延伸的线段A作为第一线段，如附图标记5C所示。随后，在步骤S505中，布局分析处理器307在基线上创建自文本串的末字符向后延伸的线段B作为与第一线段类型不同的第二线段，如附图标记5D所示。在步骤S505之后，布局分析处理结束。

如本实施例所述，布局分析处理器307分别设置从通过文本串检测到的基线向前延伸和向后延伸的两种不同类型的线段，并在文档图像的坐标上配置所述线段。

在本实施例中，如下所述，关注两个文本串(第一文本串和第二文本串)，确定在预定条件下第一文本串的和第二文本串的、类型不同的线段是否交叠。在类型不同的线段中，线段A是自文本串向前延伸的一个线段，而线段B是自文本串向后延伸的另一个线段。因此，通过基于线段A和线段B是否相互交叠来确定连接，可以将在后文本串的最前部设置在在前文本串的尾部之后。

当创建线段A和线段B时，布局分析处理器307基于沿基线的座标的方向或线段的预定长度来获得线段A和线段B针对各文本串的函数。线段A(或线段B)的函数信息包括：线段A的函数(或平行于轴的函数、或相对于轴具有倾斜度(inclination)的函数)、线段的长度、线段两端的坐标。因此，可以使用线段A和线段B的函数信息在坐标上配置线段A和线段B。换言之，线段A和线段B的函数信息是用于在坐标上配置各线段的信息。

布局分析处理器307将获得的线段A的函数信息和线段B的函数信息存储在RAM 306中。

线段A和线段B的长度是用于检测文本串的联结的最重要指标之一。可以向本实施例的电子文档处理装置提供允许操作者输入用于检测文本串的联结的线段A和线段B的长度的用户界面。图7例示了用于输入指标的用户界面的优选示例。

当在显示器303上显示图7所示的用户界面时，操作者可以使用键盘302或指示设备来按照意愿输入用于检测连接而设置的线段的长度。当输入完成时，CPU 301接受关于线段的长度的用户输入，并根据该用户输入来改变自基线向前和向后延伸的线段的长度。布局分析处理器307使用该改变后的线段的长度来创建线段。

在本实施例中，线段的长度可以根据用户输入而变化，或者可以使用预定的长度。

图8A是例示根据本实施例的文本串连接处理的流程图，图8B是图8A的补充图。

在步骤S801中，文本串连接处理器308准备与在步骤S501中获取的文本绘制命令相同数量的缓冲器。将构成文本串的文本、由该文本串表示的线段A和线段B的函数信息以及标识符(ID)分配给各缓冲器。按照处理的顺序依次分配标识符(ID)。

在步骤S802中，文本串连接处理器308在检测文本串的联结时，基于线段A和线段B的函数信息，针对从缓冲器的总数(表示为n1)中选择的两个的组合，来检查是否存在线段A和线段B相互平行交叠的情况。如附图标记8B所示，检查是否存在线段A和线段B的函数相同的位置并且检查线段A和线段B是否共有任意的X坐标区域即可。换言之，在附图标记8B中假定文本串81的线段a和线段b，以及文本串82的线段c和线段d分别对应于线段A和线段B。在此情况下，文本串连接处理器308基于线段A和线段B的函数信息，比较作为文本串81和文本串82的不同类型的线段的线段b和线段c，并确定线段b和线段c是否交叠。由于可能存在具有相同倾斜度的线段A和线段B的位置在垂直方向上(或水平方向上)略微不同的情况，因此期望预先设置误差容许范围水平(间隔的允许范围)，使得即使在存在数个点(例如，1个点到3个点)的间隔的情况下也确定为交叠。例如，通过对线段A和线段B中的各个定义数个点的宽度，可以确定：如果使用该线宽绘制的各线段的区域相互交叠，则文本串近似平行地交叠。此外，当各线段的倾斜度相同时，可以测量线段A和线段B之间的距离，并且如果该距离在预定阈值内，则可以确定与线段有关的文本串平行地交叠。

使用组合的公式，可以将选择上述两个的组合表示为如附图标记8A所示的_n1C₂。在此，n1是存储有文本绘制命令的缓冲器的总数。

在步骤S803中，文本串连接处理器308基于步骤S802的处理结果确定是否存在线段A和线段B平行地交叠的情况，并且如果该确定结果为“是”，则进入步骤S804，而如果该确定结果为“否”，则进入步骤S805。在步骤S804中，文本串连接处理器308将其中线段A和线段B平行交叠的缓冲器分组，如附图标记8C所示。

图9A是例示在步骤S804中进行的、将其中线段A和线段B平行交叠的缓冲器分组的处理的细节的流程图，图9B是图9A的补充图。在本实施例中，基于自文本串的后端向后延伸的线段B与自文本串的前端向前延伸的线段A之间的交叠，确定文本串联结。

在步骤S901中，文本串连接处理器308创建交叠线段的缓冲器的ID对B→A，如附图标记9A所示。换言之，文本串连接处理器308针对交叠线段B和A的各对文本串创建这些交叠文本串的ID对。

如上所述，由于各文本串中的线段B自文本串向后延伸，因此关注某两个文本串，如果与线段B交叠的线段A设置在线段B之后，则将文本串中的一个设置在另一个之后。

例如，如果如附图标记9A所示在直线上联结有四个文本串，则创建三个缓冲器ID对。

根据附图标记9A，假定文本串91的线段i和线段j、文本串92的线段k和线段l、文本串93的线段m和线段n，以及文本串94的线段o和线段p分别对应于线段A和线段B。此外，假定文本串91的ID是“7”，文本串92的ID是“2”，文本串93的ID是“9”，文本串94的ID是“3”。

在本说明书中，“X”(X是自然数)表示文本串的标识ID。

由于如附图标记9A所示，与文本串91的线段B相对应的线段j和与文本串92的线段A相对应的线段k交叠，因此将“7”和“2”创建成一对。同样，各文本串的线段A和线段B之间的交叠将“2”和“9”创建成一对，将“9”和“3”创建成一对。

在步骤S902中，文本串连接处理器308根据在步骤S901中获取的缓冲器的ID对的组合来对ID进行排序，以使得ID按照一维方式排列。例如，按照一维方式对三个ID对进行排序产生如附图标记9B所示的顺序。

在步骤S903中，文本串连接处理器308确定是否存在缓冲器ID对不能够按照一维方式排序的情况。例如，如附图标记9C所示，存在文本串以交叠方式排列的情况(在附图标记9C中，文本串93和文本串95重叠)，并且在此情况下对缓冲器ID进行排序的结果产生了分支。

根据附图标记9C，文本串95具有作为线段A的线段q和作为线段B的线段r。文本串95的ID是“10”。

对于步骤S903的确定，如果结果为“是”，则处理流程进入步骤S904。而如果结果为“否”，则处理流程进入步骤S905。这里，由于在步骤S903中结果为“是”的情况很少，所以作为例外处理而准备步骤S904。

在步骤S904中，对于将缓冲器ID对进行排序的结果产生了分支的情况，文本串连接处理器308对具有较小数字的缓冲器ID赋予较高的优先级，同时按照一维方式对缓冲器ID进行排序。

例如，如果如附图标记9C所示文本串93和文本串95重叠，则因为在“7”-“2”之后生成“9”-“3”和“10”-“3”的序列，所以对于缓冲器ID的排列未完成一维排序。随后，如附图标记9D所示，按照“7”-“2”-“9”-“3”-“10”-“3”的顺序暂时排列缓冲器ID，其中在“7”-“2”之后的缓冲器ID对“9”-“3”和“10”-“3”中，对较小数字的“9”赋予较高的优先级。将重复的“3”删除，只留下它们中的一个。这里，针对存在重复的情况进行删除，而留下在最后端的、重复的缓冲器ID(在本示例中，为“10”之后的“3”)，从而使得线段B更容易地出现在连接后的文本串的尾部。结果，以诸如“7”-“2”-“9”-“10”-“3”的一维方式排列ID。

虽然在本实施例中如果产生分支则通过对具有较小数字的缓冲器ID赋予较高的优先级而进行排序，但是本发明不限于以上所述，可以通过对较大数字的缓冲器ID赋予较高的优先级而进行排序。

在步骤S905中，如附图标记9E所示，文本串连接处理器308新准备用于分组处理的缓冲器，排序结果的连接存储在该缓冲器中。此外，对新的缓冲器设置在之前处理中未使用的新的ID(附图标记9E中的“100”)。换言之，文本串连接处理器308将联结的文本串分到一组并对各组设置用于识别该组的ID(标识符)。

在步骤S906中，文本串连接处理器308删除在步骤S905中新分组的且成为不需要的缓冲器。

在步骤S805中，为检测文本串的联结，布局分析处理器307检查文本串是否以作为已在电子文档处理装置中设置的条件而定义的角度(条件角度)交叉(相交)。换言之，在经过步骤S803和S804的处理之后，针对从剩余缓冲器的总数(表示为n2)中选择两个的组合，进行关于线段A和线段B的函数是否相互交叉并以作为条件定义的角度相交的检查。如附图标记8E所示，例如定义条件角度，使得当线段A和线段B彼此相交的角度等于或小于90度时检测到联结。

使用组合的公式，可以将上述选择两个的组合表示为如附图标记8D所示的_n2C₂。

线段A和线段B彼此相交的角度的条件是用于检测文本串的联结的最重要指标之一。可以向本实施例的电子文档处理装置提供允许操作者输入用于检测文本串的联结的角度的条件的用户界面，线段A和线段B以所述角度彼此相交。图10例示了用于输入指标的用户界面的优选示例。

当在显示器303上显示图10所示的用户界面时，操作者可以使用键盘302或指示设备来按照意愿输入用于检测联结的线段彼此相交的角度θ。当输入完成时，CPU 301接受关于线段彼此相交的角度θ的用户输入，并根据该用户输入改变线段彼此相交的角度的容许范围(允许范围)。

在本实施例中，角度θ可以根据用户输入而变化，或者可以使用预定的角度。

在步骤S806中，布局分析处理器307基于步骤S805的处理结果确定在预定的联结条件下是否存在线段A和线段B彼此相交的情况。如果确定结果为“是”，则处理流程进入步骤S807，而如果确定结果为“否”，则文本串连接处理结束。

在步骤S807中，文本串连接处理器308将在定义的联结条件下相交的线段A和线段B的缓冲器分组，如附图标记8F所示。换言之，假定文本串83的线段e和线段f、以及文本串84的线段g和线段h分别与线段A和线段B相对应，如附图标记8F所示。在此情况下，文本串连接处理器308基于线段A和线段B的函数信息比较作为文本串83和文本串84中不同类型线段的线段f和线段g，并确定线段f和线段g是否彼此相交。

图11A是例示在步骤S807中进行的、将在定义的联结条件下彼此相交的线段A和线段B的缓冲器分组的处理的细节的流程图，图11B是图11A的补充图。在本实施例中，将在所述条件下自文本串向后延伸的线段B与自文本串向前延伸的线段A的相交确定为文本串的联结。

在步骤S1101中，文本串连接处理器308创建相交线段的缓冲器的ID对B→A，如附图标记11A所示。例如，如附图标记11A所示，如果在条件下有四个文本串通过相交而联结，则创建三个缓冲器ID对。

根据附图标记11A，假定文本串111的线段i和线段j、文本串112的线段k和线段l、文本串113的线段m和线段n，以及文本串114的线段o和线段p分别与线段A和线段B相对应。此外，假定文本串111的ID是“7”，文本串112的ID是“2”、文本串113的ID是“9”，文本串114的ID是“3”。

在步骤S1102中，文本串连接处理器308根据在步骤S1101中获取的缓冲器的ID对的组合，对ID进行排序，从而使得所述ID按照一维方式排列。例如，将四个ID对按照一维方式排序生成如附图标记11B所示的顺序。

在步骤S1103中，文本串连接处理器308确定是否存在由于环路联结(looped concatenation)而不能按照一维方式对缓冲器ID对进行排序的情况。

例如，如附图标记11C所示，存在以环路方式排列文本串的情况。在此情况下，可以确定：因为缓冲器ID对的排序产生了环路，所以无法确定缓冲器ID的始点和终点。

根据附图标记11C，文本串115的“线段A”和“线段B”分别被表示为线段C和线段D。在本实施例中，如上所述，线段A是自文本串向前延伸的线段(第一线段)，而线段B表示自文本串向后延伸的线段(第二线段)。假定文本串116的线段E和线段F、文本串117的线段G和线段H、文本串118的线段I和线段J、文本串119的线段K和线段L、文本串120的线段M和线段N、文本串121的线段O和线段P、以及文本串122的线段Q和线段R分别与线段A和线段B相对应。

此外，假定文本串115的ID是“1”，文本串116的ID是“9”，文本串117的ID是“3”，文本串118的ID是“6”，文本串119的ID是“7”。此外，假定文本串120的ID是“4”、文本串121的ID是“5”，文本串122的ID是“8”。

对于步骤S1103的确定，如果结果为“是”，则处理流程进入步骤S1104，而如果结果为“否”，则处理流程进入步骤S1105。

在步骤S1104中，对于缓冲器ID对的排序产生环路的情况，文本串连接处理器308以将在线段B侧具有最小数字的ID的缓冲器作为文本串联结的开始位置的方式，来按照一维方式对缓冲器ID进行排序。对于如附图标记11C所示的文本串，由于由于线段B侧具有最小数字的ID的缓冲器是文本串115(“1”)，因此文本串联结的开始为文本串115。因此，缓冲器ID的排列结果为“1”-“9”-“3”-“6”-“7”-“4”-“5”-“8”，如附图标记11D所示。

作为文本串联结的开始位置的文本串可以具有线段B侧最大数字的缓冲器ID。或者，该文本串也可以具有线段B侧从最小数字(或最大数字)起第n大(小)的数字的缓冲器ID，其中n是预定数字。

此外，在步骤S1105中，文本串连接处理器308确定是否存在由于分支而无法按照一维方式对缓冲器ID对进行排序的情况。

例如，如附图标记11E所示，存在文本串被排列成使得产生分支的情况。在此情况下，缓冲器ID的排序结果产生了分支。对于步骤S1105的确定，如果结果为“是”，则处理流程进入步骤S1106，而如果结果为“否”，则处理流程进入步骤S1107。这里，由于很少有步骤S1105中的“是”的情况，因此作为例外处理而准备步骤S1106。

根据附图标记11E，假定文本串123的线段q和线段r、文本串124的线段s和线段t，以及文本串125的线段u和线段v分别与线段A和线段B相对应。此外，假定文本串123的ID是“10”，文本串124的ID是“15”，文本串125的ID是“16”。

在步骤S1106中，对于缓冲器ID对的排序结果产生分支的情况，文本串连接处理器308按照一维方式对缓冲器ID进行排序。对于如附图标记11E所示的文本串的排列，在“7”-“2”之后生成缓冲器ID序列“9”-“3”-“10”和“15”-“16”-“10”。在分支的情况下，如附图标记11F所示，按照“7”-“2”-“9”-“3”-“10”-“15”-“16”-“10”的顺序暂时排列缓冲器ID，其中对在“7”-“2”之后的缓冲器ID对“9”-“3”-“10”和“15”-“16”-“10”中的较小数字“9”赋予较高的优先级。

将上述暂时排列中的重复的“10”删除，只留下它们中的一个。这里，由于针对分支点处的序列“9”-“3”-“10”和“15”-“16”-“10”，对序列“9”-“3”-“10”赋予较高的优先级，因此留下“10”作为删除重复ID的条件，从而保留了“9”-“3”-“10”对。因此，利用删除属于序列“15”-“16”-“10”中的“10”的条件，获得“7”-“2”-“9”-“3”-“10”-“15”-“16”的排列。

由于作为步骤S1106的排序方法存在根据文本串在分支点处相交的角度的合理确定方法，因此在以下描述的另一实施例中示出该方法。

虽然在本实施例中，如果产生了分支，则通过对具有较小数字的缓冲器ID赋予较高的优先级而进行排序，但是本发明不限于以上所述，可以通过对具有较大数字的缓冲器ID赋予较高的优先级而进行排序。

在步骤S1107中，与附图标记9E所示类似，文本串连接处理器308新准备用于分组处理的缓冲器，并将排序结果的连接存储在所述缓冲器中。此外，对新的缓冲器设置在之前处理中未使用的新的ID。换言之，文本串连接处理器308将连接的文本串分到一组并对各组设置用于识别该组的ID(标识符)。

在步骤S1108中，文本串连接处理器308删除在步骤S1107中新分组的且成为不需要的缓冲器。在步骤S1108之后，结束在定义的联结条件下彼此相交的线段A和线段B的缓冲器的分组处理，此外，还结束文本串连接处理。

在步骤S403中，进行在步骤S402中分组后的缓冲器的排列处理。在图12中示出步骤S403中进行的排列处理的细节。

在步骤S1201中，排列处理器309将在步骤S402中未能够被分组的文本串单独放入一组，使得能够在页面内的组之间进行页面中的排列处理。换言之，目标页面中的所有文本串都将被分到任意一个组中。

在步骤S1202中，排列处理器309将在组中保持的第一个文本串的偏移坐标设置为该组的基准坐标，如附图标记12A所示。

在步骤S1203中，排列处理器309根据对于在基准坐标的垂直方向(Y坐标方向)上具有较大值的坐标的排序顺序赋予较高优先级的规则来对组进行排序。换言之，进行排序，使得在排序后的一维排列中，将具有位于页面上部的文本串的组置前。

在步骤S1204中，排列处理器309确定是否存在在垂直方向上具有相同坐标的组。对于步骤S1204的确定，如果结果为“是”，则处理流程进入步骤S1205，而如果结果为“否”，则结束排列处理。

在步骤S1205中，排列处理器309根据对于在水平方向(X坐标方向)上具有较小值的坐标的排序顺序赋予较高优先级的规则来对组进行排序。换言之，进行排序，使得在排序后的一维排列中，将具有位于页面左部的文本串的组置前。在步骤S1205的处理之后，结束排列处理。

如上所述，排列处理器309检测分组后的文本串的偏移坐标作为基准坐标，并基于偏移坐标的坐标值排列各文本串。通过这样排列，排列处理器309能够确定提取文本串的顺序。

在步骤S404中，CPU 301按照通过步骤S403的排列处理进行排序的顺序来提取组的文本。如此所述，通过根据文档布局提取文本能够获取文本，而不会丧失整页的句子的连贯性。

如此所述，在本实施例中，电子文档处理装置针对各文本串，基于基线设置用作表示文本串的前部的线段A(第一线段)和用作表示文本串的后部的线段B(第二线段)。电子文档处理装置包含用于将各线段在坐标上展开的信息来作为各线段的函数信息，并基于该函数信息，将各文本串的线段A和线段B映射到坐标上。在映射后的线段中，如果不同类型的线段相互交叠，则将具有所述相互交叠的线段的文本串确定为联结，并对所述文本串进行分组。因此，即使按照一定角度来排列相邻的文本串，也能够确定所述文本串联结。换言之，对于装饰文本串，也能够以高精确度再现文本串的联结。

因此，例如，通过例如将本实施例的电子文档处理装置应用于检索引擎，能够提高要求整页的所有句子的连贯性的高级检索(例如，概念检索)的精确度。

(第二实施例)

在上述实施例的步骤S1106中，所述规则是通过对在文本串的分支点处具有较小数字的缓冲器ID赋予较高的优先级而对文本串进行排序。然而，在步骤S1106中，存在一种更符合文本布局的、定义文本串的联结的优先级的方法。

图13例示了根据本发明的实施例的其中文本串被联结并产生了分支的状态。

在图13中，假定文本串131的线段a和线段b、文本串132的线段c和线段d、以及文本串133的线段e和线段f分别与线段A和线段B相对应。此外，假定文本串131的ID是“5”，文本串132的ID是“8”，文本串133的ID是“7”。

在图13中，具有ID“8”的文本串132和具有ID“7”的文本串133联结在一起并且从具有ID“5”的文本串131产生分支。文本串132的作为线段A的线段c的函数相对于文本串131的作为线段B的线段b的函数形成角度θ1。同样，文本串133的作为线段A的线段e的函数相对于文本串131的线段b的函数形成角度θ2。

当然，通过平面三角学能够很容易算出两个相互交叉的线性函数所形成的角度θ。

如果θ1＜θ2，则从文本串131(“5”)连接文本串132(“8”)自然作为联结，形成角度θ1。因此，在联结文本串时产生了分支的情况下，优选对文本串相交的较小角度赋予较高的优先级来对文本串进行排序。换言之，当识别出有多个文本串联结到单个文本串的后部时，文本串连接处理器308能够根据前部文本串与后部文本串之间的角度来确定提取的顺序。换言之，当识别出文本串的联结时，可以通过对多个在后文本串中的、使在先文本串与在后文本串形成的角度较小的文本串赋予较高的优先级来联结文本串。

然而，符合文本布局的严格的排序处理对于系统来说负荷很重，并且可能对性能产生有害的影响。因此，优选允许选择是否通过该方法进行处理。本实施例中的电子文档处理装置提供允许操作者选择符合文本布局的严格处理或性能优先的处理的用户界面。图14例示了允许用户选择处理等级的用户界面的优选示例。

其它实施例

本发明的方面还可以通过系统或装置的计算机(或诸如CPU或MPU的设备)读出并执行记录在存储器设备上的、用于执行上述实施例的功能的程序来实现，并且本发明的方面还可以通过由系统或装置的计算机执行其步骤的方法来实现，例如通过读出并执行记录在存储器设备上的、用于执行上述实施例的功能的程序。为此，将程序例如经由网络或从用作存储器设备的各种类型的记录介质(例如，计算机可读介质)提供给计算机。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明并不局限于所公开的示例性实施例。应当对以下权利要求的范围给予最宽泛的解释，以使其涵盖所有这些变型例、等同结构和功能。

Claims

1.一种电子文档处理装置，该电子文档处理装置包括：

提取单元，用于从包含布局信息的电子文档中提取多个文本串；

检测单元，用于检测所提取的文本串中的各个文本串的基线；

设置单元，用于对所提取的文本串中的各个文本串，设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段；

确定单元，用于当确定对各对文本串中一个文本串设置的所述第一线段与对该对文本串中的另一个文本串设置的所述第二线段交叠或交叉时，确定联结该对文本串；

用于将被确定为联结的文本串分到一个组的单元；以及

用于通过根据由文本串的组检测到的坐标对文本串的组进行排序来确定文本串的顺序的单元。

2.根据权利要求1所述的电子文档处理装置，其中，所述设置单元设置在所述电子文档的坐标上配置的所述第一线段和所述第二线段，并且，其中，当确定对该一个文本串设置的所述第一线段和对该另一个文本串设置的所述第二线段在所述电子文档的坐标上交叠或交叉时，所述确定单元确定联结该对文本串。

3.根据权利要求1所述的电子文档处理装置，其中，当确定对该一个文本串设置的所述第一线段和对该另一个文本串设置的所述第二线段以等于或小于条件角度的角度交叉时，所述确定单元确定联结该对文本串，其中所述条件角度是以作为已在所述电子文档处理装置中设置的条件而定义的角度。

4.根据权利要求3所述的电子文档处理装置，该电子文档处理装置还包括：用于改变所述条件角度的容许范围的单元。

5.根据权利要求1所述的电子文档处理装置，该电子文档处理装置还包括：用于向所提取的文本串分配用于识别该文本串的标识符的单元，

其中，所述确定单元针对被确定为联结的各对所述文本串创建所述标识符的对，并基于所述标识符的对的组合按照一维方式对所述标识符的对进行排序。

6.根据权利要求1所述的电子文档处理装置，该电子文档处理装置还包括：用于改变作为用于确定联结的指标的、自所述基线向前延伸的所述第一线段的长度和自所述基线向后延伸的所述第二线段的长度的单元。

7.根据权利要求1所述的电子文档处理装置，其中，当在所述联结的确定中识别出在单个文本串的后部联结多个文本串时，通过对识别为联结的所述多个文本串中的、使在前文本串与在后文本串形成的角度最小的文本串赋予高的优先级，来联结文本串。

8.根据权利要求1所述的电子文档处理装置，该电子文档处理装置还包括：用于对所述组设置用于识别所述组的标识符的单元。

9.一种电子文档处理方法，该电子文档处理方法包括以下步骤：

从包含布局信息的电子文档中提取多个文本串；

检测所提取的文本串中的各个文本串的基线；

对所提取的文本串中的各个文本串，设置自所述基线向前延伸的第一线段和自所述基线向后延伸的、与所述第一线段的类型不同的第二线段；

当确定对各对文本串中的一个文本串设置的所述第一线段和对该对文本串中的另一个文本串设置的所述第二线段交叠或交叉时，确定联结该对文本串；

将被确定为联结的文本串分到一个组；以及

通过根据由文本串的组检测到的坐标对文本串的组进行排序来确定文本串的顺序。