CN106326193A

CN106326193A - 一种版式文档中脚注识别方法及脚注与脚注引用关联方法

Info

Publication number: CN106326193A
Application number: CN201510342271.XA
Authority: CN
Inventors: 高良才; 黎斯达; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2017-01-11

Abstract

本发明公开了一种版式文档中脚注识别方法及脚注与脚注引用关联方法。本方法为：1)从版式文档中抽取底层信息；2)根据底层信息从该版式文档中识别出候选脚注区域；3)将识别出的每一候选脚注区域构造一特征向量，然后对特征向量进行聚类，根据聚类结果确定一目标特征向量，计算其与每一候选脚注区域的特征向量之间的相似度，剔除相似度小于设定阈值的候选脚注区域；4)对经步骤3)筛选后得到的候选脚注区域中的脚注条目进行分割；5)将分割后得到的脚注条目的序号与该版式文档的正文中的脚注序号进行匹配，如果序号对应则将该脚注条目与对应脚注序号建立关联。不依赖于特定的特征与规则，在识别不同样式脚注时，具有更高的正确率和召回率。

Description

一种版式文档中脚注识别方法及脚注与脚注引用关联方法

技术领域

本发明属于文档识别领域，涉及一种版式文档中脚注识别方法及脚注与脚注引用关联方法。

背景技术

随着个人计算机和网络的广泛使用，电子文档变得非常流行和常见。每天成百上万的文档例如技术报告、政府文件、报纸、书、期刊杂志、邮件、票据等等从文档处理软件(如排版软件)中生成。尤其是，由于PDF文档具有逼真保持版式和可靠的分发交换等性能，越来越多的电子文档开始采用PDF格式，该格式已经成为电子文档领域的一个事实标准。另一方面对于电子文档，尤其是数字出版物(如电子书)而言，除了内容信息以外，结构信息同样对读者的阅读理解、查询检索等起着重要的作用。然而，PDF文档缺少文档结构信息的描述，使得针对PDF文档的知识抽取等诸多应用成为一个挑战。因此，针对PDF文档进行结构信息提取的研究正获得越来越多的关注，并且在文档基本结构(例如标题、段落、表格、公式等)的识别上取得了一些进展。然而，交叉引用作为文档版面的重要组成元素，在之前的研究中尚很少涉及。

在一个文档中，交叉引用(例如脚注，参考文献，图表)用于标注并进一步解释它们对应的实体。一个交叉引用包括两个部分：引用与实体。例如，对于脚注而言，引用是指正文中通常以上标形式出现的引用，实体是指位于页面底端的用于进一步解释说明正文对应引用位置的文本。作为交叉引用中的一种，识别脚注对于文档结构理解的核心任务——页面元素类型标注起着重要作用。脚注本身包含的内容信息以及链接对应信息对于文档内容理解也有所帮助。此外，在移动设备上阅读文档，特别是阅读科技文献时，屏幕大小的限制可能导致脚注的引用与实体呈现在不同页面，从而给读者寻找引用对应实体的过程带来不便。识别出引用与实体之间的链接关系，有助于读者在引用处快速定位到对应实体，提高读者阅读体验。

与交叉引用相关的研究并不多见，并且相对集中在图表标题和参考文献上。Anjewierden描述了一个名为AIDAS的文档分析系统，采用一种递增式自底向上抽取文档逻辑结构(包括脚注、图标题等)的方法，但是系统使用的语法依赖于特定文档类型。Marinai等人在进行PDF到EPUB格式的转换过程中抽取了脚注。他们将字体大小小于主体字一定比例的数字识别为脚注的引用。在这样的假设下，非数字引用无法被正确识别，同时公式上标可能被误识别为脚注的引用。同时，他们将以数字开头且主体字小于文档主体字的段落识别为脚注的实体。但是并非所有类型的脚注的字体大小都小于文档主体字大小，同时该方法可能将有序列表和目录误识别为脚注。

可见，脚注识别在文档分析与识别领域有其必要性，但目前的研究对脚注关注较少，并且现有的识别方法大都不具有文档类型适应性，在针对大量文档进行脚注识别与抽取过程中会出现无法适应文档排版风格多样性的问题。

发明内容

为了解决现有脚注识别方法中依赖特定的文档样式和识别规则的问题，本发明提出一种版式文档中脚注识别方法及脚注与脚注引用关联方法。本发明基于特征聚类的脚注识别方法，使得识别过程可以适应不同样式的文档，然后将脚注与脚注引用进行关联，此外脚注的实体与引用匹配的结果为识别的过程提供了反馈，从而进一步提高识别的准确率和召回率。

本发明所述的数字内容指版式文档。版式文档(Fixed-layout document)，也称为矢量文档(vector graphic)，是在不同设备和阅读软件上具有显示一致性的、版面固定的电子文档，典型的版式文档格式为PDF和CEB、CEBX。

本发明的技术方案如下：

一种版式文档中脚注与脚注引用的关联方法，包括如下步骤：

1)从版式文档中抽取底层信息；

2)识别候选脚注区域；

3)对候选脚注区域进行特征聚类，剔除特征不匹配的候选脚注区域；

4)脚注条目分割；

5)匹配脚注条目与脚注引用；

6)利用匹配结果对参数进行调整。

步骤1)中所述底层信息包括：字符及其字体、大小、位置，路径(表示PDF中一种由指令绘制出的路径path，或者说线段)，平均文本行间距等信息。

步骤2)中的候选脚注区域，其特征是，每一页中脚注项集中出现的区域通常出现在页面底端；与正文区域之间有明显的视觉分隔；区域内条目的编号遵循页面内独立编号方式或者页面间连续编号方式；区域内的条目采用相同的字体字号。

步骤2)中的视觉间隔，其特征是，正文区域与页面底端的脚注区域之间会有一个明显的视觉分隔以方便读者阅读。这种视觉分隔通常有两种形式：脚注线和空白区域。

步骤2)中的识别候选脚注区域的方法，其特征是，判断是否存在两个连续文本行，其中第一个文本行为正文区域的最后一个文本行，第二个文本行为脚注区域的第一个文本行，两文本行之间存在视觉间隔，并且脚注区域内的文本行采用相同的字体字号。

步骤3)中特征聚类的方法，其特征是，首先计算候选脚注区域在位置、字体、条目编号方式构成的特征向量，然后使用K-means聚类对特征向量进行聚类。选择聚类结果中最大的簇的中心点作为目标特征向量，比如聚类之后最大的簇里有三个特征向量(1,0,0)(1,0,0)(1,1,0)，簇的中心点为(1,1/3,0)即最大簇中特征向量的平均值，我们把这个作为目标特征向量，计算目标特征向量与候选脚注区域的特征向量之间的余弦相似度，剔除相似度小于设定阈值的区域。

步骤4)中脚注条目分割的方法是，对于步骤3)中经过筛选后得到的候选脚注区域中的文本行，找出以聚类结果中的序号模式开始的文本行，比如常见的序号模式有：1，①，[1]，聚类结果中的序号模式如果是圆圈数字的形式，那么只找圆圈数字开头的文本行，不找单纯数字开头的文本行。由于非脚注项起始行也可能以数字开始，还需要检查序号是否连续，剔除明显超出当前页面脚注序号范围的文本行。然后依次将每一个文本行合并到之前最近的脚注项起始行，形成脚注条目。

步骤5)中脚注引用，其特征是，通常以上标形式出现在正文中的序号。其识别方法是，如果正文中的一个数字或者用于脚注序号的特殊符号位于文本行中线以上，并且其字体大小小于页面主体字，则识别为脚注引用。

步骤5)中匹配脚注条目与脚注引用的方法是，将脚注序号代表的序号与当前页面的脚注序号进行匹配，如果序号对应则认为建立了一个链接对应。

步骤6)中利用匹配结果对参数λ₁，λ₂，r，以及弦相似度的阈值进行调整的方法是：

a.如果没有找到脚注序号但是当前页面存在候选脚注区域，或者找到的脚注序号不能匹配候选脚注区域的序号，这时认为当前页面的候选脚注区域是一个错误识别的区域，将反馈给脚注区域识别的过程进行剔除，即如果没发现有脚注引用，之前的步骤却识别出了一个脚注区域，则反馈调整是剔除该脚注区域。

b.如果在脚注序号中找到多个能与候选脚注区域中某一个脚注项匹配。这种情况的出现一般是由于错误地将文档正文的公式中的指数识别为引用项。这里我们采用一种基于SVM的公式定位方法，排除那些位于公式中的引用项。如果匹配的引用项全部都位于公式定位范围内，则选择引用项的包围矩形在各自公式区域中最靠后的一个(原因是在公式中引用脚注通常是为了进一步解释公式，那么这种引用一般位于公式结束的位置)；如果经过公式区域排除后仍然有多个匹配的引用项，则将它们全部与匹配的脚注项建立链接对应。

c.如果当前页面没有找到候选脚注区域但是存在脚注序号。如果经过公式区域排除后仍然存在引用项，则反馈给第二步和第三步，对于当前页面适当降低阈值，再次检测是否存在脚注区域。

与现有技术相比，本发明的积极效果为：

与现有的基于规则的方法相比，本发明通过特征聚类的方式得到文档中脚注的风格特征，从而不依赖于特定的特征与规则，使得本发明在识别不同文档中排版样式多样的脚注时，能够取得更高的正确率和召回率。

附图说明

附图为本发明的方法流程图。

具体实施方式

下面通过实施例对本发明做进一步说明。

本实施例通过对题为“Bayesian Compressive Sensing”(下载地址为http://dsp.rice.edu/sites/dsp.rice.edu/files/cs/BCS_one_column.pdf)的PDF格式的学术论文(以下记为文档一)和《分配革命》(经济管理出版社，2001版)的PDF格式的图书(以下记为文档二)进行脚注抽取来说明本发明的内容。

本实施例的具体步骤为：

1)解析PDF版式文档，抽取底层信息并进行文档分析。

版式文档是由底层数据对象组成，包括：文本流、图形流和图像流，文档解析负责获取这些数据流。解析版式文档的方法，包括：1)直接读取版式文档文件，并根据文档格式/规范，实现文档解析器；2)使用现有的文档解析工具进行解析。以PDF为例，现有以下PDF文档解析工具：PDFBox、Xpdf、Multivalent等。

脚注识别还需要文本行、平均文本行间距等信息。这些信息不能直接从版式文档中获取，需要进行必要的文档分析与理解。

对于文本行，先采用空白覆盖算法(Breuel,Thomas M."Two geometric algorithms for layoutanalysis."Document analysis systems v.Springer Berlin Heidelberg,2002.188-199.)获得页面分栏，在每一分栏中将字符按照包围矩形是否存在水平交叠为原则聚集成行，然后按照从上到下、从左到右的阅读顺序对文本行进行排序。

平均文本行间距。文本行之间的距离通常是固定的，但是在一些情况下行间距可能会变化，例如标题行与段落首行间的距离通常比段落中的行间距大。因此，简单地累加所有的文本行间距然后求平均值得到的结果与实际段落中的文本行间距会有偏差。本文使用K-means算法(这里取K＝3)对所有文本行间距进行聚类。因为在一个文档中，普通段落的文本行一般是最多的，所以可以取聚类结果中最大簇的行间距的平均值作为平均文本行间距。

2)识别候选脚注区域

在一个页面中，对于步骤一中获取到的已排序的文本行，检查所有连续的两个文本行是否满足以下条件：首先利用正则表达式筛选出以数字(及其常见变化形式，包括带圈数字、小写英文字母等)或特殊符号(如星号*，剑标等)开头的文本行。例如，本实施例中的文档一第4页中符合上述条件的文本行有“[13]:”，“(4),itis straightforward to demonstrate thatthesolution in(1)corresponds to a maximum aposteriori”和“¹In practice,not all ofthe assumptionsmade in deriving(3)will necessarily bevalid,but henceforth we simply use(3)as a”。记满足正则表达式的文本行集合为C_TL，然后识别候选脚注区域。定义L＝{l₁,l₂,...,l_n}为页面一个分栏中的所有文本行，并且已经按照阅读顺序排序。首先检查是否存在两个连续文本行l_i,l_i+1满足l_i+1∈C_TL，并且l_i+1的序号N满足0＜N-N_Max＜λ₁(当文档脚注采用连续编号时)；或者0＜N＜λ₂(当文档脚注在各页面独立编号时)。这里N_Max是当前页面之前找到的最大的脚注序号，λ₁初始化为3，λ₂初始化为3。对于满足条件的两个文本行l_i,l_i+1，检查l_i,l_i+1之间是否存在视觉分隔区。识别视觉分隔区的方法是脚注线属于PDF文档中通过解析路径得到的水平直线段集合，空白区域则通过判断两个连续文本行之间的距离超过平均文本行间距的r倍，r初始化为2。另外，判断所有位于l_i+1下方的所有文本行，即文本行集合{l_i+1,l_i+2,...,l_n}是否使用相同风格的主体字。如果上述条件均符合，我们称{l_i+1,l_i+2,...,l_n}构成的文本行区域为一个候选脚注区域。例如对于本实施例中的文档一第4页：文本行“[13]:”不满足序号的合理范围；文本行“(4),it is straightforward to demonstrate that the solution in(1)corresponds to a maximum aposteriori”与上一个文本行之间不存在视觉分隔区；文本行“¹Inpractice,not all ofthe assumptions made in deriving(3)will necessarily bevalid,but henceforth wesimply use(3)as a”满足序号范围，与上一个文本行之间存在空白区域类型的视觉分隔区，且文本行下方所有文本行采用相同字体字号的主体字，因此是一个候选脚注区域。

3)对候选脚注区域进行特征聚类。

对于步骤2)中得到的候选脚注区域，提取下表列出的特征计算特征向量。

例如，对于本实施例中的文档一第4页，步骤2)选择出的候选脚注区域，其特征向量为(“空白区域”，“数字”，“NimbusRomNo9L”，1.22)，再经过数值化得到(0,0,0x9e,1.22)。

然后对所有候选脚注区域的特征向量使用K-means算法进行聚类，选择聚类结果中最大簇的中心向量作为聚类结果。然后计算候选脚注区域的特征向量与聚类结果的余弦相似度，剔除余弦相似度小于0.75的候选脚注区域。

4)脚注条目分割

对于步骤四筛选出的候选脚注区域中的文本行，找出以聚类结果中的序号模式开始的文本行。由于非脚注项起始行也可能以数字开始，还需要检查序号是否连续，剔除明显超出当前页面脚注序号范围的文本行。然后按照阅读顺序，依次将每一个文本行合并到之前最近的脚注项起始行，形成脚注项。

例如对于文档二第27页下方的候选脚注区域，需要剔除数字明显超出范围不是序号的文本行“1997.67～69”和“39～40”，然后以①和②开头的文本行作为脚注条目的起始行，将该脚注区域分为两个脚注条目。

5)匹配脚注条目与脚注引用

首先在正文区域(即页面中除去候选脚注区域的)识别脚注引用。对于一个文本行的某字符，如果它的包围矩形的中心位于当前文本行中线以上，并且字体大小小于页面主体字大小的λ₀(本文初始化为0.8)，就将它加入脚注序号中，如果它与某个脚注序号相邻，合并它们为一个候选项。将脚注序号代表的序号与当前页面的脚注序号进行匹配，如果序号对应则认为建立了一个链接对应。

例如对于文档一第12页的正文区域，符合上述条件的脚注引用项有公式(19)中的指数“1”以及文本行“discussed here,as applied to BCS and OMP⁶.As demonstrated,both the rigorousimplementation and”中的数字“6”。由于该页候选脚注条目序号为6，故将该脚注条目与数字“6”建立链接对应。

6)利用匹配结果对参数进行调整

a.如果没有找到脚注序号但是当前页面存在候选脚注区域，或者找到的脚注序号不能匹配候选脚注区域的序号，这时适当调整引用识别的参数检查是否能找到引用项，如果找到则再次进行匹配，否则认为当前页面的候选脚注区域是一个错误识别的区域，将反馈给脚注区域识别的过程进行剔除。例如文档二第24页中存在候选脚注区域，但是未找到脚注序号，故调整字体大小的参数为1.0，发现了脚注序号并进行匹配；第50页中的文本行“(一)智能化公司”下方的候选脚注区域，由于该页并没有找到脚注序号，放松参数后仍未找到，因此将该候选脚注区域剔除。

b.如果在脚注序号中找到多个能与候选脚注区域中某一个脚注项匹配。这种情况的出现一般是由于错误地将公式中的指数识别为引用项。这里我们采用一种基于SVM的公式定位方法(Xiaoyan Lin,Liangcai Gao,Zhi Tang,Josef B.Baker and Volker Sorge,"Mathematicalformula identification and performance evaluation in PDF documents",Int'l.Journal on DocumentAnalysis and Recognition(IJDAR),Volume 17,Issue 3,pp 239-255,September 2014.)，排除那些位于公式中的引用项。例如，文档一第5页中的公式“σ²”和“α₀＝1/σ²”中均存在能与脚注条目对应的脚注序号，利用上述公式定位方法，可以排除这些区域内的脚注序号。

c.如果当前页面没有找到候选脚注区域但是存在脚注序号。如果经过公式区域排除后仍然存在引用项，则反馈给第二步和第三步，对于当前页面适当调整阈值，再次检测是否存在脚注区域。例如文档一第8页存在脚注序号，但是未发现候选脚注区域，因此调整步骤二中的参数r＝1.5，发现了候选脚注区域，并成功进行匹配。

Claims

1.一种版式文档中脚注识别方法，其步骤为：

1)从版式文档中抽取底层信息；

2)根据该底层信息从该版式文档中识别出候选脚注区域；

3)将识别出的每一候选脚注区域构造一特征向量，然后对特征向量进行聚类，根据聚类结果确定一目标特征向量，计算目标特征向量与每一候选脚注区域的特征向量之间的相似度，剔除相似度小于设定阈值的候选脚注区域。

2.一种版式文档中脚注与脚注引用的关联方法，其步骤为：

1)从版式文档中抽取底层信息；

2)根据该底层信息从该版式文档中识别出候选脚注区域；

3)将识别出的每一候选脚注区域构造一特征向量，然后对特征向量进行聚类，根据聚类结果确定一目标特征向量，计算目标特征向量与每一候选脚注区域的特征向量之间的相似度，剔除相似度小于设定阈值的候选脚注区域；

4)对经步骤3)筛选后得到的候选脚注区域中的脚注条目进行分割；

5)将分割后得到的脚注条目的序号与该版式文档的正文中的脚注序号进行匹配，如果序号对应则将该脚注条目与对应脚注序号建立关联。

3.如权利要求1或2所述的方法，其特征在于，所述底层信息包括：字符及其字体、大小、位置信息，路径信息，平均文本行间距信息。

4.如权利要求1或2所述的方法，其特征在于，根据设定的脚注区域特征从该版式文档中识别出候选脚注区域；其中，设定的脚注区域特征包括：位于版式文档页面底端、与正文区域具有视觉分隔、条目编号遵循页面内独立编号方式或者页面间连续编号方式以及条目采用相同的字体字号。

5.如权利要求1或2所述的方法，其特征在于，从该版式文档中识别出候选脚注区域的方法为：首先利用正则表达式筛选出以数字或设定特殊符号开头的文本行，记满足正则表达式的文本行集合为C_TL；然后设L＝{l₁,l₂,…,l_n}为该版式文档当前页面一个分栏中已排序的所有文本行，检查是否存在两个连续文本行l_i,l_i+1满足l_i+1∈C_TL，并且l_i+1的序号N满足0＜N-N_Max＜λ₁或者0＜N＜λ₂，对于满足条件的两个文本行l_i,l_i+1，如果l_i,l_i+1之间存在视觉分隔区，且位于l_i+1下方的所有文本行，即文本行集合{l_i+1,l_i+2,…,l_n}使用相同风格的主体字，则将{l_i+1,l_i+2,…,l_n}构成的文本行区域作为一个候选脚注区域；其中N_Max是当前页面之前找到的最大的脚注序号，λ₁、λ₂为两设定阈值。

6.如权利要求1或2所述的方法，其特征在于，所述目标特征向量为聚类结果中最大的簇的中心点。

7.如权利要求6所述的方法，其特征在于，根据候选脚注区与版式文档正文的视觉分隔区类型、字体相对大小，候选脚注区中的序号类型、字体类型构造所述特征向量。

8.如权利要求2所述的方法，其特征在于，所述脚注条目进行分割的方法为：对于候选脚注区域中的文本行，找出以聚类结果中的序号模式开始的文本行，然后依次将每一个文本行合并到之前最近的脚注条目起始行，形成一脚注条目。

9.如权利要求2所述的方法，其特征在于，所述脚注序号的识别方法为：将正文中位于文本行中线以上且字体小于页面主体字的数字或用于脚注序号的特殊符号识别为脚注序号。

10.如权利要求2所述的方法，其特征在于，如果该版式文档的当前页面正文中未识别出脚注序号，但是存在候选脚注区域；或者识别出的脚注序号与候选脚注区域的序号没有匹配结果，则剔除该候选脚注区域。

11.如权利要求2所述的方法，其特征在于，如果该版式文档的当前页面正文中有多个脚注序号与候选脚注区域中的同一序号匹配，则采用基于SVM的公式定位方法，排除位于公式中的脚注序号；如果经过排除后仍有多个脚注序号与候选脚注区域中的同一序号匹配，则将这些脚注序号全部与匹配的序号建立链接对应；如果该版式文档的当前页面正文中没有候选脚注区域但存在脚注序号，则降低步骤3)中的设定阈值，重复步骤3)～5)。