CN104751148B

CN104751148B - 一种版式文件中识别科学公式的方法

Info

Publication number: CN104751148B
Application number: CN201510181354.5A
Authority: CN
Inventors: 薛蓓; 邹季英; 袁仁慧
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd; TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd; TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2018-09-07
Anticipated expiration: 2035-04-16
Also published as: CN104751148A

Abstract

本发明公开了一种版式文件中识别科学公式的方法，所述方法包括：遍历版式文件提取的字符流信息，对提取的字符流信息进行预处理；对预处理后的字符流通过版面分析算法生成文件版面；提取版面空间布局特征及内容特征作为组合特征；根据空间布局特征及内容特征，使用基于组合特征动态加权的分类算法进行科学公式定位和提取；对多行公式进行合并后处理。本发明能够快速精确的识别版式文件中的科学公式。

Description

一种版式文件中识别科学公式的方法

技术领域

本发明涉及文件处理技术领域，尤其涉及一种基于组合特征动态加权的版式文件中识别科学公式的方法。

背景技术

伴随着科学技术的飞速发展，版式文件在各个学科及各种生活、生产领域总均有广泛应用，且数量巨大。科学公式作为一种特殊的信息载体，亦广泛存在于版式文件中。

在电子版式文件中，公式的存储格式主要分为文字型公式、图片型公式和文字图片混合型公式三类。其中，文字型公式是指以字符格式存储和显示的公式；图片型公式是指以图像格式存储和显示的公式；文字图片混合型公式是指公式的一部分以图像格式存储，另一部分以字符格式存储的公式。在本次统计分析选取的679种电子版自然科学期刊中，每种期刊选取一本样张进行统计分析的情况下，按期刊所含公式情况进行统计，其中含有文字型公式的期刊所占比例为60.8％，仅含有图片型公式的期刊所占比例为1％，仅含有文字图片混合型公式的期刊所占比例为0.1％，既有文字型公式又有图片型公式的期刊所占比例为11％，三类公式都有的期刊所占比例为0.4％，而不含有公式的期刊比例为26.5％。因此，本领域的技术人员需要发展一种对版式文件中的科学公式进行识别的方法。

对所选取的样本进行统计，同样可以发现，期刊中文字型的公式最少由一个到最多含有1467个，平均每本所选期刊样本中含有的文字型公式的数量为128个。而含有图片型公式的期刊中，公式含有数目为1到247个，平均每本所选期刊样本中含有的文字型公式的数量为46个；混合型公式，在平均每本所选期刊样本中平均含量仅为1个。可见，文字型公式相对于其他两种形式的公式，在版式文件中的含有量比例最高，分布最多。因此，对版式文件中的文字型公式的研究的重要性可见一斑。

目前针对公式识别，主要集中在印刷体数学公式识别及手写数学公式识别。针对版式文件的研究，主要集中在版式文件中表格识别以及空格识别的方法，并没有版式文件中公式识别的相关方法。

发明内容

为解决上述技术问题，本发明的目的是提供一种版式文件中识别科学公式的方法。

本发明的目的通过以下的技术方案来实现：

一种版式文件中识别科学公式的方法，包括：

遍历版式文件提取的字符流信息，对提取的字符流信息进行预处理；

对预处理后的字符流通过版面分析算法生成文件版面；

提取版面空间布局特征及内容特征作为组合特征；

根据空间布局特征及内容特征，使用基于组合特征动态加权的分类算法进行科学公式定位和提取；

对多行公式进行合并后处理。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

能够从多种版面的版式文件中提取并识别科学公式，为版面文件中科学公式的提取与识别奠定了基础。

附图说明

图1是版式文件中识别科学公式的方法流程图；

图2是按期刊中含有科学公式情况进行统计的比例饼图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，是版式文件中识别科学公式的方法流程，包括：

步骤101遍历版式文件提取的字符流信息，对字符流进行基于内容的预处理。

对提取的字符流信息进行预处理，包括冗余的空格及对分栏等版面分析合并造成影响的多余字符。在这里，使用基于内容的方法，去除冗余字符；并设计结构树，用来存储每个字符的编码信息，坐标信息，以及字号信息。

步骤102对处理后的字符流通过版面分析算法生成文件版面。

版面分析算法使用了两次垂直投影算法，以进行简单分栏及复杂版面分栏；然后对当前版面中字符进行行合并；最后使用过分行合并的行分割算法，进行行调整。

具体的，合并算法如下：

采用基于字符位置信息的方法，遍历页面中所有字符，对满足条件的两个字符进行合并。

具体的，过分行合并的行分割算法：

设LS为该页面的左起始位置，ls代表当前行的起始位置，H代表该页面平均行高，h代表当前行的高度，FontEv代表当前页面的标准字号，T代表当前行的最小纵坐标，B代表当前行的最大纵坐标：

第一步，若h>ωH，ls>＝LS，ls<＝LS+θFontEv，其中ω，θ代表阈值，则进入第二步，否则取下一行；

第二步，设置标志数组flage，大小为B–T+1，采用水平方向字投影算法，若存在对flage存在：

则进入第三步，否则取下一行。其中lT代表每个字块的最小纵坐标，lB代表每个字块的最大纵坐标，δ代表阈值；

第三步，对步骤二中获得的k值进行验证，若满足条件，则以满足条件的步骤二中k为行分割线，进行过分行合并的行分割。

步骤103提取版面空间布局特征及内容特征等特征作为组合特征。

根据版面及字符流信息，获得的空间布局特征及内容特征，具体特征如下：

版面空间布局特征如下：

字符密度、字号方差、行基准线方差、当前行与平均行高的比例、当前行中心、当前行与页面左空白、当前行与页面右空白和页面中心

内容特征如下：

含有二目操作符和关系操作符的比例、中文字符比例和英文字符比例。

步骤104根据获得的空间布局特征及内容特征，使用基于组合特征动态加权的分类算法进行科学公式定位和提取。

具体的，按照以下规则判断公式行和文本行：

若该行中心在页面中心的右边，且大于阈值，为有注释的科学公式；

若与文档左右间距相当且与左边界有距离，且大于阈值，为科学公式；

若组合特征的动态加权的和大于一定阈值，则为科学公式。

步骤105：对多行公式进行行合并后处理。

在本步骤中，采用过分行分割合并策略，解决多行公式过分分割的问题。

具体的判别条件为：

1)当前两行在页面中所占位置为i与i+1，其中i为0到n-1，n为当前页面中的行数目；

2)当前行的上一行中，尾部为二目操作符或关系操作符；

3)当前行的下一行中，首部为二目操作符或关系操作符。当满足条件(1)且同时满足条件(2)或(3)时，则此两行进行公式行合并。

如图2所示，为按期刊中含有科学公式情况进行统计的比例饼图，其中1代表无公式的期刊、2代表只有图片型公式的期刊、3代表只有文字型公式的期刊、4代表只有文字图片混合型公式的期刊、5代表既有文字型公式，又有图片型公式的期刊、6代表三类公式都有的期刊。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种版式文件中识别科学公式的方法，其特征在于，所述方法包括：

对预处理后的字符流通过版面分析算法生成文件版面；

版面分析算法使用了两次垂直投影算法，以进行简单分栏及复杂版面分栏；然后对当前版面中字符进行行合并；最后使用过分行合并的行分割算法，进行行调整；

具体的，合并算法如下：

采用基于字符位置信息的方法，遍历页面中所有字符，对满足条件的两个字符进行合并；

具体的，过分行合并的行分割算法：

则进入第三步，否则取下一行；其中lT代表每个字块的最小纵坐标，lB代表每个字块的最大纵坐标，δ代表阈值；

第三步，对第二步中获得的k值进行验证，若满足条件，则以满足条件的第二步中k为行分割线，进行过分行合并的行分割；

提取版面空间布局特征及内容特征作为组合特征；

具体的，按照以下规则判断公式行和文本行：

若组合特征的动态加权的和大于一定阈值，则为科学公式；

对多行公式进行合并后处理。

2.如权利要求1所述的版式文件中识别科学公式的方法，其特征在于，所述对提取的字符流信息进行预处理是采用基于内容的方法滤除对分栏及版面分析合并造成影响的多余字符。

3.如权利要求1所述的版式文件中识别科学公式的方法，其特征在于，所述生成文件版面的内容特征之前，还包括：查找统计科学公式中关系操作符合运算操作符种类和个数，建立操作符匹配表。

4.如权利要求1所述的版式文件中识别科学公式的方法，其特征在于，

所述版面空间布局特征为：字符密度、字号方差、行基准线方差、当前行与平均行高的比例、当前行中心、当前行与页面左空白、当前行与页面右空白、页面中心及当前行所占页面中行位置；

所述内容特征为：含有二目操作符合关系操作符的比例、中文字符比例和英文字符比例。