CN104751148B - 一种版式文件中识别科学公式的方法 - Google Patents
一种版式文件中识别科学公式的方法 Download PDFInfo
- Publication number
- CN104751148B CN104751148B CN201510181354.5A CN201510181354A CN104751148B CN 104751148 B CN104751148 B CN 104751148B CN 201510181354 A CN201510181354 A CN 201510181354A CN 104751148 B CN104751148 B CN 104751148B
- Authority
- CN
- China
- Prior art keywords
- page
- formula
- character
- layout
- science formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种版式文件中识别科学公式的方法,所述方法包括:遍历版式文件提取的字符流信息,对提取的字符流信息进行预处理;对预处理后的字符流通过版面分析算法生成文件版面;提取版面空间布局特征及内容特征作为组合特征;根据空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学公式定位和提取;对多行公式进行合并后处理。本发明能够快速精确的识别版式文件中的科学公式。
Description
技术领域
本发明涉及文件处理技术领域,尤其涉及一种基于组合特征动态加权的版式文件中识别科学公式的方法。
背景技术
伴随着科学技术的飞速发展,版式文件在各个学科及各种生活、生产领域总均有广泛应用,且数量巨大。科学公式作为一种特殊的信息载体,亦广泛存在于版式文件中。
在电子版式文件中,公式的存储格式主要分为文字型公式、图片型公式和文字图片混合型公式三类。其中,文字型公式是指以字符格式存储和显示的公式;图片型公式是指以图像格式存储和显示的公式;文字图片混合型公式是指公式的一部分以图像格式存储,另一部分以字符格式存储的公式。在本次统计分析选取的679种电子版自然科学期刊中,每种期刊选取一本样张进行统计分析的情况下,按期刊所含公式情况进行统计,其中含有文字型公式的期刊所占比例为60.8%,仅含有图片型公式的期刊所占比例为1%,仅含有文字图片混合型公式的期刊所占比例为0.1%,既有文字型公式又有图片型公式的期刊所占比例为11%,三类公式都有的期刊所占比例为0.4%,而不含有公式的期刊比例为26.5%。因此,本领域的技术人员需要发展一种对版式文件中的科学公式进行识别的方法。
对所选取的样本进行统计,同样可以发现,期刊中文字型的公式最少由一个到最多含有1467个,平均每本所选期刊样本中含有的文字型公式的数量为128个。而含有图片型公式的期刊中,公式含有数目为1到247个,平均每本所选期刊样本中含有的文字型公式的数量为46个;混合型公式,在平均每本所选期刊样本中平均含量仅为1个。可见,文字型公式相对于其他两种形式的公式,在版式文件中的含有量比例最高,分布最多。因此,对版式文件中的文字型公式的研究的重要性可见一斑。
目前针对公式识别,主要集中在印刷体数学公式识别及手写数学公式识别。针对版式文件的研究,主要集中在版式文件中表格识别以及空格识别的方法,并没有版式文件中公式识别的相关方法。
发明内容
为解决上述技术问题,本发明的目的是提供一种版式文件中识别科学公式的方法。
本发明的目的通过以下的技术方案来实现:
一种版式文件中识别科学公式的方法,包括:
遍历版式文件提取的字符流信息,对提取的字符流信息进行预处理;
对预处理后的字符流通过版面分析算法生成文件版面;
提取版面空间布局特征及内容特征作为组合特征;
根据空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学公式定位和提取;
对多行公式进行合并后处理。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
能够从多种版面的版式文件中提取并识别科学公式,为版面文件中科学公式的提取与识别奠定了基础。
附图说明
图1是版式文件中识别科学公式的方法流程图;
图2是按期刊中含有科学公式情况进行统计的比例饼图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,是版式文件中识别科学公式的方法流程,包括:
步骤101遍历版式文件提取的字符流信息,对字符流进行基于内容的预处理。
对提取的字符流信息进行预处理,包括冗余的空格及对分栏等版面分析合并造成影响的多余字符。在这里,使用基于内容的方法,去除冗余字符;并设计结构树,用来存储每个字符的编码信息,坐标信息,以及字号信息。
步骤102对处理后的字符流通过版面分析算法生成文件版面。
版面分析算法使用了两次垂直投影算法,以进行简单分栏及复杂版面分栏;然后对当前版面中字符进行行合并;最后使用过分行合并的行分割算法,进行行调整。
具体的,合并算法如下:
采用基于字符位置信息的方法,遍历页面中所有字符,对满足条件的两个字符进行合并。
具体的,过分行合并的行分割算法:
设LS为该页面的左起始位置,ls代表当前行的起始位置,H代表该页面平均行高,h代表当前行的高度,FontEv代表当前页面的标准字号,T代表当前行的最小纵坐标,B代表当前行的最大纵坐标:
第一步,若h>ωH,ls>=LS,ls<=LS+θFontEv,其中ω,θ代表阈值,则进入第二步,否则取下一行;
第二步,设置标志数组flage,大小为B–T+1,采用水平方向字投影算法,若存在对flage存在:
则进入第三步,否则取下一行。其中lT代表每个字块的最小纵坐标,lB代表每个字块的最大纵坐标,δ代表阈值;
第三步,对步骤二中获得的k值进行验证,若满足条件,则以满足条件的步骤二中k为行分割线,进行过分行合并的行分割。
步骤103提取版面空间布局特征及内容特征等特征作为组合特征。
根据版面及字符流信息,获得的空间布局特征及内容特征,具体特征如下:
版面空间布局特征如下:
字符密度、字号方差、行基准线方差、当前行与平均行高的比例、当前行中心、当前行与页面左空白、当前行与页面右空白和页面中心
内容特征如下:
含有二目操作符和关系操作符的比例、中文字符比例和英文字符比例。
步骤104根据获得的空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学公式定位和提取。
具体的,按照以下规则判断公式行和文本行:
若该行中心在页面中心的右边,且大于阈值,为有注释的科学公式;
若与文档左右间距相当且与左边界有距离,且大于阈值,为科学公式;
若组合特征的动态加权的和大于一定阈值,则为科学公式。
步骤105:对多行公式进行行合并后处理。
在本步骤中,采用过分行分割合并策略,解决多行公式过分分割的问题。
具体的判别条件为:
1)当前两行在页面中所占位置为i与i+1,其中i为0到n-1,n为当前页面中的行数目;
2)当前行的上一行中,尾部为二目操作符或关系操作符;
3)当前行的下一行中,首部为二目操作符或关系操作符。当满足条件(1)且同时满足条件(2)或(3)时,则此两行进行公式行合并。
如图2所示,为按期刊中含有科学公式情况进行统计的比例饼图,其中1代表无公式的期刊、2代表只有图片型公式的期刊、3代表只有文字型公式的期刊、4代表只有文字图片混合型公式的期刊、5代表既有文字型公式,又有图片型公式的期刊、6代表三类公式都有的期刊。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (4)
1.一种版式文件中识别科学公式的方法,其特征在于,所述方法包括:
遍历版式文件提取的字符流信息,对提取的字符流信息进行预处理;
对预处理后的字符流通过版面分析算法生成文件版面;
版面分析算法使用了两次垂直投影算法,以进行简单分栏及复杂版面分栏;然后对当前版面中字符进行行合并;最后使用过分行合并的行分割算法,进行行调整;
具体的,合并算法如下:
采用基于字符位置信息的方法,遍历页面中所有字符,对满足条件的两个字符进行合并;
具体的,过分行合并的行分割算法:
设LS为该页面的左起始位置,ls代表当前行的起始位置,H代表该页面平均行高,h代表当前行的高度,FontEv代表当前页面的标准字号,T代表当前行的最小纵坐标,B代表当前行的最大纵坐标:
第一步,若h>ωH,ls>=LS,ls<=LS+θFontEv,其中ω,θ代表阈值,则进入第二步,否则取下一行;
第二步,设置标志数组flage,大小为B–T+1,采用水平方向字投影算法,若存在对flage存在:
则进入第三步,否则取下一行;其中lT代表每个字块的最小纵坐标,lB代表每个字块的最大纵坐标,δ代表阈值;
第三步,对第二步中获得的k值进行验证,若满足条件,则以满足条件的第二步中k为行分割线,进行过分行合并的行分割;
提取版面空间布局特征及内容特征作为组合特征;
根据空间布局特征及内容特征,使用基于组合特征动态加权的分类算法进行科学公式定位和提取;
具体的,按照以下规则判断公式行和文本行:
若该行中心在页面中心的右边,且大于阈值,为有注释的科学公式;
若与文档左右间距相当且与左边界有距离,且大于阈值,为科学公式;
若组合特征的动态加权的和大于一定阈值,则为科学公式;
对多行公式进行合并后处理。
2.如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,所述对提取的字符流信息进行预处理是采用基于内容的方法滤除对分栏及版面分析合并造成影响的多余字符。
3.如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,所述生成文件版面的内容特征之前,还包括:查找统计科学公式中关系操作符合运算操作符种类和个数,建立操作符匹配表。
4.如权利要求1所述的版式文件中识别科学公式的方法,其特征在于,
所述版面空间布局特征为:字符密度、字号方差、行基准线方差、当前行与平均行高的比例、当前行中心、当前行与页面左空白、当前行与页面右空白、页面中心及当前行所占页面中行位置;
所述内容特征为:含有二目操作符合关系操作符的比例、中文字符比例和英文字符比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510181354.5A CN104751148B (zh) | 2015-04-16 | 2015-04-16 | 一种版式文件中识别科学公式的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510181354.5A CN104751148B (zh) | 2015-04-16 | 2015-04-16 | 一种版式文件中识别科学公式的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104751148A CN104751148A (zh) | 2015-07-01 |
CN104751148B true CN104751148B (zh) | 2018-09-07 |
Family
ID=53590805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510181354.5A Active CN104751148B (zh) | 2015-04-16 | 2015-04-16 | 一种版式文件中识别科学公式的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104751148B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291682B (zh) * | 2016-03-30 | 2020-12-08 | 同方知网(北京)技术有限公司 | 一种基于跳转处理及双重校验的多篇电子文档分篇算法 |
CN106802884B (zh) * | 2017-02-17 | 2020-09-22 | 同方知网(北京)技术有限公司 | 一种版式文档正文碎片化的方法 |
CN107133566A (zh) * | 2017-03-31 | 2017-09-05 | 常诚 | 一种识别pdf文档中图表的方法 |
CN107943780B (zh) * | 2017-12-18 | 2021-07-06 | 科大讯飞股份有限公司 | 版面分栏方法及装置 |
CN108364009A (zh) * | 2018-02-12 | 2018-08-03 | 掌阅科技股份有限公司 | 二维结构公式的识别方法、计算设备及计算机存储介质 |
CN110210467B (zh) * | 2019-05-28 | 2021-07-30 | 广州华多网络科技有限公司 | 一种文本图像的公式定位方法、图像处理装置、存储介质 |
CN112712075B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3598711B2 (ja) * | 1997-02-21 | 2004-12-08 | 三菱電機株式会社 | 文書ファイリング装置 |
CN1702654A (zh) * | 2004-04-29 | 2005-11-30 | 微软公司 | 计算显示页面中块的重要度的方法和系统 |
CN101149790A (zh) * | 2007-11-14 | 2008-03-26 | 哈尔滨工程大学 | 中文印刷体公式识别方法 |
US7711189B2 (en) * | 2005-12-20 | 2010-05-04 | Fujitsu Limited | Layout analysis program, layout analysis apparatus and layout analysis method |
-
2015
- 2015-04-16 CN CN201510181354.5A patent/CN104751148B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3598711B2 (ja) * | 1997-02-21 | 2004-12-08 | 三菱電機株式会社 | 文書ファイリング装置 |
CN1702654A (zh) * | 2004-04-29 | 2005-11-30 | 微软公司 | 计算显示页面中块的重要度的方法和系统 |
US7711189B2 (en) * | 2005-12-20 | 2010-05-04 | Fujitsu Limited | Layout analysis program, layout analysis apparatus and layout analysis method |
CN101149790A (zh) * | 2007-11-14 | 2008-03-26 | 哈尔滨工程大学 | 中文印刷体公式识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104751148A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104751148B (zh) | 一种版式文件中识别科学公式的方法 | |
CN105930159A (zh) | 一种基于图像的界面代码生成的方法及系统 | |
CN103049750B (zh) | 字符识别方法 | |
US20150095769A1 (en) | Layout Analysis Method And System | |
CN101329731A (zh) | 图像中数学公式的自动识别方法 | |
Hassaïne et al. | A set of geometrical features for writer identification | |
CN113569865A (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
Rausch et al. | Docparser: Hierarchical document structure parsing from renderings | |
Kumar et al. | Multi-script robust reading competition in ICDAR 2013 | |
CN107622271A (zh) | 手写文本行提取方法及系统 | |
Seidl et al. | Automated classification of petroglyphs | |
Lehal et al. | Recognition of nastalique urdu ligatures | |
Ramteke et al. | Offline handwritten Devanagari script segmentation | |
Kapoor et al. | Fragmentation of handwritten touching characters in Devanagari script | |
CN104834891A (zh) | 一种中文图像型垃圾邮件过滤方法及系统 | |
Xu et al. | A new method for multi-oriented graphics-scene-3D text classification in video | |
Mahmood et al. | A novel segmentation technique for urdu type-written text | |
Huang et al. | A new video text extraction approach | |
Li et al. | A text-line segmentation method for historical Tibetan documents based on baseline detection | |
Elnagar et al. | A multi-agent approach to arabic handwritten text segmentation | |
Rani et al. | Performance analysis of feature extractors and classifiers for script recognition of English and Gurmukhi words | |
Ma et al. | A recognition system for online handwritten Tibetan characters | |
Karmakar et al. | Line and word segmentation of a printed text document | |
Patil et al. | Segmentation of isolated handwritten Marathi words | |
Sarkar | Word spotting in cursive handwritten documents using modified character shape codes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |