CN102663138A - 一种公式查询条件的输入方法与装置 - Google Patents
一种公式查询条件的输入方法与装置 Download PDFInfo
- Publication number
- CN102663138A CN102663138A CN2012101357873A CN201210135787A CN102663138A CN 102663138 A CN102663138 A CN 102663138A CN 2012101357873 A CN2012101357873 A CN 2012101357873A CN 201210135787 A CN201210135787 A CN 201210135787A CN 102663138 A CN102663138 A CN 102663138A
- Authority
- CN
- China
- Prior art keywords
- formula
- symbol
- document
- zone
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公布了一种公式查询条件的输入方法和装置。所述方法包括:用户通过截取屏幕区域的方式,选定当前文档的数字内容中需要检索的公式区域;如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入。该方法使得用户可以实现简单方便地输入待查询公式,达到了用户可以根据所看到的公式来进行自动检索的效果。解决了目前公式检索系统中用户不易于输入待查询公式的问题,满足用户对公式检索输入方式的易用性的要求,可以提升用户的检索体验和检索效率。
Description
技术领域
本发明属于文档识别与信息检索领域,涉及一种用于公式检索系统的公式查询条件输入方法。
背景技术
公式是科技文档的重要组成部分,在教育、科技等领域得到广泛使用。文档中的公式具有丰富含义,包含着重要信息,是一笔宝贵的数字资源。而当前由于缺乏成熟实用的公式检索技术,使得这部分知识很难被检索,长久以来未能得到激活、再生和利用。实现公式检索,一方面可以大大提高检索公式相关内容、科技文献等信息的效率,另一方面也可以促进信息的交流与共享。近些年来,以公式为查询条件以及检索对象的公式检索技术开始得到关注和研究。
目前主流的搜索引擎主要基于文本检索,例如:Google、Baidu,用户通过输入关键词作为查询条件,检索相关信息。然而,以数学公式为例,数学公式结构复杂,往往包含二维结构,对于大多数用户,特别是非数学专业的用户而言,编辑和输入数学公式作为查询条件的方式很不方便。如何实现简单方便的数学公式查询条件的输入是构建公式检索系统的难题之一。目前,一些现有的数学公式检索系统的查询条件输入方式包括以下几种:
(1)通过输入关键词和分类信息。典型的系统有:数学资源库Wolfram MathWorld(http://mathworld.wolfram.com/)以及ActiveMath(http://www.activemath.org/)。在这些系统中,用户如果需要检索感兴趣的公式,必须首先了解公式的相关信息(例如:名称、分类),才能通过关键词和分类索引进行检索。这种方式需要用户具备相当深厚的数学背景和充分的数学知识,对用户提出了很高的使用要求,并不能满足用户以公式本身作为查询条件,检索相关公式以及文献资料的需求。
(2)基于特定的查询语言。在文献“Youssef,A.Search of mathematical contents:Issues andmethods.Proceedings of the ISCA 14th International Conference on Intelligent and AdaptiveSystems and Software Engineering.2005.”,以及文献“Altamimi,M.E.,and Youssef,A.A MathQuery Language with an Expanded Set of Wildcards.Mathematics in Computer Science,2(2),305-331.2008.”中,此类方法被提出。用户需要根据检索系统自定义的一系列查询语言和转化规则,将二维公式使用一维线性语言进行表示。这种方式需要用户去学习和适应特定的查询语言,并不便于用户快速掌握和使用。
(3)通过上传公式结构描述文件,例如:LaTeX、MathML等。典型的系统例如LaTeXSearch(http://www.latexsearch.com)需要用户上传公式的LaTeX文件作为查询条件,而大多数情况下,检索用户并不是公式的创作者,他们并不拥有现成的公式LaTeX文件。因此,用户仍然需要额外编辑查询公式的LaTeX文件。而且,LaTeX是一种较为专业的排版语言,大多数的普通用户往往并不掌握LaTeX。可见,该输入方法的使用范围较为狭窄。
(4)通过公式编辑器输入公式。文献“Michael Kohlhase and Ioan A.Sucan.A Search Enginefor Mathematical Formulae.Artificial Intelligence and Symbolic Computation.241-253,2006.”提出的数学公式检索系统MathWebSearch(http://search.mathweb.org)采用这种输入方式,在检索页面提供图形化的公式编辑器,供用户输入查询公式。在现有的公式检索系统的查询条件输入方式中,通过公式编辑器输入查询公式的方式相对而言较为友好。然而,这种方式仍然要求用户花费额外精力编辑公式,而不能完全专注于检索。而且,当需要查询的公式越复杂,通过编辑器输入公式的过程也会变得更为复杂。
(5)通过手写输入公式。文献“Zanibbi,R.and Yu,L.Math Spotting:Retrieving Math inTechnical Documents Using Handwritten QueryImages.International Conferences on DocumentAnalysis and Recognition.446-451.2011”提出使用手写体公式图片作为数学查询条件。虽然手写输入方式更为友好,但该方法仍然需要用户额外地编辑公式,也会存在与(4)类似的问题。而且,该方法需要用户具备专用的手写板,否则,用户只能通过操作鼠标在计算机中输入手写公式,而这种方式并不方便,失去了手写输入的友好性。此外,使用手写体公式图片作为查询条件,也首先需要对手写体公式结构分析用于后续的检索匹配,而分析手写体公式结构往往要比分析印刷体公式结构更困难,手写公式的结构分析识别率普遍比印刷体公式的识别率低。
可见,目前的公式查询条件输入方式,都需要用户花费较大精力输入查询公式,并没有一种直接、方便、快速的查询公式的输入方法,这很大程度地影响了公式检索系统的友好性。
发明内容
为了解决现有公式检索系统中用户难以输入公式查询条件的问题,本发明提出一种基于公式结构分析的公式检索系统的公式查询条件输入方法,使得用户可以从数字内容中直接选定公式区域,自动提取公式结构,作为公式检索的查询条件。本发明使得用户可以方便地输入需要检索的公式,提高公式检索系统的易用性,提高用户检索效率。
本发明所述的数字内容包括以下文档类型:版式文档、图像文档、网页、Flash、图片等。版式文档(fixed-layout document),也称为矢量文档(vector graphic),是在不同设备和阅读软件上具有显示一致性的、版面固定的电子文档,典型的版式文档为PDF。除版式文档之外的数字内容,都可以通过截屏方式获得其相应的图像,因此,在本发明中,将版式文档之外的数字内容当作图像文档进行处理。
本发明的技术方案如下:
一种公式查询条件的输入方法,包括如下步骤:
1)用户通过截取屏幕区域的方式,选定当前文档中需要检索的公式区域;
2)如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;
3)根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入;
步骤2)中所述版式文档符号识别的实现方法为:
2.1)首先,对文档进行解析,获得文档页内容;然后,获取复合公式符号;最后,根据用户在步骤1)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M;
步骤2)中所述图像文档符号识别的实现方法为:
2.2)对文档图像进行图像预处理、符号分割以及符号识别,根据在步骤1)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M。
所述的输入方法,其特征是,步骤3)的实现方法如下:
3.1)预处理:根据符号识别结果,获取由多个符号组成的公式元素;
3.2)结构分析:分析3.1)得到的符号和元素之间的布局结构和逻辑结构;
3.3)输出结构化格式:将公式结构分析结果以结构化描述格式输出,并作为公式搜索引擎的查询输入。
所述的输入方法,其特征是,所述文档页内容,包括:文本、图形、图像等对象;所述获取复合公式符号,指将文档解析获得的文本、图形、图像等对象,映射成公式中的符号;所述符号的信息M,包括:编码、基线、位置、边框、字体(字体大小、字体名称、字体风格)等。
所述的输入方法,其特征是,步骤3.2)中,布局结构分析负责识别公式中符号间的布局关系(如:水平、上标等),一般使用公式符号的布局位置关系树表示;逻辑结构分析负责将公式符号间的运算关系(如:加、平方等)识别出来,然后通过特定的语法将布局位置关系树转化为逻辑关系树。
所述的输入方法,其特征是,步骤3)中,用户可以选择通过公式编辑器对公式结构分析结果进行查看并进行编辑修正,然后再作为公式搜索引擎的查询输入。
所述的输入方法,其特征是,步骤1)中,通过截取屏幕区域的方式选择需要查询的公式区域,公式区域为文档区域内的矩形框,具体地,用矩形框的左上角坐标和右下角坐标来表示。
所述的输入方法,其特征是,步骤3.1)的实现方法为:判断连续字符是否可以合并,若在同一基线上的连续数字字母符号串满足以下合并条件:符号均为数字,且字体名称、字体大小相同,符号间间隔小于符号大小的th倍,0<th<=0.5,则该连续符号可以合并;对于合并的符号串,若它们全都为数字符号,则判断该符号串为数字,若合并的符号串与已知数学符号表中的函数相同,则判断该符号串为数学函数;将判断为数字和数学函数的符号串分别作为整体,作为数学公式元素,用于后续结构分析。
所述的输入方法,其特征是,步骤3.2)中,采用基线法对数学公式进行结构分析,做法是:首先确定首符号,以首符号的基线作为公式的主基准线;从左到右依次处理基准线上的符号;根据每个符号所属的符号类型确定符号的作用域;获取每个作用域内的符号,并将该区域作为子公式区域递归分析;最终得到表示字符关系的基线树结构的树结构。
本发明同时提供一种公式查询条件的输入装置(系统结构如图1中“公式结构提取”部分所示),包括:公式区域获取模块、符号识别模块、公式结构分析模块,其特征是,
所述公式区域获取模块:负责获取用户需要检索的公式区域;
所述符号识别模块:分别对不同文档类型进行符号识别,包括版式文档符号识别、图像文档符号识别,如图2所示;符号识别模块除了识别符号身份,还将获取符号的布局信息,例如:基线、位置、边框、字体等;该模块最终输出用户选定的公式区域内的符号以及符号的布局信息;
所述公式结构分析模块:根据公式区域及其中的符号,进行数学公式结构分析,并输出到结构化描述格式,作为查询条件发送给公式搜索引擎进行检索;
所述公式结构分析模块包括三个子模块:预处理子模块、结构分析子模块及输出结构化格式子模块;其中,预处理子模块负责识别由多个符号组成的公式元素;结构分析子模块负责分析公式元素之间的布局关系和逻辑关系;输出结构化格式子模块负责将结构分析子模块分析的结果输出到便于检索和显示的结构化格式中。
所述的输入装置,其特征是,该装置还包括用户修正模块,用户使用该模块对公式结构分析结果进行编辑。在公式结构分析结果不理想,或者用户希望检索的公式与文档中的公式有所差别的情况下,用户可以通过启用该模块对所查询公式进行修正。该模块可通过公式编辑器的方式来实现与用户之间的交互。
本发明的效果在于:实现了一种基于结构分析的用于公式检索的公式查询条件输入方法,通过对用户截取屏幕区域选定公式的结构进行自动分析,从而获得公式的结构信息,进而可以用于公式检索。该方法使得用户可以实现简单方便地输入待查询公式,达到了用户可以根据所看到的公式来进行自动检索的效果。解决了目前公式检索系统中用户不易于输入待查询公式的问题,满足用户对公式检索输入方式的易用性的要求,可以提升用户的检索体验和检索效率。
附图说明
图1为本发明提供的系统结构图;
图2为本发明提供的符号识别流程图;
图3为本发明提供的实施例1的流程图;
图4为本发明提供的实施例2的流程图。
具体实施方式
下面通过实施例对本发明做进一步说明。
实施例1:
本实施例针对将版式文档中的数学公式作为查询条件输入检索系统的应用场景,介绍数学公式查询条件输入方法的具体实施过程。这里版式电子文档可以是PDF(Portable DocumentFormat)、CEB(Chinese E-document Basic)以及CEBX(Common e-Document of Blending XML)等。在本实施例中,公式结构分析采用了基于基线的公式结构分析算法。实现公式结构分析还可以通过其他的结构分析算法实现,例如:虚拟链接网络(“Yuko Eto and Masakazu Suzuki.Mathematical formula recognition using virtual link network.In Proceedings of the SixthInternational Conference on Document Analysis and Recognition(ICDAR01),762-767,2001.”)、图文法(“S.Lavirotte and L.Pottier.Mathematical formula recognition using graph grammar.InProceedings of the SPIE,Document Recognition,3305,44–52,1998.”)等。用户U的设备(个人电脑、手持设备等)需要先安装实现本发明功能的客户端插件,安装完毕后,本发明的功能模块将通过插件形式部署到用户U的电子文档阅读器中。用户U在阅读不同类型的文档(PDF、CEB、CEBX等)时,可以在对应的文档阅读器(Adobe Reader、Apabi Reader)的菜单中选择输入查询公式并进行公式检索。
本实施例的总体流程是:用户U在打开的版式文档中,通过截取屏幕区域的方式,选定需要检索的公式区域,并发出公式检索的请求。符号识别模块响应该请求,判断当前文档类型为版式文档,调用版式文档符号识别子过程,识别公式区域内的公式符号,并将识别结果发送给公式结构分析模块。公式结构分析模块对数学公式符号进行预处理,进行结构分析并将结果输出到结构化描述格式,最后得到数学公式的结构描述文件。用户U若选择启用用户修正模块,结构分析结果将在公式编辑器中展示给用户U,用户U可以查看并编辑公式结构分析结果。用户U保存的结构分析描述文件将作为查询条件,通过触发打开搜索引擎的方式,将查询条件发送给公式搜索引擎。如果用户U未选择启用用户修正模块,结构分析结果将直接被发送给公式搜索引擎。公式搜索引擎根据接收到的公式结构描述文件,以该公式描述文件作为查询条件进行公式检索。最后,将与查询条件所匹配的文档的摘要以及所匹配的公式返回给用户U。
本实施例的具体步骤为(参图3):
(1)公式区域获取
用户U通过启用安装在电子文档阅读器中的插件,在打开文档的当前页面中,通过截取屏幕区域的方式选择需要查询的公式区域。公式区域为文档区域内的矩形框,具体地,用矩形框的左上角坐标(x1,y1)和右下角坐标(x2,y2)来表示。坐标空间定义为:文档页面左下角点作为坐标原点,X轴方向从左到右增加,Y轴方向从下到上增加。
(2)版式文档符号识别
对于版式文档而言,版式文档符号识别需要经过文档解析和复合公式符号识别。
首先,符号识别模块需要解析版式文档。版式文档是由底层数据对象组成,包括:文本流、图形流和图像流,文档解析负责获取这些数据流。该模块根据不同的版式文档格式(PDF、CEB、CEBX等)的文档的生成/制作规范,可以解析得到版式文档的底层数据流。解析版式文档的方法,包括:1)直接读取版式文档文件,并根据文档格式/规范,实现文档解析器;2)使用现有的文档解析工具进行解析。以PDF为例,现有以下PDF文档解析工具:PDFBox、Xpdf、Multivalent等。
然后,符号识别模块对复合公式符号进行识别。从版式文档解析得到底层数据对象后,并不能够直接运用于后续识别。虽然大多数符号可以直接从文本对象获得,但是有一部分公式符号,并不是单个底层数据对象组成,而是由若干个文本、图形或图像对象构成。这里将这类数学符号称为复合公式符号。为了便于公式结构分析,需要对复合符号的零碎对象进行整合,映射得到数学公式符号。具体地,分别对以下几类符号设置规则进行识别:1)由若干个图形对象组成,例如:分数线;2)由多个文本对象组成,例如:竖直限定符;3)由若干个文本和图形对象共同组成:根号,水平括号。
最后,符号识别模块根据用户U在(1)步中选定的公式区域,保留该区域内的文档对象,并且保存这些对象的字符和布局信息,包括:编码、基线、位置、边框、字体(字体大小、字体名称、字体风格)等。
(3)公式结构分析
a)公式结构分析模块首先需要对公式元素进行预处理,将数学公式中,由多个符号共同组成的数学公式元素提取出来,包括:函数、数字。具体地,预处理的方法是:1)判断连续字符是否可以合并。若在同一基线上的连续数字字母符号串满足以下合并条件:符号均为数字,且字体名称、字体大小相同,符号间间隔(distance)小于符号大小的th倍(0<th<=0.5),则该连续符号可以合并。2)对于合并的符号串,若它们全都为数字符号,则判断该符号串为数字。类似的,若合并的符号串与已知数学符号表中的函数相同,则判断该符号串为数学函数,例如:sin。3)将判断为数字和数学函数的符号串分别作为整体,作为数学公式元素,用于后续结构分析。
b)公式结构分析模块根据以上步骤得到一系列数学公式元素,采用基线法对数学公式进行结构分析。首先,公式结构分析模块进行布局结构分析,即确定符号之间的空间位置关系。基线是印刷体文档排版时,用于使在同一水平线上的字符对其的基准点连成的直线。基线法的做法是:首先确定首符号,以首符号的基线作为公式的主基准线;从左到右依次处理基准线上的符号;根据每个符号所属的符号类型确定符号的作用域;获取每个作用域内的符号,并将该区域作为子公式区域递归分析;最终得到表示字符关系的基线树结构。其次,公式结构分析模块进行逻辑结构分析。根据布局结构分析得到的布局关系树,基于语法规则,转化为逻辑关系树。
c)公式结构分析模块最后将分析结果输出到结构化格式中,将布局分析和逻辑分析的结果分别输出到数学公式结构化描述格式中。在本实施例中,数学公式结构分析结果采用数学标记语言(Mathematical Markup Language,MathML)进行表示。布局结构分析结果用MathML的布局表达式(Presentation Markup)进行描述,逻辑结构分析结果用MathML的内容表达式(Content Markup)进行描述,得到包含内容表达式和布局表达式的MathML文件。
(4)用户修正模块为可选模块。默认情况下,该模块不启用,此时公式结构分析得到的结果将作为公式搜索引擎的输入。本实施例中用户U启用该模块。则在公式结构分析结束时,公式编辑器将被调用并打开,结构分析结果将在编辑器中显示。用户U可以在公式编辑器中查看结构分析的结果,并且进行修改。用户U保存修改并确认检索公式后,编辑器将输出修改后的公式结构描述文件,作为公式搜索引擎的输入。公式描述文件作为公式搜索引擎的输入进行搜索的动作由电子文档阅读器中的插件触发,过程是:打开浏览器、打开搜索页面、在搜索框中填充相应的公式、触发查询。
(5)进行公式搜索时,查找与查询公式的内容表达式相匹配的公式,以及引用这些公式的文档。
(6)公式搜索引擎将检索结果(文档的标题、作者、摘要,以及匹配的公式)通过浏览器展示给用户。
实施例2:
本实施例针对将图像文档中的数学公式作为查询条件输入检索系统的应用场景,介绍数学公式查询条件输入方法的具体实施过程。这里图像文档可以是扫描文档、对网页内容截屏得到的图像、对Flash内容截屏得到的图像或公式图片等。公式结构分析采用基于投影轮廓切割的方法,简称x/y切割法,进行公式结构分析。
用户U的设备(个人电脑、手持设备等)需要先安装实现本发明功能的客户端软件。用户U在查看扫描文档、网页、Flash或者公式图片的过程中,若需要对其中的公式进行检索,则可以通过截取屏幕中需要进行检索的公式区域,来输入查询条件。
本实施例的总体流程是:用户U在打开的图像文档中,通过获取选定区域通过截取屏幕区域的方式,选定需要检索的公式区域,软件获得该区域的图像文件,并发送给符号识别模块。符号识别模块判断当前文档为图像文档,调用图像文档符号识别子过程,识别公式符号。公式结构分析模块对数学公式符号进行预处理,进行结构分析并将结果输出到结构化描述格式,最后得到数学公式的结构描述文件,并发送给公式搜索引擎。公式搜索引擎根据接收到的公式结构描述文件,查找相关公式和文档,将文档的摘要以及所匹配的公式返回给用户U。
本实施例的具体步骤为(参图4):
(1)公式区域获取
用户U通过启用安装实现本发明功能的软件,在打开的图像文档中,通过屏幕截取的方式选择需要查询的公式区域。软件将公式区域存储成真彩色格式图片,并发送给符号识别模块。
(2)图像文档符号识别
对于图像文档,符号识别模块需要经过图像预处理、符号分割以及符号识别等步骤识别图像文档中的公式符号。
首先,符号识别模块需要对图像进行预处理,将公式区域获取模块获得的真彩色图像转化为灰度图像,再将灰度图像转化为二值图像。图像灰度化是指将含有亮度和色彩的彩色图像转换成仅包含亮度而不包含色彩的灰度图像,常用的灰度化方法:分量法、平均法、最大值法以及加权平均法。图像二值化是将256色灰度图像转化为只含有两个值(0或255)的二值图像,常用的二值化方法包括有:基于直方图谷点阈值法、最大类间方差法、最大熵法等。然后,符号识别模块进行平滑去噪,去除文档图像中的点状随机噪声,常用的平滑滤波的方法包括领域平均法、中值平均法。
然后,符号识别模块进行符号分割,符号分割负责从该二值图像中获取各个公式符号的连通域。公式字符分割一般通过基于轮廓跟踪或基于连通区域的分割方法。
符号识别模块最后进行公式符号的识别,得到组成各个符号的连通域后,符号识别模块首先需要对各个符号进行特征提取。适用于公式符号识别的特征包括:a)不变矩(几何矩),例如典型的Hu几何矩、Zernike矩;b)结构特征:包括字符的笔画数量、笔画走向、笔画间关系、孔洞数、高宽比和质心等;c)统计特征:包括字符投影特征、网格特征等。这几类特征共同组成字符的特征向量。然后,符号识别模块利用提到的特征向量,对大量公式字符建立模板库,通过模板匹配进行公式字符识别。
(3)公式结构分析
a)公式结构分析模块首先需要进行预处理,类似于实施例1的具体步骤(3)中a)预处理步骤,预处理负责获取由多个符号共同组成的数学公式元素,包括:函数、数字。
b)公式结构分析模块根据得到的一系列数学公式元素,首先采用x/y切割法对数学公式进行布局结构分析。具体地做法是,首先将公式区域内的字符投影到x(或y)轴上,在x(或y)轴上就会得到一些被覆盖的区间和间隔区间,在最大间隔处切割对区域进行切割成子区域。然后,分别对子区域按照同样的方法递归进行切割,直至无法切割为止。并且,对包围结构(例如:根号)进行判断和特殊处理。最终可以得到表示符号之间水平、竖直关系的嵌套关系树。其次,公式结构分析模块进行逻辑结构分析,根据x/y切割法得到的布局关系树,基于语法规则,转化为逻辑关系树。
c)公式结构分析模块最终将逻辑结构关系树输出成LaTeX公式结构描述文件,并发送给公式搜索引擎,进行公式检索。
(4)进行公式搜索时,查找与数据库中与查询公式的内容表达式相匹配的公式,以及引用这些公式的文档,并对文档进行排序,作为检索结果。
(5)公式搜索引擎将检索得到的匹配公式以及对应的文档,在浏览器中显示,将结果反馈给用户。
Claims (10)
1.一种公式查询条件的输入方法,包括如下步骤:
1)用户通过截取屏幕区域的方式,选定当前文档中需要检索的公式区域;
2)如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;
3)根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入;
步骤2)中所述版式文档符号识别的实现方法为:
2.1)首先,对文档进行解析,获得文档页内容;然后,获取复合公式符号;最后,根据用户在步骤1)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M;
步骤2)中所述图像文档符号识别的实现方法为:
2.2)对文档图像进行图像预处理、符号分割以及符号识别,根据在步骤1)中选定的公式区域,获取该区域内的公式符号,并且保存这些符号的信息M。
2.如权利要求1所述的输入方法,其特征是,步骤3)的实现方法如下:
3.1)预处理:根据符号识别结果,获取由多个符号组成的公式元素;
3.2)结构分析:分析3.1)得到的符号和元素之间的布局结构和逻辑结构;
3.3)输出结构化格式:将公式结构分析结果以结构化描述格式输出,并作为公式搜索引擎的查询输入。
3.如权利要求1所述的输入方法,其特征是,所述文档页内容,包括:文本、图形、图像对象;所述获取复合公式符号,指将文档解析获得的文本、图形、图像对象,映射成公式中的符号;所述符号的信息M,包括:编码、基线、位置、边框、字体。
4.如权利要求2所述的输入方法,其特征是,步骤3.2)中,布局结构分析负责识别公式中符号间的布局关系,用公式符号的布局位置关系树表示;逻辑结构分析负责将公式符号间的运算关系识别出来,然后将布局位置关系树转化为逻辑关系树。
5.如权利要求1所述的输入方法,其特征是,步骤3)中,用户通过公式编辑器对公式结构分析结果进行查看并进行编辑修正,然后再作为公式搜索引擎的查询输入。
6.如权利要求1所述的输入方法,其特征是,步骤1)中,通过截取屏幕区域的方式选择需要查询的公式区域,公式区域为文档区域内的矩形框,具体地,用矩形框的左上角坐标和右下角坐标来表示。
7.如权利要求2所述的输入方法,其特征是,步骤3.1)的实现方法为:判断连续字符是否可以合并,若在同一基线上的连续数字字母符号串满足以下合并条件:符号均为数字,且字体名称、字体大小相同,符号间间隔小于符号大小的th倍,0<th<=0.5,则该连续符号可以合并;对于合并的符号串,若它们全都为数字符号,则判断该符号串为数字,若合并的符号串与已知数学符号表中的函数相同,则判断该符号串为数学函数;将判断为数字和数学函数的符号串分别作为整体,作为数学公式元素,用于后续结构分析。
8.如权利要求2所述的输入方法,其特征是,步骤3.2)中,采用基线法对数学公式进行结构分析,做法是:首先确定首符号,以首符号的基线作为公式的主基准线;从左到右依次处理基准线上的符号;根据每个符号所属的符号类型确定符号的作用域;获取每个作用域内的符号,并将该区域作为子公式区域递归分析;最终得到表示字符关系的基线树结构的树结构。
9.一种公式查询条件的输入装置,包括:公式区域获取模块、符号识别模块、公式结构分析模块,其特征是,
所述公式区域获取模块:负责获取用户需要检索的公式区域;
所述符号识别模块:分别对不同文档类型进行符号识别,包括版式文档符号识别、图像文档符号识别;符号识别模块除了识别符号身份,还将获取符号的布局信息;该模块最终输出用户选定的公式区域内的符号以及符号的布局信息;
所述公式结构分析模块:根据公式区域及其中的符号,进行数学公式结构分析,并输出到结构化描述格式,作为查询条件发送给公式搜索引擎进行检索;
所述公式结构分析模块包括三个子模块:预处理子模块、结构分析子模块及输出结构化格式子模块;其中,预处理子模块负责识别由多个符号组成的公式元素;结构分析子模块负责分析公式元素之间的布局关系和逻辑关系;输出结构化格式子模块负责将结构分析子模块分析的结果输出到便于检索和显示的结构化格式中。
10.如权利要求9所述的输入装置,其特征是,该装置还包括用户修正模块,用户使用该模块对公式结构分析结果进行编辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101357873A CN102663138A (zh) | 2012-05-03 | 2012-05-03 | 一种公式查询条件的输入方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101357873A CN102663138A (zh) | 2012-05-03 | 2012-05-03 | 一种公式查询条件的输入方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102663138A true CN102663138A (zh) | 2012-09-12 |
Family
ID=46772629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101357873A Pending CN102663138A (zh) | 2012-05-03 | 2012-05-03 | 一种公式查询条件的输入方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102663138A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279583A (zh) * | 2013-06-28 | 2013-09-04 | 百视通新媒体股份有限公司 | 基于电子画板的实时搜索方法及系统 |
CN103425773A (zh) * | 2013-08-02 | 2013-12-04 | 深圳市菁优网络科技有限公司 | 一种利用原生Html在网页中快速显示数学公式的方法 |
CN104281589A (zh) * | 2013-07-03 | 2015-01-14 | 深圳习习网络科技有限公司 | 一种数学公式搜索方法及装置 |
CN104462466A (zh) * | 2014-12-17 | 2015-03-25 | 北京百度网讯科技有限公司 | 数学计算信息的查询方法和装置 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
CN104572577A (zh) * | 2014-12-17 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 数学公式处理方法及装置 |
CN105630761A (zh) * | 2016-03-04 | 2016-06-01 | 中国建设银行股份有限公司 | 公式处理方法及装置 |
CN105893338A (zh) * | 2015-02-17 | 2016-08-24 | 北京三星通信技术研究有限公司 | 用于输入公式的方法、装置和电子设备 |
CN106126660A (zh) * | 2016-06-24 | 2016-11-16 | 浙江万朋教育科技股份有限公司 | 一种基于数学公式的资源文件存储和资源检索方法 |
CN106372073A (zh) * | 2015-07-21 | 2017-02-01 | 北京大学 | 一种数学公式检索方法与装置 |
CN106446192A (zh) * | 2016-09-29 | 2017-02-22 | 广州鹤互联网科技有限公司 | 签核文件管理方法及装置 |
CN106611148A (zh) * | 2015-10-21 | 2017-05-03 | 北京百度网讯科技有限公司 | 基于图像的离线公式识别方法和装置 |
CN108304383A (zh) * | 2018-01-29 | 2018-07-20 | 北京神州泰岳软件股份有限公司 | 业务文档的公式信息提取方法及装置 |
CN108702550A (zh) * | 2016-02-26 | 2018-10-23 | 三星电子株式会社 | 用于识别内容的方法及设备 |
CN110795526A (zh) * | 2019-10-29 | 2020-02-14 | 北京林业大学 | 一种用于检索系统的数学公式索引创建方法与系统 |
CN110991279A (zh) * | 2019-11-20 | 2020-04-10 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
CN111382621A (zh) * | 2018-12-28 | 2020-07-07 | 北大方正集团有限公司 | 参数调整方法和装置 |
CN111400491A (zh) * | 2018-12-27 | 2020-07-10 | 北大方正集团有限公司 | 公式主体定位方法、装置、设备及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090019015A1 (en) * | 2006-03-15 | 2009-01-15 | Yoshinori Hijikata | Mathematical expression structured language object search system and search method |
-
2012
- 2012-05-03 CN CN2012101357873A patent/CN102663138A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090019015A1 (en) * | 2006-03-15 | 2009-01-15 | Yoshinori Hijikata | Mathematical expression structured language object search system and search method |
Non-Patent Citations (2)
Title |
---|
XIAOYAN LIN 等: "Identification of embedded mathematical formulas in PDF", 《SPIE-IS & T. DOCUMENT RECOGNITION AND RETRIEVAL (DRR) XIX》 * |
XIAOYAN LIN 等: "Mathematical Formula Identification in PDF Documents", 《THE 11TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279583A (zh) * | 2013-06-28 | 2013-09-04 | 百视通新媒体股份有限公司 | 基于电子画板的实时搜索方法及系统 |
CN104281589A (zh) * | 2013-07-03 | 2015-01-14 | 深圳习习网络科技有限公司 | 一种数学公式搜索方法及装置 |
CN103425773A (zh) * | 2013-08-02 | 2013-12-04 | 深圳市菁优网络科技有限公司 | 一种利用原生Html在网页中快速显示数学公式的方法 |
JP2018501551A (ja) * | 2014-12-17 | 2018-01-18 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 数式処理方法、装置、デバイス及びプログラム |
CN104462466A (zh) * | 2014-12-17 | 2015-03-25 | 北京百度网讯科技有限公司 | 数学计算信息的查询方法和装置 |
CN104572577A (zh) * | 2014-12-17 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 数学公式处理方法及装置 |
CN104572577B (zh) * | 2014-12-17 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 数学公式处理方法及装置 |
WO2016095502A1 (zh) * | 2014-12-17 | 2016-06-23 | 百度在线网络技术(北京)有限公司 | 数学公式处理方法、装置、设备和计算机存储介质 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
CN104463138B (zh) * | 2014-12-19 | 2018-08-28 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
CN105893338A (zh) * | 2015-02-17 | 2016-08-24 | 北京三星通信技术研究有限公司 | 用于输入公式的方法、装置和电子设备 |
CN106372073A (zh) * | 2015-07-21 | 2017-02-01 | 北京大学 | 一种数学公式检索方法与装置 |
CN106611148B (zh) * | 2015-10-21 | 2020-04-24 | 北京百度网讯科技有限公司 | 基于图像的离线公式识别方法和装置 |
CN106611148A (zh) * | 2015-10-21 | 2017-05-03 | 北京百度网讯科技有限公司 | 基于图像的离线公式识别方法和装置 |
CN108702550A (zh) * | 2016-02-26 | 2018-10-23 | 三星电子株式会社 | 用于识别内容的方法及设备 |
CN105630761B (zh) * | 2016-03-04 | 2019-03-12 | 中国建设银行股份有限公司 | 公式处理方法及装置 |
CN105630761A (zh) * | 2016-03-04 | 2016-06-01 | 中国建设银行股份有限公司 | 公式处理方法及装置 |
CN106126660A (zh) * | 2016-06-24 | 2016-11-16 | 浙江万朋教育科技股份有限公司 | 一种基于数学公式的资源文件存储和资源检索方法 |
CN106446192B (zh) * | 2016-09-29 | 2020-02-21 | 恒大智慧科技有限公司 | 签核文件管理方法及装置 |
CN106446192A (zh) * | 2016-09-29 | 2017-02-22 | 广州鹤互联网科技有限公司 | 签核文件管理方法及装置 |
CN108304383B (zh) * | 2018-01-29 | 2019-06-25 | 北京神州泰岳软件股份有限公司 | 业务文档的公式信息提取方法及装置 |
CN108304383A (zh) * | 2018-01-29 | 2018-07-20 | 北京神州泰岳软件股份有限公司 | 业务文档的公式信息提取方法及装置 |
CN111400491A (zh) * | 2018-12-27 | 2020-07-10 | 北大方正集团有限公司 | 公式主体定位方法、装置、设备及计算机可读存储介质 |
CN111382621A (zh) * | 2018-12-28 | 2020-07-07 | 北大方正集团有限公司 | 参数调整方法和装置 |
CN110795526A (zh) * | 2019-10-29 | 2020-02-14 | 北京林业大学 | 一种用于检索系统的数学公式索引创建方法与系统 |
CN110795526B (zh) * | 2019-10-29 | 2022-08-12 | 北京林业大学 | 一种用于检索系统的数学公式索引创建方法与系统 |
CN110991279A (zh) * | 2019-11-20 | 2020-04-10 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
CN110991279B (zh) * | 2019-11-20 | 2023-08-22 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102663138A (zh) | 一种公式查询条件的输入方法与装置 | |
AU2018247340B2 (en) | Dvqa: understanding data visualizations through question answering | |
Cliche et al. | Scatteract: Automated extraction of data from scatter plots | |
JP5031741B2 (ja) | 文書視覚構造の文法的な解析 | |
CN109684803B (zh) | 基于手势滑动的人机验证方法 | |
CN101297319B (zh) | 在电子文档中嵌入热点 | |
Sethi et al. | DLPaper2Code: Auto-generation of code from deep learning research papers | |
CN103605794A (zh) | 一种网站分类方法 | |
CN101211344A (zh) | 文本信息遍历的快速四维可视化方法 | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
Obaidullah et al. | Structural feature based approach for script identification from printed Indian document | |
Nayak et al. | Odia running text recognition using moment-based feature extraction and mean distance classification technique | |
Böschen et al. | Survey and empirical comparison of different approaches for text extraction from scholarly figures | |
Clavier et al. | DocMining: A cooperative platform for heterogeneous document interpretation according to user-defined scenarios | |
KR100609022B1 (ko) | 공간관계와 주석을 이용한 이미지 검색 방법 | |
Al-Dabbagh et al. | Intelligent bar chart plagiarism detection in documents | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
Yang et al. | CASIA-onDo: a new database for online handwritten document analysis | |
Pawade et al. | Automatic HTML code generation from Graphical User Interface image | |
CN103778210A (zh) | 一种待分析文件的文件具体类型的判断方法及装置 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
Huang et al. | Overview of mathematical expression recognition | |
Sastry et al. | A 3d approach for palm leaf character recognition using histogram computation and distance profile features | |
Hamplová et al. | Cuneiform Stroke Recognition and Vectorization in 2D Images. | |
Wan et al. | Data Synthesis for Document Layout Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120912 |