CN104636741B - 公式识别方法和装置 - Google Patents

公式识别方法和装置 Download PDF

Info

Publication number
CN104636741B
CN104636741B CN201510064672.3A CN201510064672A CN104636741B CN 104636741 B CN104636741 B CN 104636741B CN 201510064672 A CN201510064672 A CN 201510064672A CN 104636741 B CN104636741 B CN 104636741B
Authority
CN
China
Prior art keywords
basic element
formula
region
maximum point
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510064672.3A
Other languages
English (en)
Other versions
CN104636741A (zh
Inventor
吴仑
王岩
梁爽
陈恭明
邹静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510064672.3A priority Critical patent/CN104636741B/zh
Publication of CN104636741A publication Critical patent/CN104636741A/zh
Application granted granted Critical
Publication of CN104636741B publication Critical patent/CN104636741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明提出一种公式识别方法和装置,该公式识别方法包括:对图像版面进行扭曲矫正;对矫正后的图像版面中的基本元素进行分割,根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域;根据公式符号对所述公式区域进行公式识别。本发明可以实现利用短文本图像中的多种局部特性,对短文本图像中的公式进行检测和识别,可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。

Description

公式识别方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种公式识别方法和装置。
背景技术
随着互联网技术快速发展以及智能手机的普及,图像已经成为人们记录和分享信息的主要方式,由此催生了大量以拍照作为检索输入的应用的产生。作为一种新的问答形式,以图像作为输入的自动答题系统越来越引起人们的关注。
在自动答题系统中,对于数学公式的检测、识别以及检索是三个关键的问题。目前常见的公式检测和识别方法主要应用在长文本图像中,由于长文本图像中具有丰富的全局信息,版面中的各种元素具有较大的区分度,利用一些简单的统计属性的差异就可以相对容易的定位公式,从而建立相对全面的基于文本内容的数据库。但是对于短文本来说,公式、文本和图表在版面中的比例相差不大,因此基于长本文的统计属性不适用于短文本。另外现有的公式识别方法多使用在一些光照变化不大、相对清晰、形变较小的长文本图像上,而对于用户随意输入的短文本图像的鲁棒性较低。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种公式识别方法。该方法可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。
本发明的第二个目的在于提出一种公式识别装置。
为了实现上述目的,本发明第一方面实施例的公式识别方法,包括:对图像版面进行扭曲矫正;对矫正后的图像版面中的基本元素进行分割,根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域;根据公式符号对所述公式区域进行公式识别。
本发明实施例的公式识别方法,对图像版面进行扭曲矫正之后,对矫正后的图像版面中的基本元素进行分割,根据图像版面中基本元素的特征确定上述基本元素所在区域为公式区域,最后根据公式符号对上述公式区域进行公式识别,从而可以实现利用短文本图像中的多种局部特性,对短文本图像中的公式进行检测和识别,可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。
为了实现上述目的,本发明第二方面实施例的公式识别装置,包括:矫正模块,用于对图像版面进行扭曲矫正;分割模块,用于对所述矫正模块矫正后的图像版面中的基本元素进行分割;确定模块,用于根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域;识别模块,用于根据公式符号对所述确定模块确定的公式区域进行公式识别。
本发明实施例的公式识别装置,矫正模块对图像版面进行扭曲矫正之后,分割模块对矫正后的图像版面中的基本元素进行分割,确定模块根据图像版面中基本元素的特征确定上述基本元素所在区域为公式区域,最后识别模块根据公式符号对确定模块确定的公式区域进行公式识别,从而可以实现利用短文本图像中的多种局部特性,对短文本图像中的公式进行检测和识别,可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明公式识别方法一个实施例的流程图;
图2为本发明公式识别装置一个实施例的结构示意图;
图3为本发明公式识别装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明公式识别方法一个实施例的流程图,如图1所示,该公式识别方法可以包括:
步骤101,对图像版面进行扭曲矫正。
在用户输入的短文本图像中,经常会出现图形的旋转以及扭曲变形,这会导致图像版面中基本元素的分割不准确,从而产生错行、串行等划分错误,进而无法对公式进行准确地识别。因此,本实施例中,需要先对图像版面进行扭曲矫正,以对图像版面中的基本元素进行准确分割。
具体地,对图像版面进行扭曲矫正可以为:获得图像版面中文本行的中心线,在上述图像版面中每一基本元素的位置上对上述文本行的中心线进行微调,以使上述文本行的中心线逼近直线,完成对图像版面的扭曲矫正。
具体地,获得图像版面中文本行的中心线可以为:将上述图像版面在垂直方向上平均划分为至少两列;对每一列在水平方向上进行投影,统计每一列在水平方向上的投影密度,生成每一列的密度分布函数,并获得每一列的密度分布函数的极大值点;然后,按照预定的顺序,对于相邻的两列,计算左边列的每个极大值点与右边列的每个极大值点的第一差值,以及计算右边列的每个极大值点与左边列的每个极大值点的第二差值。其中,上述预定的顺序可以为从左至右,也可以为从右至左,本实施例对此不作限定。
接下来,获得第一极大值点的第一差值与第一极大值点的第二差值,其中,上述第一极大值点的第一差值为左边列的第一极大值点与右边列的第一极大值点的差值,所述第一极大值点的第二差值为右边列的第一极大值点与左边列的第一极大值点的差值;如果上述第一极大值点的第一差值与上述第一极大值点的第二差值之差的绝对值小于或等于第一阈值,则确定左边列的第一极大值点与右边列的第一极大值点在同一行内,连接左边列的第一极大值点与右边列的第一极大值点。然后,依次连接上述至少两列中位于同一行内的极大值点,获得上述图像版面中文本行的中心线。
本实施例中,上述第一阈值的大小可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述第一阈值的大小不作限定。
步骤102,对扭曲矫正后的图像版面中的基本元素进行分割,根据上述图像版面中基本元素的特征确定上述基本元素所在区域为公式区域。
其中,上述图像版面中的基本元素可以包括文字和公式,对扭曲矫正后的图像版面中的基本元素进行分割是指将扭曲矫正后的图像版面中的文字和公式等基本元素划分出来,文字和公式在图像版面中形成一个个单独的区域。
本实施例的一种实现方式中,对于公式单独占一行的情形,根据上述图像版面中基本元素的特征确定上述基本元素所在区域为公式区域可以为:当上述基本元素的缩进量大于第二阈值,上述基本元素的行密度小于第三阈值,并且上述基本元素的前后质心偏移大于第四阈值时,确定上述基本元素所在区域为公式区域。
本实施例的另一种实现方式中,对于在一行中既有公式又有文字的情形,根据上述图像版面中基本元素的特征确定上述基本元素所在区域为公式区域可以为:当上述基本元素的前后质心偏移大于第五阈值,上述基本元素的溢出行基线的程度大于第六阈值,并且上述基本元素的宽高比例小于第七阈值时,确定上述基本元素所在区域为公式疑似区域;如果与上述基本元素所在区域相邻的前后至少两个基本元素所在区域均为公式疑似区域,则确定上述基本元素所在区域为公式区域。
而在确定上述基本元素所在区域为公式疑似区域之后,如果与上述基本元素所在区域相邻的基本元素所在区域不是公式疑似区域,则对上述相邻的基本元素进行单字识别,如果上述相邻的基本元素是文字的置信度大于第八阈值,则确定上述基本元素所在区域为公式区域;如果上述相邻的基本元素是文字的置信度小于或等于第九阈值,则确定上述基本元素所在区域以及与上述基本元素所在区域相邻的基本元素所在区域均为公式区域。
本实施例中,上述第二阈值~第九阈值的大小可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述第二阈值~第九阈值的大小不作限定。
另外,上述第四阈值和第五阈值的大小可以相同,也可以不同,本实施例对此不作限定。
步骤103,根据公式符号对所述公式区域进行公式识别。
具体地,根据公式符号对所述公式区域进行公式识别可以为:根据公式符号对上述公式区域进行划分,获得至少两个公式子区域,对每一公式子区域进行公式单字识别,根据识别结果和上述至少两个公式子区域的位置关系完成公式的解析。
具体地,对每一公式子区域进行公式单字识别可以为:建立常用公式符号的样本训练集合,采用深度神经网络进行学习,得到深层的分类器,然后利用深层的分类器对每一公式子区域进行公式单字识别。
进一步地,本实施例中,步骤101,对图像版面进行扭曲矫正之前,还可以采用自适应的阈值方法消除图像版面中由于光照不均匀产生的噪声,以及利用图像增强技术和形态学方法对上述图像版面进行图像增强。也就是说,本实施例中,在对图像版面进行扭曲矫正之前,对于光照产生的噪声,将采用自适应的阈值方法去除图像版面中的背景杂点,对于模糊将利用图像增强技术以及形态学方法对图像版面进行图像增强,以提高图像质量。
上述实施例中,对图像版面进行扭曲矫正之后,对扭曲矫正后的图像版面中的基本元素进行分割,根据图像版面中基本元素的特征确定上述基本元素所在区域为公式区域,最后根据公式符号对上述公式区域进行公式识别,从而可以实现利用短文本图像中的多种局部特性,对短文本图像中的公式进行检测和识别,可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。
图2为本发明公式识别装置一个实施例的结构示意图,本实施例中的公式识别装置可以实现本发明图1所示实施例的流程,如图2所示,该公式识别装置可以包括:矫正模块21、分割模块22、确定模块23和识别模块24;
其中,矫正模块21,用于对图像版面进行扭曲矫正。
分割模块22,用于对矫正模块21矫正后的图像版面中的基本元素进行分割;其中,上述图像版面中的基本元素可以包括文字和公式,对矫正后的图像版面中的基本元素进行分割是指分割模块22将矫正后的图像版面中的文字和公式等基本元素划分出来,文字和公式在图像版面中分别形成一个个单独的区域。
确定模块23,用于根据上述图像版面中基本元素的特征确定上述基本元素所在区域为公式区域。
识别模块24,用于根据公式符号对确定模块23确定的公式区域进行公式识别。
上述公式识别装置,矫正模块21对图像版面进行扭曲矫正之后,分割模块22对矫正后的图像版面中的基本元素进行分割,确定模块23根据图像版面中基本元素的特征确定上述基本元素所在区域为公式区域,最后识别模块24根据公式符号对确定模块23确定的公式区域进行公式识别,从而可以实现利用短文本图像中的多种局部特性,对短文本图像中的公式进行检测和识别,可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。
图3为本发明公式识别装置另一个实施例的结构示意图,与图2所示的公式识别装置相比,不同之处在于,图3所示的公式识别装置中,矫正模块21可以包括:
获得单元211,用于获得图像版面中文本行的中心线;
调整单元212,用于在上述图像版面中每一基本元素的位置上对上述文本行的中心线进行微调,以使上述文本行的中心线逼近直线,完成对图像版面的扭曲矫正。
具体地,获得单元211可以包括:版面划分子模块2111、投影子模块2112、统计子模块2113、计算子模块2114、差值获得子模块2115、位置确定子模块2116和连接子模块2117;
其中,版面划分子模块2111,用于将上述图像版面在垂直方向上平均划分为至少两列;
投影子模块2112,用于对版面划分子模块2111划分的每一列在水平方向上进行投影;
统计子模块2113,用于统计每一列在水平方向上的投影密度,生成每一列的密度分布函数,并获得每一列的密度分布函数的极大值点;
计算子模块2114,用于按照预定的顺序,对于相邻的两列,计算左边列的每个极大值点与右边列的每个极大值点的第一差值,以及计算右边列的每个极大值点与左边列的每个极大值点的第二差值;
差值获得子模块2115,用于获得第一极大值点的第一差值与第一极大值点的第二差值,上述第一极大值点的第一差值为左边列的第一极大值点与右边列的第一极大值点的差值,上述第一极大值点的第二差值为右边列的第一极大值点与左边列的第一极大值点的差值;
位置确定子模块2116,用于当差值获得子模块2115获得的第一极大值点的第一差值与差值获得子模块2115获得的第一极大值点的第二差值之差的绝对值小于或等于第一阈值时,确定左边列的第一极大值点与右边列的第一极大值点在同一行内;
连接子模块2117,用于连接左边列的第一极大值点与右边列的第一极大值点;以及依次连接上述至少两列中位于同一行内的极大值点,获得上述图像版面中文本行的中心线。
本实施例中,上述第一阈值的大小可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述第一阈值的大小不作限定。
本实施例的一种实现方式中,对于公式单独占一行的情形,确定模块23,具体用于当上述基本元素的缩进量大于第二阈值,上述基本元素的行密度小于第三阈值,并且上述基本元素的前后质心偏移大于第四阈值时,确定上述基本元素所在区域为公式区域。
本实施例的另一种实现方式中,对于在一行中既有公式又有文字的情形,确定模块23,具体用于当上述基本元素的前后质心偏移大于第五阈值,上述基本元素的溢出行基线的程度大于第六阈值,并且上述基本元素的宽高比例小于第七阈值时,确定上述基本元素所在区域为公式疑似区域;如果与上述基本元素所在区域相邻的前后至少两个基本元素所在区域均为公式疑似区域,则确定上述基本元素所在区域为公式区域。
进一步地,识别模块24,还用于当与上述基本元素所在区域相邻的基本元素所在区域不是公式疑似区域时,对上述相邻的基本元素进行单字识别;这时,确定模块23,还用于当上述相邻的基本元素是文字的置信度大于第八阈值时,确定上述基本元素所在区域为公式区域;当上述相邻的基本元素是文字的置信度小于或等于第九阈值,则确定上述基本元素所在区域以及与上述基本元素所在区域相邻的基本元素所在区域均为公式区域。
本实施例中,上述第二阈值~第九阈值的大小可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述第二阈值~第九阈值的大小不作限定。
另外,上述第四阈值和第五阈值的大小可以相同,也可以不同,本实施例对此不作限定。
本实施例中,识别模块24可以包括:
划分子模块241,用于根据公式符号对上述公式区域进行划分,获得至少两个公式子区域。
公式识别子模块242,用于对划分子模块241划分的每一公式子区域进行公式单字识别;具体地,公式识别子模块242对每一公式子区域进行公式单字识别可以为:建立常用公式符号的样本训练集合,采用深度神经网络进行学习,得到深层的分类器,然后公式识别子模块242利用深层的分类器对每一公式子区域进行公式单字识别。
解析子模块243,用于根据公式识别子模块242的识别结果和上述至少两个公式子区域的位置关系完成公式的解析。
进一步地,本实施例中,上述公式识别装置还可以包括:
图像处理模块25,用于在矫正模块21对图像版面进行扭曲矫正之前,采用自适应的阈值方法消除图像版面中由于光照不均匀产生的噪声,以及利用图像增强技术和形态学方法对上述图像版面进行图像增强。
上述公式识别装置可以实现利用短文本图像中的多种局部特性,对短文本图像中的公式进行检测和识别,可以有效地提高短文本图像中的有效信息,减少乱码的出现,进而可以提高整个答题系统的准确率。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种公式识别方法,其特征在于,包括:
对图像版面进行扭曲矫正;
对矫正后的图像版面中的基本元素进行分割,根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域;
根据公式符号对所述公式区域进行公式识别;
其中,所述对图像版面进行扭曲矫正包括:
获得图像版面中文本行的中心线,在所述图像版面中每一基本元素的位置上对所述文本行的中心线进行微调,以使所述文本行的中心线逼近直线,完成对所述图像版面的扭曲矫正;
所述获得图像版面中文本行的中心线包括:
将所述图像版面在垂直方向上平均划分为至少两列;
对每一列在水平方向上进行投影,统计每一列在水平方向上的投影密度,生成每一列的密度分布函数,并获得每一列的密度分布函数的极大值点;
按照预定的顺序,对于相邻的两列,计算左边列的每个极大值点与右边列的每个极大值点的第一差值,以及计算右边列的每个极大值点与左边列的每个极大值点的第二差值;
获得第一极大值点的第一差值与第一极大值点的第二差值,所述第一极大值点的第一差值为所述左边列的第一极大值点与所述右边列的第一极大值点的差值,所述第一极大值点的第二差值为所述右边列的第一极大值点与所述左边列的第一极大值点的差值;
如果所述第一极大值点的第一差值与所述第一极大值点的第二差值之差的绝对值小于或等于第一阈值,则确定所述左边列的第一极大值点与所述右边列的第一极大值点在同一行内,连接所述左边列的第一极大值点与所述右边列的第一极大值点;
依次连接所述至少两列中位于同一行内的极大值点,获得所述图像版面中文本行的中心线。
2.根据权利要求1所述的方法,其特征在于,所述根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域包括:
当所述基本元素的缩进量大于第二阈值,所述基本元素的行密度小于第三阈值,并且所述基本元素的前后质心偏移大于第四阈值时,确定所述基本元素所在区域为公式区域。
3.根据权利要求1所述的方法,其特征在于,所述根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域包括:
当所述基本元素的前后质心偏移大于第五阈值,所述基本元素的溢出行基线的程度大于第六阈值,并且所述基本元素的宽高比例小于第七阈值时,确定所述基本元素所在区域为公式疑似区域;
如果与所述基本元素所在区域相邻的前后至少两个基本元素所在区域均为公式疑似区域,则确定所述基本元素所在区域为公式区域。
4.根据权利要求3所述的方法,其特征在于,所述确定所述基本元素所在区域为公式疑似区域之后,还包括:
如果与所述基本元素所在区域相邻的基本元素所在区域不是公式疑似区域,则对所述相邻的基本元素进行单字识别,如果所述相邻的基本元素是文字的置信度大于第八阈值,则确定所述基本元素所在区域为公式区域;如果所述相邻的基本元素是文字的置信度小于或等于第九阈值,则确定所述基本元素所在区域以及与所述基本元素所在区域相邻的基本元素所在区域均为公式区域。
5.根据权利要求1所述的方法,其特征在于,所述根据公式符号对所述公式区域进行公式识别包括:
根据公式符号对所述公式区域进行划分,获得至少两个公式子区域,对每一公式子区域进行公式单字识别,根据识别结果和所述至少两个公式子区域的位置关系完成公式的解析。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述对图像版面进行扭曲矫正之前,还包括:
采用自适应的阈值方法消除图像版面中由于光照不均匀产生的噪声,以及利用图像增强技术和形态学方法对所述图像版面进行图像增强。
7.一种公式识别装置,其特征在于,包括:
矫正模块,用于对图像版面进行扭曲矫正;
分割模块,用于对所述矫正模块矫正后的图像版面中的基本元素进行分割;
确定模块,用于根据所述图像版面中基本元素的特征确定所述基本元素所在区域为公式区域;
识别模块,用于根据公式符号对所述确定模块确定的公式区域进行公式识别;
其中,所述矫正模块包括:
获得单元,用于获得图像版面中文本行的中心线;
调整单元,用于在所述图像版面中每一基本元素的位置上对所述文本行的中心线进行微调,以使所述文本行的中心线逼近直线,完成对所述图像版面的扭曲矫正;
所述获得单元包括:
版面划分子模块,用于将所述图像版面在垂直方向上平均划分为至少两列;
投影子模块,用于对所述版面划分子模块划分的每一列在水平方向上进行投影;
统计子模块,用于统计每一列在水平方向上的投影密度,生成每一列的密度分布函数,并获得每一列的密度分布函数的极大值点;
计算子模块,用于按照预定的顺序,对于相邻的两列,计算左边列的每个极大值点与右边列的每个极大值点的第一差值,以及计算右边列的每个极大值点与左边列的每个极大值点的第二差值;
差值获得子模块,用于获得第一极大值点的第一差值与第一极大值点的第二差值,所述第一极大值点的第一差值为所述左边列的第一极大值点与所述右边列的第一极大值点的差值,所述第一极大值点的第二差值为所述右边列的第一极大值点与所述左边列的第一极大值点的差值;
位置确定子模块,用于当所述差值获得子模块获得的第一极大值点的第一差值与所述差值获得子模块获得的第一极大值点的第二差值之差的绝对值小于或等于第一阈值时,确定所述左边列的第一极大值点与所述右边列的第一极大值点在同一行内;
连接子模块,用于连接所述左边列的第一极大值点与所述右边列的第一极大值点;以及依次连接所述至少两列中位于同一行内的极大值点,获得所述图像版面中文本行的中心线。
8.根据权利要求7所述的装置,其特征在于,
所述确定模块,具体用于当所述基本元素的缩进量大于第二阈值,所述基本元素的行密度小于第三阈值,并且所述基本元素的前后质心偏移大于第四阈值时,确定所述基本元素所在区域为公式区域。
9.根据权利要求7所述的装置,其特征在于,
所述确定模块,具体用于当所述基本元素的前后质心偏移大于第五阈值,所述基本元素的溢出行基线的程度大于第六阈值,并且所述基本元素的宽高比例小于第七阈值时,确定所述基本元素所在区域为公式疑似区域;如果与所述基本元素所在区域相邻的前后至少两个基本元素所在区域均为公式疑似区域,则确定所述基本元素所在区域为公式区域。
10.根据权利要求9所述的装置,其特征在于,
所述识别模块,还用于当与所述基本元素所在区域相邻的基本元素所在区域不是公式疑似区域时,对所述相邻的基本元素进行单字识别;
所述确定模块,还用于当所述相邻的基本元素是文字的置信度大于第八阈值时,确定所述基本元素所在区域为公式区域;当所述相邻的基本元素是文字的置信度小于或等于第九阈值,则确定所述基本元素所在区域以及与所述基本元素所在区域相邻的基本元素所在区域均为公式区域。
11.根据权利要求7所述的装置,其特征在于,所述识别模块包括:
划分子模块,用于根据公式符号对所述公式区域进行划分,获得至少两个公式子区域;
公式识别子模块,用于对所述划分子模块划分的每一公式子区域进行公式单字识别;
解析子模块,用于根据所述公式识别子模块的识别结果和所述至少两个公式子区域的位置关系完成公式的解析。
12.根据权利要求7-11任意一项所述的装置,其特征在于,还包括:
图像处理模块,用于在所述矫正模块对图像版面进行扭曲矫正之前,采用自适应的阈值方法消除图像版面中由于光照不均匀产生的噪声,以及利用图像增强技术和形态学方法对所述图像版面进行图像增强。
CN201510064672.3A 2015-02-06 2015-02-06 公式识别方法和装置 Active CN104636741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510064672.3A CN104636741B (zh) 2015-02-06 2015-02-06 公式识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510064672.3A CN104636741B (zh) 2015-02-06 2015-02-06 公式识别方法和装置

Publications (2)

Publication Number Publication Date
CN104636741A CN104636741A (zh) 2015-05-20
CN104636741B true CN104636741B (zh) 2018-04-13

Family

ID=53215469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510064672.3A Active CN104636741B (zh) 2015-02-06 2015-02-06 公式识别方法和装置

Country Status (1)

Country Link
CN (1) CN104636741B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107741990B (zh) * 2017-11-01 2023-05-16 深圳汇生通科技股份有限公司 数据清洗整合方法及系统
CN108364009A (zh) * 2018-02-12 2018-08-03 掌阅科技股份有限公司 二维结构公式的识别方法、计算设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228520A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像識別方法
JP2004038678A (ja) * 2002-07-04 2004-02-05 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
CN101393601A (zh) * 2007-09-21 2009-03-25 汉王科技股份有限公司 印刷体数学公式识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228520A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像識別方法
JP2004038678A (ja) * 2002-07-04 2004-02-05 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム
CN101393601A (zh) * 2007-09-21 2009-03-25 汉王科技股份有限公司 印刷体数学公式识别方法
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
印刷体文档中的数学公式识别技术研究;陈峰;《中国优秀硕士学位论文全文数据库》;20100315;第I138-881页 *

Also Published As

Publication number Publication date
CN104636741A (zh) 2015-05-20

Similar Documents

Publication Publication Date Title
CN107123122B (zh) 无参考图像质量评价方法及装置
CN106033535B (zh) 电子阅卷方法
CN108876756B (zh) 图像相似性的度量方法和装置
CN105205488A (zh) 基于Harris角点和笔画宽度的文字区域检测方法
WO2019120025A1 (zh) 照片的调整方法、装置、存储介质及电子设备
CN104636741B (zh) 公式识别方法和装置
CN107895140A (zh) 基于人脸肤色的色情图片识别办法
CN110766711A (zh) 一种视频镜头分割方法、系统、装置和存储介质
CN111199186A (zh) 图像质量评分模型训练方法、装置、设备及存储介质
CN106910195A (zh) 一种网页页面布局监测方法及装置
CN109360191A (zh) 一种基于变分自编码器的图像显著性检测方法
CN104657721B (zh) 一种基于自适应模板的视频osd时间识别方法
CN108764343B (zh) 一种跟踪算法中的跟踪目标框的定位方法
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
CN110996128B (zh) 在线教学视频推送管理系统
CN112329641A (zh) 一种表格识别方法、装置、设备及可读存储介质
CN107644233A (zh) 基于聚类分类的filtersim模拟方法
CN106611173B (zh) 晶体中心位置图生成方法
CN111222508A (zh) 基于roi的户型图比例尺识别方法、装置、计算机设备
CN108154521B (zh) 一种基于目标块融合的运动目标检测方法
CN115661187A (zh) 用于中药制剂分析的图像增强方法
CN115830537A (zh) 一种人群计数方法
CN105956550B (zh) 一种视频鉴别的方法和装置
CN110874567B (zh) 颜值判定方法、装置、电子设备及存储介质
CN104700416A (zh) 基于视觉理解的图像分割阈值确定方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant