CN111400491A - 公式主体定位方法、装置、设备及计算机可读存储介质 - Google Patents

公式主体定位方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111400491A
CN111400491A CN201811611964.4A CN201811611964A CN111400491A CN 111400491 A CN111400491 A CN 111400491A CN 201811611964 A CN201811611964 A CN 201811611964A CN 111400491 A CN111400491 A CN 111400491A
Authority
CN
China
Prior art keywords
formula
data
main body
line
line data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811611964.4A
Other languages
English (en)
Inventor
陈一帆
颜钦钦
高良才
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Original Assignee
Pku Founder Information Industry Group Co ltd
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pku Founder Information Industry Group Co ltd, Peking University, Peking University Founder Group Co Ltd filed Critical Pku Founder Information Industry Group Co ltd
Priority to CN201811611964.4A priority Critical patent/CN111400491A/zh
Publication of CN111400491A publication Critical patent/CN111400491A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种公式主体定位方法、装置、设备及计算机可读存储介质,方法包括:获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。

Description

公式主体定位方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及数字出版领域,尤其涉及一种公式主体定位方法、装置、设备及计算机可读存储介质。
背景技术
现有的电子文档中一般除了文本以外,还包括公式等内容,因此,在对电子文档进行处理的过程中,还需要对电子文档中的公式进行定位以及识别。
现有的公式识别方法一般都是对电子文档进行识别,确定公式所在的位置,对该位置的公式进行整体定位。
但是,对于电子文档中的公式而言,由于在布局上存在条件、分段、二维、嵌套等关系,因此,采用上述定位方法定位效果欠佳。举例来说,大量文献中的公式带有后续处理无用的符号信息;而对于多行公式或者方程组公式,整体定位结果不易于检索;对于内嵌公式来说,定位结果中往往包含上下文信息;一些复杂文档中存在图表形式的伪公式,因此,针对上述情况来说,采用整体定位公式的方法获得的公式中往往包含较多的噪声。
发明内容
本发明提供一种公式主体定位方法、装置、设备及计算机可读存储介质,用于解决现有的公式识别方法定位效果欠佳,获得的公式中往往包含较多的噪声的技术问题。
本发明的第一个方面是提供一种公式主体定位方法,包括:
获取初步定位获得的公式整体数据;
对所述公式整体数据进行分割,获得至少一行公式行数据;
针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本发明的另一个方面是提供一种公式主体定位装置,包括:
获取模块,用于获取初步定位获得的公式整体数据;
分割模块,用于对所述公式整体数据进行分割,获得至少一行公式行数据;
聚类模块,用于针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除模块,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本发明的又一个方面是提供一种公式主体定位设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的公式主体定位方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的公式主体定位方法。
本发明提供的公式主体定位方法、装置、设备及计算机可读存储介质,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的公式主体定位方法的流程示意图;
图2为本发明实施例二提供的公式主体定位方法的流程示意图;
图3为本发明实施例提供的公式整体数据图;
图4为本发明实施例提供的分行后的公式行数据图;
图5为本发明实施例三提供的公式主体定位方法的流程示意图;
图6为本发明实施例提供的连通域提取图;
图7为本发明提供的连通域合并图;
图8为本发明实施例四提供的公式主体定位方法的流程示意图;
图9为本发明实施例五提供的公式主体定位装置的结构示意图;
图10为本发明实施例六提供的公式主体定位设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
现有的公式识别方法一般都是对电子文档进行识别,确定公式所在的位置,对该位置的公式进行整体定位。但是,对于电子文档中的公式而言,由于在布局上存在条件、分段、二维、嵌套等关系,因此,采用上述定位方法定位效果欠佳。举例来说,大量文献中的公式带有后续处理无用的符号信息;而对于多行公式或者方程组公式,整体定位结果不易于检索;对于内嵌公式来说,定位结果中往往包含上下文信息;一些复杂文档中存在图表形式的伪公式,因此,针对上述情况来说,采用整体定位公式的方法获得的公式中往往包含较多的噪声。为了解决上述技术问题,本发明提供了一种公式主体定位方法、装置、设备及计算机可读存储介质。
需要说明的是,本申请提供公式主体定位方法、装置、设备及计算机可读存储介质可运用在对各种文件进行公式定位的场景中。
图1为本发明实施例一提供的公式主体定位方法的流程示意图,如图1所示,所述方法包括:
步骤101、获取初步定位获得的公式整体数据;
步骤102、对所述公式整体数据进行分割,获得至少一行公式行数据;
步骤103、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
步骤104、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本实施例的执行主体为公式主体定位装置。公式主体定位装置可以获取初步定位获得的公式整体数据,其中,该公式整体数据中可以包括多个公式主体以及非公式主体信息等,该公式整体数据的获取可以采用现有任意一种公式定位方法,本发明在此不做限制。获取到公式整体数据之后,由于现有的公式定位方法往往存在噪声,因此,为了提高后续公式定位精度,首先,需要对该公式整体数据进行预处理,其中,预处理包括滤波去躁、二值化以及倾斜矫正等。由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。可以理解的是,每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。需要说明的是,由于待选公式主体中可能包括非公式主体信息,其中,该非公式主体信息可以包括条件词汇以及其他文本,因此,需要对待选公式主体中的非公式主体信息进行去除,获得公式主体。通过上述方法,能够获得至少一个独立的公式主体,从而便于后续的检索以及识别步骤。
本实施例提供的公式主体定位方法,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。
图2为本发明实施例二提供的公式主体定位方法的流程示意图,图3为本发明实施例提供的公式整体数据图,图4为本发明实施例提供的分行后的公式行数据图,在上述任一实施例的基础上,如图2-图4所示,所述方法包括:
步骤201、获取初步定位获得的公式整体数据;
步骤202、对所述公式整体数据进行水平投影;
步骤203、对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
步骤204、计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据;
步骤205、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
步骤206、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,获取到公式整体数据之后,由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。具体地,可以对该公式整体数据进行水平投影,对水平投影值连续大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据。进一步地,例如矩阵、分式等公式主体,往往两行数据中具有间隔,为了保证公式主体的完整性,可以计算分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得至少一行公式行数据。通过将水平投影值与预设的合并阈值进行比较,并根据比较结果实现分割,从而能够提高分割精度。通过将投影区间间隔与预设的分割阈值进行比较,并根据比较结果实现合并,从而能够保证公式主体的完整性。其中,公式整体数据如图3所示,该公式整体数据中包括两行公式行数据,因此,对该公式整体数据进行分割后,能够得到两行公式行数据,从而便于后续对公式主体进行定位。
本实施例提供的公式主体定位方法,通过对所述公式整体数据进行水平投影,对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得至少一行公式行数据,从而能够便于后续对公式主体进行定位,提高公式主体定位的精确度。
图5为本发明实施例三提供的公式主体定位方法的流程示意图,图6为本发明实施例提供的连通域提取图,图7为本发明提供的连通域合并图,在上述任一实施例的基础上,如图5-图7所示,所述方法包括:
步骤301、获取初步定位获得的公式整体数据;
步骤302、对所述公式整体数据进行分割,获得至少一行公式行数据;
步骤303、针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
步骤304、针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
步骤305、针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
步骤306、若是,则合并所述任意两个连通域,获得至少一个待选公式主体;
步骤307、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,由于每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。具体地,可以选择生长聚类方法实现对公式行数据的聚类操作。针对每一行公式行数据,可以按照预设的空间顺序,从该公式行数据中选取初始子像素。针对各初始子像素,将于该初始子像素相邻并与初始子像素具有相同性质的像素以及初始种子像素进行连通,获得至少一个连通域。针对任意两个连通域,如果两个连通域之间的几何中心距离小于预设的阈值,则表征其属于同一个待选公式主体,因此,可以判断任意两个连通域的几何中心距离是否小于预设的阈值,若是,则对两个连通域进行合并,获得待选公式主体。如图6所示,可以根据初始子像素进行连通,实现连通域的提取,如图7所示,可以对各连通域进行合并,获得至少一个待选公式主体。
本实施例提供的公式主体定位方法,通过针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素,针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域,针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值,若是,则合并所述任意两个连通域,获得至少一个待选公式主体,从而能够为公式主体的定位提供基础。
图8为本发明实施例四提供的公式主体定位方法的流程示意图,在上述任一实施例的基础上,如图8所示,所述方法包括:
步骤401、获取初步定位获得的公式整体数据;
步骤402、对所述公式整体数据进行分割,获得至少一行公式行数据;
步骤403、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
步骤404、将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇;
步骤405、若是,则对所述待选公式主体中的条件词汇进行去除。
在本实施例中,由于待选公式主体中包括非公式主体信息,其中,非公式主体信息可以为连接各公式主体的条件词汇,例如if、or等,因此,可以预先建立条件词汇表,该条件词汇表中包括多个条件词汇,因此,获取到待选公式主体之后,可以首先将该待选公式主体与预设的条件词汇表进行比对,判断该待选公式主体中是否包含该条件词汇表中的任一条件词汇,若是,则可以对待选公式主体中的条件词汇进行去除。可选地,若该待选公式主体中不包含该条件词汇表中的任一条件词汇,则表征该待选公式主体中不包含条件词汇,此时可以不对待选公式主体进行处理。
本实施例提供的公式主体定位方法,通过将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇,若是,则对所述待选公式主体中的条件词汇进行去除,从而能够提高公式定位的精准度。
可选地,待选公式主体中除条件词汇以外,还可以包括其他非公式主体信息,因此,在上述任一实施例的基础上,所述方法包括:
获取初步定位获得的公式整体数据;
对所述公式整体数据进行分割,获得至少一行公式行数据;
针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,待选公式主体中除条件词汇以外,还可以包括其他非公式主体信息,因此,获取到待选公式主体之后,根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息,去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
本实施例提供的公式主体定位方法,通过根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;去除所述待选公式主体中的非公式主体信息,获得所述公式主体,从而能够提高公式定位的精准度。
需要说明的是,上述两个实施例可以单独实施,也可以结合实施,当其单独实施时,具体实施方式可参照上述两个实施例,当其结合实施时,首先可以根据预设的条件词汇表实现对待选公式主体中条件词汇的去除,进一步地,针对去除条件词汇的待选公式主体,可以根据各待选公式主体中数据的外形以及内容特征,确定待选公式主体中的公式主体以及非公式主体信息;去除待选公式主体中的非公式主体信息,从而能够进一步地提高定位到的公式主体的精准度。
图9为本发明实施例五提供的公式主体定位装置的结构示意图,如图9所示,所述公式主体定位装置包括:
获取模块51,用于获取初步定位获得的公式整体数据;
分割模块52,用于对所述公式整体数据进行分割,获得至少一行公式行数据;
聚类模块53,用于针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除模块54,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
在本实施例中,可以获取初步定位获得的公式整体数据,其中,该公式整体数据中可以包括多个公式主体以及非公式主体信息等,该公式整体数据的获取可以采用现有任意一种公式定位方法,本发明在此不做限制。获取到公式整体数据之后,由于现有的公式定位方法往往存在噪声,因此,为了提高后续公式定位精度,首先,需要对该公式整体数据进行预处理,其中,预处理包括滤波去躁、二值化以及倾斜矫正等。由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。可以理解的是,每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。需要说明的是,由于待选公式主体中可能包括非公式主体信息,其中,该非公式主体信息可以包括条件词汇以及其他文本,因此,需要对待选公式主体中的非公式主体信息进行去除,获得公式主体。通过上述方法,能够获得至少一个独立的公式主体,从而便于后续的检索以及识别步骤。
本实施例提供的公式主体定位装置,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。
进一步地,在上述任一实施例的基础上,所述分割模块包括:
投影单元,用于对所述公式整体数据进行水平投影;
分割单元,用于对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
合并单元,用于计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据。
进一步地,在上述任一实施例的基础上,所述聚类模块包括:
选取单元,用于针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
连通单元,用于针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
判断单元,用于针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
合并单元,用于若是,则合并所述任意两个连通域,获得至少一个待选公式主体。
进一步地,在上述任一实施例的基础上,所述去除模块包括:
比对单元,用于将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇;
第一去除单元,用于若是,则对所述待选公式主体中的条件词汇进行去除。
进一步地,在上述任一实施例的基础上,所述去除模块包括:
确定单元,用于根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;
第二去除单元,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
图10为本发明实施例六提供的公式主体定位设备的结构示意图,如图10所示,所述公式主体定位设备,包括:存储器61,处理器62;
存储器61;用于存储所述处理器62可执行指令的存储器61;
其中,所述处理器62被配置为由所述处理器62执行如上述的公式主体定位方法。
本发明又一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的公式主体定位方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种公式主体定位方法,其特征在于,包括:
获取初步定位获得的公式整体数据;
对所述公式整体数据进行分割,获得至少一行公式行数据;
针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
2.根据权利要求1所述的方法,其特征在于,所述对所述公式整体数据进行分割,获得至少一行公式行数据,包括:
对所述公式整体数据进行水平投影;
对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据。
3.根据权利要求1所述的方法,其特征在于,所述针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体,包括:
针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
若是,则合并所述任意两个连通域,获得至少一个待选公式主体。
4.根据权利要求1所述的方法,其特征在于,所述去除所述待选公式主体中的非公式主体信息,获得所述公式主体,包括:
将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇;
若是,则对所述待选公式主体中的条件词汇进行去除。
5.根据权利要求1所述的方法,其特征在于,所述去除所述待选公式主体中的非公式主体信息,获得所述公式主体,包括:
根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
6.一种公式主体定位装置,其特征在于,包括:
获取模块,用于获取初步定位获得的公式整体数据;
分割模块,用于对所述公式整体数据进行分割,获得至少一行公式行数据;
聚类模块,用于针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除模块,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。
7.根据权利要求6所述的装置,其特征在于,所述分割模块包括:
投影单元,用于对所述公式整体数据进行水平投影;
分割单元,用于对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
合并单元,用于计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据。
8.根据权利要求6所述的装置,其特征在于,所述聚类模块包括:
选取单元,用于针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
连通单元,用于针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
判断单元,用于针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
合并单元,用于若是,则合并所述任意两个连通域,获得至少一个待选公式主体。
9.一种公式主体定位设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-5任一项所述的公式主体定位方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-5任一项所述的公式主体定位方法。
CN201811611964.4A 2018-12-27 2018-12-27 公式主体定位方法、装置、设备及计算机可读存储介质 Pending CN111400491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811611964.4A CN111400491A (zh) 2018-12-27 2018-12-27 公式主体定位方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811611964.4A CN111400491A (zh) 2018-12-27 2018-12-27 公式主体定位方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111400491A true CN111400491A (zh) 2020-07-10

Family

ID=71428228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811611964.4A Pending CN111400491A (zh) 2018-12-27 2018-12-27 公式主体定位方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111400491A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701234A (zh) * 2003-01-10 2005-11-23 松下电器产业株式会社 含有微粒子表面电荷控制剂的组合物、利用该组合物的微粒子分离方法及微粒子分离装置
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
JP2009145966A (ja) * 2007-12-11 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> テキスト整形規則獲得装置、その方法、構造判定装置、それらのプログラム
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
CN102663138A (zh) * 2012-05-03 2012-09-12 北京大学 一种公式查询条件的输入方法与装置
CN102804219A (zh) * 2010-03-19 2012-11-28 维萨美国公司 用基于交易的数据增强搜索数据的系统和方法
US20130159282A1 (en) * 2008-05-15 2013-06-20 International Business Machines Corporation Determining a density of a key value referenced in a database query over a range of rows
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106372073A (zh) * 2015-07-21 2017-02-01 北京大学 一种数学公式检索方法与装置
CN106980856A (zh) * 2016-01-15 2017-07-25 上海谦问万答吧云计算科技有限公司 公式识别方法及系统和符号推理计算方法及系统
CN107563384A (zh) * 2017-08-31 2018-01-09 江苏大学 基于广义Hough聚类的粘连猪的头尾识别方法
CN108711886A (zh) * 2018-06-08 2018-10-26 国网福建省电力有限公司 一种园区配网时序运行样本生成方法
CN108734287A (zh) * 2017-04-21 2018-11-02 展讯通信(上海)有限公司 深度神经网络模型的压缩方法及装置、终端、存储介质
CN109035254A (zh) * 2018-09-11 2018-12-18 中国水产科学研究院渔业机械仪器研究所 基于改进K-means聚类的运动鱼体阴影去除及图像分割方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701234A (zh) * 2003-01-10 2005-11-23 松下电器产业株式会社 含有微粒子表面电荷控制剂的组合物、利用该组合物的微粒子分离方法及微粒子分离装置
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
JP2009145966A (ja) * 2007-12-11 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> テキスト整形規則獲得装置、その方法、構造判定装置、それらのプログラム
US20130159282A1 (en) * 2008-05-15 2013-06-20 International Business Machines Corporation Determining a density of a key value referenced in a database query over a range of rows
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
CN102804219A (zh) * 2010-03-19 2012-11-28 维萨美国公司 用基于交易的数据增强搜索数据的系统和方法
CN102314497A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于识别标记语言文件主体内容的方法和设备
CN102663138A (zh) * 2012-05-03 2012-09-12 北京大学 一种公式查询条件的输入方法与装置
CN106372073A (zh) * 2015-07-21 2017-02-01 北京大学 一种数学公式检索方法与装置
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106980856A (zh) * 2016-01-15 2017-07-25 上海谦问万答吧云计算科技有限公司 公式识别方法及系统和符号推理计算方法及系统
CN108734287A (zh) * 2017-04-21 2018-11-02 展讯通信(上海)有限公司 深度神经网络模型的压缩方法及装置、终端、存储介质
CN107563384A (zh) * 2017-08-31 2018-01-09 江苏大学 基于广义Hough聚类的粘连猪的头尾识别方法
CN108711886A (zh) * 2018-06-08 2018-10-26 国网福建省电力有限公司 一种园区配网时序运行样本生成方法
CN109035254A (zh) * 2018-09-11 2018-12-18 中国水产科学研究院渔业机械仪器研究所 基于改进K-means聚类的运动鱼体阴影去除及图像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHANFEI LI,ET AL.,: ""An Improved Ant-Colony Clustering Algorithm Based on the Innovational Distance Calculation Formula"", 《2010 THIRD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
常新峰,: ""一种定位中文印刷体文档中数学表达式的方法"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
李蕊,: ""中文印刷体文档数学公式识别系统"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
CN110717489B (zh) Osd的文字区域的识别方法、装置及存储介质
US9275030B1 (en) Horizontal and vertical line detection and removal for document images
US9014480B2 (en) Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9495343B2 (en) Horizontal and vertical line detection and removal for document images
CN108805128B (zh) 一种字符分割方法和装置
JP6569500B2 (ja) 画像処理装置及び画像処理方法
CN110136069B (zh) 文本图像矫正方法、装置与电子设备
CN109325492B (zh) 字符切割方法、装置、计算机设备及存储介质
CN108573251B (zh) 文字区域定位方法和装置
CN109308465B (zh) 表格线检测方法、装置、设备及计算机可读介质
CN107871319B (zh) 限束器区域的检测方法、装置、x射线系统和存储介质
US11227153B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
WO2017088462A1 (zh) 图像处理方法和装置
CN112801088B (zh) 一种扭曲文本行图像矫正的方法和相关装置
CN112183511A (zh) 一种图像导出表格的方法、系统、存储介质及设备
US20230360354A1 (en) Detection of annotated regions of interest in images
CN112308872A (zh) 基于多尺度Gabor一阶导数的图像边缘检测方法
US11210507B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
JP5772675B2 (ja) 濃淡画像のエッジ抽出方法、エッジ抽出装置並びに濃淡画像のエッジ抽出プログラム
CN111400491A (zh) 公式主体定位方法、装置、设备及计算机可读存储介质
US20140212047A1 (en) Methods, Systems and Apparatus for Determining Orientation in a Document Image
Boiangiu et al. Handwritten documents text line segmentation based on information energy
CN112767491B (zh) 焊道拐点的确定方法、装置和计算机可读存储介质
CN104103061A (zh) 医学x线图像的分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230627

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Applicant after: Peking University

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Applicant before: Peking University

AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231208