CN108133168A - 一种文本识别中的公式搜索方法及其装置 - Google Patents

一种文本识别中的公式搜索方法及其装置 Download PDF

Info

Publication number
CN108133168A
CN108133168A CN201611099606.0A CN201611099606A CN108133168A CN 108133168 A CN108133168 A CN 108133168A CN 201611099606 A CN201611099606 A CN 201611099606A CN 108133168 A CN108133168 A CN 108133168A
Authority
CN
China
Prior art keywords
formula
matching
position relationship
searched
data library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611099606.0A
Other languages
English (en)
Other versions
CN108133168B (zh
Inventor
周迅溢
熊蜀光
杨镜
兴百桥
白建国
黄琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xintang Sichuang Educational Technology Co Ltd
Original Assignee
Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xintang Sichuang Educational Technology Co Ltd filed Critical Beijing Xintang Sichuang Educational Technology Co Ltd
Priority to CN201611099606.0A priority Critical patent/CN108133168B/zh
Publication of CN108133168A publication Critical patent/CN108133168A/zh
Application granted granted Critical
Publication of CN108133168B publication Critical patent/CN108133168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本识别中的公式搜索方法及其装置,所述方法,包括:将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。本申请实施例能够在文本识别中准确的进行公式的搜索。

Description

一种文本识别中的公式搜索方法及其装置
技术领域
本申请属于图像识别技术领域,具体涉及一种文本识别中的公式搜索方法及其装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
但是由于公式具有更加复杂的结构和形式,基于文字等字符的搜索并不能直接应用于公式的搜索。申请日为2013年7月3日的中国专利CN201310277494公开了一种数学公式搜索方法及装置,其将公式转为文本进行匹配。但这种简单的仅仅基于公式转为文本进行匹配的公式搜索方法,容易被其他文本内容所干扰,从而影响公式搜索的准确率。
因此,如何在文本识别中准确的进行公式的搜索,成为现有技术中亟需解决的技术问题。
发明内容
本申请实施例解决的技术问题之一在于提供一种文本识别中的公式搜索方法及其装置,其能够在文本识别中准确的进行公式的搜索。
本申请实施例提供一种文本识别中的公式搜索方法,包括:
将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;
根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;
依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
在本申请实施例中,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。
在本申请实施例中,所述根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值包括:
计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值;
计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值;
计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值;
对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
在本申请实施例中,所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
在本申请实施例中,所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
在本申请实施例中,所述结构关系相似度包括:
匹配对的结构关系数、未匹配对的结构关系数中至少一种。
对应上述方法,本申请提供一种文本识别中的公式搜索装置,包括:
搜索匹配模块,用于将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;
匹配计算模块,用于根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;
匹配显示模块,用于依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
在本申请实施例中,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。
在本申请实施例中,所述匹配计算模块包括:
文字信息计算单元,用于计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值;
位置关系计算单元,用于计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值;
结构关系计算单元,用于计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值;
累计计算单元,用于对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
在本申请实施例中,所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
在本申请实施例中,所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
在本申请实施例中,所述结构关系相似度包括:
匹配对的结构关系数、未匹配对的结构关系数中至少一种。
本申请实施例将待搜索公式在预存的公式数据库中进行搜索匹配,根据待搜索公式与所述公式数据库各公式的文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值。从而,依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果。因此,本申请实施例通过比较公式之间文字信息、位置关系以及结构关系的相似度,能够实现在文本识别中准确的进行公式的搜索。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种文本识别中的公式搜索方法一实施例流程图;
图2是本申请提供的一种文本识别中的公式搜索方法中预存数据库的一范例公式的结构关系示意图;
图3是本申请提供的一种文本识别中的公式搜索方法中步骤S2的一实施例流程图;
图4是本申请提供的一种文本识别中的公式搜索装置一实施例结构图;
图5是本申请提供的一种文本识别中的公式搜索装置中匹配计算模块一实施例结构图;
图6是本申请提供的文本识别中的公式搜索方法的电子设备的硬件结构示意图。
具体实施方式
本申请实施例将待搜索公式在预存的公式数据库中进行搜索匹配,根据待搜索公式与所述公式数据库各公式的文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值。从而,依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果。因此,本申请实施例通过比较公式之间文字信息、位置关系以及结构关系的相似度,能够实现在文本识别中准确的进行公式的搜索。
尽管本申请能够具有许多不同形式的实施例,但在附图中显示并且将在本文详细描述的特定实施例,应该理解,这种实施例的公开应该被视为原理的示例,而非意图把本申请限制于显示和描述的特定实施例。在以下的描述中,相同的标号用于描述附图的几个示图中的相同、相似或对应的部分。
如本文所使用,术语“一个”或“一种”被定义为一个(种)或超过一个(种)。如本文所使用,术语“多个”被定义为两个或超过两个。如本文所使用,术语“其他”被定义为至少再一个或更多个。如本文所使用,术语“包含”和/或“具有”被定义为包括(即,开放式语言)。如本文所使用,术语“耦合”被定义为连接,但未必是直接连接,并且未必是以机械方式连接。如本文所使用,术语“程序”或“计算机程序”或类似术语被定义为设计用于在计算机系统上执行的指令序列。“程序”或“计算机程序”可包括子程序、函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。
在整个本文件中对“一个实施例”、“某些实施例”、“实施例”或类似术语的提及表示结合实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,在整个本说明书的各种地方的这种词语的出现不必全部表示相同的实施例。另外,所述特定特征、结构或特性可非限制性地在一个或多个实施例中以任何合适的方式组合。
如本文所使用,术语“或者”应该被解释为是包括性的或者表示任何一种或任何组合。因此,“A、B或者C”表示“下面的任何一种:A;B;C;A和B;A和C;B和C;A,B和C”。仅当元件、功能、步骤或动作的组合以某种方式固有地相互排斥时,将会发生这种定义的例外。
为了使本领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
下面结合本申请附图进一步说明本申请具体实现。
参见图1,本申请一实施例提供一种文本识别中的公式搜索方法,包括:
S1、将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系。
具体地,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。比如,的拉泰赫(LaTex)文本为:x=\frac{1+\sqrt{2}}{34}。
所述预存的公式数据库存放的是海量的公式,每个公式构成数据库的基本单元。
每个公式包含三部分信息:文字信息、位置关系以及结构关系。
例如:公式(1)
(1)文字信息,共9个元素:x,=,分式,1,+,根号,2,3,4。
这里所指的文字信息,包括公式中出现的所有元素单元,如字母、数字、运算符号等。
(2)位置关系,描述相邻元素的相对位置关系,公式(1)中共14对位置关系,具体参见表一。
表一
(3)结构关系,如图2所示。
以上所描述的是数据库中每个数据单元所存放的相关信息,实际数据库的数据结构,例如设计为索引、图等等,在本申请中不进行限定。
本申请数据可以为题库,从而实现在所述题库中进行公式搜索,但本申请并不限定数据库的类型。
S2、根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值。
在本申请一具体实现中,参见图3,所述步骤S2包括:
S21、计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值。
所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
具体地,匹配对的字符越多,文字信息相似度越高;未匹配对的字符越多,文字信息相似度越低;匹配对字符数与未匹配对字符数的比值越大,文字信息相似度越高。
所述文字信息权重可以根据实际应用需求进行设置和调整。
S22、计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值。
所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
具体地,匹配对的位置关系数越多,位置关系相似度越高;未匹配的位置关系数越多,位置关系相似度越低。此外,对于错误匹配对的位置关系差异值,加惩罚分,位置关系差异大的,惩罚分大;位置关系差异小的,惩罚分小。例如,左右关系和上下关系,差异大;左右关系和左下右上关系,差异小。
所述位置关系权重可以根据实际应用需求进行设置和调整。
S23、计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值。
所述结构关系相似度包括:
匹配对的结构关系数、未匹配对的结构关系数中至少一种。
具体地,匹配对的结构关系数越多,结构关系相似度越高;未匹配的结构关系数越多,结构关系相似度越低。
所述结构关系权重可以根据实际应用需求进行设置和调整。
S24、对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
S3、依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
具体地,所输出的所述公式数据库中的各公式是按照匹配值由高至低进行排序的。
参见图4,对应上述方法,本申请另一实施例提供一种文本识别中的公式搜索装置,包括:
搜索匹配模块41,用于将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系。
匹配计算模块42,用于根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值。
匹配显示模块43,用于依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
具体地,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。比如,的拉泰赫(LaTex)文本为:x=\frac{1+\sqrt{2}}{34}。
所述预存的公式数据库存放的是海量的公式,每个公式构成数据库的基本单元。
每个公式包含三部分信息:文字信息、位置关系以及结构关系。
例如:公式(1)
(1)文字信息,共9个元素:x,=,分式,1,+,根号,2,3,4。
这里所指的文字信息,包括公式中出现的所有元素单元,如字母、数字、运算符号等。
(2)位置关系,描述相邻元素的相对位置关系,公式(1)中共14对位置关系,具体参见表一。
表一
(3)结构关系,如图2所示。
以上所描述的是数据库中每个数据单元所存放的相关信息,实际数据库的数据结构,例如设计为索引、图等等,在本申请中不进行限定。
本申请数据可以为题库,从而实现在所述题库中进行公式搜索,但本申请并不限定数据库的类型。
在本申请一具体实现中,参见图5,所述匹配计算模块42包括:
文字信息计算单元421,用于计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值;
位置关系计算单元422,用于计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值;
结构关系计算单元423,用于计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值;
累计计算单元424,用于对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
具体地,匹配对的字符越多,文字信息相似度越高;未匹配对的字符越多,文字信息相似度越低;匹配对字符数与未匹配对字符数的比值越大,文字信息相似度越高。
所述文字信息权重可以根据实际应用需求进行设置和调整。
所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
具体地,匹配对的位置关系数越多,位置关系相似度越高;未匹配的位置关系数越多,位置关系相似度越低。此外,对于错误匹配对的位置关系差异值,加惩罚分,位置关系差异大的,惩罚分大;位置关系差异小的,惩罚分小。例如,左右关系和上下关系,差异大;左右关系和左下右上关系,差异小。
所述位置关系权重可以根据实际应用需求进行设置和调整。
所述结构关系相似度包括:
匹配对的结构关系数、未匹配对的结构关系数中至少一种。
具体地,匹配对的结构关系数越多,结构关系相似度越高;未匹配的结构关系数越多,结构关系相似度越低。
所述结构关系权重可以根据实际应用需求进行设置和调整。
具体地,所输出的所述公式数据库中的各公式是按照匹配值由高至低进行排序的。
图6是本申请文本识别中的公式搜索方法的电子设备的硬件结构示意图。根据图6所示,该设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为例。
文本识别中的公式搜索方法的设备还可以包括:输入装置630和输出装置630。
处理器610、存储器620、输入装置630和输出装置630可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的文本识别中的公式搜索方法对应的程序指令/模块(例如,附图4所示的搜索匹配模块41、匹配计算模块42、匹配显示模块43)。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例文本识别中的公式搜索方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本识别中的公式搜索装置的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器620,还可以包括非易失性存储器620,例如至少一个磁盘存储器620件、闪存器件、或其他非易失性固态存储器620件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器620,这些远程存储器620可以通过网络连接至音效模式选择装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与文本识别中的公式搜索装置的用户设置以及功能控制有关的键信号输入。输出装置630可包括扬声器等设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的文本识别中的公式搜索方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(16)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种文本识别中的公式搜索方法,其特征在于,包括:
将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;
根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;
依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
2.如权利要求1所述的方法,其特征在于,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。
3.如权利要求1所述的方法,其特征在于,所述根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值包括:
计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值;
计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值;
计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值;
对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
4.如权利要求3所述的方法,其特征在于,所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
5.如权利要求3所述方法,其特征在于,所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
6.如权利要求3所述的方法,其特征在于,所述结构关系相似度包括:
匹配对的结构关系数、未匹配对的结构关系数中至少一种。
7.一种文本识别中的公式搜索装置,其特征在于,包括:
搜索匹配模块,用于将待搜索公式在预存的公式数据库中进行搜索匹配,所述公式数据库中保存各公式的文字信息、位置关系以及结构关系;
匹配计算模块,用于根据所述文字信息、位置关系以及结构关系的相似度,计算所述待搜索公式与所述公式数据库中的各公式的匹配值;
匹配显示模块,用于依据所述待搜索公式与所述公式数据库中的各公式的匹配值,输出与所述待搜索公式匹配值最高的前N个公式作为搜索结果,所述N为自然数。
8.如权利要求7所述的装置,其特征在于,所述待搜索公式为标记语言格式或者标记语言格式转化得到的图片格式。
9.如权利要求7所述的装置,其特征在于,所述匹配计算模块包括:
文字信息计算单元,用于计算所述待搜索公式与所述公式数据库中的各公式的文字信息相似度与文字信息权重的乘积获得文字信息匹配值;
位置关系计算单元,用于计算所述待搜索公式与所述公式数据库中的各公式的位置关系相似度与位置关系权重的乘积获得位置关系匹配值;
结构关系计算单元,用于计算所述待搜索公式与所述公式数据库中的各公式的结构关系相似度与结构关系权重的乘积获得结构关系匹配值;
累计计算单元,用于对所述文字信息匹配值、位置关系匹配值以及结构关系匹配值进行累加获得所述待搜索公式与所述公式数据库中的各公式的匹配值。
10.如权利要求9所述的装置,其特征在于,所述文字信息相似度包括:
匹配对的字符数、未匹配对的字符数以及匹配对字符数与未匹配对字符数的比值中至少一种。
11.如权利要求9所述装置,其特征在于,所述位置关系相似度包括:
匹配对的位置关系数、未匹配对的位置关系数以及错误匹配对的位置关系差异值中至少一种。
12.如权利要求9所述的装置,其特征在于,所述结构关系相似度包括:
匹配对的结构关系数、未匹配对的结构关系数中至少一种。
CN201611099606.0A 2016-12-01 2016-12-01 一种文本识别中的公式搜索方法及其装置 Active CN108133168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611099606.0A CN108133168B (zh) 2016-12-01 2016-12-01 一种文本识别中的公式搜索方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611099606.0A CN108133168B (zh) 2016-12-01 2016-12-01 一种文本识别中的公式搜索方法及其装置

Publications (2)

Publication Number Publication Date
CN108133168A true CN108133168A (zh) 2018-06-08
CN108133168B CN108133168B (zh) 2021-04-30

Family

ID=62387808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611099606.0A Active CN108133168B (zh) 2016-12-01 2016-12-01 一种文本识别中的公式搜索方法及其装置

Country Status (1)

Country Link
CN (1) CN108133168B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413740A (zh) * 2019-08-06 2019-11-05 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN110647666A (zh) * 2019-09-03 2020-01-03 平安科技(深圳)有限公司 模板与公式的智能匹配方法、装置及计算机可读存储介质
CN111597393A (zh) * 2020-04-14 2020-08-28 北京金山云网络技术有限公司 定理检索方法、装置、设备及存储介质
CN114677767A (zh) * 2022-02-11 2022-06-28 锐捷网络股份有限公司 公式生成方法、装置、计算设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4794528A (en) * 1986-02-21 1988-12-27 Hitachi, Ltd. Pattern matching method for tree structured data
CN101187929A (zh) * 2007-12-05 2008-05-28 浪潮集团山东通用软件有限公司 针对数据库表中大量数据进行灵活运算的公式定义组件
CN102033863A (zh) * 2009-09-30 2011-04-27 北大方正集团有限公司 一种公式处理方法与系统
CN102693303A (zh) * 2012-05-18 2012-09-26 上海极值信息技术有限公司 一种公式化数据的搜索方法及装置
JP5408623B2 (ja) * 2010-02-17 2014-02-05 株式会社日立製作所 検索式提供方法、プログラム、及び、検索式提供システム
CN104933181A (zh) * 2015-07-01 2015-09-23 周口师范学院 一种数学公式搜索方法及装置
CN105868177A (zh) * 2016-03-24 2016-08-17 河北师范大学 一种通用公式搜索方法
CN105975584A (zh) * 2016-05-03 2016-09-28 河北大学 一种数学表达式相似距离测量方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4794528A (en) * 1986-02-21 1988-12-27 Hitachi, Ltd. Pattern matching method for tree structured data
CN101187929A (zh) * 2007-12-05 2008-05-28 浪潮集团山东通用软件有限公司 针对数据库表中大量数据进行灵活运算的公式定义组件
CN102033863A (zh) * 2009-09-30 2011-04-27 北大方正集团有限公司 一种公式处理方法与系统
JP5408623B2 (ja) * 2010-02-17 2014-02-05 株式会社日立製作所 検索式提供方法、プログラム、及び、検索式提供システム
CN102693303A (zh) * 2012-05-18 2012-09-26 上海极值信息技术有限公司 一种公式化数据的搜索方法及装置
CN104933181A (zh) * 2015-07-01 2015-09-23 周口师范学院 一种数学公式搜索方法及装置
CN105868177A (zh) * 2016-03-24 2016-08-17 河北师范大学 一种通用公式搜索方法
CN105975584A (zh) * 2016-05-03 2016-09-28 河北大学 一种数学表达式相似距离测量方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HONGYING CHEN ET AL: "Mathematical formula similarity comparing based on tree structure", 《2016 12TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 *
RICHARD ZANIBBI ET AL: "Multi-Stage Math Formula Search: Using Appearance-Based Similarity Metrics at Scale", 《SIGIR "16: PROCEEDINGS OF THE 39TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
王小龙: "基于本体的数学表达式检索技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
秦玉平等: "一种基于二叉树的数学公式匹配算法", 《计算机科学》 *
郭俊楠: "MathML格式数学公式查重检测算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413740A (zh) * 2019-08-06 2019-11-05 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN110413740B (zh) * 2019-08-06 2022-10-14 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN110647666A (zh) * 2019-09-03 2020-01-03 平安科技(深圳)有限公司 模板与公式的智能匹配方法、装置及计算机可读存储介质
CN110647666B (zh) * 2019-09-03 2023-12-19 平安科技(深圳)有限公司 模板与公式的智能匹配方法、装置及计算机可读存储介质
CN111597393A (zh) * 2020-04-14 2020-08-28 北京金山云网络技术有限公司 定理检索方法、装置、设备及存储介质
CN114677767A (zh) * 2022-02-11 2022-06-28 锐捷网络股份有限公司 公式生成方法、装置、计算设备及计算机存储介质

Also Published As

Publication number Publication date
CN108133168B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110110145B (zh) 描述文本生成方法及装置
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN116797684B (zh) 图像生成方法、装置、电子设备及存储介质
CN113094550B (zh) 视频检索方法、装置、设备和介质
WO2023125335A1 (zh) 问答对生成的方法和电子设备
CN111489378B (zh) 视频帧特征提取方法、装置、计算机设备及存储介质
CN113378556A (zh) 提取文本关键字的方法及装置
CN108133168A (zh) 一种文本识别中的公式搜索方法及其装置
CN113010740B (zh) 词权重的生成方法、装置、设备及介质
CN110147532B (zh) 编码方法、装置、设备及存储介质
CN110147533B (zh) 编码方法、装置、设备及存储介质
CN109918669A (zh) 实体确定方法、装置及存储介质
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN110399488B (zh) 文本分类方法及装置
CN113516143B (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN108255841A (zh) 一种题目搜索的方法及其装置
CN108133209A (zh) 一种文本识别中的目标区域搜索方法及其装置
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN113836946A (zh) 训练评分模型的方法、装置、终端及存储介质
CN113822084A (zh) 语句翻译方法、装置、计算机设备及存储介质
CN108255798A (zh) 一种拉泰赫格式公式的输入方法及其装置
CN116955677A (zh) 基于文字生成图片的方法、装置、设备及存储介质
CN110851629A (zh) 一种图像检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant