CN111079745A - 公式识别方法、装置、设备及存储介质 - Google Patents

公式识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111079745A
CN111079745A CN201911269577.1A CN201911269577A CN111079745A CN 111079745 A CN111079745 A CN 111079745A CN 201911269577 A CN201911269577 A CN 201911269577A CN 111079745 A CN111079745 A CN 111079745A
Authority
CN
China
Prior art keywords
formula
image
character
sample
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911269577.1A
Other languages
English (en)
Inventor
易显维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911269577.1A priority Critical patent/CN111079745A/zh
Publication of CN111079745A publication Critical patent/CN111079745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种公式识别方法、装置、设备及存储介质,涉及数据处理技术领域。本发明通过获取公式图像,采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域,对至少一个字符区域进行识别,获取各字符区域中的字符,并根据各字符区域中的字符,生成公式图像对应的latex格式的公式文本,可以识别得到公式图像中所包含的公式。其中,预设分割网络可以通过采用样本公式图像、以及样本公式图像对应的蒙版所构成的样本公式图像集合对Unet网络进行训练所获取,采用该预设分割网络可以对公式图像中的字符区域进行更准确地分割,有效降低字符之间粘连对分割效果所造成的不确定影响,进而提高公式识别的准确性。

Description

公式识别方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种公式识别方法、装置、设备及存储介质。
背景技术
公式识别一般是指对包含有公式的图像进行识别,将图像中包含的公式转换为计算机可识别的表达式的过程,如,可以对数学公式图像进行识别,将数学公式图像中包含的数学公式转化为拉泰赫(latex)格式的数学表达式,以便于计算机可以基于公式进行计算,或者将公式进行存储等。例如,对于一些需要录入数据库进行存储、且包含有公式的文本内容、题目等,则可以通过扫描获取文本内容、题目等的图像,然后基于公式识别算法对图像进行识别,获取其中包含的公式进行存储。
现有技术中,公式识别的方法一般为:通过连通域的方式对公式图像进行字符分割,每个字符是一个连通域,不同字符之间是不同的连通域;然后,可以基于字符分割结果对字符进行识别,从而识别出整个公式。
但是,采用上述现有的公式识别方法,对一些存在粘连字符的公式图像进行识别时,识别准确性不高。例如,对于一些手写表达式的公式图像而言,公式中往往会存在粘连字符,而上述现有的公式识别方法对此类手写表达式并不能进行很好地识别。
发明内容
本发明提供一种公式识别方法、装置、设备及存储介质,可以对公式图像中包含的公式进行更准确地识别。
第一方面,本发明实施例提供一种公式识别方法,该方法包括:
获取公式图像;采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域;其中,预设分割网络通过采用样本公式图像集合对Unet网络进行训练所获取,样本公式图像集合包括:样本公式图像、以及样本公式图像对应的蒙版;对至少一个字符区域进行识别,获取各字符区域中的字符;根据各字符区域中的字符,生成公式图像对应的拉泰赫latex格式的公式文本。
可选地,所述获取公式图像,包括:
获取包含有公式的图像信息;采用预设的高校场景文本检测网络对图像信息中的公式区域进行定位,得到公式图像。
可选地,所述采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域之前,该方法还包括:
获取随机生成的样本公式图像、以及样本公式图像对应的蒙版,得到样本公式图像集合;根据样本公式图像集合对Unet网络进行训练,得到预设分割网络。
可选地,所述对至少一个字符区域进行识别,获取各字符区域中的字符之前,该方法还包括:
获取样本字符图像集合,样本字符图像集合包括:样本字符图像、以及样本字符图像对应的字符标签,字符标签用于指示对应的样本字符图像中的字符;根据样本字符图像集合,对卷积神经网络进行训练,得到预设识别网络。
所述对至少一个字符区域进行识别,获取各字符区域中的字符,包括:
对于任一个字符区域:采用预设识别网络对字符区域进行识别,获取字符区域中的字符。
可选地,所述采用预设分割网络对公式图像进行分割,包括:
创建一张和图像信息大小相同的白色图像;根据高校场景文本检测网络输出的像素点坐标标记白色图像,得到标记后的白色图像;采用预设分割网络,并根据后的白色图像,对公式图像进行分割。
可选地,所述根据各字符区域中的字符,生成公式图像对应的拉泰赫latex格式的公式文本,包括:
根据各字符区域中的字符,构建公式语法树;根据公式语法树生成公式图像对应的拉泰赫latex格式的公式文本。
第二方面,本发明实施例提供一种公式识别装置,该装置包括:获取模块,用于获取公式图像;分割模块,用于采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域;其中,预设分割网络通过采用样本公式图像集合对Unet网络进行训练所获取,样本公式图像集合包括:样本公式图像、以及样本公式图像对应的蒙版;识别模块,用于对至少一个字符区域进行识别,获取各字符区域中的字符;生成模块,用于根据各字符区域中的字符,生成公式图像对应的拉泰赫latex格式的公式文本。
可选地,所述获取模块,包括:获取子模块,用于获取包含有公式的图像信息;定位子模块,用于采用预设的高校场景文本检测网络对图像信息中的公式区域进行定位,得到公式图像。
可选地,所述装置还包括:第一训练模块,用于在分割模块采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域之前,获取随机生成的样本公式图像、以及样本公式图像对应的蒙版,得到样本公式图像集合,根据样本公式图像集合对Unet网络进行训练,得到预设分割网络。
可选地,所述装置还包括:第二训练模块,用于在识别模块对至少一个字符区域进行识别,获取各字符区域中的字符之前,获取样本字符图像集合,样本字符图像集合包括:样本字符图像、以及样本字符图像对应的字符标签,字符标签用于指示对应的样本字符图像中的字符,根据样本字符图像集合,对卷积神经网络进行训练,得到预设识别网络;所述识别模块,具体用于对于任一个字符区域:采用预设识别网络对字符区域进行识别,获取字符区域中的字符。
可选地,所述分割模块,包括:创建子模块,用于创建一张和图像信息大小相同的白色图像;标记子模块,用于根据高校场景文本检测网络输出的像素点坐标标记白色图像,得到标记后的白色图像;分割子模块,用于采用预设分割网络,并根据标记后的白色图像,对公式图像进行分割。
可选地,所述生成模块,包括:构建子模块,用于根据各字符区域中的字符,构建公式语法树;生成子模块,用于根据公式语法树生成公式图像对应的拉泰赫latex格式的公式文本。
第三方面,本发明实施例提供一种公式识别设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当公式识别设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行如第一方面所述的公式识别方法。
第四方面,本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行如第一方面所述的公式识别方法。
本发明的有益效果是:
本发明实施例通过获取公式图像,采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域,对至少一个字符区域进行识别,获取各字符区域中的字符,并根据各字符区域中的字符,生成公式图像对应的latex格式的公式文本,可以识别得到公式图像中所包含的公式。其中,预设分割网络可以通过采用样本公式图像、以及样本公式图像对应的蒙版所构成的样本公式图像集合对Unet网络进行训练所获取,采用该预设分割网络可以对公式图像中的字符区域进行更准确地分割,有效降低字符之间粘连对分割效果所造成的不确定影响,进而提高公式识别的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的公式识别方法的流程示意图;
图2示出了本发明实施例提供的公式识别方法的另一流程示意图;
图3示出了本发明实施例提供的公式图像的示意图一;
图4示出了本发明实施例提供的公式识别方法的又一流程示意图;
图5示出了本发明实施例提供的公式图像的示意图二;
图6示出了本发明实施例提供的公式图像的分割示意图;
图7示出了本发明实施例提供的公式识别方法的又一流程示意图;
图8示出了本发明实施例提供的公式识别方法的又一流程示意图;
图9示出了本发明实施例提供的公式语法树的示意图;
图10示出了本发明实施例提供的公式图像的示意图三;
图11示出了本发明实施例提供的公式识别方法的又一流程示意图;
图12示出了本发明实施例提供的公式图像的示意图四;
图13示出了本发明实施例提供的公式识别装置的结构示意图;
图14示出了本发明实施例提供的获取模块的结构示意图;
图15示出了本发明实施例提供的公式识别装置的另一结构示意图;
图16示出了本发明实施例提供的公式识别装置的又一结构示意图;
图17示出了本发明实施例提供的分割模块的结构示意图;
图18示出了本发明实施例提供的生成模块的结构示意图;
图19示出了本发明实施例提供的公式识别设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。还需要说明,“第一”、“第二”、“第三”等描述在本发明中仅仅用于区分功能,而不能表示相对重要性。
本发明实施例提供一种公式识别方法,可以应用于服务器或计算机,或者,也可以是服务器或计算机中的某一个或多个处理器等,本发明对此不作限制。
图1示出了本发明实施例提供的公式识别方法的流程示意图。
如图1所示,该公式识别方法,可以包括:
S101、获取公式图像。
可选地,公式图像可以是一些需要录入数据库进行存储的文本内容、题目等中所包含的公式的图像,可以通过扫描、拍摄、截图等方式对公式图像获取。或者,公式图像也可以是一些手写表达式的扫描或拍摄图像,本发明对此不作限制。
图2示出了本发明实施例提供的公式识别方法的另一流程示意图。
如图2所示,一种实施方式中,上述获取公式图像的步骤,具体可以包括:
S201、获取包含有公式的图像信息。
例如,对于需要录入数据库进行存储、且包含有公式的文本内容、题目等而言,可以通过扫描获取文本内容、题目等的图像。
S202、采用预设的高校场景文本检测网络(Advanced An Efficient andAccurate Scene Text Detector,Advanced East)对图像信息中的公式区域进行定位,得到公式图像。
其中,Advanced East可以用于对图像信息中的公式区域进行准确定位。
可选地,其他实施方式中,上述获取公式图像的步骤也可以是直接获取公式截图、仅仅针对于公式区域进行扫描等,本发明对此不作限制。
图3示出了本发明实施例提供的公式图像的示意图一。
举例说明:假设存在公式“24/3*2*(1+3)”的手写表达式,则对该手写表达式进行扫描,获取到的公式图像可以如图3所示。
S102、采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域。
其中,字符区域是指公式中所包含的字符所在的区域,字符可以包括:数字、字母、符号等。预设分割网络可以通过采用样本公式图像集合对Unet网络进行训练所获取,样本公式图像集合包括:样本公式图像、以及样本公式图像对应的蒙版。在执行前述步骤S102之前,需要先根据采用样本公式图像集合对Unet网络进行训练,获取上述预设分割网络。
图4示出了本发明实施例提供的公式识别方法的又一流程示意图。
如图4所示,根据采用样本公式图像集合对Unet网络进行训练,获取上述预设分割网络的步骤具体可以包括:
S401、获取随机生成的样本公式图像、以及样本公式图像对应的蒙版,得到样本公式图像集合。
S402、根据样本公式图像集合对Unet网络进行训练,得到预设分割网络。
举例说明:可以获取大量随机生成的公式图片样本,得到样本公式图像集合。同时,获取样本公式图像集合中的各公式图片样本对应的蒙版(mask)。然后,基于该样本公式图像集合和各公式图片样本对应的蒙版(mask)对Unet网络进行训练,训练完成后的Unet网络即为前述预设分割网络。训练完成后,该Unet网络可以从公式区域对应的图像中分割出不同的数字、字母、符号等。
训练Unet网络的具体的算子表达形式及代码可以如下:
inpt=Input(shape=(input_size_1,input_size_2,3))
conv1=Conv2d_BN(inpt,8,(3,3))
conv1=Conv2d_BN(conv1,8,(3,3))
pool1=MaxPooling2D(pool_size=(2,2),strides=(2,2),padding='same')(conv1)
conv2=Conv2d_BN(pool1,16,(3,3))
conv2=Conv2d_BN(conv2,16,(3,3))
pool2=MaxPooling2D(pool_size=(2,2),strides=(2,2),adding='same')(conv2)
conv3=Conv2d_BN(pool2,32,(3,3))
conv3=Conv2d_BN(conv3,32,(3,3))
pool3=MaxPooling2D(pool_size=(2,2),strides=(2,2),adding='same')(conv3)
conv4=Conv2d_BN(pool3,64,(3,3))
conv4=Conv2d_BN(conv4,64,(3,3))
pool4=MaxPooling2D(pool_size=(2,2),strides=(2,2),padding='same')(conv4)
conv5=Conv2d_BN(pool4,128,(3,3))
#conv5=Dropout(0.1)(conv5)
conv5=Conv2d_BN(conv5,128,(3,3))
#conv5=Dropout(0.1)(conv5)
convt1=Conv2dT_BN(conv5,64,(3,3))
concat1=concatenate([conv4,convt1],axis=3)
#concat1=Dropout(0.1)(concat1)
conv6=Conv2d_BN(concat1,64,(3,3))
conv6=Conv2d_BN(conv6,64,(3,3))
convt2=Conv2dT_BN(conv6,32,(3,3))
concat2=concatenate([conv3,convt2],axis=3)
#concat2=Dropout(0.1)(concat2)
conv7=Conv2d_BN(concat2,32,(3,3))
conv7=Conv2d_BN(conv7,32,(3,3))
convt3=Conv2dT_BN(conv7,16,(3,3))
concat3=concatenate([conv2,convt3],axis=3)
#concat3=Dropout(0.1)(concat3)
conv8=Conv2d_BN(concat3,16,(3,3))
conv8=Conv2d_BN(conv8,16,(3,3))
convt4=Conv2dT_BN(conv8,8,(3,3))
concat4=concatenate([conv1,convt4],axis=3)
#concat4=Dropout(0.1)(concat4)
conv9=Conv2d_BN(concat4,8,(3,3))
conv9=Conv2d_BN(conv9,8,(3,3))
#conv9=Dropout(0.1)(conv9)
outpt=Conv2D(filters=3,kernel_size=(1,1),strides=(1,1),padding='same',activation='sigmoid')(conv9)
可选地,上述代码可以使用keras深度学习框架对Unet网络进行描述。
图5示出了本发明实施例提供的公式图像的示意图二,图6示出了本发明实施例提供的公式图像的分割示意图。
假设存在图5所示的公式图像,则采用上述预设分割网络对图5所示的公式图像进行分割后,所获取到的该公式图像中所包含的字符区域可以如图6所示。
在获取到公式图像中所包含的字符区域后,可以通过下述步骤S103对每个字符区域进行识别,获取字符区域中的字符。
S103、对至少一个字符区域进行识别,获取各字符区域中的字符。
图7示出了本发明实施例提供的公式识别方法的又一流程示意图。
可选地,如图7所示,上述对至少一个字符区域进行识别,获取各字符区域中的字符之前,该公式识别方法还可以包括:
S701、获取样本字符图像集合。
样本字符图像集合包括:样本字符图像、以及样本字符图像对应的字符标签,字符标签用于指示对应的样本字符图像中的字符。
S702、根据样本字符图像集合,对卷积神经网络进行训练,得到预设识别网络。
例如,可以生成大量需要识别的符号、字母、数字等的图片作为样本,并为每个样本标注对应的字符标签,然后根据样本和对应的字符标签对卷积神经网络进行训练,训练完成后的卷积神经网络可以对字符区域进行识别,得到字符区域中的符号、数字以及字母。
相应地,上述对至少一个字符区域进行识别,获取各字符区域中的字符的步骤,具体可以包括:对于任一个字符区域:采用预设识别网络(即前述训练完成的卷积神经网络)对字符区域进行识别,获取字符区域中的字符。
S104、根据各字符区域中的字符,生成公式图像对应的拉泰赫(latex)格式的公式文本。
图8示出了本发明实施例提供的公式识别方法的又一流程示意图。
可选地,如图8所示,上述根据各字符区域中的字符,生成公式图像对应的拉泰赫latex格式的公式文本的步骤,具体可以包括:
S801、根据各字符区域中的字符,构建公式语法树。
图9示出了本发明实施例提供的公式语法树的示意图。
假设某公式图像中包含有公式“(1+2)*3”。则根据该公式“(1+2)*3”构建的公式语法树可以如图9所示:
图9所示的公式语法树中,第①步为:“1”→“+”;第②步为:“1+”→“2”;第③步为:“(1+2)”→“*”;第④步为:“(1+2)*”→“3”。第①步和第②步可以得到(1+2),再结合第③步和第④步可以得到(1+2)*3。
S802、根据公式语法树生成公式图像对应的latex格式的公式文本。
图10示出了本发明实施例提供的公式图像的示意图三。
举例说明:假设存在图10所示的公式图像,则通过本发明实施例提供的公式识别方法对该公式图像进行识别后,所生成的latex格式的公式文本可以为:“v_{f}=C_{d}n\frac{\pi D^{2}}{4}\sqrt{\frac{2P}{\rho}}”,该公式文本插入到文档(Document,doc)中能够被正确表示为文本类型的公式。
由上所述,本发明实施例通过获取公式图像,采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域,对至少一个字符区域进行识别,获取各字符区域中的字符,并根据各字符区域中的字符,生成公式图像对应的latex格式的公式文本,可以识别得到公式图像中所包含的公式。其中,预设分割网络可以通过采用样本公式图像、以及样本公式图像对应的蒙版所构成的样本公式图像集合对Unet网络进行训练所获取,采用该预设分割网络可以对公式图像中的字符区域进行更准确地分割,有效降低字符之间粘连对分割效果所造成的不确定影响,进而提高公式识别的准确性。
例如,对于一些手写表达式的公式图像而言,通过本发明实施例提供的公式识别方法对其进行识别,可以更准确地识别出公式图像中所包含的手写表达式。
图11示出了本发明实施例提供的公式识别方法的又一流程示意图。
可选地,上述采用预设分割网络对公式图像进行分割的步骤,具体可以包括:
S1101、创建一张和图像信息大小相同的白色图像。
S1102、根据高校场景文本检测网络输出的像素点坐标标记白色图像,得到标记后的白色图像。
S1103、采用预设分割网络,并根据后的白色图像,对公式图像进行分割。
通过上述图11所示的方法对公式图像进行分割,可以由于输出的是像素位置而不是文本框位置,而排除所有不是字符像素位置的干扰。
另外,还需要补充说明的是,由于本发明实施例可以采用Advanced East对包含有公式的图像信息中的公式区域进行定位,获取公式图像,所以,可以实现对公式中字符的精确定位。例如,可以对符号进行精确定位,避免后续识别过程中符号周围的字母、数字等对符号的干扰。
下面对Advanced East对包含有公式的图像信息中的公式区域进行定位的有益效果作具体解释:
图12示出了本发明实施例提供的公式图像的示意图四。
假设存在图12所示的公式图像,在对图12所示的公式图像进行识别时,若需要将公式中的“根号”和“b2-4ac”进行分离,而不影响“根号”的识别,则需要对“根号”进行准确定位,而通过Advanced East可以将文字区域的像素点精确地和非文字区域区分开来,所以使用该方法不会影响到符号周围的字符定位,也不会将周围字符带入到符号定位当中对后续识别过程造成干扰。
可选地,Advanced East可以通过采用符号标记样本对East网络进行训练获取,符号标记样本可以包括有对应的图片文件路径、图片中符号区域切割之后的方框的左上角坐标和右下角坐标。训练后的East网络可以输出任意图片中符号所在的像素点位置。
基于前述方法实施例中所述的公式识别方法,本发明实施例还对应提供一种公式识别装置,图13示出了本发明实施例提供的公式识别装置的结构示意图。
如图13所示,该公式识别装置,可以包括:获取模块10,可以用于获取公式图像;分割模块20,可以用于采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域;其中,预设分割网络通过采用样本公式图像集合对Unet网络进行训练所获取,样本公式图像集合包括:样本公式图像、以及样本公式图像对应的蒙版;识别模块30,可以用于对至少一个字符区域进行识别,获取各字符区域中的字符;生成模块40,可以用于根据各字符区域中的字符,生成公式图像对应的拉泰赫latex格式的公式文本。
图14示出了本发明实施例提供的获取模块的结构示意图。
可选地,如图14所示,获取模块10可以包括:获取子模块11,可以用于获取包含有公式的图像信息;定位子模块12,可以用于采用预设的高校场景文本检测网络对图像信息中的公式区域进行定位,得到公式图像。
图15示出了本发明实施例提供的公式识别装置的另一结构示意图。
可选地,如图15所示,该公式识别装置还可以包括:第一训练模块50,可以用于在分割模块20采用预设分割网络对公式图像进行分割,获取公式图像中所包含的至少一个字符区域之前,获取随机生成的样本公式图像、以及样本公式图像对应的蒙版,得到样本公式图像集合,根据样本公式图像集合对Unet网络进行训练,得到预设分割网络。
图16示出了本发明实施例提供的公式识别装置的又一结构示意图。
可选地,如图16所示,该公式识别装置还可以包括:第二训练模块60,可以用于在识别模块30对至少一个字符区域进行识别,获取各字符区域中的字符之前,获取样本字符图像集合,样本字符图像集合包括:样本字符图像、以及样本字符图像对应的字符标签,字符标签用于指示对应的样本字符图像中的字符,根据样本字符图像集合,对卷积神经网络进行训练,得到预设识别网络。识别模块30具体可以用于对于任一个字符区域:采用预设识别网络对字符区域进行识别,获取字符区域中的字符。
图17示出了本发明实施例提供的分割模块的结构示意图。
可选地,如图17所示,分割模块20可以包括:创建子模块21,可以用于创建一张和图像信息大小相同的白色图像;标记子模块22,可以用于根据高校场景文本检测网络输出的像素点坐标标记白色图像,得到标记后的白色图像;分割子模块23,可以用于采用预设分割网络,并根据标记后的白色图像,对公式图像进行分割。
图18示出了本发明实施例提供的生成模块的结构示意图。
可选地,如图18所示,生成模块40可以包括:构建子模块41,可以用于根据各字符区域中的字符,构建公式语法树;生成子模块42,可以用于根据公式语法树生成公式图像对应的拉泰赫latex格式的公式文本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中方法的对应过程,本发明中不再赘述。
本发明实施例提供的公式识别装置对应于前述方法实施例中所述的公式识别方法,因此,装置实施例中所述的公式识别装置,具有前述实施例中所述的公式识别方法具备的全部有益效果,在此亦不再赘述。
本发明实施例还提供一种公式识别设备,该公式识别设备可以是服务器或计算机,图19示出了本发明实施例提供的公式识别设备的结构示意图。
如图19所示,该公式识别设备可以包括:处理器100、存储介质200和总线(图中未标出),存储介质200存储有处理器100可执行的机器可读指令,当公式识别设备运行时,处理器100与存储介质200之间通过总线通信,处理器100执行机器可读指令,以执行如前述方法实施例中所述的公式识别方法。具体实现方式和技术效果类似,在此不再赘述。
为了便于说明,在上述公式识别设备中仅描述了一个处理器。然而,应当注意,本发明中的公式识别设备还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,公式识别设备的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B等。
在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行如前述方法实施例中所述的公式识别方法。具体实现方式和技术效果类似,在此同样不再赘述。
可选地,该存储介质可以是U盘、移动硬盘、ROM、RAM、磁碟或者光盘等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种公式识别方法,其特征在于,所述方法包括:
获取公式图像;
采用预设分割网络对所述公式图像进行分割,获取所述公式图像中所包含的至少一个字符区域;其中,所述预设分割网络通过采用样本公式图像集合对Unet网络进行训练所获取,所述样本公式图像集合包括:样本公式图像、以及所述样本公式图像对应的蒙版;
对所述至少一个字符区域进行识别,获取各所述字符区域中的字符;
根据各所述字符区域中的字符,生成所述公式图像对应的拉泰赫latex格式的公式文本。
2.根据权利要求1所述的方法,其特征在于,所述获取公式图像,包括:
获取包含有公式的图像信息;
采用预设的高校场景文本检测网络对所述图像信息中的公式区域进行定位,得到所述公式图像。
3.根据权利要求1所述的方法,其特征在于,所述采用预设分割网络对所述公式图像进行分割,获取所述公式图像中所包含的至少一个字符区域之前,所述方法还包括:
获取随机生成的样本公式图像、以及所述样本公式图像对应的蒙版,得到所述样本公式图像集合;
根据所述样本公式图像集合对Unet网络进行训练,得到所述预设分割网络。
4.根据权利要求1所述的方法,其特征在于,所述对所述至少一个字符区域进行识别,获取各所述字符区域中的字符之前,所述方法还包括:
获取样本字符图像集合,所述样本字符图像集合包括:样本字符图像、以及所述样本字符图像对应的字符标签,所述字符标签用于指示对应的所述样本字符图像中的字符;
根据所述样本字符图像集合,对卷积神经网络进行训练,得到预设识别网络;
所述对所述至少一个字符区域进行识别,获取各所述字符区域中的字符,包括:
对于任一个所述字符区域:
采用所述预设识别网络对所述字符区域进行识别,获取所述字符区域中的字符。
5.根据权利要求2所述的方法,其特征在于,所述采用预设分割网络对所述公式图像进行分割,包括:
创建一张和所述图像信息大小相同的白色图像;
根据所述高校场景文本检测网络输出的像素点坐标标记所述白色图像,得到标记后的白色图像;
采用预设分割网络,并根据标记后的白色图像,对所述公式图像进行分割。
6.根据权利要求1所述的方法,其特征在于,所述根据各所述字符区域中的字符,生成所述公式图像对应的拉泰赫latex格式的公式文本,包括:
根据各所述字符区域中的字符,构建公式语法树;
根据所述公式语法树生成所述公式图像对应的拉泰赫latex格式的公式文本。
7.一种公式识别装置,其特征在于,所述装置包括:
获取模块,用于获取公式图像;
分割模块,用于采用预设分割网络对所述公式图像进行分割,获取所述公式图像中所包含的至少一个字符区域;其中,所述预设分割网络通过采用样本公式图像集合对Unet网络进行训练所获取,所述样本公式图像集合包括:样本公式图像、以及所述样本公式图像对应的蒙版;
识别模块,用于对所述至少一个字符区域进行识别,获取各所述字符区域中的字符;
生成模块,用于根据各所述字符区域中的字符,生成所述公式图像对应的拉泰赫latex格式的公式文本。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,包括:
获取子模块,用于获取包含有公式的图像信息;
定位子模块,用于采用预设的高校场景文本检测网络对所述图像信息中的公式区域进行定位,得到所述公式图像。
9.一种公式识别设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述公式识别设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-6任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。
CN201911269577.1A 2019-12-11 2019-12-11 公式识别方法、装置、设备及存储介质 Pending CN111079745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911269577.1A CN111079745A (zh) 2019-12-11 2019-12-11 公式识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911269577.1A CN111079745A (zh) 2019-12-11 2019-12-11 公式识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111079745A true CN111079745A (zh) 2020-04-28

Family

ID=70313908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911269577.1A Pending CN111079745A (zh) 2019-12-11 2019-12-11 公式识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111079745A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899202A (zh) * 2020-05-19 2020-11-06 武汉东智科技股份有限公司 一种视频图像中叠加时间字符的增强方法
CN112101359A (zh) * 2020-11-11 2020-12-18 广州华多网络科技有限公司 文本公式的定位方法、模型训练方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184292A (zh) * 2015-08-26 2015-12-23 北京云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
CN106611148A (zh) * 2015-10-21 2017-05-03 北京百度网讯科技有限公司 基于图像的离线公式识别方法和装置
CN108960245A (zh) * 2018-07-13 2018-12-07 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109241861A (zh) * 2018-08-14 2019-01-18 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109583449A (zh) * 2018-10-29 2019-04-05 深圳市华尊科技股份有限公司 字符识别方法及相关产品
CN109614944A (zh) * 2018-12-17 2019-04-12 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
CN109753965A (zh) * 2018-12-14 2019-05-14 深圳壹账通智能科技有限公司 一种基于深度学习的凭证识别方法和装置、计算机设备
CN110084239A (zh) * 2019-04-10 2019-08-02 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184292A (zh) * 2015-08-26 2015-12-23 北京云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
CN106611148A (zh) * 2015-10-21 2017-05-03 北京百度网讯科技有限公司 基于图像的离线公式识别方法和装置
CN108960245A (zh) * 2018-07-13 2018-12-07 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109241861A (zh) * 2018-08-14 2019-01-18 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109583449A (zh) * 2018-10-29 2019-04-05 深圳市华尊科技股份有限公司 字符识别方法及相关产品
CN109753965A (zh) * 2018-12-14 2019-05-14 深圳壹账通智能科技有限公司 一种基于深度学习的凭证识别方法和装置、计算机设备
CN109614944A (zh) * 2018-12-17 2019-04-12 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
CN110084239A (zh) * 2019-04-10 2019-08-02 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899202A (zh) * 2020-05-19 2020-11-06 武汉东智科技股份有限公司 一种视频图像中叠加时间字符的增强方法
CN111899202B (zh) * 2020-05-19 2024-03-15 武汉东智科技股份有限公司 一种视频图像中叠加时间字符的增强方法
CN112101359A (zh) * 2020-11-11 2020-12-18 广州华多网络科技有限公司 文本公式的定位方法、模型训练方法及相关装置
CN112101359B (zh) * 2020-11-11 2021-02-12 广州华多网络科技有限公司 文本公式的定位方法、模型训练方法及相关装置

Similar Documents

Publication Publication Date Title
Oliveira et al. dhSegment: A generic deep-learning approach for document segmentation
US10685462B2 (en) Automatic data extraction from a digital image
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
US10191889B2 (en) Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation
US10896357B1 (en) Automatic key/value pair extraction from document images using deep learning
CN106599940B (zh) 图片文字的识别方法及装置
RU2613849C1 (ru) Оптическое распознавание символов серии изображений
JP2010108135A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
CN110909743B (zh) 图书盘点方法及图书盘点系统
Kim et al. End-to-end digitization of image format piping and instrumentation diagrams at an industrially applicable level
CN111079745A (zh) 公式识别方法、装置、设备及存储介质
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN112883926A (zh) 表格类医疗影像的识别方法及装置
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
CN111526422B (zh) 一种视频帧中目标对象的拟合方法、系统及设备
CN112434582A (zh) 一种车道线颜色识别方法、系统、电子设备及存储介质
JP7365835B2 (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
CN114647361A (zh) 一种基于人工智能的触摸屏物体定位方法及装置
CN115335874A (zh) 用于设备上应用中改进的计算机视觉的系统和方法
CN113743400B (zh) 一种基于深度学习的电子公文智能审查方法及系统
Maity et al. An approach for detecting circular callouts in architectural, engineering and constructional drawing documents
CN111103987B (zh) 公式录入方法及计算机存储介质
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220908

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.