CN111507250B - 图像识别方法、设备及存储介质 - Google Patents

图像识别方法、设备及存储介质 Download PDF

Info

Publication number
CN111507250B
CN111507250B CN202010299804.1A CN202010299804A CN111507250B CN 111507250 B CN111507250 B CN 111507250B CN 202010299804 A CN202010299804 A CN 202010299804A CN 111507250 B CN111507250 B CN 111507250B
Authority
CN
China
Prior art keywords
segment
formula
image
text
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010299804.1A
Other languages
English (en)
Other versions
CN111507250A (zh
Inventor
侯琦
王子豪
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202010299804.1A priority Critical patent/CN111507250B/zh
Publication of CN111507250A publication Critical patent/CN111507250A/zh
Application granted granted Critical
Publication of CN111507250B publication Critical patent/CN111507250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供一种图像识别方法、设备及存储介质,图像识别方法包括:对目标图像进行文本行检测确定至少一个文本行;利用分割模型在每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,分割线用于分割公式片段和/或文字片段;对至少一个公式片段和至少一个文字片段进行识别得到目标图像的识别结果。提高了图像识别过程中的准确率。

Description

图像识别方法、设备及存储介质
技术领域
本申请实施例涉及图像识别技术领域,尤其涉及图像识别方法、设备及存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)算法可以对图像中的内容进行识别,并转化为可编辑的文本类的格式。
OCR算法应用于生活的各个方面。例如,在一种应用场景中,学生在线上向老师提交试卷或者作业,老师可以接收到试卷或者作业的图像,该图像包含文字和公式等,利用OCR算法对图像内容进行识别,可以帮助老师进行智能批阅,但是OCR算法对于包含了文字和公式的图像,识别准确率较差。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种图像识别方法、设备及存储介质,用以克服上述缺陷。
本申请实施例提供一种图像识别方法,包括:
对目标图像进行文本行检测确定至少一个文本行;
利用分割模型在每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,分割线用于分割公式片段和/或文字片段;
对至少一个公式片段和至少一个文字片段进行识别得到目标图像的识别结果。
可选地,在本申请的一种实施例中,利用分割模型在每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,包括:
将至少一个文本行的图像输入分割模型得到至少一个文本行的热力图和类别图;
根据热力图中的高斯峰值确定至少一个分割线;
根据至少一个分割线将至少一个文本行的图像和类别图进行分割得到至少一个文字片段和至少一个公式片段。
可选地,在本申请的一种实施例中,该方法还包括:
根据至少一个分割线将文本行分割为至少一个片段;
根据至少一个片段中每个类别的像素占比确定每一个片段属于文字片段或公式片段。
可选地,在本申请的一种实施例中,根据至少一个片段中每个类别的像素占比确定每一个片段属于文字片段或公式片段,包括:
对于目标片段,确定目标片段中每个像素的类别;
如果目标片段中文字类别的像素占比大于公式类别的像素占比,确定目标片段属于文字片段;
如果目标片段中公式类别的像素占比大于文字类别的像素占比,确定目标片段属于公式片段。
可选地,在本申请的一种实施例中,对于目标片段,确定目标片段中每个像素的类别,包括:
确定目标片段中每一个像素的文字概率值和公式概率值;
将每一个像素的概率值中较大的概率值对应的类别确定为像素的类别。
可选地,在本申请的一种实施例中,对至少一个公式片段和至少一个文字片段进行识别得到目标图像的识别结果,包括:
利用公式识别模型对至少一个公式片段进行识别得到公式识别的结果;
利用文字识别模型对至少一个文字片段进行识别得到文字识别的结果;
对公式识别的结果和文字识别的结果进行融合得到目标图像的识别结果。
可选地,在本申请的一种实施例中,对公式识别的结果和文字识别的结果进行融合得到目标图像的识别结果,包括:
根据至少一个分割线的顺序将公式识别的结果和文字识别的结果进行排序和解码得到目标图像的识别结果。
可选地,在本申请的一种实施例中,该方法还包括:
在对目标片段中的内容分别利用公式识别模型和文字识别模型得到两个识别结果时,将概率较大的识别结果作为目标片段中的内容的识别结果。
可选地,在本申请的一种实施例中,该方法还包括:
对目标图像进行预处理,预处理包括饱和度增强、对比度增强、曝光处理、图像缩放中的至少一项。
本申请实施例提供一种电子设备,包括:处理器;以及被配置成存储计算机可执行指令的存储器,计算机可执行指令在被执行时使处理器实现本申请任一实施例中所描述的方法。
本申请实施例提供一种存储介质,存储介质存储有计算机可执行指令,计算机可执行指令在被执行时实现本申请任一实施例中所描述的方法。
本申请实施例提供的图像识别方法、设备及存储介质,因为利用分割模型在目标图像的每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,对不同的片段可以进行针对性识别,提高了图像识别的准确率。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比值绘制的。附图中:
图1为本申请实施例提供的一种图像识别方法的流程图;
图2为本申请实施例提供的一种分割模型的结构图;
图3为本申请实施例提供的一种分割效果示意图;
图4为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一、
本申请实施例提供一种图像识别方法,如图1所示,图1为本申请实施例提供的一种图像识别方法的流程图。该图像识别方法包括以下步骤:
步骤101、对目标图像进行文本行检测确定至少一个文本行。
需要说明的是,本申请中,目标表示单数,目标图像是任意一个图像,本申请只是以目标图像为例进行说明,并不代表任何限定。例如,在一种应用场景中,目标图像可以是学生试题答卷的图像,也可以是学生作业的图像,本申请对此不做限制。目标图像可以包含文字、公式等,本申请中,文字包含各种语言文字,例如,汉语文字、英语文字、日语文字、韩语文字等,本申请对此不作限制。
对目标图像进行文本行检测可以利用神经网络模型进行检测,也可以利用其他方式,本申请对此不作限制,此处,以神经网络模型为例进行说明。例如,在一种实现方式中,可以利用文本行检测模型对目标图像进行检测确定至少一个文本行。
对目标图像进行文本行检测之前,可以限对目标图像进行预处理。例如,可选地,在本申请的一种实施例中,该方法还包括:对目标图像进行预处理,预处理包括饱和度增强、对比度增强、曝光处理、图像缩放中的至少一项。
示例性的,对目标图像进行饱和度增强,可以增加目标图像的颜色鲜艳程度,使得目标图像中的内容更易于辨别;又如,将目标图像进行对比度增强,可以进一步使得目标图像中的内容易于区分;又如,将目标图像进行曝光处理,可以使得目标图像明暗变化更加明显,更易于辨别;又如,对目标图像进行缩放,可以在保留目标图像特征的前提下,减少数据量。当然,此处只是示例性说明,并不代表本申请局限于此。
步骤102、利用分割模型在每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段。
分割线用于分割公式片段和/或文字片段。此处,对于如何确定公式片段和文字片段,本申请实施例提供一种具体的实现方式如下:
可选地,在本申请的一种实施例中,利用分割模型在每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,包括:
将至少一个文本行的图像输入分割模型得到至少一个文本行的热力图和类别图;根据热力图中的高斯峰值确定至少一个分割线;根据至少一个分割线将至少一个文本行的图像和类别图进行分割得到至少一个文字片段和至少一个公式片段。
需要说明的是,分割模型的模型结构如下图2所示,图2为本申请实施例提供的一种分割模型的结构图,分割模型可以包括残差网络(ResNet)和特征金字塔(英文:FeaturePyramid Networks,FPN)两种结构,通过融合高层和低层的语义信息,多尺度的特征融合,提取出更加能表征图像信息的特征。将至少一个文本行的图像输入分割模型后,分割模型的输出分为两部分,第一部分用于确定文字与公式的分割线,第二部分用于分类。例如,输入图像的尺寸为W×H×C(其中W为图像宽度,H为图像高度,C为图像通道数),经过分割模型处理后,输出为1×W×3的图像(其中,1表示维度是1,W表示图像宽度,3表示图像高度),其中包括W×1的热力图(其中,W表示图像宽度,1表示图像高度)以及W×2的类别图(其中,W表示图像宽度,2表示图像高度)。需要说明的是,以W×1的热力图为例,图像宽度为W,可以看作是该图像具有W列像素,每一列像素对应一个概率值,该概率值表示该列像素是文字与公式边界的概率;又如,以W×2的类别图为例,图像宽度为W,可以看作是该图像具有W列像素,每一列像素有两种分类,属于公式或者文字,不同的高度可以表示不同的分类,因为本申请中涉及文字和公式两种分类,因此有两个高度,当然,此处只是示例性说明,并不代表本申请局限于此。
此处,列举一个具体示例说明如何对分割模型进行训练。
因为分割模型有两个输出,热力图和类别图,因此,需要利用至少一个文本行图像样本。
具体地,可以将至少一个文本行图像样本输入分割模型,得到输出的热力图和类别图,利用损失函数计算得到函数值,以此调整分割模型中的参数,此处对损失函数如何计算进行详细说明。
分割模型的两个输出,第一部分为热力图,第二部分为类别图,第一部分通过热力图损失函数(英文:Heat map Loss)计算函数值,第二部分通过分类损失函数计算函数值,根据这两个函数值可以得到分割模型的损失函数的函数值。
例如,可以通过公式一计算分割模型的损失函数的函数值Loss,
Loss=λLcls+lhm,公式一;
其中,λ是权重,Lcls是分类损失函数的函数值,Lhm是热力图损失函数的函数值。
在一种可选的实现方式中,分类损失函数的函数值Lcls可以通过公式二计算:
Figure BDA0002453560880000051
分类损失函数可以是交叉熵损失函数,其中M表示类别的数量,yc指示变量(0或1),如果该类别和样本的类别相同就是1,否则是0;Pc表示预测的样本是属于类别c的预测概率。
在另一种可选的实现方式中,热力图损失函数的函数值Lhm可以通过公式三计算:
Figure BDA0002453560880000052
其中M表示类别的数量,yi’表示预测值,yi表示真实标签。真实标签可以使用高斯分布生成,所以最终的预测值拟合的函数对应于高斯分布。
利用分割模型对文本行图像进行分割后,将文本行图像分割为至少一个片段,每一个片段按照类型可分为文字片段或者公式片段,此处,对片段分类进行示例性说明。
可选地,在本申请的一种实施例中,该方法还包括:
根据至少一个分割线将文本行分割为至少一个片段;根据至少一个片段中每个类别的像素占比确定每一个片段属于文字片段或公式片段。
如图3所示,图3为本申请实施例提供的一种分割效果示意图。例如,在本申请的一种实施例中,根据至少一个片段中每个类别的像素占比确定每一个片段属于文字片段或公式片段,包括:
对于目标片段,确定目标片段中每个像素的类别;
如果目标片段中文字类别的像素占比大于公式类别的像素占比,确定目标片段属于文字片段;
如果目标片段中公式类别的像素占比大于文字类别的像素占比,确定目标片段属于公式片段。
又如,如果目标片段中文字类别的像素占比大于预设占比,确定目标片段属于文字片段;如果目标片段中公式类别的像素占比大于预设占比,确定目标片段属于公式片段。
当然,此处只是示例性说明,并不代表本申请局限于此。此处目标片段是至少一个片段中的任意一个片段,目标仅表示单数,不用于任何限定,本申请中只是以目标片段为例说明如何确定一个片段的类别。
进一步可选地,在本申请的一种实施例中,对于目标片段,确定目标片段中每个像素的类别,包括:
确定目标片段中每一个像素的文字概率值和公式概率值;
将每一个像素的概率值中较大的概率值对应的类别确定为像素的类别。
例如:假设某段图像的宽度为M,即M个像素,每个像素中可以输出两个概率值(文字、公式二分类),根据最大概率值所对应的类确定此像素属于中文或者公式类,最终我们可以得到M个类别分类,选择占比最大的类别数作为该片段的类别。
需要说明的是,对于分割线处于字符正中央的情形,可以利用垂直投影算法确定分割线前后的一列像素是否全部空白像素较多,如果某一列像素全部为空白像素或空白像素的占比超过一定阈值,则根据该列像素所处的位置设定分割线,即分割线位于该列像素所处的位置。可选地,利用垂直投影算法确定垂直投影小于预设投影阈值的分割线,垂直投影小于预设投影阈值,即证明该列像素空白像素较多,在此处设定分割线可以避免把字符切割成两半,记录该分割线位置,这个分割线的处的字符相当于被包含了两次,这个机制我们称之为容错机制。其余正常的分割线直接切割,对于此处的字符识别,在步骤103 中详细描述。
步骤103、对至少一个公式片段和至少一个文字片段进行识别得到目标图像的识别结果。
可选地,在本申请的一种实施例中,对至少一个公式片段和至少一个文字片段进行识别得到目标图像的识别结果,包括:
利用公式识别模型对至少一个公式片段进行识别得到公式识别的结果;
利用文字识别模型对至少一个文字片段进行识别得到文字识别的结果;
对公式识别的结果和文字识别的结果进行融合得到目标图像的识别结果。
例如,将分割模型得到的中文和公式区域裁剪后,分别送入文字识别模型和公式识别模型。此处的文字识别模型和公式识别模型可以是任意的文字识别模型和公式识别模型,比如识别模型可以采用基于联结主义时间分类(英文: Connectionist TemporalClassification,CTC)的模型架构,即将裁剪后的图片通过卷积神经网络(ConvolutionalNeural Networks,CNN)提取图像空间特征,然后再把图像特征输入到双向长短期记忆网络(英文:Long Short-Term Memory, LSTM)提取时间序列的特征,得到y=y1,…,yT序列(其中T表示序列长度),代表集合L(所有文字类别数)的类别概率分布,L’代表L中加入空白字符(blank),用来解决冗余字符的问题。将得到的y作为CTC模型的输入,得到识别结果。
此处,列举一个具体示例说明如何对识别模型进行训练。需要说明的是,对于文字识别模型,需要利用至少一个文字片段样本对文字识别模型进行训练;对于公式识别模型,需要利用至少一个公式片段样本对公式识别模型进行训练。此处,对识别模型不进行具体限定,只是说明利用至少一个片段样本对识别模型训练的过程。
具体地,将至少一个片段样本输入识别模型,并计算识别模型的损失函数,根据识别模型的损失函数的函数值调整模型中的参数,以此优化模型。
其中识别模型的损失函数可以根据公式四进行计算:
Figure BDA0002453560880000081
其中,Lctc表示识别模型的损失函数,Ii表示输入图像,li代表真实标签, P(li|yi)代表给定预测输出yi,得到Ii的概率,概率越大即预测和真实的字符越接近,因此优化时只需最小化负对数似然值。
P(li|yi)可以根据公式五计算得到:
Figure BDA0002453560880000082
其中,π:β-1(π)=l代表所有经过β变换后是l的路径π,β变换为β:L′T→L≤T,例如β(--he-l-lll-oo-)=hello(其中-代表空白字符),也就是去除掉重复的字符。其中P(π|y)可以根据公式六计算如下:
Figure BDA0002453560880000083
其中,
Figure BDA0002453560880000084
代表路径πt的第t时刻。对于识别模型,CNN提取后的特征维度为(B×H×W×C),其中B为图像一个批次的大小,H为图像的高度, W为图像的宽度,C为图像的通道数。对于中文模型,直接将H压缩到1,而对于公式模型,H最终大小大于1(针对框架的需要进行的调整),使得最终输入到LSTM中的序列中带有空间位置信息,提高公式图片的识别准确度。
可选地,在本申请的一种实施例中,对公式识别的结果和文字识别的结果进行融合得到目标图像的识别结果,包括:
根据至少一个分割线的顺序将公式识别的结果和文字识别的结果进行排序和解码得到目标图像的识别结果。
需要说明的是,文字识别模型和公式识别模型输出的结果都是编码数据,需要对编码数据进行解码才能得到最终识别结果。此处的编码数据可以是根据识别字典编码的结果,例如识别字典为2000个字符,编码即按照一定的规则将实际的字符编码成计算机可以理解的字符映射。如字符”我”被编码为001,字符“他”被编码成002等,总共有2000个字符映射,利用识别字典将识别模型输出的编码数据进行解码即可得到最终的识别结果(即文字和公式的内容)。
可选地,在本申请的一种实施例中,该方法还包括:
在对目标片段中的内容分别利用公式识别模型和文字识别模型得到两个识别结果时,将概率较大的识别结果作为目标片段中的内容的识别结果。
结合步骤102中的描述,对于正常切割的图片,直接组合其结果即可;而对于容错机制,即记录的分割线位置处的字符被识别了两次的问题,直接使用两个识别模型中的概率较大的那个作为该字符的映射结果,可以在一定程度上缓解由于切割模型不准确导致的模型精度降低的问题。对于其他字符使用解码算法例如贪心算法(greedy search),即把各个字符的相应的概率最大值作为其识别字符。
本申请实施例提供的图像识别方法、设备及存储介质,因为利用分割模型在目标图像的每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,对不同的片段可以进行针对性识别,提高了图像识别的准确率。
实施例二、
基于上述实施例所描述的图像识别方法,本申请实施例提供了一种电子设备,用于执行上述任一实施例所描述的图像识别方法,如图4所示,该电子设备40包括:本申请实施例提供一种电子设备,包括:处理器(processor)402;以及被配置成存储计算机可执行指令的存储器(memory)404,计算机可执行指令在被执行时使处理器402实现本申请任一实施例中所描述的方法。
可选地,该电子设备还可以包括总线406及通信接口(CommunicationsInterface)408,处理器402、通信接口408、以及存储器404通过总线406 完成相互间的通信。
通信接口408,用于与其它设备进行通信。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个 CPU以及一个或多个ASIC。
存储器404,可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory),例如至少一个磁盘存储器。
实施例三、
基于上述实施例所描述的图像识别方法,本申请实施例提供一种存储介质,存储介质存储有计算机可执行指令,计算机可执行指令在被执行时实现本申请任一实施例中所描述的方法。
本申请实施例提供的图像识别方法、设备及存储介质,因为利用分割模型在目标图像的每一个文本行中确定至少一个分割线,并根据至少一个分割线将文本行分割为至少一个公式片段和至少一个文字片段,对不同的片段可以进行针对性识别,提高了图像识别的准确率。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子设备。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
上述实施例阐明的方法,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种图像识别方法,其特征在于,包括:
对目标图像进行文本行检测确定至少一个文本行;
利用分割模型在每一个文本行中确定至少一个分割线,并根据所述至少一个分割线将所述文本行分割为至少一个公式片段和至少一个文字片段,所述分割线用于分割公式片段和/或文字片段;
对所述至少一个公式片段和所述至少一个文字片段进行识别得到所述目标图像的识别结果;
其中,所述分割模型包括残差网络和特征金字塔两种结构,所述残差网络的结构连接到所述特征金字塔的结构,所述残差网络的结构用于上采样,所述特征金字塔的结构用于下采样,通过融合高层和低层的语义信息进行特征融合,提取出图像信息的特征;所述目标图像对应于所述分割模型的输入图像的尺寸为图像宽度×图像高度×图像通道数,所述分割模型的输出分为两部分,第一部分用于确定文字与公式的分割线,第二部分用于分类,输出图像的图像高度对应的不同高度表示所述至少一个文本行的热力图或所述至少一个文本行的类别图的不同分类,所述不同分类包括公式或文字,所述热力图表示所述文字与所述公式的边界的概率。
2.根据权利要求1所述的方法,其特征在于,利用分割模型在每一个文本行中确定至少一个分割线,并根据所述至少一个分割线将所述文本行分割为至少一个公式片段和至少一个文字片段,包括:
将所述至少一个文本行的图像输入所述分割模型得到所述至少一个文本行的热力图和类别图;
根据所述热力图中的高斯峰值确定所述至少一个分割线;
根据所述至少一个分割线将所述至少一个文本行的图像和所述类别图进行分割得到所述至少一个文字片段和所述至少一个公式片段。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述至少一个分割线将所述文本行分割为至少一个片段;
根据所述至少一个片段中每个类别的像素占比确定每一个片段属于所述文字片段或所述公式片段。
4.根据权利要求3所述的方法,其特征在于,根据所述至少一个片段中每个类别的像素占比确定每一个片段属于所述文字片段或所述公式片段,包括:
对于目标片段,确定所述目标片段中每个像素的类别;
如果所述目标片段中文字类别的像素占比大于公式类别的像素占比,确定所述目标片段属于所述文字片段;
如果所述目标片段中公式类别的像素占比大于文字类别的像素占比,确定所述目标片段属于所述公式片段。
5.根据权利要求4所述的方法,其特征在于,对于目标片段,确定所述目标片段中每个像素的类别,包括:
确定所述目标片段中每一个像素的文字概率值和公式概率值;
将每一个像素的概率值中较大的概率值对应的类别确定为所述像素的类别。
6.根据权利要求1所述的方法,其特征在于,对所述至少一个公式片段和所述至少一个文字片段进行识别得到所述目标图像的识别结果,包括:
利用公式识别模型对所述至少一个公式片段进行识别得到公式识别的结果;
利用文字识别模型对所述至少一个文字片段进行识别得到文字识别的结果;
对所述公式识别的结果和所述文字识别的结果进行融合得到所述目标图像的识别结果。
7.根据权利要求6所述的方法,其特征在于,对所述公式识别的结果和所述文字识别的结果进行融合得到所述目标图像的识别结果,包括:
根据所述至少一个分割线的顺序将所述公式识别的结果和所述文字识别的结果进行排序和解码得到所述目标图像的识别结果。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在对目标片段中的内容分别利用所述公式识别模型和所述文字识别模型得到两个识别结果时,将概率较大的识别结果作为所述目标片段中的内容的识别结果。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
对所述目标图像进行预处理,所述预处理包括饱和度增强、对比度增强、曝光处理、图像缩放中的至少一项。
10.一种电子设备,其特征在于,包括:处理器;以及被配置成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述权利要求1-9中任一项所述的方法。
11.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被执行时实现上述权利要求1-9中任一项所述的方法。
CN202010299804.1A 2020-04-16 2020-04-16 图像识别方法、设备及存储介质 Active CN111507250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010299804.1A CN111507250B (zh) 2020-04-16 2020-04-16 图像识别方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010299804.1A CN111507250B (zh) 2020-04-16 2020-04-16 图像识别方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111507250A CN111507250A (zh) 2020-08-07
CN111507250B true CN111507250B (zh) 2022-07-22

Family

ID=71869358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010299804.1A Active CN111507250B (zh) 2020-04-16 2020-04-16 图像识别方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111507250B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381096A (zh) * 2020-11-12 2021-02-19 阳光保险集团股份有限公司 一种图片识别方法及装置
CN112766270A (zh) * 2021-01-08 2021-05-07 中国工商银行股份有限公司 一种图片分割方法、装置及存储介质
WO2023279186A1 (en) * 2021-07-06 2023-01-12 Orbiseed Technology Inc. Methods and systems for extracting text and symbols from documents
CN113420757B (zh) * 2021-08-23 2021-11-30 北京每日优鲜电子商务有限公司 文本审核方法、装置、电子设备和计算机可读介质
CN113936271A (zh) * 2021-10-18 2022-01-14 北京有竹居网络技术有限公司 文本识别方法、装置、可读介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385652B2 (en) * 2010-03-31 2013-02-26 Microsoft Corporation Segmentation of textual lines in an image that include western characters and hieroglyphic characters
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
CN105447522A (zh) * 2015-11-25 2016-03-30 成都数联铭品科技有限公司 一种复杂图像文字识别系统
CN110781648A (zh) * 2019-10-12 2020-02-11 安徽七天教育科技有限公司 一种基于深度学习的试卷自动转录系统及方法

Also Published As

Publication number Publication date
CN111507250A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111507250B (zh) 图像识别方法、设备及存储介质
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
CN114399769B (zh) 文本识别模型的训练方法、文本识别方法及装置
CN112016315B (zh) 模型训练、文本识别方法及装置、电子设备、存储介质
CN110232340B (zh) 建立视频分类模型以及视频分类的方法、装置
CN114596566B (zh) 文本识别方法及相关装置
CN111062262B (zh) 发票识别方法以及发票识别装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112348028A (zh) 一种场景文本检测方法、批改方法、装置、电子设备及介质
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN113255328A (zh) 语言模型的训练方法及应用方法
CN114332873A (zh) 一种识别模型的训练方法及装置
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN113298188A (zh) 字符识别及神经网络训练方法和装置
CN112446228B (zh) 视频检测方法、装置、电子设备及计算机存储介质
CN111242114B (zh) 文字识别方法及装置
CN112149678A (zh) 特殊语言的文字识别方法、识别模型训练方法和装置
CN114707518B (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN112287130A (zh) 一种图形题目的搜索方法、装置以及设备
CN116246276A (zh) 一种信息识别方法、装置、设备及可读存储介质
CN115374766A (zh) 文本标点恢复方法及相关设备
CN117422796B (zh) 文字标志生成方法、装置、电子设备及存储介质
CN115223171B (zh) 文本识别方法、装置、设备及存储介质
CN116259050B (zh) 灌装桶标签文字定位识别方法、装置、设备及检测方法
CN118470721A (zh) 一种数据提取方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant