CN112257703A - 图像识别方法、装置、设备和可读存储介质 - Google Patents
图像识别方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN112257703A CN112257703A CN202011541965.3A CN202011541965A CN112257703A CN 112257703 A CN112257703 A CN 112257703A CN 202011541965 A CN202011541965 A CN 202011541965A CN 112257703 A CN112257703 A CN 112257703A
- Authority
- CN
- China
- Prior art keywords
- image
- preset
- character string
- character
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012937 correction Methods 0.000 claims description 80
- 239000013598 vector Substances 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 102100032202 Cornulin Human genes 0.000 description 8
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
Abstract
本申请提出一种图像识别方法、装置、设备和可读存储介质,其中,方法包括:对待识别的字符串图像进行字符识别,得到字符串图像中各个区域的待测字符属于预设候选字符的概率值;根据待测字符属于预设候选字符的概率值,得到预设候选字符的概率值;获取字符串图像的预设参考字符串,以预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径;基于预设候选字符的概率值,确定包含有预设候选字符的目标路径的概率值;在目标路径的概率值满足预设识别条件的情况下,将预设参考字符串作为字符串图像的字符识别结果。本申请提高了图像的识别效率和识别结果准确率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像识别方法、装置、设备和可读存储介质。
背景技术
当前有一些针对图像字符识别的技术方案,例如光学字符识别(OpticalCharacter Recognition,OCR),这些技术方案的字符识别结果过度依赖对图像自身的识别,当图像质量较低时,对图像的识别效果不佳,导致字符识别结果错误。
发明内容
本申请实施例提供一种图像识别方法、装置、设备和可读存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种图像识别方法,包括:
对待识别的字符串图像进行字符识别,得到字符串图像中各个区域的待测字符属于预设候选字符的概率值;
根据待测字符属于预设候选字符的概率值,得到预设候选字符的概率值;
获取字符串图像的预设参考字符串,以预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径;
基于预设候选字符的概率值,确定包含有预设候选字符的目标路径的概率值;
在目标路径的概率值满足预设识别条件的情况下,将预设参考字符串作为字符串图像的字符识别结果。
第二方面,本申请实施例提供了一种图像识别装置,包括:
字符识别模块,用于对待识别的字符串图像进行字符识别,得到字符串图像中各个区域的待测字符属于预设候选字符的概率值;
预设候选字符概率值获取模块,用于根据待测字符属于预设候选字符的概率值,得到预设候选字符的概率值;
目标路径搜索模块,用于获取字符串图像的预设参考字符串,以预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径;
目标路径的概率值获取模块,用于基于预设候选字符的概率值,确定包含有预设候选字符的目标路径的概率值;
字符识别结果获取模块,用于在目标路径的概率值满足预设识别条件的情况下,将预设参考字符串作为字符串图像的字符识别结果。
第三方面,本申请实施例提供了一种图像识别装置,该装置包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:提高了图像的识别效率以及识别结果准确率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请实施例的图像识别方法的流程图;
图2为本申请实施例的图像识别方法中,一示例的流程图;
图3A、图3B和图3C为本申请实施例的图像识别方法中,旋转校正前图像的三个示例图;
图3D为本申请实施例的图像识别方法中,旋转校正后图像的示例图;
图4A为本申请实施例的图像识别方法中,掩膜处理前图像的示例图;
图4B为本申请实施例的图像识别方法中,掩膜图像的示例图;
图4C为本申请实施例的图像识别方法中,掩膜处理后图像的示例图;
图5为本申请实施例的图像识别方法中,概率矩阵的示例图;
图6为本申请实施例的图像识别方法中,路径搜索的示例图;
图7为根据本申请实施例的图像识别装置的结构框图;
图8为根据本申请实施例的图像识别设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本申请实施例的图像识别方法的流程图。如图1所示,该图像识别方法可以包括:
S101、对待识别的字符串图像进行字符识别,得到字符串图像中各个区域的待测字符属于预设候选字符的概率值;
S102、根据待测字符属于预设候选字符的概率值,得到预设候选字符的概率值;
S103、获取字符串图像的预设参考字符串,以预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径;
S104、基于预设候选字符的概率值,确定包含有预设候选字符的目标路径的概率值;
S105、在目标路径的概率值满足预设识别条件的情况下,将预设参考字符串作为字符串图像的字符识别结果。
步骤S101中,一个区域对应包含的字符的不受限制,比如,可以是包含有完整字符的部分字符,也可以是包含一个、两个或多个。
步骤S102中,预设候选字符为可构成字符串的候选字符。根据字符串的语言类型,提前设定相应的预设候选字符。例如,识别的字符串为英文单词,预设候选字符可以包括“A、B、……、Z”这26个字母和空白字符。对应的,一个区域中的待测字符属于预设候选字符的概率值,则可以是分别属于“A、B、……、Z”这26个字母和空白字符的概率值,比如属于“A”是0.5,“B”是0,……,“Z”是0.2,空白字符是0.8。
步骤S103中,预设参考字符串,表示字符串图像的目标字符识别结果。例如识别的字符串图像是学生试卷,那么预设参考字符串则可以是学生试卷的标准答案。
步骤S103中,在搜索路径的过程中,相邻路径节点相同的字符可以合并表示同一个字符,例如预设参考字符串为“always”,得到的目标路径可以是“aaa-lll-w-a-yyy-ss”、“---aa-ll-w-a-ys”之类的形式,其中,“-”表示空白字符。
步骤S105中,在目标路径的概率值不满足预设识别条件的情况下,则字符串图像的字符识别结果不符合预设参考字符串。
本申请实施例以预设参考字符串为目标,可以迅速过滤各个区域中与预设参考字符串无关的预设候选字符,并在得到目标路径后,进而在确定目标路径的概率值满足要求时,即可将预设参考字符串直接作为字符串图像的字符识别结果,如此,能够有效提高识别效率,以及提高识别结果准确率。
本申请实施例可以应用于教学场景中,实现智能批改。首先,将待批改的试卷或作业进行拍照或者扫描处理,得到照片或扫描图像后,从中提取待识别的字符串图像。然后,以字符串图像对应的标准答案作为预设参考字符串,利用本申请实施例的方法,确定字符串图像中的字符识别结果是否符合标准答案,从而实现智能批改,无需人工接入,提高批改效率。
在一种实施方式中,还包括:获取预设节点阈值。
其中,步骤S103中,以预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径,包括:将概率值大于预设节点阈值的预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径。
在上述实施方式中,只有概率值大于预设节点阈值的预设候选字符才可以被选为路径节点,这样可以筛选掉大量的无关预设候选字符,提高了搜索效率,也提高了目标路径的可信度。
在一种实施方式中,步骤S104中,可以根据目标路径包含有的预设候选字符的概率值的平均值、总和或者总乘积,确定目标路径的概率值。
在一种实施方式中,步骤S105中,在目标路径的概率值大于预设路径阈值的情况下,将预设参考字符串作为字符串图像的字符识别结果。
在上述实施方式中,只要存在一条目标路径的概率值大于预设路径阈值,即可认为字符串图像中的字符为该预设参考字符串,也即,两者字符串图像中的字符与预设参考字符串相匹配。
在一种实施方式中,步骤S101,包括:
将待识别的字符串图像输入至字符识别模型,以通过字符识别模型提取字符串图像的特征向量序列,并预测提取的特征向量序列中各个特征向量属于预设候选字符的概率值;其中,特征向量序列中特征向量表征字符串图像中区域的特征;
将字符识别模型输出的各个特征向量属于预设候选字符的概率值,作为字符串图像中各个区域的待测字符属于预设候选字符的概率值。
需要说明的是,一个特征向量就对应于字符串图像中的一个区域。上述预测特征向量属于预设候选字符的概率值,目的就是预测特征向量所对应的这个区域属于预设候选字符的概率值。
在上述实施方式中,利用字符识别模型实现对字符串图像的特征向量序列的提取,并对特征向量序列进行预测进而得到字符串图像各个区域预设候选字符的方法,实现了对字符串图像的智能识别,字符识别结果的准确率高。
进一步的,字符识别模型可以采用CRNN(Convolution Recurrent NeuralNetwork)文本识别网络和CTC(Connectionist Temporal Classification)网络。CRNN文本识别网络包括卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。具体的,CNN用于提取字符串图像的特征向量序列,RNN用于对特征向量序列进行预测,CTC用于对RNN的预测结果进行解码,得到特征向量序列中各个特征向量属于预设候选字符的概率值。
在一种实施方式中,本申请实施例提供的方法,还包括:
获取待处理的原始图像;
对原始图像进行预设旋转校正处理,得到第一校正图像;
获取第一校正图像的字符识别结果;
计算第一校正图像的字符识别结果和预设参考字符串的第一差异值;
如果第一差异值在预设差异值范围内,则将第一校正图像作为待识别的字符串图像。
在上述实施方式中,对原始图像进行旋转处理,有利于提高字符识别的准确率。其次,通过校正图像的字符识别结果与预设参考字符串的差异值,对旋转效果进行校验,提高旋转校正的效果。
进一步的,获取第一校正图像的字符识别结果,包括:将第一校正图像输入字符识别模型,得到第一校正图像的字符识别结果。其中,字符识别模型可以采用CRNN文本识别网络。
进一步的,计算第一校正图像的字符识别结果和预设参考字符串的第一差异值,包括:计算第一校正图像的字符识别结果和预设参考字符串的编辑距离,作为第一差异值。
在一种实施方式中,本申请实施例提供的方法,还包括:
如果第一差异值超出预设差异值范围,则将原始图像进行预设旋转角度的旋转,得到第二校正图像,直至第二校正图像对应的字符识别结果与预设参考字符串之间的差异值满足预设差异值条件为止。
在上述实施方式中,对于第一校正图像不符合校正要求的,可以继续旋转直至满足要求,实现有效旋转校正,提高后续字符识别的准确率。
进一步的,预设差异值条件可以是差异值满足预设差异值范围。
进一步的,预设差异值条件也可以是在多个第二校正图像中差异值最小的。具体的,将原始图像进行预设旋转角度的旋转,得到多个第二校正图像;计算预设参考字符串与第二校正图像对应的字符识别结果的第二差异值;在多个第二校正图像中,选取第二差异值最小的第二校正图像作为待识别的字符串图像。
在一种实施方式中,对原始图像进行预设旋转校正处理,得到第一校正图像,包括:
获取旋转校正模型;
将原始图像输入旋转校正模型,通过旋转校正模型识别原始图像中字符串的倾斜角度,并根据倾斜角度对原始图像进行旋转,得到第一校正图像。
进一步的,旋转校正模型可以通过训练resnet18深度网络得到。
进一步的,旋转校正模型用于对原始图像进行多个预设旋转方向的分类识别,例如0°,90°,180°和270°这四个旋转方向,并根据分类识别结果对原始图像进行旋转校正。
在一种实施方式中,本申请实施例的方法,在步骤S101之前,还包括:提取原始图像中的字符串区域,根据预设的图像尺寸调整规范,对提取的图像进行调整,得到调整后的图像,以利用调整后的图像进行旋转校正处理。
上述尺寸调整,使得图像能够符合后续的旋转校正模型和/或字符识别模型的输入要求,以更好地提取图像特征。
在一种实施方式中,本申请实施例的方法,在步骤S101之前,还包括:对完成旋转校正后的图像进行掩膜处理,将掩膜处理后的图像作为待识别的字符串图像。掩膜处理的目的在于完整保留字符串图像的边缘信息。
示例性地,掩膜处理的步骤,包括;获取掩膜图像,将完成旋转校正后的图像粘贴在掩膜图像上,得到掩膜处理后的图像。其中,掩膜图像的高度大于或等于旋转校正后的图像的高度,掩膜图像的高度大于或等于旋转校正后的图像。
图2给出将本申请实施例应用至英文试卷批改的一个示例的流程图。假设原始图像是英文试卷中的英语单词图像,与该英语单词图像对应的试卷参考答案为预设参考字符串,参考图2,该示例的步骤具体如下。
第一步,采集拍摄的英语单词图像,进行尺寸规范化。
英语单词图像采集方法包括但不仅限于利用移动设备的摄像头拍照上传以及电子屏幕手写板和扫描仪扫描英文试卷获取。对于获取的英语单词图像,根据预设的图像尺寸调整规范,进行图像高宽等比例规范化。例如定义图像规范化高度 Nh,计算图像缩放比例为 Ratio=Nh/Image_h,则规范化宽度Nw=Ratio*Image_w,其中,Image_h表示英语单词图像的高度,Image_w表示英语单词图像的宽度。将英语单词图像进行等比例缩放有利于适配网络模型的输入,更好的提取图像特征。
第二步,基于深度学习的旋转校正。
(1)利用基于resnet18深度网络建立的旋转校正模型,对调整后的图像进行0°,90°,180°,270°四个旋转方向的分类识别并根据分类识别的结果进行旋转校正,得到第一校正图像。
(2)由于旋转校正模型对图像进行校正存在一定的误判,所以对旋转后的图片送入CRNN文本识别网络得出字符识别结果,计算字符识别结果与预设参考字符串的编辑距离dist,设定编辑距离阈值T_d,若dist<T_d,则第一校正图像作为完成校正的图像,得到第三步的输入。否则,将调整后的图像对应0°,90°,180°,270°四个旋转角度的第二校正图像依次输入至CRNN文本识别网络得出字符识别结果,计算四个字符识别结果与预设参考字符串的编辑距离;以其中编辑距离最小值对应的第二校正图像,作为完成校正的图像,得到第三步的输入。
以英文单词“always”为例,图3A、3B和3C给出了“always”旋转校正前的几种示例,图3D给出了“always”旋转校正后的示例。
第三步,图像掩膜(Mask)预处理。
获取第二步完成校正的图像,如图4A所示。
初始化一张高度为64宽度为384的掩膜图像,如图4B所示。
为完整保留单词图像的左右边缘信息,将完成校正后的图像粘贴至掩膜图像的中央,粘贴后的效果如图4C所示。
第四步,基于CRNN与CTC解码的英语单词识别,得到概率矩阵。
将经过第三步掩膜处理后的图像(即待识别的字符串图像)输入至CRNN文本识别网络,CRNN文本识别网络的预测结果经过CTC解码后,得到图像中特征向量序列中各帧特征向量与预设候选字符的概率矩阵Pro。
其中,概率矩阵Pro的高度为预设候选字符的个数,即空白字符blank类别加上需要识别的字符类别个数N,所以Pro_h = N+1。概率矩阵Pro的宽度为图像经过CRNN文本识别网络卷积得到的特征向量序列。
参见图5示例,待识别的字符串图像的宽度为384,概率矩阵的宽度为T = 96,即Pro_w = 96,概率矩阵的高度是空白字符blank加上26个英文字母,即Pro_h = 27。
第五步,基于预设参考字符串,改进CTC解码给出识别结果。
(1)获取预设参考字符串“always”,至概率矩阵Pro左边第一帧T_1起,逐帧统计能够得到预设参考字符串的目标路径。参见图6示例,为了得到“always”,则在第一帧可以有两种选择“a”和“blank”,两条路径,第二帧T_2时,以第一帧“a”路径出发,可以选择“a”、“blank”、“l”三条路径,同理,以第一帧“blank”路径出发,可以选择“blank”、“a”两条路径。依次类推,进行第三帧T_3、第四帧T_4......第九十六帧T_96的路径搜索。
进一步地,可以设定路径节点概率阈值为thres = 0.5,对每条路径在当前帧进行搜索时,若当前帧T_i的概率值ProT_i>thres,则继续往下走,其中,i为整数且i∈[1,96];反之,则判定为该条路径不符合要求,扔弃。
(2)统计搜索得到的所有目标路径。然后,根据目标路径包含的预设候选字符的概率值,计算目标路径的概率平均值p_avg。
第六步,基于路径概率阈值,完成批改。
给定最后的路径概率阈值T_avg = 0.5,若存在一条目标路径的概率平均值p_avg大于T_avg,则认为该英语单词图像的识别结果与所给预设参考字符串一致,符合标准答案。
本示例采用图像深度学习技术与改进CTC解码相结合的方法,针对英语单词图像,实现一种拍照场景下英语单词智能批改方案,对低质量图像具有较好的鲁棒性,无需人工介入,提高批改效率。
综上,本示例至少具备有益效果:1、无需定制版面,无需人工标记点、无需指定录入设备,整个过程无需人工介入,提高批改效率。2、利用旋转校正模型与CRNN文本识别网络结合的方式进行图像的旋转校正,实现有效校正。3、基于预设参考字符串以及预设节点阈值,过滤每帧中的无关计算路径的预设候选字符,对概率矩阵进行逐帧阈值解码,解码效率高,识别准确率高。
图7示出根据本申请实施例的图像识别装置的结构框图。如图7所示,该图像识别装置700可以包括:
字符识别模块701,用于对待识别的字符串图像进行字符识别,得到字符串图像中各个区域的待测字符属于预设候选字符的概率值;
预设候选字符概率值获取模块702,用于根据待测字符属于预设候选字符的概率值,得到预设候选字符的概率值;
目标路径搜索模块703,用于获取字符串图像的预设参考字符串,以预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径;
目标路径的概率值获取模块704,用于基于预设候选字符的概率值,确定包含有预设候选字符的目标路径的概率值;
字符识别结果获取模块705,用于在目标路径的概率值满足预设识别条件的情况下,将预设参考字符串作为字符串图像的字符识别结果。
在一种实施方式中,该图像识别装置,还包括:预设节点阈值获取模块;其中,
预设节点阈值获取模块,用于获取预设节点阈值;
目标路径搜索模块,还用于将概率值大于预设节点阈值的预设候选字符作为路径节点,搜索得到预设参考字符串的至少一条目标路径。
在一种实施方式中,字符识别结果获取模块,还用于在目标路径的概率值大于预设路径阈值的情况下,将预设参考字符串作为字符串图像的字符识别结果。
在一种实施方式中,字符识别模块,还用于将待识别的字符串图像输入至字符识别模型,以通过字符识别模型提取字符串图像的特征向量序列,并预测提取的特征向量序列中各个特征向量属于预设候选字符的概率值;其中,特征向量序列中特征向量表征字符串图像中区域的特征;以及,将字符识别模型输出的各个特征向量属于预设候选字符的概率值,作为字符串图像中各个区域的待测字符属于预设候选字符的概率值。
在一种实施方式中,该图像识别装置,还包括:旋转校正模块;旋转校正模块,用于获取待处理的原始图像;对原始图像进行预设旋转校正处理,得到第一校正图像;获取第一校正图像的字符识别结果;计算第一校正图像的字符识别结果和预设参考字符串的第一差异值;如果第一差异值在预设差异值范围内,则将第一校正图像作为待识别的字符串图像。
在一种实施方式中,旋转校正模块,还用于:如果第一差异值超出预设差异值范围,则将原始图像进行预设旋转角度的旋转,得到第二校正图像,直至第二校正图像对应的字符识别结果与预设参考字符串之间的差异值满足预设差异值条件为止。
在一种实施方式中,旋转校正模块,还用于获取旋转校正模型;将原始图像输入旋转校正模型,通过旋转校正模型识别原始图像中字符串的倾斜角度,并根据倾斜角度对原始图像进行旋转,得到第一校正图像。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图8示出根据本申请实施例的图像识别设备的结构框图。如图8所示,该图像识别设备包括:存储器810和处理器820,存储器810内存储有可在处理器820上运行的计算机程序。处理器820执行该计算机程序时实现上述实施例中的图像识别方法。存储器810和处理器820的数量可以为一个或多个。
该图像识别设备还包括:
通信接口830,用于与外界设备进行通信,进行数据交互传输。
如果存储器810、处理器820和通信接口830独立实现,则存储器810、处理器820和通信接口830可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器810、处理器820及通信接口830集成在一块芯片上,则存储器810、处理器820及通信接口830可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种图像识别方法,其特征在于,包括:
对待识别的字符串图像进行字符识别,得到所述字符串图像中各个区域的待测字符属于预设候选字符的概率值;
根据所述待测字符属于预设候选字符的概率值,得到所述预设候选字符的概率值;
获取所述字符串图像的预设参考字符串,以所述预设候选字符作为路径节点,搜索得到所述预设参考字符串的至少一条目标路径;
基于所述预设候选字符的概率值,确定包含有所述预设候选字符的所述目标路径的概率值;
在所述目标路径的概率值满足预设识别条件的情况下,将所述预设参考字符串作为所述字符串图像的字符识别结果。
2.根据权利要求1所述的方法,其特征在于,还包括:获取预设节点阈值;
其中,所述以所述预设候选字符作为路径节点,搜索得到所述预设参考字符串的至少一条目标路径,包括:
将概率值大于预设节点阈值的预设候选字符作为路径节点,搜索得到所述预设参考字符串的至少一条目标路径。
3.根据权利要求1所述的方法,其特征在于,在所述目标路径的概率值满足预设识别条件的情况下,将所述预设参考字符串作为所述字符串图像的字符识别结果,包括:
在所述目标路径的概率值大于预设路径阈值的情况下,将所述预设参考字符串作为所述字符串图像的字符识别结果。
4.根据权利要求1所述的方法,其特征在于,所述对待识别的字符串图像进行字符识别,得到所述字符串图像中各个区域的待测字符属于预设候选字符的概率值,包括:
将待识别的字符串图像输入至字符识别模型,以通过所述字符识别模型提取所述字符串图像的特征向量序列,并预测提取的所述特征向量序列中各个特征向量属于预设候选字符的概率值;其中,所述特征向量序列中特征向量表征所述字符串图像中区域的特征;
将所述字符识别模型输出的所述各个特征向量属于预设候选字符的概率值,作为所述字符串图像中各个区域的待测字符属于预设候选字符的概率值。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取待处理的原始图像;
对所述原始图像进行预设旋转校正处理,得到第一校正图像;
获取所述第一校正图像的字符识别结果;
计算所述第一校正图像的字符识别结果和所述预设参考字符串的第一差异值;
如果所述第一差异值在预设差异值范围内,则将所述第一校正图像作为所述待识别的字符串图像。
6.根据权利要求5所述的方法,其特征在于,还包括:
如果所述第一差异值超出所述预设差异值范围,则将所述原始图像进行预设旋转角度的旋转,得到第二校正图像,直至所述第二校正图像对应的字符识别结果与所述预设参考字符串之间的差异值满足预设差异值条件为止。
7.根据权利要求5或6所述的方法,其特征在于,所述对所述原始图像进行预设旋转校正处理,得到第一校正图像,包括:
获取旋转校正模型;
将所述原始图像输入所述旋转校正模型,通过所述旋转校正模型识别所述原始图像中字符串的倾斜角度,并根据所述倾斜角度对所述原始图像进行旋转,得到第一校正图像。
8.一种图像识别装置,其特征在于,包括:
字符识别模块,用于对待识别的字符串图像进行字符识别,得到所述字符串图像中各个区域的待测字符属于预设候选字符的概率值;
预设候选字符概率值获取模块,用于根据所述待测字符属于预设候选字符的概率值,得到所述预设候选字符的概率值;
目标路径搜索模块,用于获取所述字符串图像的预设参考字符串,以所述预设候选字符作为路径节点,搜索得到所述预设参考字符串的至少一条目标路径;
目标路径的概率值获取模块,用于基于所述预设候选字符的概率值,确定包含有所述预设候选字符的所述目标路径的概率值;
字符识别结果获取模块,用于在所述目标路径的概率值满足预设识别条件的情况下,将所述预设参考字符串作为所述字符串图像的字符识别结果。
9.根据权利要求8所述的装置,其特征在于,还包括:预设节点阈值获取模块;其中,
所述预设节点阈值获取模块,用于获取预设节点阈值;
所述目标路径搜索模块,还用于将概率值大于预设节点阈值的预设候选字符作为路径节点,搜索得到所述预设参考字符串的至少一条目标路径。
10.根据权利要求8所述的装置,其特征在于,所述字符识别结果获取模块,还用于在所述目标路径的概率值大于预设路径阈值的情况下,将所述预设参考字符串作为所述字符串图像的字符识别结果。
11.根据权利要求8所述的装置,其特征在于,所述字符识别模块,还用于将待识别的字符串图像输入至字符识别模型,以通过所述字符识别模型提取所述字符串图像的特征向量序列,并预测提取的所述特征向量序列中各个特征向量属于预设候选字符的概率值;其中,所述特征向量序列中特征向量表征所述字符串图像中区域的特征;以及,将所述字符识别模型输出的所述各个特征向量属于预设候选字符的概率值,作为所述字符串图像中各个区域的待测字符属于预设候选字符的概率值。
12.根据权利要求8所述的装置,其特征在于,还包括:旋转校正模块;所述旋转校正模块,用于获取待处理的原始图像;对所述原始图像进行预设旋转校正处理,得到第一校正图像;获取所述第一校正图像的字符识别结果;计算所述第一校正图像的字符识别结果和所述预设参考字符串的第一差异值;如果所述第一差异值在预设差异值范围内,则将所述第一校正图像作为所述待识别的字符串图像。
13.根据权利要求12所述的装置,其特征在于,所述旋转校正模块,还用于:如果所述第一差异值超出所述预设差异值范围,则将所述原始图像进行预设旋转角度的旋转,得到第二校正图像,直至所述第二校正图像对应的字符识别结果与所述预设参考字符串之间的差异值满足预设差异值条件为止。
14.根据权利要求12或13所述的装置,其特征在于,所述旋转校正模块,还用于获取旋转校正模型;将所述原始图像输入所述旋转校正模型,通过所述旋转校正模型识别所述原始图像中字符串的倾斜角度,并根据所述倾斜角度对所述原始图像进行旋转,得到第一校正图像。
15.一种图像识别设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至7任一项所述的方法。
16.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011541965.3A CN112257703B (zh) | 2020-12-24 | 2020-12-24 | 图像识别方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011541965.3A CN112257703B (zh) | 2020-12-24 | 2020-12-24 | 图像识别方法、装置、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257703A true CN112257703A (zh) | 2021-01-22 |
CN112257703B CN112257703B (zh) | 2021-03-16 |
Family
ID=74225286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011541965.3A Active CN112257703B (zh) | 2020-12-24 | 2020-12-24 | 图像识别方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257703B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686219A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 手写文本识别方法及计算机存储介质 |
CN112990181A (zh) * | 2021-04-30 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 文本识别的方法、装置、设备和存储介质 |
CN113469167A (zh) * | 2021-07-21 | 2021-10-01 | 浙江大华技术股份有限公司 | 仪表读数识别方法、装置、设备及存储介质 |
CN113744213A (zh) * | 2021-08-23 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 餐品摆盘整齐度检测方法、系统、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103996021A (zh) * | 2014-05-08 | 2014-08-20 | 华东师范大学 | 一种多字符识别结果的融合方法 |
CN106648418A (zh) * | 2016-11-14 | 2017-05-10 | 北京爱知之星科技股份有限公司 | 手写笔迹校正方法和装置 |
CN107729936A (zh) * | 2017-10-12 | 2018-02-23 | 科大讯飞股份有限公司 | 一种改错题自动评阅方法及系统 |
US20190114512A1 (en) * | 2016-08-05 | 2019-04-18 | Tencent Technology (Shenzhen) Company Limited | Method and device for verifying recognition result in character recognition |
CN110110777A (zh) * | 2019-04-28 | 2019-08-09 | 网易有道信息技术(北京)有限公司 | 图像处理方法和训练方法、以及装置、介质和计算设备 |
CN110619326A (zh) * | 2019-07-02 | 2019-12-27 | 安徽七天教育科技有限公司 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
-
2020
- 2020-12-24 CN CN202011541965.3A patent/CN112257703B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103996021A (zh) * | 2014-05-08 | 2014-08-20 | 华东师范大学 | 一种多字符识别结果的融合方法 |
US20190114512A1 (en) * | 2016-08-05 | 2019-04-18 | Tencent Technology (Shenzhen) Company Limited | Method and device for verifying recognition result in character recognition |
CN106648418A (zh) * | 2016-11-14 | 2017-05-10 | 北京爱知之星科技股份有限公司 | 手写笔迹校正方法和装置 |
CN107729936A (zh) * | 2017-10-12 | 2018-02-23 | 科大讯飞股份有限公司 | 一种改错题自动评阅方法及系统 |
CN110110777A (zh) * | 2019-04-28 | 2019-08-09 | 网易有道信息技术(北京)有限公司 | 图像处理方法和训练方法、以及装置、介质和计算设备 |
CN110619326A (zh) * | 2019-07-02 | 2019-12-27 | 安徽七天教育科技有限公司 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686219A (zh) * | 2021-03-11 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 手写文本识别方法及计算机存储介质 |
CN112990181A (zh) * | 2021-04-30 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 文本识别的方法、装置、设备和存储介质 |
CN112990181B (zh) * | 2021-04-30 | 2021-08-24 | 北京世纪好未来教育科技有限公司 | 文本识别的方法、装置、设备和存储介质 |
CN113469167A (zh) * | 2021-07-21 | 2021-10-01 | 浙江大华技术股份有限公司 | 仪表读数识别方法、装置、设备及存储介质 |
CN113744213A (zh) * | 2021-08-23 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 餐品摆盘整齐度检测方法、系统、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112257703B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257703B (zh) | 图像识别方法、装置、设备和可读存储介质 | |
CN108921161B (zh) | 模型训练方法、装置、电子设备和计算机可读存储介质 | |
CN111582021B (zh) | 场景图像中的文本检测方法、装置及计算机设备 | |
CN110909663B (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN111738249B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN111832581B (zh) | 肺部特征识别方法、装置、计算机设备及存储介质 | |
CN114529837A (zh) | 建筑物轮廓提取方法、系统、计算机设备及存储介质 | |
CN110909665A (zh) | 一种多任务的图像处理方法、装置、电子设备及存储介质 | |
CN114723646A (zh) | 带标注的图像数据生成方法、装置、存储介质及电子设备 | |
CN114782412A (zh) | 图像检测方法、目标检测模型的训练方法及装置 | |
CN113034514A (zh) | 天空区域分割方法、装置、计算机设备和存储介质 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
CN112183542A (zh) | 基于文本图像的识别方法、装置、设备和介质 | |
CN111967459A (zh) | 模型训练方法、图像识别方法、装置、设备及存储介质 | |
CN114758199A (zh) | 检测模型的训练方法、装置、设备和存储介质 | |
US20230106178A1 (en) | Method and apparatus for marking object outline in target image, and storage medium and electronic apparatus | |
CN113808033A (zh) | 图像文档校正方法、系统、终端及介质 | |
CN116740145A (zh) | 一种多目标跟踪方法、装置、车辆及存储介质 | |
CN116343007A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN113012030A (zh) | 图像拼接方法、装置及设备 | |
CN112699809B (zh) | 痘痘类别识别方法、装置、计算机设备及存储介质 | |
CN116109549A (zh) | 一种线缝检测方法、装置、电子设备及存储介质 | |
CN114120053A (zh) | 图像处理方法、网络模型的训练方法、装置和电子设备 | |
CN114066907A (zh) | 图片处理方法、蒙版图片输出模型的训练方法和装置 | |
CN113033542A (zh) | 一种文本识别模型的生成方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |