CN113537195A - 一种图像文本识别方法、系统和电子设备 - Google Patents
一种图像文本识别方法、系统和电子设备 Download PDFInfo
- Publication number
- CN113537195A CN113537195A CN202110824501.1A CN202110824501A CN113537195A CN 113537195 A CN113537195 A CN 113537195A CN 202110824501 A CN202110824501 A CN 202110824501A CN 113537195 A CN113537195 A CN 113537195A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- recognized
- convolution
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及图像文本识别技术领域,提供一种图像文本识别方法、系统和电子设备,采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度。
Description
技术领域
本发明涉及图像文本识别技术领域,尤其涉及一种图像文本识别方法、系统和电子设备。
背景技术
目前,OCR(Optical Character Recognition,光学字符识别)技术已经广泛应用于车牌识别、文档分析、图像文字信息提取等方方面面。通用的OCR技术借助图像分类的思想,经过CNN(Convolutional Neural Networks,卷积神经网络)提取图像特征,使用LSTM(Long Short-Term Memory,长短期记忆网络)学习文字之间的上下文信息,最后用CTCLoss来学习文字的类别概率,那么会存在如下问题:
由于LSTM的巨大参数量网络和结构的复杂性,使得预测耗时严重,但如果不使用LSTM,会丢失文字间的上下文的语义信息,降低了识别精度。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供了一种图像文本识别方法、系统和电子设备。
本发明的一种图像文本识别方法的技术方案如下:
获取包含文本的待识别文本图像;
从所述待识别文本图像中提取卷积特征,采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量;
对每组上下文特征向量进行池化,得到多个池化结果,按照所述预设顺序对所有的池化结果进行串联,得到一维上下文特征向量;
将所述一维上下文特征向量进行拓展,得到与所述卷积特征大小相等的上下文特征矩阵,并将所述上下文特征矩阵与所述卷积特征进行融合,得到融合后的特征信息;
根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵;
根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。
本发明的一种图像文本识别方法的有益效果如下:
采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度。在上述方案的基础上,本发明的一种图像文本识别方法还可以做如下改进。
进一步,每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等。
进一步,所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串,包括:
采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串。
进一步,所述获取包括文本的待识别文本图像,包括:
判断待识别图像中是否包含文本;
当所述待识别图像中包含文本时,确定所述文本在所述待识别图像中的位置,并根据所述位置进行裁剪,得到所述待识别文本图像。
采用上述进一步技术方案的有益效果是:在进行图像文本识别之前,首先判断待识别图像中是否文本,无需对没有包含文本的待识别图像进行识别,提高图像文本识别的效果,而且,当待识别图像包含文本时,确定文本在待识别图像中的位置,并根据位置进行裁剪,得到待识别文本图像,并对待识别文本图像进行识别,而不需要对整个待识别图像进行识别,进一步提高图像文本识别的效率。
进一步,所述从所述待识别文本图像中提取卷积特征,包括:
采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。
进一步,还包括:按照预设方式对所述字符串进行优化,得到包含所述待识别文本图像中的文本的字符串。
进一步,所述按照预设方式对所述字符串进行优化,包括:
判断字符串中的每个字符是否为占位符,并删除所有的占位符。
本发明的一种图像文本识别系统的技术方案如下:
包括获取模块、卷积模块、池化串联模块、拓展融合模块、预测模块和识别模块;
所述获取模块用于获取包含文本的待识别文本图像;
所述卷积模块用于:从所述待识别文本图像中提取卷积特征,采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量;
所述池化串联模块用于:对每组上下文特征向量进行池化,得到多个池化结果,按照所述预设顺序对所有的池化结果进行串联,得到一维上下文特征向量;
所述拓展融合模块用于:将所述一维上下文特征向量进行拓展,得到与所述卷积特征大小相等的上下文特征矩阵,并将所述上下文特征矩阵与所述卷积特征进行融合,得到融合后的特征信息;
所述预测模块用于:根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵,所述预设字符集中的字符包括文字、标点符号和占位符;
所述识别模块用于根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。
本发明的一种图像文本识别系统的有益效果如下:
采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度。在上述方案的基础上,本发明的一种图像文本识别系统还可以做如下改进。
进一步,每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等。
进一步,所述预测模块具体用于:
采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串。
进一步,所述获取模块具体用于:
判断待识别图像中是否包含文本;
当所述待识别图像中包含文本时,确定所述文本在所述待识别图像中的位置,并根据所述位置进行裁剪,得到所述待识别文本图像。
采用上述进一步技术方案的有益效果是:在进行图像文本识别之前,首先判断待识别图像中是否文本,无需对没有包含文本的待识别图像进行识别,提高图像文本识别的效果,而且,当待识别图像包含文本时,确定文本在待识别图像中的位置,并根据位置进行裁剪,得到待识别文本图像,并对待识别文本图像进行识别,而不需要对整个待识别图像进行识别,进一步提高图像文本识别的效率。
进一步,所述获取模块还用于:采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。
进一步,还包括优化模块,所述优化模块用于:按照预设方式对所述字符串进行优化,得到包含所述待识别文本图像中的文本的字符串。
进一步,所述优化模块具体用于:判断字符串中的每个字符是否为占位符,并删除所有的占位符。
本发明的一种电子设备的技术方案如下:
包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一项所述的一种图像文本识别方法的步骤。
附图说明
图1为本发明实施例的一种图像文本识别方法的流程示意图之一;
图2为本发明实施例的一种图像文本识别系统的结构示意图之二;
图3为本发明实施例的一种图像文本识别系统的结构示意图;
具体实施方式
如图1所示,本发明实施例的一种图像文本识别方法,包括如下步骤:
S1、获取包含文本的待识别文本图像,具体包括:
S10、判断待识别图像中是否包含文本;
S11、当所述待识别图像中包含文本时,确定所述文本在所述待识别图像中的位置,并根据所述位置进行裁剪,得到所述待识别文本图像。
其中,采用文字检测算法如PSENet、SegLink或FTSN网络等判断待识别图像中是否包含文本,并能确定所述文本在所述待识别图像中的位置,并根据位置进行裁剪,得到待识别文本图像,此时待识别文本图像中包含文本。
也就是说,在进行图像文本识别之前,首先判断待识别图像中是否文本,无需对没有包含文本的待识别图像进行识别,提高图像文本识别的效果,而且,当待识别图像包含文本时,确定文本在待识别图像中的位置,并根据位置进行裁剪,得到待识别文本图像,并对待识别文本图像进行识别,而不需要对整个待识别图像进行识别,进一步提高图像文本识别的效率。
S2、从所述待识别文本图像中提取卷积特征,采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量;
其中,从所述待识别文本图像中提取卷积特征,包括:
1)采用IResNet50神经网络从所述待识别文本图像中提取所述卷积特征。
2)采用ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。
S3、对每组上下文特征向量进行池化,得到多个池化结果,按照所述预设顺序对所有的池化结果进行串联,得到一维上下文特征向量;
S4、将所述一维上下文特征向量进行拓展,得到与所述卷积特征大小相等的上下文特征矩阵,并将所述上下文特征矩阵与所述卷积特征进行融合,得到融合后的特征信息;
S5、根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵,所述预设字符集中的字符包括文字、标点符号和占位符;
S6、根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。
采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度较优地,在上述技术方案中,每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等。
较优地,在上述技术方案中,还包括:
S7、按照预设方式对所述字符串进行优化,得到包含所述待识别文本图像中的文本的字符串,具体地:
1)判断字符串中的每个字符是否为占位符,并删除所有的占位符。
2)提取字符串中的所有文字,并按照字符串中的先后关系进行组合,得到待识别文本图像中的文本。
较优地,在上述技术方案中,S6中,所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串,包括如下两种形式:
1)采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串。
2)确定预测概率矩阵中每行预设概率中的最大预设概率,得到每个最大概率对应的字符,将这些字符进行合并,即得到包含所述待识别文本图像中的文本的字符串。
例如,预测概率矩阵的第三行的所有预设概率中的最大预设概率所对应的字符为空字符,则识别出的字符串中,第三个字符为空字符,可用空格代替;
例如,预测概率矩阵中,第十行的所有预设概率中的最大预设概率所对应的字符为逗号,则识别出的字符串中,第十个字符为逗号。
例如,预测概率矩阵中,第十五行的所有预设概率中的最大预设概率所对应的字符为文字“武”,则识别出的字符串中,第十五个字符为“武”。下面通过另外一个实施例对本申请的一种图像文本识别方法进行阐述,如图2所示,具体地:
S80、获取待识别文本图像,具体参考上述对S1的阐述;
S81、获取卷积特征,具体地:
在获取卷积特征之前,还可对待识别文本图像的大小进行调整,例如调整至48×280个像素大小,然后,采用IResNet50神经网络从待识别文本图像中提取所述卷积特征,例如,该卷积特征的大小为35×1152,具体为矩阵形式,其中,35为卷积特征的高,1152为卷积特征的宽;
S82、进行卷积操作,得到多组上下文特征向量,具体地:
设置3种尺寸的卷积核,且每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等,例如,3种尺寸的卷积核分别为:5×1152、3×1152和2×1152,且尺寸为5×1152的卷积核数量为12组,尺寸为3×1152的卷积核数量为12组,尺寸为2×1152的卷积核数量为11组,即所有卷积核的总数量为35组,与卷积特征的高相等;
并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量,其中,可人为设置预设顺序,或随机设置预设顺序。
S83、得到一维上下文特征向量,具体地:
使用maxpooling对每组上下文特征向量进行池化,得到每组上下文特征向量对应的池化结果,该池化结果具体为一个数值,按照上述的预设顺序对所有的池化结果进行串联,得到一维上下文特征向量,也就是说,该一维上下文特征向量的行数为35,共1列,每个元素为一个池化结果,且35个池化结果按照预设顺序排序;
S84、得到上下文特征矩阵,具体地:
由于一维上下文特征向量的行数为35,列数为1,由于行数与卷积特征的高相等,故将一维上下文特征向量按照列进行拓展,即将该一维上下文特征向量中的所有元素进行复制,使得到的上下文特征矩阵的行数为35,列数为1152,即上下文特征矩阵的大小为35×1152,与卷积特征大小相等;
S85、进行融合,具体地:
由于上下文特征矩阵的大小与卷积特征大小相等,此时上下文特征矩阵和卷积特征中的相同位置的元素进行相加,得到融合后的特征信息,融合后的特征信息具体也为一个大小为35×1152的矩阵;
S86、得到预测概率矩阵,具体地:
预设字符集中包括7560个字符,包括文字占位符、标点字符等,那么,利用卷积神经网络中的全连接层根据融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵,得到的预测概率矩阵的行数为35,列数为7560;
其中,预测概率矩阵的第一行、第一列的位置的元素表示:识别出的字符串中的第一个字符为预设字符集中的第一个字符的预测概率;预测概率矩阵的第一行、第二列的位置的元素表示:识别出的字符串中的第一个字符为预设字符集中的第二个字符的预测概率;预测概率矩阵的第二行、第一列的位置的元素表示:识别出的字符串中的第二个字符为预设字符集中的第一个字符的预测概率;预测概率矩阵的第二行、第二列的位置的元素表示:识别出的字符串中的第二个字符为预设字符集中的第二个字符的预测概率;
S87、得到字符串:
1)采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串,具体地:
采用BeamSearch算法能够得到35个字符,预测概率矩阵中的每行元素即预测概率对应一个字符;那么:
例如,预测概率矩阵中的第一行元素所对应的字符为文字“武”,预测概率矩阵中的第五行元素所对应的字符为文字“汉”,预测概率矩阵中的第六行元素所对应的字符为文字“植”,预测概率矩阵中的第八行元素所对应的字符为文字“物”,预测概率矩阵中的第十行元素所对应的字符为“园”,其它的每行元素对应的字符均为空字符,则得到的字符串为:
武[占位符][占位符][占位符]汉植[占位符]物[占位符]园[占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符];
其中,占字符可用空格表示,则此时文本为:
武汉植物园;其中,由于本申请中“并按照预设顺序对所述卷积特征进行卷积操作”以及“按照所述预设顺序对所有的池化结果进行串联”,则能过保证识别出的文本中的文字顺序与待识别文本图像中的文字的排列顺序一致。
2)确定预测概率矩阵中每行预设概率中的最大预设概率,得到每个最大概率对应的文字,将这些文字进行合并,即得到待识别文本图像中的文本,具体地:
确定预测概率矩阵中每行的所有元素即预设概率中的最大预设概率,得到每个最大预设概率对应的字符,将这些字符进行合并,即得到字符串,具体地:
预测概率矩阵中的第一行的所有预设概率中的最大预设概率所对应的字符为文字“武”,预测概率矩阵中的第五行的所有预设概率中的最大预设概率所对应的符号为文字“汉”,预测概率矩阵中的第六行的所有预设概率中的最大预设概率所对应的符号为文字“植”,预测概率矩阵中的第八行的所有预设概率中的最大预设概率所对应的字符为文字“物”,预测概率矩阵中的第十行的所有预设概率中的最大预设概率所对应的符号为文字“园”,其它的每行的所有预设概率中的最大预设概率对应的字符均为空字符,则得到的字符串为:
武[占位符][占位符][占位符]汉植[占位符]物[占位符]园[占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符];
其中,占字符可用空格表示,则此时文本为:
武汉植物园;
S88、优化,判断字符串中的每个字符是否为占位符,并删除所有的占位符,具体地:判断识别出的字符串的每个字符是文字、占字符或标点符号,若是文字则保留,若是占字符则删除,若是标点符号则保留,那么,优化后的文本为:武汉植物园。在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图3所示,本发明实施例的一种图像文本识别系统200,包括获取模块210、卷积模块220、池化串联模块230、拓展融合模块240、预测模块250和识别模块260;
所述获取模块210用于获取包含文本的待识别文本图像;
所述卷积模块220用于:从所述待识别文本图像中提取卷积特征,采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量;
所述池化串联模块230用于:对每组上下文特征向量进行池化,得到多个池化结果,按照所述预设顺序对所有的池化结果进行串联,得到一维上下文特征向量;
所述拓展融合模块240用于:将所述一维上下文特征向量进行拓展,得到与所述卷积特征大小相等的上下文特征矩阵,并将所述上下文特征矩阵与所述卷积特征进行融合,得到融合后的特征信息;
所述预测模块250用于:根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵,所述预设字符集中的字符包括文字、标点符号和占位符;
所述识别模块260用于根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。
采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作,得到多组上下文特征向量,即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系,然后进行后续的文本识别,得到包含待识别文本图像中的文本的字符串,字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本,且避免使用LSTM,在保证识别效率的同时,还能保证识别精度。较优地,在上述技术方案中,每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等。
较优地,在上述技术方案中,所述预测模块250具体用于:
采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串。
较优地,在上述技术方案中,所述获取模块210具体用于:
判断待识别图像中是否包含文本;
当所述待识别图像中包含文本时,确定所述文本在所述待识别图像中的位置,并根据所述位置进行裁剪,得到所述待识别文本图像。
在进行图像文本识别之前,首先判断待识别图像中是否文本,无需对没有包含文本的待识别图像进行识别,提高图像文本识别的效果,而且,当待识别图像包含文本时,确定文本在待识别图像中的位置,并根据位置进行裁剪,得到待识别文本图像,并对待识别文本图像进行识别,而不需要对整个待识别图像进行识别,进一步提高图像文本识别的效率。
较优地,在上述技术方案中,所述获取模块210还用于:采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。
较优地,在上述技术方案中,还包括优化模块,所述优化模块用于:按照预设方式对所述字符串进行优化,得到包含所述待识别文本图像中的文本的字符串。
较优地,在上述技术方案中,所述优化模块具体用于:判断字符串中的每个字符是否为占位符,并删除所有的占位符。
上述关于本发明的一种图像文本识别系统200中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种图像文本识别方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现上述任一实施的一种图像文本识别方法的步骤。
其中,电子设备可以选用电脑、手机等,相对应地,其程序为电脑软件或手机APP等,且上述关于本发明的一种电子设备中的各参数和步骤,可参考上文中一种图像文本识别方法的实施例中的各参数和步骤,在此不做赘述。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种图像文本识别方法,其特征在于,包括:
获取包含文本的待识别文本图像;
从所述待识别文本图像中提取卷积特征,采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量;
对每组上下文特征向量进行池化,得到多个池化结果,按照所述预设顺序对所有的池化结果进行串联,得到一维上下文特征向量;
将所述一维上下文特征向量进行拓展,得到与所述卷积特征大小相等的上下文特征矩阵,并将所述上下文特征矩阵与所述卷积特征进行融合,得到融合后的特征信息;
根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵,所述预设字符集中的字符包括文字、标点符号和占位符;
根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。
2.根据权利要求1所述一种图像文本识别方法,其特征在于,每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等。
3.根据权利要求1或2所述一种图像文本识别方法,其特征在于,所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串,包括:
采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串。
4.根据权利要求1或2所述的一种图像文本识别方法,其特征在于,所述获取包括文本的待识别文本图像,包括:
判断待识别图像中是否包含文本;
当所述待识别图像中包含文本时,确定所述文本在所述待识别图像中的位置,并根据所述位置进行裁剪,得到所述待识别文本图像。
5.根据权利要求1或2所述一种图像文本识别方法,其特征在于,所述从所述待识别文本图像中提取卷积特征,包括:
采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。
6.一种图像文本识别系统,其特征在于,包括获取模块、卷积模块、池化串联模块、拓展融合模块、预测模块和识别模块;
所述获取模块用于获取包含文本的待识别文本图像;
所述卷积模块用于:从所述待识别文本图像中提取卷积特征,采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作,得到多组上下文特征向量;
所述池化串联模块用于:对每组上下文特征向量进行池化,得到多个池化结果,按照所述预设顺序对所有的池化结果进行串联,得到一维上下文特征向量;
所述拓展融合模块用于:将所述一维上下文特征向量进行拓展,得到与所述卷积特征大小相等的上下文特征矩阵,并将所述上下文特征矩阵与所述卷积特征进行融合,得到融合后的特征信息;
所述预测模块用于:根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率,得到预测概率矩阵,所述预设字符集中的字符包括文字、标点符号和占位符;
所述识别模块用于根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。
7.根据权利要求6所述一种图像文本识别系统,其特征在于,每种卷积核的尺寸均为所述卷积特征的宽的整数倍,且所有卷积核的总数量与所述卷积特征的高相等。
8.根据权利要求6或7所述一种图像文本识别系统,其特征在于,所述预测模块具体用于:
采用BeamSearch算法对所述预测概率矩阵进行最优路径选择,得到包含所述待识别文本图像中的文本的字符串。
9.根据权利要求6或7所述的一种图像文本识别系统,其特征在于,所述获取模块具体用于:
判断待识别图像中是否包含文本;
当所述待识别图像中包含文本时,确定所述文本在所述待识别图像中的位置,并根据所述位置进行裁剪,得到所述待识别文本图像。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的一种图像文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824501.1A CN113537195B (zh) | 2021-07-21 | 2021-07-21 | 一种图像文本识别方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110824501.1A CN113537195B (zh) | 2021-07-21 | 2021-07-21 | 一种图像文本识别方法、系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537195A true CN113537195A (zh) | 2021-10-22 |
CN113537195B CN113537195B (zh) | 2022-02-08 |
Family
ID=78129128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110824501.1A Active CN113537195B (zh) | 2021-07-21 | 2021-07-21 | 一种图像文本识别方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537195B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977609A (zh) * | 2017-11-20 | 2018-05-01 | 华南理工大学 | 一种基于cnn的指静脉身份验证方法 |
CN108492271A (zh) * | 2018-03-26 | 2018-09-04 | 中国电子科技集团公司第三十八研究所 | 一种融合多尺度信息的自动图像增强系统及方法 |
US20180285715A1 (en) * | 2017-03-28 | 2018-10-04 | Samsung Electronics Co., Ltd. | Convolutional neural network (cnn) processing method and apparatus |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109284782A (zh) * | 2018-09-13 | 2019-01-29 | 北京地平线机器人技术研发有限公司 | 用于检测特征的方法和装置 |
CN109740482A (zh) * | 2018-12-26 | 2019-05-10 | 北京科技大学 | 一种图像文本识别方法和装置 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110490199A (zh) * | 2019-08-26 | 2019-11-22 | 北京香侬慧语科技有限责任公司 | 一种文本识别的方法、装置、存储介质及电子设备 |
CN110555439A (zh) * | 2019-09-04 | 2019-12-10 | 北京迈格威科技有限公司 | 标识识别方法及其模型的训练方法、装置和电子系统 |
KR20200043617A (ko) * | 2018-10-18 | 2020-04-28 | 한양대학교 산학협력단 | 고효율 연산 처리를 위한 인공 신경망 모듈 및 이의 스케쥴링 방법 |
CN111553349A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于全卷积网络的场景文本定位与识别方法 |
CN111666931A (zh) * | 2020-05-21 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
CN111709290A (zh) * | 2020-05-18 | 2020-09-25 | 杭州电子科技大学 | 基于编解码-跳跃连接尺度金字塔网络的人群计数方法 |
CN112102283A (zh) * | 2020-09-14 | 2020-12-18 | 北京航空航天大学 | 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法 |
CN112541494A (zh) * | 2020-12-21 | 2021-03-23 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN112598620A (zh) * | 2020-11-25 | 2021-04-02 | 哈尔滨工程大学 | 尿沉渣中透明管型、病理管型以及粘液丝的识别方法 |
CN112883818A (zh) * | 2021-01-26 | 2021-06-01 | 上海西井信息科技有限公司 | 文本图像识别方法、系统、设备及存储介质 |
CN112927140A (zh) * | 2021-03-23 | 2021-06-08 | 数量级(上海)信息技术有限公司 | 一种提升红外图像分辨率的方法 |
-
2021
- 2021-07-21 CN CN202110824501.1A patent/CN113537195B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285715A1 (en) * | 2017-03-28 | 2018-10-04 | Samsung Electronics Co., Ltd. | Convolutional neural network (cnn) processing method and apparatus |
CN107977609A (zh) * | 2017-11-20 | 2018-05-01 | 华南理工大学 | 一种基于cnn的指静脉身份验证方法 |
CN108492271A (zh) * | 2018-03-26 | 2018-09-04 | 中国电子科技集团公司第三十八研究所 | 一种融合多尺度信息的自动图像增强系统及方法 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109284782A (zh) * | 2018-09-13 | 2019-01-29 | 北京地平线机器人技术研发有限公司 | 用于检测特征的方法和装置 |
KR20200043617A (ko) * | 2018-10-18 | 2020-04-28 | 한양대학교 산학협력단 | 고효율 연산 처리를 위한 인공 신경망 모듈 및 이의 스케쥴링 방법 |
CN109740482A (zh) * | 2018-12-26 | 2019-05-10 | 北京科技大学 | 一种图像文本识别方法和装置 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110490199A (zh) * | 2019-08-26 | 2019-11-22 | 北京香侬慧语科技有限责任公司 | 一种文本识别的方法、装置、存储介质及电子设备 |
CN110555439A (zh) * | 2019-09-04 | 2019-12-10 | 北京迈格威科技有限公司 | 标识识别方法及其模型的训练方法、装置和电子系统 |
CN111553349A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于全卷积网络的场景文本定位与识别方法 |
CN111709290A (zh) * | 2020-05-18 | 2020-09-25 | 杭州电子科技大学 | 基于编解码-跳跃连接尺度金字塔网络的人群计数方法 |
CN111666931A (zh) * | 2020-05-21 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
CN112102283A (zh) * | 2020-09-14 | 2020-12-18 | 北京航空航天大学 | 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法 |
CN112598620A (zh) * | 2020-11-25 | 2021-04-02 | 哈尔滨工程大学 | 尿沉渣中透明管型、病理管型以及粘液丝的识别方法 |
CN112541494A (zh) * | 2020-12-21 | 2021-03-23 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN112883818A (zh) * | 2021-01-26 | 2021-06-01 | 上海西井信息科技有限公司 | 文本图像识别方法、系统、设备及存储介质 |
CN112927140A (zh) * | 2021-03-23 | 2021-06-08 | 数量级(上海)信息技术有限公司 | 一种提升红外图像分辨率的方法 |
Non-Patent Citations (5)
Title |
---|
JAN REININGHAUS等: ""A Stable Multi-Scale Kernel for Topological Machine Learning"", 《CVPR》 * |
KENSHO HARA等: ""Can spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet"", 《CVPR》 * |
张小川等: ""一种基于双通道卷积神经网络的短文本分类方法"", 《重庆理工大学学报(自然科学)》 * |
文元美等: ""基于边缘检测的卷积核数量确定方法"", 《计算机应用研究》 * |
陈德强等: ""基于多尺度卷积核特征提取算法的手写数字识别研究"", 《韶关学院学报(自然科学)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537195B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11392838B2 (en) | Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on TextCNN | |
KR102152191B1 (ko) | 운전면허 유효기간 자동 추출 방법, 기기, 시스템 및 저장 매체 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
CN111914159B (zh) | 一种信息推荐方法及终端 | |
CN111241389A (zh) | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN110750637B (zh) | 文本摘要提取方法、装置、计算机设备及存储介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN109902167B (zh) | 嵌入结果的解释方法和装置 | |
CN113537195B (zh) | 一种图像文本识别方法、系统和电子设备 | |
CN112949282A (zh) | 配置文件检查方法及装置 | |
CN113159211A (zh) | 用于相似图像检索的方法、计算设备和计算机存储介质 | |
CN110826488B (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN110968702B (zh) | 一种事理关系提取方法及装置 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
Aly et al. | Scaling object recognition: Benchmark of current state of the art techniques | |
CN113157788B (zh) | 大数据挖掘方法及系统 | |
CN115114627A (zh) | 一种恶意软件检测方法及装置 | |
CN114036940A (zh) | 敏感数据识别的方法及装置、电子设备、存储介质 | |
CN114373088A (zh) | 一种图像检测模型的训练方法和相关产品 | |
CN114139658A (zh) | 分类模型的训练方法及计算机可读存储介质 | |
CN103793706B (zh) | 字符识别设备和字符识别方法 | |
CN113591857A (zh) | 字符图像处理方法、装置及古代汉籍图像的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |