CN112836748A - 一种基于crnn-ctc的铸件标识字符识别方法 - Google Patents

一种基于crnn-ctc的铸件标识字符识别方法 Download PDF

Info

Publication number
CN112836748A
CN112836748A CN202110146173.4A CN202110146173A CN112836748A CN 112836748 A CN112836748 A CN 112836748A CN 202110146173 A CN202110146173 A CN 202110146173A CN 112836748 A CN112836748 A CN 112836748A
Authority
CN
China
Prior art keywords
ctc
picture
sequence
data set
casting identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110146173.4A
Other languages
English (en)
Inventor
赵志诚
刘基
王晓东
刘红兵
王健安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN202110146173.4A priority Critical patent/CN112836748A/zh
Publication of CN112836748A publication Critical patent/CN112836748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于CRNN‑CTC的铸件标识字符识别方法,该方法包括以下步骤:收集包含铸件标识字符的图片构建数据集;对数据集进行数据增广,利用“旋转、加噪、调整亮度和对比度”的方法,解决图片数量少的问题以增强模型的鲁棒性;将数据集图片经过预处理后输入建立好的网络模型,通过CNN对图片进行特征提取,然后将特征输出到RNN中,再通过CTC进行转录;对CTC的损失函数进行计算,并通过反向传播,不断优化网络模型,直至达到最好的预测效果时,结束训练。本发明以深度学习中CRNN和CTC相结合的OCR识别方法,识别准确率可以达到98.8%,且通过训练得到的模型具有良好的泛化能力和容错能力。

Description

一种基于CRNN-CTC的铸件标识字符识别方法
技术领域
本发明涉及图像文字识别技术领域,具体涉及一种基于CRNN-CTC的铸件标识字符识别方法。
背景技术
近年来,随着计算机技术的发展与普及,现代化技术水平也迅速提高,以计算机技术为依托的图像处理技术随之快速崛起,并广泛的应用到了各个领域。今天,图像处理技术几乎与人们的生活息息相关,而图像识别技术更是大幅度地给我们的生活带来便捷,在多个工业生产过程中减轻了工作人员的劳动强度,减少了工业生产过程的错误率,同时大幅度提高生产效率。
随着深度学习的兴起和发展,计算机视觉已经发生巨大的变革和变换。作为计算机视觉的重要领域,利用光学字符识别(Optical Character Recognition,简称OCR)技术可以从图像中识别出字符信息,但传统的OCR技术存在抗干扰能力差,识别准确率低等问题。目前,深度学习技术因具有抗干扰能力强的优势,在很多领域得到了广泛的应用。
由于大多铸件上的字符是物体表面一种凹凸的字符,字符与母体同色且为立体字符,识别该字符的成熟产品大多只针对单一产品,专一性太强。虽然市场上成熟的字符识别产品很多,但是任何一款都有局限性,无法适用于多个场景。因此,设计一套针对同底色字符识别系统成为了工业上亟待解决的问题。
发明内容
针对现有技术中的不足,本发明的目的在于提供一种基于CRNN-CTC(Convolutional recurrent neural network-Connectionist temporalclassification)的铸件标识字符识别方法,用于解决现有技术中存在的不同环境下识别铸件标识字符准确率低以及专一性太强的技术问题。
为实现上述目的,本发明采用了以下技术方案:
一种基于CRNN-CTC的铸件标识字符识别方法,包括如下步骤:
S1:收集包含铸件标识字符的图片构建数据集;
S2:利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广,以增强图片建模时的鲁棒性;此步骤的目的是解决图片数量少的问题以增强模型的鲁棒性;
S3:将数据集图片经过预处理后,输入建立好的网络模型,通过CNN(Convolutional Neural Network)对图片进行特征提取,然后将特征输出到RNN(Recurrent Neural Network)中,再通过CTC进行转录;
S4:对CTC的损失函数进行计算,并通过反向传播,不断优化网络模型,直至达到最好的预测效果时,结束训练。
进一步地,所述步骤S1收集包含铸件标识字符的图片构建数据集;具体是通过对铸件近距离拍摄照片,收集包含铸件标识字符的图片,使用有序数字依次作为图片的文件名,并用文件名和铸件标识字符制作标签文本,然后将标签文本中铸件标识字符所含的字符加入到集合中,建立标签字典D。
再进一步地,所述步骤S2利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广;具体包括如下步骤:
(2a)利用OpenCV的getRotationMatrix2D函数和warpAffine函数对数据集中的铸件标识字符图片进行不切边旋转处理,模拟不同于拍摄图片时的角度,得到旋转角度不同的铸件标识字符图片;
(2b)对原始图片进行加噪处理,在图像中添加高斯噪声、椒盐噪声;因为采集的铸件字符是在工业流水线环境拍摄的,所以总会存在诸如光源扰动等情况,使得拍摄出的字符图像会出现噪声,尽量模拟可能发生的噪声扰动,得到模糊度不同的铸件号图片;
(2c)利用OpenCV的addWeighted函数对原始图片进行不同亮度和对比度的调整,模拟拍摄图片时光照情况的不同,得到明暗度不同的铸件标识字符图片。
更进一步地,步骤S3将数据集图片经过预处理后,输入建立好的网络模型,通过CNN对图片进行特征提取,然后将特征输出到RNN中,再通过CTC进行转录;具体包括如下步骤:
(3a)对数据集进行预处理,将其划分为训练集和测试集,训练集字符图像设置成固定大小为3*224*224,然后对图像进行归一化处理,使像素值转换为0-1之间,加快收敛速度;
(3b)构建CNN网络,选择基于VGGNet16的简化深度卷积神经网络模型,使用VGGNet16中3*3的卷积核大小,简化后的网络层数包括8个Conv卷积层,8个ReLU激活层,3个最大池化层,卷积核数分别为16,32,64,128;然后对处理过的训练集图像特征提取,得到包含时序信息的序列特征图x={x1,x2,…,xT},其中x每一列xT
Figure BDA0002930361540000021
时间序列t都从t=1开始,即1≤t≤T,m和T分别指的是特征图的高和宽;
(3c)构建RNN,将序列特征图x={x1,x2,…,xT}作为输入,且LSTM的每一个时间片后接softmax分类器,得到输出结果y={y1,y2,…,yT},y是一个后验概率矩阵,其中y的每一列
Figure BDA0002930361540000022
n代表需要识别字符的长度;
(3d)利用CTC转录层,按照每帧预测y=y1,...,yT对标签序列l定义概率,且输出l的概率为:
Figure BDA0002930361540000031
其中序列到序列的映射函数B(π)=1表示将序列π映射到序列I,其中π∈LT,序列π的概率定义为
Figure BDA0002930361540000032
Figure BDA0002930361540000033
为t时刻有标签πt的概率;
(3e)基于标签字典D,通过选择词典中最高条件概率的序列来识别标签序列获得最终结果,即I*=arg maxI∈D p(I|y)。
更进一步地,所述步骤S4对CTC的损失函数进行计算,并通过反向传播,不断优化网络模型,直至达到最好的预测效果时,结束训练;具体是利用Adam梯度下降算法计算CTCloss损失函数,并将全局学习率设置为0.0005,网络的训练次数设置为150次,进行批量化训练,批次大小为50,最终获得的网络模型平均准确率达到98.8%以上,结束训练。
与现有技术相比,本发明具有以下有益效果:
1、本发明在对铸件标识字符图片进行数据增广中,对图片进行了旋转、加噪、调整亮度和对比度,有效的解决了现有技术中由于数据难以收集、类别繁多和拍摄场景复杂等问题所带来的训练的模型泛化性和鲁棒性不强,致使铸件标识字符识别精度较低的不足。
2、本发明使用的CRNN-CTC框架模型作为OCR(Optical character recognition)识别模块,识别率可以达到98.8%以上,且通过神经网络训练得到的模型具有良好的泛化能力和容错能力。
附图说明
图1为本发明的基于CRNN-CTC的铸件标识字符识别方法流程示意图;
图2为本发明的网络结构示意图;
图3为本发明基于VGGNet16的简化深度卷积神经网络结构示意图。
具体实施方式
下面结合附图并通过具体实施例来进一步说明本发明的技术方案。本领域技术人员应该明了,所述具体实施方式仅仅是帮助理解本发明,不应视为对本发明的具体限制。
如图1-3所示,一种基于CRNN-CTC的铸件标识字符识别方法,包括以下步骤:
S1:收集包含铸件标识字符的图片构建数据集。
其中,通过对铸件近距离拍摄照片,收集公司里所有包含铸件标识字符的图片,使用有序数字依次作为图片的文件名,并用文件名和铸件标识字符制作标签文本,然后将标签文本中铸件标识字符所含的字符加入到集合中,建立标签字典D。
S2:对数据集进行数据增广,利用“旋转、加噪、调整亮度和对比度”的方法,解决图片数量少的问题以增强模型的鲁棒性。具体按照如下步骤进行:
(2a)利用OpenCV的getRotationMatrix2D函数和warpAffine函数对铸件标识字符图片进行不切边旋转,模拟不同于拍摄图时的角度,分别得到了旋转角度为45°/90°/135°/180°/225°/270°/315°的铸件标识字符图片。
(2b)对原始图片进行加噪处理,在图像中添加椒盐噪声时,随机将图片中的某一些像素点值变为0和255,进行铸件标识字符图片的随机椒盐噪声处理,添加高斯噪声时,先随机产生高斯噪声,再将高斯噪声和原图片叠加。这样就模拟可能发生的噪声扰动,得到模糊度不同的铸件标识字符图片。
(2c)利用OpenCV的addWeighted函数对图片进行不同亮度和对比度的调整,模拟拍摄图片时光照情况的不同,得到明暗度不同的铸件标识字符图片。
S3:将数据集图片经过预处理后,输入建立好的网络模型,通过CNN对图片进行特征提取,然后将特征输出到RNN中,再通过CTC进行转录,如图2所示为网络结构示意图。
(3a)对数据集进行预处理,将图片读取为RGB格式,划分为训练集和测试集,训练集字符图像设置成固定大小为3*224*224,然后对图像进行归一化处理,使像素值转换为0-1之间。
(3b)构建CNN网络,如图3所示为CNN的网络结构,选择基于VGGNet16的简化深度卷积神经网络模型,使用VGGNet16中3*3的卷积核大小,简化后的网络层数包括8个Conv卷积层,8个ReLU激活层,3个最大池化层,降低后的卷积核数分别为16,32,64,128,然后对处理过的训练集图像特征提取,得到包含时序信息的序列特征图x={x1,x2,…,xT},其中x每一列xT
Figure BDA0002930361540000041
时间序列t都从t=1开始,即1≤t≤T,m和T分别指的是特征图的高和宽。
(3c)构建RNN,使用双向LSTM网络,并采用3层双向LSTM网络堆叠的结构,然后将序列特征图x={x1,x2,…,xT}作为输入,且LSTM的每一个时间片后接softmax分类器,得到输出结果y={y1,y2,…,yT},y是一个后验概率矩阵,其中y的每一列yt
Figure BDA0002930361540000042
n代表需要识别字符的长度。
(3d)利用CTC转录层,按照每帧预测y=y1,...,yT对标签序列l定义概率,且输出l的概率为:
Figure BDA0002930361540000051
其中序列到序列的映射函数B(π)=1表示将序列π映射到序列I,其中π∈LT,序列π的概率定义为
Figure BDA0002930361540000052
Figure BDA0002930361540000053
为t时刻有标签πt的概率。
(3e)基于标签字典D,通过选择词典中最高条件概率的序列来识别标签序列获得最终结果,即I*=arg maxI∈D p(I|y)。
S4:对CTC的损失函数进行计算,并通过反向传播,不断优化网络模型,直至达到最好的预测效果时,结束训练。具体是利用Adam梯度下降算法计算CTC loss损失函数,并将全局学习率设置为0.0005,网络的训练次数设置为150次,进行批量化训练,批次大小为50,最终获得的网络模型平均准确率达到了98.8%,结束训练。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,可以根据本发明所提到的技术方案进行通同等替换或是改进。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护。

Claims (5)

1.一种基于CRNN-CTC的铸件标识字符识别方法,其特征在于,包括以下步骤:
S1:收集包含铸件标识字符的图片构建数据集;
S2:利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广,以增强图片建模时的鲁棒性;
S3:将数据集图片经过预处理后,输入建立好的网络模型,通过CNN对图片进行特征提取,然后将特征输出到RNN中,再通过CTC进行转录;
S4:对CTC的损失函数进行计算,并通过反向传播,不断优化网络模型,直至达到最好的预测效果时,结束训练。
2.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法,其特征在于,所述步骤S1的收集包含铸件标识字符的图片构建数据集;具体是通过对铸件近距离拍摄照片,收集包含铸件标识字符的图片,使用有序数字依次作为图片的文件名,并用文件名和铸件标识字符制作标签文本,然后将标签文本所含的铸件标识字符加入到集合中,建立标签字典D。
3.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法,其特征在于:所述步骤S2利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广;具体包括如下步骤:
(2a)利用OpenCV的getRotationMatrix2D函数和warpAffine函数对数据集中的铸件标识字符图片进行不切边旋转处理,模拟不同于拍摄图片时的角度,得到旋转角度不同的铸件标识字符图片;
(2b)对原始图片进行加噪处理,在图像中添加高斯噪声、椒盐噪声;
(2c)利用OpenCV的addWeighted函数对原始图片进行不同亮度和对比度的调整,模拟拍摄图片时光照情况的不同,得到明暗度不同的铸件标识字符图片。
4.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法,其特征在于:所述步骤S3将数据集图片经过预处理后,通过CNN对图片进行特征提取,然后将特征输出到RNN中,再通过CTC进行转录;具体包括如下步骤:
(3a)对数据集进行预处理,将其划分为训练集和测试集,训练集字符图像设置成固定大小为3*224*224,然后对图像进行归一化处理,使像素值转换为0-1之间,加快收敛速度;
(3b)构建CNN网络,选择基于VGGNet16的简化深度卷积神经网络模型,使用VGGNet16中3*3的卷积核大小,简化后的网络层数包括8个Conv卷积层,8个ReLU激活层,3个最大池化层,卷积核数分别为16,32,64,128;然后对处理过的训练集图像特征提取,得到包含时序信息的序列特征图x={x1,x2,…,xT},其中x每一列xT
Figure FDA0002930361530000011
时间序列t都从t=1开始,即1≤t≤T,m和T分别指的是特征图的高和宽;
(3c)构建RNN,将序列特征图x={x1,x2,...,xT}作为输入,且LSTM的每一个时间片后接softmax分类器,得到输出结果y={y1,y2,...,yT},y是一个后验概率矩阵,其中y的每一列yt
Figure FDA0002930361530000021
n代表需要识别字符的长度;
(3d)利用CTC转录层,按照每帧预测y=y1,...,yT对标签序列l定义概率,且输出l的概率为:
Figure FDA0002930361530000022
其中序列到序列的映射函数B(π)=1表示将序列π映射到序列I,其中π∈LT,序列π的概率定义为
Figure FDA0002930361530000023
Figure FDA0002930361530000024
为t时刻有标签πt的概率;
(3e)基于标签字典D,通过选择词典中最高条件概率的序列来识别标签序列获得最终结果,即I*=arg maxI∈Dp(I|y)。
5.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法,其特征在于:所述步骤S4对CTC的损失函数进行计算,并通过反向传播,不断优化网络模型,直至达到最好的预测效果时,结束训练;具体是利用Adam梯度下降算法计算CTC loss损失函数,并将全局学习率设置为0.0005,网络的训练次数设置为150次,进行批量化训练,批次大小为50,最终获得的网络模型平均准确率达到98.8%以上,结束训练。
CN202110146173.4A 2021-02-02 2021-02-02 一种基于crnn-ctc的铸件标识字符识别方法 Pending CN112836748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110146173.4A CN112836748A (zh) 2021-02-02 2021-02-02 一种基于crnn-ctc的铸件标识字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110146173.4A CN112836748A (zh) 2021-02-02 2021-02-02 一种基于crnn-ctc的铸件标识字符识别方法

Publications (1)

Publication Number Publication Date
CN112836748A true CN112836748A (zh) 2021-05-25

Family

ID=75931662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110146173.4A Pending CN112836748A (zh) 2021-02-02 2021-02-02 一种基于crnn-ctc的铸件标识字符识别方法

Country Status (1)

Country Link
CN (1) CN112836748A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326833A (zh) * 2021-08-04 2021-08-31 浩鲸云计算科技股份有限公司 一种基于中心损失的文字识别改进训练方法
CN114399766A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 光学字符识别模型训练方法、装置、设备及介质
CN114758179A (zh) * 2022-04-19 2022-07-15 电子科技大学 一种基于深度学习的压印字符识别方法及系统
CN114399766B (zh) * 2022-01-18 2024-05-10 平安科技(深圳)有限公司 光学字符识别模型训练方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766001A (zh) * 2019-09-29 2020-02-07 河海大学常州校区 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN111027562A (zh) * 2019-12-06 2020-04-17 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN111832546A (zh) * 2020-06-23 2020-10-27 南京航空航天大学 一种轻量级自然场景文本识别方法
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766001A (zh) * 2019-09-29 2020-02-07 河海大学常州校区 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN111027562A (zh) * 2019-12-06 2020-04-17 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN111832546A (zh) * 2020-06-23 2020-10-27 南京航空航天大学 一种轻量级自然场景文本识别方法
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326833A (zh) * 2021-08-04 2021-08-31 浩鲸云计算科技股份有限公司 一种基于中心损失的文字识别改进训练方法
CN114399766A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 光学字符识别模型训练方法、装置、设备及介质
CN114399766B (zh) * 2022-01-18 2024-05-10 平安科技(深圳)有限公司 光学字符识别模型训练方法、装置、设备及介质
CN114758179A (zh) * 2022-04-19 2022-07-15 电子科技大学 一种基于深度学习的压印字符识别方法及系统

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN109035251B (zh) 一种基于多尺度特征解码的图像轮廓检测方法
CN111414906A (zh) 纸质票据图片的数据合成与文本识别方法
CN109657612B (zh) 一种基于人脸图像特征的质量排序系统及其使用方法
CN112070768B (zh) 基于Anchor-Free的实时实例分割方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN112836748A (zh) 一种基于crnn-ctc的铸件标识字符识别方法
CN111276240A (zh) 一种基于图卷积网络的多标签多模态全息脉象识别方法
CN116312782B (zh) 一种融合影像基因数据的空间转录组spot区域聚类方法
CN113627266A (zh) 基于Transformer时空建模的视频行人重识别方法
CN113379833A (zh) 一种基于神经网络的图像可见水印的定位和分割方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN114092742A (zh) 一种基于多角度的小样本图像分类装置和方法
CN114663769B (zh) 一种基于YOLO v5的水果识别方法
CN116052212A (zh) 一种基于双重自监督学习的半监督跨模态行人重识别方法
CN111680577A (zh) 人脸检测方法和装置
CN110751271A (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN111160327B (zh) 一种基于轻量化卷积神经网络的表情识别方法
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN108960275A (zh) 一种基于深度玻尔兹曼机的图像识别方法及系统
CN115049611A (zh) 一种基于改进yolov5的连铸坯裂纹缺陷识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210525