CN114677687A - 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 - Google Patents
一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 Download PDFInfo
- Publication number
- CN114677687A CN114677687A CN202210391003.7A CN202210391003A CN114677687A CN 114677687 A CN114677687 A CN 114677687A CN 202210391003 A CN202210391003 A CN 202210391003A CN 114677687 A CN114677687 A CN 114677687A
- Authority
- CN
- China
- Prior art keywords
- font
- brush
- vit
- image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,包括:步骤1:对从书法字体库获得的多种类别毛笔字体图像数据进行预处理;步骤2:对毛笔字体图像数据的亮度、对比度饱和度进行调整;步骤3:将所述数据集中的毛笔字体图像调整成相同分辨率格式;步骤4:调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息;步骤5:调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息;步骤6:将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练;本方法取得了良好的识别精度,极大的提高了书法字体识别的速度和便捷性,为智能设备的开发应用提供了技术保障。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种融合视觉(Vision Transformer,ViT)与卷积神经网络(Convolutional Neural Networks,CNN)的毛笔字体类型快速识别方法。
背景技术
毛笔书法是我国汉字的一种传统艺术表现形式。在书法界公认的有五体,分别是篆书、隶书、楷书、草书和行书。每种字体都有其独特的书写风格。篆书是象形表意的字体,特点是画笔灵动、栩栩如生。隶书点画分明,横长竖断,讲究“蚕头雁尾”、“一波三折”。楷书形体方正,笔画平直,讲究“丰腴雄浑”,“结体遒劲”。草书与楷书规矩的笔法不同,它有着“飘若浮云”、“矫若惊龙”的特点。而行书既有楷书的规整,又有草书的放纵流动,是结合了艺术与实用的一种字体。这五类字体的风格各有不同,但又存在相似之处。
目前,书法字体的识别主要依靠专业人员的经验判断,但仅凭人工的方法不仅需要投入大量的时间和精力,而且不同人员之间差异化严重。字体图像中包含着很多字形信息,肉眼识别很难抓住这些微小的特征。初学者由于不了解字体间的区别,常常出现书写不规范的问题。普通深度学习方法虽然能获取到字体图像的更多特征信息,但却忽略了字体偏旁与笔画顺序的细微特征,这些信息对于毛笔字体类型的判断具有重要影响。
发明内容
本发明的目的在于,提出一种基于细粒度形态信息的毛笔字体类型快速识别方法,其将毛笔字体的分类问题转化为人工智能领域的图像分类问题,进而得到字形中丰富的特征信息。
为实现上述目的,本申请提出的一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,包括:
步骤1:对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储;
步骤2:对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充;
步骤3:将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集;
步骤4:调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息;
步骤5:调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息;
步骤6:将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练,并保存效果最佳的分类模型;
步骤7:加载所述分类模型,将待检验的毛笔字体图像传入模型中判断该字体的类别。
进一步地,步骤1中对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储,具体包括:
步骤1.1:对来自书法字体库中的毛笔字体图像数据进行筛选,删除图像质量低的数据;
步骤1.2:将不同类别毛笔字体图像数据收集整理,分别存储在篆书、隶书、楷书、草书和行书对应的文件夹下;
进一步地,步骤2中对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充,具体包括:
步骤2.1:采用人工方式对分类存储的毛笔字体图像数据进行清洗操作,对照数据集中的标注实例,标注错误的图像;
步骤2.2:对于数据集中的毛笔字体图像,按照50%的概率进行翻转,在图像翻转过程中,分别按照50%的概率进行水平翻转和垂直翻转;对于每一张毛笔字体图像,按照100%的概率进行亮度、对比度和饱和度的调整,在调整过程中,分别按照33.3%的概率进行亮度与对比度和饱的随机变换;
步骤2.3:在数据集中按照30%的概率添加噪声,在添加过程中,分别按照33.3%的概率添加高斯噪声、胡椒噪声和盐噪声;然后保留处理后的毛笔字体图像和原始毛笔字体图像,实现了数据集的增强和扩充。
进一步地,步骤3中将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集,具体包括:
步骤3.1:调用Python库的torchvision函数库,转换毛笔字体图像的分辨率,并将其统一为64×64;
步骤3.2:随机选取部分毛笔字体图像数据,按照8:2的比例,构造训练集与验证集;
步骤3.3:将统一分辨率后的毛笔字体图像数据转换为Tensor形式。
进一步地,步骤4中调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息,具体包括:
步骤4.1:将步骤3得到的毛笔字体图像Tensor进行卷积操作;考虑到不同类型的字体之间外形差异较为细微,所以使用不同大小卷积核的卷积神经网络强化模型提取特征的能力;
步骤4.2:采用批归一化(BatchNorm)方式对输入层和隐藏层标准化,利用视觉激活函数(FReLU)加速收敛,传入最大池化层(MaxPool)进行池化操作,得到字体的局部特征信息。
更进一步地,步骤5中调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息,具体包括:
步骤5.1:将步骤3得到的毛笔字体图像Tensor进行分块,展平成序列,输入ViT模型的编码器Encoder部分,其采用了堆叠的6个Encoder模块结构;
步骤5.2:通过拆分毛笔字体图像,重新进行位置编码,使用可学习的一维位置嵌入作为位置编码的输入;
步骤5.3:将位置编码后的输出划分为8个注意力模块,得到每个注意力模块的值,并进行拼接;
所述注意力模块使用式(1)进行拼接:
MultiHeadAttention(Q,K,V)=Concat(head1,...,head8) (1)
headi=Attention(QWi Q,KWi K,VWi V) (2)
其中,headi表示注意力模块;
所述注意力模块的值获取公式如下:
步骤5.4:将多个注意力模块的输出与位置编码的输出做残差连接,这个结构的设计解决了全连接层过深导致的神经网络退化问题;
步骤5.5:做残差连接后的毛笔字体图像送入前馈神经网络,最后进行层归一化得到字体的结构特征信息。
更进一步地,所述残差连接和层归一体化具体公式如下:
Y=LayerNorm(X+MultiHeadAttention(X)) (4)
其中,X为位置编码后的特征向量,Y为残差连接和层归一化后的输出。
更进一步地,所述前馈神经网络公式如下:
FeedForward(X)=max(0,XW1+b1)W2+b2 (5)
其中Wi表示全连接层的权重,bi表示全连接层的偏置。
作为更进一步地,步骤6中将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练,并保存效果最佳的分类模型,具体包括:
步骤6.1:将CNN输出的向量展平后与ViT输出的向量连接,其连接两种特征向量公式如下:
FeatureUnion(XCNN,XViT)=Concat(Flatten(XCNN),XViT) (6)
步骤6.2:将连接后的总体特征向量传入全连接神经网络中,进行分类模型的训练;为了得到最好的模型效果,采用了焦点损失函数(Focal Loss)对模型进行优化,并保存效果最佳的分类模型。
作为更进一步地,步骤7中加载所述分类模型,将待检验的毛笔字体图像传入模型中判断该字体的类别,具体包括:
加载步骤6.2中保存的分类模型,将待分类的毛笔字体图像输入模型中,判断字体的特征信息,并输出预测的字体类别。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:本发明首先利用移动便携设备拍摄书法字体的图像,然后将图像作为输入,使用保存的模型进行字体识别,预测出图像对应字体。其有效矫正书法不规范的问题,并且取得了良好的识别精度,极大的提高了书法字体识别的速度和便捷性,为智能设备的开发应用提供了技术保障。
附图说明
图1为一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法流程图;
图2为毛笔字体分类的模型结构图;
图3为毛笔字体分类展示图。
具体实施方法
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
实施例
基于不同字体的落笔规律和书法辅导工具目前的缺点,提供一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,本实施例以PyCharm为开发平台,Python为开发语言和PyTorch为深度学习框架,采用本发明上述方法,如图1所示,进行字体的识别和分类,以下为具体过程:
步骤1:使用手机、相机等移动便携设备进行书法字体图像的拍摄;
步骤2:以步骤1获取的图像作为输入,如图2所示,加载本方法中的分类模型,预测得到图像中字体的分类结果。本发明使用的评价指标包含准确率(ACC)、F1值(F1 score);
具体公式如下:
其中,TP:真正例,将正类正确预测为正类数;FP:假正例,将负类错误预测为正类数;FN:假负例,将正类错误预测为负类数;TN:真负例,将负类正确预测为负类数。
步骤3:采用了识别速度FPS(Frame per second,即每秒内可以处理的图片数量)作为模型识别速度的评价指标,其公式定义如下:
其中,frameNum表示需要推理的图片总数,elapsedTime表示推理过程的总耗时(秒)。
步骤4:将生成的图像进行结构输出展示,如图3所示,并保存到本地文件。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (10)
1.一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,包括:
步骤1:对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储;
步骤2:对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充;
步骤3:将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集;
步骤4:调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息;
步骤5:调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息;
步骤6:将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练,并保存效果最佳的分类模型;
步骤7:加载所述分类模型,将待检验的毛笔字体图像传入模型中判断该字体的类别。
2.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤1中对从书法字体库获得的多种类别毛笔字体图像数据进行预处理,然后分类存储,具体包括:
步骤1.1:对来自书法字体库中的毛笔字体图像数据进行筛选,删除图像质量低的数据;
步骤1.2:将不同类别毛笔字体图像数据收集整理,分别存储在篆书、隶书、楷书、草书和行书对应的文件夹下。
3.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤2中对分类存储的毛笔字体图像数据的亮度、对比度饱和度进行调整,并随机添加噪声,实现数据集的增强和扩充,具体包括:
步骤2.1:采用人工方式对分类存储的毛笔字体图像数据进行清洗操作,对照数据集中的标注实例,标注错误的图像;
步骤2.2:对于数据集中的毛笔字体图像,按照50%的概率进行翻转,在图像翻转过程中,分别按照50%的概率进行水平翻转和垂直翻转;对于每一张毛笔字体图像,按照100%的概率进行亮度、对比度和饱和度的调整,在调整过程中,分别按照33.3%的概率进行亮度与对比度和饱的随机变换;
步骤2.3:在数据集中按照30%的概率添加噪声,在添加过程中,分别按照33.3%的概率添加高斯噪声、胡椒噪声和盐噪声;然后保留处理后的毛笔字体图像和原始毛笔字体图像,实现了数据集的增强和扩充。
4.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤3中将所述数据集中的毛笔字体图像调整成相同分辨率格式,并按一定比例分为训练集和验证集,具体包括:
步骤3.1:调用Python库的torchvision函数库,转换毛笔字体图像的分辨率,并将其统一为64×64;
步骤3.2:随机选取部分毛笔字体图像数据,按照8:2的比例,构造训练集与验证集;
步骤3.3:将统一分辨率后的毛笔字体图像数据转换为Tensor形式。
5.根据权利要求4所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤4中调整后的毛笔字体图像以及标注数据送入CNN中,提取出字体的局部特征信息,具体包括:
步骤4.1:将步骤3得到的毛笔字体图像Tensor进行卷积操作,即使用不同大小卷积核的卷积神经网络进行特征提取;
步骤4.2:采用批归一化方式对输入层和隐藏层标准化,利用视觉激活函数加速收敛,传入最大池化层进行池化操作,得到字体的局部特征信息。
6.根据权利要求4所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤5中调整后的毛笔字体图像以及标注数据送入ViT中,提取出字体的结构特征信息,具体包括:
步骤5.1:将步骤3得到的毛笔字体图像Tensor进行分块,展平成序列,输入ViT模型的编码器Encoder部分,其采用了堆叠的6个Encoder模块结构;
步骤5.2:通过拆分毛笔字体图像,重新进行位置编码,使用可学习的一维位置嵌入作为位置编码的输入;
步骤5.3:将位置编码后的输出划分为8个注意力模块,得到每个注意力模块的值,并进行拼接;
所述注意力模块使用式(1)进行拼接:
MultiHeadAttention(Q,K,V)=Concat(head1,...,head8) (1)
headi=Attention(QWi Q,KWi K,VWi V) (2)
其中,headi表示注意力模块;
所述注意力模块的值获取公式如下:
其中dk表示输入维度,Q、K、V分别表示Query、Key、Value矩阵,KT表示矩阵K的转置。
步骤5.4:将多个注意力模块的输出与位置编码的输出做残差连接;
步骤5.5:做残差连接后的毛笔字体图像送入前馈神经网络,最后进行层归一化得到字体的结构特征信息。
7.根据权利要求6所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,所述残差连接和层归一体化具体公式如下:
Y=LayerNorm(X+MultiHeadAttention(X)) (4)
其中,X为位置编码后的特征向量,Y为残差连接和层归一化后的输出。
8.根据权利要求6所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,所述前馈神经网络公式如下:
FeedForward(X)=max(0,XW1+b1)W2+b2 (5)
其中Wi表示全连接层的权重,bi表示全连接层的偏置。
9.根据权利要求1所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤6中将所述字体的局部特征信息和结构特征信息进行结合,送入分类模型中进行训练,并保存效果最佳的分类模型,具体包括:
步骤6.1:将CNN输出的向量展平后与ViT输出的向量连接,其连接两种特征向量公式如下:
FeatureUnion(XCNN,XViT)=Concat(Flatten(XCNN),XViT) (6)
步骤6.2:将连接后的总体特征向量传入全连接神经网络中,进行分类模型的训练;且采用了焦点损失函数对模型进行优化,并保存效果最佳的分类模型。
10.根据权利要求9所述一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法,其特征在于,步骤7中加载所述分类模型,将待检验的毛笔字体图像传入模型中判断该字体的类别,具体包括:
加载步骤6.2中保存的分类模型,将待分类的毛笔字体图像输入模型中,判断字体的特征信息,并输出预测的字体类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210391003.7A CN114677687A (zh) | 2022-04-14 | 2022-04-14 | 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210391003.7A CN114677687A (zh) | 2022-04-14 | 2022-04-14 | 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114677687A true CN114677687A (zh) | 2022-06-28 |
Family
ID=82079049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210391003.7A Pending CN114677687A (zh) | 2022-04-14 | 2022-04-14 | 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114677687A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357747A (zh) * | 2022-10-18 | 2022-11-18 | 山东建筑大学 | 一种基于序数哈希的图像检索方法及系统 |
CN115761510A (zh) * | 2022-12-08 | 2023-03-07 | 中化现代农业有限公司 | 一种果实计数方法 |
CN116135797A (zh) * | 2023-04-19 | 2023-05-19 | 江苏海峡环保科技发展有限公司 | 污水处理智能控制系统 |
WO2024021283A1 (zh) * | 2022-07-28 | 2024-02-01 | 深圳职业技术学院 | 基于异构网络特征交互的行人重识别方法、装置及设备 |
-
2022
- 2022-04-14 CN CN202210391003.7A patent/CN114677687A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024021283A1 (zh) * | 2022-07-28 | 2024-02-01 | 深圳职业技术学院 | 基于异构网络特征交互的行人重识别方法、装置及设备 |
CN115357747A (zh) * | 2022-10-18 | 2022-11-18 | 山东建筑大学 | 一种基于序数哈希的图像检索方法及系统 |
CN115357747B (zh) * | 2022-10-18 | 2024-03-26 | 山东建筑大学 | 一种基于序数哈希的图像检索方法及系统 |
CN115761510A (zh) * | 2022-12-08 | 2023-03-07 | 中化现代农业有限公司 | 一种果实计数方法 |
CN116135797A (zh) * | 2023-04-19 | 2023-05-19 | 江苏海峡环保科技发展有限公司 | 污水处理智能控制系统 |
CN116135797B (zh) * | 2023-04-19 | 2023-07-04 | 江苏海峡环保科技发展有限公司 | 污水处理智能控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN114677687A (zh) | 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 | |
CN112651448B (zh) | 一种面向社交平台表情包的多模态情感分析方法 | |
CN110807422A (zh) | 一种基于深度学习的自然场景文本检测方法 | |
CN112818951B (zh) | 一种票证识别的方法 | |
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN112686345B (zh) | 一种基于注意力机制的脱机英文手写识别方法 | |
CN108133235B (zh) | 一种基于神经网络多尺度特征图的行人检测方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN111353487A (zh) | 用于变电站的设备信息提取方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN114092742A (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN111832573A (zh) | 一种基于类激活映射和视觉显著性的图像情感分类方法 | |
CN112183240A (zh) | 一种基于3d时间流和并行空间流的双流卷积行为识别方法 | |
CN114170672A (zh) | 一种基于计算机视觉的课堂学生行为识别的方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
Rastgoo et al. | Word separation in continuous sign language using isolated signs and post-processing | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN111612090B (zh) | 基于内容颜色交叉相关的图像情感分类方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
JPH0869506A (ja) | 手書き文字の認識方法および装置 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN113553947B (zh) | 生成描述多模态行人重识别方法、装置及电子设备 | |
CN113221870B (zh) | 一种用于移动终端的ocr识别方法、装置、存储介质及设备 | |
CN113705713B (zh) | 一种基于全局和局部注意力机制的文本识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |