CN112801058A - Uml图片的识别方法及系统 - Google Patents
Uml图片的识别方法及系统 Download PDFInfo
- Publication number
- CN112801058A CN112801058A CN202110364911.2A CN202110364911A CN112801058A CN 112801058 A CN112801058 A CN 112801058A CN 202110364911 A CN202110364911 A CN 202110364911A CN 112801058 A CN112801058 A CN 112801058A
- Authority
- CN
- China
- Prior art keywords
- substep
- unit
- convolution
- output
- dimensional tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明实施例公开了一种UML图片的识别方法及系统,所述方法包括:步骤1:收集UML图片数据,形成数据集,对数据集划分,并进行数据预处理;步骤2:构建模型;步骤3:训练模型;步骤4:调整模型;步骤5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。本发明在卷积模块的基础上,通过增加通道注意力模块和空间注意力模块,并在注意力模块后采用全局平均池化层进行连接,提升了UML图像识别的效率和准确率,实现了能够从互联网海量图片中有效识别UML图片的技术效果。
Description
技术领域
本发明涉及UML图片识别技术领域,尤其涉及一种UML图片的识别方法及系统。
背景技术
软件系统设计中经常使用统一建模语言(UML, Unified Modeling Language)进行建模和描述。而这些基于UML的设计通常以图片的方式散落于各个项目中。为了促进基于UML设计的研究,特别是与人工智能技术的结合,一项重要的工作是收集这些UML图片,形成足够规模的UML图库。因此亟需一种方法及系统使得能够从互联网上海量图片中有效识别UML图片,并进行归档。
发明内容
本发明实施例所要解决的技术问题在于,提供一种UML图片的识别方法及系统,以实现能够从互联网海量图片中有效识别UML图片的技术效果。
为了解决上述技术问题,本发明实施例提出了一种UML图片的识别方法,包括:
步骤1:收集UML图片数据,形成数据集,对数据集划分,并进行数据预处理;
步骤2:构建模型,其中,先构建模型的输入模块;再构建模型的特征提取模块,特征提取模块包括卷积模块、通道注意力模块、空间注意力模块;最后构建模型的输出模块,输出模块包括全局平均池化、批正则化、激活、全连接层;
步骤3:设定训练参数,训练模型;
步骤4:调整训练参数的取值,调整模型;
步骤5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。
相应地,本发明实施例还提供了一种UML图片的识别系统,包括:
子系统1:收集UML图片数据,形成数据集,对数据集划分,并进行数据预处理;
子系统2:构建模型,其中,先构建模型的输入模块;再构建模型的特征提取模块,特征提取模块包括卷积模块、通道注意力模块、空间注意力模块;最后构建模型的输出模块,输出模块包括全局平均池化、批正则化、激活、全连接层;
子系统3:设定训练参数,训练模型;
子系统4:调整训练参数的取值,调整模型;
子系统5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。
本发明的有益效果为:本发明在卷积模块的基础上,通过增加通道注意力模块和空间注意力模块,并在注意力模块后采用全局平均池化层进行连接,提升了UML图像识别的效率和准确率,实现了能够从互联网海量图片中有效识别UML图片的技术效果。
附图说明
图1是本发明实施例的UML图片的识别方法的流程图。
图2是本发明实施例1的性能指标图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
请参照图1,本发明实施例的UML图片的识别方法,包括:
步骤1:收集少量UML图片数据,形成数据集,对数据集划分,并进行数据预处理。步骤1的具体流程为:
(1)从已公开的UML数据集中获得UML图片,并将下载的图片存入指定文件系统;
(2)从网站获得已公开的UML图片,将下载的UML图片存入指定文件系统;
(3)从网站获得已公开的含有UML图片的文档,从文档中抽取UML图片存入指定文件系统;
(4)从网站获得已公开的非UML图片,将下载的非UML图片存入指定文件系统;
(5)对已保存数据进行数据增强,并存入指定文件系统;
(6)将已保存的图片制作成数据集;
(7)按比例划分数据集为训练集和测试集;
(8)预处理数据,使得数据集中每一张图片被表示为模型的合法输入。
步骤2:构建模型,其中,先构建模型的输入模块;再构建模型的特征提取模块,特征提取模块包括卷积模块、通道注意力模块、空间注意力模块;最后构建模型的输出模块,输出模块包括全局平均池化、批正则化、激活、全连接层。
步骤3:设定训练参数,训练模型。步骤3的具体流程为:
(1)设定训练参数;
(2)开始一个Epoch的训练;
(3)当一个Epoch训练结束时,判断当前F1是否大于历史F1最大值。若是,则保存当前Epoch训练结束后的模型文件至指定文件系统。
(4)重复执行(2)直至Epoch数达到预设的阈值。
步骤4:调整训练参数的取值,调整模型。步骤4的具体流程为:
(1)调整训练参数的取值;
(2)输出上一次训练得到的模型预测错误的图片,并存入指定文件系统;
(3)从网站获得与模型预测错误的图片类似的已公开图片,将下载的图片存入指定文件系统;
(4)对新下载的数据进行数据增强,并存入指定文件系统;
(5)扩充现有数据集,加入新下载的图片及数据增强后的图片;
(6)按比例划分数据集为训练集和测试集;
(7)预处理数据,使得数据集中每一张图片被表示为模型的合法输入;
(8)执行步骤3,直到尝试所有的参数组合或训练次数达到预设的阈值。
步骤5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。
本发明实施例的通道注意力模块聚焦于特征在通道上的联系,可以有效识别输入图像的哪些信息是有用信息;空间注意力模块聚焦于特征在空间上的联系,可以有效识别有用信息所处的空间位置,与通道注意力模块形成协同。
作为一种实施方式,步骤2中,卷积模块包含五类卷积块的组合,步骤2包括:
子步骤2.1:将图片转换成四维张量,其形状为(batch size, height, width,channel)。batch size表示批大小,height表示图片高度(行),width表示图片宽度(列),channel表示通道数;
子步骤2.2:将四维张量输入第一类卷积块,第一类卷积块共计1个,卷积核为7*7,通道数为64,步长为2,输出为batch size*height/2*width/2*64四维张量;
子步骤2.3:将子步骤2.2中的输出输入第二类卷积块,第二类卷积块共计3个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,128通道;(b)3*3卷积核,128通道;(c)1*1卷积核,256通道;输出为batch size*height/4*width/4*256四维张量;
子步骤2.4:将子步骤2.3中的输出输入第三类卷积块,第三类卷积块共计4个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,256通道;(b)3*3卷积核,256通道;(c)1*1卷积核,512通道;输出为batch size*height/8*width/8*512四维张量;
子步骤2.5:将子步骤2.4中的输出输入第四类卷积块,第四类卷积块共计23个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,512通道;(b)3*3卷积核,512通道;(c)1*1卷积核,1024通道;输出为batch size*height/16*width/16*1024四维张量;
子步骤2.6:将子步骤2.5中的输出输入第五类卷积块,第五类卷积块共计3个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,1024通道;(b)3*3卷积核,1024通道;(c)1*1卷积核,2048通道;输出为batch size*height/32*width/32*2048四维张量。
作为一种实施方式,子步骤2.6之后还包括:
子步骤2.7:将子步骤2.6中的输出进行全局最大池化,得到二维张量,其形状为batch size*2048;
子步骤2.8:将子步骤2.7中的输出接入全连接层,得到二维张量,其形状为batchsize*1024;
子步骤2.9:将子步骤2.8中的输出接入全连接层,得到二维张量,其形状为batchsize*2048;
子步骤2.10:将子步骤2.9中的输出改变形状,得到四维张量,其形状为batchsize*1*1*2048;
子步骤2.11:将子步骤2.6中的输出进行全局平均池化,得到二维张量,其形状为batch size*2048;
子步骤2.12:将子步骤2.11中的输出接入全连接层,其中全连接层神经元数量为1024,得到二维张量,其形状为batch size*1024;
子步骤2.13:将子步骤2.12中的输出接入全连接层,其中全连接层神经元数量为2048,得到二维张量,其形状为batch size*2048;
子步骤2.14:将子步骤2.13中的输出改变形状,得到四维张量,其形状为batchsize*1*1*2048;
子步骤2.15:将子步骤2.10和子步骤2.14中的输出相加,得到四维张量,其形状为batch size*1*1*2048;
子步骤2.16:将子步骤2.6和子步骤2.15中的输出相乘,得到四维张量,其形状为batch size*height/32*width/32*2048。
作为一种实施方式,子步骤2.16之后还包括:
子步骤2.17:计算子步骤2.16中的输出在通道维度上的最大值,得到四维张量,其形状为batch size*height/32*width/32*1;
子步骤2.18:求出子步骤2.16中的输出在通道维度上的平均值,得到四维张量,其形状为batch size*height/32*width/32*1;
子步骤2.19:将子步骤2.17和子步骤2.18中的输出进行连接,得到四维张量,其形状为batch size*height/32*width/32*2;
子步骤2.20:对子步骤2.19中的输出进行卷积,其中卷积核为3*3,通道数为1,得到四维张量,其形状为batch size*height/32*width/32*1;
子步骤2.21:将子步骤2.16和子步骤2.20中的输出相乘,得到四维张量,其形状为batch size*height/32*width/32*2048;
子步骤2.22:将子步骤2.6和子步骤2.21中的输出相加,得到四维张量,其形状为batch size*height/32*width/32*2048。
作为一种实施方式,子步骤2.22之后还包括:
子步骤2.23:将子步骤2.22中的输出进行全局平均池化,得到二维张量,其形状为batch size*2048。
作为一种实施方式,子步骤2.23之后还包括:
子步骤2.24:将子步骤2.23中的输出进行批正则化,得到二维张量,其形状为batch size*2048;
子步骤2.25:将子步骤2.24中的输出采用ReLu进行激活,得到二维张量,其形状为batch size*2048;ReLu:f(x) = max (0, x);
子步骤2.26:将子步骤2.25中的输出接入全连接层,其中全连接层神经元数量为512,得到二维张量,其形状为batch size*512;
子步骤2.27:将子步骤2.26中的输出进行批正则化,得到二维张量,其形状为batch size*512;
子步骤2.28:将子步骤2.27中的输出采用ReLu进行激活,得到二维张量,其形状为batch size*512;
子步骤2.29:将子步骤2.28中的输出接入全连接层,其中全连接层神经元数量为1,得到二维张量,其形状为batch size*1;
子步骤2.30:将子步骤2.29中的输出采用Sigmoid(二分类)或Softmax(多分类)进行激活,得到二维张量,其形状为batch size*1。
Sigmoid:
其中,zj为输入,S(zj)为经Sigmoid函数激活后的输出,e是自然常数。
Softmax:
其中,K表示共有K个输入,zj为第j个输入,zk为第k个输入,S (zj)为经Softmax函数激活后的输出。
本发明实施例的输入尺寸、学习率策略、数据增强策略等参数使模型在UML图像识别中达到最佳结果。
本发明实施例的UML图片的识别系统,包括:
子系统1:收集UML图片数据,形成数据集,对数据集划分,并进行数据预处理;
子系统2:构建模型,其中,先构建模型的输入模块;再构建模型的特征提取模块,特征提取模块包括卷积模块、通道注意力模块、空间注意力模块;最后构建模型的输出模块,输出模块包括全局平均池化、批正则化、激活、全连接层;
子系统3:设定训练参数,训练模型;
子系统4:调整训练参数的取值,调整模型;
子系统5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。
作为一种实施方式,子系统2中,卷积模块包含五类卷积块的组合,子系统2包括:
单元1:将图片转换成四维张量,其形状为(batch size, height, width,channel)。batch size表示批大小,height表示图片高度(行),width表示图片宽度(列),channel表示通道数;
单元2:将四维张量输入第一类卷积块,第一类卷积块共计1个,卷积核为7*7,通道数为64,步长为2,输出为batch size*height/2*width/2*64四维张量;
单元3:将单元2中的输出输入第二类卷积块,第二类卷积块共计3个,组数量为32,包括三个卷积模块:(a)1*1卷积核,128通道;(b)3*3卷积核,128通道;(c)1*1卷积核,256通道;输出为batch size*height/4*width/4*256四维张量;
单元4:将单元3中的输出输入第三类卷积块,第三类卷积块共计4个,组数量为32,包括三个卷积模块:(a)1*1卷积核,256通道;(b)3*3卷积核,256通道;(c)1*1卷积核,512通道;输出为batch size*height/8*width/8*512四维张量;
单元5:将单元4中的输出输入第四类卷积块,第四类卷积块共计23个,组数量为32,包括三个卷积模块:(a)1*1卷积核,512通道;(b)3*3卷积核,512通道;(c)1*1卷积核,1024通道;输出为batch size*height/16*width/16*1024四维张量;
单元6:将单元5中的输出输入第五类卷积块,第五类卷积块共计3个,组数量为32,包括三个卷积模块:(a)1*1卷积核,1024通道;(b)3*3卷积核,1024通道;(c)1*1卷积核,2048通道;输出为batch size*height/32*width/32*2048四维张量。
作为一种实施方式,子系统2还包括:
单元7:将单元6中的输出进行全局最大池化,得到二维张量,其形状为batchsize*2048;
单元8:将单元7中的输出接入全连接层,得到二维张量,其形状为batch size*1024;
单元9:将单元8中的输出接入全连接层,得到二维张量,其形状为batch size*2048;
单元10:将单元9中的输出改变形状,得到四维张量,其形状为batch size*1*1*2048;
单元11:将单元6中的输出进行全局平均池化,得到二维张量,其形状为batchsize*2048;
单元12:将单元11中的输出接入全连接层,其中全连接层神经元数量为1024,得到二维张量,其形状为batch size*1024;
单元13:将单元12中的输出接入全连接层,其中全连接层神经元数量为2048,得到二维张量,其形状为batch size*2048;
单元14:将单元13中的输出改变形状,得到四维张量,其形状为batch size*1*1*2048;
单元15:将单元10和单元14中的输出相加,得到四维张量,其形状为batch size*1*1*2048;
单元16:将单元6和单元15中的输出相乘,得到四维张量,其形状为batch size*height/32*width/32*2048。
作为一种实施方式,子系统2还包括:
单元17:计算单元16中的输出在通道维度上的最大值,得到四维张量,其形状为batch size*height/32*width/32*1;
单元18:求出单元16中的输出在通道维度上的平均值,得到四维张量,其形状为batch size*height/32*width/32*1;
单元19:将单元17和单元18中的输出进行连接,得到四维张量,其形状为batchsize*height/32*width/32*2;
单元20:对单元19中的输出进行卷积,其中卷积核为3*3,通道数为1,得到四维张量,其形状为batch size*height/32*width/32*1;
单元21:将单元16和单元20中的输出相乘,得到四维张量,其形状为batch size*height/32*width/32*2048;
单元22:将单元6和单元21中的输出相加,得到四维张量,其形状为batch size*height/32*width/32*2048。
作为一种实施方式,子系统5还包括:
单元23:将单元22中的输出进行全局平均池化,得到二维张量,其形状为batchsize*2048。
作为一种实施方式,子系统2还包括:
单元24:将单元23中的输出进行批正则化,得到二维张量,其形状为batch size*2048;
单元25:将单元24中的输出采用ReLu进行激活,得到二维张量,其形状为batchsize*2048;ReLu:f(x) = max (0, x);
单元26:将单元25中的输出接入全连接层,其中全连接层神经元数量为512,得到二维张量,其形状为batch size*512;
单元27:将单元26中的输出进行批正则化,得到二维张量,其形状为batch size*512;
单元28:将单元27中的输出采用ReLu进行激活,得到二维张量,其形状为batchsize*512;
单元29:将单元28中的输出接入全连接层,其中全连接层神经元数量为1,得到二维张量,其形状为batch size*1;
单元30:将单元29中的输出采用Sigmoid(二分类)或Softmax(多分类)进行激活,得到二维张量,其形状为batch size*1。
实施例1:
参数取值如下:
1. 输入图片大小:320*320
2. 批大小:128
3. 预训练权重:ImageNet
4. 预训练权重是否固定:是
5. Epoch数量:150
6. 优化器:Adam
7. 数据增强策略
(1)随机水平翻转
(2)随机竖直翻转
8. 学习率衰减策略
(1)设定初始学习率为lr = 1e-4
(2)若15个epoch内测试集损失未减小,则降低学习率为0.8*lr
(3)若学习率降至1e-6,则不再下降
实施步骤:
(1)将图片转换成四维张量,其形状为(128, 320, 320, 3),即图片压缩为320*320、3通道,批大小为128。
(2)将四维张量输入第一类卷积块。其中该类卷积块共计1个,卷积核为7*7,通道数为64,,步长为2,输出为128*160*160*64四维张量。
(3)将(2)的输出输入第二类卷积块。其中该类卷积块共计3个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,128通道;(b)3*3卷积核,128通道;(c)1*1卷积核,256通道。输出为128*80*80*256四维张量。
(4)将(3)的输出输入第三类卷积块。其中该类卷积块共计4个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,256通道;(b)3*3卷积核,256通道;(c)1*1卷积核,512通道。输出为128*40*40*512四维张量。
(5)将(4)的输出输入第四类卷积块。其中该类卷积块共计23个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,512通道;(b)3*3卷积核,512通道;(c)1*1卷积核,1024通道。输出为128*20*20*1024四维张量。
(6)将(5)的输出输入第五类卷积块。其中该类卷积块共计3个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,1024通道;(b)3*3卷积核,1024通道;(c)1*1卷积核,2048通道。输出为128*10*10*2048四维张量。
(7)将(6)的输出进行全局最大池化,得到二维张量,其形状为128*2048。
(8)将(7)的输出接入全连接层,得到二维张量,其形状为128*1024。
(9)将(8)的输出接入全连接层,得到二维张量,其形状为128*2048。
(10)将(9)的输出改变形状,得到四维张量,其形状为128*1*1*2048。
(11)将(6)的输出进行全局平均池化,得到二维张量,其形状为128*2048。
(12)将(11)的输出接入全连接层,其中全连接层神经元数量为1024,得到二维张量,其形状为128*1024。
(13)将(12)的输出接入全连接层,其中全连接层神经元数量为2048,得到二维张量,其形状为128*2048。
(14)将(13)的输出改变形状,得到四维张量,其形状为128*1*1*2048。
(15)将(10)和(14)的输出相加,得到四维张量,其形状为128*1*1*2048。
(16)将(6)和(15)的输出相乘,得到四维张量,其形状为128*10*10*2048。
(17)求出(16)输出在通道维度上的最大值,得到得到四维张量,其形状为128*10*10*1。
(18)求出(16)输出在通道维度上的平均值,得到得到四维张量,其形状为128*10*10*1。
(19)将(17)和(18)的输出进行连接,得到得到四维张量,其形状为128*10*10*2。
(20)对(19)的输出进行卷积,其中卷积核为3*3,通道数为1,得到得到四维张量,其形状为128*10*10*1。
(21)将(16)和(20)的输出相乘,得到四维张量,其形状为128*10*10*2048。
(22)将(6)和(21)的输出相加,得到四维张量,其形状为128*10*10*2048。
(23)将(22)的输出进行全局平均池化,得到二维张量,其形状为128*2048。
(24)将(23)的输出进行批正则化,得到二维张量,其形状为128*2048。
(25)将(24)的输出采用ReLu进行激活,得到二维张量,其形状为128*2048。
(26)将(25)的输出接入全连接层,其中全连接层神经元数量为512,得到二维张量,其形状为128*512。
(27)将(26)的输出进行批正则化,得到二维张量,其形状为128*512。
(28)将(27)的输出采用ReLu进行激活,得到二维张量,其形状为128*512。
(29)将(28)的输出接入全连接层,其中全连接层神经元数量为1,得到二维张量,其形状为128*1。
(30)将(29)的输出采用Sigmoid(二分类)或Softmax(多分类)进行激活,得到二维张量,其形状为128*1。
模型测试:
TP、True Positive 真阳性:预测为正,实际也为正
FP、False Positive 假阳性:预测为正,实际为负
FN、False Negative 假阴性:预测与负、实际为正
TN、True Negative 真阴性:预测为负、实际也为负
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
F1 = 2* Precision * Recall / (Precision + Recall)
8次测试,取得F1值如下:
0.9702
0.9758
0.9701
0.9731
0.9718
0.9714
0.9728
0.9745
均值:0.9725
标准差:0.0019
综合指标F1 = 97.25% ± 0.19%
其中一次训练(150个Epochs)的精确率、召回率、F1变化图如图2所示。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (10)
1.一种UML图片的识别方法,其特征在于,包括:
步骤1:收集UML图片数据,形成数据集,对数据集划分,并进行数据预处理;
步骤2:构建模型,其中,先构建模型的输入模块;再构建模型的特征提取模块,特征提取模块包括卷积模块、通道注意力模块、空间注意力模块;最后构建模型的输出模块,输出模块包括全局平均池化、批正则化、激活、全连接层;
步骤3:设定训练参数,训练模型;
步骤4:调整训练参数的取值,调整模型;
步骤5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。
2.如权利要求1所述的UML图片的识别方法,其特征在于,步骤2中,卷积模块包含五类卷积块的组合,步骤2包括:
子步骤2.1:将图片转换成四维张量;
子步骤2.2:将四维张量输入第一类卷积块,第一类卷积块共计1个,卷积核为7*7,通道数为64,步长为2;
子步骤2.3:将子步骤2.2中的输出输入第二类卷积块,第二类卷积块共计3个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,128通道;(b)3*3卷积核,128通道;(c)1*1卷积核,256通道;
子步骤2.4:将子步骤2.3中的输出输入第三类卷积块,第三类卷积块共计4个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,256通道;(b)3*3卷积核,256通道;(c)1*1卷积核,512通道;
子步骤2.5:将子步骤2.4中的输出输入第四类卷积块,第四类卷积块共计23个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,512通道;(b)3*3卷积核,512通道;(c)1*1卷积核,1024通道;
子步骤2.6:将子步骤2.5中的输出输入第五类卷积块,第五类卷积块共计3个,组数量为32,包括三个卷积步骤:(a)1*1卷积核,1024通道;(b)3*3卷积核,1024通道;(c)1*1卷积核,2048通道。
3.如权利要求2所述的UML图片的识别方法,其特征在于,子步骤2.6之后还包括:
子步骤2.7:将子步骤2.6中的输出进行全局最大池化,得到二维张量;
子步骤2.8:将子步骤2.7中的输出接入全连接层,得到二维张量;
子步骤2.9:将子步骤2.8中的输出接入全连接层,得到二维张量;
子步骤2.10:将子步骤2.9中的输出改变形状,得到四维张量;
子步骤2.11:将子步骤2.6中的输出进行全局平均池化,得到二维张量;
子步骤2.12:将子步骤2.11中的输出接入全连接层,其中全连接层神经元数量为1024,得到二维张量;
子步骤2.13:将子步骤2.12中的输出接入全连接层,其中全连接层神经元数量为2048,得到二维张量;
子步骤2.14:将子步骤2.13中的输出改变形状,得到四维张量;
子步骤2.15:将子步骤2.10和子步骤2.14中的输出相加,得到四维张量;
子步骤2.16:将子步骤2.6和子步骤2.15中的输出相乘,得到四维张量。
4.如权利要求3所述的UML图片的识别方法,其特征在于,子步骤2.16之后还包括:
子步骤2.17:计算子步骤2.16中的输出在通道维度上的最大值,得到四维张量;
子步骤2.18:求出子步骤2.16中的输出在通道维度上的平均值,得到四维张量;
子步骤2.19:将子步骤2.17和子步骤2.18中的输出进行连接,得到四维张量;
子步骤2.20:对子步骤2.19中的输出进行卷积,其中卷积核为3*3,通道数为1,得到四维张量;
子步骤2.21:将子步骤2.16和子步骤2.20中的输出相乘,得到四维张量;
子步骤2.22:将子步骤2.6和子步骤2.21中的输出相加,得到四维张量。
5.如权利要求4所述的UML图片的识别方法,其特征在于,子步骤2.22之后还包括:
子步骤2.23:将子步骤2.22中的输出进行全局平均池化,得到二维张量。
6.一种UML图片的识别系统,其特征在于,包括:
子系统1:收集UML图片数据,形成数据集,对数据集划分,并进行数据预处理;
子系统2:构建模型,其中,先构建模型的输入模块;再构建模型的特征提取模块,特征提取模块包括卷积模块、通道注意力模块、空间注意力模块;最后构建模型的输出模块,输出模块包括全局平均池化、批正则化、激活、全连接层;
子系统3:设定训练参数,训练模型;
子系统4:调整训练参数的取值,调整模型;
子系统5:下载互联网上的图片;将图片转换成模型的合法输入;输入模型;使用模型识别图片;将识别出的UML图片存入UML图库。
7.如权利要求6所述的UML图片的识别系统,其特征在于,子系统2中,卷积模块包含五类卷积块的组合,子系统2包括:
单元1:将图片转换成四维张量;
单元2:将四维张量输入第一类卷积块,第一类卷积块共计1个,卷积核为7*7,通道数为64,步长为2;
单元3:将单元2的输出输入第二类卷积块,第二类卷积块共计3个,组数量为32,包括三个卷积模块:(a)1*1卷积核,128通道;(b)3*3卷积核,128通道;(c)1*1卷积核,256通道;
单元4:将单元3的输出输入第三类卷积块,第三类卷积块共计4个,组数量为32,包括三个卷积模块:(a)1*1卷积核,256通道;(b)3*3卷积核,256通道;(c)1*1卷积核,512通道;
单元5:将单元4的输出输入第四类卷积块,第四类卷积块共计23个,组数量为32,包括三个卷积模块:(a)1*1卷积核,512通道;(b)3*3卷积核,512通道;(c)1*1卷积核,1024通道;
单元6:将单元5的输出输入第五类卷积块,第五类卷积块共计3个,组数量为32,包括三个卷积模块:(a)1*1卷积核,1024通道;(b)3*3卷积核,1024通道;(c)1*1卷积核,2048通道。
8.如权利要求7所述的UML图片的识别系统,其特征在于,子系统2还包括:
单元7:将单元6的输出进行全局最大池化,得到二维张量;
单元8:将单元7的输出接入全连接层,得到二维张量;
单元9:将单元8的输出接入全连接层,得到二维张量;
单元10:将单元9的输出改变形状,得到四维张量;
单元11:将单元6的输出进行全局平均池化,得到二维张量;
单元12:将单元11的输出接入全连接层,其中全连接层神经元数量为1024,得到二维张量;
单元13:将单元12的输出接入全连接层,其中全连接层神经元数量为2048,得到二维张量;
单元14:将单元13的输出改变形状,得到四维张量;
单元15:将单元10和单元14的输出相加,得到四维张量;
单元16:将单元6和单元15的输出相乘,得到四维张量。
9.如权利要求8所述的UML图片的识别系统,其特征在于,子系统2还包括:
单元17:计算单元16的输出在通道维度上的最大值,得到四维张量;
单元18:求出单元16的输出在通道维度上的平均值,得到四维张量;
单元19:将单元17和单元18的输出进行连接,得到四维张量;
单元20:对单元19的输出进行卷积,其中卷积核为3*3,通道数为1,得到四维张量;
单元21:将单元16和单元20的输出相乘,得到四维张量;
单元22:将单元6和单元21的输出相加,得到四维张量。
10.如权利要求9所述的UML图片的识别系统,其特征在于,子系统2还包括:
单元23:将单元22的输出进行全局平均池化,得到二维张量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364911.2A CN112801058B (zh) | 2021-04-06 | 2021-04-06 | Uml图片的识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364911.2A CN112801058B (zh) | 2021-04-06 | 2021-04-06 | Uml图片的识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801058A true CN112801058A (zh) | 2021-05-14 |
CN112801058B CN112801058B (zh) | 2021-06-29 |
Family
ID=75816303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110364911.2A Active CN112801058B (zh) | 2021-04-06 | 2021-04-06 | Uml图片的识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801058B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239751A1 (en) * | 2015-02-17 | 2016-08-18 | The Mathworks, Inc. | Multimodal input processing |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN110084794A (zh) * | 2019-04-22 | 2019-08-02 | 华南理工大学 | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 |
CN111062432A (zh) * | 2019-12-13 | 2020-04-24 | 华中科技大学 | 一种语义上多模态图像生成的方法 |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN111783590A (zh) * | 2020-06-24 | 2020-10-16 | 西北工业大学 | 一种基于度量学习的多类别小目标检测方法 |
CN111797717A (zh) * | 2020-06-17 | 2020-10-20 | 电子科技大学 | 一种高速高精度的sar图像船只检测方法 |
-
2021
- 2021-04-06 CN CN202110364911.2A patent/CN112801058B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239751A1 (en) * | 2015-02-17 | 2016-08-18 | The Mathworks, Inc. | Multimodal input processing |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN110084794A (zh) * | 2019-04-22 | 2019-08-02 | 华南理工大学 | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 |
CN111062432A (zh) * | 2019-12-13 | 2020-04-24 | 华中科技大学 | 一种语义上多模态图像生成的方法 |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN111797717A (zh) * | 2020-06-17 | 2020-10-20 | 电子科技大学 | 一种高速高精度的sar图像船只检测方法 |
CN111783590A (zh) * | 2020-06-24 | 2020-10-16 | 西北工业大学 | 一种基于度量学习的多类别小目标检测方法 |
Non-Patent Citations (1)
Title |
---|
SAYF RASHID: "Automatic Classification of uml Sequence Diagrams from Images", 《UNIVERSITY OF GOTHENBERG》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801058B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929622B (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN112699941B (zh) | 植物病害严重程度图像分类方法、装置、设备和存储介质 | |
CN113592007B (zh) | 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 | |
CN112766283B (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN113763385A (zh) | 视频目标分割方法、装置、设备及介质 | |
CN115147862A (zh) | 底栖动物自动识别方法、系统、电子设备和可读存储介质 | |
CN112801058B (zh) | Uml图片的识别方法及系统 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN116579468A (zh) | 基于云系记忆的台风生成预测方法、装置、设备及介质 | |
CN116579408A (zh) | 一种基于模型结构冗余度的模型剪枝方法及系统 | |
CN116721327A (zh) | 一种基于泛化界的神经网络架构搜索方法 | |
CN116229073A (zh) | 一种基于改进型ERFNet网络的遥感图像分割方法及装置 | |
CN116109868A (zh) | 基于轻量化神经网络的图像分类模型构建和小样本图像分类方法 | |
CN115457366A (zh) | 基于图卷积神经网络的中草药多标签识别模型 | |
CN113378866B (zh) | 图像分类方法、系统、存储介质及电子设备 | |
CN112183669B (zh) | 图像分类方法和装置、设备及存储介质 | |
CN114496099A (zh) | 细胞功能注释方法、装置、设备及介质 | |
CN110569790B (zh) | 基于纹理增强卷积网络的居民区要素提取方法 | |
CN114295967A (zh) | 一种基于迁移神经网络的模拟电路故障诊断方法 | |
WO2021159101A1 (en) | Fine-grained stochastic neural architecture search | |
CN110991685A (zh) | 一种气象温度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: UML Picture Recognition Method and System Effective date of registration: 20221107 Granted publication date: 20210629 Pledgee: Industrial and Commercial Bank of China Limited Shenzhen gaoxinyuan sub branch Pledgor: ABACUS INFO (SHENZHEN) Co.,Ltd. Registration number: Y2022980020920 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |