CN114821271A - 模型训练方法、图像描述生成方法、装置及存储介质 - Google Patents

模型训练方法、图像描述生成方法、装置及存储介质 Download PDF

Info

Publication number
CN114821271A
CN114821271A CN202210544943.5A CN202210544943A CN114821271A CN 114821271 A CN114821271 A CN 114821271A CN 202210544943 A CN202210544943 A CN 202210544943A CN 114821271 A CN114821271 A CN 114821271A
Authority
CN
China
Prior art keywords
image
training
attention
image description
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210544943.5A
Other languages
English (en)
Other versions
CN114821271B (zh
Inventor
舒畅
陈又新
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210544943.5A priority Critical patent/CN114821271B/zh
Publication of CN114821271A publication Critical patent/CN114821271A/zh
Application granted granted Critical
Publication of CN114821271B publication Critical patent/CN114821271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明涉及人工智能技术,提供了一种模型训练方法、图像描述生成方法、装置及存储介质,该方法包括:获取训练图像;将训练图像输入已训练的目标检测模型,输出多个目标对象、目标类别标签、以及置信度;基于置信度,对各个目标类别标签进行排序,并根据排序后的目标类别标签和预设的数量阈值确定关键标签;根据关键标签构造有限状态自动机,并输出关键描述词序列;基于集束搜索算法,根据关键描述词序列确定伪图像描述;将训练图像和伪图像描述作为训练数据,对图像描述生成模型进行训练。根据本发明实施例提供的方案,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。

Description

模型训练方法、图像描述生成方法、装置及存储介质
技术领域
本发明涉及但不限于人工智能技术领域,尤其涉及一种模型训练方法、图像描述生成方法、装置及存储介质。
背景技术
图像描述生成(Image Captioning)作为结合自然语言处理(Natural LanguageProcessing,NLP)和计算机视觉(Computer Version,CV)领域的综合研究方向,已取得很多进展以及应用,图像描述生成是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求;和目标检测及语义分割等任务不同,图像描述生成要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
目前,利用现有的图像描述数据集训练图像描述生成模型时,相对于图像分类数据集和目标检测数据集,图像描述数据集较小,为了保证预测的准确性,需要进行大量的人工标注来标注图像描述,导致人工成本过高;另外,由于图像描述数据集较小,使用训练得到的图像描述生成模型进行图像描述生成时,会出现部分描述词缺失的情况,导致预测语句的准确性较差。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种模型训练方法、图像描述生成方法、装置及存储介质,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
第一方面,本发明实施例提供了一种图像描述生成模型训练方法,包括:获取训练图像;将所述训练图像输入已训练的目标检测模型,以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度;基于所述置信度,对各个所述目标类别标签进行排序,并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签;根据所述关键标签构造有限状态自动机,并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列;基于集束搜索算法,根据所述关键描述词序列确定伪图像描述;将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数。
在一些实施例中,所述图像描述生成模型包括编码器和解码器;所述将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数,包括:将所述训练图像输入所述编码器,确定图像编码特征;将所述图像编码特征输入所述解码器,得到预测语句,其中,所述预测语句由至少一个预测词组成;根据所述预测词和所述伪图像描述确定模型损失值;基于所述模型损失值,更新所述图像描述生成模型的模型参数。
在一些实施例中,所述编码器包括特征提取模块和多个叠加的编码层,每个所述编码层包括多头自注意子层;所述将所述训练图像输入所述编码器,确定图像编码特征,包括:将所述训练图像输入已训练的所述特征提取模块,得到图像特征向量;将所述图像特征向量输入多头自注意子层,得到图像自注意特征向量;对所述图像自注意特征向量进行线性变换处理和正则化处理,确定图像编码特征。
在一些实施例中,所述多头自注意子层包含H个平行头,第
Figure 942980DEST_PATH_IMAGE001
个所述编码层的多头 自注意子层的输出图像自注意特征向量为:
Figure 329093DEST_PATH_IMAGE002
其中,所述
Figure DEST_PATH_IMAGE003
为第
Figure 16426DEST_PATH_IMAGE001
个所述编码层的多头自注意子层输出的图像自注意特征向 量,MHA( )为多头自注意子层,Q为预设的查询矩阵,K为预设的关键矩阵,V为预设的价值矩 阵,Concat( )为串联拼接函数,
Figure 813481DEST_PATH_IMAGE004
为预设的点乘权重,
Figure DEST_PATH_IMAGE005
为第
Figure 953475DEST_PATH_IMAGE001
个所述编码层的多头自注 意子层的第1个平行头的缩放点积注意函数,
Figure 126967DEST_PATH_IMAGE006
为第
Figure 668807DEST_PATH_IMAGE001
个所述编码层的多头自注意子层的 第H个平行头的缩放点积注意函数。
在一些实施例中,所述缩放点积注意函数通过如下步骤确定:对所述训练图像进行区域划分,得到多个子区域;对所述子区域进行关系确定处理,得到先验知识;基于随机梯度下降算法,对所述先验知识进行处理,得到可学习关键矩阵和可学习价值矩阵;基于预设的注意力函数,根据所述图像特征向量、所述可学习关键矩阵和所述可学习价值矩阵,确定所述缩放点积注意函数;其中,所述缩放点积注意函数的公式为:
Figure DEST_PATH_IMAGE007
其中,
Figure 417189DEST_PATH_IMAGE008
为所述缩放点积注意函数,Attention( )为所述注意力函数,
Figure DEST_PATH_IMAGE009
Figure 513321DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 21663DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
Figure 683588DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 104337DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
均为 预设的可学习权重矩阵,
Figure 687765DEST_PATH_IMAGE018
为所述可学习关键矩阵,
Figure DEST_PATH_IMAGE019
为所述可学习价值矩阵,X为所述图 像特征向量,R为实数域,d为所述图像特征向量的维度,H为所述多头自注意子层的平行头 的个数。
在一些实施例中,所述解码器包括多个叠加的解码层,每个所述解码层包括掩码模块和多头注意力模块;所述将所述图像编码特征输入所述解码器,得到预测语句,包括:基于所述掩码模块和多头注意力模块,在n个时间步上对所述图像编码特征进行处理,得到所述n个时间步对应的预测词;根据所述预测词得到预测语句;其中,所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编码特征、以及第t-1个时间步上的掩码词向量;所述第t-1个时间步上的掩码词向量是对所述解码器在第t-1个时间步上的输出结果进行向量提取,并输入所述掩码模块而得到;所述解码器在第t-1个时间步上的输出结果用于指示所述第t-1个时间步对应的预测词;所述第t个时间步是所述n个时间步中的任意一个;1≤t≤n,且t、n均为正整数。
第二方面,本发明还提供了一种图像描述生成方法,包括:获取目标图像;
将所述目标图像输入图像描述生成模型,得到预测语句,其中,所述图像描述生成模型如上第一方面所述的图像描述生成模型训练方法训练得到。
第三方面,本发明还提供了一种图像描述生成装置,包括:获取单元,用于获取目标图像;描述生成单元,用于将所述目标图像输入图像描述生成模型,得到预测语句,其中,所述图像描述生成模型如上第一方面所述的图像描述生成模型训练方法训练得到。
第四方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的图像描述生成模型训练方法。
第五方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的图像描述生成模型训练方法,或者如上第二方面所述的图像描述生成方法。
本发明实施例包括:获取训练图像;将所述训练图像输入已训练的目标检测模型,以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度;基于所述置信度,对各个所述目标类别标签进行排序,并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签;根据所述关键标签构造有限状态自动机,并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列;基于集束搜索算法,根据所述关键描述词序列确定伪图像描述;将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数。根据本发明实施例提供的方案,通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机,并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的图像描述生成模型训练方法的流程图;
图2是本发明另一个实施例提供的一种更新模型参数的流程图;
图3是本发明另一个实施例提供的一种确定图像编码特征的流程图;
图4是本发明另一个实施例提供的一种确定缩放点积注意函数的流程图;
图5是本发明另一个实施例提供的一种确定预测语句的流程图;
图6是本发明另一个实施例提供的图像描述生成方法的流程图;
图7是本发明另一个实施例提供的确定伪图像描述的流程图;
图8是本发明另一个实施例提供的图像描述生成模型训练方法的系统框图;
图9是本发明另一个实施例提供的图像描述生成装置的结构图;
图10是本发明另一个实施例提供的电子设备的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,若干个的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图像描述生成(Image Captioning)作为结合自然语言处理(Natural LanguageProcessing,NLP)和计算机视觉(Computer Version,CV)领域的综合研究方向,已取得很多进展以及应用,图像描述生成是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求;和目标检测及语义分割等任务不同,图像描述生成要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
目前,利用现有的图像描述数据集训练图像描述生成模型时,相对于图像分类数据集和目标检测数据集,图像描述数据集较小,为了保证预测的准确性,需要进行大量的人工标注来标注图像描述,导致人工成本过高;另外,由于图像描述数据集较小,使用训练得到的图像描述生成模型进行图像描述生成时,会出现部分描述词缺失的情况,导致预测语句的准确性较差。
针对人工成本过高和预测语句的准确性较差的问题,本发明提供了一种模型训练方法、图像描述生成方法、装置及存储介质,该方法包括:获取训练图像;将训练图像输入已训练的目标检测模型,以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度;基于置信度,对各个目标类别标签进行排序,并根据排序后的目标类别标签和预设的数量阈值确定关键标签;根据关键标签构造有限状态自动机,并通过有限状态自动机输出与关键标签对应的关键描述词序列;基于集束搜索算法,根据关键描述词序列确定伪图像描述;将训练图像和伪图像描述作为训练数据,对图像描述生成模型进行训练,以更新图像描述生成模型的模型参数。根据本发明实施例提供的方案,通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机,并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗、智慧城市等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
首先,对本发明中涉及的若干名词进行解析:
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割。
半监督学习(Semi-Supervised Learning,SSL),是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法,半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)是深度学习(deeplearning)的代表算法之一。
R-CNN,全称是Region-CNN,基于卷积神经网络(CNN),线性回归,和支持向量机(SVM)等算法,实现目标检测技术。
区域生成网络(Region Proposal Network,RPN),用于提取候选框。
感兴趣区域(ROI),机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域。
有限状态自动机(Finite State Automaton,FSA),是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型,有限状态自动机拥有有限数量的状态,每个状态可以迁移到零个或多个状态,输入字串决定执行哪个状态的迁移;有限状态自动机可以表示为一个有向图,有限状态自动机是自动机理论的研究对象。
微软的COCO数据集,全称是Microsoft Common Objects in Context,是一个大型的、丰富的物体检测,分割和字幕数据集;这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。
高斯误差线性单元(Gaussian Error Linerar Units,GELU),是激活函数,在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识。
集束搜索(Beam Search),是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点;这样减少了空间消耗,并提高了时间效率。
集束宽(Beam size),在Beam Search中,每一个时间步保留最优的状态的个数。
下面结合附图,对本发明实施例作进一步阐述。
如图1所示,图1是本发明一个实施例提供的一种图像描述生成模型训练方法的流程图,在该方法中,包括但不限于有以下步骤:
步骤S110,获取训练图像;
步骤S120,将训练图像输入已训练的目标检测模型,以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度;
步骤S130,基于置信度,对各个目标类别标签进行排序,并根据排序后的目标类别标签和预设的数量阈值确定关键标签;
步骤S140,根据关键标签构造有限状态自动机,并通过有限状态自动机输出与关键标签对应的关键描述词序列;
步骤S150,基于集束搜索算法,根据关键描述词序列确定伪图像描述;
步骤S160,将训练图像和伪图像描述作为训练数据,对图像描述生成模型进行训练,以更新图像描述生成模型的模型参数。
可以理解的是,从预设的图像库中获取训练图像,利用目标检测模型进行目标检测处理,然后确定关键标签,进而构造有限状态自动机,并利用集束搜索算法确定伪图像描述,然后利用训练图像和伪图像描述训练图像描述生成模型,更新图像描述生成模型的模型参数;基于此,通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机,并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
需要说明的是,在目标检测过程中,首先找出训练图像中待检测目标的矩形候选 框,对背景、待检测目标进行二分类;再对矩形候选框内的待测目标进行分类;目标检测模 型为Faster R-CNN模型,训练图像首先经过CNN模型提取特征图,提取的特征图通过RPN网 络进行精确候选框获取,即最有可能包含目标的区域
Figure 468639DEST_PATH_IMAGE020
;RPN网络的训练如下:将特征 图经过图像缩放变换,并输入ROI pooling层,输出提取候选框信息后的图像特征图,并通 过全连接层与逻辑回归模型Softmax层计算每个候选框具体类别,并输出概率向量,利用边 界框回归获得每个候选框的位置偏移量,根据位置偏移量对RPN网络进行回归处理,从而得 到更加精确的目标检测框;Faster R-CNN模型输出目标对象、目标类别标签、以及置信度, 基于置信度,选取前10的目标类别标签作为关键标签,关键标签的公式如下:
Figure DEST_PATH_IMAGE021
Figure 985071DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
为关键标签,
Figure 825988DEST_PATH_IMAGE024
为数量阈值;
根据关键标签构造有限状态自动机,用有限状态自动机来表示序列
Figure 896712DEST_PATH_IMAGE025
, 该序列可以编码与已观察数据一致的序列:
Figure 950119DEST_PATH_IMAGE026
其中,
Figure 570325DEST_PATH_IMAGE027
为有限状态自动机,
Figure 50985DEST_PATH_IMAGE028
为词汇库,
Figure 874584DEST_PATH_IMAGE029
为自动状态集合中第
Figure 731682DEST_PATH_IMAGE030
个状态,
Figure 425968DEST_PATH_IMAGE031
代表初始状态,
Figure 608688DEST_PATH_IMAGE032
为状态转移函数
Figure 654004DEST_PATH_IMAGE033
Figure 580372DEST_PATH_IMAGE034
Figure 129165DEST_PATH_IMAGE035
为终止状 态,
Figure 217207DEST_PATH_IMAGE036
,利用该编码可以使拥有为止的序列或者确实单词的序列作为输入进行图像描 述生成;其中,模型词汇表由预设的语料库而确定,语料库由COCO数据集大于200万条的纯 图像描述而建立;
对于每个训练图像,将关键描述词序列作为输入,通过集束搜索算法beam search 进行解码,给定集束宽beam size逐词寻找每步可能性最大的生成词汇序列
Figure 766131DEST_PATH_IMAGE037
,计算公式 如下:
Figure 699452DEST_PATH_IMAGE038
Figure 899489DEST_PATH_IMAGE039
Figure 158432DEST_PATH_IMAGE040
其中,
Figure 647182DEST_PATH_IMAGE041
Figure 180932DEST_PATH_IMAGE042
中对应单词w的所有单字扩展序列,
Figure 704317DEST_PATH_IMAGE042
为对应自动状态
Figure 399741DEST_PATH_IMAGE043
对应的集 束宽,
Figure 641366DEST_PATH_IMAGE044
Figure 182069DEST_PATH_IMAGE045
为自动状态
Figure 340387DEST_PATH_IMAGE046
对应的集束宽,
Figure 941132DEST_PATH_IMAGE047
,w是词汇集
Figure 935633DEST_PATH_IMAGE028
中的一个单词,y应w的 扩展序列,
Figure 280027DEST_PATH_IMAGE048
为状态转移函数,
Figure 778004DEST_PATH_IMAGE049
Figure 815230DEST_PATH_IMAGE050
中的一个序列,F终止状态,
Figure 31448DEST_PATH_IMAGE051
为集束搜索模型参数;
利用FSA编码得到的
Figure 913953DEST_PATH_IMAGE052
作为输入,逐次输出单词形成输出序列,在每个时间步生 成单词的过程中,遍历序列状态,通过状态转移函数更新输出序列,同时集束宽选择为b,将 每个时间步中生成词汇概率最高的b个词作为
Figure 797596DEST_PATH_IMAGE053
序列,并返回
Figure 474565DEST_PATH_IMAGE053
序列,保持迭代,直至返 回生成概率最高的词汇,输出对应训练图像X的伪描述
Figure 194390DEST_PATH_IMAGE054
,由此完成图像集和语料库的连 接,构建图像-句子image-sentence对,image-sentence对用于训练图像描述生成模型。
需要说明的是,利用Faster R-CNN模型和Softmax层进行处理,属于本领域技术人员熟知的技术,在此不多作赘述。
另外,参照图2,在一实施例中,图像描述生成模型包括编码器和解码器;图1所示实施例中的步骤S160,还包括但不限于有以下步骤:
步骤S210,将训练图像输入编码器,确定图像编码特征;
步骤S220,将图像编码特征输入解码器,得到预测语句,其中,预测语句由至少一个预测词组成;
步骤S230,根据预测词和伪图像描述确定模型损失值;
步骤S240,基于模型损失值,更新图像描述生成模型的模型参数。
可以理解的是,在一个时间步中,通过解码器的输出特征确定下一个时间步所需的预测词,其中,输出特征的维度和词汇集维度相同;给定真实语句以及预测语句和模型参数,确定最小化交叉熵损失(Cross-entropy Loss):
Figure 880586DEST_PATH_IMAGE055
其中,
Figure 87577DEST_PATH_IMAGE056
为真实语句,
Figure 732185DEST_PATH_IMAGE057
为预测语句,θ为图像描述生成模型的模型参数,真实 语句由伪图像描述而确定;
最小化交叉熵损失作为模型损失值,利用最小化交叉熵损失更新图像描述生成模型的模型参数,使得图像描述生成模型能够提高预测语句的准确性。
值得注意的是,图像描述生成模型为基于Transformer的模型,所以图像描述生成模型包括编码器和解码器。
需要说明的是,求最小化交叉熵损失的方法,属于本领域技术人员熟知的技术,在此不多作赘述
另外,参照图3,在一实施例中,编码器包括特征提取模块和多个叠加的编码层,每个编码层包括多头自注意子层;图2所示实施例中的步骤S210,还包括但不限于有以下步骤:
步骤S310,将训练图像输入已训练的特征提取模块,得到图像特征向量;
步骤S320,将图像特征向量输入多头自注意子层,得到图像自注意特征向量;
步骤S330,对图像自注意特征向量进行线性变换处理和正则化处理,确定图像编码特征。
可以理解的是,编码器包括特征提取模块和
Figure 657415DEST_PATH_IMAGE058
个编码层,每个编码层包括多头自 注意子层(Multi-head self-attention,MHA)、层正则化模块(Layer Normalization)和前 馈网络子层(Feed-forward Network,FFN),编码层中涉及的一个或多个层正则化模块和 FFN是相互独立的,具备不同的网络参数;特征提取模块为ResNet101模块,ResNet101模块 用于提取图像特征,多头自注意子层用于使模型能够共同关注训练图像中不同的子区域, 层正则化模块用于将输入转化成均值为0方差为1的数据,前馈网络子层采取两个线性变 换,通过GELU激活函数连接,前馈网络子层用于进行特征转换。
需要说明的是,利用层正则化模块和前馈网络子层进行处理,属于本领域技术人员熟知的技术,在此不多作赘述。
在具体实践中,将MHA的输出输入FFN后,第一计算公式如下:
Figure 412882DEST_PATH_IMAGE059
其中,GELU为预设的激活函数,Dropout为预设的随机失活层,
Figure 739958DEST_PATH_IMAGE060
为两个全连接 层,
Figure 24309DEST_PATH_IMAGE061
为第
Figure 702415DEST_PATH_IMAGE062
层编码层的FFN的输出,
Figure 730414DEST_PATH_IMAGE063
为第
Figure 692422DEST_PATH_IMAGE062
层编码层的MHA的输出;
将FFN的输出
Figure 147674DEST_PATH_IMAGE064
输入残差模块和层正则化模块后,第二计算公式如下:
Figure 47497DEST_PATH_IMAGE065
其中,
Figure 144766DEST_PATH_IMAGE066
为FFN的输出,
Figure 180855DEST_PATH_IMAGE067
为层正则化模块的输出,Sublayer( )为残差模块, LayerNorm( )为层正则化模块;
对于第
Figure 338167DEST_PATH_IMAGE001
层编码层,由第二计算公式得到:
Figure 459707DEST_PATH_IMAGE068
其中,
Figure 829509DEST_PATH_IMAGE069
为第
Figure 516842DEST_PATH_IMAGE062
层编码层的FFN的输出,
Figure 313897DEST_PATH_IMAGE070
为第
Figure 204623DEST_PATH_IMAGE062
层编码层的层正则化模块的输 出;
进而确定图像编码特征,公式如下:
Figure 112536DEST_PATH_IMAGE071
其中,
Figure 123218DEST_PATH_IMAGE072
为编码层的层数,
Figure 622332DEST_PATH_IMAGE073
Figure 718464DEST_PATH_IMAGE074
为第1层至第
Figure 430068DEST_PATH_IMAGE058
层的编码层所对应的层正则 化模块的输出。
另外,在一实施例中,多头自注意子层包含H个平行头,第
Figure 91994DEST_PATH_IMAGE075
个编码层的多头自注意 子层的输出图像自注意特征向量为:
Figure 230851DEST_PATH_IMAGE076
其中,
Figure 79858DEST_PATH_IMAGE077
为第
Figure 595153DEST_PATH_IMAGE062
个编码层的多头自注意子层输出的图像自注意特征向量,MHA()为 多头自注意子层,Q为预设的查询矩阵,K为预设的关键矩阵,V为预设的价值矩阵,Concat ( )为串联拼接函数,
Figure 580427DEST_PATH_IMAGE078
为预设的点乘权重,
Figure 682330DEST_PATH_IMAGE079
为第
Figure 487475DEST_PATH_IMAGE062
个编码层的多头自注意子层的第1个 平行头的缩放点积注意函数,
Figure 72040DEST_PATH_IMAGE080
为第
Figure 911820DEST_PATH_IMAGE062
个编码层的多头自注意子层的第H个平行头的缩放 点积注意函数。
可以理解的是,MHA包含H个平行头,每个头
Figure 392480DEST_PATH_IMAGE081
对应于一个独立的缩放点积注意函 数(Scaled dot-Product Attention),这使得模型能够共同关注不同的子空间,过点乘权 重
Figure 481659DEST_PATH_IMAGE082
来汇总不同头的注意结果。
需要说明的是,设置查询矩阵、关键矩阵和价值矩阵,属于本领域技术人员熟知的技术,在此不多作赘述。
另外,参照图4,在一实施例中,缩放点积注意函数通过如下步骤确定:
步骤S410,对训练图像进行区域划分,得到多个子区域;
步骤S420,对子区域进行关系确定处理,得到先验知识;
步骤S430,基于随机梯度下降算法,对先验知识进行处理,得到可学习关键矩阵和可学习价值矩阵;
步骤S440,基于预设的注意力函数,根据图像特征向量、可学习关键矩阵和可学习价值矩阵,确定缩放点积注意函数;
其中,缩放点积注意函数的公式为:
Figure 73177DEST_PATH_IMAGE083
其中,
Figure 564202DEST_PATH_IMAGE008
为缩放点积注意函数,Attention( )为注意力函数,
Figure 215763DEST_PATH_IMAGE084
Figure 995500DEST_PATH_IMAGE085
Figure 672600DEST_PATH_IMAGE086
Figure 486972DEST_PATH_IMAGE087
Figure 840593DEST_PATH_IMAGE088
Figure 107626DEST_PATH_IMAGE089
Figure 306527DEST_PATH_IMAGE090
Figure 506564DEST_PATH_IMAGE091
Figure 499928DEST_PATH_IMAGE092
均为预设的可学习权重矩阵,
Figure 254257DEST_PATH_IMAGE093
为可学习关键矩阵,
Figure 788007DEST_PATH_IMAGE094
为可学习 价值矩阵,X为图像特征向量,R为实数域,d为图像特征向量的维度,H为多头自注意子层的 平行头的个数。
可以理解的是,将各个子区域之间的关系转换为先验知识,并基于随机梯度下降算法,确定可学习关键矩阵和可学习价值矩阵,能够有效提高模型的准确性。
需要说明的是,基于随机梯度下降算法进行处理,属于本领域技术人员熟知的技术,在此不多作赘述;可利用目标检测方法进行区域划分,在此不作限定。
另外,参照图5,在一实施例中,解码器包括多个叠加的解码层,每个解码层包括掩码模块和多头注意力模块;图2所示实施例中的步骤S220,还包括但不限于有以下步骤:
步骤S510,基于掩码模块和多头注意力模块,在n个时间步上对图像编码特征进行处理,得到n个时间步对应的预测词;
步骤S520,根据预测词得到预测语句;
其中,多头注意力模块在第t个时间步上的输入包括第t个时间步上的图像编码特征、以及第t-1个时间步上的掩码词向量;第t-1个时间步上的掩码词向量是对解码器在第t-1个时间步上的输出结果进行向量提取,并输入掩码模块而得到;解码器在第t-1个时间步上的输出结果用于指示第t-1个时间步对应的预测词;第t个时间步是n个时间步中的任意一个;1≤t≤n,且t、n均为正整数。
在具体实践中,解码器包括
Figure 311392DEST_PATH_IMAGE095
个解码层,每个解码层包括掩码模块(Masked Muli-Head Self Attention,MSA)和多头注意力模块(Muli-Head Attention,MA),每个解 码层同样包括层正则化模块(Layer Normalization)和前馈网络子层(Feed-forward Network,FFN),但解码层与编码层的层正则化模块和FFN是相互独立的,而且解码层中涉及 的一个或多个层正则化模块和FFN也是相互独立的,具备不同的网络参数;MA包括交叉注意 子模块。
利用解码器进行解码包括以下步骤:
步骤1:将第t-1个时间步对应的预测词输入特征提取层,确定词向量,特征提取层用于进行向量提取,首个时间步需要进行向量提取的预测词为预设的开始标识[START];
步骤2:将词向量Y输入MSA得到掩码词向量,并将掩码词向量经过层正则化模块处理后输入MA,并将第t个时间步上的图像编码特征输入MA,计算公式如下:
Figure 256083DEST_PATH_IMAGE096
其中,MA为多头注意力模块,
Figure 497708DEST_PATH_IMAGE097
为第t个时间步上的图像编码特征,Y为词向量,MSA (Y)为掩码词向量,AddNorm( )为层正则化模块,CrossAttention( )为交叉注意子模块,
Figure 38411DEST_PATH_IMAGE098
为编码层的层数,
Figure 947461DEST_PATH_IMAGE099
为第
Figure 548207DEST_PATH_IMAGE062
层编码层的层正则化模块的输出,1≤
Figure 542708DEST_PATH_IMAGE062
Figure 887101DEST_PATH_IMAGE098
,且
Figure 119500DEST_PATH_IMAGE062
Figure 422305DEST_PATH_IMAGE098
均为正 整数,
Figure 372943DEST_PATH_IMAGE100
为权重矩阵,计算公式如下:
Figure 537340DEST_PATH_IMAGE101
其中,[,]为合并操作,
Figure 889824DEST_PATH_IMAGE102
为sigmoid激活函数,
Figure 832372DEST_PATH_IMAGE103
为权重矩阵,R为实数 域,d为图像特征向量的维度,
Figure 801465DEST_PATH_IMAGE104
为可学习偏置参数,
Figure 487661DEST_PATH_IMAGE105
为第
Figure 225810DEST_PATH_IMAGE030
层编码层的层正则化模块的 输出,1≤
Figure 339260DEST_PATH_IMAGE030
Figure 264490DEST_PATH_IMAGE098
,且
Figure 19957DEST_PATH_IMAGE030
Figure 347033DEST_PATH_IMAGE098
均为正整数;
步骤3:将第t个时间步上MA输出依次经过第一次层正则化模块处理、特征转换处理、以及第二次层正则化模块处理后,得到预测词,计算公式如下:
Figure 365804DEST_PATH_IMAGE106
Figure 558757DEST_PATH_IMAGE107
其中,AddNorm( )为层正则化模块,FFN( )为前馈网络子层,FFN( )用于特征转换 处理,
Figure 586756DEST_PATH_IMAGE108
为第t个时间步上的图像编码特征,
Figure 299497DEST_PATH_IMAGE109
为预测词。
步骤5:根据预测词更新预测语句;
步骤6:若预测语句的长度小于真实语句的长度,则返回步骤1。
需要说明的是,利用层正则化模块、前馈网络子层、sigmoid激活函数进行处理,属于本领域技术人员熟知的技术,在此不多作赘述。
值得注意的是,由于编码器中图像特征向量是一次性输入的,所以MHA在计算时可以获取到所有的输入信息,但是在解码器中,只能对在当前时间步之前输出的预测词进行处理,所以引入了掩码模块,即为上述公式中的MSA部分,MSA(Y)是对输入MSA的词向量Y进行计算的结果。
如图6所示,图6是本发明另一个实施例提供的一种图像描述生成方法的流程图,在该方法中,包括但不限于有以下步骤:
步骤S610,获取目标图像;
步骤S620,将目标图像输入图像描述生成模型,得到预测语句,其中,图像描述生成模型由上述图像描述生成模型训练方法训练得到。
可以理解的是,通过图像描述生成模型训练方法对图像描述生成模型进行训练后,将目标图像输入训练好的图像描述生成模型,就能得到预测语句;基于此,通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机,并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
可以理解的是,图像描述生成模型属于Transformer模型,基于Transformer模型进行图像描述文本生成,使生成描述更加关注全局特征;训练图像描述生成模型时,构造有限状态自动机,并通过集束搜索算法进行处理,采用半监督学习方法,自行生成的伪图像描述进行训练,解决收集图像描述对需要人工成本高的问题,以及现有图像描述对分类较少的问题,将图像集以及丰富语料库相结合。
另外,参考图7,图7是本发明另一个实施例提供的确定伪图像描述的流程图。
可以理解的是,在训练图像描述生成模型的编码器和解码器之前,需要先确定伪图像描述。
另外,参考图8,图8是本发明另一个实施例提供的图像描述生成模型训练方法的系统框图。
可以理解的是,对于图像描述生成模型的编码器部分,需要先将训练图像输入特 征提取模块,得到图像特征向量,然后利用位置编码模块处理图像特征向量,并将处理结果 输入多头自注意子层,将多头自注意子层扩展额外的记忆槽,将记忆槽变为可学习关键矩 阵
Figure 754749DEST_PATH_IMAGE110
,以及可学习价值矩阵
Figure 388993DEST_PATH_IMAGE019
,并通过层正则化模块和前馈网络子层的处理,总共经过
Figure 486262DEST_PATH_IMAGE098
个编码层处理后,得到图像编码特征;对于图像描述生成模型的解码器部分,需要对上一时 间步解码器输出的预测词进行向量提取,然后利用位置编码模块处理提取得到的词向量, 并将处理结果输入掩码模块,得到掩码词向量,然后将掩码词向量和图像编码特征输入多 头注意力模块,并通过层正则化模块和前馈网络子层的处理,总共经过
Figure 787930DEST_PATH_IMAGE095
个编码层处理 后,得到预测语句;基于此,通过目标检测模型基于训练图像输出目标对象、目标类别标签 及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机, 并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而 对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低 人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
另外,参考图9,本发明还提供了一种图像描述生成装置900,包括:
获取单元910,用于获取目标图像;
描述生成单元920,用于将目标图像输入图像描述生成模型,得到预测语句,其中,图像描述生成模型由上述图像描述生成模型训练方法训练得到。
可以理解的是,该图像描述生成装置900的具体实施方式与上述图像描述生成方法的具体实施例基本相同,在此不再赘述。
另外,参照图10,本发明的一个实施例还提供了一种电子设备,该电子设备1000包括:存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序。
处理器1020和存储器1010可以通过总线或者其他方式连接。
实现上述实施例的图像描述生成方法所需的非暂态软件程序以及指令存储在存储器1010中,当被处理器1020执行时,执行上述实施例中的图像描述生成模型训练方法,例如,执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S240、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S520,通过获取训练图像;将训练图像输入已训练的目标检测模型,以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度;基于置信度,对各个目标类别标签进行排序,并根据排序后的目标类别标签和预设的数量阈值确定关键标签;根据关键标签构造有限状态自动机,并通过有限状态自动机输出与关键标签对应的关键描述词序列;基于集束搜索算法,根据关键描述词序列确定伪图像描述;将训练图像和伪图像描述作为训练数据,对图像描述生成模型进行训练,以更新图像描述生成模型的模型参数。基于此,通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机,并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的图像描述生成模型训练方法,例如,执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S240、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S520,通过获取训练图像;将训练图像输入已训练的目标检测模型,以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度;基于置信度,对各个目标类别标签进行排序,并根据排序后的目标类别标签和预设的数量阈值确定关键标签;根据关键标签构造有限状态自动机,并通过有限状态自动机输出与关键标签对应的关键描述词序列;基于集束搜索算法,根据关键描述词序列确定伪图像描述;将训练图像和伪图像描述作为训练数据,对图像描述生成模型进行训练,以更新图像描述生成模型的模型参数;或者执行上述实施例中的图像描述生成方法,例如,执行以上描述的图6中的方法步骤S610至步骤S620,通过获取目标图像;将目标图像输入图像描述生成模型,得到预测语句,其中,图像描述生成模型由上述图像描述生成模型训练方法训练得到。基于此,通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度,进而确定关键标签,然后基于半监督学习,通过关键标签构造有限状态自动机,并通过集束搜索算法处理有限状态自动机输出的关键描述词序列,确定伪图像描述,进而对图像描述生成模型进行训练,通过生成伪图像描述,避免进行大量的人工标注,从而降低人工成本,并且避免描述词缺失,从而提高预测语句的准确性。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种图像描述生成模型训练方法,其特征在于,所述方法包括:
获取训练图像;
将所述训练图像输入已训练的目标检测模型,以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度;
基于所述置信度,对各个所述目标类别标签进行排序,并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签;
根据所述关键标签构造有限状态自动机,并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列;
基于集束搜索算法,根据所述关键描述词序列确定伪图像描述;
将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述图像描述生成模型包括编码器和解码器;所述将所述训练图像和所述伪图像描述作为训练数据,对所述图像描述生成模型进行训练,以更新所述图像描述生成模型的模型参数,包括:
将所述训练图像输入所述编码器,确定图像编码特征;
将所述图像编码特征输入所述解码器,得到预测语句,其中,所述预测语句由至少一个预测词组成;
根据所述预测词和所述伪图像描述确定模型损失值;
基于所述模型损失值,更新所述图像描述生成模型的模型参数。
3.根据权利要求2所述的方法,其特征在于,所述编码器包括特征提取模块和多个叠加的编码层,每个所述编码层包括多头自注意子层;
所述将所述训练图像输入所述编码器,确定图像编码特征,包括:
将所述训练图像输入已训练的所述特征提取模块,得到图像特征向量;
将所述图像特征向量输入多头自注意子层,得到图像自注意特征向量;
对所述图像自注意特征向量进行线性变换处理和正则化处理,确定图像编码特征。
4.根据权利要求3所述的方法,其特征在于,所述多头自注意子层包含H个平行头,第
Figure 532471DEST_PATH_IMAGE001
个所述编码层的多头自注意子层的输出图像自注意特征向量为:
Figure 320430DEST_PATH_IMAGE002
其中,所述
Figure 536647DEST_PATH_IMAGE003
为第
Figure 950311DEST_PATH_IMAGE001
个所述编码层的多头自注意子层输出的图像自注意特征向量,MHA ( )为多头自注意子层,Q为预设的查询矩阵,K为预设的关键矩阵,V为预设的价值矩阵, Concat( )为串联拼接函数,
Figure 302795DEST_PATH_IMAGE004
为预设的点乘权重,
Figure 245343DEST_PATH_IMAGE005
为第
Figure 214436DEST_PATH_IMAGE001
个所述编码层的多头自注意 子层的第1个平行头的缩放点积注意函数,
Figure 635053DEST_PATH_IMAGE006
为第
Figure 638781DEST_PATH_IMAGE001
个所述编码层的多头自注意子层的第H 个平行头的缩放点积注意函数。
5.根据权利要求4所述的方法,其特征在于,所述缩放点积注意函数通过如下步骤确定:
对所述训练图像进行区域划分,得到多个子区域;
对所述子区域进行关系确定处理,得到先验知识;
基于随机梯度下降算法,对所述先验知识进行处理,得到可学习关键矩阵和可学习价值矩阵;
基于预设的注意力函数,根据所述图像特征向量、所述可学习关键矩阵和所述可学习价值矩阵,确定所述缩放点积注意函数;
其中,所述缩放点积注意函数的公式为:
Figure 486652DEST_PATH_IMAGE007
其中,
Figure 411882DEST_PATH_IMAGE008
为所述缩放点积注意函数,Attention( )为所述注意力函数,
Figure 416616DEST_PATH_IMAGE009
Figure 743693DEST_PATH_IMAGE010
Figure 559202DEST_PATH_IMAGE011
Figure 971729DEST_PATH_IMAGE012
Figure 734148DEST_PATH_IMAGE013
Figure 446889DEST_PATH_IMAGE014
Figure 902141DEST_PATH_IMAGE015
Figure 333123DEST_PATH_IMAGE016
Figure 899233DEST_PATH_IMAGE017
均为 预设的可学习权重矩阵,
Figure 935322DEST_PATH_IMAGE018
为所述可学习关键矩阵,
Figure 843367DEST_PATH_IMAGE019
为所述可学习价值矩阵,X为所述图 像特征向量,R为实数域,d为所述图像特征向量的维度,H为所述多头自注意子层的平行头 的个数。
6.根据权利要求2所述的方法,其特征在于,所述解码器包括多个叠加的解码层,每个所述解码层包括掩码模块和多头注意力模块;
所述将所述图像编码特征输入所述解码器,得到预测语句,包括:
基于所述掩码模块和多头注意力模块,在n个时间步上对所述图像编码特征进行处理,得到所述n个时间步对应的预测词;
根据所述预测词得到预测语句;
其中,所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编码特征、以及第t-1个时间步上的掩码词向量;所述第t-1个时间步上的掩码词向量是对所述解码器在第t-1个时间步上的输出结果进行向量提取,并输入所述掩码模块而得到;所述解码器在第t-1个时间步上的输出结果用于指示所述第t-1个时间步对应的预测词;所述第t个时间步是所述n个时间步中的任意一个;1≤t≤n,且t、n均为正整数。
7.一种图像描述生成方法,其特征在于,包括:
获取目标图像;
将所述目标图像输入图像描述生成模型,得到预测语句,其中,所述图像描述生成模型由权利要求1至6中任意一项所述的图像描述生成模型训练方法训练得到。
8.一种图像描述生成装置,其特征在于,包括:
获取单元,用于获取目标图像;
描述生成单元,用于将所述目标图像输入图像描述生成模型,得到预测语句,其中,所述图像描述生成模型由权利要求1至6中任意一项所述的图像描述生成模型训练方法训练得到。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的图像描述生成模型训练方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的图像描述生成模型训练方法,或者如权利要求7所述的图像描述生成方法。
CN202210544943.5A 2022-05-19 2022-05-19 模型训练方法、图像描述生成方法、装置及存储介质 Active CN114821271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210544943.5A CN114821271B (zh) 2022-05-19 2022-05-19 模型训练方法、图像描述生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210544943.5A CN114821271B (zh) 2022-05-19 2022-05-19 模型训练方法、图像描述生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114821271A true CN114821271A (zh) 2022-07-29
CN114821271B CN114821271B (zh) 2022-09-16

Family

ID=82514480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210544943.5A Active CN114821271B (zh) 2022-05-19 2022-05-19 模型训练方法、图像描述生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114821271B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630465A (zh) * 2023-07-24 2023-08-22 海信集团控股股份有限公司 一种模型训练、图像生成方法及设备
CN116805387A (zh) * 2023-08-24 2023-09-26 腾讯科技(深圳)有限公司 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN117292119A (zh) * 2023-11-24 2023-12-26 国网智能科技股份有限公司 一种输电多尺度目标检测方法及系统
CN117437465A (zh) * 2023-10-23 2024-01-23 长讯通信服务有限公司 基于不平衡数据的改进soft-NMS目标检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN108027738A (zh) * 2015-05-27 2018-05-11 苹果公司 用于在触敏设备上主动识别和显示相关内容的系统和方法
CN110472688A (zh) * 2019-08-16 2019-11-19 北京金山数字娱乐科技有限公司 图像描述的方法及装置、图像描述模型的训练方法及装置
CN111598041A (zh) * 2020-05-25 2020-08-28 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN111695574A (zh) * 2020-05-21 2020-09-22 清华大学深圳国际研究生院 可生成依存树的图像描述生成方法和装置
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN114358203A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 图像描述语句生成模块的训练方法及装置、电子设备
CN114387430A (zh) * 2022-01-11 2022-04-22 平安科技(深圳)有限公司 基于人工智能的图像描述生成方法、装置、设备及介质
CN114743018A (zh) * 2022-04-21 2022-07-12 平安科技(深圳)有限公司 图像描述生成方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027738A (zh) * 2015-05-27 2018-05-11 苹果公司 用于在触敏设备上主动识别和显示相关内容的系统和方法
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
CN110472688A (zh) * 2019-08-16 2019-11-19 北京金山数字娱乐科技有限公司 图像描述的方法及装置、图像描述模型的训练方法及装置
CN111695574A (zh) * 2020-05-21 2020-09-22 清华大学深圳国际研究生院 可生成依存树的图像描述生成方法和装置
CN111598041A (zh) * 2020-05-25 2020-08-28 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN114358203A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 图像描述语句生成模块的训练方法及装置、电子设备
CN114387430A (zh) * 2022-01-11 2022-04-22 平安科技(深圳)有限公司 基于人工智能的图像描述生成方法、装置、设备及介质
CN114743018A (zh) * 2022-04-21 2022-07-12 平安科技(深圳)有限公司 图像描述生成方法、装置、设备及介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
MASTERQKK 被注册: "点积注意力机制SDPA与多头注意力机制MHA", 《HTTPS://BLOG.CSDN.NET/QKK612501/ARTICLE/DETAILS/119170687》 *
PRASHANT GIRIDHAR SHAMBHARKAR等: "Generating Caption for Image using Beam Search and Analyzation with Unsupervised Image Captioning Algorithm", 《2021 5TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND CONTROL SYSTEMS (ICICCS)》 *
华南农大-郭庆文: "从零开始快速入门Transformer注意力机制", 《HTTPS://BLOG.CSDN.NET/U014134327/ARTICLE/DETAILS/121579078?》 *
吴淙: "中文文本校对关键技术研究与应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
此人姓于名叫罩百灵: "学习Transformer:自注意力与多头自注意力的原理及实现", 《HTTPS://BLOG.CSDN.NET/XUYANGCAO123/ARTICLE/DETAILS/124456330》 *
程晓锦等: "有限状态自动机及在字符串搜索中的应用", 《北京印刷学院学报》 *
陈又新等: "复杂彩色文本图像中字符的提取", 《中文信息学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630465A (zh) * 2023-07-24 2023-08-22 海信集团控股股份有限公司 一种模型训练、图像生成方法及设备
CN116630465B (zh) * 2023-07-24 2023-10-24 海信集团控股股份有限公司 一种模型训练、图像生成方法及设备
CN116805387A (zh) * 2023-08-24 2023-09-26 腾讯科技(深圳)有限公司 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN116805387B (zh) * 2023-08-24 2023-11-21 腾讯科技(深圳)有限公司 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN117437465A (zh) * 2023-10-23 2024-01-23 长讯通信服务有限公司 基于不平衡数据的改进soft-NMS目标检测方法
CN117292119A (zh) * 2023-11-24 2023-12-26 国网智能科技股份有限公司 一种输电多尺度目标检测方法及系统
CN117292119B (zh) * 2023-11-24 2024-03-22 国网智能科技股份有限公司 一种输电多尺度目标检测方法及系统

Also Published As

Publication number Publication date
CN114821271B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN114821271B (zh) 模型训练方法、图像描述生成方法、装置及存储介质
CN112115995B (zh) 一种基于半监督学习的图像多标签分类方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Socher et al. Parsing natural scenes and natural language with recursive neural networks
Song et al. Deep region hashing for efficient large-scale instance search from images
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN111666406A (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN113705313A (zh) 文本识别方法、装置、设备及介质
Hsu et al. Weakly supervised salient object detection by learning a classifier-driven map generator
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN115964459B (zh) 基于食品安全认知图谱的多跳推理问答方法及系统
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
Cong et al. Gradient-Semantic Compensation for Incremental Semantic Segmentation
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN117390131A (zh) 一种用于多领域的文本情感分类方法
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114021550A (zh) 一种基于图卷积神经网络的新闻趋势预测系统及方法
CN113626574A (zh) 一种信息查询方法及系统及装置及介质
Meng et al. Cross-datasets facial expression recognition via distance metric learning and teacher-student model
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
Kumar et al. Molecular-InChI: Automated Recognition of Optical Chemical Structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant