CN114399645A - 多模态数据扩充方法、系统、介质、计算机设备及终端 - Google Patents

多模态数据扩充方法、系统、介质、计算机设备及终端 Download PDF

Info

Publication number
CN114399645A
CN114399645A CN202111562183.2A CN202111562183A CN114399645A CN 114399645 A CN114399645 A CN 114399645A CN 202111562183 A CN202111562183 A CN 202111562183A CN 114399645 A CN114399645 A CN 114399645A
Authority
CN
China
Prior art keywords
data
detection
splicing
image
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111562183.2A
Other languages
English (en)
Inventor
李晖
张剑
吴杰
彭莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202111562183.2A priority Critical patent/CN114399645A/zh
Publication of CN114399645A publication Critical patent/CN114399645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机数据处理技术领域,公开了一种多模态数据扩充方法、系统、介质、计算机设备及终端,在不改变任一模态数据语义信息的情况下,通过调整目标检测模型感受野中的图像内容,对图像特征进行扰动,从而自动化地进行数据扩充,达到了降低人工成本、提升数据扩充效率的效果,其提供的丰富数据能够提升下游任务的表现。本发明提供的多模态数据扩充方法,通过扩充图像特征来进行数据扩充,能够在不改变任一模态数据语义信息的情况下,自动进行数据扩充。因此,本发明不改变多模态训练数据中任一模态的语义信息,数据扩充效果好。同时本发明能够自动进行数据扩充,人工成本低、数据扩充效率高。

Description

多模态数据扩充方法、系统、介质、计算机设备及终端
技术领域
本发明属于计算机数据处理技术领域,尤其涉及一种多模态数据扩充方法、系统、介质、计算机设备及终端。
背景技术
目前,随着多媒体和互联网技术的发展,使用多模态信息来描述事件和事物已成为一种普遍的现象,例如,结合图像和文本模态进行新闻报道、结合视频和音频模态进行短视频制作等等。一般而言,同时出现的不同模态的数据之间存在着相关性,分析这种相关性对于挖掘数据和保护数据都有着重要的意义。目前,在多模态机器学习领域,相关的研究方向包括:图片描述(Image Captioning)、跨模态检索(Cross-modal Retrieval)、视觉问答(Visual Question Answering)等,它们提供了开源的数据集,这些数据集为多模态机器学习的技术验证提供了支撑。为了取得更好的机器学习效果、提高模型在实际场景中的可用性,往往需要对数据进行扩充,在更丰富的数据集上训练模型。
数据扩充的一种可选方式是人工收集和标注数据,但这实施起来费时费力、效率低,现有的技术更倾向于自动扩充数据。对于图像模态,经典的自动数据扩充方法有:图像翻转、色度调整、随机擦除等等,对于文本模态,有:同义词替换、回译、随机噪声注入等等。然而,在多模态机器学习的背景下,这些传统的方式难以满足数据扩充的需求,以图片描述任务为例,该任务的目标是给图片生成相应的自然语言描述,训练集中的每个样本由一张图和一段文本描述组成,如果采用图像色度调整的方式扩充数据,那么扩充后图片的“颜色”语义将和文本段中的描述不一致,例如一个“红色的”苹果经过自动色度调整后可能成为一个“灰绿色”的苹果。类似的,图像翻转可能导致“方位”语义改变、随机擦除可能导致图像语义的缺失,而这些语义改变目前难以自动化地在文本描述上进行精确修正。因此,亟需设计一种新的数据扩充方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)传统的通过人工收集和标注数据的方法实施起来费时费力、效率低。
(2)在多模态机器学习的背景下,传统的方式难以满足数据扩充的需求。
(3)现有的数据扩充方式可能导致图像语义的缺失,而这些语义改变目前难以自动化地在文本描述上进行精确修正。
解决以上问题及缺陷的难度为:(1)需要消耗大量人工成本,难度较大。上述问题(2)、(3)目前尚没有统一的解决方案,解决难度大。
解决以上问题及缺陷的意义为:(1)降低数据扩充人工成本、提高数据扩充效率。(2)为多模态数据扩充的需求提供一种可行的解决方案。(3)可应用于跨模态检索、视觉问答、图像描述等多模态任务,使其训练样本更加丰富,提升训练效果。
发明内容
针对现有技术存在的问题,本发明提供了一种多模态数据扩充方法、系统、介质、计算机设备及终端。
本发明是这样实现的,一种多模态数据扩充方法,所述多模态数据扩充方法包括:通过扩充图像特征
Figure BDA0003420989120000021
实现数据扩充;在提取
Figure BDA0003420989120000022
时,使用基于卷积神经网络的目标检测模型进行提取,通过扰动感受野内图像的内容、改变目标检测框标定的位置,对
Figure BDA0003420989120000023
进行扰动。
进一步,所述多模态数据扩充方法包括以下步骤:
步骤一,每次随机取k张图,对数据集中的图片进行拼接;通过图片拼接改变感受野中的图片内容,为扰动图片特征、扩充数据打下基础。
步骤二,在拼接后的大图上进行目标检测,得到检测框集合;是使用基于目标检测模型提取图像特征的常规步骤,通过观察比较本步骤得到的检测框与拼接前得到的检测框,发现框的位置和大小都有所差别,这为数据扩充提供了依据。
步骤三,对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框;
步骤四,对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本,对于每张拼接图,共得到k对新的训练样本。
在本发明的步骤三和步骤四中:对于拼图中的任意一个子图片(也就是拼接前的一张原图),保证了它经过扩充得到的特征不掺杂拼图中其他图片的特征,从而保证数据扩充不改变原图像的语义,起到高质量扩充的积极作用。步骤四中使得每次拼接能够得到k对新的训练样本,起到高效扩充的积极作用。
进一步,所述步骤一中的图片拼接后,感受野内的部分图像内容发生改变。
进一步,所述步骤一中的图片拼接包括:
设多模态数据集D中所有的图片集合为I={I1,I2,...,In},对于每个Ii,随机取k张不重复的图片
Figure BDA0003420989120000031
IK∈I,拼接为一张大图
Figure BDA0003420989120000032
包括:
(1)在一次完整的数据扩充流程中,对于每个Ii,拼接时k保持一致;
(2)k是整数,2≤k≤9;
(3)拼接的排布原则是使拼接后图片的长宽比尽可能小,当k=2时,两张图片选左右拼接或上下拼接,k=4时,图片拼接为“田”字型,k=6时,图片拼接为三行两列或两行三列,k=9时,图片排布为“九宫格”型,其他取值以最接近所述排布的方式进行拼接;
(4)拼接时不改变任一图片的长宽比,按所述板式拼接后,未对齐的部分用0值补齐。
进一步,所述步骤二中的获取检测框集合包括:
基于目标检测模型获取检测框,要求如下:
(1)根据k和拼接板式,按比例放大目标检测模型长边和短边的像素限制,当k=2,取左右拼接时,长边阈值取原阈值的2倍,短边阈值不变,k=4时,呈“田”字拼接,长边和短边阈值均为原阈值的2倍,k=9时,呈“九宫格”型拼接,长边和短边阈值均为原阈值的3倍;
(2)将
Figure BDA0003420989120000041
输入目标检测模型,得到检测框位置集合
Figure BDA0003420989120000042
共m*k个检测框;
(3)将检测框按照拼接前所属的图片进行分组,得到
Figure BDA0003420989120000043
其中每个
Figure BDA0003420989120000044
其中p是检测框的置信度;
(4)对于
Figure BDA0003420989120000045
长度大于m的,将检测框按照置信度排序,取置信度最高的前m个框,反之,用P=((0,0),(0,0),0)补齐;
(5)由于检测框是分布在
Figure BDA0003420989120000046
上,得到的坐标均以
Figure BDA0003420989120000047
的左上角为原点;对于集合IK中的每个
Figure BDA0003420989120000048
根据在
Figure BDA0003420989120000049
上的位置及坐标集合
Figure BDA00034209891200000410
将坐标修正为以左上角为原点的坐标,从而与原始数据集的数据分布保持一致,修正后的
Figure BDA00034209891200000411
的坐标表示为
Figure BDA00034209891200000412
得到的k组坐标集合表示为
Figure BDA00034209891200000413
进一步,所述步骤三中的新的训练样本的获取包括:
对于Oi中的每个
Figure BDA00034209891200000414
与其对应的
Figure BDA00034209891200000415
Figure BDA00034209891200000416
对应区域图片,输入特征抽取模型,得到新的特征
Figure BDA00034209891200000417
Figure BDA00034209891200000418
为一对新的训练样本。通过该方式,经过一次拼接得到k个新样本,若原数据集中图片集合的大小为n,那么经过一次完整的数据扩充流程,得到n*k个新的训练样本。
本发明的另一目的在于提供一种应用所述的多模态数据扩充方法的多模态数据扩充系统,所述多模态数据扩充系统包括:
图片拼接模块,用于通过每次随机取k张图对数据集中的图片进行拼接;
检测框集合获取模块,用于在拼接后大图上进行目标检测得到检测框集合;
检测框分组模块,用于对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框;
训练样本获取模块,用于对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本,对于每张拼接图,共得到k对新的训练样本。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
通过扩充
Figure BDA0003420989120000051
实现数据扩充;在提取
Figure BDA0003420989120000052
时,基于卷积神经网络的目标检测模型提到的特征与感受野的大小、目标检测框标定的位置,以及图片的内容相关,在网络结构不变的情况下,感受野的大小不变,通过改变感受野内图片的内容,或者改变目标检测框标定的位置对提取到的特征进行扰动。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
通过扩充
Figure BDA0003420989120000053
实现数据扩充;在提取
Figure BDA0003420989120000054
时,基于卷积神经网络的目标检测模型提到的特征与感受野的大小、目标检测框标定的位置,以及图片的内容相关,在网络结构不变的情况下,感受野的大小不变,通过改变感受野内图片的内容,或者改变目标检测框标定的位置对提取到的特征进行扰动。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的多模态数据扩充系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的多模态数据扩充方法,通过扩充图像特征来进行数据扩充,能够在不改变任一模态数据语义信息的情况下,自动进行数据扩充。因此,本发明不改变多模态训练数据中任一模态的语义信息,数据扩充效果好;本发明能够自动进行数据扩充,人工成本低、数据扩充效率高。
本发明在跨模态检索、视觉问答、图像描述任务上进行了验证,能够使训练样本更加丰富,提升训练效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多模态数据扩充方法流程图。
图2是本发明实施例提供的多模态数据扩充系统结构框图;
图中:1、图片拼接模块;2、检测框集合获取模块;3、检测框分组模块;4、训练样本获取模块。
图3是本发明实施例提供的拼接前后图片对比示意图。
图3A是本发明实施例提供的拼接前图片I190141的示意图。
图3B是本发明实施例提供的拼接前图片I202099的示意图。
图3C是本发明实施例提供的拼接后图片
Figure BDA0003420989120000061
的示意图。
图4是本发明实施例提供的拼接图片的检测框位置示意图。
图5是本发明实施例提供的拼接前图片的检测框位置示意图。
图5A是本发明实施例提供的拼接前图片I190141的检测框位置示意图。
图5B是本发明实施例提供的拼接前图片I202099的检测框位置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种多模态数据扩充方法、系统、介质、计算机设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的多模态数据扩充方法包括以下步骤:
S101,每次随机取k张图,对现有数据集中的图片进行拼接;
S102,在拼接后的大图上进行目标检测,得到检测框集合;
S103,对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框;
S104,对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本。
如图2所示,本发明实施例提供的多模态数据扩充系统包括:
图片拼接模块1,用于通过每次随机取k张图对数据集中的图片进行拼接;
检测框集合获取模块2,用于在拼接后的大图上进行目标检测,得到检测框集合;
检测框分组模块3,用于对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框;
训练样本获取模块4,用于对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本,对于每张拼接图,共得到k对新的训练样本。
下面结合具体实施例对本发明的技术方案作进一步描述。
实施例1
鉴于现有技术存在的问题,本发明提供了一种多模态数据扩充方式,能够在不改变任一模态数据语义信息的情况下,自动进行数据扩充。
一、方案阐述
设有多模态数据集D={(I1,T1),(I2,T2),...,(In,Tn)},其中Ii是一张图片,Ti是图片对应的一条文本,(Ii,Ti)组成一对样本,数据集中有n对样本,对于这样的数据,一般的流程是先分别提取Ii的特征
Figure BDA0003420989120000071
和Ti的特征
Figure BDA0003420989120000072
然后基于多模态机器学习模型对
Figure BDA0003420989120000073
Figure BDA0003420989120000074
之间的关系建模,因而实际上
Figure BDA0003420989120000075
构成一对训练样本。特别的,提取
Figure BDA0003420989120000076
分为两步,第一步是通过卷积神经网络目标检测模型从Ii中检测出图片中的所有目标物体,将目标出现的位置表示为一个大小为m的集合O={P1,P2,...Pm},其中,Pj=((w0,h0),(w1,h1)),Pj是一个检测框的坐标,标识一个目标物体在图片中的位置,以图片左上角为坐标原点,(w0,h0)是检测框左上角的坐标,(w1,h1)是右下角的坐标,w代表宽度(长边),h代表高度(短边)。第二步是对于每个Pj,提取它在Ii中对应区域的特征向量fj,得到
Figure BDA0003420989120000081
本发明通过扩充
Figure BDA0003420989120000082
来实现数据扩充。在提取
Figure BDA0003420989120000083
时,基于卷积神经网络的目标检测模型提到的特征与感受野的大小、目标检测框标定的位置,以及图片的内容相关,在网络结构不变的情况下,感受野的大小不变,那么,可以通过改变感受野内图片的内容,或者改变目标检测框标定的位置来对提取到的特征进行扰动。本发明希望在不改变图像的语义的前提下高效地扩充数据,提出的思路是:第一步,对现有数据集中的图片进行拼接,每次随机取k张图拼接,通过这个步骤,感受野内的部分图像内容发生改变。接着,在拼接后的大图上进行目标检测,得到检测框集合,在这个步骤中,目标检测框可能发生改变。然后,对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框,通过分组,每组检测框排除了不属于本张图片的检测框对图片语义的影响。最后,对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本。具体过程描述如下:
1.图片拼接
设多模态数据集D中所有的图片集合为I={I1,I2,...,In},对于每个Ii,随机取k张不重复的图片
Figure BDA0003420989120000084
IK∈I,拼接为一张大图
Figure BDA0003420989120000085
本发明要求:
1)在一次完整的数据扩充流程中,对于每个Ii,拼接时k保持一致;
2)k是整数,2≤k≤9;
3)拼接的排布原则是使拼接后图片的长宽比尽可能小,当k=2时,两张图片可选左右拼接或上下拼接,k=4时,图片拼接如“田”字型,k=6时,图片拼接为三行两列或两行三列,k=9时,图片排布为“九宫格”型,其他的取值以最接近上述几种排布的方式进行拼接;
4)拼接时不改变任一图片的长宽比,按上述板式拼接后,未对齐的部分用0值补齐。
2.获取检测框集合
基于目标检测模型获取检测框,本发明要求:
1)根据k和拼接板式,按比例放大目标检测模型长边和短边的像素限制,例如k=2,取左右拼接时,长边阈值取原阈值的2倍,短边阈值不变,k=4时,呈“田”字拼接,长边和短边阈值都应为原阈值的2倍,k=9时,呈“九宫格”型拼接,长边和短边阈值都应为原阈值的3倍;
2)将
Figure BDA0003420989120000091
输入目标检测模型,得到检测框位置集合
Figure BDA0003420989120000092
共m*k个检测框;
3)将检测框按照拼接前所属的图片进行分组,得到
Figure BDA0003420989120000093
其中每个
Figure BDA0003420989120000094
其中p是检测框的置信度;
4)由于检测框是分布在
Figure BDA0003420989120000095
上,分组后的
Figure BDA0003420989120000096
长度可能不统一,对于
Figure BDA0003420989120000097
长度大于m的,将检测框按照置信度排序,取置信度最高的前m个框,反之,用P=((0,0),(0,0),0)补齐;
5)由于检测框是分布在
Figure BDA0003420989120000098
上,得到的坐标都是以
Figure BDA0003420989120000099
的左上角为原点的,因此,对于集合IK中的每个
Figure BDA00034209891200000910
需要根据它在
Figure BDA00034209891200000911
上的位置及坐标集合
Figure BDA00034209891200000912
将坐标修正为以左上角为原点的坐标,从而与原始数据集的数据分布保持一致,修正后的
Figure BDA00034209891200000913
的坐标表示为
Figure BDA00034209891200000914
得到的k组坐标集合表示为
Figure BDA00034209891200000915
3.得到新的训练样本
对于Oi中的每个
Figure BDA0003420989120000101
与其对应的
Figure BDA0003420989120000102
Figure BDA0003420989120000103
对应区域图片,输入特征抽取模型,得到新的特征
Figure BDA0003420989120000104
Figure BDA0003420989120000105
为一对新的训练样本。
通过上述方式,经过一次拼接可以得到k个新样本,若原数据集中图片集合的大小为n,那么经过一次完整的数据扩充流程,可以得到n*k个新的训练样本,在不改变任一模态数据的语义的情况下,高效地扩充了数据。
实施例2
本实施例描述了一次拼接的实施过程,以“COCO Caption train2014”数据集中的图片集合I为例,取k=2,m=10,即拼接2张图片,每张图片取10个检测目标对象的特征。
1.图片拼接
以I中标号为000000190141的图片I190141为例,随机取到图片集合{I190141,I202099},对于k=2,本实施例采用左右拼接的方式,拼接为图片
Figure BDA0003420989120000106
拼接不改变这两张图片的长宽比,拼接前I190141的分辨率为640*423,I202099的分辨率为640*480,由于I190141和I202099宽度不同,拼接时未对齐的部分用0值补齐,拼接后
Figure BDA0003420989120000107
的分辨率为1280*480。图3展示了拼接前后的图片。
2.获取检测框集合
本实施例使用FasterRCNN目标检测模型获取检测框。
1)模型原默认长边分辨率阈值为1333,短边阈值为800,根据图片拼接的张数和布局,本实施例将长边阈值放大为2666,短边阈值不变。
2)将
Figure BDA0003420989120000108
输入模型,取置信度最高的前20个检测框集合,图4展示了这些检测框的位置。
3)将检测框按照拼接前所属的图片进行分组,本例通过计算检测框的面积与原图片的相交比来自动判断一个检测框是否属于某张图片,计算方法如下:
Figure BDA0003420989120000109
Figure BDA0003420989120000111
4)在本实施例中,分组后,
Figure BDA0003420989120000112
每组恰好有10个检测框,无需截断或补齐。
5)对于图I190141,它在
Figure BDA0003420989120000113
中的坐标为(0,0,640,423),它与
Figure BDA0003420989120000114
的坐标原点重合,无需修正属于该图的检测框,该图的检测框坐标集合为
Figure BDA0003420989120000115
Figure BDA0003420989120000116
对于图I202099,它在
Figure BDA0003420989120000117
中的坐标为(640,0,1280,480),其坐标原点与
Figure BDA0003420989120000118
不重合,对于属于该图的检测框,修正为以该图左上角为原点的坐标,得到检测框集合
Figure BDA0003420989120000119
3.得到新的训练样本
基于FasterRCNN,提取I190141对应
Figure BDA00034209891200001110
中检测框的特征
Figure BDA00034209891200001111
得到新样本
Figure BDA00034209891200001112
提取I202099对应
Figure BDA00034209891200001113
中检测框的特征
Figure BDA00034209891200001114
得到新样本
Figure BDA00034209891200001115
经过本例的拼接过程得到了2个新样本,图5展示了拼接前图I190141和I202099中前10个检测框的位置,对比图4,对应图片的检测框位置有所不同,可以推知根据这些区域得到的特征也有所区别,也就是说,通过本发明的流程,能够得到更丰富的特征。一次完整的数据扩充是需要对原数据集中的每个样本进行本例所示的过程,经过一次完整的数据扩充,能够得到n*k个新样本。本发明对跨模态检索、视觉问答、图像描述等图-文模态的多模态研究方向都可以适用。具体落地应用场景例如:电商平台以文本检索商品、基于图像描述的网络图像自动审核等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种多模态数据扩充方法,其特征在于,所述多模态数据扩充方法通过扩充图像特征
Figure FDA0003420989110000011
实现数据扩充;在提取
Figure FDA0003420989110000012
时,使用基于卷积神经网络的目标检测模型进行提取,通过扰动感受野内图像的内容、改变目标检测框标定的位置,对
Figure FDA0003420989110000013
进行扰动。
2.如权利要求1所述的多模态数据扩充方法,其特征在于,所述多模态数据扩充方法包括以下步骤:
步骤一,每次随机取k张图,对数据集中的图片进行拼接;
步骤二,在拼接后的大图上进行目标检测,得到检测框集合;
步骤三,对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框;
步骤四,对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本,对于每张拼接图,共得到k对新的训练样本。
3.如权利要求2所述的多模态数据扩充方法,其特征在于,所述步骤一中的图片拼接后,感受野内的部分图像内容发生改变、目标检测框位置发生改变。
4.如权利要求2所述的多模态数据扩充方法,其特征在于,所述步骤一中的图片拼接包括:多模态数据集D中所有的图片集合为I={I1,I2,...,In},对于每个Ii,随机取k张不重复的图片
Figure FDA0003420989110000014
拼接为一张大图
Figure FDA0003420989110000015
包括:
(1)在一次完整的数据扩充流程中,对于每个Ii,拼接时k保持一致;
(2)k是整数,2≤k≤9;
(3)拼接的排布原则是使拼接后图片的长宽比尽可能小,当k=2时,两张图片选左右拼接或上下拼接,k=4时,图片拼接为田字型,k=6时,图片拼接为三行两列或两行三列,k=9时,图片排布为九宫格型,其他取值以最接近所述排布的方式进行拼接;
(4)拼接时不改变任一图片的长宽比,按所述板式拼接后,未对齐的部分用0值补齐。
5.如权利要求2所述的多模态数据扩充方法,其特征在于,所述步骤二中的获取检测框集合包括:
基于目标检测模型获取检测框,要求如下:
(1)根据k和拼接板式,按比例放大目标检测模型长边和短边的像素限制,当k=2,取左右拼接时,长边阈值取原阈值的2倍,短边阈值不变,k=4时,呈田字拼接,长边和短边阈值均为原阈值的2倍,k=9时,呈九宫格型拼接,长边和短边阈值均为原阈值的3倍;
(2)将
Figure FDA0003420989110000021
输入目标检测模型,得到检测框位置集合
Figure FDA0003420989110000022
共m*k个检测框;
(3)将检测框按照拼接前所属的图片进行分组,得到
Figure FDA0003420989110000023
其中每个
Figure FDA0003420989110000024
其中p是检测框的置信度;
(4)对于
Figure FDA0003420989110000025
长度大于m的,将检测框按照置信度排序,取置信度最高的前m个框,反之,用P=((0,0),(0,0),0)补齐;
(5)由于检测框是分布在
Figure FDA0003420989110000026
上,得到的坐标均以
Figure FDA0003420989110000027
的左上角为原点;对于集合IK中的每个
Figure FDA0003420989110000028
根据在
Figure FDA0003420989110000029
上的位置及坐标集合
Figure FDA00034209891100000210
将坐标修正为以左上角为原点的坐标,从而与原始数据集的数据分布保持一致,修正后的
Figure FDA00034209891100000211
的坐标表示为
Figure FDA00034209891100000212
得到的k组坐标集合表示为
Figure FDA00034209891100000213
6.如权利要求2所述的多模态数据扩充方法,其特征在于,所述步骤三中的新的训练样本的获取包括:对于Oi中的每个
Figure FDA00034209891100000214
与其对应的
Figure FDA00034209891100000215
Figure FDA00034209891100000216
对应区域图片,输入特征抽取模型,得到新的特征
Figure FDA00034209891100000217
Figure FDA00034209891100000218
为一对新的训练样本;通过该方式,经过一次拼接得到k个新样本,若原数据集中图片集合的大小为n,那么经过一次完整的数据扩充流程,得到n*k个新的训练样本。
7.一种实施权利要求1~6任意一项所述多模态数据扩充方法的多模态数据扩充系统,其特征在于,所述多模态数据扩充系统包括:
图片拼接模块,用于通过每次随机取k张图对数据集中的图片进行拼接;
检测框集合获取模块,用于在拼接后大图上进行目标检测得到检测框集合;
检测框分组模块,用于对检测框集合中的检测框进行分组,将原属于一张图的检测框分为一组,对于一张拼接图,共得到k组检测框;
训练样本获取模块,用于对每组检测框对应的图片区域进行特征提取,与相应原图的文本描述结合为一对新的训练样本,对于每张拼接图,共得到k对新的训练样本。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求4-6任意一项所述多模态数据扩充丰富的步骤,通过扩充
Figure FDA0003420989110000031
实现数据扩充;扩充
Figure FDA0003420989110000032
是通过改变感受野内图片的内容、改变目标检测框标定的位置实现。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求4-6任意一项所述多模态数据扩充丰富的步骤,通过扩充
Figure FDA0003420989110000033
实现数据扩充;扩充
Figure FDA0003420989110000034
是通过改变感受野内图片的内容、改变目标检测框标定的位置实现。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的多模态数据扩充系统。
CN202111562183.2A 2021-12-20 2021-12-20 多模态数据扩充方法、系统、介质、计算机设备及终端 Pending CN114399645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111562183.2A CN114399645A (zh) 2021-12-20 2021-12-20 多模态数据扩充方法、系统、介质、计算机设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111562183.2A CN114399645A (zh) 2021-12-20 2021-12-20 多模态数据扩充方法、系统、介质、计算机设备及终端

Publications (1)

Publication Number Publication Date
CN114399645A true CN114399645A (zh) 2022-04-26

Family

ID=81226564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111562183.2A Pending CN114399645A (zh) 2021-12-20 2021-12-20 多模态数据扩充方法、系统、介质、计算机设备及终端

Country Status (1)

Country Link
CN (1) CN114399645A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758511A (zh) * 2022-06-14 2022-07-15 深圳市城市交通规划设计研究中心股份有限公司 一种跑车超速检测系统、方法、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758511A (zh) * 2022-06-14 2022-07-15 深圳市城市交通规划设计研究中心股份有限公司 一种跑车超速检测系统、方法、电子设备及存储介质
CN114758511B (zh) * 2022-06-14 2022-11-25 深圳市城市交通规划设计研究中心股份有限公司 一种跑车超速检测系统、方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210201445A1 (en) Image cropping method
US11595737B2 (en) Method for embedding advertisement in video and computer device
CN109803180B (zh) 视频预览图生成方法、装置、计算机设备及存储介质
US12073621B2 (en) Method and apparatus for detecting information insertion region, electronic device, and storage medium
CN109618222A (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
CN112954450B (zh) 视频处理方法、装置、电子设备和存储介质
US20180060704A1 (en) Method And Apparatus For Image Character Recognition Model Generation, And Vertically-Oriented Character Image Recognition
WO2020253766A1 (zh) 图片生成方法、装置、电子设备及存储介质
US20230027412A1 (en) Method and apparatus for recognizing subtitle region, device, and storage medium
CN111062854B (zh) 检测水印的方法、装置、终端及存储介质
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
WO2019020061A1 (zh) 视频台词处理方法、客户端、服务器及存储介质
US9087272B2 (en) Optical match character classification
JP2020088852A (ja) ビデオコンテンツのフィルムショットにおける異なるオブジェクトの描写の偏差通知
CN113516666A (zh) 图像裁剪方法、装置、计算机设备及存储介质
CN105657514A (zh) 一种在移动设备浏览器中视频播放关键信息的方法及装置
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN109598185A (zh) 图像识别翻译方法、装置、设备及可读存储介质
WO2023056835A1 (zh) 视频封面生成方法、装置、电子设备及可读介质
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN117576388A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN114399645A (zh) 多模态数据扩充方法、系统、介质、计算机设备及终端
CN113963290A (zh) 视频目标检测方法、装置、设备及可读存储介质
US10366298B2 (en) Method and system for identifying objects in images
CN116389849A (zh) 视频生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination