CN113486941B - 直播图像的训练样本生成方法、模型训练方法及电子设备 - Google Patents
直播图像的训练样本生成方法、模型训练方法及电子设备 Download PDFInfo
- Publication number
- CN113486941B CN113486941B CN202110741087.8A CN202110741087A CN113486941B CN 113486941 B CN113486941 B CN 113486941B CN 202110741087 A CN202110741087 A CN 202110741087A CN 113486941 B CN113486941 B CN 113486941B
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- live
- target object
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 230000009466 transformation Effects 0.000 claims abstract description 58
- 238000001514 detection method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013519 translation Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种直播图像的训练样本生成方法、模型训练方法及电子设备。所述直播图像的训练样本生成方法包括:从预设的标注文件集获取标注文件,根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像;根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码;从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本,具有提高训练样本的生成效率、增加样本数量从而提高了对应模型的泛化能力的优点。
Description
技术领域
本申请涉及网络直播技术领域,特别是涉及直播图像的训练样本生成方法、直播图像检测模型训练方法、直播图像的训练样本生成装置、电子设备以及存储介质。
背景技术
随着网络通信技术的进步,网络直播成为一种新兴的网络互动方式,网络直播也因其具有实时性、交互性等特点受到越来越多观众的喜爱。
在网络直播的过程中,线上的主播经常需要与观众进行的互动,在部分直播场景下,主播将物品展示给观众时,需要对物品进行检测识别。
发明人在研究的过程中发现目前主流的物体图像检测识别方法都是基于监督学习的方法,用于监督学习的样本通常都是人工标注,时间与人力成本极高,能够获取的训练样本量也比较小,从而经过训练的模型很难获得较强的泛化能力。
发明内容
基于此,本申请的目的在于,提供一种直播图像的训练样本生成方法训练样本生成方法、直播图像检测模型训练方法、直播图像的训练样本生成装置、电子设备以及存储介质,其具有提高训练样本的生成效率、增加样本数量从而提高了对应模型的泛化能力的优点。
根据本申请实施例的第一方面,提供一种直播图像的训练样本生成方法,所述直播图像的训练样本生成方法包括:
从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据;
根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像;
根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码;
从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本。
根据本申请实施例的第二方面,提供一种直播图像检测模型训练方法,包括所述直播图像的样本生成方法,以及以下模型训练的步骤:使用所述训练样本对预设的直播图像检测初始模型进行训练,获得训练好的直播图像检测模型。
根据本申请实施例的第三方面,提供一种直播图像的训练样本生成装置,所述直播图像的训练样本生成装置包括:
获取模块,用于从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据;
第一生成模块,用于根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像;
透视变换模块,用于根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码;
第二生成模块,用于从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本。
根据本申请实施例的第四方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行任意一项所述的直播图像的训练样本生成方法以及所述直播图像检测模型训练方法。
根据本申请实施例的第五方面,提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现任意一项所述的直播图像的训练样本生成方法以及所述直播图像检测模型训练方法。
本申请可以根据直播图像的一个标注文件以及一个背景图像,在进行透视变化等操作后生成若干个直播图像的训练样本,提高了训练样本的生成效率,生成的训练样本的量也很多,从而提高了训练的模型的泛化能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
为了更好地理解和实施,下面结合附图详细说明本申请。
附图说明
图1为本申请一个实施例提供的一种直播图像的训练样本生成方法的应用环境的示意图;
图2为本申请一个实施例提供的一种直播图像的训练样本生成方法的流程图;
图3为本申请一个实施例提供的直播图像的示例图;
图4为本申请一个实施例提供的轮廓图的示例图;
图5为本申请一个实施例提供的目标物图像的示例图;
图6为本申请一个实施例提供的前景图像的示例图;
图7为本申请一个实施例提供的第一掩码的示例图;
图8为本申请一个实施例提供的第二掩码的示例图;
图9为本申请一个实施例提供的背景图像的示例图;
图10为本申请一个实施例提供的训练样本的图像的示例图;
图11本申请一个实施例提供的一种直播图像检测模型训练方法的流程图;
图12为本申请一个实施例提供的一种直播图像的训练样本生成装置的结构示意图;
图13为本申请一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,图1为本申请一个实施例提供的一种直播图像的训练样本生成方法的应用场景示意图,该应用场景包括直播客户端和服务器。直播客户端与服务器进行交互。
所述直播客户端所指向的硬件,本质上是指计算机设备,具体地,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。所述直播客户端可以通过公知的网络接入方式接入互联网,与服务器建立数据通信链路。
所述服务器作为一个业务服务器,其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备,例如图1中所示的直播客户端提供服务。
其中,所述直播图像的训练样本生成方法可以运行于上述直播客户端和/或服务器。在所述直播图像的训练样本生成方法运行于直播客户端时,直播客户端对本地获取的直播图片生成标注文件集和背景图像集,并执行所述直播图像的训练样本生成方法,生成训练样本。在所述直播图像的训练样本生成方法运行于服务器时,服务器从所述直播客户端获取直播图片,并生成标注文件集和背景图像集,执行所述直播图像的训练样本生成方法,生成训练样本。
实施例一:
本申请实施例公开了一种直播图像的样本生成方法。
下面将结合附图2,对本申请实施例提供的一种直播图像的样本生成方法进行详细介绍。
请参阅图2,本申请实施例提供一种直播图像的样本生成方法,包括如下步骤:
S101:从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据。
其中,所述标注文件集可以是包括若干个直播图像的集合,这些直播图像包含目标物以及其对应的轮廓标注数据,优选地,所述直播图像包含目标物的完整图像。
所述直播图像可以包含或者不包含除所述目标物之外的背景,并且所述背景可以是任意或随机产生的。
其中,所述第一轮廓标注数据可以是目标物边缘的标注点集合形成的轮廓。所述第一轮廓标注数据可以以JSON(JavaScript Object Notation,JS对象简谱)文件格式进行存储,JSON是一种轻量级的数据交换格式,易于机器解析和生成,并能有效地提升网络传输效率。
所述目标物的直播图像可以从直播客户端的直播视频数据中截取,也可以从预设的数据库中获得。所述目标物的第一轮廓标注数据,可以通过人工标注,也可通过可行的计算机处理手段获得。
S102:根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像。
图3为所述直播图像的一个示例,图5为图3所示的直播图像的目标物图像,图7为图3所示的直播图像的第一掩码的图像。
其中,掩码(mask)也称掩膜,一张直播图像大小与对应的掩码的图像大小一致,掩码的图像可以包括感兴趣区域以及非感兴趣区域,感兴趣区域与非感兴趣区域均只存在一种像素值,但感兴趣区域与非感兴趣区域的像素值不同,可以用来在图像处理过程中选定感兴趣区域对应的图像区域。所述第一掩码可以用以在所述直播图像中选定所述目标物图像。
在一种可选的实施例中,所述根据所述第一轮廓标注数据,生成所述直播图像的第一掩码包括如下步骤:
根据所述第一轮廓标注数据,生成所述目标物的轮廓图;
使用漫水填充算法对所述轮廓图进行处理,获得所述第一掩码。
在该可选的实施方式中,所述第一轮廓标注数据是若干个点组成的集合,按照顺序将各个点连起来形成闭合曲线,即获得了所述目标物的轮廓图,轮廓图如图4所示。其中,漫水填充算法(flood Fill)可以是用特定的颜色填充联通区域,通过设置可连通像素的上下限以及连通方式来达到不同的填充效果的方法,漫水填充可标记或分离图像的一部分以便对其进行进一步处理或分析,通过所述漫水填充算法,可以使用特定的颜色填充所述轮廓图内的图像区域,获得所述第一掩码。
在一种可选的实施例中,所述根据所述第一掩码以及所述直播图像获得目标物图像包括如下步骤:
将所述直播图像与所述第一掩码进行矩阵相乘操作,获得所述目标物图像。
其中,所述目标物图像只包含所述目标物,即,不包含直播场景的背景。
在该可选的实施方式中,将所述直播图像与所述第一掩码进行矩阵相乘操作,即通过所述第一掩码在所述直播图像选取所述第一掩码对应的图像区域,所述第一掩码对应所述目标物的轮廓以及轮廓内包含的图像区域,即可以将所述目标物单独选取出来,得到的所述目标物图像只包含所述目标物,没有背景。
可选的,将所述直播图像与所述第一掩码进行矩阵相乘操作之后,对矩阵相乘操作后的图像进行腐蚀操作。其中,所述腐蚀操作是指图像的形态学操作之一,能够将图像的边界点消除,使图像沿着边界向内收缩,也可以将小于指定结构体元素部分去除,借此实现除去噪声、元素分割等功能,在该可选的实施方式中,可以通过腐蚀操作使得避免所述目标物的边缘出现毛刺等噪声。
S103:根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码。
其中,所述透视变换可以是指三维的透视变换,通过将二维的图像映射回三维空间,并进行三维旋转操作,最后映射回二维空间,其整体流程使用了相机成像原理,透视变换后获得的所述前景图像具备透视效应,不仅有大小、而且还有角度、形状的变化。
其中,所述透视矩阵的作用是用来模拟相机从任意角度对所述目标物图像进行拍摄,要生成随机的透视矩阵,首先需要根据随机生成的角度,生成相应的齐次变换矩阵,公式如下:
r=rx.dot(ry).dot(rz)
其中,anglex、angley、anglez是在三维空间中图像的三维旋转角度的三个参数,即所述随机生成的角度,rx、ry、rz是计算过程的中间矩阵变量,r是对应的齐次变换矩阵,dot()函数表示矩阵相乘。
然后确定进行运算的四个点,以图像中心作为二维图像坐标系的原点,假设原点与三维世界坐标系的原点,相机的焦点在同一直线上。假设三维空间中有平行于图像坐标系的、而且关于原点对称的四个点p1、p2、p3、p4分别为:p1=[(-w')/2,(-h)/2,0,0],p2=[w'/2,0,0,0],p3=[0,h'/2,0,0],p4=[w'/2,h/2,0,0],其中,w'为所述扩充图像的画布的宽,h'为所述扩充图像的画布的高,h为目标物图像的画布的高。因为这四个点所属平面与图像坐标平面平行,而且P点关于原点对称。因此,经过相机成像后,这四个点必然对应于二维空间中所述前景图像的四个顶点。
然后将三维空间中的四个点根据齐次变换矩阵进行变换,每个点进行变换的公式均为dst=r.dot(p),p可以是p1、p2、p3、p4的值。然后将三维空间中的四个点投影回二维空间中的坐标系中,得到这四个点在二维空间中对应的坐标值:x轴坐标值:dst_x=dst[0]*z/(z-dst[2])+w',y轴坐标值:dst_y=dst[1]*z/(z-dst[2])+h',其中,dst[0]、dst[1]与dst[2]为该点在dst中的分量,其中,sqrt()为平方根计算函数,fov为预设的距离参数,z为相机与图像之间的距离。
最后,根据opencv的函数cv2.getPerspectiveTransform()得到透视变换矩阵warpR:warpR=cv2.getPerspectiveTransform(origin,dst1),其中,origin为所述目标物图像在二维空间中的四个顶点的坐标组成的向量矩阵,dst1为上面所述的三维空间中的四个点投影回二维空间中的坐标系的坐标值(dst_x、dst_y)组成的向量矩阵。
在一种可选的实施例中,所述根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像还包括如下步骤:
对所述目标物图像进行画布边界扩充,获得扩充图像;
对每个所述透视矩阵,将所述扩充图像与所述透视矩阵进行矩阵相乘操作,获得形变图像;
确定所述形变图像中的目标物的第一最小外接矩形框;
根据所述第一最小外接矩形框以及所述形变图像,生成所述前景图像。
在该可选的实施方式中,对所述目标物图像进行画布边界扩充的目的是使所述目标物的背景图像足够大,从而使得所述目标物在后续的变化中不会溢出画布区域。可以增大所述目标物图像的画布的宽和高以实现画布边界扩充。其中,所述第一最小外接矩形框是指包含了所述目标物的最小矩形框。
可选的,所述根据所述第一最小外接矩形框以及所述形变图像,生成所述前景图像可包括如下步骤:
根据所述第一最小外接矩形框对所述形变图像进行裁剪,获得所述形变图像中对应所述第一最小外接矩形框内的图像区域。
在该可选的实施方式中,可以将所述第一最小外接矩形框内的图像区域裁剪出来,可选的,可以对所述形变图像进行裁剪,但裁剪的图像区域必须包括所述第一最小外接矩形框内的图像区域,确保所述目标物在所述裁剪后的图像区域内。
在一种可选的实施例中,对所述目标物图像进行透视变换后,所述直播图像的训练样本生成方法还包括如下步骤:
根据预设的起点坐标,对所述透视变换后的图像进行图像平移处理;
和/或,
根据预设的尺寸范围,对所述透视变换后的图像进行缩放处理。
在该可选的实施方式中,可以通过随机生成一个起点坐标,对所述透视变换后的图像进行图像平移处理,改变所述目标物的位置。也可以通过预设的尺寸范围,对所述透视变换后的图像进行缩放处理,改变所述目标物的尺寸,确保了后续生成的训练样本的多样性。
在一种可选的实施例中,所述根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码包括如下步骤:
对所述第一掩码进行画布边界扩充,获得扩充掩码;
对每个所述透视矩阵,将所述扩充掩码与所述透视矩阵进行矩阵相乘,获得形变掩码;
确定所述形变掩码中的掩码区域的第二最小外接矩形框;
根据所述第二最小外接矩形框以及所述形变掩码,生成所述第二掩码。
在该可选的实施方式中,如图8所示,图8为图7所示的第一掩码对应的第二掩码的示例图,对所述第一掩码的透视变换操作与所述目标物图像的透视变换操作是一致的,确保了得到的所述第二掩码就是所述前景图像的掩码,不需要额外对所述前景图像进行数据标注,节省人力,提高效率。
在一种可选的实施例中,所述根据所述第二最小外接矩形框以及所述形变掩码,生成所述第二掩码包括如下步骤:
根据所述第二最小外接矩形框对所述形变掩码进行裁剪,获得所述形变掩码中对应所述第二最小外接矩形框内的掩码区域。
可选的,所述对所述第一掩码进行透视变换后,所述方法还包括:
根据预设的起点坐标,对所述透视变换后的掩码进行平移处理;
和/或,
根据预设的尺寸范围,对所述透视变换后的掩码进行缩放处理。
对所述第一掩码进行的平移和/或缩放处理与对所述目标物图像进行的平移和/或缩放处理相对应,以保证处理后的所述第二掩码与所述前景图像相对应。
S104:从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本。
在一种可选的实施例中,从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本包括如下步骤:
针对每个所述前景图像,根据所述前景图像对应的第二掩码,将所述前景图像与预设的背景图像进行合成,获得样本图像;
根据所述第二掩码,生成所述样本图像对应的第二轮廓标注信息。
请参阅图9以及图10,图9是所述背景图像的一个示例,图10是图9与图6所示的前景图像进行合成后的训练样本的图像。根据所述第二掩码,可以使用opencv的findcontour函数找到相应的轮廓,opencv是一个跨平台计算机视觉和机器学习软件库,具有图像处理和计算机视觉方面的很多通用算法,然后使用opencv的drawcontour函数绘制出曲线,即可以根据所述第二掩码,生成所述样本图像对应的第二轮廓标注信息。
本申请实施例中,可以根据直播图像的一个标注文件以及一个背景图像,在进行透视变化等操作后生成若干个直播图像的训练样本,提高了训练样本的生成效率,生成的训练样本的数量也很多,从而提高了训练的模型的泛化能力。
实施例二:
本申请实施例公开了一种直播图像检测模型训练方法。
下面将结合附图11,对本申请实施例提供的一种直播图像检测模型训练方法进行详细介绍。
请参阅图11,本申请实施例提供一种直播图像检测模型训练方法,本实施例与实施例一的主要区别在于,本实施例除了包括实施例一中的步骤S101、S102、S103、S104,还包括如步骤S105:
S101:从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据。
S102:根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像。
S103:根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码。
S104:从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本。
S105:使用所述训练样本对预设的直播图像检测初始模型进行训练,获得训练好的直播图像检测模型。
其中,所述直播图像检测模型可以用于在网络直播的过程中。线上的主播经常需要与观众进行的互动,在部分直播场景下,主播将物体展示给观众时,通过所述直播图像检测模型对物体进行图像检测,通过图像检测检测出物体后,可以对物体进行画面放大、加特效、单独展示等处理。
本发明实施例中,由于所述训练样本可以被大量生成,因此训练出来的所述直播图像检测模型具有较高的泛化能力,泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力,较多的样本数量能够提高模型的泛化能力,进而提高模型的性能。
实施例三:
本实施例提供一种直播图像的样本生成装置,可以用于执行本申请实施例一的直播图像的样本生成方法。对于本实施例中未披露的细节,请参照本申请的实施例一。
请参阅图12,图12是本申请实施例公开的一种直播图像的样本生成装置的结构示意图。所述的直播图像的样本生成装置可以运行于服务器中,或者直播客户端中。该直播图像的样本生成装置包括:
获取模块201,用于从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据。
第一生成模块202,用于根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像。
透视变换模块203,用于根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码。
第二生成模块204,用于从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本。
作为一种可选的实施方式,所述透视变换模块203根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像的方式具体为:
对所述目标物图像进行画布边界扩充,获得扩充图像;
对每个所述透视矩阵,将所述扩充图像与所述透视矩阵进行矩阵相乘操作,获得形变图像;
确定所述形变图像中的目标物的第一最小外接矩形框;
根据所述第一最小外接矩形框以及所述形变图像,生成所述前景图像。
作为一种可选的实施方式,所述透视变换模块203根据所述第一最小外接矩形框以及所述形变图像,生成所述前景图像的方式具体为:
根据所述第一最小外接矩形框对所述形变图像进行裁剪,获得所述形变图像中对应所述第一最小外接矩形框内的图像区域。
作为一种可选的实施方式,所述透视变换模块203对所述目标物图像进行透视变换后,所述直播图像的样本生成装置还包括:
第一平移模块,用于根据预设的起点坐标,对所述透视变换后的图像进行图像平移处理;
第一缩放模块,用于根据预设的尺寸范围,对所述透视变换后的图像进行缩放处理。
作为一种可选的实施方式,所述透视变换模块203根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码的方式具体为:
对所述第一掩码进行画布边界扩充,获得扩充掩码;
对每个所述透视矩阵,将所述扩充掩码与所述透视矩阵进行矩阵相乘,获得形变掩码;
确定所述形变掩码中的掩码区域的第二最小外接矩形框;
根据所述第二最小外接矩形框以及所述形变掩码,生成所述第二掩码。
作为一种可选的实施方式,所述透视变换模块203根据所述第二最小外接矩形框以及所述形变掩码,生成所述第二掩码的方式具体为:
根据所述第二最小外接矩形框对所述形变掩码进行裁剪,获得所述形变掩码中对应所述第二最小外接矩形框内的掩码区域。
作为一种可选的实施方式,所述透视变换模块203对所述第一掩码进行透视变换后,所述直播图像的训练样本生成装置还包括:
第二平移模块,用于根据预设的起点坐标,对所述透视变换后的掩码进行平移处理;
第二缩放模块,用于根据预设的尺寸范围,对所述透视变换后的掩码进行缩放处理。
作为一种可选的实施方式,所述第二生成模块204从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本的方式具体为:
针对每个所述前景图像,根据所述前景图像对应的第二掩码,将所述前景图像与预设的背景图像进行合成,获得样本图像;
根据所述第二掩码,生成所述样本图像对应的第二轮廓标注信息。
作为一种可选的实施方式,所述第一生成模块202根据所述第一轮廓标注数据,生成所述直播图像的第一掩码的方式具体为:
根据所述第一轮廓标注数据,生成所述目标物的轮廓图;
使用漫水填充算法对所述轮廓图进行处理,获得所述第一掩码。
作为一种可选的实施方式,所述第一生成模块202根据所述第一掩码以及所述直播图像获得目标物图像的方式具体为:
将所述直播图像与所述第一掩码进行矩阵相乘操作,获得所述目标物图像。
实施例四:
本实施例提供一种电子设备,可以用于执行本申请实施例一的直播图像的样本生成方法以及实施例二的直播图像检测模型训练方法的全部或部分步骤。对于本实施例中未披露的细节,请参照本申请的实施例一以及实施例二。
请参阅图13,图13为本申请实施例提供的电子设备的结构示意图。所述电子设备900可以但不限于是各种服务器、个人计算机、笔记本电脑、智能手机、平板电脑等设备的一个或多个的组合。
本申请在本申请较佳实施例中,所述电子设备900包括存储器901、至少一个处理器902、至少一条通信总线903及收发器904。
本领域技术人员应该了解,图13示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备900还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备900是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备900还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备900仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器901中存储有计算机程序,所述计算机程序被所述至少一个处理器902执行时实现如所述实施例一的直播图像的样本生成方法或实施例二的直播图像检测模型训练方法中的全部或者部分步骤。所述存储器901包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器902是所述电子设备900的控制核心(Control Unit),利用各种接口和线路连接整个电子设备900的各个部件,通过运行或执行存储在所述存储器901内的程序或者模块,以及调用存储在所述存储器901内的数据,以执行电子设备900的各种功能和处理数据。例如,所述至少一个处理器902执行所述存储器中存储的计算机程序时实现本申请实施例中所述的直播图像的样本生成方法以及所述的直播图像检测模型训练方法的全部或者部分步骤;或者实现直播图像的样本生成装置的全部或者部分功能。所述至少一个处理器902可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线903被设置为实现所述存储器901以及所述至少一个处理器902等之间的连接通信。
所述电子设备900还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
实施例五:
本实施例提供一种计算机可读存储介质,其上储存有计算机程序,所述指令适于由处理器加载并执行本申请实施例一的直播图像的样本生成方法以及实施例二的直播图像检测模型训练方法,具体执行过程可以参见实施例一以及实施例二的具体说明,在此不进行赘述。
对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种直播图像的训练样本生成方法,其特征在于,所述方法包括:
从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据;
根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像;
根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码;
从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本;
所述根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码包括如下步骤:
对所述第一掩码进行画布边界扩充,获得扩充掩码;
对每个所述透视矩阵,将所述扩充掩码与所述透视矩阵进行矩阵相乘,获得形变掩码;
确定所述形变掩码中的掩码区域的第二最小外接矩形框;
根据所述第二最小外接矩形框以及所述形变掩码,生成所述第二掩码。
2.根据权利要求1所述的直播图像的训练样本生成方法,其特征在于,所述根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像包括如下步骤:
对所述目标物图像进行画布边界扩充,获得扩充图像;
对每个所述透视矩阵,将所述扩充图像与所述透视矩阵进行矩阵相乘操作,获得形变图像;
确定所述形变图像中的目标物的第一最小外接矩形框;
根据所述第一最小外接矩形框以及所述形变图像,生成所述前景图像。
3.根据权利要求2所述的直播图像的训练样本生成方法,其特征在于,所述根据所述第一最小外接矩形框以及所述形变图像,生成所述前景图像包括如下步骤:
根据所述第一最小外接矩形框对所述形变图像进行裁剪,获得所述形变图像中对应所述第一最小外接矩形框内的图像区域。
4.根据权利要求1至3任意一项所述的直播图像的训练样本生成方法,其特征在于,所述对所述目标物图像进行透视变换后,所述直播图像的训练样本生成方法还包括:
根据预设的起点坐标,对所述透视变换后的图像进行图像平移处理;
和/或,
根据预设的尺寸范围,对所述透视变换后的图像进行缩放处理。
5.根据权利要求1所述的直播图像的训练样本生成方法,其特征在于,所述从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本包括如下步骤:
针对每个所述前景图像,根据所述前景图像对应的第二掩码,将所述前景图像与预设的背景图像进行合成,获得样本图像;
根据所述第二掩码,生成所述样本图像对应的第二轮廓标注信息。
6.根据权利要求1所述的直播图像的训练样本生成方法,其特征在于,所述根据所述第一轮廓标注数据,生成所述直播图像的第一掩码包括如下步骤:
根据所述第一轮廓标注数据,生成所述目标物的轮廓图;
使用漫水填充算法对所述轮廓图进行处理,获得所述第一掩码。
7.根据权利要求1所述的直播图像的训练样本生成方法,其特征在于,所述根据所述第一掩码以及所述直播图像获得目标物图像包括如下步骤:
将所述直播图像与所述第一掩码进行矩阵相乘操作,获得所述目标物图像。
8.一种直播图像检测模型训练方法,其特征在于,包括如权利要求1至7所述的直播图像的训练样本生成方法,以及以下模型训练的步骤:使用所述训练样本对预设的直播图像检测初始模型进行训练,获得训练好的直播图像检测模型。
9.一种直播图像的训练样本生成装置,其特征在于,所述直播图像的训练样本生成装置包括:
获取模块,用于从预设的标注文件集获取标注文件,其中,所述标注文件包括目标物的直播图像以及所述目标物的第一轮廓标注数据;
第一生成模块,用于根据所述第一轮廓标注数据,生成所述直播图像的第一掩码,根据所述第一掩码以及所述直播图像获得目标物图像;
透视变换模块,用于根据随机生成的透视矩阵,对所述目标物图像进行透视变换,获得所述目标物的若干个前景图像,以及根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码;
第二生成模块,用于从预设的背景图像集中获取背景图像,根据所述第二掩码、若干个所述前景图像以及所述背景图像,生成若干个直播图像的训练样本;
所述透视变换模块根据所述透视矩阵,对所述第一掩码进行透视变换,获得所述前景图像对应的第二掩码的方式具体为:
对所述第一掩码进行画布边界扩充,获得扩充掩码;
对每个所述透视矩阵,将所述扩充掩码与所述透视矩阵进行矩阵相乘,获得形变掩码;
确定所述形变掩码中的掩码区域的第二最小外接矩形框;
根据所述第二最小外接矩形框以及所述形变掩码,生成所述第二掩码。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至7中任意一项所述的直播图像的训练样本生成方法以及权利要求8所述的直播图像检测模型训练方法。
11.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的直播图像的训练样本生成方法以及权利要求8所述的直播图像检测模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741087.8A CN113486941B (zh) | 2021-06-30 | 2021-06-30 | 直播图像的训练样本生成方法、模型训练方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741087.8A CN113486941B (zh) | 2021-06-30 | 2021-06-30 | 直播图像的训练样本生成方法、模型训练方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486941A CN113486941A (zh) | 2021-10-08 |
CN113486941B true CN113486941B (zh) | 2023-04-07 |
Family
ID=77936871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110741087.8A Active CN113486941B (zh) | 2021-06-30 | 2021-06-30 | 直播图像的训练样本生成方法、模型训练方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486941B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581728A (zh) * | 2022-02-22 | 2022-06-03 | 中国人民解放军军事科学院国防科技创新研究院 | 训练图像集生成方法、装置及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837251A (zh) * | 2020-12-31 | 2021-05-25 | 维沃移动通信有限公司 | 图像处理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784588A (zh) * | 2019-04-04 | 2020-10-16 | 长沙智能驾驶研究院有限公司 | 图像数据增强方法、装置、计算机设备和存储介质 |
CN110503146B (zh) * | 2019-08-21 | 2021-12-14 | 杭州比智科技有限公司 | 数据增强方法、装置、计算设备及计算机存储介质 |
CN110889824A (zh) * | 2019-10-12 | 2020-03-17 | 北京海益同展信息科技有限公司 | 一种样本生成方法、装置、电子设备及计算机可读存储介质 |
CN111860489A (zh) * | 2019-12-09 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种证件图像校正方法、装置、设备及存储介质 |
-
2021
- 2021-06-30 CN CN202110741087.8A patent/CN113486941B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837251A (zh) * | 2020-12-31 | 2021-05-25 | 维沃移动通信有限公司 | 图像处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113486941A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993216B (zh) | 一种图像融合方法及其设备、存储介质、终端 | |
US8872851B2 (en) | Augmenting image data based on related 3D point cloud data | |
CN106875431B (zh) | 具有移动预测的图像追踪方法及扩增实境实现方法 | |
US20180276882A1 (en) | Systems and methods for augmented reality art creation | |
WO2015027953A1 (en) | Method, apparatus and terminal device for dynamic image processing | |
CN109816769A (zh) | 基于深度相机的场景地图生成方法、装置及设备 | |
CN109887003A (zh) | 一种用于进行三维跟踪初始化的方法与设备 | |
CN103914876A (zh) | 用于在3d地图上显示视频的方法和设备 | |
CA2898668A1 (en) | Realization method and device for two-dimensional code augmented reality | |
CN111459269B (zh) | 一种增强现实显示方法、系统及计算机可读存储介质 | |
CN113220251B (zh) | 物体显示方法、装置、电子设备及存储介质 | |
CN112651881B (zh) | 图像合成方法、装置、设备、存储介质以及程序产品 | |
CN111583381B (zh) | 游戏资源图的渲染方法、装置及电子设备 | |
US20210065406A1 (en) | Video frame processing method and apparatus | |
CN112581632B (zh) | 一种房源数据的处理方法和装置 | |
US11900552B2 (en) | System and method for generating virtual pseudo 3D outputs from images | |
WO2017113729A1 (zh) | 360度图像加载方法、加载模块及移动终端 | |
CN111161130B (zh) | 一种基于三维地理信息的视频矫正方法 | |
CN113486941B (zh) | 直播图像的训练样本生成方法、模型训练方法及电子设备 | |
CN113936121A (zh) | 一种ar标注设置方法以及远程协作系统 | |
CN114792354B (zh) | 模型处理方法、装置、存储介质及电子设备 | |
CN111107264A (zh) | 图像处理方法、装置、存储介质以及终端 | |
CN112825198B (zh) | 移动标签显示方法、装置、终端设备及可读存储介质 | |
CN114820980A (zh) | 三维重建方法、装置、电子设备和可读存储介质 | |
CN108170499A (zh) | 3d应用图标的显示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |