CN113808151A - 直播图像的弱语义轮廓检测方法、装置、设备及存储介质 - Google Patents

直播图像的弱语义轮廓检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113808151A
CN113808151A CN202111057853.5A CN202111057853A CN113808151A CN 113808151 A CN113808151 A CN 113808151A CN 202111057853 A CN202111057853 A CN 202111057853A CN 113808151 A CN113808151 A CN 113808151A
Authority
CN
China
Prior art keywords
contour
live
image
weak semantic
live broadcast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111057853.5A
Other languages
English (en)
Inventor
陈广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Cubesili Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Cubesili Information Technology Co Ltd filed Critical Guangzhou Cubesili Information Technology Co Ltd
Priority to CN202111057853.5A priority Critical patent/CN113808151A/zh
Publication of CN113808151A publication Critical patent/CN113808151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种直播图像的弱语义轮廓检测方法、装置、设备及存储介质。本申请所述的直播图像的弱语义轮廓检测方法包括:获取待检测的直播图像;通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器;通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体;若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。本申请所述直播图像的弱语义轮廓检测方法、装置、设备及存储介质具有降低误检率、增加检测范围、提高检测效率的优点。

Description

直播图像的弱语义轮廓检测方法、装置、设备及存储介质
技术领域
本申请涉及网络直播技术领域,特别是涉及直播图像的弱语义轮廓检测方法、装置、设备及存储介质。
背景技术
随着网络通信技术的进步,网络直播成为一种新兴的网络互动方式,网络直播也因其具有实时性、交互性等特点受到越来越多观众的喜爱。
在网络直播的过程中,线上的主播经常需要与观众进行的互动,在部分直播场景下,主播将物体展示给观众时,需要对物体进行轮廓检测,通过轮廓检测检测出物体后,可以对物体进行画面放大、加特效、单独展示等处理。
发明人在研究的过程中发现目前主流的轮廓检测识别方法是用于检测某一类特定物体的轮廓,检测范围小,或者是对直播图像中所有物体都进行轮廓检测,检测任务多,导致检测效率较低,而且检测出来的物体轮廓也不一定是需要进行展示的物体的轮廓,误检率较高。
发明内容
基于此,本申请的目的在于,提供一种直播图像的弱语义轮廓检测方法、装置、设备及存储介质,其具有降低误检率、增加检测范围、提高检测效率的优点。
根据本申请实施例的第一方面,提供一种直播图像的弱语义轮廓检测方法,所述直播图像的弱语义轮廓检测方法包括:
获取待检测的直播图像;
通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器;
通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体;
若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。
根据本申请实施例的第二方面,提供一种直播图像的弱语义轮廓检测装置,所述直播图像的弱语义轮廓检测装置包括:
获取模块,用于获取待检测的直播图像;
轮廓特征获取模块,用于通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器;
完整物体确认模块,用于通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体;
轮廓图获取模块,用于若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。
根据本申请实施例的第三方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行任意一项所述的直播图像的弱语义轮廓检测方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现任意一项所述的直播图像的弱语义轮廓检测方法。
本申请通过获取待检测的直播图像,利用训练好的弱语义轮廓检测模型中的分类模块确定直播图像是否包含有至少一个的完整物体,并在检测到直播图像中包含有至少一个的完整物体,通过解码器提取所述直播图像中的物体轮廓,弱语义轮廓检测模型仅关注完整、显著的目标物体,可以有效减少轮廓检测中的运算量,提高了检测效率;对于没有完整物体的直播图像则及时终止轮廓检测,从而降低了误检率。
为了更好地理解和实施,下面结合附图详细说明本申请。
附图说明
图1为本申请一个实施例提供的一种直播图像的弱语义轮廓检测方法的应用场景示意图;
图2为本申请一个实施例提供的一种直播图像的弱语义轮廓检测方法的流程图;
图3为本申请一个实施例提供的一种直播图像的弱语义轮廓检测模型的示例图;
图4为本申请另一个实施例提供的一种直播图像的弱语义轮廓检测方法的流程图;
图5为本申请一个实施例提供的一种直播图像的弱语义轮廓检测装置的结构示意图;
图6为本申请一个实施例提供的一种电子设备的结构示意框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其是本申请提供的直播图像的弱语义轮廓检测方法的应用场景示意图,该应用场景包括直播客户端10和服务器20,所述直播客户端10与所述服务器20进行交互。
所述直播客户端10所指向的硬件,本质上是指计算机设备,具体地,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。所述直播客户端10可以通过公知的网络接入方式接入互联网,与所述服务器20建立数据通信链路。
所述服务器20作为一个业务服务器,其可以负责进一步连接相关音频数据服务器、视频流服务器以及其他提供相关支持服务的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备,例如图1中所示的直播客户端10提供服务。
其中,所述直播图像的弱语义轮廓检测方法可以运行于上述直播客户端10和/或服务器20。在所述直播图像的弱语义轮廓检测方法运行于直播客户端10时,直播客户端10对本地获取的直播图片执行所述直播图像的弱语义轮廓检测方法,获得所述直播图像的物体轮廓检测结果。在所述直播图像的弱语义轮廓检测方法运行于服务器时,服务器20从所述直播客户端获取直播图片,并执行所述直播图像的弱语义轮廓检测方法,获取直播图像的轮廓图,并可将检测结果返回所述直播客户端10。
实施例一:
本申请实施例公开了一种直播图像的弱语义轮廓检测方法。
下面将结合附图2,对本申请实施例提供的一种直播图像的弱语义轮廓检测方法进行详细介绍。
本申请实施例提供的直播图像的弱语义轮廓检测方法包括:
S101:获取待检测的直播图像。
其中,所述直播图像可以是直播客户端获取的直播图像,或者是所述直播图像的部分,如所述直播图像的局部截图。
S102:通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器。
所述弱语义轮廓检测模型用于对所述直播图像中的显著的完整物体进行轮廓检测。所述弱语义轮廓检测模型不关心直播图像中物体类型,只要所述直播图像中具有显著的完整物体,就能够检测出完整物体的轮廓。所述弱语义轮廓检测模型的设计基于解码-编码(Encoder-Decoder)框架,所述解码-编码框架是一个模型构架,该解码-编码框架使用不同的算法来解决不同的任务,其中,编码(encode)是指由一个编码器将输入序列转化成一个固定维度的稠密向量,解码(decode)是指将编码获得的稠密向量转化为目标数据。
在一个实施例中,所述编码器包括依次连接的输入层和若干个编码层;
所述通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征的步骤包括:
通过所述输入层对所述直播图像进行卷积,下采样至第一预设分辨率后输出至所述若干个编码层;
分别通过所述若干个编码层对所述直播图像进行分离卷积,获取所述直播图像中的轮廓特征图;
所述输入层将所述直播图像下采样至第一预设分辨率,以降低输出至编码层的特征运算量,提高弱语义轮廓检测模型提取物体轮廓的效率。其中,所述第一预设分辨率可以根据输入直播图像的图像尺寸进行设定。
所述编码层用于对所述直播图像进行卷积运算,以获取所述直播图像中的轮廓特征图,优选地,所述编码层的卷积方式为深度可分离卷积,深度可分离卷积相比于常规卷积可以减少参数,能够在一定程度上提高网络的运算速度。
S103:通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体。
所述分类模块是一个二分类模块,通过对输入图像的每一个像素点分为轮廓像素点和非轮廓像素点,通过确定各轮廓像素点的连通性从而确定所述直播图像是否包含有至少一个的完整物体。本申请实施例中通过判断所述直播图像是否包含有至少一个或多个完整物体,以此来确定所述直播图像是否具有显著性:若所述直播图像不包含有至少一个或多个完整物体,则所述直播图像具有显著性;若所述直播图像不包含完整物体,则所述直播图像不具有显著性。若判断所述直播图像具有显著性,则继续进行轮廓检测,若所述直播图像不具有显著性,则终止进行轮廓检测。提前得出所述直播图像不包含完整物体的结论,无需进行轮廓检测,减少了对无效图像的轮廓检测,从而降低了误检率。
在一个实施例中,所述分类模块包括依次连接的平均池化层、向量转换层和若干个全连接层;
通过所述平均池化层将所述编码器输出的轮廓特征图下采样至第二预设分辨率;
通过所述向量转换层将所述第二预设分辨率的轮廓特征图转换为预设长度的一维向量,通过所述若干个全连接层得到一个表示所述直播图像是否包含有至少一个的完整物体二分类值。
所述向量转换层将所述第二预设分辨率的轮廓特征图转换为长度为512的一维向量,所述分类模块包括三个结点数为64、16、1的全连接层,所述三个全连接层将所述一维向量进行连接运算,得到一个表示所述直播图像是否包含有至少一个的完整物体二分类值。
S104:若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。
所述解码器用于经过所述编码器编码得到的轮廓特征图进行解码,得到直播图像中的物体轮廓。在一个实施例中,所述解码器包括依次连接的若干个解码层和输出层;其中,每一个解码层分别对应一个编码层;所述通过所述解码器提取所述直播图像中的物体轮廓的步骤包括:
分别通过所述若干个解码层对与其对应的若干个编码层的输出进行双线性插值,上采样至所述第一预设分辨率;
通过所述输出层提取所述直播图像中的物体轮廓。
双线性插值是指利用原图像上已有的4个像素点,在两个方向上进行插值得到新像素点,以此提高图像上的分辨率的上采样方法。相对于其它的上采样方法,双线性插值法基于原图中的像素点进行计算,避免出现锯齿现象,可以得到更加平滑的高分辨率的图像。
如图3所示,其为利用本申请实施例所述直播图像的弱语义轮廓检测方法提取所述物体轮廓的过程示意图。其中,输入图像包括256×192×3的特征点,弱语义轮廓检测模型包括编码器、分类模块(cls_out)、解码器以及5个连接层(skip-layer5、skip-layer4、skip-layer3、skip-layer2、skip-layer1);
其中,编码器包括依次连接的输入层(InConv)和5个编码层(Encoder1、Encoder2、Encoder3、Encoder4、Encoder5),输入层和5个编码层用于对所述直播图像进行卷积和下采样,获取所述直播图像中的轮廓特征。
解码器包括与5个编码层对应的5个解码层(Decoder1、Decoder2、Decoder 3、Decoder4、Decoder 5)和输出层(OutConv),每个编码层与对应的解码层之间通过一个全连接层连接,通过,利用每一个解码层对与其编码层的输出和上一个编码层的输出进行上采样,提取所述直播图像中的物体轮廓。利用全连接层连接编码层和解码层可以避免编码的过程中的信息损失,使得解码层在解码的时候能够结合对应编码层在进行编码前未损失的信息进行编码,使得提取的物体轮廓更加准确。
在本申请实施例中,通过获取待检测的直播图像,利用训练好的弱语义轮廓检测模型中的分类模块确定直播图像是否包含有至少一个的完整物体,并在检测到直播图像中包含有至少一个的完整物体,通过解码器提取所述直播图像中的物体轮廓,弱语义轮廓检测模型仅关注完整、显著的目标物体,可以有效减少轮廓检测中的运算量,提高了检测效率;对于没有完整物体的直播图像则及时终止轮廓检测,从而降低了误检率。
在一个实施例中,所述直播图像的弱语义轮廓检测方法,还包括以下步骤:
基于直线段检测算法,提取所述直播图像的轮廓图中的直线段;
将所述直线段转换为直线,获取每两条直线之间的交叉点的位置信息,并按照预设的合并条件合并满足所述合并条件的交叉点;
获取每四个所述交叉点形成的矩形面积,获取形成的矩形面积最大的四个交叉点的位置信息;
基于预设的目标图像位置信息和所述四个交叉点的位置信息获取仿射变换矩阵,利用所述仿射变换矩阵对所述直播图像的轮廓图进行矫正,获取矫正后的直播图像的轮廓图。
直线段检测算法(a Line SegmentDetector,LSD)是指通过检测图像每一个像素点的梯度值和梯度方向,从而基于梯度值和梯度方向对输入的灰度图像进行直线分割,得到若干直线段。具体地,基于直线段检测算法,提取所述直播图像的轮廓图中的直线段的步骤包括:
基于高斯下采样方法,将所述直播图像的轮廓图下采样至预设的图像尺度;
获取所述直播图像的轮廓图各像素点的梯度值及梯度方向值;
剔除梯度值小于预设梯度阈值的像素点,选取最大梯度值的像素点作为种子点;
基于所述种子点的梯度方向值及预设的范围阈值确定方向值范围,获取梯度方向值在所述方向值范围内的像素点,得到若干个同性点;
基于所述若干个同性点的位置信息,生成一包括所述若干个同性点的矩形;
获取所述矩形的长度和宽度,根据所述矩形内的同性点数量计算该矩形的同性点密度;
若所述同性点密度大于或等于设定密度阈值,基于拟合矩形精度计算函数,获取该矩形在所述轮廓图的误差值;
若所述误差值小于或等于预设阈值,将该矩形的直线段作为所述直播图像的轮廓图中的直线段;若所述误差值大于预设阈值,调整该矩形的边长直至基于拟合矩形精度计算函数获取的矩形的误差值小于或等于预设阈值。
基于高斯下采样方法将所述直播图像的轮廓图进行下采样,通过缩小图像的方式可以有效解决图像的锯齿现象,提高直线段检测精度。在本申请实施例中,所述预设的图像尺度可为0.8。
具体地,梯度值可以根据该像素点(x,y)及其邻近像素点(x+1,y)、(x,y+1)和(x+1,y)的灰度值i(x+1,y)、i(x,y+1)和i(x+1,y)根据梯度值计算公式计算得到,
Figure BDA0003255277290000071
Figure BDA0003255277290000072
Figure BDA0003255277290000073
其中,G(x,y)为梯度值,gx(x,y)为第一灰度值,gy(x,y)为第二灰度值。
梯度方向值可以根据该像素点(x,y)及其邻近像素点(x+1,y)、(x,y+1)和(x+1,y)的灰度值i(x+1,y)、i(x,y+1)和i(x+1,y),根据梯度方向值计算公式计算得到。
其中,梯度方向值计算公式为:
Figure BDA0003255277290000074
其中,θ为梯度方向值。
梯度阈值可以根据实际需求进行设置。
所述方向值范围基于所述种子点的梯度方向值及预设的范围阈值确定,具体地,所述方向值范围可以是[a-t,a+t],其中,a为种子点的梯度方向值,t为预设的范围阈值,范围阈值可以根据用户的实际需求进行设置。
在确定方向值范围后,以所述种子点为起点,搜索所述直播图像的轮廓图各像素点,得到获取梯度方向值在所述方向值范围内的像素点(即同性点),生成一包含有所有同性点的矩形。
同性点密度用于确定该矩形内的同性点数量,可以由同性点数量除以所述矩形面积得到,密度阈值可以输入图像的尺寸及用户的实际需求进行设置。当矩形的同性点密度小于设定密度阈值时,可以通过截断该矩形,将其转换为多个矩形,并重新计算截断后的矩形的同性点密度,直至获取的矩形的同性点密度大于或等于设定密度阈值。
拟合矩形精度计算函数(Number of False Alarms,NFA)用于评价拟合的矩形的精度,在本申请实施例中,当所述误差值小于或等于预设阈值,判断当前拟合的矩形满足设定要求,将该矩形的直线段作为所述直播图像的轮廓图中的直线段。若所述误差值大于预设阈值,通过调整矩形的边长,将其截成多个矩形框,并基于拟合矩形精度计算函数获取误差值,直至所述误差值小于或等于预设阈值。
在一个实施例中,将所述直线段转换为直线的步骤具体包括:
根据所述直线段端点的位置信息,获取与其对应的直线的斜率和截距;
根据所述斜率和截距,获取所述直线段对应的直线。
其中,直线段端点的位置信息包括该直线段两个端点的位置信息,根据两条直线段的端点的位置信息获取与其对应的直线的斜率和截距,根据斜率和截距确定直线段对应的直线。在一个优选的实施例中,可以通过合并接近的直线,以降低数据运算量,提高矫正效率,因此,在获取所述直线段对应的直线的步骤之后,还包括:
根据所述斜率和截距,合并满足预设的合并条件的直线;
其中,所述预设的合并条件包括:至少两条直线的斜率差值在预设的斜率差范围内,且所述至少两条直线的截距差值在截距差范围。
交叉点即为两条直线之间的交点,对于位置相邻的交叉点,可以通过合并交叉点的方式降低数据运算量,提高矫正效率。具体地,照预设的合并条件合并满足所述合并条件的交叉点的步骤包括:
当存在至少两个交叉点的之间的距离小于设定阈值,获取所述至少两个交叉点的位置信息的均值;
合并所述至少两个交叉点,并根据所述至少两个交叉点的位置信息的均值,生成合并后的交叉点。
通过合并位置相邻的交叉点,并根据相邻的交叉点位置信息的均值,在相邻交叉点的中点生成一新的交叉点,降低交叉点的数量,提高矫正效率。
每四个交叉点可以确定一个矩形,通过以形成的矩形面积最大的四个交叉点的位置信息,从而确定直播图像的轮廓图中待矫正的矩形区域。在一个实施例中,在获取每四个所述交叉点形成的矩形面积的步骤之后,还包括:
获取每四个所述交叉点形成的矩形,获取其中满足预设的矩形筛选条件的矩形;
其中,所述预设的矩形筛选条件包括:矩形相邻边的夹角大于设定夹角阈值,矩形对边的长度比例大于设定比例阈值,矩形至少存在一组对边平行,矩形的长宽比大于设定长宽比阈值。
令所述矩形至少存在一组对边平行,使得最终矫正的矩阵区域为梯形或平行四边形,更便于进行仿射变换。设定夹角阈值、设定比例阈值和设定长宽比阈值可以根据输入图像的尺寸及该图像所包含的轮廓大小进行设定。例如,矩形筛选条件可以设置为:矩形相邻边的夹角大于4度,矩形对边的长度比例大于0.5,矩形至少存在一组对边平行,矩形的最短边与最长边的比例大于0.15。
仿射变换是指二维坐标之间的线性变换,经过仿射变换后的图像中的线条可以保持原有的平直性和相对位置关系。仿射变换包括平移、缩放、翻转、旋转和剪切等变换,在本申请实施例中,可以根据目标图像位置信息和所述四个交叉点的位置信息来构建仿射变换矩阵,利用仿射变换矩阵矫正直播图像的轮廓图,使得经轮廓检测提取的直播轮廓图更加清晰且容易被辨认,提高轮廓图像的检测效率。
经实验,当将本申请所述直播图像的弱语义轮廓检测方法应用于大部分中高端手机中(2000+机型)进行轮廓检测,其每秒浮点运算次数(flops)为174M,模型参数为386.56k,计算速度为30ms左右。由此可见,本申请所述直播图像的弱语义轮廓检测方法可以实现轮廓的超实时检测。
实施例二:
在本实施例中,与所述第一实施例的区别主要在于还包括:对弱语义轮廓检测模型进行训练的步骤。
可选的,如图4所示,在获取待检测的直播图像的步骤之前,所述直播图像的弱语义轮廓检测方法还包括:
S201:获取预设的弱语义训练样本集;所述弱语义训练样本集包括若干个具有完整物体的图像及其对应的轮廓图和若干个具有非完整物体的图像及其对应的轮廓图;
S202:基于解码-编码框架,构建具有轮廓提取功能的弱语义轮廓检测模型;
S203:利用所述弱语义训练样本集对所述弱语义轮廓检测模型进行预训练,直至所述弱语义轮廓检测模型的损失值满足目标损失,获得所述预先训练好的弱语义轮廓检测模型。
所述若干个具有完整物体的图像和所述若干个具有非完整物体的图像可以为人工拍摄的室内场景、街景或风景等图像的集合,其对应的轮廓图可以是经过轮廓检测算法提取得到的图像。在本申请实施例中,所述具有非完整物体的图像对应的轮廓图为黑色的无轮廓图像。
在一个实施例中,所述弱语义训练样本集为直播场景采集到的图像;或者,所述弱语义训练样本集为直播间采集到的图像,所述若干个具有完整物体的图像包括多种直播场景与多种完整物体的组合图像。所述直播场景可以包括但不限于桌面类场景(比如纯色桌面、木质桌面、花色桌面、带有杂物的桌面)、手持类场景(比如手握、手持)、墙面类背景(比如纯色墙面、花色墙面)以及光照变化场景(比如暗光、强光、逆光、反光)等。所述多种物体可以包括但不限于卡片类(比如工卡、会员卡、身份证)、票据类(比如小票、税单、登记表)、电子类(手机、电脑、平板)以及其它物体(比如告示表、书本、指示牌、纸盒)等。
所述若干个具有完整物体的图像及其对应的轮廓图作为弱语义轮廓检测模型的正样本,所述若干个具有非完整物体的图像及其对应的轮廓图作为弱语义轮廓检测模型的负样本;通过利用上述正样本及负样本对所述弱语义轮廓检测模型进行预训练,直至所述弱语义轮廓检测模型的损失值满足目标损失,获得所述预先训练好的弱语义轮廓检测模型。
具体的,利用所述弱语义训练样本集对所述弱语义轮廓检测模型进行预训练的步骤包括:基于Adam优化算法,调整所述弱语义轮廓检测模型的模型参数。
模型参数可以包括学习率、训练时期等参数。
Adam优化算法是一种计算每个参数的自适应学习率的方法,能够基于训练数据迭代地更新神经网络权重;在本申请实施例中,设置所述弱语义轮廓检测模型的初始学习率为0.001,训练200个时期(epoch);其中,在一个训练时期将所有弱语义训练样本集训练一次,随后,将学习率衰减为0.0005,在第300个时期后将学习率衰减为0.0001,在第400个epoch后进行微调(fine-tune),冻结网络中所有的批归一化层(Batch Normalization,BN),并将学习率再次衰减为0.00005,其中,冻结网络中所有的批归一化层是指使令批归一化层不参加网络训练,即不更新批归一化层的参数。
本申请实施例所述弱语义轮廓检测模型在进行轮廓检测时,通过对输入图像的每一个像素点分为轮廓像素点和非轮廓像素点的方式进行轮廓检测,但是,由于通常情况下轮廓像素点的数量较少,容易造成类别预测失衡,因此,在一个优选的实施例中,所述弱语义轮廓检测模型的损失函数为:
Figure BDA0003255277290000101
其中,L表示损失值,β表示第一系数,β=|Y-|/|Y+|,|Y_|表示直播图像中非轮廓像素的数量,|Y+|表示直播图像中轮廓像素的数量,yj表示所述弱语义轮廓检测模型在j像素点的预测值。P(yj=1|X)=σ(aj)∈[0,1],P(yj=0|X)=σ(aj)∈[0,1],σ(*)表示sigmoid函数,其中,sigmoid函数是一种作神经网络的激活函数,将变量映射到0,1之间,通过引入类别平衡的交叉熵损失函数作为所述弱语义轮廓检测模型的损失函数,以避免类别预测失衡,提高轮廓像素点检测的准确性。
实施例三:
本实施例提供一种直播图像的弱语义轮廓检测装置,可以用于执行本申请实施例一、实施例二的直播图像的弱语义轮廓检测方法。对于本实施例中未披露的细节,请参照本申请的实施例一、实施例二。
请参阅图5,图5是本申请实施例公开的一种直播图像的弱语义轮廓检测装置的结构示意图。所述的直播图像的弱语义轮廓检测装置可以运行于服务器或直播客户端中。该直播图像的弱语义轮廓检测装置包括:
获取模块301,用于获取待检测的直播图像;
轮廓特征获取模块302,用于通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器。
完整物体确定模块303,用于通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体。
轮廓提取模块304,用于若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。
本申请实施例通过获取待检测的直播图像,利用训练好的弱语义轮廓检测模型中的分类模块确定直播图像是否包含有至少一个的完整物体,并在检测到直播图像中包含有至少一个的完整物体,通过解码器提取所述直播图像中的物体轮廓,弱语义轮廓检测模型仅关注完整、显著的目标物体,可以有效减少轮廓检测中的运算量,提高了检测效率;对于没有完整物体的直播图像则及时终止轮廓检测,从而降低了误检率。
实施例四:
本实施例提供一种电子设备,可以用于执行本申请实施例一、实施例二的直播图像的弱语义轮廓检测方法的全部或部分步骤。对于本实施例中未披露的细节,请参照本申请的实施例一、实施例二。
请参阅图6,图6为本申请实施例提供的电子设备的结构示意图。所述电子设备900可以但不限于是各种服务器、个人计算机、笔记本电脑、智能手机、平板电脑等设备的一个或多个的组合。
本申请在本申请较佳实施例中,所述电子设备900包括存储器901、至少一个处理器902、至少一条通信总线903及收发器904。
本领域技术人员应该了解,图6示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备900还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备900是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备900还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备900仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器901中存储有计算机程序,所述计算机程序被所述至少一个处理器902执行时实现如所述实施例一、实施例二的直播图像的弱语义轮廓检测方法中的全部或者部分步骤。所述存储器901包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器902是所述电子设备900的控制核心(Control Unit),利用各种接口和线路连接整个电子设备900的各个部件,通过运行或执行存储在所述存储器901内的程序或者模块,以及调用存储在所述存储器901内的数据,以执行电子设备900的各种功能和处理数据。例如,所述至少一个处理器902执行所述存储器中存储的计算机程序时实现本申请实施例中所述的直播图像的弱语义轮廓检测方法的全部或者部分步骤;或者实现直播图像的弱语义轮廓检测装置的全部或者部分功能。所述至少一个处理器902可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线903被设置为实现所述存储器901以及所述至少一个处理器902等之间的连接通信。
所述电子设备900还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
实施例五:
本实施例提供一种计算机可读存储介质,其上储存有计算机程序,所述指令适于由处理器加载并执行本申请实施例一、实施例二的直播图像的弱语义轮廓检测方法,具体执行过程可以参见实施例一、实施例二的具体说明,在此不进行赘述。
对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种直播图像的弱语义轮廓检测方法,其特征在于,包括以下步骤:
获取待检测的直播图像;
通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器;
通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体;
若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。
2.根据权利要求1所述的直播图像的弱语义轮廓检测方法,其特征在于:所述编码器包括依次连接的输入层和若干个编码层;
所述通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征的步骤包括:
通过所述输入层对所述直播图像进行卷积,下采样至第一预设分辨率后输出至所述若干个编码层;
分别通过所述若干个编码层对所述直播图像进行分离卷积,获取所述直播图像中的轮廓特征图。
3.根据权利要求2所述的直播图像的弱语义轮廓检测方法,其特征在于:所述解码器包括依次连接的若干个解码层和输出层;其中,每一个解码层分别对应一个编码层;所述通过所述解码器提取所述直播图像中的物体轮廓的步骤包括:
分别通过所述若干个解码层对与其对应的若干个编码层的输出进行双线性插值,上采样至所述第一预设分辨率;
通过所述输出层提取所述直播图像中的物体轮廓。
4.根据权利要求3所述的直播图像的弱语义轮廓检测方法,其特征在于:所述分类模块包括依次连接的平均池化层、向量转换层和若干个全连接层;
通过所述平均池化层将所述编码器输出的轮廓特征图下采样至第二预设分辨率;
通过所述向量转换层将所述第二预设分辨率的轮廓特征图转换为预设长度的一维向量,通过所述若干个全连接层得到一个表示所述直播图像是否包含有至少一个的完整物体二分类值。
5.根据权利要求3所述的直播图像的弱语义轮廓检测方法,其特征在于,所述弱语义轮廓检测模型还包括设置在每一个编码层和每一个解码层之间的若干个全连接层。
6.根据权利要求3所述的直播图像的弱语义轮廓检测方法,其特征在于:在获取待检测的直播图像的步骤之前,所述直播图像的弱语义轮廓检测方法还包括:
获取预设的弱语义训练样本集;所述弱语义训练样本集包括若干个具有完整物体的图像及其对应的轮廓图和若干个具有非完整物体的图像及其对应的轮廓图;
基于解码-编码框架,构建具有轮廓提取功能的弱语义轮廓检测模型;
利用所述弱语义训练样本集对所述弱语义轮廓检测模型进行预训练,直至所述弱语义轮廓检测模型的损失值满足目标损失,获得所述预先训练好的弱语义轮廓检测模型。
7.根据权利要求5所述的直播图像的弱语义轮廓检测方法,其特征在于,利用所述弱语义训练样本集对所述弱语义轮廓检测模型进行预训练的步骤包括:
基于Adam优化算法,调整所述弱语义轮廓检测模型的模型参数。
8.根据权利要求1-7任一项所述的直播图像的弱语义轮廓检测方法,其特征在于,所述弱语义轮廓检测模型的损失函数为:
Figure FDA0003255277280000021
其中,L表示损失值,β表示第一系数,β=|Y-|/|Y+|,|Y-|表示直播图像中非轮廓像素的数量,|Y+|表示直播图像中轮廓像素的数量,yj表示所述弱语义轮廓检测模型在j像素点的预测值。
9.根据权利要求1所述的直播图像的弱语义轮廓检测方法,其特征在于,还包括以下步骤:
基于直线段检测算法,提取所述直播图像的轮廓图中的直线段;
将所述直线段转换为直线,获取每两条直线之间的交叉点的位置信息,并按照预设的合并条件合并满足所述合并条件的交叉点;
获取每四个所述交叉点形成的矩形面积,获取形成的矩形面积最大的四个交叉点的位置信息;
基于预设的目标图像位置信息和所述四个交叉点的位置信息获取仿射变换矩阵,利用所述仿射变换矩阵对所述直播图像的轮廓图进行矫正,获取矫正后的直播图像的轮廓图。
10.一种直播图像的弱语义轮廓检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测的直播图像;
轮廓特征获取模块,用于通过预先训练好的弱语义轮廓检测模型中的编码器获取所述直播图像中的轮廓特征;其中,所述弱语义轮廓检测模型包括编码器、分类模块和解码器;
完整物体确认模块,用于通过所述分类模块根据所述轮廓特征确定所述直播图像是否包含有至少一个的完整物体;
轮廓图获取模块,用于若检测到所述直播图像中包含有至少一个的完整物体,通过所述解码器提取所述直播图像中的物体轮廓,获取直播图像的轮廓图。
11.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至9中任意一项所述的直播图像的弱语义轮廓检测方法。
12.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至9中任意一项所述的直播图像的弱语义轮廓检测方法。
CN202111057853.5A 2021-09-09 2021-09-09 直播图像的弱语义轮廓检测方法、装置、设备及存储介质 Pending CN113808151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111057853.5A CN113808151A (zh) 2021-09-09 2021-09-09 直播图像的弱语义轮廓检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111057853.5A CN113808151A (zh) 2021-09-09 2021-09-09 直播图像的弱语义轮廓检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113808151A true CN113808151A (zh) 2021-12-17

Family

ID=78940583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111057853.5A Pending CN113808151A (zh) 2021-09-09 2021-09-09 直播图像的弱语义轮廓检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113808151A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519666A (zh) * 2022-02-18 2022-05-20 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118091A (zh) * 2018-08-15 2019-01-01 南京光辉互动网络科技股份有限公司 一种艺术素质测评系统
CN110287771A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 图像手掌区域提取方法及装置
CN110633676A (zh) * 2019-09-18 2019-12-31 东北大学 一种自动识别脑脊液细胞图像信息方法
US20200151497A1 (en) * 2018-11-12 2020-05-14 Sony Corporation Semantic segmentation with soft cross-entropy loss
CN112085739A (zh) * 2020-08-20 2020-12-15 深圳力维智联技术有限公司 基于弱监督的语义分割模型的训练方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118091A (zh) * 2018-08-15 2019-01-01 南京光辉互动网络科技股份有限公司 一种艺术素质测评系统
US20200151497A1 (en) * 2018-11-12 2020-05-14 Sony Corporation Semantic segmentation with soft cross-entropy loss
CN110287771A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 图像手掌区域提取方法及装置
CN110633676A (zh) * 2019-09-18 2019-12-31 东北大学 一种自动识别脑脊液细胞图像信息方法
CN112085739A (zh) * 2020-08-20 2020-12-15 深圳力维智联技术有限公司 基于弱监督的语义分割模型的训练方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519666A (zh) * 2022-02-18 2022-05-20 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质
CN114519666B (zh) * 2022-02-18 2023-09-19 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108121986B (zh) 目标检测方法及装置、计算机装置和计算机可读存储介质
CN108229322B (zh) 基于视频的人脸识别方法、装置、电子设备及存储介质
CN108876792B (zh) 语义分割方法、装置和系统及存储介质
US10846870B2 (en) Joint training technique for depth map generation
CN113657390B (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
CN108304775B (zh) 遥感图像识别方法、装置、存储介质以及电子设备
US20190172223A1 (en) Optimizations for Dynamic Object Instance Detection, Segmentation, and Structure Mapping
CN110135424B (zh) 倾斜文本检测模型训练方法和票证图像文本检测方法
CN108875537B (zh) 对象检测方法、装置和系统及存储介质
CN108876804B (zh) 抠像模型训练和图像抠像方法、装置和系统及存储介质
CN105917354A (zh) 用于图像处理的空间金字塔池化网络
CN113822428A (zh) 神经网络训练方法及装置、图像分割方法
CN110399882A (zh) 一种基于可变形卷积神经网络的文字检测方法
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN114511661A (zh) 图像渲染方法、装置、电子设备及存储介质
CN110827320A (zh) 基于时序预测的目标跟踪方法和装置
CN112464798A (zh) 文本识别方法及装置、电子设备、存储介质
CN115829915A (zh) 图像质量检测方法、电子设备、存储介质及程序产品
CN113469025B (zh) 应用于车路协同的目标检测方法、装置、路侧设备和车辆
CN113808151A (zh) 直播图像的弱语义轮廓检测方法、装置、设备及存储介质
CN113808040A (zh) 直播图像的轮廓矫正方法、装置、设备及存储介质
CN114419322B (zh) 一种图像实例分割方法、装置、电子设备及存储介质
CN114820755B (zh) 一种深度图估计方法及系统
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination