CN111126372A - 视频中logo区域的标记方法、装置及电子设备 - Google Patents

视频中logo区域的标记方法、装置及电子设备 Download PDF

Info

Publication number
CN111126372A
CN111126372A CN201911203383.1A CN201911203383A CN111126372A CN 111126372 A CN111126372 A CN 111126372A CN 201911203383 A CN201911203383 A CN 201911203383A CN 111126372 A CN111126372 A CN 111126372A
Authority
CN
China
Prior art keywords
area
logo
clustering
determined
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911203383.1A
Other languages
English (en)
Other versions
CN111126372B (zh
Inventor
李果
张玉梅
张文杰
贺沁雯
李虎
樊鸿飞
蔡媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201911203383.1A priority Critical patent/CN111126372B/zh
Publication of CN111126372A publication Critical patent/CN111126372A/zh
Application granted granted Critical
Publication of CN111126372B publication Critical patent/CN111126372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种视频中logo区域的标记方法、装置及电子设备。包括:从视频帧中识别出至少一个文字区域;对每个文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,聚类结果包括:以扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,扩展区域包括对应的文字区域,扩展区域的面积大于对应的文字区域的面积;根据聚类结果,确定每个文字区域对应的待定logo区域;其中,待定logo区域中包含对应的文字区域;将满足预设条件的待定logo区域标记为视频帧中的目标logo区域。根据本发明,可以自动识别视频中目标logo区域并进行标记。

Description

视频中logo区域的标记方法、装置及电子设备
技术领域
本发明涉及视频处理技术领域,更具体地,涉及一种视频中logo区域的标记方法、一种视频中logo区域的标记装置、一种电子设备以及一种计算机可读存储介质。
背景技术
目前,用户常常选择观看视频度过休闲时间。因此,作为提高曝光率的一种有效手段,在视频中植入商品或品牌的广告logo被广泛应用。
在视频后期制作时,要植入商品或品牌的广告logo,需要先对视频中待植入广告logo的区域进行标定。现有技术中,对待植入广告logo的区域进行标定,需要由工作人员人工标注大量数据集后,利用深度学习目标检测算法,计算得到视频中待植入广告logo的区域,从而实现对广告logo区域的标定。
但现有的广告logo区域的标定方法,人工成本较高,且对于数据集中不存在的logo数据很可能无法识别,导致泛化性能较差。因此,需要提供一种新的方法来提高对视频中广告logo区域进行标记的效率及泛化性能。
发明内容
本发明实施例的一个目的是提供一种用于视频中logo区域的标记的新的技术方案。
根据本发明的第一方面,提供了一种视频中logo区域的标记方法,所述方法包括:
从视频帧中识别出至少一个文字区域;
对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,所述聚类结果包括:以所述扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以所述扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,所述扩展区域包括对应的所述文字区域,所述扩展区域的面积大于对应的所述文字区域的面积;
根据所述聚类结果,确定每个所述文字区域对应的待定logo区域;其中,所述待定logo区域中包含对应的所述文字区域;
将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域。
可选地,所述从视频帧中识别出至少一个文字区域,包括:
通过深度学习文字检测算法,从所述视频帧中识别出所述至少一个文字区域。
可选地,所述对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,包括:
利用所述聚类算法对每个所述文字区域内的像素点进行2类别聚类计算,得到对应的2个聚类中心及聚类模型;其中,所述聚类中心包括以logo文字的颜色和logo背景的颜色;
将每个所述文字区域按照预设比例扩大,得到对应的扩展区域;
通过所述聚类模型计算对应的扩展区域内,每个像素点的类别,以及每个所述像素点到相应类别的聚类中心的距离;
在所述像素点到相应类别的聚类中心的距离符合预设阈值时,确定以所述扩展区域中logo文字的颜色为聚类中心的第一像素点集合,以及确定以所述扩展区域中logo背景的颜色为聚类中心的第二像素点集合。
可选地,所述预设条件包括:
所述待定logo区域的面积大于预设面积;
所述待定logo区域的角点数量小于预设角点数量;
所述待定logo区域中的logo背景区域完全被包含在所述扩展区域内;
所述待定logo区域中的logo文字区域完全被包含在所述logo背景区域内;
所述待定logo区域中的logo背景区域与所述扩展区域的面积比例大于预设比例值;以及,
所述待定logo区域中的logo背景区域的长宽比符合预设范围区间。
可选地,所述将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域,包括:
在满足所述预设条件的所述待定logo区域的边缘处添加虚线框以进行标记;或者,
对满足所述预设条件的所述待定logo区域内的像素点添加标签以进行标记。
可选地,在所述将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域之后,所述方法还包括:
将用于展示的目标logo图像添加至所述目标logo区域中。
根据本发明实施例的第二方面,提供了一种视频中logo区域的标记装置,所述装置包括:
识别模块,用于从视频帧中识别出至少一个文字区域;
获取模块,用于对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,所述聚类结果包括:以所述扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以所述扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,所述扩展区域包括对应的所述文字区域,所述扩展区域的面积大于对应的所述文字区域的面积;
确定模块,用于根据所述聚类结果,确定每个所述文字区域对应的待定logo区域;其中,所述待定logo区域中包含对应的所述文字区域;
标记模块,用于将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域。
可选地,所述获取模块具体用于:
利用所述聚类算法对每个所述文字区域内的像素点进行2类别聚类计算,得到对应的2个聚类中心及聚类模型;其中,所述聚类中心包括以logo文字的颜色和logo背景的颜色;
将每个所述文字区域按照预设比例扩大,得到对应的扩展区域;
通过所述聚类模型计算对应的扩展区域内,每个像素点的类别,以及每个所述像素点到相应类别的聚类中心的距离;
在所述像素点到相应类别的聚类中心的距离符合预设阈值时,确定以所述扩展区域中logo文字的颜色为聚类中心的第一像素点集合,以及确定以所述扩展区域中logo背景的颜色为聚类中心的第二像素点集合。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器以及存储器:所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;所述处理器用于根据所述计算机程序,执行如上所述的视频中logo区域的标记方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行如上所述的视频中logo区域的标记方法。
根据本发明的一个实施例,通过从视频帧中识别出至少一个文字区域;对每个文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,聚类结果包括:以扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,扩展区域包括对应的文字区域,扩展区域的面积大于对应的文字区域的面积;根据聚类结果,确定每个文字区域对应的待定logo区域;其中,待定logo区域中包含对应的文字区域;将满足预设条件的待定logo区域标记为视频帧中的目标logo区域。从而实现了自动识别视频中目标logo区域并进行标记,节省人工成本且识别的泛化性能较高。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1为可以应用根据本发明实施例的视频中logo区域的标记方法的一种电子设备的结构示意图;
图2是根据本发明实施例的视频中logo区域的标记方法的流程图;
图3是根据本发明实施例的方法识别出的文字区域的示意图;
图4a是根据本发明实施例根据文字区域A确定出的待定logo区域中的logo背景区域的示意图;
图4b是根据本发明实施例根据文字区域A确定出的待定logo区域中的logo文字区域的示意图;
图5a是根据本发明实施例根据文字区域B确定出的待定logo区域中的logo背景区域的示意图;
图5b是根据本发明实施例根据文字区域B确定出的待定logo区域中的logo文字区域的示意图;
图6是根据本发明实施例的方法标记出的logo区域的示意图;
图7是根据本发明实施例的视频中logo区域的标记装置的原理框图;
图8是根据本发明实施例的电子设备的原理框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1为可以应用根据本发明实施例的视频中logo区域的标记方法的一种电子设备的结构示意图。
如图1所示,本实施例的电子设备1000例如可以是AR眼镜、AR头盔等设备。具体的,该电子设备1000可以包括处理器1010、存储器1020、接口装置1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080,等等。
其中,处理器1010可以是中央处理器CPU、微处理器MCU等。存储器1020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1030例如包括USB接口、耳机接口等。通信装置1040例如能够进行有线或无线通信。显示装置1050例如是液晶显示屏、触摸显示屏等。输入装置1060例如可以包括触摸屏、键盘等。
电子设备1000可以通过扬声器1070输出音频信息。电子设备1000可以通过麦克风1080拾取用户输入的语音信息。
本实施例中,电子设备1000从视频帧中识别出至少一个文字区域;对每个文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,聚类结果包括:以扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,扩展区域包括对应的文字区域,扩展区域的面积大于对应的文字区域的面积;根据聚类结果,确定每个文字区域对应的待定logo区域;其中,待定logo区域中包含对应的文字区域;将满足预设条件的待定logo区域标记为视频帧中的目标logo区域。
在本实施例中,电子设备1000的存储器1020用于存储指令,该指令用于控制该处理器1010进行操作以支持实现根据本发明任意实施例的视频中logo区域的标记方法。技术人员可以根据本发明实施例所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
本领域技术人员应当理解,尽管在图1中示出了电子设备1000的多个装置,但是,本发明实施例的电子设备1000可以仅涉及其中的部分装置,例如,只涉及处理器1010、存储器1020、显示装置1050、输入装置1060等。
<方法实施例>
本实施例提供了一种视频中logo区域的标记方法,该方法例如可以由电子设备实施,该电子设备可以是包含如图1所示的电子设备1000。
如图2所示,该方法包括以下步骤2100~2400:
步骤2100,从视频帧中识别出至少一个文字区域。
logo区域一般包括logo背景区域和logo文字区域。本实施例中,需要对视频的每一个视频帧都进行文字区域检测。具体的,可以通过文字检测算法从视频帧中检测每一个视频帧的文字区域。
在一个例子中,该电子设备1000可以通过深度学习文字检测算法EAST,从该视频帧中识别出该至少一个文字区域。或者,该电子设备1000也可以采用传统的文字检测算法,如边缘检测算法,从该视频帧中识别出该至少一个文字区域。本实施例对此不作具体限定。
如图3所示的视频帧图像中,该电子设备1000通过深度学习文字检测算法EAST,可以从该视频帧图像中识别出三个文字区域,如图3中框出的区域。
步骤2200,对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果。
其中,所述聚类结果包括:以所述扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以所述扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,所述扩展区域包括对应的所述文字区域,所述扩展区域的面积大于对应的所述文字区域的面积。
对于上述步骤2100中确定出的每个文字区域,在本步骤中要获取每个文字区域对应的待定logo区域。而聚类算法可以将一个数据集中在某些方面具有相似性的数据成员进行分类组织,例如,K均值聚类算法,在给定数据点集合、距离函数和聚类数据K时,可以根据距离函数逐步把所有数据点各自分到K个类别中。因此,本实施例中,该电子设备1000可以采用K均值聚类算法将文字区域内的像素点分为两个类别。
具体的,该电子设备1000通过K均值聚类算法对该文字区域内的像素点进行2类别聚类计算,得到对应的2个聚类中心及聚类模型,其中,所述聚类中心包括以logo文字的颜色和logo背景的颜色。
该电子设备1000将每个该文字区域按照预设比例扩大,得到对应的扩展区域。通过该聚类模型计算对应的扩展区域内,每个像素点的类别,以及每个该像素点到相应类别的聚类中心的距离;在该像素点到相应类别的聚类中心的距离符合预设阈值时,确定以所述扩展区域中logo文字的颜色为聚类中心的第一像素点集合,以及确定以所述扩展区域中logo背景的颜色为聚类中心的第二像素点集合。
步骤2300,根据所述聚类结果,确定每个所述文字区域对应的待定logo区域;其中,所述待定logo区域中包含对应的所述文字区域。
例如,对于图3中识别出的文字区域A,在执行本步骤的操作后,确定出的该待定广告logo区域中的logo背景区域如图4a所示,确定出的该待定广告logo区域中的logo文字区域如图4b所示。
又例如,对于图3中识别出的文字区域B,在执行本步骤的操作后,确定出的该待定广告logo区域中的logo背景区域如图5a所示,确定出的该待定广告logo区域中的logo文字区域如图5b所示。
步骤2400,将满足预设条件的该待定logo区域标记为该视频帧中的目标logo区域。
上述步骤中确定出的该待定logo区域并不一定都是logo区域,因此,需要设置预设条件对所有的该待定logo区域进行筛选,符合该预设条件的该待定logo区域才是该视频帧中的目标logo区域。
其中,该预设条件包括:该待定logo区域的面积大于预设面积;该待定logo区域的角点数量小于预设角点数量;该待定logo区域中的logo背景区域完全被包含在该扩展区域内;该待定logo区域中的logo文字区域完全被包含在该logo背景区域内;该待定logo区域中的logo背景区域与该扩展区域的面积比例大于预设比例值;以及,该待定logo区域中的logo背景区域的长宽比符合预设范围区间。其中,角点是图像中物体轮廓线的连接点,例如,一个矩形区域包括四个角点。
该电子设备1000对于每个该待定logo区域,一一判断其是否满足该预设条件中的每一条,如果均满足,则确认该待定logo区域是该视频帧中目标logo区域。若不满足上述预设条件中的任意一条,都认为该待定logo区域不是该视频帧中目标logo区域,丢弃该待定logo区域,不对其进行标记。
在可选实施例中,将满足预设条件的待定logo区域标记为视频帧中的目标logo区域,包括:在满足预设条件的待定logo区域的边缘处添加虚线框以进行标记;或者,对满足预设条件的待定logo区域内的像素点添加标签以进行标记。可以理解的是,对于标记的方式并不限于此。
如图6所示,对该待定logo区域进行筛选后,将文字区域A确定为视频帧中的logo区域,并在该视频帧图像中用实线框将该区域标记出来。
进一步地,在本发明可选实施例中,在标记出视频帧中的目标logo区域之后,还可以将用于展示的目标logo图像添加至该目标logo区域中。
具体的,目标logo图像通常可以包括目标logo文字和目标logo背景图像。在将目标logo图像添加至该目标logo区域中可以包括:将目标logo背景图像添加至该目标logo区域中,然后对目标logo文字的姿态进行调整后,将目标logo文字添加至目标logo背景图像中,完成目标logo区域中目标logo图像的添加操作。
在本发明可选实施例中,将目标logo背景图像添加至该目标logo区域中可以包括:将原始logo背景图像和目标logo背景图像的格式转换为YUV格式,分别得到原始logo图像的YUV值和目标logo图像的YUV值;将原始logo图像的UV值替换为目标logo图像的UV值,以将原始logo背景图像替换为目标logo背景图像。这里,将原始logo背景图像替换为目标logo背景图像之前,还可以包括:丢弃原始logo文字所在区域对应的图像信息;通过图像修补算法,将原始logo文字所在区域的颜色变更为第一颜色,其中,第一颜色为原始logo背景图像所在区域的颜色。
其中,目标logo文字的姿态进行调整可以包括:通过仿射变换算法,根据原始logo文字的姿态,调整待添加的目标logo文字的姿态。
为了使得添加目标logo后图像自然清晰,在本发明可选实施例中,还可以通过抗锯齿算法,对目标logo图像进行边缘抗锯齿处理。
以上已结合附图对本实施例的视频中logo区域的标记方法进行了说明。本实施例的方法通过从视频帧中识别出至少一个文字区域;对每个文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,聚类结果包括:以扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,扩展区域包括对应的文字区域,扩展区域的面积大于对应的文字区域的面积;根据聚类结果,确定每个文字区域对应的待定logo区域;其中,待定logo区域中包含对应的文字区域;将满足预设条件的待定logo区域标记为视频帧中的目标logo区域。从而实现了自动识别视频中logo区域并进行标记,节省人工成本且识别的泛化性能较高。
<装置实施例>
本实施例提供一种视频中logo区域的标记装置,该装置例如是图7所示的视频中logo区域的标记装置7000。
如图7所示,该视频中logo区域的标记装置7000可以包括识别模块7100、获取模块7200、确定模块7300以及标记模块7400。
具体的,该识别模块7100用于从视频帧中识别出至少一个文字区域。
该获取模块7200用于对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果。其中,所述聚类结果包括:以所述扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以所述扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,所述扩展区域包括对应的所述文字区域,所述扩展区域的面积大于对应的所述文字区域的面积。
该确定模块7300,用于根据所述聚类结果,确定每个所述文字区域对应的待定logo区域;其中,所述待定logo区域中包含对应的所述文字区域。
该标记模块7400用于将满足预设条件的该待定logo区域标记为该视频帧中的目标logo区域。
可选地,该识别模块7100可以通过深度学习文字检测算法,从该视频帧中识别出该至少一个文字区域。
在一个实施例中,该获取模块7200具体可以用于:利用所述聚类算法对每个所述文字区域内的像素点进行2类别聚类计算,得到对应的2个聚类中心及聚类模型;其中,所述聚类中心包括以logo文字的颜色和logo背景的颜色;将每个所述文字区域按照预设比例扩大,得到对应的扩展区域;通过所述聚类模型计算对应的扩展区域内,每个像素点的类别,以及每个所述像素点到相应类别的聚类中心的距离;在所述像素点到相应类别的聚类中心的距离符合预设阈值时,确定以所述扩展区域中logo文字的颜色为聚类中心的第一像素点集合,以及确定以所述扩展区域中logo背景的颜色为聚类中心的第二像素点集合。
其中,该预设条件包括:该待定logo区域的面积大于预设面积;该待定logo区域的角点数量小于预设角点数量;该待定logo区域中的logo背景区域完全被包含在该扩展区域内;该待定logo区域中的logo文字区域完全被包含在该logo背景区域内;该待定logo区域中的logo背景区域与该扩展区域的面积比例大于预设比例值;以及,该待定logo区域中的logo背景区域的长宽比符合预设范围区间。
可选地,该标记模块7400可以用于在该logo区域的边缘添加虚线框以进行标记;或者,在该logo区域内添加标签以进行标记。
进一步地,该视频中logo区域的标记装置7000还可以包括添加模块,用于将用于展示的目标logo图像添加至目标logo区域中。
本实施例的视频中logo区域的标记装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
<设备实施例>
本实施例中,还提供一种电子设备,包括:处理器以及存储器:存储器用于存储计算机程序,并将计算机程序传输给处理器;处理器用于根据计算机程序,执行如上的视频中logo区域的标记方法。
该电子设备包括本发明装置实施例中描述的视频中logo区域的标记装置7000;或者,该电子设备为图8所示的电子设备8000,包括:
存储器8100,用于存储可执行命令。
处理器8200,用于在存储器8100存储的可执行命令的控制下,执行本发明任意方法实施例中描述的方法。
在电子设备根据所执行的方法实施例的实施主体,可以是服务器,也可以是终端设备。
<计算机可读存储介质实施例>
提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行如上所述的视频中logo区域的标记方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种视频中logo区域的标记方法,其特征在于,所述方法包括:
从视频帧中识别出至少一个文字区域;
对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,所述聚类结果包括:以所述扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以所述扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,所述扩展区域包括对应的所述文字区域,所述扩展区域的面积大于对应的所述文字区域的面积;
根据所述聚类结果,确定每个所述文字区域对应的待定logo区域;其中,所述待定logo区域中包含对应的所述文字区域;
将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域。
2.根据权利要求1所述的方法,其特征在于,所述从视频帧中识别出至少一个文字区域,包括:
通过深度学习文字检测算法,从所述视频帧中识别出所述至少一个文字区域。
3.根据权利要求1所述的方法,其特征在于,所述对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,包括:
利用所述聚类算法对每个所述文字区域内的像素点进行2类别聚类计算,得到对应的2个聚类中心及聚类模型;其中,所述聚类中心包括以logo文字的颜色和logo背景的颜色;
将每个所述文字区域按照预设比例扩大,得到对应的扩展区域;
通过所述聚类模型计算对应的扩展区域内,每个像素点的类别,以及每个所述像素点到相应类别的聚类中心的距离;
在所述像素点到相应类别的聚类中心的距离符合预设阈值时,确定以所述扩展区域中logo文字的颜色为聚类中心的第一像素点集合,以及确定以所述扩展区域中logo背景的颜色为聚类中心的第二像素点集合。
4.根据权利要求3所述的方法,其特征在于,所述预设条件包括:
所述待定logo区域的面积大于预设面积;
所述待定logo区域的角点数量小于预设角点数量;
所述待定logo区域中的logo背景区域完全被包含在所述扩展区域内;
所述待定logo区域中的logo文字区域完全被包含在所述logo背景区域内;
所述待定logo区域中的logo背景区域与所述扩展区域的面积比例大于预设比例值;以及,
所述待定logo区域中的logo背景区域的长宽比符合预设范围区间。
5.根据权利要求1所述的方法,其特征在于,所述将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域,包括:
在满足所述预设条件的所述待定logo区域的边缘处添加虚线框以进行标记;或者,
对满足所述预设条件的所述待定logo区域内的像素点添加标签以进行标记。
6.根据权利要求1所述的方法,其特征在于,在所述将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域之后,所述方法还包括:
将用于展示的目标logo图像添加至所述目标logo区域中。
7.一种视频中logo区域的标记装置,其特征在于,所述装置包括:
识别模块,用于从视频帧中识别出至少一个文字区域;
获取模块,用于对每个所述文字区域对应的扩展区域内的像素点分别进行聚类处理,获得聚类结果,其中,所述聚类结果包括:以所述扩展区域中的logo文字的颜色为聚类中心的第一像素点集合和以所述扩展区域中的logo背景的颜色为聚类中心的第二像素点集合,所述扩展区域包括对应的所述文字区域,所述扩展区域的面积大于对应的所述文字区域的面积;
确定模块,用于根据所述聚类结果,确定每个所述文字区域对应的待定logo区域;其中,所述待定logo区域中包含对应的所述文字区域;
标记模块,用于将满足预设条件的所述待定logo区域标记为所述视频帧中的目标logo区域。
8.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
利用所述聚类算法对每个所述文字区域内的像素点进行2类别聚类计算,得到对应的2个聚类中心及聚类模型;其中,所述聚类中心包括以logo文字的颜色和logo背景的颜色;
将每个所述文字区域按照预设比例扩大,得到对应的扩展区域;
通过所述聚类模型计算对应的扩展区域内,每个像素点的类别,以及每个所述像素点到相应类别的聚类中心的距离;
在所述像素点到相应类别的聚类中心的距离符合预设阈值时,确定以所述扩展区域中logo文字的颜色为聚类中心的第一像素点集合,以及确定以所述扩展区域中logo背景的颜色为聚类中心的第二像素点集合。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储器:所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;所述处理器用于根据所述计算机程序,执行权利要求1至6任一项所述的视频中logo区域的标记方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至6任一项所述的视频中logo区域的标记方法。
CN201911203383.1A 2019-11-29 2019-11-29 视频中logo区域的标记方法、装置及电子设备 Active CN111126372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911203383.1A CN111126372B (zh) 2019-11-29 2019-11-29 视频中logo区域的标记方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911203383.1A CN111126372B (zh) 2019-11-29 2019-11-29 视频中logo区域的标记方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111126372A true CN111126372A (zh) 2020-05-08
CN111126372B CN111126372B (zh) 2023-07-11

Family

ID=70497181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911203383.1A Active CN111126372B (zh) 2019-11-29 2019-11-29 视频中logo区域的标记方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111126372B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488885A (zh) * 2020-06-28 2020-08-04 成都四方伟业软件股份有限公司 一种图片主题色系智能提取方法及装置
CN112215862A (zh) * 2020-10-12 2021-01-12 虎博网络技术(上海)有限公司 静态标识检测方法、装置、终端设备和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388067A (zh) * 2007-09-12 2009-03-18 中国科学院自动化研究所 一种互动娱乐商标广告的植入方法
CN102799653A (zh) * 2012-06-29 2012-11-28 中国科学院自动化研究所 一种基于空间连通域预定位的商标检测方法
CN102833625A (zh) * 2012-08-21 2012-12-19 李友林 在视频中动态植入广告的装置及方法
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN108217222A (zh) * 2017-12-29 2018-06-29 中交机电工程局有限公司 避免车厢反位列车作业事故的四翻翻车机自动作业算法
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN109714644A (zh) * 2019-01-22 2019-05-03 广州虎牙信息科技有限公司 一种视频数据的处理方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388067A (zh) * 2007-09-12 2009-03-18 中国科学院自动化研究所 一种互动娱乐商标广告的植入方法
CN102799653A (zh) * 2012-06-29 2012-11-28 中国科学院自动化研究所 一种基于空间连通域预定位的商标检测方法
CN102833625A (zh) * 2012-08-21 2012-12-19 李友林 在视频中动态植入广告的装置及方法
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN108217222A (zh) * 2017-12-29 2018-06-29 中交机电工程局有限公司 避免车厢反位列车作业事故的四翻翻车机自动作业算法
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN109714644A (zh) * 2019-01-22 2019-05-03 广州虎牙信息科技有限公司 一种视频数据的处理方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488885A (zh) * 2020-06-28 2020-08-04 成都四方伟业软件股份有限公司 一种图片主题色系智能提取方法及装置
CN111488885B (zh) * 2020-06-28 2020-09-25 成都四方伟业软件股份有限公司 一种图片主题色系智能提取方法及装置
CN112215862A (zh) * 2020-10-12 2021-01-12 虎博网络技术(上海)有限公司 静态标识检测方法、装置、终端设备和可读存储介质
CN112215862B (zh) * 2020-10-12 2024-01-26 虎博网络技术(上海)有限公司 静态标识检测方法、装置、终端设备和可读存储介质

Also Published As

Publication number Publication date
CN111126372B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN113378833B (zh) 图像识别模型训练方法、图像识别方法、装置及电子设备
US10110933B2 (en) Video file processing
CN111126108B (zh) 图像检测模型的训练和图像检测方法及装置
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
US20180225514A1 (en) Identifying objects in an image
CN110084172B (zh) 文字识别方法、装置和电子设备
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN111126372B (zh) 视频中logo区域的标记方法、装置及电子设备
CN111192190A (zh) 消除图像水印的方法、装置及电子设备
CN109816023B (zh) 用于生成图片标签模型的方法和装置
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
CN110992251B (zh) 视频中logo替换方法、装置及电子设备
CN109598206B (zh) 动态手势识别方法及装置
CN111914850B (zh) 图片特征提取方法、装置、服务器和介质
CN113379592B (zh) 图片中敏感区域的处理方法、装置和电子设备
CN115564976A (zh) 图像处理方法、装置、介质及设备
CN112911367B (zh) 视频播放界面的处理方法、装置和电子设备
CN111010606B (zh) 视频处理方法和装置
KR101525409B1 (ko) 이미지 인식모듈을 이용한 컨텐츠 증강방법
CN115761389A (zh) 图像样本的增广方法、装置、电子设备及存储介质
CN113627526A (zh) 车辆标识的识别方法、装置、电子设备和介质
CN113887394A (zh) 一种图像处理方法、装置、设备及存储介质
CN113127058A (zh) 数据标注方法、相关装置及计算机程序产品
CN111612714A (zh) 图像修复方法、装置和电子设备
CN113065544A (zh) 一种文字识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant