CN111950424A - 一种视频数据处理方法、装置、计算机及可读存储介质 - Google Patents

一种视频数据处理方法、装置、计算机及可读存储介质 Download PDF

Info

Publication number
CN111950424A
CN111950424A CN202010783397.1A CN202010783397A CN111950424A CN 111950424 A CN111950424 A CN 111950424A CN 202010783397 A CN202010783397 A CN 202010783397A CN 111950424 A CN111950424 A CN 111950424A
Authority
CN
China
Prior art keywords
icon
image
video
standard
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010783397.1A
Other languages
English (en)
Other versions
CN111950424B (zh
Inventor
刘梦源
陈宸
黎伟
肖万鹏
鞠奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010783397.1A priority Critical patent/CN111950424B/zh
Publication of CN111950424A publication Critical patent/CN111950424A/zh
Application granted granted Critical
Publication of CN111950424B publication Critical patent/CN111950424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种视频数据处理方法、装置、计算机及可读存储介质,可以使用人工智能领域的计算机视觉及深度学习等技术,该方法包括:获取目标视频,从目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;将目标视频划分为标准图标对应的视频类别。采用本申请,提高了对视频中的图标进行识别的准确性。

Description

一种视频数据处理方法、装置、计算机及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频数据处理方法、装置、计算机及可读存储介质。
背景技术
图标是电视媒体和网络媒体等的图形化标识,一般位于视频的四个顶点周边区域,这里的图标特指图形化而非纯文本形式的标识,例如,媒体标志(logo)或个人标志等。当需要确定该视频的发布方,或者基于发布方对视频进行分类时,需要识别该视频中的图标。目前,一般会通过人工去识别视频中的图标,或者使用卷积神经网络检测识别视频中的图标,其中,由于一般情况下,需要识别的视频的数量较多,而且每个视频的时长不定,即可能存在较长的视频,而视频中不一定每一帧都存在图标,使得通过人工识别会耗费大量的时间和精力。而通过卷积神经网络识别视频中的图标的位置时,由于卷积神经网络的泛化性较强,因此,可能会将语义相似的图像块识别为图标,导致图标识别的准确性较差。
发明内容
本申请实施例提供了一种视频数据处理方法、装置、计算机及可读存储介质,可以提高对视频中的图标进行识别的准确性。
本申请实施例一方面提供了一种视频数据处理方法,该方法包括:
获取目标视频,从目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;
从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;
将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;
将目标视频划分为标准图标对应的视频类别。
其中,获取目标视频,从目标视频中获取待检测图像,包括:
将目标视频拆分得到至少两个视频帧图像,获取目标视频的视频时长;
根据视频时长确定帧采集时间间隔,基于帧采集时间间隔从至少两个视频帧图像中获取至少两个提取帧图像;
将至少两个提取帧图像进行叠加,得到待检测图像。
其中,根据视频时长确定帧采集时间间隔,基于帧采集时间间隔从至少两个视频帧图像中获取至少两个提取帧图像,包括:
获取视频时长所属的目标时长范围,获取目标时长范围对应的图像提取规则;该图像提取规则包括图像分组数及图像提取帧数;
根据图像分组数,将至少两个视频帧图像划分为帧图像组,获取帧图像组对应的视频拆分时长;帧图像组的数量与图像分组数相等;
根据视频拆分时长及图像提取帧数确定帧采集时间间隔,基于帧采集时间间隔获取帧图像组对应的至少两个提取帧图像。
其中,将至少两个提取帧图像进行叠加,得到待检测图像,包括:
将至少两个提取帧图像转化为至少两个提取灰度图;
获取第i个提取灰度图中的各个像素点的像素灰度值,根据各个像素点的像素灰度值,以及各个像素点在第i个提取灰度图中的像素位置,获取第i个提取灰度图的至少两个行灰度叠加值及至少两个列灰度叠加值;i为小于或等于N的正整数,N为至少两个提取灰度图的数量;
根据至少两个行灰度叠加值确定第i个提取灰度图的行保留位置信息,根据至少两个列灰度叠加值确定第i个提取灰度图的列保留位置信息;
基于行保留位置信息及列保留位置信息,确定第i个提取灰度图中的保留区域,截取第i个提取灰度图中的保留区域,得到第i个提取灰度图的待处理灰度图;
当获得每个提取灰度图分别对应的待处理灰度图时,将每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像。
其中,根据至少两个行灰度叠加值确定第i个提取灰度图的行保留位置信息,根据至少两个列灰度叠加值确定第i个提取灰度图的列保留位置信息,包括:
从至少两个行灰度叠加值中,获取处于灰度保留范围的行灰度叠加值,根据处于灰度保留范围的行灰度叠加值,在第i个提取灰度图中获取行保留位置信息;
从至少两个列灰度叠加值中,获取处于灰度保留范围的列灰度叠加值,根据处于灰度保留范围的列灰度叠加值,在第i个提取灰度图中获取列保留位置信息。
其中,当获得每个提取灰度图分别对应的待处理灰度图时,将每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像,包括:
获取目标视频的视频图标预估位置,根据视频图标预估位置从每个待处理灰度图中获取待识别区域;
将每个待处理灰度图的待识别区域进行灰度拼接,得到待检测图像。
其中,将候选区域与标准图标进行匹配,包括:
提取候选区域的M个候选关键点,获取M个候选关键点分别对应的候选点特征;M为正整数;
提取标准图标的K个标准关键点,获取K个标准关键点分别对应的标准点特征;K为正整数;
对M个候选关键点分别对应的候选点特征及K个标准关键点分别对应的标准点特征进行组合,得到P个关键特征对;P为正整数,P大于或等于M与K中的最小值,且P小于或等于M*K;
依次对P个关键特征对中的候选点特征及标准点特征进行匹配;
该方法还包括:
若在P个关键特征对中,匹配成功的关键特征对的数量大于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配成功结果;
若在P个关键特征对中,匹配成功的关键特征对的数量小于或等于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配失败结果。
其中,该方法还包括:
获取目标视频所在的第一应用平台,获取标准图标对应的第二应用平台;
若第一应用平台与第二应用平台不同,则获取第二应用平台对应的转载权限;
若转载权限为禁用状态,则确定第一应用平台中的目标视频为非法视频,向第一应用平台发送目标视频非法提示消息。
其中,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型,包括:
将待检测图像输入图标识别模型,基于图标识别模型提取待检测图像的图像特征;
根据图像特征确定待检测图像中的图标预测边框及图标预测标签,将图标预测边框所指示的区域确定为预测图标区域,将图标预测标签对应的图标类型确定为预测图标区域对应的预测图标类型。
其中,其特征在于,该方法还包括:
获取包含标准图标样本的图像样本,从图像样本中获取标准图标样本;
获取至少两个随机图像,将标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本;
根据至少两个图标训练样本对初始识别模型进行训练,得到图标识别模型。
其中,将标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本,包括:
获取第j个随机图像的随机图像尺寸,基于图标显示比例及随机图像尺寸,确定标准图标样本的图标显示尺寸,将标准图标样本的尺寸调整为图标显示尺寸;j为正整数,j小于或等于至少两个随机图像的数量;图标显示比例用于表征调整后的标准图标样本与第j个随机图像之间的尺寸比例;
将调整后的标准图标样本与第j个随机图像进行组合,得到第j个图标训练样本。
本申请实施例一方面提供了一种视频数据处理装置,该装置包括:
图标预测模块,用于获取目标视频,从目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;
图标获取模块,用于从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;
图标匹配模块,用于将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;
视频分类模块,用于将目标视频划分为标准图标对应的视频类别。
其中,在获取目标视频,从目标视频中获取待检测图像方面,该图标预测模块包括:
视频处理单元,用于将目标视频拆分得到至少两个视频帧图像,获取目标视频的视频时长;
图像采集单元,用于根据视频时长确定帧采集时间间隔,基于帧采集时间间隔从至少两个视频帧图像中获取至少两个提取帧图像;
图像叠加单元,用于将至少两个提取帧图像进行叠加,得到待检测图像。
其中,该图像采集单元,包括:
规则获取子单元,用于获取视频时长所属的目标时长范围,获取目标时长范围对应的图像提取规则;该图像提取规则包括图像分组数及图像提取帧数;
图像拆分子单元,用于根据图像分组数,将至少两个视频帧图像划分为帧图像组,获取帧图像组对应的视频拆分时长;帧图像组的数量与图像分组数相等;
图像提取子单元,用于根据视频拆分时长及图像提取帧数确定帧采集时间间隔,基于帧采集时间间隔获取帧图像组对应的至少两个提取帧图像。
其中,该图像叠加单元,包括:
灰度转化子单元,用于将至少两个提取帧图像转化为至少两个提取灰度图;
灰度值处理子单元,用于获取第i个提取灰度图中的各个像素点的像素灰度值,根据各个像素点的像素灰度值,以及各个像素点在第i个提取灰度图中的像素位置,获取第i个提取灰度图的至少两个行灰度叠加值及至少两个列灰度叠加值;i为小于或等于N的正整数,N为至少两个提取灰度图的数量;
位置确定子单元,用于根据至少两个行灰度叠加值确定第i个提取灰度图的行保留位置信息,根据至少两个列灰度叠加值确定第i个提取灰度图的列保留位置信息;
区域确定子单元,用于基于行保留位置信息及列保留位置信息,确定第i个提取灰度图中的保留区域,截取第i个提取灰度图中的保留区域,得到第i个提取灰度图的待处理灰度图;
图像获取子单元,用于当获得每个提取灰度图分别对应的待处理灰度图时,将每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像。
其中,该位置确定子单元,包括:
行灰度选取子单元,用于从至少两个行灰度叠加值中,获取处于灰度保留范围的行灰度叠加值,根据处于灰度保留范围的行灰度叠加值,在第i个提取灰度图中获取行保留位置信息;
列灰度选取子单元,用于从至少两个列灰度叠加值中,获取处于灰度保留范围的列灰度叠加值,根据处于灰度保留范围的列灰度叠加值,在第i个提取灰度图中获取列保留位置信息。
其中,该图像获取子单元,包括:
区域获取子单元,用于获取目标视频的视频图标预估位置,根据视频图标预估位置从每个待处理灰度图中获取待识别区域;
灰度拼接子单元,用于将每个待处理灰度图的待识别区域进行灰度拼接,得到待检测图像。
其中,在将候选区域与标准图标进行匹配方面,该图标匹配模块包括:
候选点获取单元,用于提取候选区域的M个候选关键点,获取M个候选关键点分别对应的候选点特征;M为正整数;
标准点获取单元,用于提取标准图标的K个标准关键点,获取K个标准关键点分别对应的标准点特征;K为正整数;
特征组合单元,用于对M个候选关键点分别对应的候选点特征及K个标准关键点分别对应的标准点特征进行组合,得到P个关键特征对;P为正整数,P大于或等于M与K中的最小值,且P小于或等于M*K;
特征匹配单元,用于依次对P个关键特征对中的候选点特征及标准点特征进行匹配;
该装置还包括:
结果确定模块,用于若在P个关键特征对中,匹配成功的关键特征对的数量大于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配成功结果;
该结果确定模块,还用于若在P个关键特征对中,匹配成功的关键特征对的数量小于或等于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配失败结果。
其中,该装置还包括:
平台获取模块,用于获取目标视频所在的第一应用平台,获取标准图标对应的第二应用平台;
权限确定模块,用于若第一应用平台与第二应用平台不同,则获取第二应用平台对应的转载权限;
非法确定模块,用于若转载权限为禁用状态,则确定第一应用平台中的目标视频为非法视频,向第一应用平台发送目标视频非法提示消息。
其中,在识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型方面,该图标预测模块包括:
特征提取单元,用于将待检测图像输入图标识别模型,基于图标识别模型提取待检测图像的图像特征;
特征预测单元,用于根据图像特征确定待检测图像中的图标预测边框及图标预测标签,将图标预测边框所指示的区域确定为预测图标区域,将图标预测标签对应的图标类型确定为预测图标区域对应的预测图标类型。
其中,该装置还包括:
图标提取模块,用于获取包含标准图标样本的图像样本,从图像样本中获取标准图标样本;
样本生成模块,用于获取至少两个随机图像,将标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本;
模型训练模块,用于根据至少两个图标训练样本对初始识别模型进行训练,得到图标识别模型。
其中,该样本生成模块,包括:
尺寸调整单元,用于获取第j个随机图像的随机图像尺寸,基于图标显示比例及随机图像尺寸,确定标准图标样本的图标显示尺寸,将标准图标样本的尺寸调整为图标显示尺寸;j为正整数,j小于或等于至少两个随机图像的数量;图标显示比例用于表征调整后的标准图标样本与第j个随机图像之间的尺寸比例;
样本获取单元,用于将调整后的标准图标样本与第j个随机图像进行组合,得到第j个图标训练样本。
本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用计算机程序,以执行本申请实施例一方面中的视频数据处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例一方面中的视频数据处理方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。
实施本申请实施例,将具有如下有益效果:
本申请实施例通过获取目标视频,从该目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;将目标视频划分为标准图标对应的视频类别。通过对目标视频进行识别,并对识别结果进行进一步检测,实现了对目标视频的双重验证,节省了时间和精力,并提高了对目标视频中图标识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种视频数据处理网络架构图;
图2是本申请实施例提供的一种视频数据处理的场景示意图;
图3是本申请实施例提供的一种视频数据处理的方法流程图;
图4a是本申请实施例提供的一种待检测图像获取场景示意图;
图4b是本申请实施例提供的另一种待检测图像获取场景示意图;
图5是本申请实施例提供了一种提取灰度图截取示意图;
图6是本申请实施例提供的一种目标视频处理过程示意图;
图7是本申请实施例提供的一种区域匹配场景示意图;
图8是本申请实施例提供的一种模型处理过程示意图;
图9是本申请实施例提供的一种视频数据处理装置示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
可选的,本申请可以采用人工智能领域中的计算机视觉技术及深度学习技术,实现对视频中待检测图像的识别及对识别结果的检测。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。例如,本申请中对视频中的待检测图像的自动化获取,对待检测图像中图标进行识别,并对识别结果进行检测,以得到对视频的识别结果,这整个过程都可以认为是由人工智能所实现的。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请中主要涉及计算机视觉技术(如对待检测图像的提取及识别处理等)及机器学习/深度学习(如图标识别模型的训练及使用等)等方向,其中,本申请中可以单独使用人工智能的各个技术中的任意一个技术,也可以对人工智能中的各个技术进行随机组合使用,如单独使用计算机视觉技术,或者将计算机视觉技术与深度学习技术等进行结合使用等,在此不做限制。通过人工智能的相关技术的使用,提高了本申请中对视频的图标进行识别的效率。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。通过对图标训练样本进行深度学习,得到可以用于本申请中进行图标识别的图标识别模型,还可以根据图标识别模型的预测结果,对图标识别模型进行误差反馈调整,从而使得该图标识别模型可以像人一样具有分析学习能力。其中,深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术,深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值,例如,本申请中的视频领域。
其中,本申请实施例提供的方案涉及人工智能领域中的计算机视觉及深度学习等技术,具体通过如下实施例进行说明:
在本申请实施例中,请参见图1,图1是本申请实施例提供的一种视频数据处理网络架构图,本申请实施例可以由计算机设备实现,其中,该计算机设备可以是由服务器及终端设备组成;该计算机设备还可以是服务器或终端设备,在此不做限定。其中,本申请实施例可以对任意一个视频进行检测,计算机设备可以通过本申请去识别视频,以判断该视频是否对指定图标造成侵权,或者可以基于图标对视频进行分类等。
其中,如图1所示,计算机设备101可以从电子设备中获取目标视频,该电子设备可以包括电子设备102a、电子设备102b及电子设备102c等。计算机设备101中可以包括图标预测部分及图标验证部分等,计算机设备101从电子设备中获取到目标视频后,通过图标预测部分对目标视频进行检测,初步预测该目标视频的待检测图像中可能存在标准图标的预测图标区域,使得图标识别较为全面,并减少了需要进一步进行精确检测的区域的数据量;再通过图标验证部分对预测图标区域进行进一步检测,具体是截取该预测图标区域得到候选区域,将该候选区域与标准图标进行特征匹配,可以筛选掉误识别的区域,从而提高对图标进行识别的准确性。
可以理解的是,本申请实施例中所提及的计算机设备或电子设备包括但不限于终端设备或服务器。换句话说,计算机设备或电子设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、增强现实/虚拟现实(Augmented Reality/VirtualReality,AR/VR)设备、头盔显示器、可穿戴设备、智能音箱及其他具备网络接入能力的移动互联网设备(mobile internet device,MID)等。
例如,请参见图2,图2是本申请实施例提供的一种视频数据处理的场景示意图。如图2所示,计算机设备获取目标视频201,对该目标视频201进行拆分,得到至少两个视频帧图像202,对该至少两个视频帧图像202进行选取转换,得到待检测图像203,其中,该待检测图像203的生成过程具体参见图3中步骤S301所示,在此暂不进行说明。对待检测图像203进行识别,如将待检测图像203输入图标识别模型中进行预测,得到该待检测图像203中的预测图标区域,如图2中的预测图标区域2031、预测图标区域2032及预测图标区域2033等,实现对目标视频的初步检测,该初步检测的过程相当于是粗检测过程,可以较为全面的识别到待检测图像中可能存在标准图标的区域,从而减少后续精确检测过程所需处理的数据量。
计算机设备将获取到的预测图标区域与标准图标204进行匹配,包括将预测图标区域2031与标准图标204进行匹配,将预测图标区域2032与标准图标204进行匹配,将预测图标区域2033与标准图标204进行匹配,得到预测图标区域与标准图标204的匹配结果。其中,该匹配结果存在两种情况,第①种情况下,预测图标区域中存在与标准图标204之间的匹配结果为匹配成功结果的预测图标区域,如预测图标区域2032,该匹配结果表示目标视频201中存在标准图标204,计算机设备可以基于标准图标204对目标视频201进行分类,或者可以基于标准图标204对目标视频201进行侵权检测等;第②种情况下,待检测图像203中的预测图标区域与标准图标204的匹配结果均为匹配失败结果,该匹配结果表示该目标视频201中不存在标准图标204。计算机设备通过对目标视频进行双重验证,先全面检测目标视频中可能存在标准图标的区域,以在降低图标识别的遗漏率的情况下,减少需要处理的数据量,再对目标视频进行精确匹配,提高了对目标视频中的图标识别的准确性。
进一步地,请参见图3,图3是本申请实施例提供的一种视频数据处理的方法流程图。如图3所示,该视频数据处理过程包括如下步骤:
步骤S301,获取目标视频,从目标视频中获取待检测图像,识别该待检测图像中的预测图标区域以及该预测图标区域对应的预测图标类型。
在本申请实施例中,计算机设备获取目标视频,可选的,该目标视频可以是根据人工输入的视频地址获取到的,计算机设备可以获取人工输入的视频地址,获取该视频地址中所包括的视频,将获取到的视频作为目标视频;或者,该目标视频可以是由人工直接输入的;或者,该目标视频可以是计算机设备从互联网中采集到的等,在此不做限制。可选的,若计算机设备获取到至少两个视频,则将当前时刻的待检测视频作为目标视频,如获取到视频A、视频B及视频C,假定计算机设备在当前时刻要检测视频A(即当前时刻的待检测视频为视频A),计算机设备将视频A确定为目标视频。其中,计算机设备为本地设备,具体参见图1中的计算机设备101的描述。
可选的,当计算机设备获取到目标视频时,从目标视频中获取待检测图像,该过程具体如下:
在本申请实施例中,计算机设备可以将目标视频拆分得到至少两个视频帧图像,获取目标视频的视频时长;根据视频时长确定帧采集时间间隔,或者,可以根据至少两个视频帧图像的图像数量,确定帧采集时间间隔,基于帧采集时间间隔从至少两个视频帧图像中获取至少两个提取帧图像;将至少两个提取帧图像进行叠加,得到待检测图像。其中,计算机设备可以将目标视频拆分得到至少两个视频帧图像后,直接根据视频时长从至少两个视频帧图像中获取至少两个提取帧图像,将至少两个提取帧图像进行叠加,得到待检测图像。例如,需要从一个目标视频中提取4帧的视频帧图像,作为该目标视频的提取帧图像,假定该目标视频的视频时长为5分钟,则计算机设备可以每1.25分钟获取一个视频帧图像,将获取到的视频帧图像确定为该目标视频的提取帧图像;假定该目标视频的视频时长为40分钟,则计算机设备可以每10分钟获取一个视频帧图像,将获取到的视频帧图像确定为该目标视频的提取帧图像。
可选的,由于不同视频的时长可能存在差别,若对于不同时长的视频采用相同的提取帧图像获取方法,获取相同数量的提取帧图像,则对于时长较长的视频来说,可能会出现提取帧图像与提取帧图像之间的帧间距较大,造成关键信息缺失的情况,因此,可以针对不同时长的视频,获取不同数量的提取帧图像。具体的,在根据视频时长确定帧采集时间间隔,基于帧采集时间间隔从至少两个视频帧图像中获取至少两个提取帧图像时,计算机设备可以获取该视频时长所属的目标时长范围,获取目标时长范围对应的图像提取规则,其中,该图像提取规则包括图像分组数及图像提取帧数;根据图像分组数,将至少两个视频帧图像划分为帧图像组,获取帧图像组对应的视频拆分时长,该帧图像组的数量与图像分组数相等,例如,该图像分组数为5时,计算机设备可以将至少两个视频帧图像划分为5个帧图像组;根据视频拆分时长及图像提取帧数确定帧采集时间间隔,基于帧采集时间间隔获取帧图像组对应的至少两个提取帧图像。
可选的,在针对不同时长的视频获取不同数量的提取帧图像时,计算机设备还可以先对目标视频进行拆分,从拆分后的目标子视频中获取每个目标子视频的提取帧图像。具体的,计算机设备获取视频时长所属的目标时长范围,获取该目标时长范围对应的图像提取规则,该图像提取规则包括图像分组数及图像提取帧数。计算机设备根据图像分组数,将目标视频划分为目标子视频,将目标子视频拆分为至少两个视频帧图像;根据图像提取帧数,从目标子视频拆分得到的至少两个视频帧图像中获取该目标子视频的提取帧图像。
举例来说,请参见图4a,图4a是本申请实施例提供的一种待检测图像获取场景示意图。如图4a所示,以先将目标视频拆分成视频帧图像为例,将目标视频401拆分得到至少两个视频帧图像402。计算机设备获取该目标视频401的视频时长,得到该视频时长为50分钟,获取到该视频时长“50分钟”对应的图像提取规则为“图像分组数:5,图像提取帧数:4”。将至少两个视频帧图像402划分为5个帧图像组,包括帧图像组4021及帧图像组4022等,每个帧图像组对应的视频拆分时长为10分钟。根据视频拆分时长“10分钟”及图像提取帧数“4”,确定帧采集时间间隔为2.5分钟,从帧图像组中每2.5分钟提取一个视频帧图像,将获取到的视频帧图像作为该帧图像组的提取帧图像;或者,假定每个帧图像组包括100个视频帧图像,则可以根据图像提取帧数“4”,从帧图像组中每25个视频帧图像获取一个视频帧图像,将获取到的视频帧图像作为该帧图像组的提取帧图像。如图4a所示,计算机设备获取到帧图像组4021的至少两个提取帧图像包括提取帧图像4031、提取帧图像4032、提取帧图像4033及提取帧图像4034,将帧图像组4021的至少两个提取帧图像进行叠加,得到该帧图像组4021对应的待检测图像403a;获取到帧图像组4022的至少两个提取帧图像包括提取帧图像4041、提取帧图像4042、提取帧图像4043及提取帧图像4044,将帧图像组4022的至少两个提取帧图像进行叠加,得到该帧图像组4022对应的待检测图像404a等。此时,该目标视频401对应多个待检测图像,如帧图像组4021对应的待检测图像403a及帧图像组4022对应的待检测图像404a等。
可选的,参见图4b,图4b是本申请实施例提供的另一种待检测图像获取场景示意图。如图4b所示,以先将目标视频拆分成目标子视频为例,计算机设备获取该目标视频401的视频时长,得到该视频时长为50分钟,假定获取到该视频时长“50分钟”对应的图像提取规则为“图像分组数:5,图像提取帧数:4”,根据图像分组数“5”将目标视频拆分成目标子视频,包括目标子视频4051及目标子视频4052等,此时每个目标子视频的视频拆分时长为10分钟。以目标子视频4051为例,计算机设备将目标子视频4051拆分得到至少两个视频帧图像406,根据图像提取帧数,从至少两个视频帧图像406中获取该目标子视频4051的提取帧图像,包括提取帧图像4071、提取帧图像4072、提取帧图像4073及提取帧图像4074,将该目标子视频4051的提取帧图像进行叠加,得到该目标子视频4051对应的待检测图像408。同理,可以得到目标子视频4052对应的待检测图像等。
其中,图4a与图4b是以等时间间隔获取提取帧图像为例的,即,获取到的提取帧图像在目标视频中对应的视频帧图像中,相邻的视频帧图像间的时间间隔是相同的。可选的,计算机设备还可以根据预设的采集时间比例,确定目标视频的帧采集时间间隔,例如,该目标视频的视频时长为4分钟,预设的采集时间比例为“10%、40%、60%及90%”,计算机设备可以根据预设的采集时间比例,确定帧采集时间间隔,该帧采集时间间隔表示从目标视频中获取第0.4分钟的视频帧图像、第1.6分钟的视频帧图像、第2.4分钟的视频帧图像及第3.6分钟的视频帧图像,将获取到的视频帧图像确定为提取帧图像。可选的,该帧采集时间间隔的确定方法可以根据需要设置,在此不做限制。
进一步地,根据至少两个提取帧图像生成该待检测图像过程,可以如下所示:
计算机设备将至少两个提取帧图像转化为至少两个提取灰度图,即对至少两个提取帧图像进行灰度转化,得到每个提取帧图像对应的提取灰度图。计算机设备获取第i个提取灰度图中的各个像素点的像素灰度值,根据各个像素点的像素灰度值,以及各个像素点在第i个提取灰度图中的像素位置,获取第i个提取灰度图的至少两个行灰度叠加值及至少两个列灰度叠加值,其中,i为小于或等于N的正整数,N为至少两个提取灰度图的数量,其中,行灰度叠加值为第i个提取灰度图中对应行的各个像素点的灰度值之和,列灰度叠加值为第i个提取灰度图中对应列的各个像素点的灰度值之和。计算机设备根据至少两个行灰度叠加值确定第i个提取灰度图的行保留位置信息,根据至少两个列灰度叠加值确定第i个提取灰度图的列保留位置信息。计算机设备基于行保留位置信息及列保留位置信息,确定第i个提取灰度图中的保留区域,截取第i个提取灰度图中的保留区域,得到第i个提取灰度图的待处理灰度图。当获得每个提取灰度图分别对应的待处理灰度图时,计算机设备可以将每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像。
其中,在根据至少两个行灰度叠加值确定第i个提取灰度图的行保留位置信息,根据至少两个列灰度叠加值确定第i个提取灰度图的列保留位置信息时,计算机设备可以从至少两个行灰度叠加值中,获取处于灰度保留范围的行灰度叠加值,根据处于灰度保留范围的行灰度叠加值,在第i个提取灰度图中获取行保留位置信息,并且从至少两个列灰度叠加值中,获取处于灰度保留范围的列灰度叠加值,根据处于灰度保留范围的列灰度叠加值,在第i个提取灰度图中获取列保留位置信息。
其中,计算机设备对提取灰度图进行截取,得到待处理灰度图,主要是因为视频帧图像中可能存在黑边等无效区域,从视频帧图像中获取到的提取帧图像中也就存在无效区域,通过去除无效区域,可以减少对待检测图像进行识别时所需处理的数据量,从而减少耗费的资源,其中,该无效区域是指没有显示实际内容的区域。例如,黑色的灰度值为0,该灰度保留范围为大于0的灰度值,通过该灰度保留范围可以去除提取灰度图中的黑边,以得到该提取灰度图对应的待处理灰度图。其中,通过行灰度叠加值及列灰度叠加值与灰度保留范围进行对比,可以降低误删率,主要是因为对于一行或一列的各个像素点来说,视频的内容显示区域中也可能出现灰度值处于灰度保留范围之外的像素点,而由于提取灰度图为一个完整的视频画面,该提取灰度图中的内容显示区域(即视频的内容显示区域)几乎不会出现一行或一列的所有像素点的灰度值均处于灰度保留范围之外的情况,因此,一行或一列中存在像素点的灰度值处于灰度保留范围之外,将该行或该列的各个像素点的灰度值叠加后得到的行灰度叠加值或列灰度叠加值一般会处于灰度保留范围之内,从而可以尽可能地减少对提取灰度图中误删除的区域。
可选的,在将提取灰度图转换为待处理灰度图时,还可以设置删除阈值,以一行为例,计算机设备依次获取该行的各个像素点的灰度值,当某个像素点的灰度值处于灰度保留范围之外时,开始累计待删除点,直至获取到像素点的灰度值处于灰度保留范围之内,当累计得到的待删除点的数量大于该删除阈值时,将该待删除点记作该行的待删行区域,同理,得到各行的待删行区域,及各列的待删列区域,计算机设备将包含像素点最少的待删行区域确定为行删除区域,将包含像素点最少的待删列区域确定为列删除区域,删除提取灰度图中的行删除区域及列删除区域,得到该提取灰度图对应的待处理灰度图。同理,计算机设备可以得到每个提取灰度图分别对应的待处理灰度图。例如,该提取灰度图为100*100的一个图像,第一行的待删行区域为第1个像素点至第5个像素点,第二行的待删行区域为第1个像素点至第6个像素点,…,假定包括像素点最少的待删行区域为第1个像素点至第5个像素点,则计算机设备将第1个像素点至第5个像素点确定为行删除区域;同理,假定包括像素点最少的待删列区域为第1个像素点至第3个像素点,则计算机设备将第1个像素点至第3个像素点确定为列删除区域。根据行删除区域及列删除区域,计算机设备删除该提取灰度图中的第一行至第三行,及第一列至第五列,得到该提取灰度图对应的待处理灰度图。
举例来说,请参见图5,图5是本申请实施例提供的一种提取灰度图截取示意图。如图5所示,以提取灰度图501为例,计算机设备获取该提取灰度图501中第一行各个像素点的灰度值之和,得到第一行的行灰度叠加值;获取第二行中各个像素点的灰度值之和,得到第二行的行灰度叠加值;…;获取最后一行中各个像素点的灰度值之和,得到最后一行的行灰度叠加值。计算机设备将提取灰度图501中各行的行灰度叠加值分别与灰度保留范围进行对比,根据处于灰度保留范围内的行灰度叠加值对应的行数,确定提取灰度图501的行保留位置信息,例如,第三行至倒数第四行的行灰度叠加值处于灰度保留范围,则行保留位置信息用于表征保留提取灰度图501中第三行至倒数第四行。计算机设备获取该提取灰度图501中第一列中各个像素点的灰度值之和,得到第一列的列灰度叠加值;获取第二列中各个像素点的灰度值之和,得到第二列的列灰度叠加值;…;获取最后一列中各个像素点的灰度值之和,得到最后一列的列灰度叠加值。计算机设备将提取灰度图501中各列的列灰度叠加值分别与灰度保留范围进列对比,根据处于灰度保留范围内的列灰度叠加值对应的列数,确定提取灰度图501的列保留位置信息,例如,第五列至倒数第五列的列灰度叠加值处于灰度保留范围,则列保留位置信息用于表征保留提取灰度图501中第五列至倒数第五列。计算机设备根据行保留位置信息及列保留位置信息,截取提取灰度图501中的保留区域,得到该提取灰度图501的待处理灰度图502。同理,得到每个提取灰度图对应的待处理灰度图。
其中,当获得每个提取灰度图分别对应的待处理灰度图时,计算机设备可以将每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像,可以获取目标视频的视频图标预估位置,根据视频图标预估位置从每个待处理灰度图中获取待识别区域;将每个待处理灰度图的待识别区域进行灰度拼接,得到待检测图像。
举例来说,请参见图6,图6是本申请实施例提供的一种目标视频处理过程示意图。如图6所示,计算机设备获取目标视频601,将目标视频601拆分得到至少两个视频帧图像,从该视频帧图像中获取至少两个提取帧图像,该至少两个提取帧图像的获取过程可以参见图4a或图4b中的具体描述,在此不再进行赘述。假定从目标视频601对应的至少两个视频帧图像中,计算机设备获取至少两个提取帧图像,将各个提取帧图像进行灰度转换,得到至少两个提取灰度图,包括提取灰度图6011、提取灰度图6012、提取灰度图6013及提取灰度图6014,对各个提取灰度图进行处理,得到每个提取灰度图对应的待处理灰度图,包括提取灰度图6011对应的待处理灰度图6021、提取灰度图6012对应的待处理灰度图6022、提取灰度图6013对应的待处理灰度图6023及提取灰度图6014对应的待处理灰度图6024。其中,将该提取灰度图转换为待处理灰度图的过程可以参见本步骤中的具体描述(包括图5),在此不再进行赘述。计算机设备获取目标视频的视频图标预估位置,假定该视频图标预估位置为四个顶点周边区域,根据视频图标预估位置,从待处理灰度图6021中获取待识别区域1a、待识别区域1b、待识别区域1c及待识别区域1d;从待处理灰度图6022中获取待识别区域2a、待识别区域2b、待识别区域2c及待识别区域2d;从待处理灰度图6023中获取待识别区域3a、待识别区域3b、待识别区域3c及待识别区域3d;从待处理灰度图6024中获取待识别区域4a、待识别区域4b、待识别区域4c及待识别区域4d。计算机设备将获取到的每个待处理灰度图的待识别区域进行灰度拼接,得到待检测图像603,其中,该灰度拼接方式可以是随机拼接,并不进行限制。如待检测图像603是以各个待处理灰度图进行拼接的,即将待处理灰度图6021中的各个待识别区域依次拼接,再在下一行依次拼接待处理灰度图6022中的各个待识别区域,直至将所有待处理灰度图中的各个待识别区域拼接完成,得到待检测图像603。可选的,当目标视频601可以拆分成至少两个帧图像组时,每个帧图像组都对应至少两个提取帧图像,计算机设备根据至少两个提取帧图像得到该帧图像组的待检测图像,即该目标视频601拆分得到的帧图像组的数量与得到的待检测图像的数量相等。通过从目标视频中获取提取帧图像,并对提取帧图像进行压缩处理,使得在尽可能不丢失图标的情况下,减少了本申请中需要处理的数据量,提高了对目标视频进行识别的效率。
可选的,可以基于模型识别待检测图像。具体的,计算机设备可以将待检测图像输入图标识别模型,基于图标识别模型提取待检测图像的图像特征;根据图像特征确定待检测图像中的图标预测边框及图标预测标签,将图标预测边框所指示的区域确定为预测图标区域,将图标预测标签对应的图标类型确定为预测图标区域对应的预测图标类型。其中,该图标识别模型可以召回大量变种图标,保障了对一定程度上存在模糊、旋转或轻微变形等的图标的召回能力,可以更为全面地识别该待检测图像中可能存在图标的区域,降低了图标识别的遗漏率。而且通过图标识别模型,可以直接获取到该待检测图像中可能存在图标的预测图标区域,并得到该预测图标区域对应的预测图标类型。可选的,该图标识别模型还可以输出该预测图标区域的区域置信度,当该区域置信度小于预测置信阈值时,可以不考虑该预测图标区域。
可选的,若识别该待检测图像后,该目标视频的所有待检测图像中均不存在预测图标区域,则计算机设备确定目标视频中不存在图标,不进行后续操作。当目标视频的所有待检测图像中存在至少一个待检测图像中有预测图标区域,则执行步骤S302。
步骤S302,从待检测图像中截取预测图标区域,作为候选区域,获取该预测图标类型对应的标准图标。
在本申请实施例中,一个预测图标类型对应一个标准图标,如存在10种图标,计算机设备从10种图标中获取预测图标类型对应的图标,将获取到的图标确定为标准图标。可选的,当该图标识别模型输出预测图标区域对应的预测图标类型时,该预测图标类型为(0,0,0,1,0,0,0,0,0,0),获取该(0,0,0,1,0,0,0,0,0,0)对应的图标,作为该预测图标区域的标准图标。可选的,当该图标识别模型还输出该预测图标区域的区域置信度时,计算机设备从待检测图像中截取区域置信度大于或等于预测置信阈值的预测图标区域,作为该待检测图像的候选区域。可选的,当待检测图像的数量为至少两个时,计算机设备获取每个待检测图像的候选区域。其中,每个待检测图像的候选区域可以只有一个,也可以有至少两个,在此不做限制。
步骤S303,将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标。
在本申请实施例中,计算机设备可以提取候选区域的M个候选关键点,获取M个候选关键点分别对应的候选点特征,其中,M为正整数。计算机设备提取标准图标的K个标准关键点,获取K个标准关键点分别对应的标准点特征,其中,K为正整数。对M个候选关键点分别对应的候选点特征及K个标准关键点分别对应的标准点特征进行组合,得到P个关键特征对,其中,P为正整数,P大于或等于M与K中的最小值,且P小于或等于M*K。计算机设备可以依次对P个关键特征对中的候选点特征及标准点特征进行匹配。其中,若在P个关键特征对中,匹配成功的关键特征对的数量大于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配成功结果,执行步骤S304;若在P个关键特征对中,匹配成功的关键特征对的数量小于或等于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配失败结果,不执行后续步骤。
其中,通过识别待检测图像得到预测图标区域对应的预测图标类型,直接基于该预测图标类型对应的标准图标与该预测图标区域对应的候选区域进行匹配,可以减少对目标视频进行二次检测时所需处理的数据量,节省资源,从而提高对图标进行匹配的效率。
举例来说,请参见图7,图7是本申请实施例提供的一种区域匹配场景示意图。如图7所示,计算机设备提取候选区域701的M个候选关键点,获取M个候选关键点分别对应的候选点特征,得到M个候选点特征;提取标准图标702的K个标准关键点,获取K个标准关键点分别对应的标准点特征,得到K个标准点特征。对M个候选点特征和K个标准点特征进行组合,得到P个关键特征对。其中,假定M小于K,则P的值可以为M至M*K中的任意一个值。例如,P的值为M时,如P个关键特征对703所示,M个候选点特征7031分别对应K个标准点特征7041中的一个标准点特征,即候选点特征与标准点特征一一对应,该对应关系是基于候选关键点在候选区域中的位置以及标准关键点在标准图标中的位置所确定的,例如,候选关键点1在候选区域中的位置与标准关键点1在标准图标中的位置相近,则候选关键点1对应的候选点特征与标准关键点1对应的标准点特征组成一个关键特征对。例如,P的值为M*K时,如P个关键特征对704所示,M个候选点特征7031中的每个候选点特征均与K个标准点特征7041组成K个关键特征对,M个候选点特征7031则与K个标准点特征7041组成M*K个关键特征对。可选的,当P的值位于M和K中的最小值及M*K之间时,一种可能的关键特征对确定方式,计算机设备可以以候选区域的候选关键点为基准,以第t个候选关键点为例,在标准图标中,获取与候选区域的第t个候选关键点最邻近的标准关键点及次邻近的标准关键点,分别建立该第t个候选关键点的候选点特征与该第t个候选关键点的最邻近的标准关键点的标准点特征,以及次邻近的标准关键点的标准点特征之间的关键特征对,直至得到每个候选关键点关联的关键特征对。其中,t为正整数,t小于或等于候选区域包括的候选关键点的数量。
可选的,对于每一个关键点(如候选关键点或标准关键点),都存在位置、尺度及方向等信息,在获取该关键点的特征时,可以将该关键点的位置、尺度及方向等信息,以及该关键点周围对其有贡献的像素点等,均作为该关键点的特征。
可选的,计算机设备可以获取所有图标,依次将候选区域与各个图标进行匹配,若存在与候选区域的匹配结果为匹配成功结果的图标,则将该图标确定为目标视频的目标图标,通过该方式可以对目标视频进行全面检测,提高对目标视频进行图标识别的准确性。可选的,在对候选区域分别与各个图标进行匹配的情况下,当基于图标识别模型识别该待检测图像中的预测图标区域时,计算机设备可以获取该预测图标区域的预测图标类型对应的标准图标,若标准图标与目标图标一致,则确定该图标识别模型预测准确;若标准图标与目标图标不一致,则确定该图标识别模型识别错误,可以基于目标图标与待检测图像中的预测图标区域之间的对应关系,对图标识别模型进行调整。
步骤S304,将目标视频划分为标准图标对应的视频类别。
在本申请实施例中,计算机设备可以基于步骤S301至步骤S303对目标视频的识别结果,对目标视频进行分类,或者,对该目标视频的合法性进行检测等。具体的,若确定目标视频中存在标准图标,则将目标视频划分为标准图标对应的视频类别。或者,若确定目标视频中存在标准图标,则可以获取目标视频所在的第一应用平台,获取标准图标对应的第二应用平台;若第一应用平台与第二应用平台不同,则获取第二应用平台对应的转载权限;若转载权限为禁用状态,则确定第一应用平台中的目标视频为非法视频,向第一应用平台发送目标视频非法提示消息。可选的,若是将候选区域与各个图标进行匹配,则计算机设备根据目标视频对应的目标图标,对目标视频进行分类,或对目标视频进行合法性检测等。可选的,当用户需要对图标进行检测时,计算机设备可以直接指定需要检测的图标,通过步骤S301至步骤S302,识别该目标视频中的候选区域,将该候选区域与该需要检测的图标进行匹配,若候选区域与该需要检测的图标的匹配结果为匹配成功结果,则确定目标视频中存在该需要检测的图标,若候选区域与该需要检测的图标的匹配结果为匹配失败结果,则确定目标视频中不存在该需要检测的图标,即本申请可以用于针对具体的图标检测需求,对目标视频进行识别检测,在这一场景下,无需关注目标视频中是否存在除该需要检测的图标之外的图标。
在本申请实施例中,该图标识别模型的训练过程具体如下:
计算机设备获取包含标准图标样本的图像样本,从图像样本中获取标准图标样本;获取至少两个随机图像,将标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本;根据至少两个图标训练样本对初始识别模型进行训练,得到图标识别模型。其中,可以从图像样本中抠取标准图标,将该标准图标保存为背景透明的图像,将该图像作为标准图标样本。其中,该初始识别模型可以为一种目标检测模型。
其中,在生成至少两个图标训练样本时,计算机设备可以获取第j个随机图像的随机图像尺寸,基于图标显示比例及随机图像尺寸,确定标准图标样本的图标显示尺寸,将标准图标样本的尺寸调整为图标显示尺寸;j为正整数,j小于或等于至少两个随机图像的数量;图标显示比例用于表征调整后的标准图标样本与第j个随机图像之间的尺寸比例。计算机设备将调整后的标准图标样本与第j个随机图像进行组合,得到第j个图标训练样本。通过这一方式,可以在无需采集样本的情况下,很方便地获取到大量的训练样本,提高了训练样本的获取效率。其中,将调整后的标准图标样本与第j个随机图像进行组合时,计算机设备可以在第j个随机图像中的任意位置处添加标准图标样本,将该标准图标样本在第j个随机图像中的添加位置,作为用于训练图标识别模型的标注边框。其中,将调整后的标准图标样本与第j个随机图像之间的尺寸比例确定为图标显示比例,是因为对于图标来说,在一个视频中的任意一个视频帧图像中所占的尺寸比例,一般会保持在一定的范围内(即图标显示比例),以使该图标可以在视频中的任意一个视频帧图像中进行显示,又不影响该目标视频的正常播放,通过调整标准图标样本与第j个随机图像之间的尺寸比例,使得得到的图标训练样本与实际需要识别的待检测图像的图像结构更为相近,以提高图标识别模型的识别准确性。例如,图标显示比例为图标高度不小于随机图像高度的1/20,不大于随机图像高度的1/3等,在此不做限制。
可选的,当存在至少两个标准图标样本时,计算机设备可以基于多图标组合规则,对至少两个标准图标样本与随机图像进行组合,其中,该多图标组合规则可以包括图标数量阈值及图标种类阈值等。其中,图标数量阈值用于表示一个随机图像中最多可以组合的图标的数量,如该图标数量阈值为20,则表示一个随机图像中最多可以添加20个标准图标样本;图标种类阈值用于表示一个随机图像中最多可以组合的图像的种类数,如该图标种类阈值为1,则表示一个随机图像中添加的图标的种类数不能大于1。可选的,在该随机图像中添加多个标准图标样本时,得到的图标训练样本中,各个标准图标样本两两之间无交叉部分。通过这种方式,可以限制一个图标训练样本中需要匹配的标准图标样本的数量,提升了模型训练效率。
进一步地,请参见图8,图8是本申请实施例提供的一种模型处理过程示意图。如图8所示,图标识别模型存在训练阶段和预测阶段,在训练阶段,计算机设备通过对随机图像及标准图标样本进行组合,得到图标训练样本,根据该图标训练样本训练初始识别模型,生成图标识别模型,并通过损失计算对图标识别模型进行调整,该过程可以参见上述图标识别模型的训练过程,在此不再进行赘述。可选的,计算机设备可以对图标训练样本进行数据增强,通过数据增强后的图标训练样本对初始识别模型进行训练,生成图标识别模型,其中,该数据增强可以包括但不限于高斯模糊、色度变换及多角度旋转变换等,通过对图标训练样本进行数据增强,提高了图标识别模型的泛化性,提升了图标识别模型对变种图标的召回能力。
本申请实施例通过获取目标视频,从该目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;将目标视频划分为标准图标对应的视频类别。通过对目标视频进行识别,并对识别结果进行进一步检测,实现了对目标视频的双重验证,节省了时间和精力,并提高了对目标视频中图标识别的准确性。其中,本申请中具体的实现过程所带来的有益效果可以参见对应实现过程中的具体描述。
进一步地,请参见图9,图9是本申请实施例提供的一种视频数据处理装置示意图。该视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该视频数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该视频数据处理装置900可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:图标预测模块11、图标获取模块12、图标匹配模块13及视频分类模块14。
图标预测模块11,用于获取目标视频,从目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;
图标获取模块12,用于从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;
图标匹配模块13,用于将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;
视频分类模块14,用于将目标视频划分为标准图标对应的视频类别。
其中,在获取目标视频,从目标视频中获取待检测图像方面,该图标预测模块11包括:
视频处理单元111,用于将目标视频拆分得到至少两个视频帧图像,获取目标视频的视频时长;
图像采集单元112,用于根据视频时长确定帧采集时间间隔,基于帧采集时间间隔从至少两个视频帧图像中获取至少两个提取帧图像;
图像叠加单元113,用于将至少两个提取帧图像进行叠加,得到待检测图像。
其中,该图像采集单元112,包括:
规则获取子单元1121,用于获取视频时长所属的目标时长范围,获取目标时长范围对应的图像提取规则;该图像提取规则包括图像分组数及图像提取帧数;
图像拆分子单元1122,用于根据图像分组数,将至少两个视频帧图像划分为帧图像组,获取帧图像组对应的视频拆分时长;帧图像组的数量与图像分组数相等;
图像提取子单元1123,用于根据视频拆分时长及图像提取帧数确定帧采集时间间隔,基于帧采集时间间隔获取帧图像组对应的至少两个提取帧图像。
其中,该图像叠加单元113,包括:
灰度转化子单元1131,用于将至少两个提取帧图像转化为至少两个提取灰度图;
灰度值处理子单元1132,用于获取第i个提取灰度图中的各个像素点的像素灰度值,根据各个像素点的像素灰度值,以及各个像素点在第i个提取灰度图中的像素位置,获取第i个提取灰度图的至少两个行灰度叠加值及至少两个列灰度叠加值;i为小于或等于N的正整数,N为至少两个提取灰度图的数量;
位置确定子单元1133,用于根据至少两个行灰度叠加值确定第i个提取灰度图的行保留位置信息,根据至少两个列灰度叠加值确定第i个提取灰度图的列保留位置信息;
区域确定子单元1134,用于基于行保留位置信息及列保留位置信息,确定第i个提取灰度图中的保留区域,截取第i个提取灰度图中的保留区域,得到第i个提取灰度图的待处理灰度图;
图像获取子单元1135,用于当获得每个提取灰度图分别对应的待处理灰度图时,将每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像。
其中,该位置确定子单元1133,包括:
行灰度选取子单元113a,用于从至少两个行灰度叠加值中,获取处于灰度保留范围的行灰度叠加值,根据处于灰度保留范围的行灰度叠加值,在第i个提取灰度图中获取行保留位置信息;
列灰度选取子单元113b,用于从至少两个列灰度叠加值中,获取处于灰度保留范围的列灰度叠加值,根据处于灰度保留范围的列灰度叠加值,在第i个提取灰度图中获取列保留位置信息。
其中,该图像获取子单元1135,包括:
区域获取子单元113c,用于获取目标视频的视频图标预估位置,根据视频图标预估位置从每个待处理灰度图中获取待识别区域;
灰度拼接子单元113d,用于将每个待处理灰度图的待识别区域进行灰度拼接,得到待检测图像。
其中,在将候选区域与标准图标进行匹配方面,该图标匹配模块13包括:
候选点获取单元131,用于提取候选区域的M个候选关键点,获取M个候选关键点分别对应的候选点特征;M为正整数;
标准点获取单元132,用于提取标准图标的K个标准关键点,获取K个标准关键点分别对应的标准点特征;K为正整数;
特征组合单元133,用于对M个候选关键点分别对应的候选点特征及K个标准关键点分别对应的标准点特征进行组合,得到P个关键特征对;P为正整数,P大于或等于M与K中的最小值,且P小于或等于M*K;
特征匹配单元134,用于依次对P个关键特征对中的候选点特征及标准点特征进行匹配;
该装置900还包括:
结果确定模块15,用于若在P个关键特征对中,匹配成功的关键特征对的数量大于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配成功结果;
该结果确定模块15,还用于若在P个关键特征对中,匹配成功的关键特征对的数量小于或等于匹配成功阈值,则确定候选区域与标准图标之间的匹配结果为匹配失败结果。
其中,该装置900还包括:
平台获取模块16,用于获取目标视频所在的第一应用平台,获取标准图标对应的第二应用平台;
权限确定模块17,用于若第一应用平台与第二应用平台不同,则获取第二应用平台对应的转载权限;
非法确定模块18,用于若转载权限为禁用状态,则确定第一应用平台中的目标视频为非法视频,向第一应用平台发送目标视频非法提示消息。
其中,在识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型方面,该图标预测模块11包括:
特征提取单元114,用于将待检测图像输入图标识别模型,基于图标识别模型提取待检测图像的图像特征;
特征预测单元115,用于根据图像特征确定待检测图像中的图标预测边框及图标预测标签,将图标预测边框所指示的区域确定为预测图标区域,将图标预测标签对应的图标类型确定为预测图标区域对应的预测图标类型。
其中,该装置900还包括:
图标提取模块19,用于获取包含标准图标样本的图像样本,从图像样本中获取标准图标样本;
样本生成模块20,用于获取至少两个随机图像,将标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本;
模型训练模块21,用于根据至少两个图标训练样本对初始识别模型进行训练,得到图标识别模型。
其中,该样本生成模块20,包括:
尺寸调整单元20a,用于获取第j个随机图像的随机图像尺寸,基于图标显示比例及随机图像尺寸,确定标准图标样本的图标显示尺寸,将标准图标样本的尺寸调整为图标显示尺寸;j为正整数,j小于或等于至少两个随机图像的数量;图标显示比例用于表征调整后的标准图标样本与第j个随机图像之间的尺寸比例;
样本获取单元20b,用于将调整后的标准图标样本与第j个随机图像进行组合,得到第j个图标训练样本。
本申请实施例提供了一种视频数据处理装置,该装置通过获取目标视频,从该目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;将目标视频划分为标准图标对应的视频类别。通过对目标视频进行识别,并对识别结果进行进一步检测,实现了对目标视频的双重验证,节省了时间和精力,并提高了对目标视频中图标识别的准确性。
参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,本申请实施例中的计算机设备可以包括:一个或多个处理器1001、存储器1002和输入输出接口1003。该处理器1001、存储器1002和输入输出接口1003通过总线1004连接。存储器1002用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1003用于接收数据及输出数据;处理器1001用于执行存储器1002存储的程序指令,执行如下操作:
获取目标视频,从目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;
从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;
将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;
将目标视频划分为标准图标对应的视频类别。
在一些可行的实施方式中,该处理器1001可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器1002可以包括只读存储器和随机存取存储器,并向处理器1001和输入输出接口1003提供指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。例如,存储器1002还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3中各个步骤所提供的实现方式,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机指令,执行该图3中所示方法的各个步骤,进行视频数据处理操作。本申请实施例实现了获取目标视频,从该目标视频中获取待检测图像,识别待检测图像中的预测图标区域以及预测图标区域对应的预测图标类型;从待检测图像中截取预测图标区域,作为候选区域,获取预测图标类型对应的标准图标;将候选区域与标准图标进行匹配,若候选区域与标准图标的匹配结果为匹配成功结果,则确定目标视频中存在标准图标;将目标视频划分为标准图标对应的视频类别。通过对目标视频进行识别,并对识别结果进行进一步检测,实现了对目标视频的双重验证,节省了时间和精力,并提高了对目标视频中图标识别的准确性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,当该程序指令被该处理器执行时,可以实现图3中各个步骤所提供的视频数据处理方法,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的视频数据处理装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3中的各种可选方式中所提供的方法,实现对目标视频的双重验证,节省了时间和精力,并提高对目标视频中图标识别的准确性。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种视频数据处理方法,其特征在于,所述方法包括:
获取目标视频,从所述目标视频中获取待检测图像,识别所述待检测图像中的预测图标区域以及所述预测图标区域对应的预测图标类型;
从所述待检测图像中截取所述预测图标区域,作为候选区域,获取所述预测图标类型对应的标准图标;
将所述候选区域与所述标准图标进行匹配,若所述候选区域与所述标准图标的匹配结果为匹配成功结果,则确定所述目标视频中存在所述标准图标;
将所述目标视频划分为所述标准图标对应的视频类别。
2.如权利要求1所述的方法,其特征在于,所述获取目标视频,从所述目标视频中获取待检测图像,包括:
将所述目标视频拆分得到至少两个视频帧图像,获取所述目标视频的视频时长;
根据所述视频时长确定帧采集时间间隔,基于所述帧采集时间间隔从所述至少两个视频帧图像中获取至少两个提取帧图像;
将所述至少两个提取帧图像进行叠加,得到待检测图像。
3.如权利要求2所述的方法,其特征在于,所述根据所述视频时长确定帧采集时间间隔,基于所述帧采集时间间隔从所述至少两个视频帧图像中获取至少两个提取帧图像,包括:
获取所述视频时长所属的目标时长范围,获取所述目标时长范围对应的图像提取规则;所述图像提取规则包括图像分组数及图像提取帧数;
根据所述图像分组数,将所述至少两个视频帧图像划分为帧图像组,获取所述帧图像组对应的视频拆分时长;所述帧图像组的数量与所述图像分组数相等;
根据所述视频拆分时长及所述图像提取帧数确定帧采集时间间隔,基于所述帧采集时间间隔获取所述帧图像组对应的至少两个提取帧图像。
4.如权利要求2所述的方法,其特征在于,所述将所述至少两个提取帧图像进行叠加,得到待检测图像,包括:
将所述至少两个提取帧图像转化为至少两个提取灰度图;
获取第i个提取灰度图中的各个像素点的像素灰度值,根据所述各个像素点的像素灰度值,以及所述各个像素点在所述第i个提取灰度图中的像素位置,获取所述第i个提取灰度图的至少两个行灰度叠加值及至少两个列灰度叠加值;i为小于或等于N的正整数,N为所述至少两个提取灰度图的数量;
根据所述至少两个行灰度叠加值确定所述第i个提取灰度图的行保留位置信息,根据所述至少两个列灰度叠加值确定所述第i个提取灰度图的列保留位置信息;
基于所述行保留位置信息及所述列保留位置信息,确定所述第i个提取灰度图中的保留区域,截取所述第i个提取灰度图中的保留区域,得到所述第i个提取灰度图的待处理灰度图;
当获得每个提取灰度图分别对应的待处理灰度图时,将所述每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像。
5.如权利要求4所述的方法,其特征在于,所述根据所述至少两个行灰度叠加值确定所述第i个提取灰度图的行保留位置信息,根据所述至少两个列灰度叠加值确定所述第i个提取灰度图的列保留位置信息,包括:
从所述至少两个行灰度叠加值中,获取处于灰度保留范围的行灰度叠加值,根据所述处于灰度保留范围的行灰度叠加值,在所述第i个提取灰度图中获取行保留位置信息;
从所述至少两个列灰度叠加值中,获取处于所述灰度保留范围的列灰度叠加值,根据所述处于所述灰度保留范围的列灰度叠加值,在所述第i个提取灰度图中获取列保留位置信息。
6.如权利要求4所述的方法,其特征在于,所述当获得每个提取灰度图分别对应的待处理灰度图时,将所述每个提取灰度图分别对应的待处理灰度图进行灰度叠加,得到待检测图像,包括:
获取所述目标视频的视频图标预估位置,根据所述视频图标预估位置从每个待处理灰度图中获取待识别区域;
将所述每个待处理灰度图的待识别区域进行灰度拼接,得到待检测图像。
7.如权利要求1所述的方法,其特征在于,所述将所述候选区域与所述标准图标进行匹配,包括:
提取所述候选区域的M个候选关键点,获取所述M个候选关键点分别对应的候选点特征;M为正整数;
提取所述标准图标的K个标准关键点,获取所述K个标准关键点分别对应的标准点特征;K为正整数;
对所述M个候选关键点分别对应的候选点特征及所述K个标准关键点分别对应的标准点特征进行组合,得到P个关键特征对;P为正整数,P大于或等于M与K中的最小值,且P小于或等于M*K;
依次对所述P个关键特征对中的候选点特征及标准点特征进行匹配;
所述方法还包括:
若在所述P个关键特征对中,匹配成功的关键特征对的数量大于匹配成功阈值,则确定所述候选区域与所述标准图标之间的匹配结果为所述匹配成功结果;
若在所述P个关键特征对中,匹配成功的关键特征对的数量小于或等于所述匹配成功阈值,则确定所述候选区域与所述标准图标之间的匹配结果为匹配失败结果。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标视频所在的第一应用平台,获取所述标准图标对应的第二应用平台;
若所述第一应用平台与所述第二应用平台不同,则获取所述第二应用平台对应的转载权限;
若所述转载权限为禁用状态,则确定所述第一应用平台中的所述目标视频为非法视频,向所述第一应用平台发送目标视频非法提示消息。
9.如权利要求1所述的方法,其特征在于,所述识别所述待检测图像中的预测图标区域以及所述预测图标区域对应的预测图标类型,包括:
将所述待检测图像输入图标识别模型,基于所述图标识别模型提取所述待检测图像的图像特征;
根据所述图像特征确定所述待检测图像中的图标预测边框及图标预测标签,将所述图标预测边框所指示的区域确定为所述预测图标区域,将所述图标预测标签对应的图标类型确定为所述预测图标区域对应的预测图标类型。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
获取包含标准图标样本的图像样本,从所述图像样本中获取所述标准图标样本;
获取至少两个随机图像,将所述标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本;
根据所述至少两个图标训练样本对初始识别模型进行训练,得到所述图标识别模型。
11.如权利要求10所述的方法,其特征在于,所述将所述标准图标样本分别与至少两个随机图像进行组合,得到至少两个图标训练样本,包括:
获取第j个随机图像的随机图像尺寸,基于图标显示比例及所述随机图像尺寸,确定所述标准图标样本的图标显示尺寸,将所述标准图标样本的尺寸调整为所述图标显示尺寸;j为正整数,j小于或等于所述至少两个随机图像的数量;所述图标显示比例用于表征调整后的标准图标样本与所述第j个随机图像之间的尺寸比例;
将所述调整后的标准图标样本与所述第j个随机图像进行组合,得到第j个图标训练样本。
12.一种视频数据处理装置,其特征在于,所述装置包括:
图标预测模块,用于获取目标视频,从所述目标视频中获取待检测图像,识别所述待检测图像中的预测图标区域以及所述预测图标区域对应的预测图标类型;
图标获取模块,用于从所述待检测图像中截取所述预测图标区域,作为候选区域,获取所述预测图标类型对应的标准图标;
图标匹配模块,用于将所述候选区域与所述标准图标进行匹配,若所述候选区域与所述标准图标的匹配结果为匹配成功结果,则确定所述目标视频中存在所述标准图标;
视频分类模块,用于将所述目标视频划分为所述标准图标对应的视频类别。
13.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-11任一项所述的方法。
CN202010783397.1A 2020-08-06 2020-08-06 一种视频数据处理方法、装置、计算机及可读存储介质 Active CN111950424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010783397.1A CN111950424B (zh) 2020-08-06 2020-08-06 一种视频数据处理方法、装置、计算机及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010783397.1A CN111950424B (zh) 2020-08-06 2020-08-06 一种视频数据处理方法、装置、计算机及可读存储介质

Publications (2)

Publication Number Publication Date
CN111950424A true CN111950424A (zh) 2020-11-17
CN111950424B CN111950424B (zh) 2023-04-07

Family

ID=73332765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010783397.1A Active CN111950424B (zh) 2020-08-06 2020-08-06 一种视频数据处理方法、装置、计算机及可读存储介质

Country Status (1)

Country Link
CN (1) CN111950424B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883233A (zh) * 2021-01-26 2021-06-01 济源职业技术学院 一种5g音视频记录仪
CN113011254A (zh) * 2021-02-04 2021-06-22 腾讯科技(深圳)有限公司 一种视频数据处理方法、计算机设备及可读存储介质
CN113052116A (zh) * 2021-04-06 2021-06-29 深圳华声医疗技术股份有限公司 超声视频数据处理方法、装置、超声设备及存储介质
CN113177481A (zh) * 2021-04-29 2021-07-27 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113361443A (zh) * 2021-06-21 2021-09-07 广东电网有限责任公司 一种输电线路图像样本对抗学习增广方法及系统
CN113596354A (zh) * 2021-07-23 2021-11-02 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN115830489A (zh) * 2022-11-03 2023-03-21 南京小网科技有限责任公司 一种基于ai识别的智能动态分析系统
CN115880512A (zh) * 2023-02-01 2023-03-31 有米科技股份有限公司 一种图标匹配方法及装置
CN116543013A (zh) * 2023-04-19 2023-08-04 北京拙河科技有限公司 一种球类运动轨迹分析方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020650A (zh) * 2012-11-23 2013-04-03 Tcl集团股份有限公司 一种台标识别方法及装置
CN103336954A (zh) * 2013-07-08 2013-10-02 北京捷成世纪科技股份有限公司 一种视频中的台标识别方法和装置
CN109800698A (zh) * 2019-01-11 2019-05-24 北京邮电大学 基于深度网络的图标检测方法
CN109977859A (zh) * 2019-03-25 2019-07-05 腾讯科技(深圳)有限公司 一种图标识别的方法以及相关装置
CN110287888A (zh) * 2019-06-26 2019-09-27 中科软科技股份有限公司 一种台标识别方法及系统
CN110300325A (zh) * 2019-08-06 2019-10-01 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备及计算机可读存储介质
WO2019223361A1 (zh) * 2018-05-23 2019-11-28 北京国双科技有限公司 一种视频分析方法及装置
CN110659604A (zh) * 2019-09-20 2020-01-07 北京达佳互联信息技术有限公司 视频检测方法、装置、服务器及存储介质
CN111241985A (zh) * 2020-01-08 2020-06-05 腾讯科技(深圳)有限公司 一种视频内容识别方法、装置、存储介质、以及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020650A (zh) * 2012-11-23 2013-04-03 Tcl集团股份有限公司 一种台标识别方法及装置
CN103336954A (zh) * 2013-07-08 2013-10-02 北京捷成世纪科技股份有限公司 一种视频中的台标识别方法和装置
WO2019223361A1 (zh) * 2018-05-23 2019-11-28 北京国双科技有限公司 一种视频分析方法及装置
CN109800698A (zh) * 2019-01-11 2019-05-24 北京邮电大学 基于深度网络的图标检测方法
CN109977859A (zh) * 2019-03-25 2019-07-05 腾讯科技(深圳)有限公司 一种图标识别的方法以及相关装置
CN110287888A (zh) * 2019-06-26 2019-09-27 中科软科技股份有限公司 一种台标识别方法及系统
CN110300325A (zh) * 2019-08-06 2019-10-01 北京字节跳动网络技术有限公司 视频的处理方法、装置、电子设备及计算机可读存储介质
CN110659604A (zh) * 2019-09-20 2020-01-07 北京达佳互联信息技术有限公司 视频检测方法、装置、服务器及存储介质
CN111241985A (zh) * 2020-01-08 2020-06-05 腾讯科技(深圳)有限公司 一种视频内容识别方法、装置、存储介质、以及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HYO-YOUNG KIM ET AL: "An Improved Logo Detection Method with Learning based Verification for Video Classification", 《2014 IEEE FOURTH INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS BERLIN (ICCE-BERLIN)》 *
MENGYUAN LIU ET AL: "Joint Dynamic Pose Image and Space Time Reversal for Human Action Recognition from Videos", 《ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL》 *
徐佳宇: "基于跨层深度卷积特征的像素级台标识别算法", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883233A (zh) * 2021-01-26 2021-06-01 济源职业技术学院 一种5g音视频记录仪
CN112883233B (zh) * 2021-01-26 2024-02-09 济源职业技术学院 一种5g音视频记录仪
CN113011254A (zh) * 2021-02-04 2021-06-22 腾讯科技(深圳)有限公司 一种视频数据处理方法、计算机设备及可读存储介质
CN113011254B (zh) * 2021-02-04 2023-11-07 腾讯科技(深圳)有限公司 一种视频数据处理方法、计算机设备及可读存储介质
CN113052116A (zh) * 2021-04-06 2021-06-29 深圳华声医疗技术股份有限公司 超声视频数据处理方法、装置、超声设备及存储介质
CN113177481B (zh) * 2021-04-29 2023-09-29 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113177481A (zh) * 2021-04-29 2021-07-27 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113361443A (zh) * 2021-06-21 2021-09-07 广东电网有限责任公司 一种输电线路图像样本对抗学习增广方法及系统
CN113596354A (zh) * 2021-07-23 2021-11-02 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN115830489A (zh) * 2022-11-03 2023-03-21 南京小网科技有限责任公司 一种基于ai识别的智能动态分析系统
CN115830489B (zh) * 2022-11-03 2023-10-20 南京小网科技有限责任公司 一种基于ai识别的智能动态分析系统
CN115880512A (zh) * 2023-02-01 2023-03-31 有米科技股份有限公司 一种图标匹配方法及装置
CN116543013A (zh) * 2023-04-19 2023-08-04 北京拙河科技有限公司 一种球类运动轨迹分析方法及装置

Also Published As

Publication number Publication date
CN111950424B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
JP7490141B2 (ja) 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
EP3916627A1 (en) Living body detection method based on facial recognition, and electronic device and storage medium
US20220172518A1 (en) Image recognition method and apparatus, computer-readable storage medium, and electronic device
EP2785058A1 (en) Video advertisement broadcasting method, device and system
CN112037142B (zh) 一种图像去噪方法、装置、计算机及可读存储介质
KR101996371B1 (ko) 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
CN111695392A (zh) 基于级联的深层卷积神经网络的人脸识别方法及系统
CN114495128B (zh) 字幕信息检测方法、装置、设备以及存储介质
CN113392270A (zh) 视频处理方法、装置、计算机设备以及存储介质
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN113011254B (zh) 一种视频数据处理方法、计算机设备及可读存储介质
JP2020017136A (ja) 物体検出認識装置、方法、及びプログラム
CN117252947A (zh) 图像处理方法、装置、计算机、存储介质及程序产品
CN112836682A (zh) 视频中对象的识别方法、装置、计算机设备和存储介质
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN113569613A (zh) 图像处理方法、装置、图像处理设备及存储介质
Nakjai et al. Thai finger spelling localization and classification under complex background using a YOLO-based deep learning
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN113762031A (zh) 一种图像识别方法、装置、设备及存储介质
CN116580054A (zh) 视频数据处理方法、装置、设备以及介质
CN114038045A (zh) 一种跨模态人脸识别模型构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant