CN114973366A - 一种视频处理方法及相关设备 - Google Patents
一种视频处理方法及相关设备 Download PDFInfo
- Publication number
- CN114973366A CN114973366A CN202210588529.4A CN202210588529A CN114973366A CN 114973366 A CN114973366 A CN 114973366A CN 202210588529 A CN202210588529 A CN 202210588529A CN 114973366 A CN114973366 A CN 114973366A
- Authority
- CN
- China
- Prior art keywords
- expression
- video
- image frame
- preset
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开提供的一种视频处理方法及相关设备,可以获得第一视频中待检测表情的至少一个第一图像帧;将第一图像帧输入至预设表情检测模型中,获得预设表情检测模型输出的表情检测结果,表情检测结果包括第一图像帧中人脸图像的人脸表情结果以及与人脸表情结果对应的第一表情置信度;至少利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第二视频;对任一第二视频:利用该第二视频中包括的各第一图像帧对应的第一表情置信度,确定该第二视频对应的情绪置信度;根据情绪置信度,在各第二视频中获得预设数量的第三视频。本公开通过情绪置信度,能够准确识别出长视频中人物情绪激动的视频片段,有助于提高短视频的生产效率以及长视频的引流推广。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种视频处理方法及相关设备。
背景技术
近年来,随着移动终端普及和网络的提速,短平快的大流量传播内容逐渐获得人们的青睐,其中,短视频作为能够在各种新媒体平台上播放以及适合在移动状态和短时休闲状态下观看的视频内容,在各年龄层以及学历层都吸引着大批的用户。
对于视频行业而言,将长视频中的精彩内容剪辑出短视频,通过以短带长,能够显著提高长视频的观看率,因此如何从长视频中获得精彩的短视频,成为本领域技术人员急需解决的技术问题。
发明内容
鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法及相关设备,技术方案包括:
一种视频处理方法,包括:
获得第一视频中待检测表情的至少一个第一图像帧;
将所述第一图像帧输入至预设表情检测模型中,获得所述预设表情检测模型输出的表情检测结果,其中,所述表情检测结果包括所述第一图像帧中人脸图像的人脸表情结果以及与所述人脸表情结果对应的第一表情置信度;
至少利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第二视频;
对任一所述第二视频:利用该第二视频中包括的各所述第一图像帧对应的所述第一表情置信度,确定该第二视频对应的情绪置信度;
根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频。
可选的,所述获得第一视频中待检测表情的至少一个第一图像帧,包括:
按照预设图像帧间隔,在所述第一视频中确定待人脸检测的多个第二图像帧;
将所述第二图像帧输入至预设多任务人脸检测模型中,获得所述预设多任务人脸检测模型输出的人脸检测结果,其中,所述人脸检测结果包括所述第二图像帧中人脸图像的人脸所占图像比率、人脸置信度以及人脸角度;
利用调和算子对所述第二图像帧进行卷积计算,获得所述第二图像帧的清晰度;
利用所述人脸所占图像比率、所述人脸置信度、所述人脸角度以及所述清晰度,在各所述第二图像帧中获得待检测表情的至少一个第一图像帧。
可选的,所述利用所述人脸所占图像比率、所述人脸置信度、所述人脸角度以及所述清晰度,在各所述第二图像帧中获得待检测表情的至少一个第一图像帧,包括:
在各所述第二图像帧中筛选出所述人脸所占图像比率不小于预设比率阈值的至少一个第三图像帧;
在各所述第三图像帧中筛选出所述人脸置信度不小于预设人脸置信度阈值的至少一个第四图像帧;
在各所述第四图像帧中筛选出所述人脸角度满足预设角度条件的至少一个第五图像帧;
在各所述第五图像帧中筛选出所述清晰度不小于预设清晰度阈值的待检测表情的至少一个第一图像帧。
可选的,所述将所述第一图像帧输入至预设表情检测模型中,获得所述预设表情检测模型输出的表情检测结果,包括:
将所述第一图像帧输入至预设表情检测模型中,以使所述预设表情检测模型对所述第一图像帧中的人脸图像进行多表情种类检测,获得所述人脸图像在预设表情种类下与各表情分别对应的第二表情置信度,将数值最高的所述第二表情置信度确定为第一表情置信度,将所述第一表情置信度对应的表情确定为所述第一图像帧中的人脸图像的人脸表情结果;
获得所述预设表情检测模型输出的包括所述第一表情置信度和所述人脸表情结果的表情检测结果。
可选的,所述至少利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第二视频,包括:
利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第四视频;
使用非极大值抑制算法在各所述第四视频中去除重叠视频,确定多个第二视频,其中,各所述第二视频之间的重叠值小于预设重叠阈值。
可选的,所述根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频,包括:
按照所述情绪置信度由大到小的顺序,在各所述第二视频中获得预设数量的第三视频。
可选的,在所述根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频之后,所述方法还包括:
将各所述第三视频进行拼接,获得第五视频。
一种视频处理装置,包括:第一获得单元、第二获得单元、第一确定单元、第二确定单元以及第三获得单元,
所述第一获得单元,用于获得第一视频中待检测表情的至少一个第一图像帧;
所述第二获得单元,用于将所述第一图像帧输入至预设表情检测模型中,获得所述预设表情检测模型输出的表情检测结果,其中,所述表情检测结果包括所述第一图像帧中人脸图像的人脸表情结果以及与所述人脸表情结果对应的第一表情置信度;
所述第一确定单元,用于至少利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第二视频;
所述第二确定单元,用于对任一所述第二视频:利用该第二视频中包括的各所述第一图像帧对应的所述第一表情置信度,确定该第二视频对应的情绪置信度;
所述第三获得单元,用于根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频。
一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的视频处理方法。
一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的视频处理方法。
借由上述技术方案,本公开提供的一种视频处理方法及相关设备,可以获得第一视频中待检测表情的至少一个第一图像帧;将第一图像帧输入至预设表情检测模型中,获得预设表情检测模型输出的表情检测结果,表情检测结果包括第一图像帧中人脸图像的人脸表情结果以及与人脸表情结果对应的第一表情置信度;至少利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第二视频;对任一第二视频:利用该第二视频中包括的各第一图像帧对应的第一表情置信度,确定该第二视频对应的情绪置信度;根据情绪置信度,在各第二视频中获得预设数量的第三视频。本公开通过情绪置信度,能够准确识别出长视频中人物情绪激动的视频片段,有助于提高短视频的生产效率以及长视频的引流推广。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本公开实施例提供的视频处理方法的一种实施方式的流程示意图;
图2示出了本公开实施例提供的视频处理方法中步骤S100的一种实施方式的流程示意图;
图3示出了本公开实施例提供的视频处理方法中步骤S100的另一种实施方式的流程示意图;
图4示出了本公开实施例提供的视频处理方法的另一种实施方式的流程示意图;
图5示出了本公开实施例提供的视频处理方法的另一种实施方式的流程示意图;
图6示出了本公开实施例提供的视频处理装置的结构示意图;
图7示出了本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本公开实施例提供的视频处理方法的一种实施方式的流程示意图,该视频处理方法可以包括:
S100、获得第一视频中待检测表情的至少一个第一图像帧。
其中,第一视频可以是视频时长超过半小时的视频,也称为长视频。长视频可以是主要以影视剧为主的视频。
可选的,本公开实施例可以将第一视频分拆为图像帧,从而在各图像帧中选择并抽取出第一图像帧。
可选的,本公开实施例可以按照预设图像帧间隔,在各图像帧中抽取出第一图像帧。例如:本公开实施例可以将在第一视频中每隔5帧抽取出的图像帧,确定为第一图像帧。
可选的,本公开实施例可以对第一视频进行视频预处理,筛选出第一视频中的第一图像帧。可选的,基于图1所示方法,如图2所示,本公开实施例提供的视频处理方法中步骤S100的一种实施方式的流程示意图,步骤S100可以包括:
S110、按照预设图像帧间隔,在第一视频中确定待人脸检测的多个第二图像帧。
可选的,本公开实施例可以按照预设图像帧间隔,在由第一视频分拆的各图像帧中确定待人脸检测的多个第二图像帧。
可选的,预设图像帧间隔可以根据实际识别效率和遗漏风险进行设置。优选的,预设图像帧间隔可以为5帧。
可选的,本公开实施例可以先将第二图像帧的原始图像尺寸调整为预设图像尺寸,再将调整后的第二图像帧输入至预设多任务人脸检测模型中,其中,预设图像尺寸小于原始图像尺寸。本公开实施例通过缩小第二图像帧的图像尺寸,可以提高人脸检测和计算的效率。
S120、将第二图像帧输入至预设多任务人脸检测模型中,获得预设多任务人脸检测模型输出的人脸检测结果,其中,人脸检测结果包括第二图像帧中人脸图像的人脸所占图像比率、人脸置信度以及人脸角度。
其中,预设多任务人脸检测模型可以为MOS模型。MOS模型是一种用于人脸检测、人脸地标定位和头部姿势估计的低延迟和轻量级架构。本公开实施例将第二图像帧输入至预设多任务人脸检测模型中之后,预设多任务人脸检测模型会预测出第二图像帧中人脸图像的位置、人脸置信度以及人脸角度,其中,该位置包括人脸图像在第二图像帧中的左上角坐标和右下角坐标,该人脸置信度用于指示该人脸图像为真实人脸的概率,该人脸角度包括人脸图像中人脸的俯仰角(pitch)和偏航角(yaw)。可以理解的是,根据人脸图像在第二图像帧中的位置,可以计算出人脸图像占第二图像帧的人脸所占图像比率。在预设多任务人脸检测模型中,在第二图像帧中确定出的人脸图像为长方形区域,通过该长方形区域在第二图像帧上的占比,可以确定出人脸图像占第二图像帧的人脸所占图像比率。
S130、利用调和算子对第二图像帧进行卷积计算,获得第二图像帧的清晰度。
其中,调和算子也称为拉普拉斯算子(laplacian)。本公开实施例可以将第二图像帧中各像素块与调和算子进行卷积,分别获得与像素块对应的卷积值,对各卷积值求平方和,获得该第二图像帧的清晰度。
具体的,调和算子可以为:
本公开实施例可以根据公式:
获得第二图像帧的清晰度,其中,f为第二图像帧的清晰度,i和j表示像素块在该第二图像帧中的位置,G(i,j)表示位置为(i,j)的像素块对应的卷积值。
S140、利用人脸所占图像比率、人脸置信度、人脸角度以及清晰度,在各第二图像帧中获得待检测表情的至少一个第一图像帧。
可选的,本公开实施例可以利用人脸所占图像比率、人脸置信度、人脸角度以及清晰度,在各第二图像帧中进行筛选出至少一个第一图像帧。
具体的,本公开实施例可以将人脸所占图像比率不小于预设比率阈值、人脸置信度不小于预设人脸置信度阈值、人脸角度满足预设角度条件且清晰度不小于预设清晰度阈值的第二图像帧确定为第一图像帧。
可选的,预设比率阈值可以为0.1。可选的,预设人脸置信度阈值可以为0.55。可选的,预设角度条件可以为俯仰角不大于45度且偏航角不大于20度。可选的,预设清晰度阈值可以为50。本公开实施例通过对第二图像帧预测出的人脸检测结果和清晰度进行筛选,可以获得人脸图像清晰、大且正的第一图像帧。
可选的,基于图2所示方法,如图3所示,本公开实施例提供的视频处理方法中步骤S100的另一种实施方式的流程示意图,步骤S140可以包括:
S141、在各第二图像帧中筛选出人脸所占图像比率不小于预设比率阈值的至少一个第三图像帧。
S142、在各第三图像帧中筛选出人脸置信度不小于预设人脸置信度阈值的至少一个第四图像帧。
S143、在各第四图像帧中筛选出人脸角度满足预设角度条件的至少一个第五图像帧。
S144、在各第五图像帧中筛选出清晰度不小于预设清晰度阈值的待检测表情的至少一个第一图像帧。
S200、将第一图像帧输入至预设表情检测模型中,获得预设表情检测模型输出的表情检测结果,其中,表情检测结果包括第一图像帧中人脸图像的人脸表情结果以及与人脸表情结果对应的第一表情置信度。
其中,预设表情检测模型为卷积神经网络模型。具体的,该预设表情检测模型为resnet50。本公开实施例可以预先收集多个标注好人脸表情结果的人脸图像对表情检测模型进行训练,获得训练好的表情检测模型。
可选的,本公开实施例可以将第一图像帧输入至预设表情检测模型中,以使预设表情检测模型对第一图像帧中的人脸图像进行多表情种类检测,获得人脸图像在预设表情种类下与各表情分别对应的第二表情置信度,将数值最高的第二表情置信度确定为第一表情置信度,将第一表情置信度对应的表情确定为第一图像帧中的人脸图像的人脸表情结果;获得预设表情检测模型输出的包括第一表情置信度和人脸表情结果的表情检测结果。
可选的,预设表情种类可以为中立(neutral)、开心(happy)、悲伤(sad)、生气(angry)、厌恶(disgust)、惊讶(surprise)以及恐惧(fear)中的一种或多种表情。本公开实施例可以选择一种或多种表情的人脸图像对表情检测模型进行训练。
其中,预设表情检测模型可以检测出人脸图像在预设表情种类下各表情的第二表情置信度的数值,将数值最高的第二表情置信度确定为该人脸图像对应的第一图像帧对应的第一表情置信度。例如:假设第一图像帧中的人脸图像在预设表情种类下的各表情的第二表情置信度为:中立10、开心80、悲伤15、生气20、厌恶18、惊讶35以及恐惧23,则确定该第一图像帧对应的人脸表情结果为开心且第一表情置信度为80。
S300、至少利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第二视频。
可选的,预设视频时间长度可以根据实际需求进行设置。可选的,预设视频时间长度可以为2分钟。可以理解的是,滑动窗口的滑动步长可以根据实际需求进行设置,本公开在此不作进一步的限制。
可选的,本公开实施例可以利用预设视频时间长度的滑动窗口,将在第一视频中依次选取时间长度为预设视频时间长度的视频片段,确定为一个第二视频。
可选的,基于图1所示方法,如图4所示,本公开实施例提供的视频处理方法的另一种实施方式的流程示意图,步骤S300可以包括:
S310、利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第四视频。
具体的,本公开实施例可以利用预设视频时间长度的滑动窗口,将在第一视频中依次选取时间长度为预设视频时间长度的视频片段,确定为一个第四视频。
S320、使用非极大值抑制算法在各第四视频中去除重叠视频,确定多个第二视频,其中,各第二视频之间的重叠值小于预设重叠阈值。
具体的,本公开实施例可以使用非极大值抑制算法(Non-Maximum Suppression,NMS)计算出任意两个第四视频的重叠值,并在重叠值不小于预设重叠阈值的两个第四视频之间保留一个第四视频,将去除重叠视频后的第四视频确定为第二视频。本公开实施例通过去除重叠视频,可以避免获得相似度较高的来年各个第三视频,提高短视频生产的资源利用率。
S400、对任一第二视频:利用该第二视频中包括的各第一图像帧对应的第一表情置信度,确定该第二视频对应的情绪置信度。
可选的,本公开实施例可以将任一第二视频中包括的各第一图像帧对应的第一表情置信度进行相加,将相加后的结果确定为该第二视频对应的情绪置信度。
可选的,本公开实施例可以在预设表情种类包括中立的情况下,将任一第二视频中包括的各第一图像帧中:除人脸表情结果为中立的第一图像帧以外的其他第一图像帧对应的第一表情置信度进行相加,将相加后的结果确定为该第二视频对应的情绪置信度。可以理解的是,人脸表情结果为中立的第一图像帧所反映的人物情绪起伏小,该第一图像帧对应的视频内容可能较为平淡。本公开实施例不将视频内容平淡的第一图像帧对应的第一表情置信度作为情绪置信度的依据,可以尽量使得视频内容越激烈的第二视频的情绪置信度越高。
可选的,本公开实施例可以根据公式:
计算出第二视频对应的情绪置信度,其中,Score_ij为第二视频对应的情绪置信度,Score_k为第k帧的第一表情置信度,i为第二视频的起始帧的编号,j为第二视频的结束帧的编号。
S500、根据情绪置信度,在各第二视频中获得预设数量的第三视频。
可选的,本公开实施例可以按照情绪置信度由大到小的顺序,在各第二视频中获得预设数量的第三视频。
其中,预设数量可以根据实际需求进行设置。可选的,预设数量可以为5。可以理解的是,第三视频是视频时长小于第一视频的短视频。
可选的,基于图1所示方法,如图5所示,本公开实施例提供的视频处理方法的另一种实施方式的流程示意图,在步骤S500之后,该视频处理方法还可以包括:
S600、将各第三视频进行拼接,获得第五视频。
可以理解的是,第五视频是视频时长介于第一视频和第三视频之间的短视频。可选的,本公开实施例可以按照各第三视频在第一视频中的播放顺序进行拼接,获得第五视频。
本公开提供的一种视频处理方法,可以获得第一视频中待检测表情的至少一个第一图像帧;将第一图像帧输入至预设表情检测模型中,获得预设表情检测模型输出的表情检测结果,表情检测结果包括第一图像帧中人脸图像的人脸表情结果以及与人脸表情结果对应的第一表情置信度;至少利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第二视频;对任一第二视频:利用该第二视频中包括的各第一图像帧对应的第一表情置信度,确定该第二视频对应的情绪置信度;根据情绪置信度,在各第二视频中获得预设数量的第三视频。本公开通过情绪置信度,能够准确识别出长视频中人物情绪激动的视频片段,有助于提高短视频的生产效率以及长视频的引流推广。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
与上述方法实施例相对应,本公开实施例还提供一种视频处理装置,其结构如图6所示,可以包括:第一获得单元100、第二获得单元200、第一确定单元300、第二确定单元400以及第三获得单元500。
第一获得单元100,用于获得第一视频中待检测表情的至少一个第一图像帧。
第二获得单元200,用于将第一图像帧输入至预设表情检测模型中,获得预设表情检测模型输出的表情检测结果,其中,表情检测结果包括第一图像帧中人脸图像的人脸表情结果以及与人脸表情结果对应的第一表情置信度。
第一确定单元300,用于至少利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第二视频。
第二确定单元400,用于对任一第二视频:利用该第二视频中包括的各第一图像帧对应的第一表情置信度,确定该第二视频对应的情绪置信度。
第三获得单元500,用于根据情绪置信度,在各第二视频中获得预设数量的第三视频。
可选的,第一获得单元100可以包括:第一确定子单元、第一获得子单元、第二获得子单元以及第三获得子单元。
第一确定子单元,用于按照预设图像帧间隔,在第一视频中确定待人脸检测的多个第二图像帧。
第一获得子单元,用于将第二图像帧输入至预设多任务人脸检测模型中,获得预设多任务人脸检测模型输出的人脸检测结果,其中,人脸检测结果包括第二图像帧中人脸图像的人脸所占图像比率、人脸置信度以及人脸角度。
第二获得子单元,用于利用调和算子对第二图像帧进行卷积计算,获得第二图像帧的清晰度。
第三获得子单元,用于利用人脸所占图像比率、人脸置信度、人脸角度以及清晰度,在各第二图像帧中获得待检测表情的至少一个第一图像帧。
可选的,第三获得子单元,可以具体用于在各第二图像帧中筛选出人脸所占图像比率不小于预设比率阈值的至少一个第三图像帧;在各第三图像帧中筛选出人脸置信度不小于预设人脸置信度阈值的至少一个第四图像帧;在各第四图像帧中筛选出人脸角度满足预设角度条件的至少一个第五图像帧;在各第五图像帧中筛选出清晰度不小于预设清晰度阈值的待检测表情的至少一个第一图像帧。
可选的,第二获得单元200,可以具体用于将第一图像帧输入至预设表情检测模型中,以使预设表情检测模型对第一图像帧中的人脸图像进行多表情种类检测,获得人脸图像在预设表情种类下与各表情分别对应的第二表情置信度,将数值最高的第二表情置信度确定为第一表情置信度,将第一表情置信度对应的表情确定为第一图像帧中的人脸图像的人脸表情结果;获得预设表情检测模型输出的包括第一表情置信度和人脸表情结果的表情检测结果。
可选的,第一确定单元300可以包括:第二确定子单元和第三确定子单元。
第二确定子单元,用于利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第四视频。
第三确定子单元,用于使用非极大值抑制算法在各第四视频中去除重叠视频,确定多个第二视频,其中,各第二视频之间的重叠值小于预设重叠阈值。
可选的,第三获得单元500,具体用于按照情绪置信度由大到小的顺序,在各第二视频中获得预设数量的第三视频。
可选的,该视频处理装置还可以包括:视频拼接单元。
视频拼接单元,用于在第三获得单元500根据情绪置信度,在各第二视频中获得预设数量的第三视频之后,将各第三视频进行拼接,获得第五视频。
本公开提供的一种视频处理装置,可以获得第一视频中待检测表情的至少一个第一图像帧;将第一图像帧输入至预设表情检测模型中,获得预设表情检测模型输出的表情检测结果,表情检测结果包括第一图像帧中人脸图像的人脸表情结果以及与人脸表情结果对应的第一表情置信度;至少利用预设视频时间长度的滑动窗口,在第一视频中确定出多个第二视频;对任一第二视频:利用该第二视频中包括的各第一图像帧对应的第一表情置信度,确定该第二视频对应的情绪置信度;根据情绪置信度,在各第二视频中获得预设数量的第三视频。本公开通过情绪置信度,能够准确识别出长视频中人物情绪激动的视频片段,有助于提高短视频的生产效率以及长视频的引流推广。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
所述视频处理装置包括处理器和存储器,上述第一获得单元100、第二获得单元200、第一确定单元300、第二确定单元400以及第三获得单元500等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来计算视频中视频片段的情绪置信度,准确识别出长视频中人物情绪激动的视频片段,有助于提高短视频的生产效率以及长视频的引流推广。
本公开实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述视频处理方法。
本公开实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述视频处理方法。
如图7所示,本公开实施例提供了一种电子设备1000,电子设备1000包括至少一个处理器1001、以及与处理器1001连接的至少一个存储器1002、总线1003;其中,处理器1001、存储器1002通过总线1003完成相互间的通信;处理器1001用于调用存储器1002中的程序指令,以执行上述的视频处理方法。本文中的电子设备可以是服务器、PC、PAD、手机等。
本公开还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化有视频处理方法步骤的程序。
本公开是参照根据本公开实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在本公开的描述中,需要理解的是,如若涉及术语“上”、“下”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的位置或元件必须具有特定方位、以特定的方位构成和操作,因此不能理解为本公开的限制。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。
Claims (10)
1.一种视频处理方法,其特征在于,包括:
获得第一视频中待检测表情的至少一个第一图像帧;
将所述第一图像帧输入至预设表情检测模型中,获得所述预设表情检测模型输出的表情检测结果,其中,所述表情检测结果包括所述第一图像帧中人脸图像的人脸表情结果以及与所述人脸表情结果对应的第一表情置信度;
至少利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第二视频;
对任一所述第二视频:利用该第二视频中包括的各所述第一图像帧对应的所述第一表情置信度,确定该第二视频对应的情绪置信度;
根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频。
2.根据权利要求1所述的方法,其特征在于,所述获得第一视频中待检测表情的至少一个第一图像帧,包括:
按照预设图像帧间隔,在所述第一视频中确定待人脸检测的多个第二图像帧;
将所述第二图像帧输入至预设多任务人脸检测模型中,获得所述预设多任务人脸检测模型输出的人脸检测结果,其中,所述人脸检测结果包括所述第二图像帧中人脸图像的人脸所占图像比率、人脸置信度以及人脸角度;
利用调和算子对所述第二图像帧进行卷积计算,获得所述第二图像帧的清晰度;
利用所述人脸所占图像比率、所述人脸置信度、所述人脸角度以及所述清晰度,在各所述第二图像帧中获得待检测表情的至少一个第一图像帧。
3.根据权利要求2所述的方法,其特征在于,所述利用所述人脸所占图像比率、所述人脸置信度、所述人脸角度以及所述清晰度,在各所述第二图像帧中获得待检测表情的至少一个第一图像帧,包括:
在各所述第二图像帧中筛选出所述人脸所占图像比率不小于预设比率阈值的至少一个第三图像帧;
在各所述第三图像帧中筛选出所述人脸置信度不小于预设人脸置信度阈值的至少一个第四图像帧;
在各所述第四图像帧中筛选出所述人脸角度满足预设角度条件的至少一个第五图像帧;
在各所述第五图像帧中筛选出所述清晰度不小于预设清晰度阈值的待检测表情的至少一个第一图像帧。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一图像帧输入至预设表情检测模型中,获得所述预设表情检测模型输出的表情检测结果,包括:
将所述第一图像帧输入至预设表情检测模型中,以使所述预设表情检测模型对所述第一图像帧中的人脸图像进行多表情种类检测,获得所述人脸图像在预设表情种类下与各表情分别对应的第二表情置信度,将数值最高的所述第二表情置信度确定为第一表情置信度,将所述第一表情置信度对应的表情确定为所述第一图像帧中的人脸图像的人脸表情结果;
获得所述预设表情检测模型输出的包括所述第一表情置信度和所述人脸表情结果的表情检测结果。
5.根据权利要求1所述的方法,其特征在于,所述至少利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第二视频,包括:
利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第四视频;
使用非极大值抑制算法在各所述第四视频中去除重叠视频,确定多个第二视频,其中,各所述第二视频之间的重叠值小于预设重叠阈值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频,包括:
按照所述情绪置信度由大到小的顺序,在各所述第二视频中获得预设数量的第三视频。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频之后,所述方法还包括:
将各所述第三视频进行拼接,获得第五视频。
8.一种视频处理装置,其特征在于,包括:第一获得单元、第二获得单元、第一确定单元、第二确定单元以及第三获得单元,
所述第一获得单元,用于获得第一视频中待检测表情的至少一个第一图像帧;
所述第二获得单元,用于将所述第一图像帧输入至预设表情检测模型中,获得所述预设表情检测模型输出的表情检测结果,其中,所述表情检测结果包括所述第一图像帧中人脸图像的人脸表情结果以及与所述人脸表情结果对应的第一表情置信度;
所述第一确定单元,用于至少利用预设视频时间长度的滑动窗口,在所述第一视频中确定出多个第二视频;
所述第二确定单元,用于对任一所述第二视频:利用该第二视频中包括的各所述第一图像帧对应的所述第一表情置信度,确定该第二视频对应的情绪置信度;
所述第三获得单元,用于根据所述情绪置信度,在各所述第二视频中获得预设数量的第三视频。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的视频处理方法。
10.一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至7中任一项所述的视频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210588529.4A CN114973366A (zh) | 2022-05-27 | 2022-05-27 | 一种视频处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210588529.4A CN114973366A (zh) | 2022-05-27 | 2022-05-27 | 一种视频处理方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114973366A true CN114973366A (zh) | 2022-08-30 |
Family
ID=82955008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210588529.4A Pending CN114973366A (zh) | 2022-05-27 | 2022-05-27 | 一种视频处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973366A (zh) |
-
2022
- 2022-05-27 CN CN202210588529.4A patent/CN114973366A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583097A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
JP2018533805A (ja) | 顔位置追跡方法、装置及び電子デバイス | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
CN111754546A (zh) | 一种基于多特征图融合的目标跟踪方法、系统及存储介质 | |
CN113128368B (zh) | 一种人物交互关系的检测方法、装置及系统 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN110033424A (zh) | 图像处理的方法、装置、电子设备及计算机可读存储介质 | |
CN112149615A (zh) | 人脸活体检测方法、装置、介质及电子设备 | |
CN111881740B (zh) | 人脸识别方法、装置、电子设备及介质 | |
CN108875506B (zh) | 人脸形状点跟踪方法、装置和系统及存储介质 | |
CN113255685A (zh) | 一种图像处理方法、装置、计算机设备以及存储介质 | |
CN113688839B (zh) | 视频处理方法及装置、电子设备、计算机可读存储介质 | |
CN112651429B (zh) | 一种音频信号时序对齐方法和装置 | |
CN113920540A (zh) | 基于知识蒸馏的行人重识别方法、装置、设备及存储介质 | |
CN111815748B (zh) | 一种动画处理方法、装置、存储介质及电子设备 | |
CN110223320B (zh) | 物体检测跟踪方法和检测跟踪装置 | |
CN110956131B (zh) | 单目标追踪方法、装置及系统 | |
CN114973366A (zh) | 一种视频处理方法及相关设备 | |
CN115984977A (zh) | 活体检测方法和系统 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
CN114972587A (zh) | 表情驱动方法、装置、电子设备及可读存储介质 | |
CN113850238A (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |