CN116916089A - 一种融合人声特征与人脸特征的智能视频剪辑方法 - Google Patents

一种融合人声特征与人脸特征的智能视频剪辑方法 Download PDF

Info

Publication number
CN116916089A
CN116916089A CN202310704953.5A CN202310704953A CN116916089A CN 116916089 A CN116916089 A CN 116916089A CN 202310704953 A CN202310704953 A CN 202310704953A CN 116916089 A CN116916089 A CN 116916089A
Authority
CN
China
Prior art keywords
face
video
voice
features
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310704953.5A
Other languages
English (en)
Other versions
CN116916089B (zh
Inventor
徐可佳
陈金强
徐智衍
陈安桐
沈洋
唐鹏飞
邓胡一万
张一超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202310704953.5A priority Critical patent/CN116916089B/zh
Publication of CN116916089A publication Critical patent/CN116916089A/zh
Application granted granted Critical
Publication of CN116916089B publication Critical patent/CN116916089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明涉及视频剪辑技术领域,涉及一种融合人声特征与人脸特征的智能视频剪辑方法,包括:S1、场景镜头拆分,将输入的视频拆分成多个场景镜头片段,然后对每个场景镜头片段进行滑窗切片;S2、智能视频剪辑S2.1、对切片后的片段进行目标检测和显著性检测;S2.2、多主角类视频的判定:判定片段是否为多人物主角类,若是,则采用人声与人脸智能匹配方法;S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框,再通过按比例对视频进行裁剪,再对多片段和原语音进行合成,最后对视频进行平滑即可输出最后的裁剪的短视频结果。本发明能够应对多主角人物视频自动剪辑中的音画不匹配。

Description

一种融合人声特征与人脸特征的智能视频剪辑方法
技术领域
本发明涉及视频剪辑技术领域,具体地说,涉及一种融合人声特征与人脸特征的智能视频剪辑方法。
背景技术
快速发展的智能传感器和多媒体技术让人们可以通过手机、数码相机和摄像机等智能终端设备方便地获取、传播与使用视频数据。一直以来,传统的视频主要在电视、电脑显示器等设备上播放,视频采集和编辑通常使用4:3或者16:9的宽高比,目前主流视频平台(如腾讯视频、爱奇艺、哔哩哔哩,Youtube等)的大部分视频资源均采用这种比例。与此同时,手机、平板等智能终端设备和社交网络的兴起与风靡,让越来越多的消费者更加倾向于用手机等移动设备观看视频,而不是电视或电脑显示器。手机等智能设备的显示屏广泛使用9:16,甚至更小的宽高比,使得传统的4:3和16:9宽高比的视频不能很好地在手机上显示。为了拥有更好的用手机观看视频体验,用户通常需要对视频宽高比格式进行转换。除此之外,随着近年来短视频平台,如微视、抖音、快手、美拍、K歌等,以及直播平台,如虎牙、斗鱼、B站等快速崛起,已经吸引了大量的用户,越来越多视频生产者针对手机等设备进行视频生产与编辑。这些短视频平台、直播平台的视频内容较多使用“竖屏”方式,即9:16的宽高比。而常用的数码相机、单反、摄像机等视频采集设备获取的原始视频素材通常是横屏,这些素材往往需要由人工转为竖屏。
传统的视频宽高比转化的方法通常使用静态裁剪(即使用一个固定的视角窗口对视频进行裁剪,保留窗口内的视频内容,裁剪掉窗口外的部分)和补充黑边(即固定视频长宽比缩放,并在其他位置补充零值)。由于视频构图、视频内容运动、相机运动等的多样性,固定窗口的静态裁剪方法通常很难获得令人满意的效果。为了提升裁剪后视频观看效果,需要视频编辑者手动地确定每一帧视频中的显著目标或区域,并且跟踪他们在连续帧中的位置,然后进行手工视频裁剪。对于海量视频的裁剪,这种手工逐帧裁剪的方式,需要消耗大量的时间和人力成本,并且该裁剪过程通常比较繁琐,容易出错。而补充黑边的方式在有限的显示区域内引入较多无效值,严重影响视频观看体验。因此,研究视频智能裁剪技术,根据视频内容进行自适应裁剪,可以大规模应用于视频编辑和辅助编辑,具有较高的实用价值。
另外,现有方法并不是对所有的场景都有效,对于某些场景,例如对话类节目,脱口秀节目等等多主角人物场景视频,场景画面的展现常常需要音画同步,即画面选择呈现的主体人和视频的声音必须匹配,即谁说话画面就呈现谁,而现有技术方案在视频出现多主角人物画面时,常会出现音画不匹配的问题,当视频中包含2位或2位以上的主体角色在进行对话时,说话人应该是主体,视频剪辑时,说话的声音应该与说话人画面准确的匹配上才是合理的;由于业界现有的方案均只利用了图像信息,当2位或2位以上的对话演员出现在画面中时,算法会将对话演员均判定为主要(显著性)目标,由于业界现有方案并没有有效的利用视频的声音信息,因此在对话过程中无法有效的从画面中的选择正确的讲话人,导致智能剪辑后的竖屏视频后出现音画不匹配的问题。
特别是在新闻节目、对话类节目、脱口秀节目类型的视频及多人场景的影视剧集中容易出现音画不匹配问题;现有方案中由于缺乏对声音特征的有效利用,无法正确地从多个人物中选取最佳的目标进行裁剪,从而导致这类型视频剪辑的失败或效果不佳。
发明内容
本发明的内容是提供一种融合人声特征与人脸特征的智能视频剪辑方法,其能够解决多主角人物视频自动剪辑中的音画不匹配问题。
根据本发明的一种融合人声特征与人脸特征的智能视频剪辑方法,其包括以下步骤:
S1、场景镜头拆分
将输入的视频拆分成多个场景镜头片段,然后对每个场景镜头片段进行滑窗切片;
S2、智能视频剪辑
S2.1、对切片后的片段进行目标检测和显著性检测;
S2.2、多主角类视频的判定:判定片段是否为多人物主角类,若是,则采用人声与人脸智能匹配方法;
人声与人脸智能匹配方法为:
1)使用FFmpeg将片段的音频与图像进行分离;
2)对音频数据进行人声提取,提取出视频的主要人声;
3)对人声进行不同说话人聚类处理,将相同音色的人声聚为一类,从而统计出说话人的个数,及每个说话人的时间片段;
4)对每个说话人分别进行语音性别、年龄识别;
5)基于Speech2Face神经网络系统,通过人声来绘制其面孔;
6)对图像数据进行处理:通过YOLO-v5对图像进行画面主体人物检测,然后通过Retina人脸检测算法提取人脸与人脸识别;人脸进行明星识别与人脸特征分析,得到人脸的性别与年龄预测;
7)对视频人脸的进行唇动检测,检测出视频中该片段内该人脸是否在唇动;
8)将音频得到的特征与图像的特征进行建模,得到音画匹配模型;
S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框,再通过按比例对视频进行裁剪,再对多片段和原语音进行合成,最后对视频进行平滑即可输出最后的裁剪的短视频结果。
作为优选,S2.1中,利用目标检测算法RetinaNet进行目标检测,利用显著性检测算法对目标画面里的显著物品进行检测;目标检测是应对以人、动物、或常见物品为主体的画面,以分析出画面中的主要的人或物;而显著性检测是辅助目标检测同时对非人非物类得非常见物品的情况进行处理。
作为优选,2)中,采用SampleRNN来完成人声提取。
作为优选,3)中,采用说话人分割与聚类技术完成,具体实现如下:
a、将整段音频切分为指定长度的音频片段;
b、通过声纹提取模块提取所有音频片段的声纹向量信息;
c、将所有的音频片段声纹向量信息组合成为一个声纹向量矩阵,声纹向量矩阵的横坐标是时间维度纵坐标是声纹维度;
d、用声纹向量矩阵的转置声纹向量矩阵得到音频片段相似度矩阵,每个元素的值代表了该行的索引对应的音频片段声纹信息和该列的索引对应的音频片段声纹信息的相似度;
e、通过层次聚类的方法对相似度矩阵中的各个片段进行聚类,聚类后的每个类别单独保存为一个音频,从而实现说话人分割与聚类的工作。
作为优选,4)中,通过MFCC对人声提取特征,使用高斯混合模型识别说话人的性别;使用基于GBDT有监督学习分类器的声纹特征分类模型来判断是否为儿童,成年人,老人。
作为优选,5)中,Speech2Face神经网络系统是通过分析视频片段、匹配人声与人脸并找到两者之间的模式和趋势,来学习如何绘制人的样貌;Speech2Face可描绘出人脸中除了眼睛以外的部位。
作为优选,7)中,唇动检测方法为:
通过6)得到的人脸图像,先通过PIPNet完成人脸的关键点检测,然后对前后5帧的人脸嘴巴的关键点进行张合位置对比,如果出现嘴部关键点的大量移动,则认为是出现了唇动。
作为优选,8)中,音画匹配模型建模过程如下:
A、挑选当前时间段的图像中所有人脸中唇动的人脸;
B、使用唇动人脸图像分析出的性别、年龄,与音频当前的分析的性别、年龄相匹配,如果能直接匹配上,则直接将在人脸作为说话人,同时使用该人脸的人像所在区域作为主体;
C、如果当前时间段的图像中没有检测到唇动的人脸,便使用通过音频分析得到的人脸与画面中所有的人脸进行人脸的相似度分析,然后将相似度最高的人脸作为说话人,使用该人脸的人像所在区域作为主体。
作为优选,步骤C中,人脸的相似度分析如下:
i.使用Renet50作为基础网络提取人脸特征;
ii.将人脸特征使用余弦距离进行相似度度量,当两个向量直接的夹角趋向0时,两个向量越接近,差异就越小,说明人脸越相似。
作为优选,S2.2中,判定为否时,采用传统方案进行处理,传统方案以视频和给定裁剪宽高比作为输入,首先利用预处理算法进行黑边检测,然后利用显著性或主体检测等方法进行视频主要内容分析,接着根据预测结果进行视频框生成,最后利用后处理算法使得裁剪结果在时序上更加平滑,并保留裁剪视频和裁剪框位置。
本发明提出一种结合视频声音特征与图像特征信息的多维度融合的AI视频剪辑方案,通过神经网络系统提取人声音频、人脸图像,结合人声特征、面部特征、嘴唇特征等信息,通过生成模型与特征组合分析的方案,实现视频编辑中人像与声音自动匹配功能。从而解决多主角人物视频自动剪辑中的“音画不匹配”的问题。本方案采用多模态生成网络、检测网络相结合的方式,准确地将剪辑中呈现的图像与音频准确的匹配,让智能剪辑后的画面呈现更准确、画面更自然,表达更完整;本发明可应用于人像语音视频的人声匹配,以及提升新闻类、对话类及脱口秀类节目视频的AI剪辑效果。
附图说明
图1为实施例中一种融合人声特征与人脸特征的智能视频剪辑方法的流程图;
图2为实施例中智能视频剪辑的流程图;
图3为实施例中人声与人脸智能匹配方法的流程图;
图4为实施例中说话人分割与聚类技术的流程图;
图5为实施例中嘴部关键点的示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
如图1所示,本实施例提供了一种融合人声特征与人脸特征的智能视频剪辑方法,其包括以下步骤:
S1、场景镜头拆分(场景镜头检测)
将输入的视频拆分成多个场景镜头片段,然后对每个场景镜头片段进行滑窗切片;然后让切片后的片段(约20到30帧的片段)进入下一处理流程。
一个场景描述一个事件,场景由一系列在语义上相关的连续镜头组成。根据连续镜头的颜色一致性将视频分割成场景,根据视觉提示确定视频中的镜头何时发生了变化,方法是跟踪相邻帧的配色方案中的颜色突变和渐变转换。从而确定镜头元数据包括开始时间和结束时间,以及该镜头中所包含的关键帧的列表。镜头是在同一时间由同一台相机所拍摄的连续帧。
传统的镜头切换检测是通过图片的特征变换来做到的,简而言之就是提取视频连续的帧一定的特征,如果特征发生剧烈的变化则说明视频中的镜头发生了切换。在镜头分割:像素域方法综述中提出了比较多的特征方法,包括直方图、边缘检测算子等特征。
本实施例参考开源场景检测算法PySceneDetect来完成场景转换点检测,具体实现如下:
内容感知场景检测器(detect-content)检测输入视频中的跳切。这通常是人们认为的电影场景之间的“剪辑”——给定两个相邻的帧,它们是否属于同一场景?内容感知场景检测器找到两个后续帧之间的差异超过设置的阈值的区域(一个好的开始值是--threshold 27)。
在内部,该检测器通过将每个解码帧的色彩空间从RGB转换为HSV来发挥作用,然后它从帧到帧获取所有通道(或可选地仅值通道)的平均差异,当这超过设定的阈值时,将触发场景更改。
根据帧图像的灰度值直方图差异进行边缘检测,差异值越大的帧可能就是镜头边缘帧。这种方式可以避免在镜头移动或者图像中出现动态移动的时候差异,提高边缘检测的准确性。具体步骤如下:
1、相邻的两个镜头,中间的帧图像个数应该有一个阈值,也就是说帧数相差太少不认可为新的一个镜头;
2、检测出来的镜头边缘帧,它与前一帧的差值应该是此镜头中所有图片中帧差最大的。其帧差数值也应该是当前镜头中所有帧差均值的一个倍数(比如要大于平均帧差的5倍)。滑动窗格的主体思路就是这样镜头窗格额滑动选取,除此之外需要考虑对全黑帧的剔除、镜头选取之后的去模糊等后续完善工作。
S2、智能视频剪辑(如图2所示)
S2.1、对切片后的片段进行目标检测和显著性检测;利用目标检测算法RetinaNet进行目标检测,利用显著性检测算法对目标画面里的显著物品进行检测;目标检测是应对以人、动物、或常见物品为主体的画面,以分析出画面中的主要的人或物;而显著性检测是辅助目标检测同时对非人非物类得非常见物品的情况进行处理,例如在空镜类画面即非人也非动物也非常见物品时,仍然可以采用显著性区域做为主体参考区域进行呈现。
S2.2、在得到画面的主要内容目标后,进行多主角类视频的判定:判定片段是否为多人物主角类,也就是判定该视频是否为之前列的新闻节目、对话类节目、脱口秀节目类型的视频及多人场景的影视剧集视频,若是,则采用人声与人脸智能匹配方法(即音画匹配方案);若否,则采用传统方案进行处理,传统方案为视频横屏转竖屏裁剪方法,主要包含预处理、主要内容分析模型、裁剪模型、后处理等4个部分,流程为:
以视频和给定裁剪宽高比作为输入,首先利用预处理算法进行黑边检测,然后利用显著性或主体检测等方法进行视频主要内容分析,接着根据预测结果进行视频框生成,最后利用后处理算法使得裁剪结果在时序上更加平滑,并保留裁剪视频和裁剪框位置。
如图3所示,人声与人脸智能匹配方法为:
1)使用FFmpeg将片段的音频与图像进行分离;
2)对音频数据进行人声提取,提取出视频的主要人声;采用SampleRNN(从音频文件中分离出人声的循环神经网络模型)来完成人声提取;
3)对人声进行不同说话人聚类处理,将相同音色的人声聚为一类,从而统计出说话人的个数,及每个说话人的时间片段;
采用说话人分割与聚类技术完成,如图4所示,具体实现如下:
a、将整段音频切分为指定长度的音频片段;
b、通过声纹提取模块提取所有音频片段的声纹向量信息;
c、将所有的音频片段声纹向量信息组合成为一个声纹向量矩阵,声纹向量矩阵的横坐标是时间维度纵坐标是声纹维度;
d、用声纹向量矩阵的转置声纹向量矩阵得到音频片段相似度矩阵,每个元素的值代表了该行的索引对应的音频片段声纹信息和该列的索引对应的音频片段声纹信息的相似度;
e、通过层次聚类的方法对相似度矩阵中的各个片段进行聚类,聚类后的每个类别单独保存为一个音频,从而实现说话人分割与聚类的工作。
4)对每个说话人分别进行语音性别、年龄识别;通过MFCC(MeI-FreguencyCeptraICoefficients)对人声提取特征,使用高斯混合模型(GMM)识别说话人的性别;使用基于GBDT有监督学习分类器的声纹特征分类模型来判断是否为儿童,成年人,老人;
5)基于Speech2Face神经网络系统,通过人声来绘制其面孔;
Speech2Face神经网络系统是通过分析视频片段、匹配人声与人脸并找到两者之间的模式和趋势,来“学习”如何绘制人的样貌。Speech2Face可以精确描绘出人脸中除了眼睛以外的部位,如鼻子、嘴唇、脸颊和骨架。原因在于,这些部位特征与人的声音之间有着直接的联系。比如说:声音低沉的人可能鼻子更宽;下巴越宽的人,声音可能越高。而眼睛的形状以及大小与声音并没有什么直接关联。
6)对图像数据进行处理:通过YOLO-v5对图像进行画面主体人物检测,然后通过Retina人脸检测算法提取人脸与人脸识别;人脸进行明星识别与人脸特征分析,得到人脸的性别与年龄预测;
7)对视频人脸的进行唇动检测,检测出视频中该片段内该人脸是否在唇动;
唇动检测实现:通过6)得到的人脸图像,先通过PIPNet完成人脸的关键点检测,然后对前后5帧的人脸嘴巴的关键点进行张合位置对比,如果出现嘴部关键点的大量移动,可认为是该人出现了唇动,如图5所示,虚线框中的关键点为嘴部关键点。
8)将音频得到的特征与图像的特征进行建模,得到音画匹配模型;
音画匹配模型建模过程如下:
A、挑选当前时间段的图像中所有人脸中唇动的人脸;
B、使用唇动人脸图像分析出的性别、年龄,与音频当前的分析的性别、年龄相匹配,如果能直接匹配上,则直接将在人脸作为说话人,同时使用该人脸的人像所在区域作为主体;
C、如果当前时间段的图像中没有检测到唇动的人脸,便使用通过音频分析得到的人脸与画面中所有的人脸进行人脸的相似度分析,然后将相似度最高的人脸作为说话人,使用该人脸的人像所在区域作为主体。
步骤C中,人脸的相似度分析如下:
i.使用Renet50作为基础网络提取人脸特征;
ii.将人脸特征使用余弦距离进行相似度度量(余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量),当两个向量直接的夹角趋向0时,两个向量越接近,差异就越小,说明人脸越相似。
S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框,再通过按比例对视频进行裁剪,再对多片段和原语音进行合成,整个过程使用FFmpeg可以轻松完成,最后对视频进行平滑即可输出最后的裁剪的短视频结果。
本实施例首先会对视频进行裁剪,裁剪成较小的片段,即场景镜头检测;一个时间段或相同地点连续的动作是视频场景的基本构成;一般只出现相同的人物或事件;拆分后的片段是AI视频剪辑的基本单元;AI视频剪辑将处理无数个这样的单元,然后将其串联在一起形成最终的剪辑视频。
本实施例提出了一种基于多维特征融合的视频AI剪辑方法。针对多主角视频,与目前业界两个竞品相比,本方法在50段主观质量评价数据集上可以实现更好的效果。与业界现有方案相比较,本方法可以解决现存的多主角视频中“音画不匹配”的问题,且裁剪结果质量更稳定;可以扩展视频AI剪辑技术的适应范围。
同时本方法融合了音频特征与视频特征共同建模,更精准的定位到图像的主体位置,并且进行音画匹配,使产出的短视频表达更准备呈现更自然。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (10)

1.一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:包括以下步骤:
S1、场景镜头拆分
将输入的视频拆分成多个场景镜头片段,然后对每个场景镜头片段进行滑窗切片;
S2、智能视频剪辑
S2.1、对切片后的片段进行目标检测和显著性检测;
S2.2、多主角类视频的判定:判定片段是否为多人物主角类,若是,则采用人声与人脸智能匹配方法;
人声与人脸智能匹配方法为:
1)使用FFmpeg将片段的音频与图像进行分离;
2)对音频数据进行人声提取,提取出视频的主要人声;
3)对人声进行不同说话人聚类处理,将相同音色的人声聚为一类,从而统计出说话人的个数,及每个说话人的时间片段;
4)对每个说话人分别进行语音性别、年龄识别;
5)基于Speech2Face神经网络系统,通过人声来绘制其面孔;
6)对图像数据进行处理:通过YOLO-v5对图像进行画面主体人物检测,然后通过Retina人脸检测算法提取人脸与人脸识别;人脸进行明星识别与人脸特征分析,得到人脸的性别与年龄预测;
7)对视频人脸的进行唇动检测,检测出视频中该片段内该人脸是否在唇动;
8)将音频得到的特征与图像的特征进行建模,得到音画匹配模型;
S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框,再通过按比例对视频进行裁剪,再对多片段和原语音进行合成,最后对视频进行平滑即可输出最后的裁剪的短视频结果。
2.根据权利要求1所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:S2.1中,利用目标检测算法RetinaNet进行目标检测,利用显著性检测算法对目标画面里的显著物品进行检测;目标检测是应对以人、动物、或常见物品为主体的画面,以分析出画面中的主要的人或物;而显著性检测是辅助目标检测同时对非人非物类的非常见物品的情况进行处理。
3.根据权利要求2所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:2)中,采用SampleRNN来完成人声提取。
4.根据权利要求3所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:3)中,采用说话人分割与聚类技术完成,具体实现如下:
a、将整段音频切分为指定长度的音频片段;
b、通过声纹提取模块提取所有音频片段的声纹向量信息;
c、将所有的音频片段声纹向量信息组合成为一个声纹向量矩阵,声纹向量矩阵的横坐标是时间维度纵坐标是声纹维度;
d、用声纹向量矩阵的转置声纹向量矩阵得到音频片段相似度矩阵,每个元素的值代表了该行的索引对应的音频片段声纹信息和该列的索引对应的音频片段声纹信息的相似度;
e、通过层次聚类的方法对相似度矩阵中的各个片段进行聚类,聚类后的每个类别单独保存为一个音频,从而实现说话人分割与聚类的工作。
5.根据权利要求4所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:4)中,通过MFCC对人声提取特征,使用高斯混合模型识别说话人的性别;使用基于GBDT有监督学习分类器的声纹特征分类模型来判断是否为儿童,成年人,老人。
6.根据权利要求5所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:5)中,Speech2Face神经网络系统是通过分析视频片段、匹配人声与人脸并找到两者之间的模式和趋势,来学习如何绘制人的样貌;Speech2Face可描绘出人脸中除了眼睛以外的部位。
7.根据权利要求6所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:7)中,唇动检测方法为:
通过6)得到的人脸图像,先通过PIPNet完成人脸的关键点检测,然后对前后5帧的人脸嘴巴的关键点进行张合位置对比,如果出现嘴部关键点的大量移动,则认为是出现了唇动。
8.根据权利要求7所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:8)中,音画匹配模型建模过程如下:
A、挑选当前时间段的图像中所有人脸中唇动的人脸;
B、使用唇动人脸图像分析出的性别、年龄,与音频当前的分析的性别、年龄相匹配,如果能直接匹配上,则直接将在人脸作为说话人,同时使用该人脸的人像所在区域作为主体;
C、如果当前时间段的图像中没有检测到唇动的人脸,便使用通过音频分析得到的人脸与画面中所有的人脸进行人脸的相似度分析,然后将相似度最高的人脸作为说话人,使用该人脸的人像所在区域作为主体。
9.根据权利要求8所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:步骤C中,人脸的相似度分析如下:
i.使用Renet50作为基础网络提取人脸特征;
ii.将人脸特征使用余弦距离进行相似度度量,当两个向量直接的夹角趋向0时,两个向量越接近,差异就越小,说明人脸越相似。
10.根据权利要求9所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:S2.2中,判定为否时,采用传统方案进行处理,传统方案以视频和给定裁剪宽高比作为输入,首先利用预处理算法进行黑边检测,然后利用显著性或主体检测等方法进行视频主要内容分析,接着根据预测结果进行视频框生成,最后利用后处理算法使得裁剪结果在时序上更加平滑,并保留裁剪视频和裁剪框位置。
CN202310704953.5A 2023-06-14 2023-06-14 一种融合人声特征与人脸特征的智能视频剪辑方法 Active CN116916089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310704953.5A CN116916089B (zh) 2023-06-14 2023-06-14 一种融合人声特征与人脸特征的智能视频剪辑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310704953.5A CN116916089B (zh) 2023-06-14 2023-06-14 一种融合人声特征与人脸特征的智能视频剪辑方法

Publications (2)

Publication Number Publication Date
CN116916089A true CN116916089A (zh) 2023-10-20
CN116916089B CN116916089B (zh) 2024-09-20

Family

ID=88365770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310704953.5A Active CN116916089B (zh) 2023-06-14 2023-06-14 一种融合人声特征与人脸特征的智能视频剪辑方法

Country Status (1)

Country Link
CN (1) CN116916089B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793697A (zh) * 2014-02-17 2014-05-14 北京旷视科技有限公司 一种人脸图像的身份标注方法及人脸身份识别方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法
CN110503942A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置
CN112906544A (zh) * 2021-02-07 2021-06-04 广东电网有限责任公司广州供电局 一种适用于多目标的基于声纹和人脸的匹配方法
US20210319809A1 (en) * 2020-04-10 2021-10-14 Sunday Morning Technology (Guangzhou) Co., Ltd. Method, system, medium, and smart device for cutting video using video content
CN114222196A (zh) * 2022-01-04 2022-03-22 阿里巴巴新加坡控股有限公司 一种剧情解说短视频的生成方法、装置及电子设备
CN115116109A (zh) * 2022-04-27 2022-09-27 平安科技(深圳)有限公司 虚拟人物说话视频的合成方法、装置、设备及存储介质
CN115115976A (zh) * 2022-06-09 2022-09-27 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN116132711A (zh) * 2023-02-03 2023-05-16 北京字跳网络技术有限公司 用于生成视频模板的方法、装置和电子设备
CN116168438A (zh) * 2023-02-24 2023-05-26 京东方科技集团股份有限公司 关键点检测方法、装置及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法
CN103793697A (zh) * 2014-02-17 2014-05-14 北京旷视科技有限公司 一种人脸图像的身份标注方法及人脸身份识别方法
CN110503942A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置
US20210319809A1 (en) * 2020-04-10 2021-10-14 Sunday Morning Technology (Guangzhou) Co., Ltd. Method, system, medium, and smart device for cutting video using video content
CN112906544A (zh) * 2021-02-07 2021-06-04 广东电网有限责任公司广州供电局 一种适用于多目标的基于声纹和人脸的匹配方法
CN114222196A (zh) * 2022-01-04 2022-03-22 阿里巴巴新加坡控股有限公司 一种剧情解说短视频的生成方法、装置及电子设备
CN115116109A (zh) * 2022-04-27 2022-09-27 平安科技(深圳)有限公司 虚拟人物说话视频的合成方法、装置、设备及存储介质
CN115115976A (zh) * 2022-06-09 2022-09-27 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN116132711A (zh) * 2023-02-03 2023-05-16 北京字跳网络技术有限公司 用于生成视频模板的方法、装置和电子设备
CN116168438A (zh) * 2023-02-24 2023-05-26 京东方科技集团股份有限公司 关键点检测方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAE-HYUN OH* 等: "Speech2Face: Learning the Face Behind a Voice", ARXIV:1905.09773V1, 23 May 2019 (2019-05-23), pages 1 - 6 *

Also Published As

Publication number Publication date
CN116916089B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
CN109922373B (zh) 视频处理方法、装置及存储介质
US10062412B2 (en) Hierarchical segmentation and quality measurement for video editing
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN111480156A (zh) 利用深度学习选择性存储视听内容的系统和方法
US7949188B2 (en) Image processing apparatus, image processing method, and program
US8873861B2 (en) Video processing apparatus and method
CN107087211B (zh) 一种主持人镜头检测方法及装置
Butler et al. Real-time adaptive foreground/background segmentation
US20090257623A1 (en) Generating effects in a webcam application
CN114419702B (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
CN110197135A (zh) 一种基于多维分割的视频结构化方法
CN110866563B (zh) 相似视频检测、推荐方法、电子设备和存储介质
KR100612842B1 (ko) 앵커 샷 결정방법 및 결정장치
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
JP3329408B2 (ja) 動画像処理方法および装置
JP2011523821A (ja) 視聴覚システムを視聴者の注目度に合わせる装置及び方法
Carbonneau et al. Real-time visual play-break detection in sport events using a context descriptor
CN111615008B (zh) 基于多设备体验的智能摘要生成和字幕阅读系统
CN116916089B (zh) 一种融合人声特征与人脸特征的智能视频剪辑方法
US20220207851A1 (en) System and method for automatic video reconstruction with dynamic point of interest
Elliot Multiple views of digital video
CN111128190B (zh) 一种表情匹配的方法及系统
CN114387440A (zh) 一种视频裁剪方法、装置及存储介质
CN114495946A (zh) 声纹聚类方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant