CN114554268B - 音视频数据的处理方法及装置、电子设备、存储介质 - Google Patents

音视频数据的处理方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN114554268B
CN114554268B CN202210169948.4A CN202210169948A CN114554268B CN 114554268 B CN114554268 B CN 114554268B CN 202210169948 A CN202210169948 A CN 202210169948A CN 114554268 B CN114554268 B CN 114554268B
Authority
CN
China
Prior art keywords
video data
audio
synchronous
image
synchronous audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210169948.4A
Other languages
English (en)
Other versions
CN114554268A (zh
Inventor
向钊豫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan MgtvCom Interactive Entertainment Media Co Ltd
Original Assignee
Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan MgtvCom Interactive Entertainment Media Co Ltd filed Critical Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority to CN202210169948.4A priority Critical patent/CN114554268B/zh
Publication of CN114554268A publication Critical patent/CN114554268A/zh
Application granted granted Critical
Publication of CN114554268B publication Critical patent/CN114554268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种音视频数据的处理方法及装置、电子设备、存储介质,所述方法包括:获取原始视频;基于嘴部与音频的同步性,从原始视频中提取出多组同步音视频数据;分别针对每组同步音视频数据,检测同步音视频数据的各帧图像中是否存在目标帧图像;目标帧图像指代被遮挡的说话人嘴部的目标帧图像;若存在目标帧图像,则将目标帧图像及其对应的音频,从同步音视频数据中剔除,得到同步音视频数据对应的已处理同步音视频数据;若不存在目标帧图像,则将同步音视频数据确定为其对应的已处理同步音视频数据;输出同步音视频数据对应的已处理同步音视频数据。从而有效地提高了提取同步的音频数据的工作效率,也保证了提取同步的音频数据的准确性。

Description

音视频数据的处理方法及装置、电子设备、存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种音视频数据的处理方法及装置、电子设备、存储介质。
背景技术
随着人们生活水平的提高,人工智能技术也在不断地普及,在制作精良的虚拟人的过程中,除了必须有的构件之外,也非常注重虚拟人的口型输出模型,但为这些口型输出模型挑选同步的音视频数据进行训练却是一个非常重要且工作量庞大的工作。
现有的口型数据提取方式,主要是通过人工的方式进行视频播放,在视频播放的过程中,人工确定同步的音频与视频,并将同步的音频与视频通过视频编辑软件进行截取。
但是,由于需要提取同步的音频数据数量较多,通过人工的方式提取同步的音频数据的效率过低,并且在提取的过程中还容易存在误差。
发明内容
基于上述现有技术的不足,本申请提供了一种音视频数据的处理方法及装置、电子设备、存储介质,以解决现有的提取音频数据效率过低,并且还容易存在误差的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种音视频数据的处理方法,包括:
获取原始视频;
基于嘴部与音频的同步性,从所述原始视频中提取出多组同步音视频数据;其中,一组所述同步音视频数据包括一段说话人说话的视频数据以及与所述视频数据中的说话人嘴部同步的一段音频数据;
分别针对每组所述同步音视频数据,检测所述同步音视频数据的各帧图像中是否存在目标帧图像;其中,所述目标帧图像指代图像中的说话人嘴部区域被遮挡的图像;
若检测出所述同步音视频数据的各帧所述图像中存在所述目标帧图像,则将所述目标帧图像及其对应的音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据;
若检测出所述同步音视频数据的各帧所述图像中不存在所述目标帧图像,则将所述同步音视频数据确定为其对应的已处理同步音视频数据;
输出所述同步音视频数据对应的已处理同步音视频数据。
可选地,在上述的音视频数据的处理方法中,所述基于嘴部与音频的同步性,从所述原始视频中提取出多组同步音视频数据,包括:
将所述原始视频拆分为多段说话人说话的视频数据以及多段音频数据;
提取每段所述视频数据对应的特征向量以及每段所述音频数据对应的特征向量;其中,所述视频数据对应的特征向量,从所述视频数据的各帧图像中的说话人嘴部区域提取到;
针对每段所述视频数据,将对应的特征向量与所述视频数据对应的特征向量的距离小于第一预设阈值的所述音频数据,确定为与所述视频数据同步的所述音频数据;
分别将每段所述视频数据以及与其同步的所述音频数据合并为一组所述同步音视频数据。
可选地,在上述的音视频数据的处理方法中,所述提取每段所述视频数据对应的特征向量,包括:
分别截取每段所述视频数据的各帧图像中的说话人嘴部区域;
对所述说话人嘴部区域分别对每段所述视频数据的各帧图像中的说话人嘴部区域进行特征提取,得到每段所述视频数据对应的特征向量。
可选地,在上述的音视频数据的处理方法中,所述检测所述同步音视频数据的各帧图像中是否存在目标帧图像,包括:
分别针对所述同步音视频的每帧图像,将预设的特征模板放置于所述图像的人脸区域的上层的图层上;其中,所述特征模板至少包括白色区域和黑色区域;
计算所述图像的人脸区域在所述白色区域下的像素和与在黑色区域下的像素和的差值,得到所述图像的人脸区域对应的人脸特征值;
检测所述图像的人脸区域对应的人脸特征值是否小于第二预设阈值;
若检测出所述图像的人脸区域对应的人脸特征值小于第二预设阈值,则将所述图像的人脸区域对应的人脸特征值小于第二预设阈值的所述图像,确定为目标帧图像。
可选地,在上述的音视频数据的处理方法中,所述将所述目标帧图像及其对应的音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据,包括:
从所述同步音视频数据的各帧所述图像中确定所述目标帧图像所处的位置;
查找所述目标帧图像所处的位置对应的音频位置;
将所述目标帧图像所处的位置对应的所述目标帧图像及其对应的音频位置的所述音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据。
可选地,在上述的音视频数据的处理方法中,所述输出所述同步音视频数据对应的已处理同步音视频数据之后,还包括:
对所述同步音视频数据对应的已处理同步音视频数据的对应音频进行处理,得到多段样本音频;其中,多段所述样本音频指代音频的时间长度符合预设范围的阈值长度的所述样本音频;
将每段所述样本音频及其对应的帧图像合并为训练样本。
本申请第二方面提供了一种音视频数据的处理装置,包括:
获取单元,用于获取原始视频;
第一提取单元,用于基于嘴部与音频的同步性,从所述原始视频中提取出多组同步音视频数据;其中,一组所述同步音视频数据包括一段说话人说话的视频数据以及与所述视频数据中的说话人嘴部同步的一段音频数据;
第一检测单元,用于分别针对每组所述同步音视频数据,检测所述同步音视频数据的各帧图像中是否存在目标帧图像;其中,所述目标帧图像指代图像中的说话人嘴部区域被遮挡的图像;
第一剔除单元,用于若检测出所述同步音视频数据的各帧所述图像中存在所述目标帧图像,则将所述目标帧图像及其对应的音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据;
第一确认单元,用于若检测出所述同步音视频数据的各帧所述图像中不存在所述目标帧图像,则将所述同步音视频数据确定为其对应的已处理同步音视频数据;
输出单元,用于输出所述同步音视频数据对应的已处理同步音视频数据。
可选地,在上述的音视频数据的处理装置中,所述第一提取单元,包括:
拆分单元,用于将所述原始视频拆分为多段说话人说话的视频数据以及多段音频数据;
第二提取单元,用于提取每段所述视频数据对应的特征向量以及每段所述音频数据对应的特征向量;其中,所述视频数据对应的特征向量,从所述视频数据的各帧图像中的说话人嘴部区域提取到;
第二确定单元,用于针对每段所述视频数据,将对应的特征向量与所述视频数据对应的特征向量的距离小于第一预设阈值的所述音频数据,确定为与所述视频数据同步的所述音频数据;
第一合并单元,用于分别将每段所述视频数据以及与其同步的所述音频数据合并为一组所述同步音视频数据。
可选地,在上述的音视频数据的处理装置中,所述第二提取单元,包括:
截取单元,用于分别截取每段所述视频数据的各帧图像中的说话人嘴部区域;
特征提取单元,用于对所述说话人嘴部区域分别对每段所述视频数据的各帧图像中的说话人嘴部区域进行特征提取,得到每段所述视频数据对应的特征向量。
可选地,在上述的音视频数据的处理装置中,所述第一检测单元,包括:
放置单元,用于分别针对所述同步音视频的每帧图像,将预设的特征模板放置于所述图像的人脸区域的上层的图层上;其中,所述特征模板至少包括白色区域和黑色区域;
计算单元,用于计算所述图像的人脸区域在所述白色区域下的像素和与在黑色区域下的像素和的差值,得到所述图像的人脸区域对应的人脸特征值;
第二检测单元,用于检测所述图像的人脸区域对应的人脸特征值是否小于第二预设阈值;
第三确定单元,用于若检测出所述图像的人脸区域对应的人脸特征值小于第二预设阈值,则将所述图像的人脸区域对应的人脸特征值小于第二预设阈值的所述图像,确定为目标帧图像。
可选地,在上述的音视频数据的处理装置中,所述第一剔除单元,包括:
第四确定单元,用于从所述同步音视频数据的各帧所述图像中确定所述目标帧图像所处的位置;
查找单元,用于查找所述目标帧图像所处的位置对应的音频位置;
第二剔除单元,用于将所述目标帧图像所处的位置对应的所述目标帧图像及其对应的音频位置的所述音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据。
可选地,在上述的音视频数据的处理装置中,还包括:
处理单元,用于对所述同步音视频数据对应的已处理同步音视频数据的对应音频进行处理,得到多段样本音频;其中,多段所述样本音频指代音频的时间长度符合预设范围的阈值长度的所述样本音频;
第二合并单元,用于将每段所述样本音频及其对应的帧图像合并为训练样本。
本申请第三方面提供了一种计算机存储介质,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的音视频数据的处理方法。
本申请第四方面提供了一种电子设备,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的音视频数据的处理方法。
本申请提供的一种音视频数据的处理方法,通过获取原始视频,其次基于嘴部与音频的同步性,从原始视频中提取出多组同步音视频数据,其中,一组同步音视频数据包括一段说话人说话的视频数据以及与视频数据中的说话人嘴部同步的一段音频数据,从而可以有效地保证得到同步的音视频数据。然后分别针对每组同步音视频数据,检测同步音视频数据的各帧图像中是否存在目标帧图像;其中,目标帧图像指代被遮挡的说话人嘴部的目标帧图像,若检测出同步音视频数据的各帧图像存在目标帧图像,则将目标帧图像及其对应的音频,从同步音视频数据中剔除,得到同步音视频数据对应的已处理同步音视频数据,若检测出同步音视频数据的各帧所述图像中不存在目标帧图像,则将同步音视频数据确定为其对应的已处理同步音视频数据,最后输出同步音视频数据对应的已处理同步音视频数据,保证得到能有效训练口型输出模型的训练数据,从而有效地提高了提取同步的音频数据的工作效率,同时也极大地提高了提取同步的音频数据的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种音视频数据的处理方法的流程图;
图2为本申请实施例提供的一种检测音视频同步的方法的流程图;
图3为现有的syncnet模型的网络结构示意图;
图4为本申请实施例提供的一种syncnet模型的网络结构示意图;
图5为本申请实施例提供的一种检测图像的人脸区域的方法的流程图;
图6为本申请实施例提供的一种剔除说话人嘴部区域被遮挡的图像及其对应音频的方法的流程图;
图7为本申请另一实施例提供的一种音视频数据的处理装置的结构示意图;
图8为本申请另一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供的一种音视频数据的处理方法,如图1所示,具体包括以下步骤:
S101、获取原始视频。
需要说明的是,原始视频可以包括新闻采访、直播以及访谈类节目等相同类型的节目中获取原始视频。
S102、基于嘴部与音频的同步性,从原始视频中提取出多组同步音视频数据。
其中,一组同步音视频数据包括一段说话人说话的视频数据以及与视频数据中的说话人嘴部同步的一段音频数据。
需要说明的是,在虚拟人训练口型的算法中,需要为虚拟人挑选不同类型的音视频作为训练数据,但必须在视频与音频是同步的情况下,这段音视频素材才会被作为虚拟人的训练数据,以便于后续口型输出模型的鲁棒性更加优秀。
可选地,将原始视频中同步的音视频数据拆分成一组组之后,每组音视频数据可以采取同样的命名,但后缀的命名不一样,为了便于后续对每组音视频数据进行检测时,清楚地辨别每组音视频数据,例如将当前拆分的音视频数据命名为“1.mp4”,当前拆分的音视频数据下一组音视频数据命名为“1.wav”。
可选地,在本申请另一实施例中,如图2所示,步骤S102的另一种具体实施方式,包括以下步骤:
S201、将原始视频拆分为多段说话人说话的视频数据以及多段音频数据。
需要说明的是,由于原始视频中可能会存在多段没有说话人说话的视频数据以及多段音频数据,所以预先从原始视频中提取出多段说话人说话的视频数据以及多段音频数据,舍弃没有说话人说话的视频数据以及音频数据。
S202、提取每段视频数据对应的特征向量以及每段音频数据对应的特征向量。
需要说明的是,本申请实施例中,基于特征向量,确定视频数据与其对应的音频数据是否相似,从而确定视频数据与音频数据是否同步,所以对原始视频拆分完成的每段视频数据以及与其对应的音频数据进行对应的特征向量的提取。
其中,视频数据对应的特征向量,从视频数据的各帧图像中的说话人嘴部区域提取到。
还需要说明的是,在申请实施例中,为了便于提取视频数据对应的特征向量,因此在本申请实施例中,步骤S202可以进一步包括:
分别截取每段视频数据的各帧图像中的说话人嘴部区域,并对说话人嘴部区域分别对每段视频数据的各帧图像中的说话人嘴部区域进行特征提取,得到每段视频数据对应的特征向量。
需要说明的是,从原始数据提取出的多组同步音视频数据,是基于说话人说话的视频数据与其对应的说话人嘴部同步的音频数据,所以预先截取视频数据的每帧图像中的说话人嘴部区域,以能提取出说话人嘴部区域的特征,以能确定与说话人嘴部同步的音视频数据。还需要说明的是,特征提取是指使用计算机提取图像中属于特征性的信息的方法及过程,例如某个人在讲话时,可以对这个人的嘴部唇形的形态或者嘴部大小等特征性的信息进行特征提取。
S203、针对每段视频数据,将对应的特征向量与视频数据对应的特征向量的距离小于第一预设阈值的音频数据,确定为与视频数据同步的音频数据。
需要说明的是,通过视频数据对应的特征向量与其对应的音频数据对应的特征向量的距离判断视频数据与其对应的音频数据的相似性,从而为了后续能直接输出同步的音视频数据,所以将视频数据对应的特征向量与其对应的音频数据对应的特征向量的距离跟第一预设阈值作对比。若对比出视频数据对应的特征向量与其对应的音频数据对应的特征向量的距离小于第一预设阈值,则确定该视频数据与其对应的音频数据为同步的音视频数据。
可选地,第一预设阈值具体的可以根据需求设置。
S204、分别将每段视频数据以及与其同步的音频数据合并为一组同步音视频数据。
可选地,图2示出的检测音视频同步的方法,可以通过音唇同步网络模型syncnet实现。需要说明的是,如图3所示,现有的syncnet模型包括5层卷积层,而在本申请实施例使用的syncnet模型,在现有的syncnet模型的基础上还增加了2层卷积层,如图4所示。
S103、分别针对每组同步音视频数据,检测同步音视频数据的各帧图像中是否存在目标帧图像。
其中,目标帧图像指代图像中的说话人嘴部区域被遮挡的图像。
需要说明的是,因为目标帧图像指的是说话人嘴部区域被遮挡的图像,而口型算法依赖于视频数据中的说话人嘴部区域的图像作为训练数据进行训练,所以若检测出一组同步音视频数据的各帧图像中存在目标帧图像,说明该组同步音视频中的部分图像不能作为口型算法的训练数据,需要将这帧图像与其对应的音频从所属的同步音视频数据中剔除,即执行步骤S104。
还需要说明的是,若检测出该组同步音视频数据的各帧图像中不存在目标帧图像,说明该组同步音视频数据能作为口型算法的训练数据,并将该组同步音视频数据确定为其对应的已处理同步音视频数据,即执行步骤S105。
可选地,在本申请另一实施例中,步骤S103的另一种具体实施方式,如图5所示,包括以下步骤:
S501、分别针对同步音视频的每帧图像,将预设的特征模板放置于该图像的人脸区域的上层的图层上。
其中,特征模板至少包括白色区域和黑色区域。
需要说明的是,为了检测同步音视频的每帧图像是否存在被遮挡的情况,所以预先将预设的特征模板放置于图像的人脸区域的上层图层上进行检测,以便于后续得到图像的人脸区域对应的人脸特征值。
S502、计算该图像的人脸区域在白色区域下的像素和与在黑色区域下的像素和的差值,得到该图像的人脸区域对应的人脸特征值。
需要说明的是,通过计算得到图像的人脸特征值是为了检测该图像是否被遮挡,避免输出被遮挡的图像作为虚拟人训练的图像数据。
S503、检测图像的人脸区域对应的人脸特征值是否小于第二预设阈值。
需要说明的是,若检测出图像的人脸区域对应的人脸特征值小于第二预设阈值,说明该图像的人脸区域存在被遮挡的情况,则将该图像确定为目标帧图像,即执行步骤S504。
可选地,第二预设阈值具体的可以根据需求设置。
S504、将图像的人脸区域对应的人脸特征值小于第二预设阈值的图像,确定为目标帧图像。
可选的,图5示出的检测图像的人脸区域的方法,可以采用跨平台计算机视觉和机器学习软件库opencv的haar嘴部特征的方式实现检测。
S104、将目标帧图像及其对应的音频,从该组同步音视频数据中剔除,得到该组同步音视频数据对应的已处理同步音视频数据。
需要说明的是,为了能制作精良的虚拟人,需要将不符合训练要求的音视频数据进行过滤,即需要将遮挡住嘴部区域的图像与其对应的音频从同步音视频中剔除,得到符合训练要求的同步音视频数据,然后输出过滤后的同步音视频数据,即步骤S106。
可选地,如图6所示,步骤S104具体的实施方式包括以下步骤:
S601、从同步音视频数据的各帧图像中确定目标帧图像所处的位置。
需要说明的是,为了避免后续输出被遮挡说话人嘴部区域的图像与其对应的音频作为虚拟人口型算法的训练数据,所以若检测出同步音视频数据的每帧图像中存在被遮挡的目标帧图像时,要及时地确定目标帧图像在同步音视频数据中所处的准确位置,然后通过目标帧图像所处的位置查找到该目标帧图像对应的音频位置,即步骤S602。
S602、查找目标帧图像所处的位置对应的音频位置。
S603、将目标帧图像所处的位置对应的目标帧图像及其对应的音频位置的音频,从同步音视频数据中剔除,得到同步音视频数据对应的已处理同步音视频数据。
需要说明的是,需要将所有被遮挡的目标帧图像所处的位置对应的目标帧图像及其对应的音频位置的音频,从所属的同步音视频数据中删除,从而为虚拟人的口型输出模型的训练数据提供强有力的音视频数据的支撑。
S105、将该组同步音视频数据确定为其对应的已处理同步音视频数据。
S106、输出该组同步音视频数据对应的已处理同步音视频数据。
具体的,将同步音视频数据对应的已处理同步音视频数据作为口型输出模型的训练数据进行输出。
可选地,由于训练样本的样本音频的时间长度存在口型算法的训练要求,所以在得到同步音视频数据对应的音频数据之后,可以进一步包括:
对同步音视频数据对应的已处理同步音视频数据的对应音频进行处理,得到多段样本音频,并将每段样本音频及其对应的帧图像合并为训练样本。
其中,多段样本音频指代音频的时间长度符合预设范围的阈值长度的样本音频。
可选地,预设范围的阈值长度可以是1秒至2秒,当然,也可以是其他阈值长度,具体可以根据需求设置。
可选地,判断同步音视频数据对应的已处理同步音视频数据的对应音频的时间长度是否符合预设范围的阈值长度的样本音频。若同步音视频数据对应的已处理同步音视频数据的对应音频的时间长度小于预设范围的阈值长度的样本音频,则将该音频及其对应的帧图像合并为口型输出模型的训练样本。若同步音视频数据对应的已处理同步音视频数据的对应音频的时间长度大于预设范围的阈值长度的样本音频,则再次拆分该音频,直至将音频的时间长度处理为符合预设范围的阈值长度。
本申请提供的一种音视频数据的处理方法,通过获取原始视频,其次基于嘴部与音频的同步性,从原始视频中提取出多组同步音视频数据,其中,一组同步音视频数据包括一段说话人说话的视频数据以及与视频数据中的说话人嘴部同步的一段音频数据,从而可以有效地保证得到同步的音视频数据。然后分别针对每组同步音视频数据,检测同步音视频数据的各帧图像中是否存在目标帧图像;其中,目标帧图像指代被遮挡的说话人嘴部的目标帧图像,若检测出同步音视频数据的各帧图像存在目标帧图像,则将目标帧图像及其对应的音频,从同步音视频数据中剔除,得到同步音视频数据对应的已处理同步音视频数据,若检测出同步音视频数据的各帧图像中不存在目标帧图像,则将同步音视频数据确定为其对应的已处理同步音视频数据,最后输出同步音视频数据对应的已处理同步音视频数据,保证得到能有效训练口型输出模型的训练数据,从而有效地提高了提取同步的音频数据的工作效率,同时也极大地提高了提取同步的音频数据的准确性。
本申请另一实施例提供了一种音视频数据的处理装置,如图7所示,包括:
获取单元701,用于获取原始视频。
第一提取单元702,用于基于嘴部与音频的同步性,从原始视频中提取出多组同步音视频数据。
其中,一组同步音视频数据包括一段说话人说话的视频数据以及与视频数据中的说话人嘴部同步的一段音频数据。
第一检测单元703,用于分别针对每组同步音视频数据,检测同步音视频数据的各帧图像中是否存在目标帧图像。
其中,目标帧图像指代图像中的说话人嘴部区域被遮挡的图像。
第一剔除单元704,用于若检测出同步音视频数据的各帧图像中存在目标帧图像,则将目标帧图像及其对应的音频,从同步音视频数据中剔除,得到同步音视频数据对应的已处理同步音视频数据。
第一确认单元705,用于若检测出同步音视频数据的各帧图像中不存在目标帧图像,则将同步音视频数据确定为其对应的已处理同步音视频数据。
输出单元706,用于输出同步音视频数据对应的已处理同步音视频数据。
需要说明的是,本申请实施例中的上述单元的具体工作过程可相应地参考上述方法实施例中的步骤S101~步骤S106,此处不再赘述。
可选地,本申请另一实施例中,第一提取单元702,包括:
拆分单元,用于将原始视频拆分为多段说话人说话的视频数据以及多段音频数据。
第二提取单元,用于提取每段视频数据对应的特征向量以及每段音频数据对应的特征向量。
其中,视频数据对应的特征向量,从视频数据的各帧图像中的说话人嘴部区域提取到。
第二确定单元,用于针对每段视频数据,将对应的特征向量与视频数据对应的特征向量的距离小于第一预设阈值的音频数据,确定为与视频数据同步的音频数据。
第一合并单元,用于分别将每段视频数据以及与其同步的音频数据合并为一组同步音视频数据。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
可选地,本申请另一实施例中,第二提取单元,包括:
截取单元,用于分别截取每段视频数据的各帧图像中的说话人嘴部区域。
特征提取单元,用于对说话人嘴部区域分别对每段视频数据的各帧图像中的说话人嘴部区域进行特征提取,得到每段视频数据对应的特征向量。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
可选地,本申请另一实施例中,第一检测单元703,包括:
放置单元,用于分别针对同步音视频的每帧图像,将预设的特征模板放置于图像的人脸区域的上层的图层上。
其中,特征模板至少包括白色区域和黑色区域。
计算单元,用于计算图像的人脸区域在白色区域下的像素和与在黑色区域下的像素和的差值,得到图像的人脸区域对应的人脸特征值。
第二检测单元,用于检测图像的人脸区域对应的人脸特征值是否小于第二预设阈值。
第三确定单元,用于若检测出图像的人脸区域对应的人脸特征值小于第二预设阈值,则将图像的人脸区域对应的人脸特征值小于第二预设阈值的图像,确定为目标帧图像。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
可选地,本申请另一实施例中,第一剔除单元704,包括:
第四确定单元,用于从同步音视频数据的各帧图像中确定目标帧图像所处的位置。
查找单元,用于查找目标帧图像所处的位置对应的音频位置。
第二剔除单元,用于将目标帧图像所处的位置对应的目标帧图像及其对应的音频位置的音频,从同步音视频数据中剔除,得到同步音视频数据对应的已处理同步音视频数据。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
可选地,本申请另一实施例中,还包括以下单元:
处理单元,用于对同步音视频数据对应的已处理同步音视频数据的对应音频进行处理,得到多段样本音频。
其中,多段样本音频指代音频的时间长度符合预设范围的阈值长度的样本音频。
第二合并单元,用于将每段样本音频及其对应的帧图像合并为训练样本。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
本申请另一实施例提供了一种电子设备,如图8所示,包括:
存储器801和处理器802。
其中,存储器801用于存储程序。
处理器802用于执行程序,程序被执行时,具体用于实现如上述任意一个实施例提供的音视频数据的处理方法。
本申请另一实施例提供了一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,用于实现如上述任意一个实施例提供的音视频数据的处理方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种音视频数据的处理方法,其特征在于,包括:
获取原始视频;
基于嘴部与音频的同步性,从所述原始视频中提取出多组同步音视频数据,包括:将所述原始视频拆分为多段说话人说话的视频数据以及多段音频数据;提取每段所述视频数据对应的特征向量以及每段所述音频数据对应的特征向量;其中,所述视频数据对应的特征向量,从所述视频数据的各帧图像中的说话人嘴部区域提取到;针对每段所述视频数据,将对应的特征向量与所述视频数据对应的特征向量的距离小于第一预设阈值的所述音频数据,确定为与所述视频数据同步的所述音频数据;分别将每段所述视频数据以及与其同步的所述音频数据合并为一组所述同步音视频数据;其中,一组所述同步音视频数据包括一段说话人说话的视频数据以及与所述视频数据中的说话人嘴部同步的一段音频数据;
分别针对每组所述同步音视频数据,检测所述同步音视频数据的各帧图像中是否存在目标帧图像;其中,所述目标帧图像指代图像中的说话人嘴部区域被遮挡的图像;
若检测出所述同步音视频数据的各帧所述图像中存在所述目标帧图像,则将所述目标帧图像及其对应的音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据;
若检测出所述同步音视频数据的各帧所述图像中不存在所述目标帧图像,则将所述同步音视频数据确定为其对应的已处理同步音视频数据;
输出所述同步音视频数据对应的已处理同步音视频数据。
2.根据权利要求1所述的方法,其特征在于,所述提取每段所述视频数据对应的特征向量,包括:
分别截取每段所述视频数据的各帧图像中的说话人嘴部区域;
对所述说话人嘴部区域分别对每段所述视频数据的各帧图像中的说话人嘴部区域进行特征提取,得到每段所述视频数据对应的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述检测所述同步音视频数据的各帧图像中是否存在目标帧图像,包括:
分别针对所述同步音视频的每帧图像,将预设的特征模板放置于所述图像的人脸区域的上层的图层上;其中,所述特征模板至少包括白色区域和黑色区域;
计算所述图像的人脸区域在所述白色区域下的像素和与在黑色区域下的像素和的差值,得到所述图像的人脸区域对应的人脸特征值;
检测所述图像的人脸区域对应的人脸特征值是否小于第二预设阈值;
若检测出所述图像的人脸区域对应的人脸特征值小于第二预设阈值,则将所述图像的人脸区域对应的人脸特征值小于第二预设阈值的所述图像,确定为目标帧图像。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标帧图像及其对应的音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据,包括:
从所述同步音视频数据的各帧所述图像中确定所述目标帧图像所处的位置;
查找所述目标帧图像所处的位置对应的音频位置;
将所述目标帧图像所处的位置对应的所述目标帧图像及其对应的音频位置的所述音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据。
5.根据权利要求1所述的方法,其特征在于,所述输出所述同步音视频数据对应的已处理同步音视频数据之后,还包括:
对所述同步音视频数据对应的已处理同步音视频数据的对应音频进行处理,得到多段样本音频;其中,多段所述样本音频指代音频的时间长度符合预设范围的阈值长度的所述样本音频;
将每段所述样本音频及其对应的帧图像合并为训练样本。
6.一种音视频数据的处理装置,其特征在于,包括:
获取单元,用于获取原始视频;
第一提取单元,用于基于嘴部与音频的同步性,从所述原始视频中提取出多组同步音视频数据;其中,一组所述同步音视频数据包括一段说话人说话的视频数据以及与所述视频数据中的说话人嘴部同步的一段音频数据;
所述第一提取单元,包括:拆分单元、第二提取单元、第二确定单元和第一合并单元;
所述拆分单元,用于将所述原始视频拆分为多段说话人说话的视频数据以及多段音频数据;
所述第二提取单元,用于提取每段所述视频数据对应的特征向量以及每段所述音频数据对应的特征向量;其中,所述视频数据对应的特征向量,从所述视频数据的各帧图像中的说话人嘴部区域提取到;
所述第二确定单元,用于针对每段所述视频数据,将对应的特征向量与所述视频数据对应的特征向量的距离小于第一预设阈值的所述音频数据,确定为与所述视频数据同步的所述音频数据;
所述第一合并单元,用于分别将每段所述视频数据以及与其同步的所述音频数据合并为一组所述同步音视频数据;
第一检测单元,用于分别针对每组所述同步音视频数据,检测所述同步音视频数据的各帧图像中是否存在目标帧图像;其中,所述目标帧图像指代图像中的说话人嘴部区域被遮挡的图像;
第一剔除单元,用于若检测出所述同步音视频数据的各帧所述图像中存在所述目标帧图像,则将所述目标帧图像及其对应的音频,从所述同步音视频数据中剔除,得到所述同步音视频数据对应的已处理同步音视频数据;
第一确认单元,用于若检测出所述同步音视频数据的各帧所述图像中不存在所述目标帧图像,则将所述同步音视频数据确定为其对应的已处理同步音视频数据;
输出单元,用于输出所述同步音视频数据对应的已处理同步音视频数据。
7.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至5任意一项所述的音视频数据的处理方法。
8.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至5任意一项所述的音视频数据的处理方法。
CN202210169948.4A 2022-02-23 2022-02-23 音视频数据的处理方法及装置、电子设备、存储介质 Active CN114554268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210169948.4A CN114554268B (zh) 2022-02-23 2022-02-23 音视频数据的处理方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210169948.4A CN114554268B (zh) 2022-02-23 2022-02-23 音视频数据的处理方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN114554268A CN114554268A (zh) 2022-05-27
CN114554268B true CN114554268B (zh) 2024-04-19

Family

ID=81676915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210169948.4A Active CN114554268B (zh) 2022-02-23 2022-02-23 音视频数据的处理方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN114554268B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311538B (zh) * 2023-05-18 2023-09-01 江苏弦外音智造科技有限公司 一种分布式音视频处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8913103B1 (en) * 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
CN113807234A (zh) * 2021-09-14 2021-12-17 深圳市木愚科技有限公司 口型合成视频校验方法、装置、计算机设备及存储介质
CN113822136A (zh) * 2021-07-22 2021-12-21 腾讯科技(深圳)有限公司 视频素材图像的选择方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8913103B1 (en) * 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
CN113822136A (zh) * 2021-07-22 2021-12-21 腾讯科技(深圳)有限公司 视频素材图像的选择方法、装置、设备及存储介质
CN113807234A (zh) * 2021-09-14 2021-12-17 深圳市木愚科技有限公司 口型合成视频校验方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114554268A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
JP7252362B2 (ja) 動画を自動編集する方法及びポータブル型端末
CN107707931B (zh) 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN105070304B (zh) 实现对象音频录音的方法及装置、电子设备
CN106686452B (zh) 一种动态图片的生成方法及装置
CN111556254A (zh) 利用视频内容进行视频切割的方法、系统、介质及智能设备
GB2422739A (en) Sequentially displaying regions of interest in a captured ima ge according to saliency and size
CN114554268B (zh) 音视频数据的处理方法及装置、电子设备、存储介质
US20160379410A1 (en) Enhanced augmented reality multimedia system
CN113255628B (zh) 一种针对新闻场景的景别识别方法
CN112511767B (zh) 一种视频拼接方法及设备、存储介质
CN113225618A (zh) 一种视频剪辑方法及装置
WO2018032702A1 (zh) 一种图像处理方法及装置
CN111835985A (zh) 视频剪辑方法、设备、装置及存储介质
CN112487978A (zh) 一种视频中说话人定位的方法、装置及计算机存储介质
CN112714348A (zh) 智能音视频同步方法
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
TWI236294B (en) Method and device for capturing digital video
CN108230227B (zh) 一种图像篡改的识别方法、装置及电子设备
CN106162222B (zh) 一种视频镜头切分的方法及装置
CN103916677B (zh) 一种广告视频识别方法和装置
CN116708055B (zh) 智能多媒体视听图像处理方法、系统及存储介质
CN101877223A (zh) 影音编辑系统、方法及具有该影音编辑系统的电子设备
CN111615008B (zh) 基于多设备体验的智能摘要生成和字幕阅读系统
CN113014957A (zh) 视频镜头切分方法和装置、介质和计算机设备
CN113269854B (zh) 一种智能生成访谈类综艺节目的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant