CN116600166B

CN116600166B - 基于音频分析的视频实时剪辑方法、装置及设备

Info

Publication number: CN116600166B
Application number: CN202310605621.1A
Authority: CN
Inventors: 陈辉; 熊章; 张智; 张青军; 杜沛力
Original assignee: Wuhan Xingxun Intelligent Technology Co ltd
Current assignee: Wuhan Xingxun Intelligent Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2024-03-12
Anticipated expiration: 2043-05-26
Also published as: CN116600166A

Abstract

本发明涉及图像处理技术领域，解决了现有技术中无法高效地、准确地基于音频分析进行智能化视频实时剪辑的问题，提供了一种基于音频分析的视频实时剪辑方法、装置、设备及存储介质。该方法包括：获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。本发明基于音频分析结果，高效地、准确地完成了视频实时剪辑。

Description

基于音频分析的视频实时剪辑方法、装置及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于音频分析的视频实时剪辑方法、装置及设备。

背景技术

在实际家庭应用场景中，针对播放时长较长的视频，通常可以对该视频进行剪辑，缩短播放时长，生成播放时长相对较短但包含核心视频内容的精彩视频，然而，若采用人工剪辑生成精彩视频的方式，不仅会使得人力成本较高，而且人工剪辑视频的效率通常也较低，因此，可以采用人工智能剪辑的方式，自动生成剪辑视频。

现有中国专利CN114302174A提供一种视频剪辑方法、装置、计算设备及存储介质，所述方法包括：获取具有“笑声”和/或“掌声”内容的音频数据，并提取出该将“笑声”和/或“掌声”的声纹特征，然后，计算设备可以将声纹特征与原始视频中的音频数据对应的声纹特征进行逐段比对，并将声纹特征一致的音频数据位置，确定为关键位置，以此确定出原始视频中的多个关键位置，计算所述原始视频中相邻的第一帧图像与第二帧图像之间的相似度；当所述第一帧图像与所述第二帧图像之间的相似度小于预设阈值时，将所述第一帧图像或所述第二帧图像在所述原始视频中的位置确定为转场位置，根据该多个关键位置以及转场位置，从原始视频中切分得到多个视频片段，并基于该多个视频片段拼接得到目标视频。上述中国专利CN114302174A虽然解决了人工剪辑成本高、效率低的问题，但是在确定关键位置时，是对实时声纹特征与标注的声纹特征进行逐段对比，来确定关键位置，若逐段对比选取的每段音频数据时长过长，会导致部分声纹特征一致的音频数据丢失；若逐段对比选取的每段音频数据时长过短，会影响匹配效率，进而导致视频剪辑效率低。

为此，如何基于音频分析结果，高效地、准确地完成视频实时剪辑是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于音频分析的视频实时剪辑方法、装置及设备，用以解决现有技术中无法高效地、准确地基于音频分析进行智能化视频实时剪辑的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种基于音频分析的视频实时剪辑方法，其特征在于，所述方法包括：

S1：获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；

S2：对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；

S3：获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。

优选地，所述S2包括：

S21：依据预设的时间间隔，提取出所述实时视频数据中的第一音频数据；

S22：获取所述第一音频数据，对所述第一音频数据进行声纹提取，得出实时声纹特征信息；

S23：获取所述实时声纹特征信息，将所述实时声纹特征信息与预设的标准声纹特征信息进行声纹匹配，输出匹配结果；

S24：依据所述匹配结果，输出各所述目标音频数据和所述第三时间戳集合。

优选地，所述S22包括：

S221：获取所述第一音频数据，提取所述第一音频数据的数据序列；

S222：获取所述数据序列，并对所述数据序列进行去均值化；

S223:将去均值化后的数据序列输入时延神经网络模型中，输出所述实时声纹特征信息。

优选地，所述S23包括：

S231：获取预设的标准声纹特征信息，对所述实时声纹特征信息与所述标准声纹特征信息进行互相关系数计算，得出实时声纹特征信息与所述标准声纹特征之间的相似度；

S232：获取预设的相似度阈值，若所述相似度大于所述相似度阈值，则所述匹配结果为成功；

S233：若所述相似度不大于所述相似度阈值，则所述匹配结果为失败。

优选地，所述S24包括：

S241：若所述匹配结果为成功，则将所述第一音频数据作为目标音频数据提取出来，并提取所述目标音频数据对应的第三时间戳集合；

S242：若所述匹配结果为失败，则提取出所述第一音频数据中的第二音频数据，将所述第二音频数据与下一时间间隔的第三音频数据进行组合，得出新的第一音频数据，其中，第二音频数据的时长与第三音频数据的时长之和等于第一音频数据的时长；

S243：对所述新的第一音频数据重复步骤S22至S24，直至提取出所述目标音频数据和所述第三时间戳集合。

优选地，所述S3包括：

S31：获取所述第三时间戳和所述第一时间戳，对所述第三时间戳和第一时间戳进行同步，得出与各所述目标音频数据对应的多个目标视频数据；

S32：将各目标音频数据上的预设标签赋予对应的各所述目标视频数据，得出实时视频标签；

S33：将所述实时视频标签与预设的目标视频标签进行匹配，输出匹配结果；

S34：获取预设的延时时限，依据所述匹配结果，当持续未匹配上的时间间隔大于所述延时时限时，将已与目标视频标签匹配上的所述实时视频标签对应的视频数据合成，输出剪辑后的视频。

优选地，所述S31包括：

S311：获取所述第三时间戳集合中初始时间戳和终止时间戳；

S312：获取所述第一时间戳集合，分别计算得出所述第一时间戳集合中与所述初始时间戳对应的第一目标时间戳和与所述终止时间戳对应的第二目标时间戳；

S313：将发生在所述第一目标时间戳与所述第二目标时间戳之间的视频数据提取出来，输出所述目标视频数据。

第二方面，本发明提供了一种基于音频分析的视频实时剪辑装置，所述装置包括：

数据获取模块，用于获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；

音频分析模块，用于对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；

视频分析模块，用于获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本发明提供的基于音频分析的视频实时剪辑方法、装置及设备，所述方法包括：获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。本发明通过对音频数据进行实时分析，再通过音频分析得出的目标音频数据对实时视频进行剪辑，无需人工干预，实现了基于音频分析结果的视频智能化剪辑；同时，高效率地提取出目标音频数据，并进一步结合视频分析，保证了剪辑结果的准确性，也提升了剪辑效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明实施例1中基于音频分析的视频实时剪辑方法的整体工作的流程示意图；

图2为本发明实施例1中对实时音频数据进行音频分析的流程示意图；

图3为本发明实施例1中提取实时声纹特征信息的流程示意图；

图4为本发明实施例1中匹配声纹特征信息的流程示意图；

图5为本发明实施例1中进行声纹提取的流程示意图；

图6为本发明实施例1中对实时视频数据进行视频分析的流程示意图；

图7为本发明实施例1中进行音视频同步的流程示意图；

图8为本发明实施例2中基于音频分析的视频实时剪辑装置的结构框图；

图9为本发明实施例3中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1

请参见图1，本发明实施例1公开了一种基于音频分析的视频实时剪辑方法，所述方法包括：

S1：获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；；

具体地，监控设备会同步采集家庭监控场景下的实时视频数据和实时音频数据，所述实时视频数据包括与婴幼儿和家长的日常活动相关的视频片段，所述实时音频数据包括与婴幼儿、家长等用户在家庭场景下发出的音频片段，并获取所述实时视频数据对应的第一时间戳集合Tv和所述实时音频数据对应的第二时间戳集合Ts。通过采集家庭场景下与婴幼儿与家长的日常活动相关的视频片段和音频片段，来对婴幼儿和家长等用户的日常活动行为信息进行监测。

具体地，对采集的实时音频数据和第二时间戳集合Ts进行音频分析，筛选出，符合要求的具有预设标签的多个目标音频片段，将所述目标音频片段作为目标音频数据，并将所有目标音频片段的时间戳输出至对应的集合，将这个集合记为第三时间戳集合；其中，所述预设标签包括“婴幼儿”、“爸爸”和“妈妈”等人物分类标签。通过所述音频分析规则，提取出实时音频数据中具有所述标签的目标音频数据和对应的第三时间戳集合，由于目标音频数据具有标签，用户能够通过所述目标音频数据快速准确地找出自己想要的标签的对应音频数据，如标签为“婴幼儿”、“爸爸”和“妈妈”等人物分类标签，则用户能够通过“婴幼儿”标签快速、准确地找出想要的婴幼儿的音频数据。

在一实施例中，请参见图2，所述S2包括：

具体地，例如按照每5秒的时间间隔，提取实时视频数据中的多段音频数据，将依据时间先后顺序提取出的第一段音频数据作为第一音频数据。在提取多段音频数据时，灵活设置时间间隔，若时间间隔较长，则提取音频数据的效率较高，但后续进行声纹比对的准确度更低；若时间间隔较短，提取音频数据的效率较低，但后续声纹比对的准确度更高，用户可根据实际的不同的使用需要，设置不同的时间间隔，获得更好的体验。

在一实施例中，请参见图3，所述S22包括：

具体地，例如按照采样率44000hz提取所述第一音频数据的pcm数据序列S，其中，所述pcm，即脉冲编码调制技术，是一种对模拟信号数字化的取样技术，将模拟语音信号变换为数字信号的编码方式，特别是对于音频信号。通过所述脉冲编码调制技术提取出数据序列S，增强了音频数据的音质和稳定性。

S222：获取所述数据序列，并对所述数据序列进行去均值化；

具体地，获取所述数据序列S，并对所述数据序列进行去均值化，将去均值化后的音频数据序列S送入时延神经网络模型(即TDNN模型)中，得到一个512维的特征F(n1,n2,n3,…,n512)，将所述特征F(n1,n2,n3,…,n512)作为实时声纹特征信息提取出来，其中，所述时延神经网络模型是一个经过TDNN网络训练的声纹特征信息提取模型，其优点在于时延神经网络是多层的，每层对声纹特征有较强的抽象能力，能表达声纹特征在时间上的关系，权值具有时间不变性；学习过程中不要求对所学的标记进行精确的时间定位，并且通过共享权值，方便学习。

在一实施例中，请参见图4，所述S23包括：

具体地，获取预设的标准声纹特征信息，其中所述标准声纹特征信息是用户预先录入的音频数据提取出的声纹特征信息，例如家庭中爸爸预先通过麦克风录入一段说话的音频数据或者通过麦克风录入一段婴幼儿“咿咿呀呀”的音频数据，并对预先录入的音频数据进行步骤S22，提取出声纹特征信息作为标准声纹特征信息，再计算所述实时声纹特征信息F(n1,n2,n3,…,n512)与所述标准声纹特征信息进行互相关系数计算，计算公式如下：

dot＝Fi(m1)*F(n1)+Fi(m2)*F(n2)+…+Fi(m512)*F(n512)

sigma1＝sqrtf(Fi(m1)*Fi(m1)+Fi(m2)*Fi(m2)+...+Fi(m512)*Fi(m512))

sigma2＝sqrtf(F(n1)*F(n1)+F(n2)*F(n2)+...+F(n512)*F(n512))

sim(Fi,F)＝dot/(sigma1*sigma2)

其中sim(Fi,F)即为数据序列S的实时声纹特征信息F与标准声纹特征信息Fi的相似度。

具体地，例如，获取预先设置的相似度阈值为0.95，当计算得出的sim(Fi,F)大于0.95,则认为数据序列S的实时声纹特征信息F与标准声纹特征信息Fi匹配成功了；若数据序列S的实时声纹特征信息F与标准声纹特征信息Fi之间的相似度均不大于0.95，则认为此时无匹配失败。通过设置相似度阈值，从而保证了实时声纹特征与标准声纹特征的一致性。

在一实施例中，请参见图5，所述S24包括：

具体地，若所述匹配结果为成功，则将标准声纹特征信息上的标签赋予给所述第一音频数据，将5秒的所述第一音频数据作为目标音频数据提取出来，并提取所述目标音频数据对应的第三时间戳集合。通过赋予第一音频数据标签，从而方便用户能够快速、准确的地找到对应标签的音频数据。

具体地，若所述匹配结果为失败，则将这5秒的第一音频数据丢掉第1秒的音频，将剩下的4秒音频数据作为第二音频数据，并接受下一个5秒的音频数据中第1秒的音频数据，与之前剩下的4秒音频组成一个新的5秒第一音频数据，对所述新的第一音频数据重复步骤S22至S24，直至提取出所述目标音频数据和所述第三时间戳集合。在5秒的第一音频数据未匹配成功时，只丢弃第1秒的音频数据，而不是全部5秒的音频数据，从而避免了5秒内有音频数据被遗漏，导致剪辑出的视频内容发生缺失的情况出现。

具体地，获取提取出的所有目标音频数据和对应的第三时间戳集合，再结合所述第一时间戳集合，对实时的视频数据完成剪辑，通过音频分析结果，实时地对视频进行剪辑，过程中无需人工干预，而是智能化地完成剪辑，从而避免了人工剪辑效率低，浪费时间的问题。

在一实施例中，请参见图6，所述S3包括：

在一实施例中，请参见图7，所述S31包括：

S311：获取所述第三时间戳集合中初始时间戳和终止时间戳；

具体地，获取所述第三时间戳集合中初始帧的时间戳为t_start，终止帧的时间戳为t_end。

具体地，获取所述第一时间戳集合Tv，对第一时间戳集合Tv中每一视频帧的时间戳做如下计算：

min(fabs(t_start-Tv(i)))

t_start与Tv中每一帧做时间差计算，绝对值最小的时间戳Tv(i)即表示该音频对应的视频的初始图像帧，同理计算：

min(fabs(t_end-Tv(j)))

绝对值最小的时间戳Tv(i)即表示该音频对应的视频的最后一帧图像帧。通过上述计算，实现了音视频同步，从而能够基于音频数据的对应时间戳找出视频数据对应的时间戳。

具体地，将Tv(i)到Tv(j)之间的视频片段作为与目标音频数据对应的目标视频数据提取出来。

具体地，按照目标音频数据上的各个标签对各视频段进行顺序标记，例如，目标音频数据对应的标签为“婴幼儿”，则赋予所述目标音频数据对应的目标视频数据“婴幼儿”的标签。

具体地，获取预设的延时时限，例如当“婴幼儿”标签未检测时间间隔超过延时时限T-delay，则对具有“婴幼儿”标签的各个目标视频片段进行合成，并用“婴幼儿”标签命名，完成视频剪辑。通过设定延时时限，避免了人物间断性说话时，对视频剪辑有内容发生缺失的情况出现。

实施例2

请参见图8，本发明实施例2还提供了一种基于音频分析的视频实时剪辑装置，所述装置包括：

具体地，采用本发明实施例提供的基于音频分析的视频实时剪辑装置，所述装置包括：数据获取模块，用于获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；音频分析模块，用于对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；视频分析模块，用于获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。本装置通过对音频数据进行实时分析，再通过音频分析得出的目标音频数据对实时视频进行剪辑，无需人工干预，实现了基于音频分析结果的视频智能化剪辑；同时，高效率地提取出目标音频数据，并进一步结合视频分析，保证了剪辑结果的准确性，也提升了剪辑效率。

实施例3

另外，结合图1描述的本发明实施例1的基于音频分析的视频实时剪辑方法可以由电子设备来实现。图9示出了本发明实施例3提供的电子设备的硬件结构示意图。

电子设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种基于音频分析的视频实时剪辑方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，如图9所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将所述设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例4

另外，结合上述实施例1中的基于音频分析的视频实时剪辑方法，本发明实施例4还可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于音频分析的视频实时剪辑方法。

综上所述，本发明实施例提供了一种基于音频分析的视频实时剪辑方法、装置及设备。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于音频分析的视频实时剪辑方法，其特征在于，所述方法包括：

S3：获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频；

所述S2包括：

S24：依据所述匹配结果，输出各所述目标音频数据和所述第三时间戳集合；

所述S24包括：

2.根据权利要求1所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S22包括：

S222：获取所述数据序列，并对所述数据序列进行去均值化；

3.根据权利要求1所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S23包括：

4.根据权利要求1所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S3包括：

5.根据权利要求1所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S31包括：

S311：获取所述第三时间戳集合中初始时间戳和终止时间戳；

6.一种基于音频分析的视频实时剪辑装置，其特征在于，所述装置包括：

视频分析模块，用于获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频；

所述对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合包括：

依据预设的时间间隔，提取出所述实时视频数据中的第一音频数据；

获取所述第一音频数据，对所述第一音频数据进行声纹提取，得出实时声纹特征信息；

获取所述实时声纹特征信息，将所述实时声纹特征信息与预设的标准声纹特征信息进行声纹匹配，输出匹配结果；

依据所述匹配结果，输出各所述目标音频数据和所述第三时间戳集合；

所述依据所述匹配结果，输出各所述目标音频数据和所述第三时间戳集合包括：

若所述匹配结果为成功，则将所述第一音频数据作为目标音频数据提取出来，并提取所述目标音频数据对应的第三时间戳集合；

若所述匹配结果为失败，则提取出所述第一音频数据中的第二音频数据，将所述第二音频数据与下一时间间隔的第三音频数据进行组合，得出新的第一音频数据，其中，第二音频数据的时长与第三音频数据的时长之和等于第一音频数据的时长；

对所述新的第一音频数据重复进行声纹提取，得出实时声纹特征信息；获取所述实时声纹特征信息，将所述实时声纹特征信息与预设的标准声纹特征信息进行声纹匹配，输出匹配结果；依据所述匹配结果，直至提取出所述目标音频数据和所述第三时间戳集合。

7.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-5中任一项所述的方法。

8.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。