CN116364064B

CN116364064B - 一种音频拼接方法、电子设备及存储介质

Info

Publication number: CN116364064B
Application number: CN202310565047.1A
Authority: CN
Inventors: 李昌晋; 曹喜信; 曹昕妍
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-07-28
Anticipated expiration: 2043-05-19
Also published as: CN116364064A

Abstract

本发明提供了一种音频拼接方法、电子设备及存储介质，用于对依序安装在设定位置的Zm个智能设备获取目标对象的音频片段进行拼接，从而获得目标对象的最终音频，所述方法包括如下步骤：获取智能设备采集目标对象音频信息的时间段列表和对应的原始音频片段列表，获取第一重合音频片段和第二重合音频片段，进行噪声检测获取中间音频片段和备用音频片段，对中间音频片段对应的原始音频片段进行语义检测，当语义检测值大于第一预设阈值，将备用音频片段对应的原始音频片段裁剪，并和中间音频片段对应的原始音频片段进行拼接，从而获取最终音频，使得无重合的目标对象的最终音频更加完整，语义更通顺、清晰。

Description

一种音频拼接方法、电子设备及存储介质

技术领域

本发明涉及音频处理技术领域，特别是涉及一种音频拼接方法、电子设备及存储介质。

背景技术

在音频处理场景中，经常需要获取很多视频中属于某个目标对象的音频部分，并对该音频部分进行拼接，获取目标对象的完整音频，然而，在实际应用场景中，音频部分中音频信息会比较复杂，比如环境中的各种噪声等，现有技术中，获取针对目标对象的一段完整录音，往往在拼接时会出现重复片段，或有些音频片段噪声比较大甚至在去噪后仍有噪声，且在拼接后的音频中容易出现语义不清晰、语义上下矛盾等问题。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种音频拼接方法，用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接，从而获得目标对象的最终音频，其中，所述智能设备能够实现同步录音录像，且任意两个智能设备对应的设定位置不同，所述方法包括如下步骤：

S610，获取智能设备采集目标对象音频信息的时间段列表ZB={ZB₁，ZB₂，…，ZB_Zi，…，ZB_Zm}和对应的原始音频片段列表ZA={ZA₁，ZA₂，…，ZA_Zi，…，ZA_Zm}，其中，ZB_Zi是第Zi个智能设备采集目标对象音频信息的时间段，ZA_Zi是第Zi个智能设备获取的目标对象对应的原始音频片段，Zi的取值范围是1到Zm，且任意两个相邻的ZB_i和ZB_i+1有重合时间段Zb_Zi。

S620，获取ZA_Zi在Zb_Zi时间段的第一重合音频片段ZA_ZiZb_Zi和ZA_Zi+1在Zb_Zi时间段的第二重合音频片段ZA_Zi+1Zb_Zi。

S630，对ZA_ZiZb_Zi和ZA_Zi+1Zb_Zi进行噪声检测，获取ZA_ZiZb_Zi和ZA_Zi+1Zb_Zi的噪音值，当ZA_ZiZb_Zi的噪音值不大于ZA_Zi+1Zb_Zi中的噪音值时，将ZA_ZiZb_Zi作为中间音频片段ZC_Zi，ZA_Zi+ ₁Zb_Zi作为备用音频片段ZH_Zi，否则，将ZA_Zi+1Zb_Zi作为中间音频片段ZC_Zi，将ZA_ZiZb_Zi作为备用音频片段ZH_Zi。

S640，将ZC_Zi对应的原始音频片段进行语义检测获取第一语义检测值，当第一语义检测值大于第一预设阈值，执行S650，否则，执行S660，其中，所述第一语义检测值是在基于ZC_Zi对应的原始音频片段识别出的原始语句列表中，用于表示与其他全部原始语句间相似度的最小值。

S650，对ZH_Zi对应的原始音频片段裁减掉ZH_Zi，且将裁减掉ZH_Zi后的原始音频片段与ZC_Zi对应的原始音频片段按照时间段顺序进行拼接，从而获取最终音频。

S660，对ZH_Zi对应的原始音频片段进行去噪声处理，且对ZH_Zi对应的去噪后的原始音频片段进行语义检测，获取第二语义检测值，其中，所述第二语义检测值是在基于去噪后的ZH_Zi对应的原始音频片段识别出的原始语句列表中，用于表示与其他全部原始语句间相似度的最小值。

S670，当第二语义检测值大于第一预设阈值，对ZC_Zi对应的原始音频片段裁减掉ZC_Zi，且将裁减掉ZC_Zi后的原始音频片段与ZH_Zi对应的去噪后的原始音频片段按照时间段顺序进行拼接，从而获取最终音频。

本发明的另一方面还公开了一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如前所述的方法。

本发明的又一方面还公开了一种电子设备，包括处理器和如前所述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

基于上述，获取目标对象出现在智能设备的时间段列表和对应的原始音频列表，获取第一重合音频片段和第二重合音频片段，对第一重合音频片段和第二重合音频片段进行噪声检测，将噪音值较小的作为中间音频片段，噪音值较大的作为备用音频片段，对中间音频片段对应的原始音频片段进行语义检测，当第一语义检测值大于第一预设阈值，将中间音频片段对应的原始音频片段和备用音频片段对应的原始音频片段进行裁，剪按照时间段顺序进行拼接获取最终音频，当第一语义检测值不大于第一预设阈值，对备用音频片段对应的原始录音片段进行去噪处理，且对去噪后的ZH_Zi对应的原始音频片段进行语义检测，获取第二语义检测值，当第二语义检测值大于第一预设阈值，将备用音频片段对应的原始音频片段和中间音频片段对应的原始音频片段进行裁剪，之后拼接获取最终音频，本发明采用上述方法实现目标对象的最终音频完整，在拼接处连贯，且获取的最终音频噪声更小，语义更通顺、清晰。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频拼接方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例提供了一种音频拼接方法，用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接，从而获得目标对象的最终音频，其中，所述智能设备能够实现同步录音录像，且任意两个智能设备对应的设定位置不同，所述方法包括如下步骤。

本领域技术人员可知，所述智能设备例如可以为具有录音功能的摄像头等，具体的，本申请不对智能设备的具体表现形式做限制，只要能够同时实现录音录像功能的设备，均在本申请的保护范围之内。

在一个示意性实施例中，本发明实施例提供的方法可应用于安保街道，所述安保街道依序在设定位置安装Zm个智能设备，且任意两个智能设备对应的设定位置不同，Zm个智能设备实现同步录音录像，且相邻两个智能设备安装的位置在录音录像上均有重合部分。

具体的，如图1所示，所述方法包括如下步骤：

S610，获取智能设备采集目标对象音频信息的时间段列表ZB={ZB₁，ZB₂，…，ZB_Zi，…，ZB_Zm}和对应的原始音频片段列表ZA={ZA₁，ZA₂，…，ZA_Zi，…，ZA_Zm}，其中，ZB_Zi是第Zi个智能设备采集目标对象音频信息的时间段，ZA_Zi是第Zi个智能设备获取的目标对象对应的原始音频片段，Zi的取值范围是1到Zm，且任意两个相邻的ZB_Zi和ZB_Zi+1有重合时间段Zb_Zi。

可以理解为，原始音频片段ZA_Zi是第Zi个智能设备在时间段ZB_Zi内获取的关于目标对象的音频信息，原始音频片段ZA_Zi+1是第Zi+1个智能设备在时间段ZB_Zi+1内获取的关于目标对象的音频信息，且ZB_Zi和ZB_Zi+1有重合时间段Zb_Zi，所以在时间段Zb_Zi内可获得第Zi个智能设备的部分音频信息和第Zi+1个智能设备的部分音频信息。

具体的，S620包括：

S6201，使用裁剪工具对ZA_Zi在Zb_Zi时间段的音频进行裁剪，从而获取第一重合音频片段ZA_ZiZb_Zi。

S6202，使用裁剪工具对ZA_Zi+1在Zb_Zi时间段的音频进行裁剪，从而获取第二重合音频片段ZA_Zi+1Zb_Zi。

进一步的，本领域技术人员知晓，现有技术中的任何一款裁剪工具均属于本发明保护范围。

S630，将ZA_ZiZb_Zi和ZA_Zi+1Zb_Zi进行噪声检测，获取ZA_ZiZb_Zi和ZA_Zi+1Zb_Zi的噪音值，当ZA_ZiZb_Zi的噪音值不大于ZA_Zi+1Zb_Zi中的噪音值时，将ZA_ZiZb_Zi作为中间音频片段ZC_Zi，ZA_Zi+ ₁Zb_Zi作为备用音频片段ZH_Zi，否则，将ZA_Zi+1Zb_Zi作为中间音频片段ZC_Zi，将ZA_ZiZb_Zi作为备用音频片段ZH_Zi。

具体的，S630中，将ZA_ZiZb_Zi进行噪声检测，获取ZA_ZiZb_Zi的噪音值包括如下步骤：

S631，将ZA_ZiZb_Zi输入神经网络模型。

S632，对ZA_ZiZb_Zi进行分帧处理。

具体的，本领域技术人员知晓，现有技术中任何一种对音频进行分帧处理的方法均属于本发明保护范围，此处不再赘述。

S633，分别提取分帧后的ZA_ZiZb_Zi的GFCC特征和Gabor特征。

具体的，GFCC是基于FFT的特征提取技术，采用Gammatone滤波器组和等效矩形带宽(ERB)比例，具有更好的识别率和鲁棒性；GFCC特征的提取步骤属于现有技术，具体可以包括：将分帧后的语音信号依次执行信号预加重、信号加窗、DFT、Gammatone滤波、立方根压缩、DCT变换等处理，从而输出GFCC倒谱系数特征。

具体的，Gabor是一个用于边缘提取的线性滤波器，能够提供良好的方向选择和尺度选择特性，用于提高噪声识别的鲁棒性。Gabor特征的提取步骤同样属于现有技术，具体可以包括：将分帧后的语音信号预加重，加窗处理，然后输入二维的Gabor滤波器，从而得到Gabor特征。

S634，将提取到的所述GFCC特征和Gabor特征依次输入神经网络模型，得到ZA_ZiZb_Zi的噪音值。

具体的，输入的GFCC特征和Gabor特征为矩阵的形式，神经网络模型输出的是语音信号包含噪声的概率值，即噪音值。

进一步的，通过S631到S634对ZA_Zi+1Zb_Zi进行噪声检测，获取ZA_Zi+1Zb_Zi的噪音值。

其中，所述第一预设阈值可根据实际情况确定。

具体的，S640中对ZC_Zi对应的原始音频片段进行语义检测获取第一语义检测值包括如下步骤：

S641，对ZC_Zi对应的原始音频片段进行语音识别，从而获取ZC_Zi对应的原始语句列表ZD_Zi={ZD_Zi1，ZD_Zi2，…，ZD_ZiZj，…，ZD_ZiZn}，ZD_ZiZj是ZC_Zi对应的第Zj条原始语句，Zj的取值范围是1到Zn，Zn是ZC_Zi对应的原始语句的数量。

具体的，本领域技术人员知晓，现有技术中任何一种对音频进行识别获取语句的方法均属于本发明保护范围，此处不再赘述。

S642，将ZD_Zi输入word2vec模型，获取ZC_Zi对应的原始词向量列表ZE_Zi={ZE_Zi1，ZE_Zi2，…，ZE_ZiZj，…，ZE_ZiZn}，ZE_ZiZj是ZD_ZiZj对应的原始词向量。

具体的，本领域技术人员知晓，现有技术中任何一种将语句输入word2vec模型获取词向量的方法均属于本发明那个保护范围，此处不再赘述。

S643，获取ZE_ZiZj与其它原始词向量之间的原始相似度ZF_ZiZj，从而获取原始相似度列表ZF_Zi={ZF_Zi1，ZF_Zi2，…，ZF_ZiZj，…，ZF_ZiZn}。

具体的，S643中获取ZE_ZiZj与其他原始词向量的原始相似度ZF_ZiZj包括如下步骤：

S6431，获取ZE_ZiZj和ZE_ZiZk的余弦相似度，从而获取ZE_ZiZj的余弦相似度列表，其中Zk≠Zj，且Zk的取值范围是1到Zn。

S6432，将余弦相似度列表的平均值作为原始相似度ZF_ZiZj。

在本发明另一实施例中，S6432替换为S6433，其中，S6433：将余弦相似度列表中的最小值作为原始相似度ZF_ZiZj。

S644，将ZF_Zi0作为第一语义检测值，其中，ZF_Zi0=min{ZF_Zi1，ZF_Zi2，…，ZF_ZiZj，…，ZF_ZiZn}。

基于上述，对ZC_Zi对应的原始音频片段进行语音识别，获取ZC_Zi对应的原始语句列表，将原始语句列表输入word2vec模型，获取每一原始语句对应的原始词向量，获取任一原始词向量与其它原始词向量之间的原始相似度，并将原始相似度列表中的最小原始相似度作为语义检测值，可以理解为，将最小原始相似度作为语义检测值，保证语音识别的准确性，并在原始音频片段不清晰或语音识别不准确时，可以快速知晓问题。

具体的，本领域技术人员知晓，现有技术中任何一种对音频进行拼接的方法均属于本发明保护范围，此处不再赘述。

具体的，S660中对ZH_Zi对应的原始音频片段进行去噪声处理至少包括使用线性滤波器对ZH_Zi对应的原始音频片段进行去噪声处理。

在本发明一实施例中，使用CN109658943A中一种基于GRU神经网络的去除噪声方法及系统对ZH_Zi对应的原始音频片段进行去噪声处理。

具体的，通过S64-S644的方法对去噪后的ZH_Zi对应的原始音频片段进行语义检测，获取第二语义检测值。

基于上述，获取目标对象出现在智能设备的时间段列表和对应的原始音频列表，获取第一重合音频片段和第二重合音频片段，对第一重合音频片段和第二重合音频片段进行噪声检测，将噪音值较小的作为中间音频片段，噪音值较大的作为备用音频片段，对中间音频片段对应的原始音频片段进行语义检测，当第一语义检测值大于第一预设阈值，将中间音频片段对应的原始音频片段和备用音频片段对应的原始音频片段进行裁剪按照时间段顺序进行拼接获取最终音频，当第一语义检测值不大于第一预设阈值，对备用音频片段对应的原始录音片段进行去噪处理，且对去噪后的ZH_Zi对应的原始音频片段进行语义检测，获取第二语义检测值，当第二语义检测值大于第一预设阈值，将备用音频片段对应的原始音频片段和中间音频片段对应的原始音频片段进行裁剪，之后拼接获取最终音频，本发明采用上述方法实现目标对象的最终音频完整，在拼接处连贯，且获取的最终音频噪声更小，语义更通顺、清晰。

进一步的，获取第Zi个智能设备采集目标对象音频信息的时间段包括如下步骤：

S601，获取第Zi个智能设备的最大录音距离。

具体的，根据智能设备的型号等信息确定智能设备的最大录音距离。

在本发明另一个实施例中，最大录音距离根据实际情况人为确定。

S602，获取第Zi个智能设备在最大录音距离时的视频帧，并基于所述视频帧获取目标比例Zp，所述目标比例Zp=ZS₂/ZS₁，ZS₁是第Zi个智能设备在最大录音距离时获取的视频帧包括的像素个数，ZS₂是第Zi个智能设备在最大录音距离时，视频帧中用于表征且包含目标对象的包围盒所包括的像素个数。

其中，所述目标比例是目标对象的包围盒和整个视频帧的面积比，本领域技术人员知晓，现有技术中任何一种获取目标对象包围盒的方法，均属于本发明保护范围，此处不再赘述。

S603基于目标比例Zp，获取第Zi个智能设备采集目标对象音频信息的时间段ZB_Zi=（Zt_Zi，1，Zt_Zi，2），其中，Zt_Zi，1是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最早时间，Zt_Zi，2是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最晚时间。

更进一步的，Zb_Zi的获取包括以下步骤：

S604，获取目标对象出现在第Zi+1个智能设备的时间段ZB_Zi+1=（Zt_Zi+1，1，Zt_Zi+1，2）。

S605，获取Zb_Zi=（Zt_Zi+1，1，Zt_Zi，2）。

基于上述，获取智能设备的最大录音距离，并获取在最大录音距离时目标对象的包围盒在整个视频帧中的目标比例，根据目标比例，获取目标对象在第Zi个智能设备上出现的最早时间和最晚时间，从而获取预设时间列表，通过视频帧中目标比例的方法找到目标对象出现的最早时间和最晚时间，实现自动化确定时间，更为精准且提高了效率。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实施例中的一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，包括程序代码。当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述的根据本发明各种示例性实施方式中的步骤。

进一步的，本发明还包括，在获取智能设备的视频帧后，执行如下步骤：

S100、获取预设时间段T内的初始视频数据列表B={B₁，B₂，……，B_j，……，B_n}，其中，B_j为第j个视频数据采集端对应的初始视频数据，j=1，2……n，n为视频数据采集端数量，视频数据采集端可以理解为摄像机。

具体地，每一视频数据采集端的焦距均不一致，可以满足各种范围内的视频数据采集需求。

具体地，预设时间段的取值范围为10min-30min，其中，本领域技术人员可根据实际需求设置预设时间段的取值。

S200、根据B，获取目标对象列表A={A₁，A₂，……，A_i，……，A_m}，A_i为第i个目标对象，i=1，2……m，m为目标对象数量。

具体地，在S200步骤中包括如下步骤：

S201、根据B，获取B对应的第一图像列表E={E₁，E₂，……，E_j，……，E_n}，E_j为B_j对应的第一图像，其中，第一图像为初始视频数据中的最后一帧图像，本领域技术人员知晓，现有技术中任一从视频中获取一帧图像的方法，均属于本发明的保护范围，在此不再赘述。

S202、根据E，获取E对应的像素点数量列表E⁰={E⁰ ₁，E⁰ ₂，……，E⁰ _j，……，E⁰ _n}，E⁰ _j为E_j对应的像素点数量。

S203、根据E，获取E对应的图像噪声数量列表E¹={E¹ ₁，E¹ ₂，……，E¹ _j，……，E¹ _n}，E¹ _j为E_j对应的图像噪声数量。

S204、根据E⁰和E¹，获取E对应的图像清晰度列表E²={E² ₁，E² ₂，……，E² _j，……，E² _n}，E² _j为E_j对应的图像清晰度，其中，E² _j符合如下条件：

E² _j=（E⁰ _j-E¹ _j）/E⁰ _j。

S205、根据E²，获取第二图像，其中，第二图像为E²中最大的数据项对应的E中数据项。

S206、将第二图像输入至预设图像识别模型中，获取A，本领域技术人员知晓，现有技术中任一能够识别对象的图像识别模型均属于本发明的保护范围，在此不再赘述。

上述，获取每一初始视频数据中的第一图像的图像清晰度，对第一图像的清晰度进行对比，选取出最清晰的第一图像作为第二图像，根据第二图像，可以精准并清晰地获取到每一目标对象，对目标对象进行处理，获取目标对象对应的第一特征向量，进一步地获取目标对象对应的目标视频数据，有利于提高获取目标视频数据的准确度。

S300、对B进行处理，获取B对应的第二视频数据DE。

具体地，在S300步骤中包括如下步骤：

S301、根据B，获取B对应的第三图像列表F={F₁，F₂，……，F_j，……，F_n}，F_j为B_j对应的第三图像，其中，第三图像为初始视频数据中任一一帧图像。

S302、根据F，获取F对应的第一距离列表L={L₁，L₂，……，L_j，……，L_n}，L_j为F_j对应的第一距离。

具体地，在S302步骤中还包括如下步骤：

S3021、将F_j输入至预设图像特征提取模型中，获取F_j对应的第一图像特征F⁰ _j，本领域技术人员知晓，现有技术中任一能够获取图像特征的图像特征提取模型均属于本发明的保护范围，在此不再赘述。

S3022、获取预设距离映射列表YS={YS₁，YS₂，……，YS_e，……，YS_f}，YS_e=（YS_e1，YS_e2），YS_e1为预设距离映射列表中第e个记录中的预设图像特征，YS_e2为YS_e1对应的第二距离，e=1，2……f，f为预设距离映射列表中的记录数量，其中，预设图像特征为本领域技术人员根据实际需求预先设置好的图像特征，第二距离为本领域技术人员根据实际需求以及预设图像特征设置的视频数据采集端能够采集到的最远距离。

S3023、根据F⁰ _j和YS_e1，获取F⁰ _j与YS_e1的特征相似度XS_je，本领域技术人员知晓，现有技术中任一获取两个图像特征之间的特征相似度的方法均属于本发明的保护范围，在此不再赘述。

S3024、当XS_je=1时，确定YS_e2为L_j。

上述，通过预设距离映射列表，获取每一初始视频数据对应的第一距离，对第一距离进行排序处理，获取中间视频数据列表，进一步地，可以精准地获取到中间视频数据列表和第二视频数据，对第二视频数据进行处理，有利于提高获取目标视频数据的准确度。

S303、按照L_j从大到小顺序对B_j进行排序，获取中间视频数据列表B⁰={B⁰ ₁，B⁰ ₂，……，B⁰ _j，……，B⁰ _n}，B⁰ _j是第j个中间视频数据；可以理解为：将最大的L_j对应的B_j作为B⁰ ₁，将第二大的L_j对应的B_j作为B⁰ ₂，将第三大的L_j对应的B_j作为B⁰ ₃，……，将最小的L_j对应的B_j作为B⁰ _n。

S304、根据T和B⁰，获取关键视频数据GJ。

具体地，在S304步骤中包括如下步骤：

S3041、根据T和n，获取第一间隔时长t，其中，t符合如下条件：

t=T×60/n。

S3042、根据B⁰和t，获取B⁰对应的第一视频数据时间点列表B¹={B¹ ₁，B¹ ₂，……，B¹ _j，……，B¹ _n}，B¹ _j=（B¹ _j1，B¹ _j2），B¹ _j1为B⁰ _j对应的第一个第一视频数据时间点，B¹ _j2为B⁰ _j对应的第二个第一视频数据时间点，其中，B¹ _j1和B¹ _j2符合如下条件：

B¹ _j2=B¹ _j1+t-1，其中，当j≠1时，B¹ _j1=t×（j-1）+1；当j=1时，B¹ _j1=0。

具体地，B¹ _j1和B¹ _j2的单位为秒。

S3043、获取B⁰ _j中属于[B¹ _j1，B¹ _j2]的中间视频数据作为B⁰ _j对应的第一视频数据B² _j，本领域技术人员知晓，现有技术中任一从视频数据中获取视频数据的方法均属于本发明的保护范围，在此不再赘述。

S3044、将所有的B² _j按照顺序拼接在一起，获取GJ；可以理解为：将B² ₂拼接在B² ₁之后，将B² ₃拼接在B² ₂之后，……，将B² _n拼接在B² _n-1之后，本领域技术人员知晓，现有技术中任一将视频数据拼接在一起的方法均属于本发明的保护范围，在此不再赘述。

上述，对中间视频数据进行处理，精准获取每一中间视频数据对应的第一视频数据时间点列表，从而可以精准获取到第一视频数据列表，将第一视频数据按照顺序拼接在一起形成关键视频数据，通过对关键视频数据处理，能够精准获取到第二视频数据，从而有利于提高获取目标视频数据的准确度。

S305、对GJ进行噪声处理，获取DE，本领域技术人员知晓，现有技术中任一对视频进行噪声处理的方法，均属于本发明的保护范围，在此不再赘述。

上述，对初始视频数据进行处理，获取关键视频数据，进一步地对关键视频进行噪声处理，可以获取到精准且清晰的第二视频数据，从而对第二视频数据进行处理，有利于提高获取目标视频数据的准确度。

S400、根据DE，获取DE对应的中间图像列表C={C₁，C₂，……，C_r，……，C_s}，C_r为DE中第r帧中间图像，r=1，2……s，s为DE对应的中间图像数量，其中，中间图像为第二视频数据中的图像，DE对应的第r帧中间图像可以理解为DE中的第r帧图像。

具体地，s符合如下条件：

s=T×60×a，a为DE中每一秒的帧数。

S500、根据A和C，获取A对应的目标视频数据列表D={D₁，D₂，……，D_i，……，D_m}，D_i为A_i对应的目标视频数据。

具体地，在S500步骤中包括如下步骤：

S501、将A_i输入到预设图像特征向量提取模型中，获取A_i对应的第一特征向量列表G_i={G_i1，G_i2，……，G_ix，……，G_ip}，G_ix为A_i对应的第x个特征向量，x=1，2……p，p为特征向量的数量，本领域技术人员知晓，现有技术中任一能够获取图像特征向量的图像特征向量提取模型，均属于本发明的保护范围，在此不再赘述。

S502、根据C，获取在C中A_i对应的第一对象列表Hⁱ={Hⁱ _s，Hⁱ _s-1，……，Hⁱ _r}，Hⁱ _r={Hⁱ _r1，Hⁱ _r2，……，Hⁱ _ry，……，Hⁱ _rq（r）}，Hⁱ _ry为在C_r中A_i对应的第y个第一对象，y=1，2……q（r），q（r）为C_r中第一对象数量，其中，本领域技术人员知晓，获取第一对象的方法参照获取目标对象的方法，在此不再赘述。

S503、根据G_i和Hⁱ _ry，获取Hⁱ对应的第二对象列表Uⁱ={Uⁱ _s，Uⁱ _s-1，……，Uⁱ _r}，Uⁱ _r为Hⁱ _r对应的第二对象。

具体地，在S503步骤中包括如下步骤：

S5031、将Hⁱ _ry输入到预设图像特征向量提取模型中，获取Hⁱ _ry对应的第二特征向量列表Qⁱ _ry={Qⁱ¹ _ry，Qⁱ² _ry，……，Q^ix _ry，……，Q^ip _ry}，Q^ix _ry为Hⁱ _ry对应的第x个第二特征向量。

S5032、当r=s时，根据G_i和Qⁱ _ry，获取Uⁱ _r。

具体地，在S5032步骤中包括如下步骤：

S1、根据G_i和Qⁱ _ry，获取A_i与Hⁱ _ry之间的第一特征向量相似度列表Wⁱ _ry={Wⁱ¹ _ry，Wⁱ² _ry，……，W^ix _ry，……，W^ip _ry}，W^ix _ry为G_ix与Q^ix _ry之间的特征向量相似度，其中，本领域技术人员知晓，获取特征向量相似度的方法参照获取特征相似度的方法，在此不再赘述。

S2、根据W^ix _ry，获取A_i与Hⁱ _r之间的第二特征向量相似度列表TZⁱ _r={TZⁱ _r1，TZⁱ _r2，……，TZⁱ _ry，……，TZⁱ _rq（r）}，TZⁱ _ry为A_i与Hⁱ _ry之间的第二特征向量相似度，其中，TZⁱ _ry符合如下条件：

TZⁱ _ry=∑^p _x=1（W^ix _ry）/Wⁱ⁰ _ry，Wⁱ⁰ _ry为Wⁱ _ry中W^ix _ry的值不为0的数量。

S3、当TZⁱ _r中最大的TZⁱ _ry的数值不为0且TZⁱ _r中最大的TZⁱ _ry的数值对应的数量等于1时，确定最大的TZⁱ _ry对应的Hⁱ _ry为Uⁱ _r。

S4、当TZⁱ _r中最大的TZⁱ _ry的数值不为0且TZⁱ _r中最大的TZⁱ _ry的数值对应的数量大于1时，将r+1对应的取值作为结束。

S5、当TZⁱ _ry均为0时，更新B¹，执行S3042步骤。

具体地，在S5步骤中包括如下步骤：

S51、获取关键时间点SJ，SJ符合如下条件：

。

S52、当SJ∈[B¹ _j1，B¹ _j2]时，确定B¹ _（j-1）2=SJ，B¹ _j1=SJ+1。

S5033、当r≠s时，根据Uⁱ _r+1和Qⁱ _ry，获取Uⁱ _r。

具体地，在S5053步骤中包括如下步骤：

S10、获取Uⁱ _r+1对应的第二特征向量列表。

S20、根据Uⁱ _r+1对应的第二特征向量列表和Qⁱ _ry，获取Uⁱ _r，其中，本领域技术人员知晓，根据Uⁱ _r+1对应的第二特征向量列表和Qⁱ _ry，获取Uⁱ _r的方法，参照根据S1步骤-S5步骤，在此不在赘述。

上述，根据目标对象的特征向量，对第二视频数据中的每一帧图像进行处理，可以精准获取到每一帧中目标对象对应的第二对象，其中，当无法精准判断出第二对象时，停止获取，当不存在第二对象时，更新第一视频数据时间点列表，重新获取第二对象，减小了获取第二对象的误差，对第二对象进行处理，有利于提高获取目标视频数据的准确度。

S504、根据Uⁱ，获取Uⁱ对应的目标图像列表Vⁱ={Vⁱ _r，Vⁱ _r+1，……，Vⁱ _s}，Vⁱ _r为Uⁱ _r对应的目标图像，其中，目标图像为中间图像中只包括第二对象的图像，本领域技术人员知晓，现有技术中任一从图像中获取一部分图像的方法均属于本发明的保护范围，在此不再赘述。

S505、将所有的Vⁱ _r按照顺序拼接在一起，获取D_i，可以理解为，将Vⁱ _r+1拼接在Vⁱ _r之后。

上述，从中间图像中获取只包括第二对象的图像作为目标图像，将目标图像按照顺序拼接成为目标视频数据，有利于提高获取目标视频数据的准确度。

综上，获取预设时间段内的初始视频数据列表；获取目标对象列表；获取第二视频数据；获取中间图像列表获取目标视频数据列表。可知本发明，基于初始视频数据，获取目标对象对应的第二视频数据，并根据目标对象的特征向量，对第二视频数据中的每一帧图像进行处理，精准获取到每一帧中目标对象对应的目标图像，将目标对象对应的目标图像组成目标对象对应的目标视频数据，减小了获取目标视频数据的误差，从而有利于提高获取目标视频数据的准确度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种音频拼接方法，其特征在于，用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接，从而获得目标对象的最终音频，其中，所述智能设备能够实现同步录音录像，且任意两个智能设备对应的设定位置不同，所述方法包括如下步骤：

S610，获取智能设备采集目标对象音频信息的时间段列表ZB={ZB₁，ZB₂，…，ZB_Zi，…，ZB_Zm}和对应的原始音频片段列表ZA={ZA₁，ZA₂，…，ZA_Zi，…，ZA_Zm}，其中，ZB_Zi是第Zi个智能设备采集目标对象音频信息的时间段，ZA_Zi是第Zi个智能设备获取的目标对象对应的原始音频片段，Zi的取值范围是1到Zm，且任意两个相邻的ZB_Zi和ZB_Zi+1有重合时间段Zb_Zi；

S620，获取ZA_Zi在Zb_Zi时间段的第一重合音频片段ZA_ZiZb_Zi和ZA_Zi+1在Zb_Zi时间段的第二重合音频片段ZA_Zi+1Zb_Zi；

S630，将ZA_ZiZb_Zi和ZA_Zi+1Zb_Zi进行噪声检测，获取ZA_ZiZb_Zi和ZA_Zi+1Zb_Zi的噪音值，当ZA_ZiZb_Zi的噪音值不大于ZA_Zi+1Zb_Zi中的噪音值时，将ZA_ZiZb_Zi作为中间音频片段ZC_Zi，ZA_Zi+ ₁Zb_Zi作为备用音频片段ZH_Zi，否则，将ZA_Zi+1Zb_Zi作为中间音频片段ZC_Zi，将ZA_ZiZb_Zi作为备用音频片段ZH_Zi；

S640，将ZC_Zi对应的原始音频片段进行语义检测获取第一语义检测值，且当第一语义检测值大于第一预设阈值，执行S650，否则，执行S660，其中，所述第一语义检测值是在基于ZC_Zi对应的原始音频片段识别出的原始语句列表中，用于表示与其他全部原始语句间相似度的最小值；

S650，对ZH_Zi对应的原始音频片段裁减掉ZH_Zi，且将裁减掉ZH_Zi后的原始音频片段与ZC_Zi对应的原始音频片段按照时间段顺序进行拼接，从而获取最终音频；

S660，对ZH_Zi对应的原始音频片段进行去噪声处理，且对ZH_Zi对应的去噪后的原始音频片段进行语义检测，获取第二语义检测值，其中，所述第二语义检测值是在基于去噪后的ZH_Zi对应的原始音频片段识别出的原始语句列表中，用于表示与其他全部原始语句间相似度的最小值；

2.根据权利要求1所述的音频拼接方法，其特征在于，获取第Zi个智能设备采集目标对象音频信息的时间段包括如下步骤：

S601，获取第Zi个智能设备的最大录音距离；

S602，获取第Zi个智能设备在最大录音距离时的视频帧，并基于所述视频帧获取目标比例Zp，所述目标比例Zp=ZS₂/ZS₁，ZS₁是第Zi个智能设备在最大录音距离时获取的视频帧包括的像素个数，ZS₂是第Zi个智能设备在最大录音距离时，视频帧中用于表征且包含目标对象的包围盒所包括的像素个数；

S603，基于目标比例Zp，获取第Zi个智能设备采集目标对象音频信息的时间段ZB_Zi=（Zt_Zi，1，Zt_Zi，2），其中，Zt_Zi，1是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最早时间，Zt_Zi，2是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最晚时间。

3.根据权利要求2所述的音频拼接方法，其特征在于，Zb_Zi的获取包括以下步骤：

S604，获取目标对象出现在第Zi+1个智能设备的时间段ZB_Zi+1=（Zt_Zi+1，1，Zt_Zi+1，2）；

S605，获取Zb_Zi=（Zt_Zi+1，1，Zt_Zi，2）。

4.根据权利要求1所述的音频拼接方法，其特征在于，S630中，将ZA_ZiZb_Zi进行噪声检测，获取ZA_ZiZb_Zi的噪音值包括如下步骤：

S631，将ZA_ZiZb_Zi输入神经网络模型；

S632，对ZA_ZiZb_Zi进行分帧处理；

S633，分别提取分帧后的ZA_ZiZb_Zi的GFCC特征和Gabor特征；

5.根据权利要求1所述的音频拼接方法，其特征在于，S640中将ZC_Zi对应的原始音频片段进行语义检测，获取第一语义检测值包括如下步骤：

S641，对ZC_Zi对应的原始音频片段进行语音识别，从而获取ZC_Zi对应的原始语句列表ZD_Zi={ZD_Zi1，ZD_Zi2，…，ZD_ZiZj，…，ZD_ZiZn}，ZD_ZiZj是ZC_Zi对应的第Zj条原始语句，Zj的取值范围是1到Zn，Zn是ZC_Zi对应的原始语句的数量；

S642，将ZD_Zi输入word2vec模型，获取ZC_Zi对应的原始词向量列表ZE_Zi={ZE_Zi1，ZE_Zi2，…，ZE_ZiZj，…，ZE_ZiZn}，ZE_ZiZj是ZD_ZiZj对应的原始词向量；

S643，获取ZE_ZiZj与其它原始词向量之间的原始相似度ZF_ZiZj，从而获取原始相似度列表ZF_Zi={ZF_Zi1，ZF_Zi2，…，ZF_ZiZj，…，ZF_ZiZn}；

6.根据权利要求1所述的音频拼接方法，其特征在于，S660中对ZH_Zi对应的原始音频片段进行去噪声处理至少包括使用线性滤波器对ZH_Zi对应的原始音频片段进行去噪声处理。

7.根据权利要求5所述的音频拼接方法，其特征在于，S643中获取ZE_ZiZj与其他原始词向量的原始相似度ZF_ZiZj包括如下步骤：

S6431，获取ZE_ZiZj和ZE_ZiZk的余弦相似度，从而获取ZE_ZiZj的余弦相似度列表，其中Zk≠Zj，且Zk的取值范围是1到Zn；

S6432，将余弦相似度列表的平均值作为原始相似度ZF_ZiZj。

8.根据权利要求7所述的音频拼接方法，其特征在于，将S6432替换为S6433，其中，S6433：将余弦相似度列表中的最小值作为原始相似度ZF_ZiZj。

9.一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的音频拼接方法。

10.一种电子设备，其特征在于，包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。