CN116364064B - 一种音频拼接方法、电子设备及存储介质 - Google Patents

一种音频拼接方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116364064B
CN116364064B CN202310565047.1A CN202310565047A CN116364064B CN 116364064 B CN116364064 B CN 116364064B CN 202310565047 A CN202310565047 A CN 202310565047A CN 116364064 B CN116364064 B CN 116364064B
Authority
CN
China
Prior art keywords
audio
original
zizj
list
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310565047.1A
Other languages
English (en)
Other versions
CN116364064A (zh
Inventor
李昌晋
曹喜信
曹昕妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202310565047.1A priority Critical patent/CN116364064B/zh
Publication of CN116364064A publication Critical patent/CN116364064A/zh
Application granted granted Critical
Publication of CN116364064B publication Critical patent/CN116364064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明提供了一种音频拼接方法、电子设备及存储介质,用于对依序安装在设定位置的Zm个智能设备获取目标对象的音频片段进行拼接,从而获得目标对象的最终音频,所述方法包括如下步骤:获取智能设备采集目标对象音频信息的时间段列表和对应的原始音频片段列表,获取第一重合音频片段和第二重合音频片段,进行噪声检测获取中间音频片段和备用音频片段,对中间音频片段对应的原始音频片段进行语义检测,当语义检测值大于第一预设阈值,将备用音频片段对应的原始音频片段裁剪,并和中间音频片段对应的原始音频片段进行拼接,从而获取最终音频,使得无重合的目标对象的最终音频更加完整,语义更通顺、清晰。

Description

一种音频拼接方法、电子设备及存储介质
技术领域
本发明涉及音频处理技术领域,特别是涉及一种音频拼接方法、电子设备及存储介质。
背景技术
在音频处理场景中,经常需要获取很多视频中属于某个目标对象的音频部分,并对该音频部分进行拼接,获取目标对象的完整音频,然而,在实际应用场景中,音频部分中音频信息会比较复杂,比如环境中的各种噪声等,现有技术中,获取针对目标对象的一段完整录音,往往在拼接时会出现重复片段,或有些音频片段噪声比较大甚至在去噪后仍有噪声,且在拼接后的音频中容易出现语义不清晰、语义上下矛盾等问题。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种音频拼接方法,用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤:
S610,获取智能设备采集目标对象音频信息的时间段列表ZB={ZB1,ZB2,…,ZBZi,…,ZBZm}和对应的原始音频片段列表ZA={ZA1,ZA2,…,ZAZi,…,ZAZm},其中,ZBZi是第Zi个智能设备采集目标对象音频信息的时间段,ZAZi是第Zi个智能设备获取的目标对象对应的原始音频片段,Zi的取值范围是1到Zm,且任意两个相邻的ZBi和ZBi+1有重合时间段ZbZi
S620,获取ZAZi在ZbZi时间段的第一重合音频片段ZAZiZbZi和ZAZi+1在ZbZi时间段的第二重合音频片段ZAZi+1ZbZi
S630,对ZAZiZbZi和ZAZi+1ZbZi进行噪声检测,获取ZAZiZbZi和ZAZi+1ZbZi的噪音值,当ZAZiZbZi的噪音值不大于ZAZi+1ZbZi中的噪音值时,将ZAZiZbZi作为中间音频片段ZCZi,ZAZi+ 1ZbZi作为备用音频片段ZHZi,否则,将ZAZi+1ZbZi作为中间音频片段ZCZi,将ZAZiZbZi作为备用音频片段ZHZi
S640,将ZCZi对应的原始音频片段进行语义检测获取第一语义检测值,当第一语义检测值大于第一预设阈值,执行S650,否则,执行S660,其中,所述第一语义检测值是在基于ZCZi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值。
S650,对ZHZi对应的原始音频片段裁减掉ZHZi,且将裁减掉ZHZi后的原始音频片段与ZCZi对应的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。
S660,对ZHZi对应的原始音频片段进行去噪声处理,且对ZHZi对应的去噪后的原始音频片段进行语义检测,获取第二语义检测值,其中,所述第二语义检测值是在基于去噪后的ZHZi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值。
S670,当第二语义检测值大于第一预设阈值,对ZCZi对应的原始音频片段裁减掉ZCZi,且将裁减掉ZCZi后的原始音频片段与ZHZi对应的去噪后的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。
本发明的另一方面还公开了一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如前所述的方法。
本发明的又一方面还公开了一种电子设备,包括处理器和如前所述的非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
基于上述,获取目标对象出现在智能设备的时间段列表和对应的原始音频列表,获取第一重合音频片段和第二重合音频片段,对第一重合音频片段和第二重合音频片段进行噪声检测,将噪音值较小的作为中间音频片段,噪音值较大的作为备用音频片段,对中间音频片段对应的原始音频片段进行语义检测,当第一语义检测值大于第一预设阈值,将中间音频片段对应的原始音频片段和备用音频片段对应的原始音频片段进行裁,剪按照时间段顺序进行拼接获取最终音频,当第一语义检测值不大于第一预设阈值,对备用音频片段对应的原始录音片段进行去噪处理,且对去噪后的ZHZi对应的原始音频片段进行语义检测,获取第二语义检测值,当第二语义检测值大于第一预设阈值,将备用音频片段对应的原始音频片段和中间音频片段对应的原始音频片段进行裁剪,之后拼接获取最终音频,本发明采用上述方法实现目标对象的最终音频完整,在拼接处连贯,且获取的最终音频噪声更小,语义更通顺、清晰。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频拼接方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供了一种音频拼接方法,用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤。
本领域技术人员可知,所述智能设备例如可以为具有录音功能的摄像头等,具体的,本申请不对智能设备的具体表现形式做限制,只要能够同时实现录音录像功能的设备,均在本申请的保护范围之内。
在一个示意性实施例中,本发明实施例提供的方法可应用于安保街道,所述安保街道依序在设定位置安装Zm个智能设备,且任意两个智能设备对应的设定位置不同,Zm个智能设备实现同步录音录像,且相邻两个智能设备安装的位置在录音录像上均有重合部分。
具体的,如图1所示,所述方法包括如下步骤:
S610,获取智能设备采集目标对象音频信息的时间段列表ZB={ZB1,ZB2,…,ZBZi,…,ZBZm}和对应的原始音频片段列表ZA={ZA1,ZA2,…,ZAZi,…,ZAZm},其中,ZBZi是第Zi个智能设备采集目标对象音频信息的时间段,ZAZi是第Zi个智能设备获取的目标对象对应的原始音频片段,Zi的取值范围是1到Zm,且任意两个相邻的ZBZi和ZBZi+1有重合时间段ZbZi
可以理解为,原始音频片段ZAZi是第Zi个智能设备在时间段ZBZi内获取的关于目标对象的音频信息,原始音频片段ZAZi+1是第Zi+1个智能设备在时间段ZBZi+1内获取的关于目标对象的音频信息,且ZBZi和ZBZi+1有重合时间段ZbZi,所以在时间段ZbZi内可获得第Zi个智能设备的部分音频信息和第Zi+1个智能设备的部分音频信息。
S620,获取ZAZi在ZbZi时间段的第一重合音频片段ZAZiZbZi和ZAZi+1在ZbZi时间段的第二重合音频片段ZAZi+1ZbZi
具体的,S620包括:
S6201,使用裁剪工具对ZAZi在ZbZi时间段的音频进行裁剪,从而获取第一重合音频片段ZAZiZbZi
S6202,使用裁剪工具对ZAZi+1在ZbZi时间段的音频进行裁剪,从而获取第二重合音频片段ZAZi+1ZbZi
进一步的,本领域技术人员知晓,现有技术中的任何一款裁剪工具均属于本发明保护范围。
S630,将ZAZiZbZi和ZAZi+1ZbZi进行噪声检测,获取ZAZiZbZi和ZAZi+1ZbZi的噪音值,当ZAZiZbZi的噪音值不大于ZAZi+1ZbZi中的噪音值时,将ZAZiZbZi作为中间音频片段ZCZi,ZAZi+ 1ZbZi作为备用音频片段ZHZi,否则,将ZAZi+1ZbZi作为中间音频片段ZCZi,将ZAZiZbZi作为备用音频片段ZHZi
具体的,S630中,将ZAZiZbZi进行噪声检测,获取ZAZiZbZi的噪音值包括如下步骤:
S631,将ZAZiZbZi输入神经网络模型。
S632,对ZAZiZbZi进行分帧处理。
具体的,本领域技术人员知晓,现有技术中任何一种对音频进行分帧处理的方法均属于本发明保护范围,此处不再赘述。
S633,分别提取分帧后的ZAZiZbZi的GFCC特征和Gabor特征。
具体的,GFCC是基于FFT的特征提取技术,采用Gammatone滤波器组和等效矩形带宽(ERB)比例,具有更好的识别率和鲁棒性;GFCC特征的提取步骤属于现有技术,具体可以包括:将分帧后的语音信号依次执行信号预加重、信号加窗、DFT、Gammatone滤波、立方根压缩、DCT变换等处理,从而输出GFCC倒谱系数特征。
具体的,Gabor是一个用于边缘提取的线性滤波器,能够提供良好的方向选择和尺度选择特性,用于提高噪声识别的鲁棒性。Gabor特征的提取步骤同样属于现有技术,具体可以包括:将分帧后的语音信号预加重,加窗处理,然后输入二维的Gabor滤波器,从而得到Gabor特征。
S634,将提取到的所述GFCC特征和Gabor特征依次输入神经网络模型,得到ZAZiZbZi的噪音值。
具体的,输入的GFCC特征和Gabor特征为矩阵的形式,神经网络模型输出的是语音信号包含噪声的概率值,即噪音值。
进一步的,通过S631到S634对ZAZi+1ZbZi进行噪声检测,获取ZAZi+1ZbZi的噪音值。
S640,将ZCZi对应的原始音频片段进行语义检测获取第一语义检测值,当第一语义检测值大于第一预设阈值,执行S650,否则,执行S660,其中,所述第一语义检测值是在基于ZCZi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值。
其中,所述第一预设阈值可根据实际情况确定。
具体的,S640中对ZCZi对应的原始音频片段进行语义检测获取第一语义检测值包括如下步骤:
S641,对ZCZi对应的原始音频片段进行语音识别,从而获取ZCZi对应的原始语句列表ZDZi={ZDZi1,ZDZi2,…,ZDZiZj,…,ZDZiZn},ZDZiZj是ZCZi对应的第Zj条原始语句,Zj的取值范围是1到Zn,Zn是ZCZi对应的原始语句的数量。
具体的,本领域技术人员知晓,现有技术中任何一种对音频进行识别获取语句的方法均属于本发明保护范围,此处不再赘述。
S642,将ZDZi输入word2vec模型,获取ZCZi对应的原始词向量列表ZEZi={ZEZi1,ZEZi2,…,ZEZiZj,…,ZEZiZn},ZEZiZj是ZDZiZj对应的原始词向量。
具体的,本领域技术人员知晓,现有技术中任何一种将语句输入word2vec模型获取词向量的方法均属于本发明那个保护范围,此处不再赘述。
S643,获取ZEZiZj与其它原始词向量之间的原始相似度ZFZiZj,从而获取原始相似度列表ZFZi={ZFZi1,ZFZi2,…,ZFZiZj,…,ZFZiZn}。
具体的,S643中获取ZEZiZj与其他原始词向量的原始相似度ZFZiZj包括如下步骤:
S6431,获取ZEZiZj和ZEZiZk的余弦相似度,从而获取ZEZiZj的余弦相似度列表,其中Zk≠Zj,且Zk的取值范围是1到Zn。
S6432,将余弦相似度列表的平均值作为原始相似度ZFZiZj
在本发明另一实施例中,S6432替换为S6433,其中,S6433:将余弦相似度列表中的最小值作为原始相似度ZFZiZj
S644,将ZFZi0作为第一语义检测值,其中,ZFZi0=min{ZFZi1,ZFZi2,…,ZFZiZj,…,ZFZiZn}。
基于上述,对ZCZi对应的原始音频片段进行语音识别,获取ZCZi对应的原始语句列表,将原始语句列表输入word2vec模型,获取每一原始语句对应的原始词向量,获取任一原始词向量与其它原始词向量之间的原始相似度,并将原始相似度列表中的最小原始相似度作为语义检测值,可以理解为,将最小原始相似度作为语义检测值,保证语音识别的准确性,并在原始音频片段不清晰或语音识别不准确时,可以快速知晓问题。
S650,对ZHZi对应的原始音频片段裁减掉ZHZi,且将裁减掉ZHZi后的原始音频片段与ZCZi对应的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。
具体的,本领域技术人员知晓,现有技术中任何一种对音频进行拼接的方法均属于本发明保护范围,此处不再赘述。
S660,对ZHZi对应的原始音频片段进行去噪声处理,且对ZHZi对应的去噪后的原始音频片段进行语义检测,获取第二语义检测值,其中,所述第二语义检测值是在基于去噪后的ZHZi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值。
具体的,S660中对ZHZi对应的原始音频片段进行去噪声处理至少包括使用线性滤波器对ZHZi对应的原始音频片段进行去噪声处理。
在本发明一实施例中,使用CN109658943A中一种基于GRU神经网络的去除噪声方法及系统对ZHZi对应的原始音频片段进行去噪声处理。
具体的,通过S64-S644的方法对去噪后的ZHZi对应的原始音频片段进行语义检测,获取第二语义检测值。
S670,当第二语义检测值大于第一预设阈值,对ZCZi对应的原始音频片段裁减掉ZCZi,且将裁减掉ZCZi后的原始音频片段与ZHZi对应的去噪后的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。
基于上述,获取目标对象出现在智能设备的时间段列表和对应的原始音频列表,获取第一重合音频片段和第二重合音频片段,对第一重合音频片段和第二重合音频片段进行噪声检测,将噪音值较小的作为中间音频片段,噪音值较大的作为备用音频片段,对中间音频片段对应的原始音频片段进行语义检测,当第一语义检测值大于第一预设阈值,将中间音频片段对应的原始音频片段和备用音频片段对应的原始音频片段进行裁剪按照时间段顺序进行拼接获取最终音频,当第一语义检测值不大于第一预设阈值,对备用音频片段对应的原始录音片段进行去噪处理,且对去噪后的ZHZi对应的原始音频片段进行语义检测,获取第二语义检测值,当第二语义检测值大于第一预设阈值,将备用音频片段对应的原始音频片段和中间音频片段对应的原始音频片段进行裁剪,之后拼接获取最终音频,本发明采用上述方法实现目标对象的最终音频完整,在拼接处连贯,且获取的最终音频噪声更小,语义更通顺、清晰。
进一步的,获取第Zi个智能设备采集目标对象音频信息的时间段包括如下步骤:
S601,获取第Zi个智能设备的最大录音距离。
具体的,根据智能设备的型号等信息确定智能设备的最大录音距离。
在本发明另一个实施例中,最大录音距离根据实际情况人为确定。
S602,获取第Zi个智能设备在最大录音距离时的视频帧,并基于所述视频帧获取目标比例Zp,所述目标比例Zp=ZS2/ZS1,ZS1是第Zi个智能设备在最大录音距离时获取的视频帧包括的像素个数,ZS2是第Zi个智能设备在最大录音距离时,视频帧中用于表征且包含目标对象的包围盒所包括的像素个数。
其中,所述目标比例是目标对象的包围盒和整个视频帧的面积比,本领域技术人员知晓,现有技术中任何一种获取目标对象包围盒的方法,均属于本发明保护范围,此处不再赘述。
S603基于目标比例Zp,获取第Zi个智能设备采集目标对象音频信息的时间段ZBZi=(ZtZi,1,ZtZi,2),其中,ZtZi,1是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最早时间,ZtZi,2是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最晚时间。
更进一步的,ZbZi的获取包括以下步骤:
S604,获取目标对象出现在第Zi+1个智能设备的时间段ZBZi+1=(ZtZi+1,1,ZtZi+1,2)。
S605,获取ZbZi=(ZtZi+1,1,ZtZi,2)。
基于上述,获取智能设备的最大录音距离,并获取在最大录音距离时目标对象的包围盒在整个视频帧中的目标比例,根据目标比例,获取目标对象在第Zi个智能设备上出现的最早时间和最晚时间,从而获取预设时间列表,通过视频帧中目标比例的方法找到目标对象出现的最早时间和最晚时间,实现自动化确定时间,更为精准且提高了效率。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实施例中的一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,包括程序代码。当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述的根据本发明各种示例性实施方式中的步骤。
进一步的,本发明还包括,在获取智能设备的视频帧后,执行如下步骤:
S100、获取预设时间段T内的初始视频数据列表B={B1,B2,……,Bj,……,Bn},其中,Bj为第j个视频数据采集端对应的初始视频数据,j=1,2……n,n为视频数据采集端数量,视频数据采集端可以理解为摄像机。
具体地,每一视频数据采集端的焦距均不一致,可以满足各种范围内的视频数据采集需求。
具体地,预设时间段的取值范围为10min-30min,其中,本领域技术人员可根据实际需求设置预设时间段的取值。
S200、根据B,获取目标对象列表A={A1,A2,……,Ai,……,Am},Ai为第i个目标对象,i=1,2……m,m为目标对象数量。
具体地,在S200步骤中包括如下步骤:
S201、根据B,获取B对应的第一图像列表E={E1,E2,……,Ej,……,En},Ej为Bj对应的第一图像,其中,第一图像为初始视频数据中的最后一帧图像,本领域技术人员知晓,现有技术中任一从视频中获取一帧图像的方法,均属于本发明的保护范围,在此不再赘述。
S202、根据E,获取E对应的像素点数量列表E0={E0 1,E0 2,……,E0 j,……,E0 n},E0 j为Ej对应的像素点数量。
S203、根据E,获取E对应的图像噪声数量列表E1={E1 1,E1 2,……,E1 j,……,E1 n},E1 j为Ej对应的图像噪声数量。
S204、根据E0和E1,获取E对应的图像清晰度列表E2={E2 1,E2 2,……,E2 j,……,E2 n},E2 j为Ej对应的图像清晰度,其中,E2 j符合如下条件:
E2 j=(E0 j-E1 j)/E0 j
S205、根据E2,获取第二图像,其中,第二图像为E2中最大的数据项对应的E中数据项。
S206、将第二图像输入至预设图像识别模型中,获取A,本领域技术人员知晓,现有技术中任一能够识别对象的图像识别模型均属于本发明的保护范围,在此不再赘述。
上述,获取每一初始视频数据中的第一图像的图像清晰度,对第一图像的清晰度进行对比,选取出最清晰的第一图像作为第二图像,根据第二图像,可以精准并清晰地获取到每一目标对象,对目标对象进行处理,获取目标对象对应的第一特征向量,进一步地获取目标对象对应的目标视频数据,有利于提高获取目标视频数据的准确度。
S300、对B进行处理,获取B对应的第二视频数据DE。
具体地,在S300步骤中包括如下步骤:
S301、根据B,获取B对应的第三图像列表F={F1,F2,……,Fj,……,Fn},Fj为Bj对应的第三图像,其中,第三图像为初始视频数据中任一一帧图像。
S302、根据F,获取F对应的第一距离列表L={L1,L2,……,Lj,……,Ln},Lj为Fj对应的第一距离。
具体地,在S302步骤中还包括如下步骤:
S3021、将Fj输入至预设图像特征提取模型中,获取Fj对应的第一图像特征F0 j,本领域技术人员知晓,现有技术中任一能够获取图像特征的图像特征提取模型均属于本发明的保护范围,在此不再赘述。
S3022、获取预设距离映射列表YS={YS1,YS2,……,YSe,……,YSf},YSe=(YSe1,YSe2),YSe1为预设距离映射列表中第e个记录中的预设图像特征,YSe2为YSe1对应的第二距离,e=1,2……f,f为预设距离映射列表中的记录数量,其中,预设图像特征为本领域技术人员根据实际需求预先设置好的图像特征,第二距离为本领域技术人员根据实际需求以及预设图像特征设置的视频数据采集端能够采集到的最远距离。
S3023、根据F0 j和YSe1,获取F0 j与YSe1的特征相似度XSje,本领域技术人员知晓,现有技术中任一获取两个图像特征之间的特征相似度的方法均属于本发明的保护范围,在此不再赘述。
S3024、当XSje=1时,确定YSe2为Lj
上述,通过预设距离映射列表,获取每一初始视频数据对应的第一距离,对第一距离进行排序处理,获取中间视频数据列表,进一步地,可以精准地获取到中间视频数据列表和第二视频数据,对第二视频数据进行处理,有利于提高获取目标视频数据的准确度。
S303、按照Lj从大到小顺序对Bj进行排序,获取中间视频数据列表B0={B0 1,B0 2,……,B0 j,……,B0 n},B0 j是第j个中间视频数据;可以理解为:将最大的Lj对应的Bj作为B0 1,将第二大的Lj对应的Bj作为B0 2,将第三大的Lj对应的Bj作为B0 3,……,将最小的Lj对应的Bj作为B0 n
S304、根据T和B0,获取关键视频数据GJ。
具体地,在S304步骤中包括如下步骤:
S3041、根据T和n,获取第一间隔时长t,其中,t符合如下条件:
t=T×60/n。
S3042、根据B0和t,获取B0对应的第一视频数据时间点列表B1={B1 1,B1 2,……,B1 j,……,B1 n},B1 j=(B1 j1,B1 j2),B1 j1为B0 j对应的第一个第一视频数据时间点,B1 j2为B0 j对应的第二个第一视频数据时间点,其中,B1 j1和B1 j2符合如下条件:
B1 j2=B1 j1+t-1,其中,当j≠1时,B1 j1=t×(j-1)+1;当j=1时,B1 j1=0。
具体地,B1 j1和B1 j2的单位为秒。
S3043、获取B0 j中属于[B1 j1,B1 j2]的中间视频数据作为B0 j对应的第一视频数据B2 j,本领域技术人员知晓,现有技术中任一从视频数据中获取视频数据的方法均属于本发明的保护范围,在此不再赘述。
S3044、将所有的B2 j按照顺序拼接在一起,获取GJ;可以理解为:将B2 2拼接在B2 1之后,将B2 3拼接在B2 2之后,……,将B2 n拼接在B2 n-1之后,本领域技术人员知晓,现有技术中任一将视频数据拼接在一起的方法均属于本发明的保护范围,在此不再赘述。
上述,对中间视频数据进行处理,精准获取每一中间视频数据对应的第一视频数据时间点列表,从而可以精准获取到第一视频数据列表,将第一视频数据按照顺序拼接在一起形成关键视频数据,通过对关键视频数据处理,能够精准获取到第二视频数据,从而有利于提高获取目标视频数据的准确度。
S305、对GJ进行噪声处理,获取DE,本领域技术人员知晓,现有技术中任一对视频进行噪声处理的方法,均属于本发明的保护范围,在此不再赘述。
上述,对初始视频数据进行处理,获取关键视频数据,进一步地对关键视频进行噪声处理,可以获取到精准且清晰的第二视频数据,从而对第二视频数据进行处理,有利于提高获取目标视频数据的准确度。
S400、根据DE,获取DE对应的中间图像列表C={C1,C2,……,Cr,……,Cs},Cr为DE中第r帧中间图像,r=1,2……s,s为DE对应的中间图像数量,其中,中间图像为第二视频数据中的图像,DE对应的第r帧中间图像可以理解为DE中的第r帧图像。
具体地,s符合如下条件:
s=T×60×a,a为DE中每一秒的帧数。
S500、根据A和C,获取A对应的目标视频数据列表D={D1,D2,……,Di,……,Dm},Di为Ai对应的目标视频数据。
具体地,在S500步骤中包括如下步骤:
S501、将Ai输入到预设图像特征向量提取模型中,获取Ai对应的第一特征向量列表Gi={Gi1,Gi2,……,Gix,……,Gip},Gix为Ai对应的第x个特征向量,x=1,2……p,p为特征向量的数量,本领域技术人员知晓,现有技术中任一能够获取图像特征向量的图像特征向量提取模型,均属于本发明的保护范围,在此不再赘述。
S502、根据C,获取在C中Ai对应的第一对象列表Hi={Hi s,Hi s-1,……,Hi r},Hi r={Hi r1,Hi r2,……,Hi ry,……,Hi rq(r)},Hi ry为在Cr中Ai对应的第y个第一对象,y=1,2……q(r),q(r)为Cr中第一对象数量,其中,本领域技术人员知晓,获取第一对象的方法参照获取目标对象的方法,在此不再赘述。
S503、根据Gi和Hi ry,获取Hi对应的第二对象列表Ui={Ui s,Ui s-1,……,Ui r},Ui r为Hi r对应的第二对象。
具体地,在S503步骤中包括如下步骤:
S5031、将Hi ry输入到预设图像特征向量提取模型中,获取Hi ry对应的第二特征向量列表Qi ry={Qi1 ry,Qi2 ry,……,Qix ry,……,Qip ry},Qix ry为Hi ry对应的第x个第二特征向量。
S5032、当r=s时,根据Gi和Qi ry,获取Ui r
具体地,在S5032步骤中包括如下步骤:
S1、根据Gi和Qi ry,获取Ai与Hi ry之间的第一特征向量相似度列表Wi ry={Wi1 ry,Wi2 ry,……,Wix ry,……,Wip ry},Wix ry为Gix与Qix ry之间的特征向量相似度,其中,本领域技术人员知晓,获取特征向量相似度的方法参照获取特征相似度的方法,在此不再赘述。
S2、根据Wix ry,获取Ai与Hi r之间的第二特征向量相似度列表TZi r={TZi r1,TZi r2,……,TZi ry,……,TZi rq(r)},TZi ry为Ai与Hi ry之间的第二特征向量相似度,其中,TZi ry符合如下条件:
TZi ry=∑p x=1(Wix ry)/Wi0 ry,Wi0 ry为Wi ry中Wix ry的值不为0的数量。
S3、当TZi r中最大的TZi ry的数值不为0且TZi r中最大的TZi ry的数值对应的数量等于1时,确定最大的TZi ry对应的Hi ry为Ui r
S4、当TZi r中最大的TZi ry的数值不为0且TZi r中最大的TZi ry的数值对应的数量大于1时,将r+1对应的取值作为结束。
S5、当TZi ry均为0时,更新B1,执行S3042步骤。
具体地,在S5步骤中包括如下步骤:
S51、获取关键时间点SJ,SJ符合如下条件:
S52、当SJ∈[B1 j1,B1 j2]时,确定B1 (j-1)2=SJ,B1 j1=SJ+1。
S5033、当r≠s时,根据Ui r+1和Qi ry,获取Ui r
具体地,在S5053步骤中包括如下步骤:
S10、获取Ui r+1对应的第二特征向量列表。
S20、根据Ui r+1对应的第二特征向量列表和Qi ry,获取Ui r,其中,本领域技术人员知晓,根据Ui r+1对应的第二特征向量列表和Qi ry,获取Ui r的方法,参照根据S1步骤-S5步骤,在此不在赘述。
上述,根据目标对象的特征向量,对第二视频数据中的每一帧图像进行处理,可以精准获取到每一帧中目标对象对应的第二对象,其中,当无法精准判断出第二对象时,停止获取,当不存在第二对象时,更新第一视频数据时间点列表,重新获取第二对象,减小了获取第二对象的误差,对第二对象进行处理,有利于提高获取目标视频数据的准确度。
S504、根据Ui,获取Ui对应的目标图像列表Vi={Vi r,Vi r+1,……,Vi s},Vi r为Ui r对应的目标图像,其中,目标图像为中间图像中只包括第二对象的图像,本领域技术人员知晓,现有技术中任一从图像中获取一部分图像的方法均属于本发明的保护范围,在此不再赘述。
S505、将所有的Vi r按照顺序拼接在一起,获取Di,可以理解为,将Vi r+1拼接在Vi r之后。
上述,从中间图像中获取只包括第二对象的图像作为目标图像,将目标图像按照顺序拼接成为目标视频数据,有利于提高获取目标视频数据的准确度。
综上,获取预设时间段内的初始视频数据列表;获取目标对象列表;获取第二视频数据;获取中间图像列表获取目标视频数据列表。可知本发明,基于初始视频数据,获取目标对象对应的第二视频数据,并根据目标对象的特征向量,对第二视频数据中的每一帧图像进行处理,精准获取到每一帧中目标对象对应的目标图像,将目标对象对应的目标图像组成目标对象对应的目标视频数据,减小了获取目标视频数据的误差,从而有利于提高获取目标视频数据的准确度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (10)

1.一种音频拼接方法,其特征在于,用于对依序安装在设定位置的Zm个智能设备获取目标对象的原始音频片段进行拼接,从而获得目标对象的最终音频,其中,所述智能设备能够实现同步录音录像,且任意两个智能设备对应的设定位置不同,所述方法包括如下步骤:
S610,获取智能设备采集目标对象音频信息的时间段列表ZB={ZB1,ZB2,…,ZBZi,…,ZBZm}和对应的原始音频片段列表ZA={ZA1,ZA2,…,ZAZi,…,ZAZm},其中,ZBZi是第Zi个智能设备采集目标对象音频信息的时间段,ZAZi是第Zi个智能设备获取的目标对象对应的原始音频片段,Zi的取值范围是1到Zm,且任意两个相邻的ZBZi和ZBZi+1有重合时间段ZbZi
S620,获取ZAZi在ZbZi时间段的第一重合音频片段ZAZiZbZi和ZAZi+1在ZbZi时间段的第二重合音频片段ZAZi+1ZbZi
S630,将ZAZiZbZi和ZAZi+1ZbZi进行噪声检测,获取ZAZiZbZi和ZAZi+1ZbZi的噪音值,当ZAZiZbZi的噪音值不大于ZAZi+1ZbZi中的噪音值时,将ZAZiZbZi作为中间音频片段ZCZi,ZAZi+ 1ZbZi作为备用音频片段ZHZi,否则,将ZAZi+1ZbZi作为中间音频片段ZCZi,将ZAZiZbZi作为备用音频片段ZHZi
S640,将ZCZi对应的原始音频片段进行语义检测获取第一语义检测值,且当第一语义检测值大于第一预设阈值,执行S650,否则,执行S660,其中,所述第一语义检测值是在基于ZCZi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值;
S650,对ZHZi对应的原始音频片段裁减掉ZHZi,且将裁减掉ZHZi后的原始音频片段与ZCZi对应的原始音频片段按照时间段顺序进行拼接,从而获取最终音频;
S660,对ZHZi对应的原始音频片段进行去噪声处理,且对ZHZi对应的去噪后的原始音频片段进行语义检测,获取第二语义检测值,其中,所述第二语义检测值是在基于去噪后的ZHZi对应的原始音频片段识别出的原始语句列表中,用于表示与其他全部原始语句间相似度的最小值;
S670,当第二语义检测值大于第一预设阈值,对ZCZi对应的原始音频片段裁减掉ZCZi,且将裁减掉ZCZi后的原始音频片段与ZHZi对应的去噪后的原始音频片段按照时间段顺序进行拼接,从而获取最终音频。
2.根据权利要求1所述的音频拼接方法,其特征在于,获取第Zi个智能设备采集目标对象音频信息的时间段包括如下步骤:
S601,获取第Zi个智能设备的最大录音距离;
S602,获取第Zi个智能设备在最大录音距离时的视频帧,并基于所述视频帧获取目标比例Zp,所述目标比例Zp=ZS2/ZS1,ZS1是第Zi个智能设备在最大录音距离时获取的视频帧包括的像素个数,ZS2是第Zi个智能设备在最大录音距离时,视频帧中用于表征且包含目标对象的包围盒所包括的像素个数;
S603,基于目标比例Zp,获取第Zi个智能设备采集目标对象音频信息的时间段ZBZi=(ZtZi,1,ZtZi,2),其中,ZtZi,1是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最早时间,ZtZi,2是目标对象的包围盒在第Zi个智能设备的视频帧中的比例满足目标比例Zp的最晚时间。
3.根据权利要求2所述的音频拼接方法,其特征在于,ZbZi的获取包括以下步骤:
S604,获取目标对象出现在第Zi+1个智能设备的时间段ZBZi+1=(ZtZi+1,1,ZtZi+1,2);
S605,获取ZbZi=(ZtZi+1,1,ZtZi,2)。
4.根据权利要求1所述的音频拼接方法,其特征在于,S630中,将ZAZiZbZi进行噪声检测,获取ZAZiZbZi的噪音值包括如下步骤:
S631,将ZAZiZbZi输入神经网络模型;
S632,对ZAZiZbZi进行分帧处理;
S633,分别提取分帧后的ZAZiZbZi的GFCC特征和Gabor特征;
S634,将提取到的所述GFCC特征和Gabor特征依次输入神经网络模型,得到ZAZiZbZi的噪音值。
5.根据权利要求1所述的音频拼接方法,其特征在于,S640中将ZCZi对应的原始音频片段进行语义检测,获取第一语义检测值包括如下步骤:
S641,对ZCZi对应的原始音频片段进行语音识别,从而获取ZCZi对应的原始语句列表ZDZi={ZDZi1,ZDZi2,…,ZDZiZj,…,ZDZiZn},ZDZiZj是ZCZi对应的第Zj条原始语句,Zj的取值范围是1到Zn,Zn是ZCZi对应的原始语句的数量;
S642,将ZDZi输入word2vec模型,获取ZCZi对应的原始词向量列表ZEZi={ZEZi1,ZEZi2,…,ZEZiZj,…,ZEZiZn},ZEZiZj是ZDZiZj对应的原始词向量;
S643,获取ZEZiZj与其它原始词向量之间的原始相似度ZFZiZj,从而获取原始相似度列表ZFZi={ZFZi1,ZFZi2,…,ZFZiZj,…,ZFZiZn};
S644,将ZFZi0作为第一语义检测值,其中,ZFZi0=min{ZFZi1,ZFZi2,…,ZFZiZj,…,ZFZiZn}。
6.根据权利要求1所述的音频拼接方法,其特征在于,S660中对ZHZi对应的原始音频片段进行去噪声处理至少包括使用线性滤波器对ZHZi对应的原始音频片段进行去噪声处理。
7.根据权利要求5所述的音频拼接方法,其特征在于,S643中获取ZEZiZj与其他原始词向量的原始相似度ZFZiZj包括如下步骤:
S6431,获取ZEZiZj和ZEZiZk的余弦相似度,从而获取ZEZiZj的余弦相似度列表,其中Zk≠Zj,且Zk的取值范围是1到Zn;
S6432,将余弦相似度列表的平均值作为原始相似度ZFZiZj
8.根据权利要求7所述的音频拼接方法,其特征在于,将S6432替换为S6433,其中,S6433:将余弦相似度列表中的最小值作为原始相似度ZFZiZj
9.一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的音频拼接方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。
CN202310565047.1A 2023-05-19 2023-05-19 一种音频拼接方法、电子设备及存储介质 Active CN116364064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310565047.1A CN116364064B (zh) 2023-05-19 2023-05-19 一种音频拼接方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310565047.1A CN116364064B (zh) 2023-05-19 2023-05-19 一种音频拼接方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116364064A CN116364064A (zh) 2023-06-30
CN116364064B true CN116364064B (zh) 2023-07-28

Family

ID=86909987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310565047.1A Active CN116364064B (zh) 2023-05-19 2023-05-19 一种音频拼接方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116364064B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541764B (zh) * 2024-01-09 2024-04-05 北京大学 一种图像拼接方法、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014955A1 (en) * 1997-09-12 1999-03-25 Imedia Corporation Seamless splicing of compressed video programs
CN112382310A (zh) * 2020-11-12 2021-02-19 北京猿力未来科技有限公司 一种人声音频录制方法和装置
CN112614514A (zh) * 2020-12-15 2021-04-06 科大讯飞股份有限公司 有效语音片段检测方法、相关设备及可读存储介质
CN114783408A (zh) * 2022-03-31 2022-07-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、计算机设备以及介质
CN115329125A (zh) * 2022-08-10 2022-11-11 成都开心音符科技有限公司 一种歌曲串烧拼接方法和装置
CN115941869A (zh) * 2022-11-29 2023-04-07 南京伟柏软件技术有限公司 音频处理方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102485626B1 (ko) * 2017-03-27 2023-01-09 스냅 인코포레이티드 스티칭된 데이터 스트림 생성

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014955A1 (en) * 1997-09-12 1999-03-25 Imedia Corporation Seamless splicing of compressed video programs
CN112382310A (zh) * 2020-11-12 2021-02-19 北京猿力未来科技有限公司 一种人声音频录制方法和装置
CN112614514A (zh) * 2020-12-15 2021-04-06 科大讯飞股份有限公司 有效语音片段检测方法、相关设备及可读存储介质
CN114783408A (zh) * 2022-03-31 2022-07-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、计算机设备以及介质
CN115329125A (zh) * 2022-08-10 2022-11-11 成都开心音符科技有限公司 一种歌曲串烧拼接方法和装置
CN115941869A (zh) * 2022-11-29 2023-04-07 南京伟柏软件技术有限公司 音频处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN116364064A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN110705405B (zh) 目标标注的方法及装置
US8971641B2 (en) Spatial image index and associated updating functionality
CN110348393B (zh) 车辆特征提取模型训练方法、车辆识别方法及设备
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN110555405B (zh) 目标跟踪方法及装置、存储介质和电子设备
CN110660102B (zh) 基于人工智能的说话人识别方法及装置、系统
CN112989962B (zh) 轨迹生成方法、装置、电子设备及存储介质
CN116364064B (zh) 一种音频拼接方法、电子设备及存储介质
CN111784776A (zh) 视觉定位方法及装置、计算机可读介质和电子设备
CN111415364A (zh) 一种计算机视觉中图像分割样本的转换方法、系统及存储介质
CN115294420A (zh) 一种特征提取模型的训练方法、重识别方法及装置
CN116304179B (zh) 一种获取目标视频的数据处理系统
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
CN114819110B (zh) 一种实时识别视频中说话人的方法及装置
CN116091781A (zh) 一种用于图像识别的数据处理方法及装置
CN113255549B (zh) 一种狼群围猎行为状态智能识别方法及系统
CN115359091A (zh) 一种用于移动机器人的装甲板检测跟踪方法
CN113158773B (zh) 一种活体检测模型的训练方法及训练装置
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质
CN110163043B (zh) 面部检测方法、装置、存储介质及电子装置
CN112333182A (zh) 档案处理方法、装置、服务器及存储介质
CN113129332A (zh) 执行目标对象跟踪的方法和装置
CN114299944B (zh) 视频处理方法、系统、装置及存储介质
CN110633663B (zh) 一种手语视频中自动裁剪多模态数据的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant