CN111128253B - 音频剪辑方法及装置 - Google Patents

音频剪辑方法及装置 Download PDF

Info

Publication number
CN111128253B
CN111128253B CN201911286385.1A CN201911286385A CN111128253B CN 111128253 B CN111128253 B CN 111128253B CN 201911286385 A CN201911286385 A CN 201911286385A CN 111128253 B CN111128253 B CN 111128253B
Authority
CN
China
Prior art keywords
audio
target sound
threshold
mute
decibel value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911286385.1A
Other languages
English (en)
Other versions
CN111128253A (zh
Inventor
孙云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Technology Wuhan Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Priority to CN201911286385.1A priority Critical patent/CN111128253B/zh
Publication of CN111128253A publication Critical patent/CN111128253A/zh
Application granted granted Critical
Publication of CN111128253B publication Critical patent/CN111128253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开是关于一种音频剪辑方法及装置、电子设备和计算机可读存储介质。其中,音频剪辑方法包括:接收录音音频;基于录音音频中的目标声音分贝值,确定对应的静音阈值;将录音音频中分贝值低于所述静音阈值的音频片段进行删除,得到有效录音音频文件。通过音频文件中的目标声音确定对应的静音阈值,根据不同场景调整静音消除的阈值,进一步得到有效的录音文件,从而更加准确定位出音频中的静音区间,提高了静音消除的准确性,提升用户体验。

Description

音频剪辑方法及装置
技术领域
本公开涉及音频处理技术领域,尤其涉及一种音频剪辑方法及装置、电子设备和计算机可读存储介质。
背景技术
随着智能手机、录音设备的发展,在日常工作和生活中,录音已越来越便捷,可应用于不同场景中,例如电话录音、会议录音、演讲录音等等。用户使用录音设备通常用于录制目标声音,包括人声、动物声等,但多数场景下,如果录制的音频时间较长,往往录制的音频文件会有很长时间的静音期,观察录音文件的波形图,只有一少部分才有录制的音频波形。在监控录音中,静音期过长的问题更加明显,导致无效录音部分占用存储空间大,录音文件中有效信息稀疏,用户难以快速定位至有声音的部分。
为了可以使用户快速的定位有声音的那部分,目前常用的做法包括:手动将静音的部分删除,非常耗费人力;或者设定一个预设值,将低于预设值的音频全部删除,这种做法会导致在某些场景下静音消除失效,并且会消除掉语音片段中应该有的停顿。
发明内容
为克服相关技术中存在的问题,本公开提供一种音频剪辑方法及装置、电子设备和计算机可读存储介质。
根据本公开实施例的第一方面,提供一种音频剪辑方法,方法包括:接收录音音频;基于录音音频中的目标声音分贝值,确定对应的静音阈值;将录音音频中分贝值低于静音阈值的音频片段进行删除,得到有效录音音频文件。
在一实施例中,方法还包括:基于录音音频,通过识别模型,确定录音音频中的目标声音区间;基于目标声音区间,确定目标声音分贝值。
在一实施例中,基于目标声音区间,确定目标声音分贝值,包括:基于录音音频中全部目标声音区间中的平均分贝值,确定目标声音分贝值。
在一实施例中,基于录音音频,通过识别模型,确定录音音频中的目标声音区间包括:基于录音音频的样本音频文件,将大于目标声音阈值的声音区间作为目标声音区间;或基于录音音频的样本音频文件,通过声纹识别,确定样本音频文件中的目标声音区间。
在一实施例中,样本音频文件包括:全部录音音频、部分录音音频或采样录音音频的一种。
在一实施例中,基于录音音频中的目标声音分贝值,确定对应的静音阈值包括:获取多种场景下的样本录音音频;根据场景,确定样本录音音频的静音区间与目标声音区间;根据静音区间与目标声音区间的分贝值,确定每个场景中目标声音分贝值对应的静音阈值。
在一实施例中,场景包括室内、室外和野外。
在一实施例中,基于录音音频中的目标声音分贝值,确定对应的静音阈值包括:基于目标声音分贝值,根据静音比例计算录音音频对应的静音阈值。
在一实施例中,将录音音频中分贝值低于静音阈值的音频片段进行删除,得到有效录音音频文件,包括:根据静音阈值对录音音频进行分割处理,得到多个音频片段;删除分贝值低于静音阈值的音频片段;将剩余音频片段按时间序列拼接合成,得到有效录音音频文件。
在一实施例中,删除分贝值低于静音阈值的音频片段包括:基于时长阈值,判断分贝值低于静音阈值的音频片段的时长是否大于时长阈值,若大于时长阈值,则将分贝值低于静音阈值的音频片段压缩为时长阈值长度的音频片段,若小于或等于时长阈值,则保留分贝值低于静音阈值的音频片段。
在一实施例中,删除分贝值低于静音阈值的音频片段,包括:将全部分贝值低于静音阈值的音频片段删除后,在删除位置添加等时长的静音音频片段。
根据本公开实施例的第二方面,提供一种音频剪辑装置,装置包括:接收单元,用于接收录音音频;确定单元,用于基于录音音频中的目标声音分贝值,确定对应的静音阈值;切割单元,用于将录音音频中分贝值低于静音阈值的音频片段进行删除,得到有效录音音频文件。
在一实施例中,装置还包括:目标声音区间识别单元,用于基于录音音频,通过识别模型,确定录音音频中的目标声音区间;计算单元,用于基于目标声音区间,确定目标声音分贝值。
在一实施例中,计算单元具体用于:基于录音音频中全部目标声音区间中的平均分贝值,确定目标声音分贝值。
在一实施例中,目标声音区间识别单元具体用于:基于录音音频的样本音频文件,将大于目标声音阈值的声音区间作为目标声音区间;或基于录音音频的样本音频文件,通过声纹识别,确定样本音频文件中的目标声音区间。
在一实施例中,样本音频文件包括:全部录音音频、部分录音音频或采样录音音频的一种。
在一实施例中,确定单元具体用于:获取多种场景下的样本录音音频;根据场景,确定样本录音音频的静音区间与目标声音区间;根据静音区间与目标声音区间的音频特征,确定每个场景中目标声音分贝值对应的静音阈值。
在一实施例中,场景包括室内、室外和野外。
在一实施例中,确定单元具体用于:基于目标声音分贝值,根据静音比例计算录音音频对应的静音阈值。
在一实施例中,切割单元包括:音频切分单元,用于根据静音阈值对录音音频进行分割处理,得到多个音频片段;删除单元,用于删除分贝值低于静音阈值的音频片段;合成单元,用于将剩余音频片段按时间序列拼接合成,得到有效录音音频文件。
在一实施例中,删除单元还用于:当分贝值低于静音阈值的音频片段时长大于时长阈值时,则将分贝值低于静音阈值的音频片段压缩为时长阈值长度的音频片段,当分贝值低于静音阈值的音频片段时长小于或等于时长阈值时,保留分贝值低于静音阈值的音频片段。
在一实施例中,删除单元具体还用于:将全部分贝值低于静音阈值的音频片段删除后,在删除位置添加等时长的静音音频片段。
根据本公开实施例的第三方面,提供一种电子设备,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面的音频剪辑方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,存储有指令,指令被处理器执行时,执行第一方面的音频剪辑方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过音频文件中的目标声音确定对应的静音阈值,根据不同场景调整静音消除的阈值,进一步得到有效的录音文件,从而更加准确定位出音频中的静音区间,提高了静音消除的准确性,提升用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的包含很长静音期的录音音频示意图;
图2是根据一示例性实施例示出的经过处理的录音音频示意图;
图3是根据一示例性实施例示出的一种音频剪辑方法的流程示意图;
图4是根据一示例性实施例示出的另一种音频剪辑方法的流程示意图;
图5是根据一示例性实施例示出的一种音频剪辑装置的示意框图;
图6是根据一示例性实施例示出的一种装置的示意框图。
图7是根据一示例性实施例示出的一种电子装置的示意框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在对录音音频做后期处理时,如果录制的音频时间较长,往往录制的音频文件会有很长时间的静音期,只有一少部分,才有录制的音频波形,如图1所示,而为了可以使用户快速的定位有声音的那部分,往往会在将静音的部分删除,如图2所示。
目前一些技术中,工程师先测试录音文件在静音期间的振幅,然后得到测试值,将测试值内置在系统中,在实际使用过程中,测试当前波形振幅,如果判断低于系统的这个测试值,那么就判断是静音;如果大于系统的这个测试值,那么就认为是有效语音。但这个测试值是固定的,没有区分不同的场景,实际上,由于人们在不同场景下,说话的分贝是不一样的,如在室内,往往说话声音会比较小,如果在室外,由于比较吵,人们为了让别人听清楚,往往会将声音提高。在室内的静音期间的分贝应该小,在室外静音期间的分贝应该大,但由于系统设置的是固定值,会导致在某些场景下静音消除失效。
而本公开为解决上述问题,提供一种音频剪辑方法10,参见图3,音频剪辑方法10,包括步骤S11-S13,以下详细说明:
步骤S11,接收录音音频。
可以通过声音采集设备,如麦克风,采集录音音频,也可以直接读取本地存储的录音音频文件,根据不同的音频文件的格式进行解码,还原出音频文件的原始波形数据进行分析。该步骤中可以处理多种格式的录音文件,方便用户对不同类型的音频文件进行剪辑。
步骤S12,基于录音音频中的目标声音分贝值,确定对应的静音阈值。
目标声音包括人声、动物声、异常环境声(如搬动物体、敲击管道等)等需录制的声音。
由于目标声音多数为人声,用户在声音吵一点的情况下,往往会提高声音,安静一点的时候,声音会降低,因此根据一段录音音频中用户的目标声音大小,往往可以区分出当前所处的录制场景,基于目标声音大小确定静音阈值,使得在不同场景下的录音都能更准确的进行剪辑,保证剪辑后的音频能够完整的保留目标声音同时消除静音区间。
在本公开的一个实施例中,步骤S12可以包括:获取多种场景下的样本录音音频,根据场景,确定样本录音音频的静音区间与目标声音区间,根据静音区间与目标声音区间的分贝值,确定每个场景中目标声音分贝值对应的静音阈值。基于大量的不同场景的样本音频,并且可以通过识别模型区分静音区间和目标声音区间,可以更加准确得出目标声音分贝值与该场景下的静音阈值的对应关系。
在本公开的一个实施例中,基于录音音频,通过识别模型,确定录音音频中的目标声音区间包括:基于录音音频的样本音频文件,将大于目标声音阈值的声音区间作为目标声音区间;或基于录音音频的样本音频文件,通过声纹识别,确定样本音频文件中的目标声音区间。目标声音例如人声、动物声等,可根据实际经验设定目标声音阈值,提取出大于此阈值的声音区间,通过经验阈值的方法对录音音频进行预处理,提取出一部分包含目标声音的片段,可以更快速地找到部分目标声音区间,以便后续分析处理。也可以根据声纹识别,确定目标声音,从而确定区间。
由于识别模型需要存储空间大,计算量大,对整个录音音频进行识别,尤其是声纹识别的成本较高,因此可以使其仅对相对剪短的音频做识别。在本公开的一个实施例中,样本音频文件包括:全部录音音频、部分录音音频或采样录音音频的一种。其中,部分录音音频可以是包括静音区间及目标声音区间的节选部分,采样录音音频可以是在正式录音开始前,对该场景下正常的人声、动物声或异常环境声进行的一段采样录音。通过截取部分录音或采样录音的操作,可以有效减少识别模型的计算量,提升对声音文件的解码、处理和分析速度,有效提高整体算法的运行效率。
在本公开的另一个实施例中,目标声音区间可以通过人工标定来进行,可以更加准确取出目标声音区间,而人工标定的方法,最优地,可基于部分录音音频及采样录音音频进行,以降低人工标定的时间成本。
具体地,经过处理后得到目标声音期间的分贝值,并标记该场景下目标声音区间分贝平均值范围,例如室内场景下,目标声音分贝值的大小区间为VoluemUser11-VoluemUser12,对应静音区间的分贝消除阈值大小等于VoluemNoise,得到对应关系如表1所示,场景可根据实际需要进行调整,在本公开的一个实施例中,可将场景划分为室内、室外和野外。
在确定录音音频的目标声音分贝值后,找到其对应的区间,得到该录音音频相应的消除静音阈值。由于在实际使用的时候,根据从大量样本中找到的目标声音与静音分贝值之间的关系,提前在系统中预制好了不同场景下,用户说话的分贝和静音的分贝,那么在消除静音波形的时候,只需要比较当前用户说话的声音,就知道对应静音期间的分贝值。
场景 目标声音分贝值区间 静音阈值
室内 VoluemUser11-VoluemUser12 VoluemNoise1
室外 VoluemUser21-VoluemUser22 VoluemNoise2
野外 VoluemUser31-VoluemUser32 VoluemNoise3
表1 目标声音分贝值与静音阈值对照表
在本公开的另一个实施例中,基于录音音频中的目标声音分贝值,确定对应的静音阈值包括,基于目标声音分贝值,根据静音比例计算录音音频对应的静音阈值。其中,静音比例为静音区间分贝值/目标声音区间分贝值,静音比例可以根据经验设定,例如1:8等,也可以从样本音频数据中以统计方式获得。在当前实施例中,不需要提前预设目标声音分贝所对应的场景,而是根据实时录制的录音音频,判断有效目标声音区间,然后进一步计算出针对当前录音的静音阈值,该方法不需要预设与静音阈值的对应关系,而是对当前录音实时计算静音阈值,使得该方法的应用场景更加广泛,不局限于人为划分的场景设定中。
在本公开的另一个实施例中,确定录音音频中的目标声音区间,得到对应的目标声音波形数据后,可以根据该目标声音波形振幅得到平均振幅来表征目标声音,从而通过目标声音波形振幅和静音阈值的对应关系,确定当前录音音频所对应的静音阈值。在波形文件中可以直接获取某一区间的振幅信息,在计算时更为便捷。
步骤S13,将录音音频中分贝值低于静音阈值的音频片段进行删除,得到有效录音音频文件。
分贝值低于静音阈值的音频片段可以认为是无目标声音的片段,是录音音频中占用时长和资源的部分,通过将其删除能够提高录音音频的利用率。同时,由于静音阈值时根据实际场景中目标声音的分贝值大小确定的,因此能够更加准确的删除静音片段。
在本公开的一个实施例中,步骤S13可以包括:根据静音阈值对录音音频进行分割处理,得到多个音频片段;删除分贝值低于静音阈值的音频片段;将剩余音频片段按时间序列拼接合成,得到有效录音音频文件。其中,由于在日常的对话或语音过程中,包含正常的停顿与间隔,将所有静音区间的内容全部删除并不合理,因此,删除大段静音区间,保留正常的停顿时间,能够得到质量更高的有效录音音频文件,在本发明的一个实施例中,可预先设定一个静音时长阈值,在根据静音阈值对录音音频分割,得到多个音频片段后,获取分贝值低于静音阈值的音频片段时长,基于预先设定的时长阈值,判断分贝值低于静音阈值的音频片段,即需要删除的静音部分的音频片段的时长是否大于时长阈值,若大于,则将该音频片段压缩为时长阈值长度的音频片段,否则,则保留该音频片段。本实施例通过时长阈值的方式压缩静音区间,得到的有效录音文件更加流畅自然,有效提升用户的试听体验。在本公开的另一个实施例中,将该音频片段压缩为时长阈值长度的音频片段,可以只保留该音频片段开始处或结尾处的时长阈值长度的音频。该时长阈值可以根据实际需求进行设定,在本公开的一个实施例中,可以将时长阈值设定为3s。通过保留原场景下的音频片段,在对音频做剪辑处理时更方便快捷。
在本公开一个实施例中,也可以将全部分贝值低于静音阈值的音频片段删除后,在删除位置添加等时长的静音音频片段,如统一添加时长为三秒的静音片段,以间隔开不同段的目标声音音频。
在本公开的另一个实施例中,音频剪辑方法20还可以包括如下步骤,如图4所示:
步骤S21,接收录音音频。
步骤S22,基于录音音频,通过识别模型,确定录音音频中的目标声音区间。具体地,可以将接收到的录音音频转化为波形文件,并确定录音音频中的目标声音区间,可以通过设定目标声音阈值的方法对目标声音进行识别,当目标声音为人声时,还可以通过语音活动检测VAD(Voice Activity Detection)或其他可识别人声的算法,对原始波形数据进行检测,得到人声波形数据。通过识别算法对目标声音区间进行识别,能够更准确地定位目标声音区间。
步骤S23,基于目标声音区间,确定目标声音分贝值。在一些实施例中,确定目标声音分贝值具体还可以包括:基于录音音频中全部目标声音区间中的平均分贝值,根据目标声音区间的目标声音分贝值的平均值作为目标声音分贝值。通过平均分贝值来表征当前的目标声音分贝值,可以更加准确反映当前场景下录音中的目标声音分贝情况。
步骤S24,基于录音音频中的目标声音分贝值,确定对应的静音阈值。
步骤S25,将录音音频中分贝值低于静音阈值的音频片段进行删除,得到有效录音音频文件。
基于同一个发明构思,图5示出了一种音频剪辑装置100,如图5所示,音频剪辑装置包括:接收单元110,用于接收录音音频;确定单元120,用于基于录音音频中的目标声音分贝值,确定对应的静音阈值;切割单元130,用于将录音音频中分贝值低于静音阈值的音频片段进行删除,得到有效录音音频文件。
在一实施例中,装置还包括:目标声音区间识别单元,用于基于录音音频,通过识别模型,确定录音音频中的目标声音区间;计算单元,用于基于目标声音区间,确定目标声音分贝值。
在一实施例中,计算单元具体用于:基于录音音频中全部目标声音区间中的平均分贝值,确定目标声音分贝值。
在一实施例中,目标声音区间识别单元具体用于:基于录音音频的样本音频文件,将大于目标声音阈值的声音区间作为目标声音区间;或基于录音音频的样本音频文件,通过声纹识别,确定样本音频文件中的目标声音区间。
在一实施例中,样本音频文件包括:全部录音音频、部分录音音频或采样录音音频的一种。
在一实施例中,确定单元120具体用于:获取多种场景下的样本录音音频;根据场景,确定样本录音音频的静音区间与目标声音区间;根据静音区间与目标声音区间的音频特征,确定每个场景中目标声音分贝值对应的静音阈值。
在一实施例中,场景包括室内、室外和野外。
在一实施例中,确定单元具体用于:基于目标声音分贝值,根据静音比例计算录音音频对应的静音阈值。
在一实施例中,切割单元130包括:音频切分单元,用于根据静音阈值对录音音频进行分割处理,得到多个音频片段;删除单元,用于删除分贝值低于静音阈值的音频片段;合成单元,用于将剩余音频片段按时间序列拼接合成,得到有效录音音频文件。
在一实施例中,删除单元还用于:当分贝值低于静音阈值的音频片段时长大于时长阈值时,则将分贝值低于静音阈值的音频片段压缩为时长阈值长度的音频片段,当分贝值低于静音阈值的音频片段时长小于或等于时长阈值时,保留分贝值低于静音阈值的音频片段。
在一实施例中,删除单元具体还用于:将全部分贝值低于静音阈值的音频片段删除后,在删除位置添加等时长的静音音频片段。
关于上述实施例中的音频剪辑装置100,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的前述任一实施例装置的示意框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电力组件206,多媒体组件208,音频组件210,输入/输出(I/O)的接口212,传感器组件214,以及通信组件216。
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当设备200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
I/O接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件216被配置为便于装置300和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种电子装置300的框图。例如,装置300可以被提供为一服务器。参照图7,装置300包括处理组件322,其进一步包括一个或多个处理器,以及由存储器332所代表的存储器资源,用于存储可由处理组件322的执行的指令,例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件322被配置为执行指令,以执行上述方法。
装置300还可以包括一个电源组件326被配置为执行装置300的电源管理,一个有线或无线网络接口350被配置为将装置300连接到网络,和一个输入输出(I/O)接口358。装置300可以操作基于存储在存储器232的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (18)

1.一种音频剪辑方法,其特征在于,所述方法包括:
接收录音音频;
基于所述录音音频,通过识别模型,确定所述录音音频中的目标声音区间;
基于所述目标声音区间,确定目标声音分贝值;
基于所述录音音频中的目标声音分贝值,确定对应的静音阈值;
将所述录音音频中分贝值低于所述静音阈值的音频片段进行删除,得到有效录音音频文件;
相应的,所述基于所述录音音频中的目标声音分贝值,确定对应的静音阈值包括:
获取多种场景下的样本录音音频;
确定各个场景下所述样本录音音频的目标声音分贝值区间,以及所述目标声音分贝值区间对应的静音阈值;
确定所述目标声音分贝值所属的目标声音分贝值区间,并将所述目标声音分贝值所属的目标声音分贝值区间对应的静音阈值,确定为所述目标声音分贝值对应的静音阈值。
2.根据权利要求1所述的音频剪辑方法,其特征在于,所述基于所述录音音频,通过识别模型,确定所述录音音频中的目标声音区间包括:
基于所述录音音频的样本音频文件,将所述录音音频中大于目标声音阈值的声音区间作为目标声音区间;或
基于所述录音音频的样本音频文件,通过声纹识别,确定所述样本音频文件中的目标声音区间。
3.根据权利要求2所述的音频剪辑方法,其特征在于,所述样本音频文件包括:全部所述录音音频、部分所述录音音频或采样录音音频的一种,所述采样录音音频与所述录音音频为同一场景。
4.根据权利要求1所述的音频剪辑方法,其特征在于,所述基于所述目标声音区间,确定所述目标声音分贝值,包括:
基于所述录音音频中全部所述目标声音区间中的平均分贝值,确定所述目标声音分贝值。
5.根据权利要求4所述的音频剪辑方法,其特征在于,所述场景包括室内、室外和野外。
6.根据权利要求1所述的音频剪辑方法,其特征在于,所述将所述录音音频中分贝值低于所述静音阈值的音频片段进行删除,得到有效录音音频文件,包括:
根据所述静音阈值对所述录音音频进行分割处理,得到多个音频片段;
删除分贝值低于所述静音阈值的音频片段;
将剩余音频片段按时间序列拼接合成,得到所述有效录音音频文件。
7.根据权利要求6所述的音频剪辑方法,其特征在于,所述删除分贝值低于所述静音阈值的音频片段包括:
基于时长阈值,判断所述分贝值低于所述静音阈值的音频片段的时长是否大于所述时长阈值,若大于所述时长阈值,则将所述分贝值低于所述静音阈值的音频片段压缩为时长阈值长度的音频片段,若小于或等于所述时长阈值,则保留所述分贝值低于所述静音阈值的音频片段。
8.根据权利要求6所述的音频剪辑方法,其特征在于,所述删除分贝值低于所述静音阈值的音频片段,包括:
将全部分贝值低于静音阈值的音频片段删除后,在删除位置添加等时长的静音音频片段。
9.一种音频剪辑装置,其特征在于,所述装置包括:
接收单元,用于接收录音音频;
目标声音区间识别单元,用于基于所述录音音频,通过识别模型,确定所述录音音频中的目标声音区间;
计算单元,用于基于所述目标声音区间,确定目标声音分贝值;
确定单元,用于基于所述录音音频中的目标声音分贝值,确定对应的静音阈值;
切割单元,用于将所述录音音频中分贝值低于所述静音阈值的音频片段进行删除,得到有效录音音频文件;
相应的,所述确定单元具体用于:
获取多种场景下的样本录音音频;
确定各个场景下所述样本录音音频的目标声音分贝值区间,以及所述目标声音分贝值区间对应的静音阈值;
确定所述目标声音分贝值所属的目标声音分贝值区间,并将所述目标声音分贝值所属的目标声音分贝值区间对应的静音阈值,确定为所述目标声音分贝值对应的静音阈值。
10.根据权利要求9所述的音频剪辑装置,其特征在于,所述目标声音区间识别单元具体用于:
基于所述录音音频的样本音频文件,将所述录音音频中大于目标声音阈值的声音区间作为目标声音区间;或
基于所述录音音频的样本音频文件,通过声纹识别,确定所述样本音频文件中的目标声音区间。
11.根据权利要求10所述的音频剪辑装置,其特征在于,所述样本音频文件包括:全部所述录音音频、部分所述录音音频或采样录音音频的一种,所述采样录音音频与所述录音音频为同一场景。
12.根据权利要求9所述的音频剪辑装置,其特征在于,所述计算单元具体用于:
基于所述录音音频中全部所述目标声音区间中的平均分贝值,确定所述目标声音分贝值。
13.根据权利要求9所述的音频剪辑装置,其特征在于,所述场景包括室内、室外和野外。
14.根据权利要求9所述的音频剪辑装置,其特征在于,所述切割单元包括:
音频切分单元,用于根据所述静音阈值对所述录音音频进行分割处理,得到多个音频片段;
删除单元,用于删除分贝值低于所述静音阈值的音频片段;
合成单元,用于将剩余音频片段按时间序列拼接合成,得到所述有效录音音频文件。
15.根据权利要求14所述的音频剪辑装置,其特征在于,所述删除单元还用于:
当所述分贝值低于所述静音阈值的音频片段时长大于时长阈值时,将所述分贝值低于所述静音阈值的音频片段压缩为时长阈值长度的音频片段,当所述分贝值低于所述静音阈值的音频片段时长小于或等于所述时长阈值时,保留所述分贝值低于所述静音阈值的音频片段所述音频片段。
16.根据权利要求14所述的音频剪辑装置,其特征在于,所述删除单元还包括:
将全部分贝值低于静音阈值的音频片段删除后,在删除位置添加等时长的静音音频片段。
17.一种电子设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1至8中任一项所述的音频剪辑方法。
18.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行如权利要求1至8中任一项所述音频剪辑方法。
CN201911286385.1A 2019-12-13 2019-12-13 音频剪辑方法及装置 Active CN111128253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911286385.1A CN111128253B (zh) 2019-12-13 2019-12-13 音频剪辑方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911286385.1A CN111128253B (zh) 2019-12-13 2019-12-13 音频剪辑方法及装置

Publications (2)

Publication Number Publication Date
CN111128253A CN111128253A (zh) 2020-05-08
CN111128253B true CN111128253B (zh) 2022-03-01

Family

ID=70498919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911286385.1A Active CN111128253B (zh) 2019-12-13 2019-12-13 音频剪辑方法及装置

Country Status (1)

Country Link
CN (1) CN111128253B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331217B (zh) * 2020-11-02 2023-09-12 泰康保险集团股份有限公司 声纹识别方法和装置、存储介质、电子设备
CN112601153B (zh) * 2021-03-01 2021-05-07 成都大熊猫繁育研究基地 一种声音自动采集与传输装置及其使用方法
CN113035165B (zh) * 2021-03-04 2023-01-03 北京雷石天地电子技术有限公司 音频数据处理方法、音频数据处理装置及可读存储介质
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置
CN113596579B (zh) * 2021-07-29 2023-04-07 北京字节跳动网络技术有限公司 视频生成方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157301A (zh) * 2014-07-25 2014-11-19 广州三星通信技术研究有限公司 删除语音信息空白片段的方法、装置和终端
CN105845124A (zh) * 2016-05-05 2016-08-10 北京小米移动软件有限公司 音频处理方法及装置
CN106935253A (zh) * 2017-03-10 2017-07-07 北京奇虎科技有限公司 音频文件的裁剪方法、装置及终端设备
CN107580275A (zh) * 2016-07-04 2018-01-12 深圳富泰宏精密工业有限公司 音量调节电路及方法
CN108806714A (zh) * 2018-07-19 2018-11-13 北京小米智能科技有限公司 调节音量的方法和装置
CN109299318A (zh) * 2018-11-13 2019-02-01 百度在线网络技术(北京)有限公司 音乐推荐的方法、装置、存储介质和终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157301A (zh) * 2014-07-25 2014-11-19 广州三星通信技术研究有限公司 删除语音信息空白片段的方法、装置和终端
CN105845124A (zh) * 2016-05-05 2016-08-10 北京小米移动软件有限公司 音频处理方法及装置
CN107580275A (zh) * 2016-07-04 2018-01-12 深圳富泰宏精密工业有限公司 音量调节电路及方法
CN106935253A (zh) * 2017-03-10 2017-07-07 北京奇虎科技有限公司 音频文件的裁剪方法、装置及终端设备
CN108806714A (zh) * 2018-07-19 2018-11-13 北京小米智能科技有限公司 调节音量的方法和装置
CN109299318A (zh) * 2018-11-13 2019-02-01 百度在线网络技术(北京)有限公司 音乐推荐的方法、装置、存储介质和终端设备

Also Published As

Publication number Publication date
CN111128253A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128253B (zh) 音频剪辑方法及装置
US10516788B2 (en) Method and apparatus for adjusting volume of user terminal, and terminal
CN105845124B (zh) 音频处理方法及装置
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
CN109087650B (zh) 语音唤醒方法及装置
WO2021031308A1 (zh) 音频处理方法、装置及存储介质
CN106409317B (zh) 梦话提取方法、装置及用于提取梦话的装置
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN110992979A (zh) 一种检测方法、装置和电子设备
CN109256145B (zh) 基于终端的音频处理方法、装置、终端和可读存储介质
CN111988704B (zh) 声音信号处理方法、装置以及存储介质
CN106060707B (zh) 混响处理方法及装置
CN106782625A (zh) 音频处理方法和装置
CN104486489A (zh) 输出通话背景音的方法及装置
CN112185421A (zh) 音质检测方法、装置、电子设备及存储介质
CN110019936A (zh) 一种媒体文件播放过程中的注释方法和装置
CN112201267A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN107564534B (zh) 音频品质鉴定方法和装置
US11682412B2 (en) Information processing method, electronic equipment, and storage medium
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
CN111489757B (zh) 音频处理方法、装置、电子设备及可读存储介质
CN108491180B (zh) 音频播放方法及装置
CN107886956B (zh) 音频识别方法、装置及计算机存储介质
CN111354356A (zh) 一种语音数据处理方法及装置
CN111916076B (zh) 一种录音方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230106

Address after: 430000 No. 006, floor 1, No. 66, Jiufeng 1st Road, Donghu New Technology Development Zone, Wuhan, Hubei Province (Wuhan area of free trade zone)

Patentee after: Xiaomi Technology (Wuhan) Co.,Ltd.

Address before: Room 101-103, 1 / F, unit 2, building F, lin66, Zhufang Road, Haidian District, Beijing 100085

Patentee before: BEIJING XIAOMI INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right