CN112307255A - 一种音频处理方法、装置、终端和计算机存储介质 - Google Patents

一种音频处理方法、装置、终端和计算机存储介质 Download PDF

Info

Publication number
CN112307255A
CN112307255A CN201910713276.7A CN201910713276A CN112307255A CN 112307255 A CN112307255 A CN 112307255A CN 201910713276 A CN201910713276 A CN 201910713276A CN 112307255 A CN112307255 A CN 112307255A
Authority
CN
China
Prior art keywords
voiceprint
feature
audio file
voiceprint feature
target audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910713276.7A
Other languages
English (en)
Inventor
王亮亮
吕耀华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910713276.7A priority Critical patent/CN112307255A/zh
Publication of CN112307255A publication Critical patent/CN112307255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本发明实施例公开了一种音频处理方法、装置、终端和计算机存储介质,该方法包括:得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征;根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。如此,可以实现快速、准确地定位出目标音频文件中第一声纹特征对应的音频片段,节约查找时间,更方便、快捷。

Description

一种音频处理方法、装置、终端和计算机存储介质
技术领域
本发明涉及音频处理技术,尤其涉及一种音频处理方法、装置、终端和计算机存储介质。
背景技术
对于一个包含多人语音信息的音频文件,当人们在收听该音频文件时,有时只对该音频文件中的某个人的音频片段感兴趣,这时,需要直接播放感兴趣的某个人的音频片段;针对上述要求,相关技术的方案是,针对一个包含多人语音信息的音频文件,通过快进、快退等操作来实现对感兴趣的某个人的相关音频片段的查找,由于快进、快退等操作的精确性较低,如此,很难快速定位到感兴趣的某个人的相关音频片段。
发明内容
本发明实施例期望提供一种音频处理方法、装置、终端和计算机存储介质。
本发明的技术方案是这样实现的:
本发明实施例提供了一种音频处理方法,所述方法包括:
得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;
根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
可选地,所述方法还包括:
所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配。
可选地,在根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段之后,所述方法还包括:
播放定位出的所述第二声纹特征对应的音频片段;
或者,对定位出的所述第二声纹特征对应的音频片段进行去噪处理,得出去噪处理后的音频片段,播放所述去噪处理后的音频片段。
可选地,所述播放定位出的所述第二声纹特征对应的音频片段,包括:
所述定位出的所述第二声纹特征对应的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,依次播放所述多个不连续时间段的音频片段。
可选地,所述播放所述去噪处理后的音频片段,包括:
所述去噪处理后的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,依次播放所述多个不连续时间段的音频片段。
可选地,所述声纹特征包括以下至少一项:声纹频谱、声纹共振峰、声纹基音、声纹反射系数。
本发明实施例提供了一种音频处理装置,所述装置包括:
第一确定模块,用于得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取模块,用于获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
第二确定模块,用于根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;
定位模块,用于根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
本发明实施例还提供了一种音频处理终端,所述终端包括:处理器和用于能够在处理器上运行的计算机程序的存储器,
所述处理器用于运行所述计算机程序时,执行以下步骤:
得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;
根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
可选地,所述处理器还用于运行所述计算机程序时,执行以下步骤:
所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配。
可选地,所述终端还包括:扬声器。
所述处理器还用于运行所述计算机程序时,执行以下步骤:
在根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段之后,控制扬声器播放定位出的所述第二声纹特征对应的音频片段;
或者,在根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段之后,对定位出的所述第二声纹特征对应的音频片段进行去噪处理,得出去噪处理后的音频片段,控制扬声器播放所述去噪处理后的音频片段。
可选地,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
所述定位出的所述第二声纹特征对应的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,控制扬声器依次播放所述多个不连续时间段的音频片段。
可选地,所述处理器具体用于运行所述计算机程序时,执行以下步骤:
所述去噪处理后的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,控制扬声器依次播放所述多个不连续时间段的音频片段。
可选地,所述声纹特征包括以下至少一项:声纹频谱、声纹共振峰、声纹基音、声纹反射系数。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种音频处理方法。
本发明实施例中,得出目标音频文件中各种声音的声纹特征,并确定目标音频文件中各种声音的声纹特征对应的时间段;获取到第一声纹特征,且第一声纹特征与目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,第二声纹特征为目标音频文件中的各种声音的声纹特征中与第一声纹特征匹配的声纹特征;根据目标音频文件中各种声音的声纹特征对应的时间段,确定第二声纹特征对应的时间段;根据第二声纹特征对应的时间段,在目标音频文件中定位出第二声纹特征对应的音频片段;如此,由于可以预先获知第二声纹特征对应的时间段,而第二声纹特征是与第一声纹特征匹配的,因此,可以得出第一声纹特征对应的时间段,进而,可以实现快速、准确地定位出目标音频文件中第一声纹特征对应的音频片段,节约查找时间,更方便、快捷。
附图说明
图1为本发明实施例的音频处理方法的流程的示意图一;
图2为本发明实施例的音频处理方法的流程的示意图二;
图3为本发明实施例的音频处理装置的组成结构示意图一;
图4为本发明实施例的音频处理装置的组成结构示意图二;
图5为本发明实施例的音频处理终端的结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明实施例记载的技术方案可以任意组合的方式实施。
需要说明的是,在本发明实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。
例如,本发明实施例提供的音频处理方法包含了一系列的步骤,但是本发明实施例提供的音频处理方法不限于所记载的步骤,同样地,本发明实施例提供的音频处理装置包括了一系列模块,但是本发明实施例提供的装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
需要说明的是,以上仅仅是对本发明的应用场景进行了举例说明,本发明实施例并不限定于上述记载的应用场景,基于上述记载的应用场景,提出以下各实施例。
第一实施例
本发明第一实施例提出了一种音频处理方法,图1为本发明实施例的音频处理方法的流程的示意图一,如图1所示,该流程可以包括:
步骤101:得出目标音频文件中各种声音的声纹特征,并确定目标音频文件中各种声音的声纹特征对应的时间段。
这里,声纹可以是用电声学仪器显示的携带言语信息的声波频谱,声纹特征可以是与人类的发音机制的解剖学结构有关的特征。
目标音频文件可以是指具有多个人物声音,且包含待查找音频片段的音频文件,例如,目标音频文件可以是一段毕业演讲音频文件,毕业演讲音频文件包括多人演讲的音频片段。
对于本步骤的实现方式,示例性地,可以是通过对目标音频文件进行分析,获得目标音频文件中各种声音的声纹特征,以及各种声音的声纹特征对应的时间段,例如,通过对毕业演讲音频文件进行分析,可以得出各演讲人员的声纹特征,以及各演讲人员的声纹特征对应出现的时间段。
步骤102:获取到第一声纹特征,且第一声纹特征与目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,第二声纹特征为目标音频文件中的各种声音的声纹特征中与第一声纹特征匹配的声纹特征。
对于获取第一声纹特征的方式,在一个示例中,首先可以获取音频样本文件,音频样本文件是指包含多个人物声音的音频文件,接着,对获取的音频样本文件进行分析,可以获得各人物声音对应的声纹特征,最后,选择其中感兴趣的一个人物声音的声纹特征作为第一声纹特征。
对于获取第一声纹特征的方式,在另一个示例中,可以是直接录制感兴趣的人物的声音信息,以获得该人物声音的音频文件,然后通过对音频文件解析得到第一声纹特征。
作为一种实现方式,可以根据声纹特征匹配的判定规则,判断第一声纹特征是否与目标音频文件中任意一种声音的声纹特征相匹配,声纹特征匹配的判定规则可以根据实际应用需求预先设置。当第一声纹特征与目标音频文件中某一种声音的声纹特征相匹配时,可以确定该种声音的声纹特征为第二声纹特征,当在目标音频文件的所有声音的声纹特征中,无法获取到和第一声纹特征相匹配的声纹特征时,可以终止匹配操作,重新获取第一声纹特征。
步骤103:根据目标音频文件中各种声音的声纹特征对应的时间段,确定第二声纹特征对应的时间段。
步骤104:根据第二声纹特征对应的时间段,在目标音频文件中定位出第二声纹特征对应的音频片段。
可以看出,本发明实施例中,得出目标音频文件中各种声音的声纹特征,并确定目标音频文件中各种声音的声纹特征对应的时间段;获取到第一声纹特征,且第一声纹特征与目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,第二声纹特征为目标音频文件中的各种声音的声纹特征中与第一声纹特征匹配的声纹特征;根据目标音频文件中各种声音的声纹特征对应的时间段,确定第二声纹特征对应的时间段;根据第二声纹特征对应的时间段,在目标音频文件中定位出第二声纹特征对应的音频片段;如此,由于可以预先获知第二声纹特征对应的时间段,而第二声纹特征是与第一声纹特征匹配的,因此,可以得出第一声纹特征对应的时间段,进而,可以实现快速、准确地定位出目标音频文件中第一声纹特征对应的音频片段,节约查找时间,更方便、快捷。
实际应用中,步骤101至步骤104均可以由处理器等实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal ProcessingDevice,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
本发明实施例中,声纹特征可以是声纹频谱、声纹共振峰、声纹基音、声纹反射系数中至少一项。
对于得出第二声纹特征的具体实施方式,可以是在第一声纹特征与目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定第一声纹特征与目标音频文件中任意一种声音的声纹特征匹配,进而,可以得出第二声纹特征。示例性地,第一阈值可以处于50%至100%之间。例如,当感兴趣的演讲人员的声纹特征与毕业演讲音频文件某个演讲人的声纹特征相似率达到80%时,可以确定某演讲人的声纹特征为第二声纹特征。
可以理解的是,对于不同音频文件中同一人物声音的音频片段,通过对其解析所获得的声纹特征可能存在误差,当声纹特征匹配的判定规则是判断第一声纹特征和目标音频文件中任意一种声音的声纹特征是否完全一致时,由于误差的存在会导致无法匹配出第二声纹特征,降低了声纹特征匹配的判定准确率;如此,当第一阈值小于100%时,本实施例中得出第二声纹特征的方式,可以提高声纹特征匹配的判定准确率。
作为一种实现方式,在根据第二声纹特征对应的时间段,在目标音频文件中定位出第二声纹特征对应的音频片段之后,可以播放定位出的第二声纹特征对应的音频片段,进而,在快速、准确地定位出目标音频文件中第一声纹特征对应的音频片段的基础上,可以实现快速、准确地播放目标音频文件中第一声纹特征对应的音频片段。
作为一种实现方式,在根据第二声纹特征对应的时间段,在目标音频文件中定位出第二声纹特征对应的音频片段之后,可以对定位出的第二声纹特征对应的音频片段进行去噪处理,得出去噪处理后的音频片段,播放去噪处理后的音频片段;进而,在快速、准确地定位出目标音频文件中第一声纹特征对应的音频片段的基础上,可以实现快速、准确地播放目标音频文件中第一声纹特征对应的音频片段;并且,通过去噪处理,可以获得优质的音频片段,例如,通过去噪处理,可以在一定程度上去除演讲人和背景音乐以外的其它声音。
这里不对去噪处理的方式进行限定,去噪处理的方式可以是多样的,既可以通过软件实现(如高斯去噪或小波去噪),也可以是通过具有去噪处理功能的音频处理终端(例如,滤波器)来实现。
本发明实施例中,当定位出的第二声纹特征对应的音频片段包括多个不连续时间段的音频片段时,可以根据多个不连续时间段的时间先后顺序,依次播放多个不连续时间段的音频片段,示例性地,目标音频文件是多人演讲的毕业演讲音频文件时,可能存在某演讲人由于某种原因,分别在不连续的两个或多个时间段进行演讲的情况,此时,可以确定该演讲人的音频片段是不连续的,对于这种情况,可以按照该演讲人的演讲时间顺序先后依次连续播放其不连续的音频片段,实现对不连续音频片段的连续播放,满足人们连续播放音频文件需求。
本发明实施例中,当去噪处理后的音频片段包括多个不连续时间段的音频片段时,可以根据多个不连续时间段的时间先后顺序,依次播放多个不连续时间段的音频片段,示例性地,对于目标音频文件是多人演讲的毕业演讲音频文件时,可以存在某演讲人由于某种原因,分别在不连续的两个或多个时间段进行演讲的情况,此时,可以首先对确定的不连续片段进行去噪处理,然后将去噪处理后的音频片段,按照该演讲人的演讲时间顺序先后依次连续播放其不连续的音频片段,实现对优质音频片段的连续播放,提高用户的体验。
实际应用中,音频文件的播放过程可以通过处理器结合扬声器等实现;音频文件的播放过程也可以基于音频播放器等实现。
第二实施例
在本发明第一实施例的基础上,本发明第二实施例提出了一种音频处理方法,图2为本发明实施例的音频处理方法的流程的示意图二,如图2所示,该流程可以包括:
步骤201:触发音频处理开始指令。
步骤202:获取多个人物的声纹频谱。
作为一种具体实施方式,可以使用移动终端来录制多个指定人物的声音信息,然后通过解析得出多个指定人物的声纹频谱并保存在移动终端上。
步骤203:得到目标音频文件中所有人物声音的声纹频谱以及各人物声音的声纹频谱对应的时间段。
在实际实施时,可以通过移动终端对目标音频文件进行解析,获得目标音频文件中所有人物声音的声纹频谱和各人物声音的声纹频谱对应的时间段信息,并将其保存在移动终端上。
本发明实施例中,并不对步骤202和步骤203的执行顺序进行限定,步骤202可以在步骤203之前执行,也可以在步骤203之后执行。
步骤204:收到获取第一人物声纹频谱对应的音频片段命令,根据第一人物声纹频谱,查找目标音频文件中与第一人物声纹频谱对应的音频片段。
作为一种具体实施方式,可以在上述获取的多个人物的声纹频谱中,由移动终端用户选择其中一个人物的声纹频谱作为第一人物声纹频谱,然后通过移动终端在目标音频文件中查找和第一人物声纹频谱匹配的声纹频谱信息,最后获取目标音频文件中和第一人物声纹频谱对应的音频片段。这里的声纹频谱信息,可以包括声纹频谱和声纹频谱对应的人物声音出现的时间段信息。
步骤205:播放目标音频文件中与第一人物声纹频谱对应的音频片段。
步骤206:结束流程。
可以看出,本发明实施例中,由于可以通过移动终端来实现第一人物声纹频谱与目标音频文件中各人物声音的声纹频谱的比对,因此,可以在不依赖服务器的情况下,实现对音频文件的比对处理;同时,由于播放的音频片段是通过移动终端用户选择的第一人物声纹频谱和目标音频文件中各人物声音的声纹频谱信息比对得到的,因此可以根据声纹频谱的比对直接播放移动终端用户所指定的人物对应的音频片段,节约查找时间,方便、快捷。
第三实施例
在前述实施例提出的音频处理方法的基础上,本发明实施例提出了一种音频处理装置。图3为本发明实施例的音频处理装置的组成结构示意图一,如图3所示,该装置包括:第一确定模块301、获取模块302、第二确定模块303和定位模块304,其中,
第一确定模块301,用于得出目标音频文件中各种声音的声纹特征,并确定目标音频文件中各种声音的声纹特征对应的时间段;
获取模块302,用于获取到第一声纹特征,且第一声纹特征与目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,第二声纹特征为目标音频文件中的各种声音的声纹特征中与第一声纹特征匹配的声纹特征;
第二确定模块303,用于根据目标音频文件中各种声音的声纹特征对应的时间段,确定第二声纹特征对应的时间段;
定位模块304,用于根据第二声纹特征对应的时间段,在目标音频文件中定位出第二声纹特征对应的音频片段。
在一实施方式中,所述声纹特征包括以下至少一项:声纹频谱、声纹共振峰、声纹基音、声纹反射系数。
图4为本发明实施例的音频处理装置的组成结构示意图二,如图4所示,该装置可以包括第一确定模块301、获取模块302、第二确定模块303和定位模块304,其中,第一确定模块301、获取模块302、第二确定模块303和定位模块304的实现方式与图3所示的第一确定模块301、获取模块302、第二确定模块303和定位模块304的实现方式相同,这里不再赘述。
在一实施方式中,参照图4,该装置还包括匹配模块305;匹配模块305用于第一声纹特征与目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定第一声纹特征与目标音频文件中任意一种声音的声纹特征匹配。
在一实施方式中,参照图4,该装置还包括播放模块306;播放模块306,用于播放定位出的第二声纹特征对应的音频片段;或者,对定位出的第二声纹特征对应的音频片段进行去噪处理,得出去噪处理后的音频片段,播放去噪处理后的音频片段。
在一实施方式中,播放模块306,具体用于所述定位出的第二声纹特征对应的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,依次播放所述多个不连续时间段的音频片段。
在一实施方式中,播放模块306,具体用于所述去噪处理后的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,依次播放所述多个不连续时间段的音频片段。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种音频处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种音频处理方法对应的计算机程序指令被一音频处理终端读取或被执行时,实现前述实施例的任意一种音频处理方法。
基于前述实施例相同的技术构思,参见图5,其示出了本发明实施例提供的一种音频处理终端400,可以包括:存储器401和处理器402;其中,
存储器401,用于存储计算机程序和数据;
处理器402,用于执行存储器中存储的计算机程序时,执行以下步骤:
得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;
根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
处理器402,还用于执行存储器中存储的计算机程序时,执行以下步骤:
所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配。
本发明实施例提供的一种音频处理终端400,还包括扬声器403;其中,
处理器402,还用于执行存储器中存储的计算机程序时,执行以下步骤:
控制扬声器403播放定位出的所述第二声纹特征对应的音频片段;或者,对定位出的所述第二声纹特征对应的音频片段进行去噪处理,得出去噪处理后的音频片段,控制扬声器403播放所述去噪处理后的音频片段。
处理器402,还用于执行存储器中存储的计算机程序时,执行以下步骤:
所述定位出的第二声纹特征对应的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,控制扬声器403依次播放所述多个不连续时间段的音频片段。
处理器402,还用于执行存储器中存储的计算机程序时,执行以下步骤:
所述去噪处理后的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,控制扬声器403依次播放所述多个不连续时间段的音频片段。
在实际应用中,上述存储器401可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM,快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器402提供指令和数据。
上述处理器402可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种音频处理方法,其特征在于,所述方法包括:
得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;
根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配。
3.根据权利要求1所述的方法,其特征在于,在根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段之后,所述方法还包括:
播放定位出的所述第二声纹特征对应的音频片段;
或者,对定位出的所述第二声纹特征对应的音频片段进行去噪处理,得出去噪处理后的音频片段,播放所述去噪处理后的音频片段。
4.根据权利要求3所述的方法,其特征在于,所述播放定位出的所述第二声纹特征对应的音频片段,包括:
所述定位出的所述第二声纹特征对应的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,依次播放所述多个不连续时间段的音频片段。
5.根据权利要求3所述的方法,其特征在于,所述播放所述去噪处理后的音频片段,包括:
所述去噪处理后的音频片段包括多个不连续时间段的音频片段时,根据所述多个不连续时间段的时间先后顺序,依次播放所述多个不连续时间段的音频片段。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述声纹特征包括以下至少一项:声纹频谱、声纹共振峰、声纹基音、声纹反射系数。
7.一种音频处理装置,其特征在于,所述装置包括:
第一确定模块,用于得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取模块,用于获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
第二确定模块,用于根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定第二声纹特征对应的时间段;
定位模块,用于根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
8.一种音频处理终端,其特征在于,所述终端包括:处理器和用于能够在处理器上运行的计算机程序的存储器,
所述处理器用于运行所述计算机程序时,执行以下步骤:
得出目标音频文件中各种声音的声纹特征,并确定所述目标音频文件中各种声音的声纹特征对应的时间段;
获取到第一声纹特征,且所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配时,得出第二声纹特征,所述第二声纹特征为所述目标音频文件中的各种声音的声纹特征中与所述第一声纹特征匹配的声纹特征;
根据所述目标音频文件中各种声音的声纹特征对应的时间段,确定所述第二声纹特征对应的时间段;
根据所述第二声纹特征对应的时间段,在所述目标音频文件中定位出所述第二声纹特征对应的音频片段。
9.根据权利要求8所述的终端,其特征在于,所述处理器还用于运行所述计算机程序时,执行以下步骤:
所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征的相似率大于或等于第一阈值时,确定所述第一声纹特征与所述目标音频文件中任意一种声音的声纹特征匹配。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。
CN201910713276.7A 2019-08-02 2019-08-02 一种音频处理方法、装置、终端和计算机存储介质 Pending CN112307255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910713276.7A CN112307255A (zh) 2019-08-02 2019-08-02 一种音频处理方法、装置、终端和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910713276.7A CN112307255A (zh) 2019-08-02 2019-08-02 一种音频处理方法、装置、终端和计算机存储介质

Publications (1)

Publication Number Publication Date
CN112307255A true CN112307255A (zh) 2021-02-02

Family

ID=74486607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910713276.7A Pending CN112307255A (zh) 2019-08-02 2019-08-02 一种音频处理方法、装置、终端和计算机存储介质

Country Status (1)

Country Link
CN (1) CN112307255A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101590A (zh) * 2006-07-04 2008-01-09 王建波 一种声音与文字对应关系表生成方法及定位方法
US20150088513A1 (en) * 2013-09-23 2015-03-26 Hon Hai Precision Industry Co., Ltd. Sound processing system and related method
CN105828179A (zh) * 2015-06-24 2016-08-03 维沃移动通信有限公司 视频定位方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101590A (zh) * 2006-07-04 2008-01-09 王建波 一种声音与文字对应关系表生成方法及定位方法
US20150088513A1 (en) * 2013-09-23 2015-03-26 Hon Hai Precision Industry Co., Ltd. Sound processing system and related method
CN105828179A (zh) * 2015-06-24 2016-08-03 维沃移动通信有限公司 视频定位方法和装置

Similar Documents

Publication Publication Date Title
CN109473123B (zh) 语音活动检测方法及装置
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
US9842609B2 (en) Real-time adaptive audio source separation
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
US8965766B1 (en) Systems and methods for identifying music in a noisy environment
WO2019019256A1 (zh) 电子装置、身份验证的方法、系统及计算机可读存储介质
CN109697290B (zh) 一种信息处理方法、设备及计算机存储介质
CN109922268B (zh) 视频的拍摄方法、装置、设备及存储介质
CN110377782B (zh) 音频检索方法、装置和存储介质
CN110400567B (zh) 注册声纹动态更新方法及计算机存储介质
US9646592B2 (en) Audio signal analysis
CN108242238A (zh) 一种音频文件生成方法及装置、终端设备
CN110753263A (zh) 视频配音方法、装置、终端及存储介质
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
CN109190879B (zh) 一种训练改编水平评价模型、评价改编水平的方法及装置
CN109726308A (zh) 一种生成小说的背景音乐的方法及设备
CN107680584B (zh) 用于切分音频的方法和装置
TWI740315B (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
CN111958588A (zh) 一种多机器人数据同步的控制方法及系统
US20180047409A1 (en) Denoising a signal
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
CN106910494B (zh) 一种音频识别方法和装置
CN112307255A (zh) 一种音频处理方法、装置、终端和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210202