CN111540370A - 音频处理方法、装置、计算机设备及计算机可读存储介质 - Google Patents

音频处理方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111540370A
CN111540370A CN202010317599.7A CN202010317599A CN111540370A CN 111540370 A CN111540370 A CN 111540370A CN 202010317599 A CN202010317599 A CN 202010317599A CN 111540370 A CN111540370 A CN 111540370A
Authority
CN
China
Prior art keywords
audio
attribute information
reserved
synthesized
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010317599.7A
Other languages
English (en)
Inventor
李彬
王福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wingtech Communication Co Ltd
Original Assignee
Wingtech Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wingtech Communication Co Ltd filed Critical Wingtech Communication Co Ltd
Priority to CN202010317599.7A priority Critical patent/CN111540370A/zh
Publication of CN111540370A publication Critical patent/CN111540370A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了音频处理方法、装置、计算机设备及计算机可读存储介质。该方法包括:获取第一合成音频,第一合成音频由多个音频组成;解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;根据待保留音频,输出第二合成音频。本发明提供的方案能够选择性地过滤合成音频中的一部分音频,保留用户所需的音频,提升音频的辨识度。

Description

音频处理方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种音频处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着通信技术和智能终端的迅速发展,基于智能终端的娱乐活动、社交活动等行为越来越多,例如,用户可以通过智能终端进行直播、通话、聊天等使用语音功能的活动。
但由于使用场景的不同,智能终端在接收用户输入的音频的同时,往往还会接收到各种各样的背景声,尤其是在面对突发噪音的情况下,十分影响用户输入的音频的辨识度。因此如何满足各种场景下用户对音频的需求成为了当前亟待解决的问题。
发明内容
本发明实施例提供了一种音频处理方法、装置、计算机设备及计算机可读存储介质,能够选择性地过滤合成音频中的一部分音频,保留用户所需的音频,提升音频的辨识度。
在一实施例中,本发明实施例提供了一种音频处理方法,音频处理方法包括:
获取第一合成音频,第一合成音频由多个音频组成;
解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;
向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;
根据待保留音频,输出第二合成音频。
可选的,若待保留音频的个数为1,根据待保留音频,输出第二合成音频,包括:
将待保留音频作为第二合成音频输出;
若待保留音频的个数大于1,根据待保留音频,输出第二合成音频,包括:
将至少两个待保留音频的时间轴对齐;
对至少两个待保留音频执行合成操作,得到第二合成音频并输出。
可选的,解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息,包括:
将第一合成音频的格式由模拟信号转换为数字信号;
通过深度学习算法解析第一合成音频,得到组成第一合成音频的各个音频和各个音频的声纹特征;
基于各个音频的声纹特征,提取各个音频的属性信息。
可选的,向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息,包括:
通过显示器向用户显示各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息;和/或,
通过播放器向用户语音播报各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
可选的,在从各个音频中查找待保留音频的属性信息对应的待保留音频后,还包括:
对待保留音频进行预处理,预处理包括放大、缩小、剪辑、修饰、压缩中的至少一种。
可选的,音频处理方法还包括:
接收用户输入的控制指令,控制指令用于指示在第二合成音频中添加补充音频;
基于控制指令,获取补充音频;
相应的,根据待保留音频,输出第二合成音频,包括:
将待保留音频和补充音频合成,得到第二合成音频并输出。
可选的,多个音频包括M种噪音音频和N种语音音频,其中,M和N均为大于或者等于1的正整数;
在得到组成第一合成音频的各个音频后,还包括:
去除M种噪音音频中的至少一种噪音音频。
在一实施例中,本发明实施例还提供了一种音频处理装置,音频处理装置包括获取模块、处理模块、交互模块和输出模块;
获取模块,用于获取第一合成音频,第一合成音频由多个音频组成;
处理模块,用于解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;
交互模块,用于向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
处理模块,还用于根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;
输出模块,用于根据待保留音频,输出第二合成音频。
在一实施例中,本发明实施例还提供了一种计算机设备,包括:处理器,处理器用于在执行计算机程序时实现上述任一实施例的方法。
在一实施例中,本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的方法。
在一实施例中,本发明实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的音频处理方法的步骤。
在一实施例中,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请任意实施例所提供的音频处理方法的步骤。
本发明实施例提供了一种音频处理方法、装置、计算机设备及计算机可读存储介质。通过上述方法,对由多个音频组成的第一合成音频进行解析,得到组成第一合成音频的各个音频,并提取各个音频的属性信息提示给用户,基于用户的选择确定待保留音频,输出包括待保留音频的第二合成音频,达到了选择性地过滤合成音频中的一部分音频,保留用户所需的音频的目的。在实际应用场景中,可以去除不需要的音频(比如噪音),保留用户所需的音频,以提升音频的辨识度。
附图说明
图1是一实施例提供的一种音频处理方法的流程示意图;
图2是一实施例提供的一种音频处理装置的显示界面示意图;
图3是一实施例提供的另一种音频处理方法的流程示意图;
图4是一实施例提供的另一种音频处理装置的显示界面示意图;
图5是一实施例提供的又一种音频处理方法的流程示意图;
图6是一实施例提供的一种音频处理装置的结构示意图;
图7是一实施例提供的另一种音频处理装置的结构示意图;
图8是一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
随着通信技术和智能终端的迅速发展,基于智能终端的娱乐活动、社交活动等行为越来越多,例如,用户可以通过智能终端进行直播、通话、聊天等使用语音功能的活动。但由于使用场景的不同,智能终端在接收用户输入的音频的同时,往往还会接收到各种各样的背景声,尤其是在面对突发噪音的情况下,十分影响用户输入的音频的辨识度。
为此,本发明提供一种音频处理方法、装置、计算机设备及计算机可读存储介质,对由多个音频组成的第一合成音频进行解析,得到组成第一合成音频的各个音频,并提取各个音频的属性信息提示给用户,基于用户的选择确定待保留音频,输出包括待保留音频的第二合成音频,达到了选择性地过滤合成音频中的一部分音频,保留用户所需的音频的目的。在实际应用场景中,可以去除不需要的音频(比如噪音),保留用户所需的音频,以提升音频的辨识度。
本发明下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本发明实施例对此不作具体限制。本发明实施例中用“第一”、“第二”等来描述各种组件,但是这些组件不应该受这些术语限制。这些术语仅用来将一个组件与另一组件区分开。本发明中提到的“和/或”是指包括一个或更多个相关所列项目的任何和所有组合。
下面,对音频处理方法、装置及其技术效果进行描述。
图1为一实施例提供的一种音频处理方法的流程示意图,如图1所示,本实施例提供的方法适用于音频处理装置,该方法包括如下步骤。
S101、获取第一合成音频,第一合成音频由多个音频组成。
音频处理装置可以是终端设备、计算机等任意具有音频处理功能的装置。具体的,音频处理装置可以包括扬声器和麦克风,扬声器用于播放下述实施例中输出的第二合成音频,麦克风用于采集第一合成音频。
第一合成音频可以是音频处理装置实时采集的,也可以是之前采集并存储在存储器中的,还可以是从其他设备处发来的,本发明实施例对此不作具体限制。
第一合成音频由多个音频组成,考虑到音频的不同类型,本发明实施例中的多个音频至少包括以下几种情况:情况1、多个音频均为语音音频;情况2、多个音频均为噪音音频;情况3、多个音频中既包括语音音频也包括噪音音频。其中,不同的场景对于噪音音频的定义可以不同,示例性的,噪音音频可以为嘈杂的环境音。
S102、解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息。
具体的,解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息的方法可以包括如下三个步骤:
步骤1、将第一合成音频的格式由模拟信号转换为数字信号;
从麦克风处采集到的第一合成音频通常为模拟信号,在解析第一合成音频前,需要将模拟信号转换为数字信号,以便于后续的处理。可选的,音频处理装置可以利用模数转换器(analogue-to-digital conversion,ADC)实现将第一合成音频的格式由模拟信号转换为数字信号的过程。
步骤2、通过深度学习算法解析第一合成音频,得到组成第一合成音频的各个音频和各个音频的声纹特征;
深度学习(Deep Learning,DL)算法属于机器学习(Machine Learning,ML)领域,是学习样本数据的内在规律和表示层次的过程,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习算法可以通过深度学习模型实现,本申请中可以采用诸如卷积神经网络(convolutional neural network)模型、深度信任网络(DBN)模型和堆栈自编码网络(stacked auto-encoder network)模型等实现上述步骤2。
音频处理装置通过深度学习算法解析第一合成音频,识别出第一合成音频中有几个音频,再分别得到组成第一合成音频的各个音频和各个音频的声纹特征。
音频的声纹特征是用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性,而且有相对稳定性的特点,不同的音频对应的声纹特征不同,通过识别声纹特征可以快速识别该音频的发声声源。例如,每个人说话时的语声都有自己的特点,很熟悉的人之间,可以只听声音就相互辨别出来,这就是语声人各不同的特性。
步骤3、基于各个音频的声纹特征,提取各个音频的属性信息。
音频的属性信息是用于表示该音频内容的信息,且在组成一个合成音频的各个音频中,每个音频的属性信息都唯一指代该音频,以使得将该音频与其他音频进行区分。
在得到各个音频的声纹特征后,可以基于各个音频的声纹特征,提取各个音频的属性信息。示例性的,第一合成音频由两个音频组成,其中一个音频是人声,记为音频一;另一个音频是下雨时的环境音,记为音频二。音频处理装置解析第一合成音频,得到音频一和音频二后,基于音频一的声纹特征,提取音频一的属性信息为“人声”,并基于音频二的声纹特征,提取音频二的属性信息为“雨声”。
S103、向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息。
具体的,向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息的方法可以包括下述两种方法中的至少一种:
方法1、通过显示器向用户显示各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
音频处理装置通过显示器的显示界面向用户显示各个音频的属性信息,在用户选定待保留音频后,通过输入设备输入基于各个音频的属性信息选择的待保留音频的属性信息。输入设备可以为触摸设备,用户点击显示界面上的各个音频的属性信息,被用户点击到的属性信息即为用户选择的待保留音频的属性信息。
方法2、通过播放器向用户语音播报各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
音频处理装置通过播放器按序依次向用户语音播报各个音频的属性信息,在用户选定待保留音频后,通过输入设备输入基于各个音频的属性信息选择的待保留音频的属性信息。输入设备可以为语音输入设备,用户点击显示界面上的语音输入按钮,语音输入选择的待保留音频的属性信息。
S104、根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频。
可选的,在查找到待保留音频的属性信息对应的待保留音频后,还可以对待保留音频进行预处理,预处理包括放大、缩小、剪辑、修饰、压缩中的至少一种。需要说明的是,放大是指放大音频的音量,缩小是指缩小音频的音量,修饰是指对音频进行混音、降噪等处理,压缩是指压缩音频的大小。
S105、根据待保留音频,输出第二合成音频。
其中,第二合成音频包括待保留音频。
可以理解的是,用户选择的待保留音频的个数可以为1,也可以大于1。
若待保留音频的个数为1,则步骤S105执行为:将待保留音频作为第二合成音频输出;若待保留音频的个数大于1,则步骤S105执行为:将至少两个待保留音频的时间轴对齐;对至少两个待保留音频执行合成操作,得到第二合成音频并输出。其中,将至少两个待保留音频的时间轴对齐后再执行合成操作,可以保证第二合成音频的时序正确。
示例性的,假设第一合成音频由3个音频组成,分别记为音频1、音频2和音频3。音频1为男人说话的声音,音频2为女人说话的声音,音频3为犬吠声。音频处理装置获取到第一合成音频后,解析第一合成音频,得到音频1、音频2和音频3,并分别提取音频1的属性信息为“男声”、音频2的属性信息为“女声”、音频3的属性信息为“狗叫声”。如图2所示,图2为一实施例提供的一种音频处理装置的显示界面示意图,可见,音频处理装置通过显示器的显示界面向用户显示音频1、音频2和音频3的属性信息,若用户选定的待保留音频为音频1,用户点击显示界面上的“男声”以使得音频处理装置获知音频1的属性信息“男声”为用户选择的待保留音频的属性信息。此时由于待保留的音频的个数为1,音频处理装置查找到音频1后,将音频1作为第二合成音频输出。
图3为一实施例提供的另一种音频处理方法的流程示意图,如图3所示,本实施例提供的方法适用于音频处理装置,与图1所示的实施例不同的是,图3所示的实施例中还可以在合成第二合成音频时,在第二合成音频中添加补充音频。该方法包括如下步骤。
S201、获取第一合成音频,第一合成音频由多个音频组成。
S202、解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息。
S203、向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息。
S204、根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频。
S205、接收用户输入的控制指令,控制指令用于指示在第二合成音频中添加补充音频。
控制指令可以通过输入设备输入,补充音频可以为背景音。补充音频可以是预先设置好的,也可以是控制指令中指示并由音频处理装置实时获取的。
S206、基于控制指令,获取补充音频。
S207、将待保留音频和补充音频合成,得到第二合成音频并输出。
示例性的,假设第一合成音频由3个音频组成,分别记为音频1、音频2和音频3。音频1为男人说话的声音,音频2为女人说话的声音,音频3为犬吠声。音频处理装置获取到第一合成音频后,解析第一合成音频,得到音频1、音频2和音频3,并分别提取音频1的属性信息为“男声”、音频2的属性信息为“女声”、音频3的属性信息为“狗叫声”。如图4所示,图4为一实施例提供的另一种音频处理装置的显示界面示意图,可见,音频处理装置通过显示器的显示界面向用户显示音频1、音频2和音频3的属性信息,若用户选定的待保留音频为音频1和音频2,用户点击显示界面上的“男声”和“女声”以使得音频处理装置获知音频1的属性信息“男声”以及音频2的属性信息“女声”为用户选择的待保留音频的属性信息。另外,图4中的显示界面上还设置有一个“补充音频”按钮,用户通过点击“补充音频”,可以触发控制指令,以使得音频处理装置获取补充音频。此时由于待保留的音频的个数为2、且用户还需要在第二合成音频中添加补充音频,因此音频处理装置查找到音频1和音频2后,将音频1、音频2和补充音频进行合成,得到第二合成音频并输出。
图5为一实施例提供的又一种音频处理方法的流程示意图,如图5所示,本实施例提供的方法适用于音频处理装置,与图1所示的实施例不同的是,图5所示的实施例尤其适用于音频降噪的场景。该方法包括如下步骤。
S301、获取第一合成音频,第一合成音频由多个音频组成。
其中,多个音频包括M种噪音音频和N种语音音频,其中,M和N均为大于或者等于1的正整数。
示例性的,假设第一合成音频由5个音频组成,分别记为音频1、音频2、音频3、音频4和音频5。音频1为男人说话的声音,音频2为女人说话的声音,音频3为犬吠声,音频4为下雨声,音频5为鸣笛声。其中,音频1、音频2为语音音频,音频3、音频4和音频5为噪音音频。
S302、解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息。
音频处理装置获取到第一合成音频后,解析第一合成音频,得到音频1、音频2、音频3、音频4和音频5,并分别提取音频1的属性信息为“男声”、音频2的属性信息为“女声”、音频3的属性信息为“狗叫声”、音频4的属性信息为“雨声”、音频5的属性信息为“鸣笛声”。
S303、去除M种噪音音频中的至少一种噪音音频。
由于音频3、音频4和音频5为噪音音频,音频处理装置可以选择性地去除音频3、音频4和音频5中的至少一种音频。优选的,在录制微课堂、通话等常见的语音应用场景中,为了保证语音质量,通常会去除第一合成音频中的所有噪音音频,即去除音频3、音频4和音频5。
S304、向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息。
由于在上述步骤中已经去除了噪音音频,因此被去除的音频的属性信息不必再提示给用户,以达到节约资源的目的。
S305、根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频。
S306、根据待保留音频,输出第二合成音频。
其中,第二合成音频包括待保留音频。
本发明实施例提供了一种音频处理方法,包括:获取第一合成音频,第一合成音频由多个音频组成;解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;根据待保留音频,输出第二合成音频。通过上述方法,对由多个音频组成的第一合成音频进行解析,得到组成第一合成音频的各个音频,并提取各个音频的属性信息提示给用户,基于用户的选择确定待保留音频,输出包括待保留音频的第二合成音频,达到了选择性地过滤合成音频中的一部分音频,保留用户所需的音频的目的。在实际应用场景中,可以去除不需要的音频(比如噪音),保留用户所需的音频,以提升音频的辨识度。
图6为一实施例提供的一种音频处理装置的结构示意图,如图6所示,音频处理装置包括获取模块10、处理模块11、交互模块12和输出模块13;
获取模块10,用于获取第一合成音频,第一合成音频由多个音频组成;
处理模块11,用于解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;
交互模块12,用于向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
处理模块11,还用于根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;
输出模块13,用于根据待保留音频,输出第二合成音频。
本实施例提供的音频处理装置为实现上述实施例的音频处理方法,本实施例提供的音频处理装置实现原理和技术效果与上述实施例类似,此处不再赘述。
可选的,若待保留音频的个数为1,输出模块13,具体用于将待保留音频作为第二合成音频输出;若待保留音频的个数大于1,输出模块13,具体用于将至少两个待保留音频的时间轴对齐;对至少两个待保留音频执行合成操作,得到第二合成音频并输出。
可选的,处理模块11,具体用于将第一合成音频的格式由模拟信号转换为数字信号;通过深度学习算法解析第一合成音频,得到组成第一合成音频的各个音频和各个音频的声纹特征;基于各个音频的声纹特征,提取各个音频的属性信息。
可选的,交互模块12,具体用于通过显示器向用户显示各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息;和/或,通过播放器向用户语音播报各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
可选的,处理模块11,还用于在从各个音频中查找待保留音频的属性信息对应的待保留音频后,对待保留音频进行预处理,预处理包括放大、缩小、剪辑、修饰、压缩中的至少一种。
可选的,交互模块12,还用于接收用户输入的控制指令,控制指令用于指示在第二合成音频中添加补充音频;
处理模块,还用于基于控制指令,获取补充音频;
相应的,输出模块13,用于将待保留音频和补充音频合成,得到第二合成音频并输出。
可选的,结合图6,图7为一实施例提供的另一种音频处理装置的结构示意图,如图7所示,还包括:降噪模块;
多个音频包括M种噪音音频和N种语音音频,其中,M和N均为大于或者等于1的正整数;降噪模块,用于去除M种噪音音频中的至少一种噪音音频。
本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的音频处理方法的步骤。
获取第一合成音频,第一合成音频由多个音频组成;
解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;
向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;
根据待保留音频,输出第二合成音频。
在一实施例中,处理器执行计算机程序时还实现以下步骤:
若待保留音频的个数为1,根据待保留音频,输出第二合成音频,包括:
将待保留音频作为第二合成音频输出;
若待保留音频的个数大于1,根据待保留音频,输出第二合成音频,包括:
将至少两个待保留音频的时间轴对齐;
对至少两个待保留音频执行合成操作,得到第二合成音频并输出。
在一实施例中,处理器执行计算机程序时还实现以下步骤:
解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息,包括:
将第一合成音频的格式由模拟信号转换为数字信号;
通过深度学习算法解析第一合成音频,得到组成第一合成音频的各个音频和各个音频的声纹特征;
基于各个音频的声纹特征,提取各个音频的属性信息。
在一实施例中,处理器执行计算机程序时还实现以下步骤:
向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息,包括:
通过显示器向用户显示各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息;和/或,
通过播放器向用户语音播报各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
在一实施例中,处理器执行计算机程序时还实现以下步骤:
在从各个音频中查找待保留音频的属性信息对应的待保留音频后,还包括:
对待保留音频进行预处理,预处理包括放大、缩小、剪辑、修饰、压缩中的至少一种。
在一实施例中,处理器执行计算机程序时还实现以下步骤:
音频处理方法还包括:
接收用户输入的控制指令,控制指令用于指示在第二合成音频中添加补充音频;
基于控制指令,获取补充音频;
相应的,根据待保留音频,输出第二合成音频,包括:
将待保留音频和补充音频合成,得到第二合成音频并输出。
在一实施例中,处理器执行计算机程序时还实现以下步骤:
多个音频包括M种噪音音频和N种语音音频,其中,M和N均为大于或者等于1的正整数;
在得到组成第一合成音频的各个音频后,还包括:
去除M种噪音音频中的至少一种噪音音频。
图8为一实施例提供的一种计算机设备的结构示意图,如图8所示,该计算机设备包括处理器30、存储器31和通信接口32;计算机设备中处理器30的数量可以是一个或多个,图8中以一个处理器30为例;计算机设备中的处理器30、存储器31、通信接口32可以通过总线或其他方式连接,图8中以通过总线连接为例。总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器31作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行计算机设备的至少一种功能应用以及数据处理,即实现上述音频处理方法的步骤。
存储器31可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信接口32可设置为数据的接收与发送。
在一实施例中,本发明实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的音频处理方法的步骤。
在一实施例中,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请任意实施例所提供的音频处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请任意实施例所提供的音频处理方法的步骤,该方法包括如下步骤:
获取第一合成音频,第一合成音频由多个音频组成;
解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息;
向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
根据待保留音频的属性信息,从各个音频中查找待保留音频的属性信息对应的待保留音频;
根据待保留音频,输出第二合成音频。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:
若待保留音频的个数为1,根据待保留音频,输出第二合成音频,包括:
将待保留音频作为第二合成音频输出;
若待保留音频的个数大于1,根据待保留音频,输出第二合成音频,包括:
将至少两个待保留音频的时间轴对齐;
对至少两个待保留音频执行合成操作,得到第二合成音频并输出。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:
解析第一合成音频,得到组成第一合成音频的各个音频,并提取各个音频的属性信息,包括:
将第一合成音频的格式由模拟信号转换为数字信号;
通过深度学习算法解析第一合成音频,得到组成第一合成音频的各个音频和各个音频的声纹特征;
基于各个音频的声纹特征,提取各个音频的属性信息。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:
向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息,包括:
通过显示器向用户显示各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息;和/或,
通过播放器向用户语音播报各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:
在从各个音频中查找待保留音频的属性信息对应的待保留音频后,还包括:
对待保留音频进行预处理,预处理包括放大、缩小、剪辑、修饰、压缩中的至少一种。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:
音频处理方法还包括:
接收用户输入的控制指令,控制指令用于指示在第二合成音频中添加补充音频;
基于控制指令,获取补充音频;
相应的,根据待保留音频,输出第二合成音频,包括:
将待保留音频和补充音频合成,得到第二合成音频并输出。
在一实施例中,计算机程序被处理器执行时还实现以下步骤:
多个音频包括M种噪音音频和N种语音音频,其中,M和N均为大于或者等于1的正整数;
在得到组成第一合成音频的各个音频后,还包括:
去除M种噪音音频中的至少一种噪音音频。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质包括(非穷举的列表):具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(electrically erasable,programmable Read-Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,数据信号中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或多种程序设计语言组合来编写用于执行本公开操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Ruby、Go,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(Local Area Network,LAN)或广域网(Wide Area Network,WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域内的技术人员应明白,术语用户终端涵盖任何适合类型的无线用户设备,例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。
一般来说,本发明的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本发明不限于此。
本发明的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本发明附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑器件(Field-Programmable Gate Array,FGPA)以及基于多核处理器架构的处理器。

Claims (10)

1.一种音频处理方法,其特征在于,所述音频处理方法包括:
获取第一合成音频,所述第一合成音频由多个音频组成;
解析所述第一合成音频,得到组成所述第一合成音频的各个音频,并提取各个音频的属性信息;
向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
根据所述待保留音频的属性信息,从各个音频中查找所述待保留音频的属性信息对应的待保留音频;
根据所述待保留音频,输出第二合成音频。
2.根据权利要求1所述的音频处理方法,其特征在于,若所述待保留音频的个数为1,所述根据所述待保留音频,输出第二合成音频,包括:
将所述待保留音频作为所述第二合成音频输出;
若所述待保留音频的个数大于1,所述根据所述待保留音频,输出第二合成音频,包括:
将至少两个所述待保留音频的时间轴对齐;
对所述至少两个所述待保留音频执行合成操作,得到所述第二合成音频并输出。
3.根据权利要求1所述的音频处理方法,其特征在于,所述解析所述第一合成音频,得到组成所述第一合成音频的各个音频,并提取各个音频的属性信息,包括:
将所述第一合成音频的格式由模拟信号转换为数字信号;
通过深度学习算法解析所述第一合成音频,得到组成所述第一合成音频的各个音频和各个音频的声纹特征;
基于各个音频的声纹特征,提取各个音频的属性信息。
4.根据权利要求1所述的音频处理方法,其特征在于,所述向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息,包括:
通过显示器向用户显示各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息;和/或,
通过播放器向用户语音播报各个音频的属性信息,并接收用户通过输入设备输入的基于各个音频的属性信息选择的待保留音频的属性信息。
5.根据权利要求1或2所述的音频处理方法,其特征在于,在从各个音频中查找所述待保留音频的属性信息对应的待保留音频后,还包括:
对所述待保留音频进行预处理,所述预处理包括放大、缩小、剪辑、修饰、压缩中的至少一种。
6.根据权利要求1所述的音频处理方法,其特征在于,所述音频处理方法还包括:
接收用户输入的控制指令,所述控制指令用于指示在所述第二合成音频中添加补充音频;
基于所述控制指令,获取所述补充音频;
相应的,所述根据所述待保留音频,输出第二合成音频,包括:
将所述待保留音频和所述补充音频合成,得到所述第二合成音频并输出。
7.根据权利要求1所述的音频处理方法,其特征在于,所述多个音频包括M种噪音音频和N种语音音频,其中,M和N均为大于或者等于1的正整数;
在得到组成所述第一合成音频的各个音频后,还包括:
去除所述M种噪音音频中的至少一种噪音音频。
8.一种音频处理装置,其特征在于,所述音频处理装置包括获取模块、处理模块、交互模块和输出模块;
所述获取模块,用于获取第一合成音频,所述第一合成音频由多个音频组成;
所述处理模块,用于解析所述第一合成音频,得到组成所述第一合成音频的各个音频,并提取各个音频的属性信息;
所述交互模块,用于向用户提示各个音频的属性信息,并接收用户基于各个音频的属性信息选择的待保留音频的属性信息;
所述处理模块,还用于根据所述待保留音频的属性信息,从各个音频中查找所述待保留音频的属性信息对应的待保留音频;
所述输出模块,用于根据所述待保留音频,输出第二合成音频。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述音频处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述音频处理方法的步骤。
CN202010317599.7A 2020-04-21 2020-04-21 音频处理方法、装置、计算机设备及计算机可读存储介质 Pending CN111540370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010317599.7A CN111540370A (zh) 2020-04-21 2020-04-21 音频处理方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317599.7A CN111540370A (zh) 2020-04-21 2020-04-21 音频处理方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111540370A true CN111540370A (zh) 2020-08-14

Family

ID=71976940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010317599.7A Pending CN111540370A (zh) 2020-04-21 2020-04-21 音频处理方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111540370A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634860A (zh) * 2020-12-29 2021-04-09 苏州思必驰信息科技有限公司 儿童语音识别模型训练语料筛选方法
CN113223538A (zh) * 2021-04-01 2021-08-06 北京百度网讯科技有限公司 语音唤醒方法、装置、系统、设备和存储介质
CN113539214A (zh) * 2020-12-29 2021-10-22 腾讯科技(深圳)有限公司 音频转换方法、音频转换装置及设备
WO2022022536A1 (zh) * 2020-07-30 2022-02-03 维沃移动通信有限公司 音频播放方法、音频播放装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890936A (zh) * 2011-07-19 2013-01-23 联想(北京)有限公司 一种音频处理方法、终端设备及系统
CN108174236A (zh) * 2017-12-22 2018-06-15 维沃移动通信有限公司 一种媒体文件处理方法、服务器及移动终端
CN109584897A (zh) * 2018-12-28 2019-04-05 努比亚技术有限公司 视频降噪方法、移动终端及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890936A (zh) * 2011-07-19 2013-01-23 联想(北京)有限公司 一种音频处理方法、终端设备及系统
CN108174236A (zh) * 2017-12-22 2018-06-15 维沃移动通信有限公司 一种媒体文件处理方法、服务器及移动终端
CN109584897A (zh) * 2018-12-28 2019-04-05 努比亚技术有限公司 视频降噪方法、移动终端及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022022536A1 (zh) * 2020-07-30 2022-02-03 维沃移动通信有限公司 音频播放方法、音频播放装置和电子设备
CN112634860A (zh) * 2020-12-29 2021-04-09 苏州思必驰信息科技有限公司 儿童语音识别模型训练语料筛选方法
CN113539214A (zh) * 2020-12-29 2021-10-22 腾讯科技(深圳)有限公司 音频转换方法、音频转换装置及设备
CN112634860B (zh) * 2020-12-29 2022-05-03 思必驰科技股份有限公司 儿童语音识别模型训练语料筛选方法
CN113539214B (zh) * 2020-12-29 2024-01-02 腾讯科技(深圳)有限公司 音频转换方法、音频转换装置及设备
CN113223538A (zh) * 2021-04-01 2021-08-06 北京百度网讯科技有限公司 语音唤醒方法、装置、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111540370A (zh) 音频处理方法、装置、计算机设备及计算机可读存储介质
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN113129917A (zh) 基于场景识别的语音处理方法及其装置、介质和系统
CN109065051B (zh) 一种语音识别处理方法及装置
CN112037792B (zh) 一种语音识别方法、装置、电子设备及存储介质
US11062708B2 (en) Method and apparatus for dialoguing based on a mood of a user
CN111986689A (zh) 音频播放方法、音频播放装置和电子设备
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN110047497B (zh) 背景音频信号滤除方法、装置及存储介质
JP2020003774A (ja) 音声を処理する方法及び装置
CN110428835A (zh) 一种语音设备的调节方法、装置、存储介质及语音设备
WO2017000772A1 (zh) 一种前端音频处理系统
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN107452398A (zh) 回声获取方法、电子设备及计算机可读存储介质
CN114255782A (zh) 说话人语音增强方法、电子设备和存储介质
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
CN113362806A (zh) 智能音响的评测方法、系统、存储介质及其计算机设备
US11798573B2 (en) Method for denoising voice data, device, and storage medium
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN112509567B (zh) 语音数据处理的方法、装置、设备、存储介质及程序产品
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
CN109065066B (zh) 一种通话控制方法、装置及设备
CN113436613A (zh) 语音识别方法、装置、电子设备及存储介质
CN110855832A (zh) 一种辅助通话的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination