CN110600022B - 一种音频处理方法、装置及计算机存储介质 - Google Patents

一种音频处理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN110600022B
CN110600022B CN201910748281.1A CN201910748281A CN110600022B CN 110600022 B CN110600022 B CN 110600022B CN 201910748281 A CN201910748281 A CN 201910748281A CN 110600022 B CN110600022 B CN 110600022B
Authority
CN
China
Prior art keywords
noise
signal
power
audio
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910748281.1A
Other languages
English (en)
Other versions
CN110600022A (zh
Inventor
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910748281.1A priority Critical patent/CN110600022B/zh
Priority to PCT/CN2019/117172 priority patent/WO2021027132A1/zh
Publication of CN110600022A publication Critical patent/CN110600022A/zh
Application granted granted Critical
Publication of CN110600022B publication Critical patent/CN110600022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频处理方法、装置及计算机存储介质,其中该方法包括:电子设备获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,N、M和P均为正整数;电子设备获取N个音频信号中每个音频信号的功率以及M种噪声信号中每种噪声信号的功率;针对N个音频信号中的第一音频信号以及P个信噪比中的第一信噪比,电子设备根据第一音频信号的功率以及第一信噪比计算第一音频信号所需添加的噪声信号的功率;电子设备根据第一音频信号所需添加的噪声信号的功率调整M种噪声信号的功率;电子设备将第一音频信号和功率调整后的M种噪声信号进行信号混合,得到第一音频信号对应的已加噪信号。采用本申请,可以提高对音频加噪的处理效率。

Description

一种音频处理方法、装置及计算机存储介质
技术领域
本申请涉及语音处理技术领域,尤其涉及一种音频处理方法、装置及计算机存储介质。
背景技术
随着互联网的发展,音频加噪在许多行业都有了需求。例如,当前热门的听音乐识别歌曲,理想情况下,如果用户录入了没有任何干扰的音乐片段,那么只要在音乐库中存有该音乐,音乐识别系统就能够正确找到匹配的音乐。但是在实际应用中,用户录制的音乐片段会带有明显的干扰,其中既包括播放设备、录制设备等引入的系统噪声,又包括录音周围环境的噪声,因此音乐识别系统需要预先进行训练,使得音乐识别系统能够应用到真实环境中。其中,在训练过程中,需要用到加噪(即添加噪声)后的音频。现有技术中,加噪工具可以给音频进行加噪,但一次性只能添加一种噪声,当用户需要对音频添加多种不同类型的噪声时,则用户需要多次使用工具对某一音频添加多种不同类型的噪声,操作繁琐,耗时长,效率低。
发明内容
本申请实施例提供一种音频处理方法、装置及计算机存储介质,可以提高对音频加噪的处理效率。
第一方面,本申请实施例提供了一种音频处理方法,该方法包括:
电子设备获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,所述N、M和P均为正整数;
所述电子设备获取所述N个音频信号中每个音频信号的功率以及所述M种噪声信号中每种噪声信号的功率;
针对所述N个音频信号中的第一音频信号以及所述P个信噪比中的第一信噪比,所述电子设备根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率;
所述电子设备根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率;
所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号。
实施本发明实施例,电子设备可以一次性对一个或多个音频信号加噪,且能够对一个音频信号添加一种或多种不同类型的噪声,且能够一次性针对一个音频信号得到多个不同信噪比的输出信号,无需用户通过多次操作实现对多个音频信号进行加噪,无需用户通过多次操作对某一音频信号添加多种噪声类型,且无需用户通过多次操作针对同一音频信号得到多个不同信噪比的输出信号,节省了用户的操作,减少了操作时间,提高了对音频加噪的效率,实现了批量的音频处理。
在一种实现方式中,所述电子设备根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率,包括:
所述电子设备根据香农公式计算所述第一音频信号所需添加的噪声信号的功率,其中,所述香农公式为信噪比(dB)=10*log10(A/B)(dB),所述A为所述第一音频信号的功率,所述B为所述第一音频信号所需添加的噪声信号的功率。
在一种实现方式中,所述M为大于等于2的整数,所述方法还包括:
所述电子设备获取所述用户输入的所述M种噪声信号的权重;
所述电子设备根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率,包括:
所述电子设备将所述第一音频信号所需添加的噪声信号的功率按照所述M种噪声信号的权重分配给所述M种噪声信号中的每种噪声信号;
所述电子设备根据所述M种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的的功率。
实施本发明实施例,可以一次性对同一音频信号添加多种类型的噪声。
在一种实现方式中,所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号之后,还包括:
所述电子设备对所述N个音频信号中每个音频信号对应的已加噪信号进行特征标记,所述特征标记包括所述已加噪信号的信噪比、所述已加噪信号所添加的噪声信号的类型、所述已加噪信号所添加的噪声信号的功率中的一项或多项。
在一种实现方式中,所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号之后,还包括:
所述电子设备利用所述N个音频信号中每个音频信号对应的已加噪信号对音乐识别系统进行训练。
在一种实现方式中,所述音频信号包括所述用户通过语音输入设备输入至所述电子设备的音频信号。例如,实施语音输入设备可以是麦克风。
在一种实现方式中,所述噪声信号包括所述用户通过语音输入设备输入至所述电子设备的噪声信号。例如,所述噪声信号可以是用户录制的水流声、鸟叫声等等。可选的,所述噪声信号还可以是白噪声、分红噪声等等,这种噪声可以由信号生成设备生成。
在一种实现方式中,所述电子设备获取所述N个音频信号中每个音频信号的功率以及所述M种噪声信号中每种噪声信号的功率,包括:
所述电子设备提取所述每个音频信号的幅值,根据所述每个音频信号的幅值得到所述每个音频信号的功率;
所述电子设备提取所述每种噪声信号的幅值,根据所述每个噪声信号的幅值得到所述每个噪声信号的功率。
第二方面,本申请实施例提供了一种音频处理装置,包括:
第一获取单元,用于获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,所述N、M和P均为正整数;
第二获取单元,用于获取所述N个音频信号中每个音频信号的功率以及所述M种噪声信号中每种噪声信号的功率;
计算单元,用于针对所述N个音频信号中的第一音频信号以及所述P个信噪比中的第一信噪比,根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率;
调整单元,用于根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率;
混合单元,用于将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号。
在一种实现方式中,所述计算单元具体用于:
根据香农公式计算所述第一音频信号所需添加的噪声信号的功率,其中,所述香农公式为信噪比(dB)=10*log10(A/B)(dB),所述A为所述第一音频信号的功率,所述B为所述第一音频信号所需添加的噪声信号的功率。
在一种实现方式中,所述M为大于等于2的整数,所述音频处理装置还包括:
第三获取单元,用于获取所述用户输入的所述M种噪声信号的权重;
所述调整单元包括:
分配单元,用于将所述第一音频信号所需添加的噪声信号的功率按照所述M种噪声信号的权重分配给所述M种噪声信号中的每种噪声信号;
处理单元,用于根据所述M种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的的功率。
在一种实现方式中,所述音频处理装置还包括:
标记单元,用于对所述N个音频信号中每个音频信号对应的已加噪信号进行特征标记,所述特征标记包括所述已加噪信号的信噪比、所述已加噪信号所添加的噪声信号的类型、所述已加噪信号所添加的噪声信号的功率中的一项或多项。
在一种实现方式中,所述音频处理装置还包括:
训练单元,用于利用所述N个音频信号中每个音频信号对应的已加噪信号对音乐识别系统进行训练。
在一种实现方式中,所述音频信号包括所述用户通过语音输入设备输入至所述电子设备的音频信号。例如,实施语音输入设备可以是麦克风。
在一种实现方式中,所述噪声信号包括所述用户通过语音输入设备输入至所述电子设备的噪声信号。例如,所述噪声信号可以是用户录制的水流声、鸟叫声等等。可选的,所述噪声信号还可以是白噪声、分红噪声等等,这种噪声可以由信号生成设备生成。
在一种实现方式中,所述第二获取单元具体用于:
提取所述每个音频信号的幅值,根据所述每个音频信号的幅值得到所述每个音频信号的功率;
提取所述每种噪声信号的幅值,根据所述每个噪声信号的幅值得到所述每个噪声信号的功率。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、输入装置、输出装置和存储器,处理器、输入装置、输出装置和存储器相互连接。其中,通信接口用于与其它电子设备(例如电子设备)进行通信,存储器用于存储第一方面所提供的音频处理方法的实现代码,处理器用于执行存储器中存储的程序代码,即执行第一方面所提供的音频处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,可读存储介质上存储有指令,当其在处理器上运行时,使得处理器执行上述第一方面描述的音频处理方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在处理器上运行时,使得处理器执行上述第一方面描述的音频处理方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种电子设备的硬件结构示意图;
图2为本发明实施例提供的一种音频处理方法的流程示意图;
图3为本发明实施例提供的一种用户输入界面的示意图;
图4为本发明实施例提供的一种音频信号的参数示意图;
图5A为本发明实施例提供的另一种用户输入界面的示意图;
图5B为本发明实施例提供的另一种用户输入界面的示意图;
图6为本发明实施例提供的一种音频处理装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminaldevice)等等。例如,可以为智能手机、平板电脑等移动终端,还可以为其他终端,此处不做限制。为方便描述,上面提到的设备统称为电子设备。下面结合附图对本发明实施例进行介绍。
请参见图1,图1是本发明实施例提供的一种电子设备的结构示意图,如图1所示,该电子设备100包括:至少一个处理器101,至少一个输入装置102,至少一个输出装置103,存储器104,至少一个总线105。其中,总线105用于实现这些组件之间的连接通信。
本发明实施例中,处理器101可为中央处理器(Central Processing Unit,CPU)或图形处理器(Graphics Processing Unit,GPU),在一些实施方式中,还可以被称为应用处理器(Application processor,AP),以与基带处理器进行区分。该处理器101还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备102可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、摄像头、麦克风等,则输出设备103可以包括显示器(LCD等)、扬声器等。
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。处理器101可用于读取和执行计算机可读指令。具体的,处理器101可用于调用存储于存储器104中的数据。存储器104的一部分还可以包括非易失性随机存取存储器。
具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行下述图2所示音频处理方法涉及的部分或全部流程。
可选的,电子设备100还可以包括通信接口。通信接口可以是收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口,例如电子设备与服务器之间的接口。通信接口可以包括有线接口和无线接口,例如标准接口、以太网、多机同步接口。可选地,当处理器101接收任何消息或数据时,其具体通过驱动或控制通信接口做接收。因此,处理器101可以被视为是执行发送或接收的控制中心,通信接口是发送和接收操作的具体执行者。
本发明实施例中,电子设备100可以是具备计算或处理能力的终端、服务器、电脑、视频播放设备等。
基于图1所示的电子设备的结构,图2提供了本发明实施例涉及的一种音频处理方法,该音频处理方法包括但不限于如下步骤S201-S202。
S201:电子设备获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,N、M和P均为正整数。
其中,用户输入的音频信号可以是一个音频信号也可以是多个音频信号。用户输入的噪声信号可以是一种类型的噪声信号也可以是多种不同类型的噪声信号。用户输入的信噪比可以是一个信噪比也可以是多个信噪比。
可选的,用户输入的音频信号可以是音乐、语音等等。
可选的,用户输入的噪声信号的类型包括白噪声、高斯噪声、粉红噪声或有色噪声等信号生成设备可生成的噪声,也可以包括用户录制的其他类型噪声,例如水流声、鸟叫声等真实的环境噪声。
用户输入的信噪比是指对音频信号进行加噪后,期望加噪后的音频的信号功率和噪声功率的比值。
下面结合图3对用户输入界面进行解释,用户输入界面可以例如但不限于如图3所示。如图3所示,用户输入界面包括:音频信号输入框301、噪声信号输入框302、信噪比输入框303、确定按钮304。若需要输入多个音频信号,则可以通过点击音频信号输入框301右边的“+”号触发输入多个音频信号,同样的,若需要输入多个噪声信号,则可以通过点击噪声信号输入框302右边的“+”号触发输入多个噪声信号,若需要输入多个信噪比,则可以通过点击信噪比输入框303右边的“+”号触发输入多个信噪比。
可选的,电子设备接收到用户点击音频信号输入框301的指令之后,可以通过电子设备的语音输入装置,例如麦克风接收用户输入的音频信号,例如语音或者音乐。或者,电子设备接收到用户点击音频信号输入框301的指令后,可以显示电子设备本地存储文件,用户可以从电子设备本地存储文件中选择音频信号。
同样的,电子设备接收到用户点击噪声信号输入框302的指令之后,可以通过电子设备的语音输入装置,例如麦克风接收用户输入的噪声信号,例如水流声或鸟叫声。或者,电子设备接收到用户点击噪声信号输入框302的指令后,可以显示噪声类型,用户可以从噪声类型中选择噪声信号。
用户在输入了音频信号、噪声信号以及信噪比之后,可以点击确定按钮304。电子设备接收到用户点击确定按钮304的操作后,执行步骤S202。例如,用户输入了2个音频信号,分别为音频信号1和音频信号2,用户输入了2个噪声信号,分别为噪声信号1和噪声信号2,用户输入了2个信噪比,分别为信噪比1和信噪比2。
S202:电子设备获取N个音频信号中每个音频信号的功率以及M种噪声信号中每种噪声信号的功率。
可选的,电子设备获取每个音频信号的功率,包括:
电子设备提取每个音频信号的幅值,根据每个音频信号的幅值得到每个音频信号的功率。若用户是通过麦克风输入的音频信号,则电子设备可以根据该用户输入的音频信号的幅值计算得到该音频信号的功率。若用户是从电子设备本地存储文件中选择的音频文件,则电子设备可以利用语音解析工具将音频文件转换为图4所示的音频信号,其中,横轴为时间,纵轴为幅值,电子设备可以根据该音频信号的幅值计算得到该音频信号的功率。
电子设备获取每种噪声信号的功率,包括:
电子设备提取每种噪声信号的幅值,根据每个噪声信号的幅值得到每个噪声信号的功率。
电子设备提取每个噪声信号的幅值,根据每个噪声信号的幅值得到每个噪声信号的功率。若用户是通过麦克风输入的噪声信号,则电子设备可以根据该用户输入的噪声信号的幅值计算得到该噪声信号的功率。若用户是从电子设备本地选择的噪声文件,则电子设备可以利用语音解析工具将噪声文件转换为图4所示的噪声信号,其中,横轴为时间,纵轴为幅值,电子设备可以根据该噪声信号的幅值计算得到该噪声信号的功率。
例如,音频信号1的功率为10000W,噪声信号1的功率值为9W,噪声信号2的功率值为5W。
S203:针对N个音频信号中的第一音频信号以及P个信噪比中的第一信噪比,电子设备根据第一音频信号的功率以及第一信噪比计算第一音频信号所需添加的噪声信号的功率。
可选的,电子设备根据第一音频信号的功率以及第一信噪比计算第一音频信号所需添加的噪声信号的功率,包括:
电子设备根据香农公式计算第一音频信号所需添加的噪声信号的功率,其中,香农公式为信噪比(dB)=10*log10(A/B)(dB),A为第一音频信号的功率,B为第一音频信号所需添加的噪声信号的功率。
例如,第一音频信号为音频信号1,第一信噪比为信噪比1,音频信号1的功率值为10000W,信噪比1的值为30db。由香农公式计算公式可知,1dB=10*log10(A/B)(dB),因此30dB=10*log10(10000/B)(dB),计算得到B=10,因此计算得到的音频信号1所需添加的噪声信号功率为10W。
采用步骤S203可以计算为每种音频信号所需添加的噪声信号的功率。
例如,利用音频信号1的功率和信噪比1可以计算得到音频信号1在一种情况下所需添加的噪声信号的功率,利用音频信号1的功率和信噪比2可以计算得到音频信号1在另一种情况下所需添加的噪声信号的功率,利用音频信号2的功率和信噪比1可以计算得到音频信号2在一种情况下所需添加的噪声信号的功率,利用音频信号2的功率和信噪比2可以计算得到音频信号2在另一种情况下所需添加的噪声信号的功率。
S204:电子设备根据第一音频信号所需添加的噪声信号的功率调整M种噪声信号的功率。
在一种可能的情况中,用户输入的噪声类型只包括一个噪声类型,则电子设备在通过步骤S203得到第一音频信号所需添加的噪声信号的功率后,即可以确定用户输入的噪声信号调整后的功率值。例如,用户选择的噪声为白噪声,则基于前述示例,可以确定出白噪声对应的噪声信号的功率为10W。
在另一种可能的情况中,噪声类型包括多个噪声类型,这种情况下,用户在用户输入界面中还需要输入这多个噪声类型的权重。例如,参见图5A所示,在一种用户输入界面的示意图。用户可以点击用户输入界面中的权重输入框305输入每种噪声信号的权重,若需要输入多个噪声信号的权重,则可以通过点击权重输入框305右边的“+”号触发输入多个噪声信号的权重。例如,参见图5B所示,用户输入的噪声类型包括白噪声和粉红噪声,且白噪声和粉红噪声对应的权重为3:2。则电子设备根据所述第一音频信号的功率和第一信噪比确定第一音频信号所需添加的噪声信号的功率之后,还包括:电子设备获取所述多个噪声类型的权重,并根据所述多个噪声类型的权重确定所述多个噪声信号中每个噪声信号对应的噪声信号功率。
以图5A为例,噪声类型包括白噪声和粉红噪声,白噪声和粉红噪声对应的权重为3:2,由于噪声总的信号功率为10W,因此根据噪声对应的权重,得到白噪声的信号功率为6W,粉红噪声的信号功率为4W。
电子设备确定了每种噪声类型对应的噪声信号功率之后,对每种噪声信号的功率进行调整。例如,用户输入的噪声为:信号功率为9W的白噪声和信号功率为5W的粉红噪声,则电子设备将白噪声的功率调整为6W,将粉红噪声的信号功率调整为4W。
S205:电子设备将第一音频信号和功率调整后的M种噪声信号进行信号混合,得到第一音频信号对应的已加噪信号。
电子设备在将每种噪声信号的功率进行调整后,将噪声信号和音频信号进行混合,得到加噪后的信号。
例如,利用音频信号1的功率和信噪比1可以计算得到音频信号1在一种情况下所需添加的噪声信号的功率,进而根据噪声信号的功率调整每种噪声信号的功率,最后将调整了功率的噪声信号与音频信号1进行混合,得到一个已加噪的输出信号,该输出信号的信噪比为信噪比1。利用音频信号1的功率和信噪比2可以计算得到音频信号1在另一种情况下所需添加的噪声信号的功率,进而根据噪声信号的功率调整每种噪声信号的功率,最后将调整了功率的噪声信号与音频信号1进行混合,得到另一个已加噪的输出信号,该输出信号的信噪比为信噪比2。利用音频信号2的功率和信噪比1可以计算得到音频信号2在一种情况下所需添加的噪声信号的功率,进而根据噪声信号的功率调整每种噪声信号的功率,最后将调整了功率的噪声信号与音频信号2进行混合,得到一个已加噪的输出信号,该输出信号的信噪比为信噪比1。利用音频信号2的功率和信噪比2可以计算得到音频信号2在另一种情况下所需添加的噪声信号的功率,进而根据噪声信号的功率调整每种噪声信号的功率,最后将调整了功率的噪声信号与音频信号2进行混合,得到一个已加噪的输出信号,该输出信号的信噪比为信噪比2。用户输入了2个音频信号,2个信噪比,最终可以输出4个已加噪的信号。
可选的,所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号之后,还包括:
所述电子设备将所述加噪后的音频信号进行特征标记,所述特征标记包括所述加噪后的音频信号的信噪比、加噪后的音频信号添加的噪声类型和加噪后的音频信号添加的噪声功率。
具体的,电子设备针对多个音频信号进行不同的噪声类型以及不同比例的噪声混合,得到多个加噪后的音频信号后,进行特征标记,可以指示该噪声混合的噪声类型以及各加噪后的信噪比大小,便于对加噪后的音频进行区分。加噪后的音频存储表可以例如但不限于如表1所示:
表1
以音频A为例来进行说明,音频A加噪后的音频分别有:经过白噪声、分红噪声加噪后信噪比为10db的音频A1,经过白噪声、分红噪声加噪后信噪比为20db的音频A2。
需要说明的是,前述实施例均是以进行加噪时,需要用到用户输入的全部噪声为例进行说明的,在实际应用中,在对不同信号进行加噪时,电子设备所使用的噪声可以是不同的,且不必用到全部用户输入的噪声。例如,用户输入的音频信号包括音频信号1和音频信号2,用户输入的噪声信号包括噪声信号1和噪声信号2,用户输入的信噪比包括信噪比1和信噪比2。则电子设备在对音频信号1进行加噪时,可以只选择噪声信号1和噪声信号2中的一种噪声对音频信号1进行加噪,同样的,电子设备在对音频信号1进行加噪时,也可以只选择噪声信号1和噪声信号2中的一种噪声对音频信号2进行加噪。加噪后的音频存储表可以例如但不限于如表2所示:
表2
以音频A为例来进行说明,音频A加噪后的音频分别有:混合了白噪声后信噪比为10db的音频A1,混合了白噪声后信噪比为20db的音频A2,混合了粉红噪声后信噪比为10db的音频A3和混合了粉红噪声后信噪比为10db的音频A4。
所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号之后,还包括:
所述电子设备利用所述N个音频信号中每个音频信号对应的已加噪信号对音乐识别系统进行训练,使得所述音乐识别系统能够识别出真实环境中含噪声的声音。
实施本发明实施例,电子设备可以同时对一个或多个音频信号进行加噪并且可以一次性混合多个噪声类型的噪声,根据实际需求得到加噪后的信噪比,这样批量处理的方式可以简化加噪操作,节约时间,信噪比可调整,可以满足用户需求多样化。
参见图6,图6示给出了一种音频处理装置的结构示意图,如图6所示,该音频处理装置600包括:第一获取单元601、第二获取单元602、计算单元603、调整单元604和混合单元605。
其中,第一获取单元601,用于获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,所述N、M和P均为正整数;
第二获取单元602,用于获取所述N个音频信号中每个音频信号的功率以及所述M种噪声信号中每种噪声信号的功率;
计算单元603,用于针对所述N个音频信号中的第一音频信号以及所述P个信噪比中的第一信噪比,根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率;
调整单元604,用于根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率;
混合单元605,用于将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号。
在一种实现方式中,所述计算单元603具体用于:
根据香农公式计算所述第一音频信号所需添加的噪声信号的功率,其中,所述香农公式为信噪比(dB)=10*log10(A/B)(dB),所述A为所述第一音频信号的功率,所述B为所述第一音频信号所需添加的噪声信号的功率。
在一种实现方式中,所述M为大于等于2的整数,所述音频处理装置还包括:
第三获取单元,用于获取所述用户输入的所述M种噪声信号的权重;
所述调整单元604包括:
分配单元,用于将所述第一音频信号所需添加的噪声信号的功率按照所述M种噪声信号的权重分配给所述M种噪声信号中的每种噪声信号;
处理单元,用于根据所述M种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的的功率。
在一种实现方式中,所述音频处理装置600还包括:
标记单元,用于对所述N个音频信号中每个音频信号对应的已加噪信号进行特征标记,所述特征标记包括所述已加噪信号的信噪比、所述已加噪信号所添加的噪声信号的类型、所述已加噪信号所添加的噪声信号的功率中的一项或多项。
在一种实现方式中,所述音频处理装置600还包括:
训练单元,用于利用所述N个音频信号中每个音频信号对应的已加噪信号对音乐识别系统进行训练。
在一种实现方式中,所述音频信号包括所述用户通过语音输入设备输入至所述电子设备的音频信号。例如,实施语音输入设备可以是麦克风。
在一种实现方式中,所述噪声信号包括所述用户通过语音输入设备输入至所述电子设备的噪声信号。例如,所述噪声信号可以是用户录制的水流声、鸟叫声等等。可选的,所述噪声信号还可以是白噪声、分红噪声等等,这种噪声可以由信号生成设备生成。
在一种实现方式中,所述第二获取单元602具体用于:
提取所述每个音频信号的幅值,根据所述每个音频信号的幅值得到所述每个音频信号的功率;
提取所述每种噪声信号的幅值,根据所述每个噪声信号的幅值得到所述每个噪声信号的功率。
需要说明的是,音频处理装置600中各个单元的功能和实现可以参考前述图2所示方法实施例中的相关描述,此次不再赘述。
在本申请的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc,DVD)、半导体介质(例如固态硬盘solid state disk,SSD)等。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明实施例的保护范围,凡在本发明实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明实施例的保护范围之内。

Claims (9)

1.一种音频处理方法,其特征在于,包括:
电子设备获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,所述N、M和P均为正整数,所述M为大于或等于2的整数;
所述电子设备获取所述N个音频信号中每个音频信号的功率以及所述M种噪声信号中每种噪声信号的功率;
针对所述N个音频信号中的第一音频信号以及所述P个信噪比中的第一信噪比,所述电子设备根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率;
所述电子设备根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率;
所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号;
所述方法还包括:
所述电子设备获取所述用户输入的所述M种噪声信号的权重;
所述电子设备根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率,包括:
所述电子设备将所述第一音频信号所需添加的噪声信号的功率按照所述M种噪声信号的权重分配给所述M种噪声信号中的每种噪声信号;
所述电子设备根据所述M种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的功率。
2.根据权利要求1所述的方法,其特征在于,所述电子设备根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率,包括:
所述电子设备根据香农公式计算所述第一音频信号所需添加的噪声信号的功率,其中,所述香农公式为信噪比(dB)=10*log10(A/B)(dB),所述A为所述第一音频信号的功率,所述B为所述第一音频信号所需添加的噪声信号的功率。
3.根据权利要求1或2所述的方法,其特征在于,所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号之后,还包括:
所述电子设备对所述N个音频信号中每个音频信号对应的已加噪信号进行特征标记,所述特征标记包括所述已加噪信号的信噪比、所述已加噪信号所添加的噪声信号的类型、所述已加噪信号所添加的噪声信号的功率中的一项或多项。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述电子设备将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号之后,还包括:
所述电子设备利用所述N个音频信号中每个音频信号对应的已加噪信号对音乐识别系统进行训练。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述音频信号包括所述用户通过语音输入设备输入至所述电子设备的音频信号。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述噪声信号包括所述用户通过语音输入设备输入至所述电子设备的噪声信号。
7.一种音频处理装置,其特征在于,包括:
第一获取单元,用于获取用户输入的N个音频信号、M种噪声信号以及P个信噪比,所述N、M和P均为正整数,所述M为大于或等于2的整数;
第二获取单元,用于获取所述N个音频信号中每个音频信号的功率以及所述M种噪声信号中每种噪声信号的功率;
计算单元,用于针对所述N个音频信号中的第一音频信号以及所述P个信噪比中的第一信噪比,根据所述第一音频信号的功率以及所述第一信噪比计算所述第一音频信号所需添加的噪声信号的功率;
调整单元,用于根据所述第一音频信号所需添加的噪声信号的功率调整所述M种噪声信号的功率;
混合单元,用于将所述第一音频信号和功率调整后的所述M种噪声信号进行信号混合,得到所述第一音频信号对应的已加噪信号;
第三获取单元,用于获取所述用户输入的所述M种噪声信号的权重;
所述调整单元包括:
分配单元,用于将所述第一音频信号所需添加的噪声信号的功率按照所述M种噪声信号的权重分配给所述M种噪声信号中的每种噪声信号;
处理单元,用于根据所述M种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的功率。
8.一种电子设备,其特征在于,包括处理器、输入装置、输出装置和存储器,所述处理器分别与所述输入装置、所述输出装置和所述存储器连接,其中,所述存储器用于存储计算机程序或数据,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN201910748281.1A 2019-08-12 2019-08-12 一种音频处理方法、装置及计算机存储介质 Active CN110600022B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910748281.1A CN110600022B (zh) 2019-08-12 2019-08-12 一种音频处理方法、装置及计算机存储介质
PCT/CN2019/117172 WO2021027132A1 (zh) 2019-08-12 2019-11-11 一种音频处理方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910748281.1A CN110600022B (zh) 2019-08-12 2019-08-12 一种音频处理方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110600022A CN110600022A (zh) 2019-12-20
CN110600022B true CN110600022B (zh) 2024-02-27

Family

ID=68854167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910748281.1A Active CN110600022B (zh) 2019-08-12 2019-08-12 一种音频处理方法、装置及计算机存储介质

Country Status (2)

Country Link
CN (1) CN110600022B (zh)
WO (1) WO2021027132A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
CN106797512A (zh) * 2014-08-28 2017-05-31 美商楼氏电子有限公司 多源噪声抑制
CN108022591A (zh) * 2017-12-30 2018-05-11 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备
CN108899041A (zh) * 2018-08-20 2018-11-27 百度在线网络技术(北京)有限公司 语音信号加噪方法、装置及存储介质
CN109473094A (zh) * 2018-11-12 2019-03-15 东风汽车有限公司 车载控制屏语音识别率测试方法、电子设备、系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
CN102097100A (zh) * 2011-01-07 2011-06-15 蔡镇滨 一种通过加噪音来降低稳态噪音的装置及方法
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
US9564144B2 (en) * 2014-07-24 2017-02-07 Conexant Systems, Inc. System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise
CN107481731B (zh) * 2017-08-01 2021-01-22 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN107680586B (zh) * 2017-08-01 2020-09-29 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN108133702A (zh) * 2017-12-20 2018-06-08 重庆邮电大学 一种基于mee优化准则的深度神经网络语音增强模型
CN108922517A (zh) * 2018-07-03 2018-11-30 百度在线网络技术(北京)有限公司 训练盲源分离模型的方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
CN106797512A (zh) * 2014-08-28 2017-05-31 美商楼氏电子有限公司 多源噪声抑制
CN108022591A (zh) * 2017-12-30 2018-05-11 北京百度网讯科技有限公司 车内环境中语音识别的处理方法、装置和电子设备
CN108899041A (zh) * 2018-08-20 2018-11-27 百度在线网络技术(北京)有限公司 语音信号加噪方法、装置及存储介质
CN109473094A (zh) * 2018-11-12 2019-03-15 东风汽车有限公司 车载控制屏语音识别率测试方法、电子设备、系统

Also Published As

Publication number Publication date
WO2021027132A1 (zh) 2021-02-18
CN110600022A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN108899044B (zh) 语音信号处理方法及装置
US10045140B2 (en) Utilizing digital microphones for low power keyword detection and noise suppression
US9918174B2 (en) Wireless exchange of data between devices in live events
CN110809214B (zh) 音频播放方法、音频播放装置及终端设备
CN104067341A (zh) 在存在背景噪声的情况下的语音活动检测
US10602270B1 (en) Similarity measure assisted adaptation control
CN113421578B (zh) 音频处理方法、装置、电子设备及存储介质
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
US20220391163A1 (en) Automatic volume adjustment method and apparatus, medium, and device
CN110600022B (zh) 一种音频处理方法、装置及计算机存储介质
EP1783600B1 (en) Method for arbitrating audio data output apparatuses
CN110517708B (zh) 一种音频处理方法、装置及计算机存储介质
CN112307161B (zh) 用于播放音频的方法和装置
CN106782614B (zh) 音质检测方法及装置
CN112349277B (zh) 结合ai模型的特征域语音增强方法及相关产品
CN109378012B (zh) 用于单通道语音设备录制音频的降噪方法及系统
CN111370017B (zh) 一种语音增强方法、装置、系统
CN109716432B (zh) 增益处理方法及其装置、电子设备、信号采集方法及其系统
CN104078049B (zh) 信号处理设备和信号处理方法
CN115985333A (zh) 一种音频信号对齐方法、装置、存储介质及电子设备
CN113517000A (zh) 回声消除的测试方法、终端以及存储装置
US20070067169A1 (en) Method for arbitrating audio data output apparatuses
US20160179726A1 (en) Programming hardware registers using a pipelined register bus, and related methods, systems, and apparatuses
CN110928515B (zh) 分屏显示方法、电子设备及计算机可读存储介质
CN114255741B (zh) 重复音频检测方法、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant