CN111210021B - 一种音频信号处理方法、模型训练方法以及相关装置 - Google Patents

一种音频信号处理方法、模型训练方法以及相关装置 Download PDF

Info

Publication number
CN111210021B
CN111210021B CN202010023045.6A CN202010023045A CN111210021B CN 111210021 B CN111210021 B CN 111210021B CN 202010023045 A CN202010023045 A CN 202010023045A CN 111210021 B CN111210021 B CN 111210021B
Authority
CN
China
Prior art keywords
audio
signal
howling
input signal
audio input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010023045.6A
Other languages
English (en)
Other versions
CN111210021A (zh
Inventor
张金亮
余涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010023045.6A priority Critical patent/CN111210021B/zh
Publication of CN111210021A publication Critical patent/CN111210021A/zh
Priority to PCT/CN2020/124244 priority patent/WO2021139327A1/zh
Priority to EP20911413.1A priority patent/EP3998557B1/en
Priority to US17/700,862 priority patent/US20220215853A1/en
Application granted granted Critical
Publication of CN111210021B publication Critical patent/CN111210021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本申请公开了一种音频信号处理方法、模型训练方法以及相关装置,通过对音频输入信号输入机器学习模型,以得到第一啸叫点以及对应的第一增益值;然后根据第二增益值对音频输入信号中的第二啸叫点进行处理,以得到音频输出信号。从而实现了对于音频输入信号中啸叫的抑制,使得啸叫在初始阶段就被抑制,无法在进行增益循环;由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性,使得上述处理过程迅速,且不会对有效音频信号产生影响,提高了音频处理的准确性及效率。

Description

一种音频信号处理方法、模型训练方法以及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频信号处理方法、模型训练方法以及相关装置。
背景技术
随着移动终端相关技术的发展,越来越多的智能设备出现在人们的生活中,其中,通过智能设备进行进行语音通话尤为突出,然而由于通话过程中本端麦克风也会采集到对端扬声器的音频信号,这些音频信号可能在本端与对端的语音过程中循环,尤其在近距离的语音过程中,音频信号会不断的循环增益,从而产生啸叫。
一般,可以采用移频器或移相器对本端的输入音频进行处理,即破坏与啸叫产生的相位一致的音频信息,从而实现啸叫抑制。
但是,使用移频器或移相器的方法处理时间较长,不适用于语音通话的实时处理的场景,且由于对于啸叫点固定的相位移除,也会对有效音频的音质产生损伤,影响音频处理的准确性。
发明内容
有鉴于此,本申请提供一种音频信号处理的方法,可以有效定位啸叫点并进行啸叫抑制,提高音频信号处理过程的准确性。
本申请第一方面提供一种音频信号处理的方法,可以应用于终端设备中包含音频信号处理功能的系统或程序中,具体包括:获取第一音频输入信号;
将所述第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据所述第一啸叫点获得第一增益值,其中,所述第一啸叫点用于指示所述第一音频输入信号中有效音频输入信号对应频段的啸叫点;所述第一增益值用于指示所述第一啸叫点的抑制参数,根据所述第一增益值处理所述第一音频输入信号,以得到第二音频输入信号;
检测所述第二音频输入信号,以得到第二啸叫点,根据所述第二啸叫点获得第二增益值,所述第二啸叫点用于指示非所述有效音频信号对应频段的啸叫点;
根据第二增益值对第二音频输入信号进行处理,以得到音频输出信号。
可选的,在本申请一些可能的实现方式中,所述将所述第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据所述第一啸叫点获得第一增益值,包括:
将所述音频输入信号转换至频域,以提取多个音频特征,所述音频特征基于所述有效音频信号或所述啸叫样本的特征确定;
将所述音频特征输入所述机器学习模型,以确定所述第一啸叫点;
根据所述第一啸叫点获得对应的第一增益值。
可选的,在本申请一些可能的实现方式中,所述将所述音频输入信号转换至频域,以提取多个音频特征,包括:
将所述音频输入信号调整至目标频率,以转换至频域;
确定转换至频域后的音频输入信号中的多个采样点;
基于所述采样点提取多个所述音频特征。
可选的,在本申请一些可能的实现方式中,所述确定转换至频域后的音频输入信号中的多个采样点,包括:
基于窗函数对转换至频域后的音频输入信号进行划分,以得到多个子带;
确定所述子带中的多个所述采样点。
可选的,在本申请一些可能的实现方式中,所述根据第二增益值对第二音频输入信号进行处理,以得到音频输出信号,包括:
获取所述第二音频输入信号对应的功率谱;
检测所述功率谱中的极值,并确定对应的候选频点;
根据所述候选频点确定所述第二啸叫点;
根据所述第二增益值对所述第二啸叫点进行处理,以得到所述音频输出信号。
可选的,在本申请一些可能的实现方式中,所述根据所述候选频点确定所述第二啸叫点,包括:
获取所述候选频点相邻的多个频点,以确定候选范围;
确定所述候选范围中频点的平均频率平均值,以获取峰值均值比;
若所述峰值均值比大于啸叫阈值,则确定所述候选频点为所述第二啸叫点。
可选的,在本申请一些可能的实现方式中,所述根据所述候选频点确定所述第二啸叫点之后,所述方法还包括:
获取有效音频信号中的特征信息,所述特征信息基于所述有效音频信号指示的波形特征确定,所述有效音频信号用于指示语音样本;
根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号;
对所述有效音频信号进行锁定操作,所述锁定操作用于指示所述第二增益值的非作用对象。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
确定所述第二啸叫点对应的多个增益帧;
根据平滑公式对所述增益帧进行处理,以对所述音频输出信号进行更新。
可选的,在本申请一些可能的实现方式中,所述获取第一音频输入信号,包括:
获取采集信号;
将所述采集信号转换为数字信号;
将所述数字信号输入放大器,以得到所述第一音频输入信号。
可选的,在本申请一些可能的实现方式中,所述将所述数字信号输入放大器,以得到所述第一音频输入信号,包括:
将所述数字信号输入放大器,以得到放大信号;
根据滤波参数处理所述放大信号,以得到滤波后的放大信号;
将所述滤波后的放大信号进行傅立叶变换到频域,以得到所述第一音频输入信号。
可选的,在本申请一些可能的实现方式中,所述机器学习模型为循环神经网络模型,所述第一音频输入信号和所述音频输出信号应用于终端设备的语音通话过程中。
可选的,在本申请一些可能的实现方式中,所述音频信号的处理方法应用于游戏语音通话过程中,所述获取第一音频输入,包括:
检测特征元素的触发情况,所述特征元素为游戏界面中的元素;
若所述特征元素被触发,则获取所述第一音频输入。
本申请第二方面提供一种音频信号处理的装置,包括:获取单元,用于获取第一音频输入信号;
输入单元,用于将所述第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据所述第一啸叫点获得第一增益值,其中,所述第一啸叫点用于指示所述第一音频输入信号中有效音频输入信号对应频段的啸叫点;所述第一增益值用于指示所述第一啸叫点的抑制参数,根据所述第一增益值处理所述第一音频输入信号,以得到第二音频输入信号;
检测单元,用于检测所述第二音频输入信号,以得到第二啸叫点,根据所述第二啸叫点获得第二增益值,所述第二啸叫点用于指示非所述有效音频信号对应频段的啸叫点;
处理单元,用于根据第二增益值对第二音频输入信号进行处理,以得到音频输出信号。
可选的,在本申请一些可能的实现方式中,所述输入单元,具体用于将所述音频输入信号转换至频域,以提取多个音频特征,所述音频特征基于所述有效音频信号或所述啸叫样本的特征确定;
所述输入单元,具体用于将所述音频特征输入所述机器学习模型,以确定所述第一啸叫点;
所述输入单元,具体用于根据所述第一啸叫点获得对应的第一增益值。
可选的,在本申请一些可能的实现方式中,所述输入单元,具体用于将所述音频输入信号调整至目标频率,以转换至频域;
所述输入单元,具体用于确定转换至频域后的音频输入信号中的多个采样点;
所述输入单元,具体用于基于所述采样点提取多个所述音频特征。
可选的,在本申请一些可能的实现方式中,所述输入单元,具体用于基于窗函数对转换至频域后的音频输入信号进行划分,以得到多个子带;
所述输入单元,具体用于确定所述子带中的多个所述采样点。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于获取所述第二音频输入信号对应的功率谱;
所述检测单元,具体用于检测所述功率谱中的极值,并确定对应的候选频点;
所述检测单元,具体用于根据所述候选频点确定所述第二啸叫点;
所述检测单元,具体用于根据所述第二增益值对所述第二啸叫点进行处理,以得到所述音频输出信号。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于获取所述候选频点相邻的多个频点,以确定候选范围;
所述检测单元,具体用于确定所述候选范围中频点的平均频率平均值,以获取峰值均值比;
所述检测单元,具体用于若所述峰值均值比大于啸叫阈值,则确定所述候选频点为所述第二啸叫点。
可选的,在本申请一些可能的实现方式中,所述检测单元,还用于获取有效音频信号中的特征信息,所述特征信息基于所述有效音频信号指示的波形特征确定,所述有效音频信号用于指示语音样本;
所述检测单元,具体用于根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号;
所述检测单元,具体用于对所述有效音频信号进行锁定操作,所述锁定操作用于指示所述第二增益值的非作用对象。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于确定所述第二啸叫点对应的多个增益帧;
所述处理单元,具体用于根据平滑公式对所述增益帧进行处理,以对所述音频输出信号进行更新。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于获取采集信号;
所述获取单元,具体用于将所述采集信号转换为数字信号;
所述获取单元,具体用于将所述数字信号输入放大器,以得到所述第一音频输入信号。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于将所述数字信号输入放大器,以得到放大信号;
所述获取单元,具体用于根据滤波参数处理所述放大信号,以得到滤波后的放大信号;
所述获取单元,具体用于将所述滤波后的放大信号进行傅立叶变换到频域,以得到所述第一音频输入信号。
可选的,在本申请一些可能的实现方式中,所述音频信号的处理方法应用于游戏语音通话过程中,所述获取单元,具体用于检测特征元素的触发情况,所述特征元素为游戏界面中的元素;
所述获取单元,具体用于若所述特征元素被触发,则获取所述第一音频输入。
本申请第三方面提供一种机器学习模型训练的方法,包括:采集参考信号和语音样本信号,所述参考信号为基于至少两种变量元素确定的啸叫信号,所述变量元素包括程序类别、程序运行时段或程序运行位置,所述采集信号用于指示通话过程中的有效语音;
根据所述参考信号和采集信号生成特征训练集;
将所述特征训练集输入机器学习模型进行至少一个循环的训练,以得到训练后的机器学习模型,所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。
本申请第四方面提供一种机器学习模型训练的装置,包括:采集单元,用于采集参考信号和语音样本信号,所述参考信号为基于至少两种变量元素确定的啸叫信号,所述变量元素包括程序类别、程序运行时段或程序运行位置,所述采集信号用于指示通话过程中的有效语音;
生成单元,用于根据所述参考信号和采集信号生成特征训练集;
训练单元,用于将所述特征训练集输入机器学习模型进行至少一个循环的训练,以得到训练后的机器学习模型,所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。
本申请第五方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的音频信号处理的方法,或第三方面所述的机器模型训练的方法。
本申请第六方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的音频信号处理的方法,或第三方面所述的机器模型训练的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取第一音频输入信号;然后将该第一音频输入信号输入机器学习模型,以得到处理有效音频信号频段的第一增益值;并根据该第一增益值处理该第一音频输入信号,以得到第二音频输入信号;接下来检测该第二音频输入信号,以得到第二啸叫点,该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点;进而根据第二增益值对该第二音频输入信号进行处理,以得到音频输出信号,该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制,使得啸叫在初始阶段就被抑制,无法在进行增益循环;由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性,以及进一步的对未处理的啸叫点进行第二增益值的处理,使得上述啸叫点抑制过程迅速且全面,且不会对有效音频信号产生影响,提高了音频处理的准确性及效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为音频信号处理系统运行的网络架构图;
图2为本申请实施例提供的一种音频信号处理的流程架构图;
图3为本申请实施例提供的一种音频信号处理的方法的流程图;
图4为本申请实施例提供的另一种音频信号处理的方法的流程图;
图5为本申请实施例提供的一种音频信号处理的场景示意图;
图6为本申请实施例提供的另一种音频信号处理的场景示意图;
图7为本申请实施例提供的另一种音频信号处理的方法的流程图;
图8为本申请实施例提供的一种音频信号处理对比图;
图9为本申请实施例提供的另一种音频信号处理的方法的流程图;
图10为本申请实施例提供的一种音频信号处理方法的界面示意图;
图11为本申请实施例提供的另一种音频信号处理方法的界面示意图;
图12为本申请实施例提供的一种机器学习模型训练的方法的流程图;
图13为本申请实施例提供的一种机器学习模型训练的流程示意图;
图14为本申请实施例提供的一种音频信号处理装置的结构示意图;
图15为本申请实施例提供的一种机器学习模型训练装置的结构示意图;
图16为本申请实施例提供的一种终端设备的结构示意图;
图17为本申请实施例提供的服务器一种结构示意图。
具体实施方式
本申请实施例提供了一种音频信号处理的方法以及相关装置,可以应用于终端设备中包含音频信号处理功能的系统或程序中,通过获取第一音频输入信号;然后将该第一音频输入信号输入机器学习模型,以得到处理有效音频信号频段的第一增益值;并根据该第一增益值处理该第一音频输入信号,以得到第二音频输入信号;接下来检测该第二音频输入信号,以得到第二啸叫点,该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点;进而根据第二增益值对该第二音频输入信号进行处理,以得到音频输出信号,该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制,使得啸叫在初始阶段就被抑制,无法在进行增益循环;由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性,以及进一步的对未处理的啸叫点进行第二增益值的处理,使得上述啸叫点抑制过程迅速且全面,且不会对有效音频信号产生影响,提高了音频处理的准确性及效率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
啸叫:麦克风采集的声音信号经过扬声器放大,再被麦克风拾取,信号在反馈回路中不断的叠加放大,正反馈产生震荡循环,进而产生的现象。
啸叫点:在音频信号中循环增益大于等于1的频点。
有效音频信号:指示音频信号中的目标音频,例如语音通话过程中的语音信号。
非有效音频信号:指示音频信号中的干扰音频,例如环境噪声、回声等。
增益值:对于指定频段的音频信号的处理变化程度,在啸叫抑制场景中用于指示对于啸叫点对应音频信号的缩小倍数。
基音周期:人发声过程中声带每开启和闭合一次的周期时间,即可以用于指示有效音频信号的参数。
机器学习模型:通过给定样本进行参数调节,以使得输出具有给定样本相似特征的模型。
功率谱:信号功率随着频率的变化情况,即信号功率在频域的分布状况。
模数转换器(Analog-to-Digital Converter,ADC):一种将模拟信号转变为数字信号的电子元件。
循环神经网络模型(Recurrent Neural Network,RNN):一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
卷积神经网络模型(Convolutional Neural Networks,CNN):卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。
应理解,本申请提供的音频信号处理方法可以应用于终端设备中包含音频信号处理功能的系统或程序中,例如作为游戏的语音插件,具体的,音频信号处理系统可以运行于如图1所示的网络架构中,如图1所示,是音频信号处理系统运行的网络架构图,如图可知,音频信号处理系统可以提供与多个信息源的音频信号处理,终端通过网络建立与服务器的连接,进而接收其他终端发送的音频信号,通过对接收到的信号进行本申请提供的音频信号处理方法进行啸叫抑制,以得到音频输出,从而实现了多个终端之间的音频互动过程;可以理解的是,图1中示出了多种终端设备,在实际场景中可以有更多或更少种类的终端设备参与到音频信号处理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多内容应用交互的场景中,具体服务器数量因实际场景而定。
应当注意的是,本实施例提供的音频信号处理方法也可以离线进行,即不需要服务器的参与,此时终端在本地与其他终端进行音频信号互动,进而进行终端之间的音频信号处理的过程。
可以理解的是,上述音频信号处理系统可以运行于个人移动终端,例如:作为游戏语音插件这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供音频信号处理,以得到信息源的音频信号处理处理结果;具体的音频信号处理系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着移动终端相关技术的发展,越来越多的智能设备出现在人们的生活中,其中,通过智能设备进行进行语音通话尤为突出,然而由于通话过程中本端麦克风也会采集到对端扬声器的音频信号,这些音频信号可能在本端与对端的语音过程中循环,尤其在近距离的语音过程中,音频信号会不断的循环增益,从而产生啸叫。
一般,可以采用移频器或移相器对本端的输入音频进行处理,即破坏与啸叫产生的相位一致的音频信息,从而实现啸叫抑制。
但是,使用移频器或移相器的方法处理时间较长,不适用于语音通话的实时处理的场景,且由于对于啸叫点固定的相位移除,也会对有效音频的音质产生损伤,影响音频处理的准确性。
为了解决上述问题,本申请提出了一种音频信号处理的方法,该方法应用于图2所示的音频信号处理的流程框架中,如图2所示,为本申请实施例提供的一种音频信号处理的流程架构图,首先终端设备收集用户的语音,并转换为音频信号,然后输入训练好的机器学习模型进行啸叫点的筛选并进行抑制,进一步的对于未处理的啸叫点进行增益控制,从而得到啸叫抑制后的音频信号以作为输出。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种音频信号处理装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该音频信号处理装置通过获取第一音频输入信号;然后将该第一音频输入信号输入机器学习模型,以得到处理有效音频信号频段的第一增益值;并根据该第一增益值处理该第一音频输入信号,以得到第二音频输入信号;接下来检测该第二音频输入信号,以得到第二啸叫点,该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点;进而根据第二增益值对该第二音频输入信号进行处理,以得到音频输出信号,该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制,使得啸叫在初始阶段就被抑制,无法在进行增益循环;由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性,以及进一步的对未处理的啸叫点进行第二增益值的处理,使得上述啸叫点抑制过程迅速且全面,且不会对有效音频信号产生影响,提高了音频处理的准确性及效率。
结合上述流程架构,下面将对本申请中音频信号处理的方法进行介绍,请参阅图3,图3为本申请实施例提供的一种音频信号处理的方法的流程图,本申请实施例至少包括以下步骤:
301、获取第一音频输入信号。
本实施例中,第一音频输入信号可以是开始语音通话时的初始音频信号;也可以是通话一段时间后的音频信号,具体的,由于啸叫的产生为音频信号在反馈回路中不断增益的过程,即反馈增益累计的过程,其中,反馈回路即为本端麦克风与对端扬声器组成的回路;故不同时间段的音频信号可能累计的反馈增益不同,可以立即唤起本申请提供的音频处理方法,也可以等待反馈增益大于或等于1后再唤起本申请提供的音频处理方法。这是由于啸叫的产生需要在音频信号的回路中的反馈增益大于或等于1。
可选的,获取的第一音频输入信号可以是经过初步放大的信号,具体的,首先获取采集信号,该采集信号可以是由麦克风或其他采集设备采集的;然后将该采集信号转换为数字信号,例如通过ADC进行转换;进一步的将该数字信号输入放大器,从而得到该第一音频输入信号。由于对于音频输入信号进行了放大,一方面便于用户收听,另一方面便于本申请后续的啸叫点的筛选过程。
另外,考虑到采集设备收集到的采集信号可能含有明显的杂音,例如:频率远远大于语音范围的信号;此时可以进行初步的噪声筛除。具体的,将该数字信号输入放大器,以得到放大信号;然后根据滤波参数处理该放大信号,以得到滤波后的放大信号;进一步的将该滤波后的放大信号进行傅立叶变换到频域,以得到该第一音频输入信号。其中,滤波参数可以是固定值,也可以是根据历史记录中常见噪声对应的频带进行的针对性设定。
302、将第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据第一啸叫点获得第一增益值。
本实施例中,第一啸叫点用于指示第一音频输入信号中有效音频输入信号对应频段的啸叫点;第一增益值用于指示第一啸叫点的抑制参数,根据第一增益值处理第一音频输入信号,以得到第二音频输入信号;另外,该机器学习模型基于多个训练信号训练所得,该训练信号中包含多个啸叫点样本,该第一啸叫点用于指示有效音频信号对应频段的啸叫点。
由于啸叫点与有效语音在频带分布或能量特征在存在一些差异,可以通过确定音频输入信号中的多个特征进行提取,这些特征可以基于有效音频信号的特征进行选择,例如:频段分布、基音周期的位置、信号波动频率等;进而输入该机器学习模型,以确定对应的第一啸叫点;然后根据该第一啸叫点确定对应的第一增益值。
具体的,特征的提取可以是基于有效音频信号进行的,一方面可以基于有效音频信号的参数特征信息,例如有效音频信号的梅尔频率倒谱系数,或基于该系数的数学变形;二方面还可以基于有效音频信号的生物特征信息,例如基音周期,这是由于人声在500Hz内的音频信号存在基音周期,而啸叫信号不存在;三方面还可以基于有效音频信号的波形特征信息,例如根据有效音频信号在特定频段内的波动情况进行判断,这是由于有效音频信号存在短时平稳的特征。通过上述特征的提取,可以很好的区别出有效音频信号和啸叫点对应的信号,使得有效音频信号的特征可以被机器学习模型进行学习,从而提高机器学习模型对于有效音频信号提取的准确度。
对于上述特征的举例仅为示意,具体的特征可以是指示有效音频信号的特征,也可以是指示啸叫信号的特征,还可以是指示有效音频信号和啸叫信号的区别特征,此处不做限定。
可选的,考虑到不同场景下输入信号的采集频率不同,可以将该音频输入信号调整至目标频率,以转换至频域;例如:一般手机语音通话都采用16KHz的采样率,故将目标频率调整为16KHz;然后确定转换至频域后的音频输入信号中的多个采样点;并基于该采样点提取多个该音频特征。从而对输入信号进行多线程的处理,提高音频处理的效率。
另外,在将音频输入信号由时域转换至频域的过程中,为使得时域信号更好地满足傅里叶变换过程中的周期性要求,减少信号遗漏,对于输入信号的划分可以基于窗函数进行,即基于窗函数对转换至频域后的音频输入信号进行划分,以得到多个子带;然后确定该子带中的多个该采样点。其中,窗函数可以是矩形窗、高斯窗或Kaiser窗等,具体的函数形式因实际场景而定。
303、检测第二音频输入信号,以得到第二啸叫点,根据第二啸叫点获得第二增益值。
本实施例中,第一增益值对应于第一音频输入信号中的多个啸叫点,而每个啸叫点对应于多个频带,这些频带的集合称为子带;故第一增益值可以包括多个啸叫抑制增益值,且每个啸叫抑制增益都是0~1的浮点数;将第一增益值输入第一音频输入信号中,其每个子带乘以对应子带的啸叫抑制衰减增益,即可得到机器学习啸叫抑制处理后的结果,即第二音频输入信号。
可以理解的是,该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点。由于机器模型训练中可能存在遗留未处理的非有效音频信号对应频段的啸叫点,故进行二次增益过程,即可以对第二啸叫点进行检测。
具体的,检测第二啸叫点可以是通过获取该第二音频输入信号对应的功率谱;然后检测该功率谱中的极值,例如:功率谱中的功率最大值,或基于功率最大值设定的取值范围;然后根据极值确定对应的候选频点,即这些频点可能是啸叫点;进而根据该候选频点确定该第二啸叫点。即检测该候选频点的相位和反馈增益信息,若相位一致且反馈增益大于等于1,则确定为第二啸叫点。通过功率谱中极值的判断,可以直观的判断出频点的增益变化情况,这是由于啸叫点对应的功率往往大于一般频点的功率,从而提高了啸叫点识别的准确性。
可选的,还可以根据峰值均值比进行第二啸叫点的判断,即获取该候选频点相邻的多个频点,以确定候选范围;然后确定该候选范围中频点的平均频率平均值,以获取峰值均值比;当该峰值均值比大于啸叫阈值时,则确定该候选频点为该第二啸叫点。为避免偶发情况造成的极值对于识别过程的影响,可以通过峰值均值比对啸叫点进行判断,从而扩展了数据参考的范围,进一步提高了啸叫点识别的准确性。
可选的,由于啸叫点存在周期性出现的行为特征,对于啸叫点的判断还可以基于历史记录进行统计从而分析得到,例如在一种可能的场景中,啸叫点容易集中在2KHz以上的频带,而语音信号的能量主要集中在2KHz以下的频带。再根据峰值均值比,判断是否是啸叫点;还可以根据历史记录中啸叫点出现的位置进行进一步的检查,例如:历史记录中记录了啸叫点集中在2KHz-3KHz,则在接下来的啸叫点识别中对该范围进行二次检测,具体的检查方式可以参考上述功率谱极值或峰值均值比的识别方式。
可以理解的是,上述啸叫点集中的频带因具体场景而定,即为不同的场景中,啸叫点集中的频带可以更高也可以更低,此处仅对历史记录进行分析以得到啸叫点的方法进行说明,并不进行限定。
304、根据第二增益值对第二音频输入信号进行处理,以得到音频输出信号。
本实施例中,该第二增益值用于指示该第二啸叫点的抑制参数,即对于第二啸叫点对应频带的缩小倍数。由于经过了第二次的啸叫点的筛选,保证了啸叫抑制的准确性,以及啸叫抑制效果的显著性。其中第二增益值可以按经验设置0~1范围内的浮点数值,也可以根据上下相邻子带的能量计算。
另外,根据第二增益值对该第二音频输入信号进行处理之后,还可以将处理后的信号转换至时域,并进行陷波处理,即滤波器的一种,以进一步的消除啸叫点。
结合上述实施例可知,通过获取第一音频输入信号;然后将该第一音频输入信号输入机器学习模型,以得到处理有效音频信号频段的第一增益值;并根据该第一增益值处理该第一音频输入信号,以得到第二音频输入信号;接下来检测该第二音频输入信号,以得到第二啸叫点,该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点;进而根据第二增益值对该第二音频输入信号进行处理,以得到音频输出信号,该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制,使得啸叫在初始阶段就被抑制,无法在进行增益循环;由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性,以及进一步的对未处理的啸叫点进行第二增益值的处理,使得上述啸叫点抑制过程迅速且全面,且不会对有效音频信号产生影响,提高了音频处理的准确性及效率。
上述实施例介绍了一种音频信号处理的过程,但是,在第二次啸叫抑制中可能对有效音频信号产生影响,为避免该情况的发生,请参阅图4,图4为本申请实施例提供的另一种音频信号处理的方法的流程图,本申请实施例至少包括以下步骤:
401、获取第一音频输入信号。
402、将所述第一音频输入信号输入机器学习模型,以得到第一增益值。
403、根据所述第一增益值处理所述第一音频输入信号,以得到第二音频输入信号。
404、检测所述第二音频输入信号,以得到第二啸叫点。
本实施例中,步骤401-404与图3指示的实施例步骤301-304相似,相关特征描述可以进行参考,此处不做赘述。
405、检测所述第二音频输入信号,以进行语音保护。
本实施例中,语音保护即保证有效音频信号的完整性。具体的,首先获取有效音频信号中的特征信息,该特征信息基于该有效音频信号指示的波形特征确定,例如:有效音频信号指示的波形特征中浊音有共振峰,另外清音高频能量大且按频率轴能量斜率稳定;然后根据该特征信息检测该第二音频输入信号中对应的有效音频信号;进一步的对该有效音频信号进行锁定操作,该锁定操作用于指示该第二增益值的非作用对象,即第二增益值对应的处理频带中可能包含了本步骤加锁的有效音频信号,但对这些频带的信号不进行增益处理。
可选的,对于有效音频信号的语音保护还可以基于用于指示语音频带的历史记录进行,即统计有效音频信号的频带分布,对于分布权重大的频段进行逐一检测筛选。
406、根据第二增益值对所述第二音频输入信号进行处理。
407、对根据第二增益值处理后的帧进行平滑处理。
本实施例中,为防止帧间抑制增益差值过大导致音频输出信号听起来刺耳,即音频变化突兀,可以对第二增益值对应啸叫点对应的多个增益帧进行平滑处理。具体的,可以采用如下公式对增益帧以及相邻的帧进行处理:
Figure GDA0004105474600000171
其中α为0~1的平滑因子;
Figure GDA0004105474600000172
为上一帧抑制增益;m为帧索引;k为频点索引。上述公式通过调整相邻帧间的增益差值,使得相邻帧间的增益更加接近线性分布,减少了音频变化突兀的情况,使得音频输出信号在听觉感官上更加平滑,提高用户体验。
408、获取音频输出信号。
本实施例中,通过上述步骤407中的增益参数
Figure GDA0004105474600000173
乘以对应频点的值,即得到音频输出信号。
结合上述实施例可见,通过对于有效音频信号的检测并加锁保护,提高了音频输出信号的准确性以及清晰度;另外,通过平滑相邻增益帧的增益参数,使得相邻帧间的增益更加接近线性分布,减少了音频变化突兀的情况,使得音频输出信号在听觉感官上更加平滑,提高了用户体验。
上述实施例介绍了啸叫抑制的音频处理方法,下面结合具体的场景对于啸叫抑制的音频处理方法进行说明,如图5所示,是本申请实施例提供的一种音频信号处理的场景示意图。图中示出了麦克风收集语音信号并放大播放的场景;由于声源(麦克风)与扩音设备(扬声器)距离太近,麦克风采集的声音信号经过扬声器放大,再被麦克风拾取,信号在反馈回路中不断的叠加放大,正反馈产生震荡循环,进而产生啸叫。其中,正反馈产生震荡的函数可以是:
Figure GDA0004105474600000174
对应的,啸叫产生的条件需要反馈回路中麦克风采集的输入信号的相位与反馈到扬声器中的声波信号的相位相同,即:
∠G(ω0)F(ω0)=n*2π
且反馈回路增益大于等于1,即
|G(ω0)F(ω0)|≥1
在上述公式中,G(s)为麦克风采集的输入信号;F(s)为反馈到扬声器中的声波信号;G(w0)为麦克风采集的输入信号的相位;F(w0)为反馈到扬声器中的声波信号的相位;n为整数参数。
在该场景中,可以在放大器中执行本申请提供的音频信号处理的方法,即通过麦克风采集的音频信号传输到放大器后,立即进行上述图3或图4所示实施例的音频信号处理过程,然后输出信号再传输至扬声器播放,如此循环,即可达到啸叫抑制的效果。
在另一种可能的场景中,如图6所示,是本申请实施例提供的另一种音频信号处理的场景示意图,图中示出了终端外放场景下的一条回路。当两部终端距离比较近的时候,右边终端扬声器声音出来,被左边终端麦克风拾取。经过前处理和信号转换,通过网络发到右边终端。经过扬声器播放出来,再被左边终端麦克风拾取。如此不断循环,如果环路在某个频点增益大于等于1,且相位是正向的,那么这一点就会形成啸叫点。
下面结合一种具体的示例对啸叫抑制进行说明,请参阅图7,图7为本申请实施例提供的另一种音频信号处理的方法的流程图,本申请实施例至少包括以下步骤:
701、输入目标频率的音频信号,并分为20毫秒每帧。
本实施例中,考虑到手机语音通话一般是16KHz采样率处理,可以设置目标频率为16KHz。
702、转换到频域。
本实施例中,将音频信号变换到频域,并加窗做傅里叶变换到频域,窗函数可以是矩形窗、高斯窗或Kaiser窗等,具体的函数形式因实际场景而定。
703、提取42个特征值。
本实施例中,特征值可以包括22个梅尔频率倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC),该系数可以参考语音识别过程中的参数,即有效音频信号;特征值还可以包括前6个系数的一阶或二阶导数,用于指示语音特征;特征值还可以包括基因周期,这是由于语音信号的浊音在500Hz以内有基因周期,而啸叫信号没有;特征值还可以包括非平稳特征值的检测,这是由于语音是短时平稳的。
704、通过循环神经网络模型计算第一增益值。
本实施例中,机器学习模型采用循环神经网络模型,这是为了对时间序列建模,而不是仅仅考虑输入和输出帧。具体的第一增益值的获取过程与图3所述实施例的步骤302类似,此处不做赘述。
705、根据第一增益值对第一啸叫点进行啸叫抑制。
706、检测第二啸叫点,并获取第二增益值。
707、根据第二增益值进行啸叫抑制。
708、转换入时域并输出音频信号。
本实施例中,步骤705-708与图3所示实施例的步骤303-305相似,相关特征描述可以进行参考,此处不做赘述。
通过上述实施例,可以得到如图8所示的啸叫抑制结果,图8为本申请实施例提供的一种音频信号处理对比图;上图为啸叫抑制前输入信号的语谱图,下为啸叫抑制处理后信号的语谱图。对比可以看到样本的波峰周围的杂峰明显的减弱了,即在啸叫起来之前,经过本申请提供的音频处理方法已经将啸叫进行了抑制。
上述实施例介绍了音频信号处理的过程,下面,结合游戏应用作为具体场景进行介绍,请参阅图9,图9为本申请实施例提供的另一种音频信号处理的方法的流程图,本申请实施例至少包括以下步骤:
901、获取游戏启动指令。
本实施例中,游戏的启动指令可以是游戏开始运行,或者游戏中某一特定场景线程的触发,例如:进入战斗场景。
902、若特征元素被触发,则进行啸叫抑制。
本实施例中,特征元素为启动语音通话功能的实体或虚拟按钮,如图10所示,是本申请实施例提供的一种音频信号处理方法的界面示意图;图中示出了游戏界面中的特征元素A1,当其中任意按钮被触发时,即唤起上述图3或图4实施例所述的音频处理的方法。
另外,本申请中的音频处理的方法不仅仅用于两个用户的语音通话过程中,还可以应用于多个用户的语音通话过程中;如图11所示,是本申请实施例提供的另一种音频信号处理方法的界面示意图,图中用户处于公共语音场景中B2,此时,若特征元素B1被触发,即唤起上述图3或图4实施例所述的音频处理的方法。
903、输出处理后的音频信号。
本实施例中,通过上述啸叫抑制后的音频信号进行输入,以实现两个或多个用户之间的清晰的语音通话过程。
通过对于游戏过程中用户之间的音频信号进行啸叫抑制,使得用户可以更加清晰的进行语音通话,不会产生因啸叫影响沟通的情况,保证了在游戏这种需要高效高质量的语音场景中的用户体验以及语音通话的准确性。
上述实施例中还涉及了机器学习模型的应用,该机器学习模型是经过预先训练后的模型;下面,对场景进行介绍,请参阅图12,图12为本申请实施例提供的一种机器学习模型训练的方法的流程图,本申请实施例至少包括以下步骤:
1201、采集参考信号和语音样本信号。
本实施例中,所述参考信号为基于至少两种变量元素确定的啸叫信号,所述变量元素包括程序类别、程序运行时段或程序运行位置,所述语音样本信号用于指示语音通话过程中的有效语音。
可以理解的是,变量元素中的程序类别可以是不同的游戏,例如:王者荣耀、和平精英等不同游戏场景下的训练样本。而程序运行时段则指示的是采集训练样本时的时段,例如游戏一般在晚上8点至9点这一时间段进行语音通话功能,且通话语音较为激烈,可以进行额外的标注并生成训练样本。另外,程序运行位置即语音采集的地理信息,例如:训练样本采集于市场、教师或卧室等不同的地理位置。
通过对于上述多种不同条件下的训练样本的获取,并标记训练样本里的啸叫点,从而保证了训练样本的泛化能力;由于采集信号作为语音样本的参与,使得该机器学习模型对于语音频段的啸叫点具有良好的识别能力。
1202、根据所述参考信号和采集信号生成特征训练集。
本实施例中,基于上述不同因素下采集的信号设定对应的标签,并分类;且标注对应的啸叫点以生成特征训练集。
1203、将所述特征训练集输入机器学习模型进行至少一个循环的训练,以得到训练后的机器学习模型。
本实施例中,所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。具体的,如图13所示,是本申请实施例提供的一种机器学习模型训练的流程示意图,图中示出了一种RNN模型,其包括有3层门循环控制单元(gated recurrence unit,GRU)。与简单的循环单元相比,GRU有两个额外的门;其中,复位门决定是否将当前状态记忆,以用于计算新状态;而更新门决定当前状态将根据新输入改变多少。当更新门关闭时,可以使得GRU长时间地记住训练信息。首先第一层GRU输入42维,输出24维和一个语音活动检测(voice activity detection,VAD)标志。第二层GRU输入初始的42维特征和第一层输出的24维特征,以输出48维,用来估计啸叫信号。第三层输入初始的42维特征和第二层输出的42维特征,以得到输出;并根据训练样本中的增益值对输出进行调整以更新模型参数,从而实现RNN模型的训练。
应当注意的是,本申请中的训练过程也可以应用于深度神经网络模型或卷积神经网络模型中,此处不做赘述。
通过上述机器学习模型的训练过程,使得音频信号在输入机器学习模型后可以得到啸叫点分布以及对应的第一增益值,从而保证了语音频段的啸叫抑制的准确性。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图14,图14为本申请实施例提供的一种音频信号处理装置的结构示意图,音频信号处理装置1400包括:
获取单元1401,用于获取第一音频输入信号;
输入单元1402,用于将所述第一音频输入信号输入机器学习模型,以得到第一增益值,其中,所述第一增益值用于指示所述第一音频信号中第一啸叫点的抑制参数,所述第一啸叫点用于指示有效音频输入信号对应频段的啸叫点;
检测单元1403,用于根据所述第一增益值处理所述第一音频输入信号,以得到第二音频输入信号;
处理单元1404,用于根据第二增益值对第二音频输入信号进行处理,以得到音频输出信号,所述第二增益值用于指示第二啸叫点的抑制参数,所述第二啸叫点用于指示非所述有效音频输入信号对应频段的啸叫点。
可选的,在本申请一些可能的实现方式中,所述输入单元1402,具体用于将所述音频输入信号转换至频域,以提取多个音频特征,所述音频特征基于所述有效音频信号或所述啸叫样本的特征确定;
所述输入单元1402,具体用于将所述音频特征输入所述机器学习模型,以确定所述第一啸叫点;
所述输入单元1402,具体用于根据所述第一啸叫点确定对应的第一增益值。
可选的,在本申请一些可能的实现方式中,所述输入单元1402,具体用于将所述音频输入信号调整至目标频率,以转换至频域;
所述输入单元1402,具体用于确定转换至频域后的音频输入信号中的多个采样点;
所述输入单元1402,具体用于基于所述采样点提取多个所述音频特征。
可选的,在本申请一些可能的实现方式中,所述输入单元1402,具体用于基于窗函数对转换至频域后的音频输入信号进行划分,以得到多个子带;
所述输入单元1402,具体用于确定所述子带中的多个所述采样点。
可选的,在本申请一些可能的实现方式中,所述检测单元1403,具体用于获取所述第二音频输入信号对应的功率谱;
所述检测单元1403,具体用于检测所述功率谱中的极值,并确定对应的候选频点;
所述检测单元1403,具体用于根据所述候选频点确定所述第二啸叫点;
所述检测单元1403,具体用于根据所述第二增益值对所述第二啸叫点进行处理,以得到所述音频输出信号。
可选的,在本申请一些可能的实现方式中,所述检测单元1403,具体用于获取所述候选频点相邻的多个频点,以确定候选范围;
所述检测单元1403,具体用于确定所述候选范围中频点的平均频率平均值,以获取峰值均值比;
所述检测单元1403,具体用于若所述峰值均值比大于啸叫阈值,则确定所述候选频点为所述第二啸叫点。
可选的,在本申请一些可能的实现方式中,所述检测单元1403,还用于获取有效音频信号中的特征信息,所述特征信息基于所述有效音频信号指示的波形特征确定,所述有效音频信号用于指示语音样本;
所述检测单元1403,具体用于根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号;
所述检测单元1403,具体用于对所述有效音频信号进行锁定操作,所述锁定操作用于指示所述第二增益值的非作用对象。
可选的,在本申请一些可能的实现方式中,所述处理单元1404,具体用于确定所述第二啸叫点对应的多个增益帧;
所述处理单元1404,具体用于根据平滑公式对所述增益帧进行处理,以对所述音频输出信号进行更新。
可选的,在本申请一些可能的实现方式中,所述获取单元1401,具体用于获取采集信号;
所述获取单元1401,具体用于将所述采集信号转换为数字信号;
所述获取单元1401,具体用于将所述数字信号输入放大器,以得到所述第一音频输入信号。
可选的,在本申请一些可能的实现方式中,所述获取单元1401,具体用于将所述数字信号输入放大器,以得到放大信号;
所述获取单元1401,具体用于根据滤波参数处理所述放大信号,以得到滤波后的放大信号;
所述获取单元1401,具体用于将所述滤波后的放大信号进行傅立叶变换到频域,以得到所述第一音频输入信号。
可选的,在本申请一些可能的实现方式中,所述音频信号的处理方法应用于游戏语音通话过程中,所述获取单元1401,具体用于检测特征元素的触发情况,所述特征元素为游戏界面中的元素;
所述获取单元1401,具体用于若所述特征元素被触发,则获取所述第一音频输入。
通过获取第一音频输入信号;然后将该第一音频输入信号输入机器学习模型,以得到处理有效音频信号频段的第一增益值;并根据该第一增益值处理该第一音频输入信号,以得到第二音频输入信号;接下来检测该第二音频输入信号,以得到第二啸叫点,该第二啸叫点用于指示非该有效音频信号对应频段的啸叫点;进而根据第二增益值对该第二音频输入信号进行处理,以得到音频输出信号,该第二增益值用于指示该第二啸叫点的抑制参数。从而实现了对于音频输入信号中啸叫的抑制,使得啸叫在初始阶段就被抑制,无法在进行增益循环;由于机器学习模型中指示啸叫点的对应性以及模型计算的便捷性,以及进一步的对未处理的啸叫点进行第二增益值的处理,使得上述啸叫点抑制过程迅速且全面,且不会对有效音频信号产生影响,提高了音频处理的准确性及效率。
本申请还提供一种机器学习模型训练的装置1500,如图15所示,是本申请实施例提供的一种机器学习模型训练装置的结构示意图,包括:采集单元1501,用于采集参考信号和语音样本信号,所述参考信号为基于至少两种变量元素确定的啸叫信号,所述变量元素包括程序类别、程序运行时段或程序运行位置,所述采集信号用于指示通话过程中的有效语音;
生成单元1502,用于根据所述参考信号和采集信号生成特征训练集;
训练单元1503,用于将所述特征训练集输入机器学习模型进行至少一个循环的训练,以得到训练后的机器学习模型,所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值。
本申请实施例还提供了一种终端设备,如图16所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图16示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图16,手机包括:射频(radio frequency,RF)电路1610、存储器1620、输入单元1630、显示单元1640、传感器1650、音频电路1660、无线保真(wireless fidelity,WiFi)模块1670、处理器1680、以及电源1690等部件。本领域技术人员可以理解,图16中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图16对手机的各个构成部件进行具体的介绍:
RF电路1610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1680处理;另外,将设计上行的数据发送给基站。通常,RF电路1610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1620可用于存储软件程序以及模块,处理器1680通过运行存储在存储器1620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1630可包括触控面板1631以及其他输入设备1632。触控面板1631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1631上或在触控面板1631附近的操作,以及在触控面板1631上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1680,并能接收处理器1680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1631。除了触控面板1631,输入单元1630还可以包括其他输入设备1632。具体地,其他输入设备1632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1640可包括显示面板1641,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1641。进一步的,触控面板1631可覆盖显示面板1641,当触控面板1631检测到在其上或附近的触摸操作后,传送给处理器1680以确定触摸事件的类型,随后处理器1680根据触摸事件的类型在显示面板1641上提供相应的视觉输出。虽然在图16中,触控面板1631与显示面板1641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1631与显示面板1641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1660、扬声器1661,传声器1662可提供用户与手机之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号,传输到扬声器1661,由扬声器1661转换为声音信号输出;另一方面,传声器1662将收集的声音信号转换为电信号,由音频电路1660接收后转换为音频数据,再将音频数据输出处理器1680处理后,经RF电路1610以发送给比如另一手机,或者将音频数据输出至存储器1620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块1670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1620内的软件程序和/或模块,以及调用存储在存储器1620内的数据,执行手机的各种功能和处理数据。可选的,处理器1680可包括一个或多个检测单元;可选的,处理器1680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1680中。
手机还包括给各个部件供电的电源1690(比如电池),可选的,电源可以通过电源管理系统与处理器1680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1680还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图17,图17是本申请实施例提供的服务器一种结构示意图,该服务器1700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1722(例如,一个或一个以上处理器)和存储器1732,一个或一个以上存储应用程序1742或数据1744的存储介质1730(例如一个或一个以上海量存储设备)。其中,存储器1732和存储介质1730可以是短暂存储或持久存储。存储在存储介质1730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1722可以设置为与存储介质1730通信,在服务器1700上执行存储介质1730中的一系列指令操作。
服务器1700还可以包括一个或一个以上电源1726,一个或一个以上有线或无线网络接口1750,一个或一个以上输入输出接口1758,和/或,一个或一个以上操作系统1741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由模型训练装置所执行的步骤可以基于该图17所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有音频信号处理指令,当其在计算机上运行时,使得计算机执行如前述图2至图13所示实施例描述的方法中音频信号处理装置所执行的步骤。
本申请实施例中还提供一种包括音频信号处理指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2至图13所示实施例描述的方法中音频信号处理装置所执行的步骤。
本申请实施例还提供了一种音频信号处理系统,所述音频信号处理系统可以包含图14所描述实施例中的音频信号处理装置,或者图16所描述的终端设备。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个检测单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,音频信号处理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种音频信号的处理方法,其特征在于,包括:
获取第一音频输入信号;
将所述第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据所述第一啸叫点获得第一增益值,其中,所述第一啸叫点用于指示所述第一音频输入信号中有效音频信号对应频段的啸叫点;所述第一增益值用于指示所述第一啸叫点的抑制参数,根据所述第一增益值处理所述第一音频输入信号,以得到第二音频输入信号;
获取所述第二音频输入信号对应的功率谱,检测所述功率谱中的极值,根据所述极值确定对应的候选频点,根据所述候选频点确定第二啸叫点,根据所述第二啸叫点获得第二增益值,其中,所述第二啸叫点用于指示非有效音频信号对应频段的啸叫点;
获取有效音频信号中的特征信息,所述特征信息基于有效音频信号指示的波形特征确定;根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号;对所述第二音频输入信号中对应的有效音频信号进行锁定操作,所述锁定操作用于指示所述第二增益值的非作用对象;
根据所述第二增益值对所述第二啸叫点进行处理,以得到音频输出信号。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据所述第一啸叫点获得第一增益值,包括:
将所述音频输入信号转换至频域,以提取多个音频特征,所述音频特征基于有效音频信号或啸叫样本的特征确定;
将所述音频特征输入所述机器学习模型,以确定所述第一啸叫点;
根据所述第一啸叫点获得对应的第一增益值。
3.根据权利要求2所述的方法,其特征在于,所述将所述音频输入信号转换至频域,以提取多个音频特征,包括:
将所述音频输入信号调整至目标频率,以转换至频域;
确定转换至频域后的音频输入信号中的多个采样点;
基于所述采样点提取多个所述音频特征。
4.根据权利要求3所述的方法,其特征在于,所述确定转换至频域后的音频输入信号中的多个采样点,包括:
基于窗函数对转换至频域后的音频输入信号进行划分,以得到多个子带;
确定所述子带中的多个所述采样点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述候选频点确定第二啸叫点,包括:
获取所述候选频点相邻的多个频点,以确定候选范围;
确定所述候选范围中频点的平均频率平均值,以获取峰值均值比;
若所述峰值均值比大于啸叫阈值,则确定所述候选频点为第二啸叫点。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第二啸叫点对应的多个增益帧;
根据平滑公式对所述增益帧与相邻帧间的增益差值进行平滑处理,以对所述音频输出信号进行更新。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述音频信号的处理方法应用于游戏语音通话过程中,所述获取第一音频输入,包括:
检测特征元素的触发情况,所述特征元素为游戏界面中的元素;
若所述特征元素被触发,则获取所述第一音频输入。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述机器学习模型为循环神经网络模型,所述第一音频输入信号和所述音频输出信号应用于终端设备的语音通话过程中。
9.一种机器学习模型的训练方法,其特征在于,包括:
采集参考信号和语音样本信号,所述参考信号为基于至少两种变量元素确定的啸叫信号,所述变量元素包括程序类别、程序运行时段或程序运行位置,所述语音样本信号用于指示通话过程中的有效语音;
根据所述参考信号和所述语音样本信号生成特征训练集;
将所述特征训练集输入机器学习模型进行至少一个循环的训练,以得到训练后的机器学习模型,所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值,并应用于如权利要求1-8任一项所述的音频信号的处理方法。
10.一种音频信号的处理装置,其特征在于,包括:
获取单元,用于获取第一音频输入信号;
输入单元,用于将所述第一音频输入信号输入机器学习模型,以得到第一啸叫点,根据所述第一啸叫点获得第一增益值,其中,所述第一啸叫点用于指示所述第一音频输入信号中有效音频输入信号对应频段的啸叫点;所述第一增益值用于指示所述第一啸叫点的抑制参数,根据所述第一增益值处理所述第一音频输入信号,以得到第二音频输入信号;
检测单元,用于获取所述第二音频输入信号对应的功率谱,检测所述功率谱中的极值,根据所述极值确定对应的候选频点,根据所述候选频点确定第二啸叫点,根据所述第二啸叫点获得第二增益值,其中,所述第二啸叫点用于指示非有效音频信号对应频段的啸叫点;获取有效音频信号中的特征信息,所述特征信息基于有效音频信号指示的波形特征确定;根据所述特征信息检测所述第二音频输入信号中对应的有效音频信号;对所述第二音频输入信号中对应的有效音频信号进行锁定操作,所述锁定操作用于指示所述第二增益值的非作用对象;
处理单元,用于根据所述第二增益值对所述第二啸叫点进行处理,以得到音频输出信号。
11.根据权利要求10所述的装置,其特征在于,所述输入单元,具体用于:
将所述音频输入信号转换至频域,以提取多个音频特征,所述音频特征基于有效音频信号或啸叫样本的特征确定;
将所述音频特征输入所述机器学习模型,以确定所述第一啸叫点;
根据所述第一啸叫点获得对应的第一增益值。
12.根据权利要求11所述的装置,其特征在于,所述输入单元,具体用于:
将所述音频输入信号调整至目标频率,以转换至频域;
确定转换至频域后的音频输入信号中的多个采样点;
基于所述采样点提取多个所述音频特征。
13.一种机器学习模型的训练装置,其特征在于,包括:
采集单元,用于采集参考信号和语音样本信号,所述参考信号为基于至少两种变量元素确定的啸叫信号,所述变量元素包括程序类别、程序运行时段或程序运行位置,所述语音样本信号用于指示通话过程中的有效语音;
生成单元,用于根据所述参考信号和所述语音样本信号生成特征训练集;
训练单元,用于将所述特征训练集输入机器学习模型进行至少一个循环的训练,以得到训练后的机器学习模型,所述训练后的机器学习模型用于根据音频输入信号确定对应的啸叫点以及增益值,并应用于如权利要求1-8任一项所述的音频信号的处理方法。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至8任一项所述的音频信号处理的方法,或权利要求9所述的机器学习模型的训练方法。
15.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至8任一项所述的音频信号处理的方法,或权利要求9所述的机器学习模型的训练方法。
CN202010023045.6A 2020-01-09 2020-01-09 一种音频信号处理方法、模型训练方法以及相关装置 Active CN111210021B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010023045.6A CN111210021B (zh) 2020-01-09 2020-01-09 一种音频信号处理方法、模型训练方法以及相关装置
PCT/CN2020/124244 WO2021139327A1 (zh) 2020-01-09 2020-10-28 一种音频信号处理方法、模型训练方法以及相关装置
EP20911413.1A EP3998557B1 (en) 2020-01-09 2020-10-28 Audio signal processing method and related apparatus
US17/700,862 US20220215853A1 (en) 2020-01-09 2022-03-22 Audio signal processing method, model training method, and related apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010023045.6A CN111210021B (zh) 2020-01-09 2020-01-09 一种音频信号处理方法、模型训练方法以及相关装置

Publications (2)

Publication Number Publication Date
CN111210021A CN111210021A (zh) 2020-05-29
CN111210021B true CN111210021B (zh) 2023-04-14

Family

ID=70789591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010023045.6A Active CN111210021B (zh) 2020-01-09 2020-01-09 一种音频信号处理方法、模型训练方法以及相关装置

Country Status (4)

Country Link
US (1) US20220215853A1 (zh)
EP (1) EP3998557B1 (zh)
CN (1) CN111210021B (zh)
WO (1) WO2021139327A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210021B (zh) * 2020-01-09 2023-04-14 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置
CN112309417B (zh) * 2020-10-22 2023-07-07 瓴盛科技有限公司 风噪抑制的音频信号处理方法、装置、系统和可读介质
CN112669868B (zh) * 2020-12-23 2021-11-26 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN113473316B (zh) * 2021-06-30 2023-01-31 苏州科达科技股份有限公司 音频信号处理方法、装置及存储介质
CN113891217A (zh) * 2021-11-08 2022-01-04 易兆微电子(杭州)股份有限公司 啸叫抑制方法、装置、电子设备及存储介质
CN113921023B (zh) * 2021-12-14 2022-04-08 北京百瑞互联技术有限公司 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备
CN116233697B (zh) * 2022-04-19 2023-09-05 中国科学院声学研究所 一种基于深度学习的声反馈的抑制方法及系统
CN115223584B (zh) * 2022-09-19 2022-12-09 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备及存储介质
CN115567864B (zh) * 2022-12-02 2024-03-01 浙江华创视讯科技有限公司 麦克风增益的调整方法和装置、存储介质及电子设备
CN117316175B (zh) * 2023-11-28 2024-01-30 山东放牛班动漫有限公司 一种动漫数据智能编码存储方法及系统
CN117351925B (zh) * 2023-12-06 2024-04-12 科大讯飞(苏州)科技有限公司 啸叫抑制方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG98435A1 (en) * 2000-12-08 2003-09-19 Nanyang Polytechnic A method for detecting and removing howling
CN105872910A (zh) * 2016-03-23 2016-08-17 成都普创通信技术股份有限公司 一种音频信号啸叫检测方法
CN108449493A (zh) * 2018-03-12 2018-08-24 广东欧珀移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
CN109461455A (zh) * 2018-11-30 2019-03-12 维沃移动通信(深圳)有限公司 一种消除啸叫的系统及方法
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN110234051A (zh) * 2019-06-27 2019-09-13 中科上声(苏州)电子有限公司 一种基于深度学习的防啸叫扩声方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150043858A (ko) * 2013-10-15 2015-04-23 한국전자통신연구원 하울링 제거 장치 및 방법
EP3301675B1 (en) * 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parameter prediction device and parameter prediction method for acoustic signal processing
CN109121057B (zh) * 2018-08-30 2020-11-06 北京聆通科技有限公司 一种智能助听的方法及其系统
CN109637552A (zh) * 2018-11-29 2019-04-16 河北远东通信系统工程有限公司 一种抑制音频设备啸叫的语音处理方法
CN110536215B (zh) * 2019-09-09 2021-06-29 普联技术有限公司 音频信号处理的方法、装置、计算设置及存储介质
CN111210021B (zh) * 2020-01-09 2023-04-14 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG98435A1 (en) * 2000-12-08 2003-09-19 Nanyang Polytechnic A method for detecting and removing howling
CN105872910A (zh) * 2016-03-23 2016-08-17 成都普创通信技术股份有限公司 一种音频信号啸叫检测方法
CN108449493A (zh) * 2018-03-12 2018-08-24 广东欧珀移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
CN109461455A (zh) * 2018-11-30 2019-03-12 维沃移动通信(深圳)有限公司 一种消除啸叫的系统及方法
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN110234051A (zh) * 2019-06-27 2019-09-13 中科上声(苏州)电子有限公司 一种基于深度学习的防啸叫扩声方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hu-Cheng Lee 等.Audio Feature Generation for Missing Modality Problem in Video Action Recognition.《2019 IEEE International Conference on Acoustics, Speech and Signal Processing》.2019,3956-3960. *
赵明.啸叫检测与抑制扩声系统设计.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,I136-392. *
高维忠.扩声过程中啸叫的产生机理和抑制方法.《声频工程》.2006,11-14. *

Also Published As

Publication number Publication date
EP3998557A1 (en) 2022-05-18
EP3998557B1 (en) 2023-08-16
CN111210021A (zh) 2020-05-29
US20220215853A1 (en) 2022-07-07
EP3998557A4 (en) 2022-10-26
WO2021139327A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN109671433B (zh) 一种关键词的检测方法以及相关装置
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN110288978B (zh) 一种语音识别模型训练方法及装置
CN109256146B (zh) 音频检测方法、装置及存储介质
US10504539B2 (en) Voice activity detection systems and methods
CN110164469B (zh) 一种多人语音的分离方法和装置
CN109087669B (zh) 音频相似度检测方法、装置、存储介质及计算机设备
CN103999517B (zh) 音频特征数据的提取及分析
CN103440862B (zh) 一种语音与音乐合成的方法、装置以及设备
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110265011B (zh) 一种电子设备的交互方法及其电子设备
CN111883091A (zh) 音频降噪方法和音频降噪模型的训练方法
CN112669822B (zh) 音频处理方法、装置、电子设备和存储介质
CN110728993A (zh) 一种变声识别方法及电子设备
WO2024041512A1 (zh) 音频降噪方法、装置、电子设备及可读存储介质
CN111613246A (zh) 一种音频分类提示方法以及相关设备
CN111522592A (zh) 一种基于人工智能的智能终端唤醒方法和装置
CN116612778A (zh) 回声及噪声抑制方法、相关装置和介质
TW202026855A (zh) 語音喚醒裝置及方法
CN114758672A (zh) 一种音频生成方法、装置以及电子设备
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN110197663A (zh) 一种控制方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant