CN107507621B - 一种噪声抑制方法及移动终端 - Google Patents

一种噪声抑制方法及移动终端 Download PDF

Info

Publication number
CN107507621B
CN107507621B CN201710628712.1A CN201710628712A CN107507621B CN 107507621 B CN107507621 B CN 107507621B CN 201710628712 A CN201710628712 A CN 201710628712A CN 107507621 B CN107507621 B CN 107507621B
Authority
CN
China
Prior art keywords
noise
audio
audio signal
determining
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710628712.1A
Other languages
English (en)
Other versions
CN107507621A (zh
Inventor
付姝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN201710628712.1A priority Critical patent/CN107507621B/zh
Publication of CN107507621A publication Critical patent/CN107507621A/zh
Application granted granted Critical
Publication of CN107507621B publication Critical patent/CN107507621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供了一种噪声抑制方法及移动终端。该方法包括:对应用程序输出的音频信号进行识别,确定音频类型;确定与所述音频类型对应的噪声跟踪方法;采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;对所述音频信号的所述噪声能量进行抑制。本发明通过采用与音频类型对应的噪声跟踪方法来对音频信号进行噪声跟踪,从而能够实时的发现音频信号中出现的噪声,从而及时快速的对获取到的噪声能量进行抑制,降低了噪声发现的时延,使得用户很难感受到噪声的存在。

Description

一种噪声抑制方法及移动终端
技术领域
本发明涉及音频处理技术领域,尤其涉及一种噪声抑制方法及移动终端。
背景技术
随着移动终端技术的发展,移动终端的音频处理能力也越来越强大,语音类别的应用程序越来越多,用户可以使用语音类别的应用程序进行通话增强、作音乐特效,唱歌(K歌)等。而随着各种音频应用的发展,用户对音频品质的要求越来越高,一些应用场景也伴随着各种音频应用问题,例如通话或k歌中,如果有大量杂音和噪声,将严重影响用户体验。
而传统的噪声抑制方案主要是通过检测音频信号的频谱变化来确定音频信号中是否存在噪音,例如音频信号中没有发生频谱变化的为噪音,有频谱变化的为语音,那么通过将音频信号中没有发生频谱变化的部分去除,以此来达到抑制噪声的目的。
但是,传统的噪声抑制方案普遍存在着发现噪声的延迟高,并不能及时快速的进行噪声抑制的问题。
发明内容
本发明实施例提供一种噪声抑制方法及移动终端,以解决现有技术中的噪声抑制方案所存在的发现噪声的延迟高,并不能及时快速的进行噪声抑制的问题。
第一方面,本发明实施例提供了一种噪声抑制方法,应用于移动终端,所述方法包括:
对应用程序输出的音频信号进行识别,确定音频类型;
确定与所述音频类型对应的噪声跟踪方法;
采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;
对所述音频信号的所述噪声能量进行抑制。
第二方面,本发明实施例还提供了一种移动终端,所述移动终端包括:
识别模块,用于对应用程序输出的音频信号进行识别,确定音频类型;
确定模块,用于确定与所述音频类型对应的噪声跟踪方法;
跟踪模块,用于采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;
抑制模块,用于对所述音频信号的所述噪声能量进行抑制。
第三方面,本发明实施例还提供了一种移动终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的噪声抑制程序,所述噪声的抑制程序被所述处理器执行时实现所述的噪声的抑制方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有噪声的抑制程序,所述噪声的抑制程序被处理器执行时实现所述的噪声的抑制方法的步骤。
这样,本发明实施例通过采用与音频类型对应的噪声跟踪方法来对音频信号进行噪声跟踪,从而能够实时的发现音频信号中出现的噪声,从而及时快速的对获取到的噪声能量进行抑制,降低了噪声发现的时延,使得用户很难感受到噪声的存在。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例的噪声抑制方法的流程图;
图2是本发明第二实施例的噪声抑制方法的流程图;
图3是本发明第二实施例的BP神经网络模型的示意图;
图4是本发明第二实施例的噪声跟踪和抑制的流程图;
图5是本发明第三实施例的移动终端的框图;
图6是本发明第三实施例的另一移动终端的框图;
图7是本发明第四实施例的移动终端的框图;
图8是本发明第五实施例的移动终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例
参照图1,示出了本发明一个实施例的噪声抑制方法的流程图,应用于移动终端,所述方法具体可以包括如下步骤:
步骤101,对应用程序输出的音频信号进行识别,确定音频类型;
其中,该应用程序可以是能够输出音频的各种软件,例如音乐播放软件、视频播放软件等等。而为了抑制该应用程序输出的音频中的噪声,这里首先需要确定该应用程序输出的音频的类型,例如语音、音乐等。
步骤102,确定与所述音频类型对应的噪声跟踪方法;
步骤103,采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;
其中,可以采用与该音频类型相对应的噪声跟踪方法来跟踪音频信号中的噪声,从而获取到该音频信号的噪声能量。
步骤104,对所述音频信号的所述噪声能量进行抑制。
其中,所谓抑制,即可以理解为对该噪声能量进行消除。
这样,本发明实施例通过采用与音频类型对应的噪声跟踪方法来对音频信号进行噪声跟踪,从而能够实时的发现音频信号中出现的噪声,从而及时快速的对获取到的噪声能量进行抑制,降低了噪声发现的时延,使得用户很难感受到噪声的存在。
第二实施例
参照图2,示出了本发明一个实施例的噪声抑制方法的流程图,应用于移动终端,所述方法具体可以包括如下步骤:
在阐述本实施例的噪声抑制方法的流程之前,这里为了便于读者理解本发明实施例的技术方案,首先对本发明实施例步骤202中的预设神经网络模型进行简要说明。
在一个实施例中,该预设神经网络模型可以是反向传播(BP,back propagation)神经网络模型,也可以是卷积神经网络模型(CNN),当然并不限于这里列举的两种神经网络模型,还可以是其他类型的神经网络模型。其中,需要注意的是,这里的预设神经网络模型是经过训练后能够识别音频类型的神经网络模型。
这里以BP神经网络模型为例来对本发明实施例的BP神经网络模型的训练过程进行详细阐述:
首先,需要收集不同音频类型的文件作为训练语料,包括但不限于语音文件、音乐文件、喷麦文件、碰麦文件、啸叫文件、小杂音文件、工厂噪声文件、白噪文件、粉噪文件等等,对这些文件标识音频类型,并设定各自的置信度均为1,例如语音文件的置信度设置为1;
其中,这里,以对BP模型进行语音类型的音频识别为例进行训练流程的说明。
然后,对训练语料中的各个语音文件提取模型需要的参数(即音频特征),即为模型输入参数,包括但不限于过零率、能量、频谱熵、频谱斜率、倒谱等等;
针对某个语音文件的音频特征输入至待训练的BP神经网络模型中,BP神经网络模型对输入的音频特征进行计算,输出结果为每个音频类型的置信度,例如输入的音频为语音的置信度为0.7,输入的音频为音乐的置信度为0.3,输入的音频为喷麦的置信度为0.5……等等其他音频类型的置信度;
接着,将输入的该语音文件设置的置信度的值(即,1)与BP神经网络模型输出的语音的置信度值(即0.7)进行比较,从而计算BP神经网络模型针对语音类型的音频的输出误差;并根据BP神经网络模型的反向传播计算公式,更新BP神经网络模型中各神经元的权值参数,直至输出误差小于预设误差阈值。
这样,就实现了语音类型的音频的模型训练工作,针对其他类型的音频的模型训练同理,在此不再赘述。
那么通过上述流程使得训练后的BP神经网络模型能够实现多种类型的音频的识别。下面结合图2来借助于上述经过训练的BP神经网络模型来实现噪声的抑制。
步骤201,对应用程序输出的音频信号提取音频特征;
其中,音频特征包括但不限于过零率、能量、频谱熵、频谱斜率、倒谱等等。
步骤202,将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型;
具体而言,可以通过以下子步骤S11~S14来实现:
S11,将所述音频特征输入至预设神经网络模型进行分类,得到不同音频类型的置信度;
具体而言,如图3所示,这里的BP神经网络模型包括输入层、隐含层和输出层。
首先,可以将音频特征v1~音频特征vx,这x个音频特征值输入到BP神经网络模型的输入层,每个输入层的神经元接收一个或一组音频特征(这里,每个输入层的神经元接收一个音频特征);
隐含层可由多层组成,每个隐含层的神经元接收各个输入层神经元的处理结果;
输出层的每个神经元对应一个音频类型(type)的置信度数值(proValue),这里包括x个音频类型(type1~typex)的x个置信度输出数值。另外,x个置信度输出数值为归一化结果,即,x个置信度输出数值均在0和1之间,置信度的数值越大,说明输入音频作为当前音频类型的可能性越大,反之越小。
S12,确定所述得到的置信度中最高置信度对应的目标音频类型;
其中,可以确定这x个类型的音频的置信度中数值最高的置信度所对应的目标音频类型。
例如,图2中输出层输出的9个音频类型的置信度表1所示。
Figure BDA0001363373060000061
表1
那么,这里可以确定置信度(即proValue)最高的为0.9对应的语音类型,因此,这里的目标音频类型为语音音频。
S13,判断所述最高置信度是否大于或等于所述目标音频类型的预设置信度阈值;
此外,为了进一步提高本发明实施例的BP神经网络模型的识别精准度,还可以针对不同音频类型预设置信度阈值。
S14,若是,则将所述目标音频类型确定为所述音频信号的音频类型。
例如语音音频的预设置信度阈值为0.89,那么经过判断模型输出的置信度0.9是大于阈值0.89的,因此,经过模型的识别后后续的比对判断可以确定该应用程序输出的音频信号为语音类型的音频。
如图4所示,在确定了音频信号的音频类型后,就可以执行下述步骤203~步骤207来进行噪声的获取和抑制。
具体而言:
步骤203,根据预先设置的不同音频类型的噪声跟踪方法,确定与所述音频类型对应的噪声跟踪方法;
如图4所示,本发明实施例预先设置有不同音频类型的噪声跟踪策略(即噪声跟踪方法),这里示出了语音噪声跟踪策略、喷麦噪声跟踪策略、啸叫噪声跟踪策略……杂音噪声跟踪策略,当然并不限于这里列举的音频类型的噪声跟踪策略。
那么因为本例中进行噪声跟踪的音频的音频类型(type)为语音,置信度(proValue)为0.9,因此,这里确定了语音噪声跟踪策略,即对语音中的噪声进行跟踪的策略。
而针对喷麦噪声跟踪策略,则是对喷麦这种噪声进行跟踪,啸叫、杂音同理,因为它们本身就是一种噪声,因此,这些属于噪声本身的音频类型的噪声跟踪策略会与音乐、语音等非噪声的音频类型的噪声跟踪策略略有区别;其中,针对非噪声的音频类型的噪声跟踪策略则是对该音频类型的音频中属于噪声的能量进行抑制;而针对属于噪声本身的音频类型的噪声跟踪策略则是对该音频类型的音频本身进行噪声能量的抑制。
步骤204,将所述音频信号从时域信号转换为频域信号;
如图4所示,对输入的音频信号可以进行快速傅氏变换(FFT,Fast FourierTransformation),即实现对音频信号从时域信号转换向频域信号的转换。当然,从时域向频域的变换并不限于FFT,还可以是现有技术中的其他变换方法。
其中,在音频信号进行转换时,可以对音频信号进行加窗分帧,即对音频信号作截断分帧处理,对窗口内的帧数据进行FFT变换。
步骤205,采用所述噪声跟踪方法对转换为频域信号的所述音频信号进行噪声跟踪,获取所述音频信号各频点的噪声能量;
继续参照图4,这里则是采用语音噪声跟踪策略来对FFT变换后的频域信号,获取各频点的噪声能量。
步骤206,对所述音频信号各频点的所述噪声能量进行抑制;
如图4所示,这里就可以对各频点的噪声能量进行抑制,具体的抑制方法可以通过以下方式来实现:
获取音频信号各频点的能量,然后将音频信号中获取到的各频点的能量减去跟踪到的各频点的噪声能量,从而实现对音频信号的噪声能量抑制。
步骤207,将抑制噪声能量之后的所述音频信号从频域信号转换为时域信号。
最后,如图4所示,再将抑制噪声能量之后的音频信号进行IFFT的变换,即实现对音频信号从频域信号转换向时域信号的转换。当然,从频域向时域的变换并不限于IFFT,还可以是现有技术中的其他变换方法。但是需要注意的是,这里步骤204和步骤207的变换方法是配套使用的。
借助于本发明上述实施例的技术方案,本发明实施例能够通过神经网络模型对音频类型分类,可实时的确定当前音频帧的类型,不同音频类别采用不同的噪声跟踪方法跟踪音频中的噪声能量,及大的提升了噪声跟踪的时效性,缩短噪声抑制的收敛时间,有效跟踪并抑制各类噪声。对一些非噪声类别的音频,如正常语音和音乐,本发明实施例可最大程度上保证这些类别的音频不受到损伤。
第三实施例
参照图5,示出了本发明一个实施例的移动终端的框图。本发明实施例的移动终端能实现实施例一至实施例二中的噪声抑制方法的细节,并达到相同的效果。图5所示移动终端包括:
识别模块51,用于对应用程序输出的音频信号进行识别,确定音频类型;
确定模块52,用于确定与所述音频类型对应的噪声跟踪方法;
跟踪模块53,用于采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;
抑制模块54,用于对所述音频信号的所述噪声能量进行抑制。
可选地,参照图6,在图5的基础上,所述识别模块51包括:
提取子模块511,用于对应用程序输出的音频信号提取音频特征;
分类子模块512,用于将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型。
可选地,所述分类子模块512包括:
分类单元,用于将所述音频特征输入至预设神经网络模型进行分类,得到不同音频类型的置信度;
第一确定单元,用于确定所述得到的置信度中最高置信度对应的目标音频类型;
判断单元,用于判断所述最高置信度是否大于或等于所述目标音频类型的预设置信度阈值;
第二确定单元,用于所述判断单元判断所述最高置信度大于或等于所述目标音频类型的预设置信度阈值,则将所述目标音频类型确定为所述音频信号的音频类型。
可选地,参照图6,在图5的基础上,所述确定模块52包括:
确定子模块521,用于根据预先设置的不同音频类型的噪声跟踪方法,确定与所述音频类型对应的噪声跟踪方法。
可选地,参照图6,在图5的基础上,所述移动终端还包括:
第一转换模块55,用于将所述音频信号从时域信号转换为频域信号;
所述跟踪模块53包括:
跟踪子模块531,用于采用所述噪声跟踪方法对转换为频域信号的所述音频信号进行噪声跟踪,获取所述音频信号各频点的噪声能量;
所述抑制模块54包括:
抑制子模块541,用于对所述音频信号各频点的所述噪声能量进行抑制;
第二转换模块56,用于将抑制噪声能量之后的所述音频信号从频域信号转换为时域信号。
移动终端能够实现前述实施例中移动终端实现的及时快速的对获取到的噪声能量进行抑制,降低了噪声发现的时延的效果,为避免重复,这里不再赘述。
第四实施例
图7是本发明又一个实施例的移动终端的框图。图7所示的移动终端600包括:至少一个处理器601、存储器602、至少一个网络接口604和用户接口603。移动终端600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统605。
其中,用户接口603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器602存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序6022。
其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。
在本发明实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于对应用程序输出的音频信号进行识别,确定音频类型;确定与所述音频类型对应的噪声跟踪方法;采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;对所述音频信号的所述噪声能量进行抑制。
上述本发明实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明实施例所述功能的模块(例如过程、函数等)来实现本发明实施例所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,处理器601还用于:对应用程序输出的音频信号提取音频特征;将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型。
可选地,处理器601还用于:将所述音频特征输入至预设神经网络模型进行分类,得到不同音频类型的置信度;确定所述得到的置信度中最高置信度对应的目标音频类型;判断所述最高置信度是否大于或等于所述目标音频类型的预设置信度阈值;若是,则将所述目标音频类型确定为所述音频信号的音频类型。
可选地,处理器601还用于:根据预先设置的不同音频类型的噪声跟踪方法,确定与所述音频类型对应的噪声跟踪方法。
可选地,处理器601还用于:将所述音频信号从时域信号转换为频域信号;采用所述噪声跟踪方法对转换为频域信号的所述音频信号进行噪声跟踪,获取所述音频信号各频点的噪声能量;对所述音频信号各频点的所述噪声能量进行抑制;将抑制噪声能量之后的所述音频信号从频域信号转换为时域信号。
可见,本发明实施例的移动终端600能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
第五实施例
图8是本发明另一个实施例的移动终端的结构示意图。具体地,图8中的移动终端700可以为手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、或车载电脑等。
图8中的移动终端700包括射频(Radio Frequency,RF)电路710、存储器720、输入单元730、显示单元740、处理器760、音频电路770、WiFi(Wireless Fidelity)模块780和电源790。
其中,输入单元730可用于接收移动终端用户输入的数字或字符信息,以及产生与移动终端700的移动终端用户设置以及功能控制有关的信号输入。具体地,本发明实施例中,该输入单元730可以包括触控面板731。触控面板731,也称为触摸屏,可收集移动终端用户在其上或附近的触摸操作(比如移动终端用户使用手指、触笔等任何适合的物体或附件在触控面板731上的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测移动终端用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给该处理器760,并能接收处理器760发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,显示单元740可用于显示由移动终端用户输入的信息或提供给移动终端用户的信息以及移动终端700的各种菜单界面。显示单元740可包括显示面板741,可选的,可以采用LCD或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板741。
应注意,触控面板731可以覆盖显示面板741,形成触摸显示屏,当该触摸显示屏检测到在其上或附近的触摸操作后,传送给处理器760以确定触摸事件的类型,随后处理器760根据触摸事件的类型在触摸显示屏上提供相应的视觉输出。
触摸显示屏包括应用程序界面显示区及常用控件显示区。该应用程序界面显示区及该常用控件显示区的排列方式并不限定,可以为上下排列、左右排列等可以区分两个显示区的排列方式。该应用程序界面显示区可以用于显示应用程序的界面。每一个界面可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。该应用程序界面显示区也可以为不包含任何内容的空界面。该常用控件显示区用于显示使用率较高的控件,例如,设置按钮、界面编号、滚动条、电话本图标等应用程序图标等。
其中处理器760是移动终端700的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在第一存储器721内的软件程序和/或模块,以及调用存储在第二存储器722内的数据,执行移动终端700的各种功能和处理数据,从而对移动终端700进行整体监控。可选的,处理器760可包括一个或多个处理单元。
在本发明实施例中,通过调用存储该第一存储器721内的软件程序和/或模块和/或该第二存储器722内的数据,处理器760用于对应用程序输出的音频信号进行识别,确定音频类型;确定与所述音频类型对应的噪声跟踪方法;采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;对所述音频信号的所述噪声能量进行抑制。
可选地,处理器760还用于:对应用程序输出的音频信号提取音频特征;将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型。
可选地,处理器760还用于:将所述音频特征输入至预设神经网络模型进行分类,得到不同音频类型的置信度;确定所述得到的置信度中最高置信度对应的目标音频类型;判断所述最高置信度是否大于或等于所述目标音频类型的预设置信度阈值;若是,则将所述目标音频类型确定为所述音频信号的音频类型。
可选地,处理器760还用于:根据预先设置的不同音频类型的噪声跟踪方法,确定与所述音频类型对应的噪声跟踪方法。
可选地,处理器760还用于:将所述音频信号从时域信号转换为频域信号;采用所述噪声跟踪方法对转换为频域信号的所述音频信号进行噪声跟踪,获取所述音频信号各频点的噪声能量;对所述音频信号各频点的所述噪声能量进行抑制;将抑制噪声能量之后的所述音频信号从频域信号转换为时域信号。
可见,本发明实施例的移动终端700能够实现前述实施例中移动终端实现的各个过程,为避免重复,这里不再赘述。
本发明实施例还提供了一种移动终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的噪声的抑制程序,所述噪声的抑制程序被所述处理器执行时实现所述噪声的抑制方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有噪声的抑制程序,所述噪声的抑制程序被处理器执行时实现所述的噪声的抑制方法的步骤。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种噪声抑制方法,应用于移动终端,其特征在于,所述方法包括:
对应用程序输出的音频信号进行识别,确定音频类型;
确定与所述音频类型对应的噪声跟踪方法;
采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;
对所述音频信号的所述噪声能量进行抑制;
其中,所述采用所述噪声跟踪方法对所述音频信号噪声跟踪,获取所述音频信号的噪声能量之前,所述方法还包括:
将所述音频信号从时域信号转换为频域信号;
所述采用所述噪声跟踪方法对所述音频信号噪声跟踪,获取所述音频信号的噪声能量,包括:
采用所述噪声跟踪方法对转换为频域信号的所述音频信号进行噪声跟踪,获取所述音频信号各频点的噪声能量;
所述对所述音频信号的所述噪声能量进行抑制,包括:
对所述音频信号各频点的所述噪声能量进行抑制;
所述对所述音频信号各频点的所述噪声能量进行抑制之后,所述方法还包括:
将抑制噪声能量之后的所述音频信号从频域信号转换为时域信号;
其中,所述对所述音频信号各频点的所述噪声能量进行抑制,包括:
对非噪声音频类型的音频信号各频点的所述噪声能量进行抑制;
对噪声音频类型的音频信号各频点本身进行噪声能量抑制。
2.根据权利要求1所述的方法,其特征在于,所述对应用程序输出的音频信号进行识别,确定音频类型,包括:
对应用程序输出的音频信号提取音频特征;
将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型。
3.根据权利要求2所述的方法,其特征在于,所述将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型,包括:
将所述音频特征输入至预设神经网络模型进行分类,得到不同音频类型的置信度;
确定所述得到的置信度中最高置信度对应的目标音频类型;
判断所述最高置信度是否大于或等于所述目标音频类型的预设置信度阈值;
若是,则将所述目标音频类型确定为所述音频信号的音频类型。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述音频类型对应的噪声跟踪方法,包括:
根据预先设置的不同音频类型的噪声跟踪方法,确定与所述音频类型对应的噪声跟踪方法。
5.一种移动终端,其特征在于,所述移动终端包括:
识别模块,用于对应用程序输出的音频信号进行识别,确定音频类型;
确定模块,用于确定与所述音频类型对应的噪声跟踪方法;
跟踪模块,用于采用所述噪声跟踪方法对所述音频信号进行噪声跟踪,获取所述音频信号的噪声能量;
抑制模块,用于对所述音频信号的所述噪声能量进行抑制;
第一转换模块,用于将所述音频信号从时域信号转换为频域信号;
所述跟踪模块包括:
跟踪子模块,用于采用所述噪声跟踪方法对转换为频域信号的所述音频信号进行噪声跟踪,获取所述音频信号各频点的噪声能量;
所述抑制模块包括:
抑制子模块,用于对所述音频信号各频点的所述噪声能量进行抑制;
第二转换模块,用于将抑制噪声能量之后的所述音频信号从频域信号转换为时域信号;
其中,所述对所述音频信号各频点的所述噪声能量进行抑制,包括:
对非噪声音频类型的音频信号各频点的所述噪声能量进行抑制;
对噪声音频类型的音频信号各频点本身进行噪声能量抑制。
6.根据权利要求5所述的移动终端,其特征在于,所述识别模块包括:
提取子模块,用于对应用程序输出的音频信号提取音频特征;
分类子模块,用于将所述音频特征输入至预设神经网络模型进行分类,确定所述音频信号的音频类型。
7.根据权利要求6所述的移动终端,其特征在于,所述分类子模块包括:
分类单元,用于将所述音频特征输入至预设神经网络模型进行分类,得到不同音频类型的置信度;
第一确定单元,用于确定所述得到的置信度中最高置信度对应的目标音频类型;
判断单元,用于判断所述最高置信度是否大于或等于所述目标音频类型的预设置信度阈值;
第二确定单元,用于所述判断单元判断所述最高置信度大于或等于所述目标音频类型的预设置信度阈值,则将所述目标音频类型确定为所述音频信号的音频类型。
8.根据权利要求5所述的移动终端,其特征在于,所述确定模块包括:
确定子模块,用于根据预先设置的不同音频类型的噪声跟踪方法,确定与所述音频类型对应的噪声跟踪方法。
9.一种移动终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的噪声抑制程序,所述噪声抑制程序被所述处理器执行时实现如权利要求1至4中任一项所述的噪声抑制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有噪声抑制程序,所述噪声抑制程序被处理器执行时实现如权利要求1至4中任一项所述的噪声抑制方法中的步骤。
CN201710628712.1A 2017-07-28 2017-07-28 一种噪声抑制方法及移动终端 Active CN107507621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710628712.1A CN107507621B (zh) 2017-07-28 2017-07-28 一种噪声抑制方法及移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710628712.1A CN107507621B (zh) 2017-07-28 2017-07-28 一种噪声抑制方法及移动终端

Publications (2)

Publication Number Publication Date
CN107507621A CN107507621A (zh) 2017-12-22
CN107507621B true CN107507621B (zh) 2021-06-22

Family

ID=60689070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710628712.1A Active CN107507621B (zh) 2017-07-28 2017-07-28 一种噪声抑制方法及移动终端

Country Status (1)

Country Link
CN (1) CN107507621B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108449493B (zh) * 2018-03-12 2020-06-26 Oppo广东移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
CN109788400B (zh) * 2019-03-06 2020-12-18 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
US11011182B2 (en) * 2019-03-25 2021-05-18 Nxp B.V. Audio processing system for speech enhancement
CN112151055B (zh) * 2020-09-25 2024-04-30 北京猿力未来科技有限公司 音频处理方法及装置
CN112289340B (zh) * 2020-11-03 2024-05-07 北京猿力未来科技有限公司 音频检测方法及装置
CN113096677B (zh) * 2021-03-31 2024-04-26 深圳市睿耳电子有限公司 一种智能降噪的方法及相关设备
CN113160846B (zh) * 2021-04-22 2024-05-17 维沃移动通信有限公司 噪声抑制方法和电子设备
CN113316075B (zh) * 2021-05-11 2023-02-14 紫光展锐(重庆)科技有限公司 一种啸叫检测方法、装置及电子设备
CN115223584B (zh) * 2022-09-19 2022-12-09 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101583996A (zh) * 2006-12-30 2009-11-18 摩托罗拉公司 结合多种噪声抑制技术的方法和噪声抑制电路
US9058820B1 (en) * 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
CN105070294A (zh) * 2015-06-26 2015-11-18 努比亚技术有限公司 一种音频处理方法及音频处理终端
CN106356070A (zh) * 2016-08-29 2017-01-25 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN106940998B (zh) * 2015-12-31 2021-04-16 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN106653007B (zh) * 2016-12-05 2019-07-16 苏州奇梦者网络科技有限公司 一种语音识别系统
CN106782536B (zh) * 2016-12-26 2020-02-28 北京云知声信息技术有限公司 一种语音唤醒方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101583996A (zh) * 2006-12-30 2009-11-18 摩托罗拉公司 结合多种噪声抑制技术的方法和噪声抑制电路
US9058820B1 (en) * 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
CN105070294A (zh) * 2015-06-26 2015-11-18 努比亚技术有限公司 一种音频处理方法及音频处理终端
CN106356070A (zh) * 2016-08-29 2017-01-25 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置

Also Published As

Publication number Publication date
CN107507621A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN107507621B (zh) 一种噪声抑制方法及移动终端
CN107644642B (zh) 语义识别方法、装置、存储介质及电子设备
US10354652B2 (en) Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US9354842B2 (en) Apparatus and method of controlling voice input in electronic device supporting voice recognition
WO2021093380A1 (zh) 一种噪声处理方法、装置、系统
US11175698B2 (en) Methods and systems for processing touch inputs based on touch type and touch intensity
US9953634B1 (en) Passive training for automatic speech recognition
AU2013289660B2 (en) Method for updating voiceprint feature model and terminal
CN107105367B (zh) 一种音频信号处理方法及终端
US20160019886A1 (en) Method and apparatus for recognizing whisper
KR20160014297A (ko) 전자 장치 및 이의 제어 방법
KR101474856B1 (ko) 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
CN108810280B (zh) 语音采集频率的处理方法、装置、存储介质及电子设备
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
WO2021057239A1 (zh) 语音数据的处理方法、装置、电子设备及可读存储介质
CN111883091A (zh) 音频降噪方法和音频降噪模型的训练方法
CN112364799A (zh) 一种手势识别方法及装置
CN105630336A (zh) 音量控制方法和装置
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN111739545B (zh) 音频处理方法、装置及存储介质
AU2013206371B2 (en) Method for improving touch recognition and electronic device thereof
CN107181871B (zh) 一种音量调节的方法和移动终端
CN110931028A (zh) 一种语音处理方法、装置和电子设备
CN106686249B (zh) 一种语音通话方法及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant