CN105355197B - 用于语音识别系统的增益处理方法及装置 - Google Patents

用于语音识别系统的增益处理方法及装置 Download PDF

Info

Publication number
CN105355197B
CN105355197B CN201510729439.2A CN201510729439A CN105355197B CN 105355197 B CN105355197 B CN 105355197B CN 201510729439 A CN201510729439 A CN 201510729439A CN 105355197 B CN105355197 B CN 105355197B
Authority
CN
China
Prior art keywords
gain
audio data
preset
audio
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510729439.2A
Other languages
English (en)
Other versions
CN105355197A (zh
Inventor
徐杨飞
魏建强
崔玮玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510729439.2A priority Critical patent/CN105355197B/zh
Publication of CN105355197A publication Critical patent/CN105355197A/zh
Application granted granted Critical
Publication of CN105355197B publication Critical patent/CN105355197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提出一种用于语音识别系统的增益处理方法和装置,其中,该方法包括:从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,音频期望幅值与语音识别系统中的训练数据匹配;从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;应用期望增益对第一音频数据进行幅度调整。实现了对音频数据进行自动的增益调整,使得接收到的音频信号的幅值大于语音识别系统的门限值,且与训练数据相匹配,提高了语音识别系统的稳健性。

Description

用于语音识别系统的增益处理方法及装置
技术领域
本申请涉及语音识别处理技术领域,尤其涉及一种用于语音识别系统的增益处理方法及装置。
背景技术
随着语音识别技术的发展,语音识别系统的应用领域越来越广。现有的语音识别系统通常利用海量的音频数据来训练一个通用的模型用于语音识别。
然而,在实际使用语音识别系统时,待识别的音频数据的统计特性和训练数据不可避免的会出现不匹配,这种不匹配尤其体现在音频信号的幅度上。另外,语音识别系统通常要求麦克风接收到的音频幅值高于一定的门限,一旦音频幅值低于该门限,则识别系统的性能大大降低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种用于语音识别系统的增益处理方法,该方法实现了对音频数据进行自动的增益调整,使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值,而且与语音识别系统中的训练数据相匹配,提高了语音识别系统的稳健性。
本申请的第二个目的在于提出一种用于语音识别系统的增益处理装置。
为达上述目的,本申请第一方面实施例提出了一种用于语音识别系统的增益处理方法,包括:从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;应用所述期望增益对所述第一音频数据进行幅度调整。
本申请实施例的用于语音识别系统的增益处理方法,首先从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;然后根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;最后应用所述期望增益对所述第一音频数据进行幅度调整。由此,实现了对音频数据进行自动的增益调整,使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值,而且与语音识别系统中的训练数据相匹配,提高了语音识别系统的稳健性。
为达上述目的,本申请第二方面实施例提出了一种用于语音识别系统的增益处理装置,包括:第一获取模块,用于从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;第二获取模块,用于根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;第一处理模块,用于从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;调整模块,用于应用所述期望增益对所述第一音频数据进行幅度调整。
本申请实施例的用于语音识别系统的增益处理装置,通过第一获取模块从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;通过第二获取模块根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;通过第一处理模块从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;通过调整模块应用所述期望增益对所述第一音频数据进行幅度调整。由此,实现了对音频数据进行自动的增益调整,使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值,而且与语音识别系统中的训练数据相匹配,提高了语音识别系统的稳健性。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的用于语音识别系统的增益处理方法的流程图;
图2是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图;
图3是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图;
图4是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图;
图5是本申请一个实施例的用于语音识别系统的增益处理装置的结构示意图;
图6是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图;
图7是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图;
图8是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的用于语音识别系统的增益处理方法及装置。
图1是本申请一个实施例的用于语音识别系统的增益处理方法的流程图。
如图1所示,该用于语音识别系统的增益处理方法包括:
步骤101,从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值。
具体来说,本发明实施例提供的用于语音识别系统的增益处理方法应用于语音识别系统中,对输入的音频数据的幅度进行增益调整。
首先,根据预设帧长从语音识别系统输入的音频数据中确定当前待处理的音频数据帧,即第一音频数据,(为了避免与本实施例中其他的音频数据混淆,预设帧长的当前待处理的音频数据帧为第一音频数据),其中,预设帧长可以根据应用需要和识别性能要求进行灵活设置,例如从50ms到250ms的音频范围内选取80ms这个值作为预设帧长,则从当前输入的音频数据中选取80ms的音频数据作为第一音频数据进行处理。
然后从第一音频数据中,根据预设的分割长度获取每个音频段的峰值。其中,预设的分割长度可以根据应用需要和识别性能要求进行灵活设置,例如将分割长度设置为10ms时,对80ms的第一音频数据进行分割处理即获取8个音频段,进而获取与8个音频段分别对应的峰值。
步骤102,根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配。
预先根据语音识别系统中的训练数据设置音频期望幅值,从而使进行增益调整后的第一音频数据的音频信号的幅值大于语音识别系统的门限值,而且与语音识别系统中的训练数据相匹配。
根据获取的每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,需要注意的是,获取每个音频段的分块增益的算法很多,可以根据应用需要进行选择,例如,预设的音频期望幅值与每个音频段的峰值的比值作为每个音频段的分块增益。
步骤103,从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益。
具体地,从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,其中,M可以根据应用需要进行设置,比如为3,或者5,将M个分块增益的中间值作为所述第一音频数据的期望增益。
步骤104,应用所述期望增益对所述第一音频数据进行幅度调整。
应用获取的期望增益与该第一音频数据进行相乘,对第一音频数据的幅度进行调整,并采用语音识别系统对调整后的第一音频数据进行识别处理。
为了更加清楚的描述本实施例提供的用于语音识别系统的增益处理方法,以第一音频数据的预设帧长为80ms;预设的分割长度为10ms;预设的音频期望幅值为25000为例具体说明如下:
对80ms的第一音频数据按照每10ms分割计算其增益,
上式中PeakLeveli表示第i个10ms数据的峰值。
为了防止冲击噪音对增益控制的影响,从8个增益中取出3个最小值,并对3个最小值进行中值滤波,得到相对于预设的音频期望幅值,当前80ms的期望增益gmin
本实施例的用于语音识别系统的增益处理方法,首先从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;然后根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;最后应用所述期望增益对所述第一音频数据进行幅度调整。由此,实现了对音频数据进行自动的增益调整,使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值,而且与语音识别系统中的训练数据相匹配,提高了语音识别系统的稳健性。
基于上述实施例,为了进一步的避免不同音频段之间增益存在跳变,保证音频在段与段之间的连续性,进一步地提高识别性能,通过图2所示实施例对第一音频数据的期望增益进行修正,具体说明如下:
图2是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图。如图2所示,针对图1中的步骤103之后,还可以包括以下步骤:
步骤201,确定所述第一音频数据的类型。
具体地,音频数据的类型包括噪音类型和语音类型,针对不同的音频数据类型,对相应的期望增益的修正过程也不同。因此,首先确定预设帧长的第一音频数据的类型,需要说明的是,具体的确定方式有很多,可以根据实际应用需要进行选择,例如;通过高斯参数分布模型确定第一音频数据的类型,或者,通过音频数据的语音活动检测信息确定第一音频数据的类型,以语音活动检测信息为例通过后续实施例具体介绍确定过程。
步骤202,根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,并对所述期望增益进行更新。
具体地,确定完第一音频数据的类型之后,获取第一音频数据的前一帧音频数据的历史期望增益,进而根据该历史期望增益获取与第一音频数据的类型对应的修正增益。由于不同类型的音频数据的期望增益的修正过程不同,例如:当第一音频数据的类型为噪音时,直接应用前一帧音频数据的历史期望增益对期望增益进行更新;当第一音频数据的类型为语音时,应用前一帧音频数据的历史期望增益,以及其他的一些参数进行相关的逻辑运算后对期望增益进行更新。
步骤203,应用所述修正增益对所述第一音频数据进行幅度调整。
对期望增益进行更新后获取第一音频数据的修正增益,然后应用该修正增益与该第一音频数据进行相乘,对第一音频数据的幅度进行调整,并采用语音识别系统对调整后的第一音频数据进行识别处理。
本实施例的用于语音识别系统的增益处理方法,通过确定所述第一音频数据的类型,根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,并对所述期望增益进行更新,进而应用所述修正增益对所述第一音频数据进行幅度调整。由此,基于上述实施例,进一步地避免不同音频段之间增益存在跳变,保证音频在段与段之间的连续性,进一步地提高识别性能。
图3是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图。本实施例具体介绍以语音活动检测信息确定第一音频数据类型的过程,以及针对不同类型的第一音频数据的期望增益进行更新的过程。
如图3所示,针对图1中的步骤103之后,还可以包括以下步骤:
步骤301,获取所述每个音频段的语音活动检测信息。
具体地,获取向语音识别系统输入的、预先获取的每个音频段的语音活动检测信息,其中,语音活动检测信息为通过预设的检测手段确定被检测的音频数据的性质。语音活动检测信息包括0和1,0代表噪声,1代表语音,例如:以能量检测方式为例,当音频段的能量大于预设的阈值时,则确定该音频段为语音,与该音频段对应的语音活动检测信息为1;当音频段的能量小于等于预设的阈值时,则确定音频段为噪音,与该音频段对应的语音活动检测信息为0。
步骤302,判断所有语音活动检测信息的总和是否小于预设门限值;
获取所有语音活动检测信息的总和,然后将所有语音活动检测信息的总和与预设的门限值进行比较,若判断获知所有语音活动检测信息的总和小于该门限值,则确定第一音频数据为噪音类型,若判断获知所有语音活动检测信息的总和大于等于该门限值,则确定第一音频数据为语音类型。其中,预设的门限值可以根据预设的算法和根据预设的分割长度获取的音频段的数量进行确定的。
为了更加清楚的说明用语音活动检测信息确定第一音频数据类型的过程,继续以图1中的例子继续说明如下:
根据每个音频段的语音活动检测信息,对所有的语音活动检测信息求和
vadsum=ΣVAD
如果vadsum>8×2/3,则判断当前80ms的第一音频数据为语音类型,否则为噪声类型。
当所述第一音频数据为噪音类型,则执行步骤303,当所述第一音频数据为语音类型,则执行步骤304。
步骤303,当所述第一音频数据为噪音类型,应用所述前一帧音频数据的历史期望增益作为所述修正增益。
当第一音频数据为噪音类型,应用第一音频数据的前一帧音频数据的历史期望增益作为第一音频数据的修正增益。其中,前一帧音频数据的历史期望增益的具体获取过程如图1所示实施例,此处不再赘述。
步骤304,当所述第一音频数据为语音类型,根据预设的跟踪窗长获取所述第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于所述跟踪窗长与所述预设帧长的比值。
具体地,当第一音频数据为语音类型,根据预设的跟踪窗长获取第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于跟踪窗长与所述预设帧长的比值。其中,预设的跟踪窗长为包含各种语音信息,用于防止帧与帧之间增益突变的最小增益的跟踪窗长,有助于对加载在音频上的增益进行平滑,降低了帧与帧之间音频的跳变,调整信号幅度的同时尽可能多的保留了原始信号的包络信息,从而更加有效地改善识别性能。例如:预设的跟踪窗长为960ms,对于80ms的第一音频数据来说,N=12,即获取所述第一音频数据的前12帧的历史期望增益。
步骤305,从所述N个历史期望增益和所述期望增益中取最小值为参考增益。
从N个历史期望增益中取最小值为参考增益,其中,前N帧音频数据的各个历史期望增益的具体获取过程如图1所示实施例,此处不再赘述。
步骤306,若判断获知所述参考增益在预设的增益持续时长内没有变化,则根据所述跟踪窗长和预设的更新算法对所述参考增益进行更新。
具体地,预先设置一个增益持续时长,根据该增益持续时长监控参考增益是否在该增益持续时长中发生变化,若是,则持续更新,若判断获知参考增益在预设的增益持续时长内没有变化,则根据所述跟踪窗长和预设的更新算法对所述参考增益进行更新。
步骤307,根据所述前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益,按照预设的修正算法获取所述修正增益。
具体地,根据第一音频数据的前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益,按照预设的修正算法获取第一音频数据的修正增益。其中,修正算法的实现方式很多,可以根据应用需要进行选择。
为了更加清楚的描述当第一音频数据为语音类型时,修正增益的具体获取过程,继续以上述例子说明如下:
参数初始化:
预设的音频期望幅值:PeakThld=25000;
防止帧与帧之间增益突变的最小增益跟踪窗长:WinLen=12,即960ms;
初始的最小参考增益:Gmin=100.0;
初始的最小增益持续时长:holdtime=0;
增益平滑因子:α=0.9;
初始的局部最小参考增益:Gmintemp=100.0;
初始化的历史期望增益:GFinal=1.0;
初始化的历史期望增益:GainDelay=1.0;
如果当前帧与语音,则最终增益的计算按照如下步骤:
if(gmin<Gmin)
Gmin←gmin
holdtime=0
else
holdtime++
if(holdtime>WinLen/2&&gmin<Gmintemp)
Gmintemp=gmin
if(holdtime>3*WinLen/2)
Gmin=Gmintemp
holdtime=WinLen/2
GFinal=αGFinal+(1-α)Gmin
Gain=GFinal
进一步地,由于当说话场景相对固定时,语音在相邻帧之间其峰值变化较小,因此,基于上述实施例,在步骤305之后,还包括:
根据所述期望增益和所述参考增益,以及预设的语音矫正算法确定所述第一音频数据是否为语音类型;
若确定所述第一音频数据为噪音类型,则应用所述参考增益作为所述修正增益。
为了更加清楚的描述当第一音频数据为语音类型时,语音类型的具体矫正过程,继续以上述例子说明如下:继续以上述例子说明如下:
如果gmin≥5*Gmin,则认为当前80ms音频数据为噪声,且Gain=Gmin
本实施例的用于语音识别系统的增益处理方法,通过语音活动检测信息确定所述第一音频数据的类型,若确定所述第一音频数据为噪音类型,应用所述前一帧音频数据的历史期望增益作为所述修正增益;若确定所述第一音频数据为语音类型,根据预设的跟踪窗长获取所述第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于所述跟踪窗长与所述预设帧长的比值;从所述N个历史期望增益和所述期望增益中取最小值为参考增益;根据所述前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益获取所述修正增益。由此,基于上述实施例,进一步地避免不同音频段之间增益存在跳变,保证音频在段与段之间的连续性,进一步地提高识别性能。
为了保证当前第一音频数据根据修正增益处理后不会被截幅,通过图4对修正增益进行限制处理。
图4是本申请另一个实施例的用于语音识别系统的增益处理方法的流程图。如图4所示,针对图2中的步骤202之后,还可以包括以下步骤:
步骤401,比较所述修正增益与最小的分块增益;
步骤402,若所述修正增益大于所述最小的分块增益,则应用最小的分块增益更新所述修正增益;
具体地,根据图1中步骤102中获取每个音频段的分块增益确定最小的分块增益,然后比较第一音频数据的修正增益与最小的分块增益的大小。若比较获知修正增益小于最小的分块增益,则不作处理;若比较获知修正增益大于最小的分块增益,则应用最小的分块增益更新修正增益。
步骤403,应用所述最小的分块增益对所述第一音频数据进行幅度调整。
对修正增益进行更新后,然后应用该最小的分块增益与该第一音频数据进行相乘,对第一音频数据的幅度进行调整,并采用语音识别系统对调整后的第一音频数据进行识别处理。
本实施例的用于语音识别系统的增益处理方法,通过比较所述修正增益与最小的分块增益;若所述修正增益大于所述最小的分块增益,则应用最小的分块增益更新所述修正增益;应用所述最小的分块增益对所述第一音频数据进行幅度调整。避免了当前第一音频数据根据修正增益处理后不会被截幅,进一步地提高了识别性能。
为了实现上述实施例,本申请还提出一种用于语音识别系统的增益处理装置。
图5是本申请一个实施例的用于语音识别系统的增益处理装置的结构示意图。
如图5所示,该用于语音识别系统的增益处理装置包括:
第一获取模块11,用于从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;
第二获取模块12,用于根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;
第一处理模块13,用于从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;
调整模块14,用于应用所述期望增益对所述第一音频数据进行幅度调整。
需要说明的是,前述对用于语音识别系统的增益处理方法实施例的解释说明也适用于该实施例的用于语音识别系统的增益处理装置,此处不再赘述。
本申请实施例的用于语音识别系统的增益处理装置,首先从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;然后根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;对所有分块增益进行中值滤波处理,获取所述第一音频数据的期望增益;最后应用所述期望增益对所述第一音频数据进行幅度调整。由此,实现了对音频数据进行自动的增益调整,使得麦克风接收到的音频信号的幅值大于语音识别系统的门限值,而且与语音识别系统中的训练数据相匹配,提高了语音识别系统的稳健性。
图6是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图,如图6所示,基于图5所示实施例,还包括:
确定模块15,用于在所述获取所述第一音频数据的期望增益之后,确定所述第一音频数据的类型;
第二处理模块16,用于根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,并对所述期望增益进行更新;
所述调整模块14,还用于应用所述修正增益对所述第一音频数据进行幅度调整。
需要说明的是,前述对用于语音识别系统的增益处理方法实施例的解释说明也适用于该实施例的用于语音识别系统的增益处理装置,此处不再赘述。
本申请实施例的用于语音识别系统的增益处理装置,通过确定所述第一音频数据的类型,根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,并对所述期望增益进行更新,进而应用所述修正增益对所述第一音频数据进行幅度调整。由此,基于上述实施例,进一步地避免不同音频段之间增益存在跳变,保证音频在段与段之间的连续性,进一步地提高识别性能。
图7是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图,如图7所示,基于图6所示实施例,所述确定模块15,包括:
获取单元151,用于获取所述每个音频段的语音活动检测信息;
判断单元152,用于若判断获知所有语音活动检测信息的总和大于等于预设门限值,则确定所述第一音频数据为语音类型;若判断获知所有语音活动检测信息的总和小于所述门限值,则确定所述第一音频数据为噪音类型。
若确定所述第一音频数据为噪音类型,所述第二处理模块16,具体用于:
应用所述前一帧音频数据的历史期望增益作为所述修正增益。
若确定所述第一音频数据为语音类型,所述第二处理模块16,具体用于:
根据预设的跟踪窗长获取所述第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于所述跟踪窗长与所述预设帧长的比值;
从所述N个历史期望增益和所述期望增益中取最小值为参考增益;
根据所述前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益获取所述修正增益。
进一步地,所述第二处理模块16还用于:
若判断获知所述参考增益在预设的增益持续时长内没有变化,则根据所述跟踪窗长和预设的更新算法对所述参考增益进行更新。
进一步地,所述第二处理模块16还用于:
根据所述期望增益和所述参考增益,以及预设的语音矫正算法确定所述第一音频数据是否为语音类型;
若确定所述第一音频数据为噪音类型,则应用所述参考增益作为所述修正增益。
需要说明的是,前述对用于语音识别系统的增益处理方法实施例的解释说明也适用于该实施例的用于语音识别系统的增益处理装置,此处不再赘述。
本申请实施例的用于语音识别系统的增益处理装置,通过语音活动检测信息确定所述第一音频数据的类型,若确定所述第一音频数据为噪音类型,应用所述前一帧音频数据的历史期望增益作为所述修正增益;若确定所述第一音频数据为语音类型,根据预设的跟踪窗长获取所述第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于所述跟踪窗长与所述预设帧长的比值;从所述N个历史期望增益和所述期望增益中取最小值为参考增益;根据所述前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益获取所述修正增益。由此,基于上述实施例,进一步地避免不同音频段之间增益存在跳变,保证音频在段与段之间的连续性,进一步地提高识别性能。
图8是本申请另一个实施例的用于语音识别系统的增益处理装置的结构示意图,基于上述实施例,如图8所示,以图6为例,还包括:
第三处理模块17,用于在所述获取与所述第一音频数据的类型对应的第一修正增益之后,比较所述修正增益与最小的分块增益,若所述修正增益大于所述最小的分块增益,则应用最小的分块增益更新所述修正增益;
所述调整模块14,还用于应用所述最小的分块增益对所述第一音频数据进行幅度调整。
需要说明的是,前述对用于语音识别系统的增益处理方法实施例的解释说明也适用于该实施例的用于语音识别系统的增益处理装置,此处不再赘述。
本申请实施例的用于语音识别系统的增益处理装置,通过比较所述修正增益与最小的分块增益;若所述修正增益大于所述最小的分块增益,则应用最小的分块增益更新所述修正增益;应用所述最小的分块增益对所述第一音频数据进行幅度调整。避免了当前第一音频数据根据修正增益处理后不会被截幅,进一步地提高了识别性能。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种用于语音识别系统的增益处理方法,其特征在于,包括以下步骤:
从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;
根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;
从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;
应用所述期望增益对所述第一音频数据进行幅度调整。
2.如权利要求1所述的方法,其特征在于,所述获取所述第一音频数据的期望增益之后,还包括:
确定所述第一音频数据的类型;
根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,并对所述期望增益进行更新;
应用所述修正增益对所述第一音频数据进行幅度调整。
3.如权利要求2所述的方法,其特征在于,所述确定所述第一音频数据的类型,包括:
获取所述每个音频段的语音活动检测信息;
若判断获知所有语音活动检测信息的总和大于等于预设门限值,则确定所述第一音频数据为语音类型;
若判断获知所有语音活动检测信息的总和小于所述门限值,则确定所述第一音频数据为噪音类型。
4.如权利要求2所述的方法,其特征在于,若确定所述第一音频数据为噪音类型,所述根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,包括:
应用所述前一帧音频数据的历史期望增益作为所述修正增益。
5.如权利要求2所述的方法,其特征在于,若确定所述第一音频数据为语音类型,所述根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,包括:
根据预设的跟踪窗长获取所述第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于所述跟踪窗长与所述预设帧长的比值;
从所述N个历史期望增益和所述期望增益中取最小值为参考增益;
根据所述前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益获取所述修正增益。
6.如权利要求5所述的方法,其特征在于,所述从所述N个历史期望增益和所述期望增益中取最小值为参考增益之后,还包括:
若判断获知所述参考增益在预设的增益持续时长内没有变化,则根据所述跟踪窗长和预设的更新算法对所述参考增益进行更新。
7.如权利要求5所述的方法,其特征在于,所述从所述N个历史期望增益和所述期望增益中取最小值为参考增益之后,还包括:
根据所述期望增益和所述参考增益,以及预设的语音矫正算法确定所述第一音频数据是否为语音类型;
若确定所述第一音频数据为噪音类型,则应用所述参考增益作为所述修正增益。
8.如权利要求2-7任一所述的方法,其特征在于,所述获取与所述第一音频数据的类型对应的第一修正增益之后,还包括:
比较所述修正增益与最小的分块增益;
若所述修正增益大于所述最小的分块增益,则应用最小的分块增益更新所述修正增益;
应用所述最小的分块增益对所述第一音频数据进行幅度调整。
9.一种用于语音识别系统的增益处理装置,其特征在于,包括:
第一获取模块,用于从输入的预设帧长的第一音频数据中,根据预设的分割长度获取每个音频段的峰值;
第二获取模块,用于根据每个音频段的峰值以及预设的音频期望幅值,获取每个音频段的分块增益,其中,所述音频期望幅值与语音识别系统中的训练数据匹配;
第一处理模块,用于从所有分块增益中从小到大选择预设的M个分块增益值进行中值滤波处理,获取所述第一音频数据的期望增益;
调整模块,用于应用所述期望增益对所述第一音频数据进行幅度调整。
10.如权利要求9所述的装置,其特征在于,还包括:
确定模块,用于在所述获取所述第一音频数据的期望增益之后,确定所述第一音频数据的类型;
第二处理模块,用于根据所述第一音频数据的前一帧音频数据的历史期望增益,获取与所述第一音频数据的类型对应的修正增益,并对所述期望增益进行更新;
所述调整模块,还用于应用所述修正增益对所述第一音频数据进行幅度调整。
11.如权利要求10所述的装置,其特征在于,所述确定模块,包括:
获取单元,用于获取所述每个音频段的语音活动检测信息;
判断单元,用于若判断获知所有语音活动检测信息的总和大于等于预设门限值,则确定所述第一音频数据为语音类型;若判断获知所有语音活动检测信息的总和小于所述门限值,则确定所述第一音频数据为噪音类型。
12.如权利要求10所述的装置,其特征在于,若确定所述第一音频数据为噪音类型,所述第二处理模块,具体用于:
应用所述前一帧音频数据的历史期望增益作为所述修正增益。
13.如权利要求10所述的装置,其特征在于,若确定所述第一音频数据为语音类型,所述第二处理模块,具体用于:
根据预设的跟踪窗长获取所述第一音频数据的前N帧音频数据的N个历史期望增益,其中,N等于所述跟踪窗长与所述预设帧长的比值;
从所述N个历史期望增益和所述期望增益中取最小值为参考增益;
根据所述前一帧音频数据的历史期望增益、预设的增益平滑因子、所述参考增益获取所述修正增益。
14.如权利要求13所述的装置,其特征在于,所述第二处理模块还用于:
若判断获知所述参考增益在预设的增益持续时长内没有变化,则根据所述跟踪窗长和预设的更新算法对所述参考增益进行更新。
15.如权利要求13所述的装置,其特征在于,所述第二处理模块还用于:
根据所述期望增益和所述参考增益,以及预设的语音矫正算法确定所述第一音频数据是否为语音类型;
若确定所述第一音频数据为噪音类型,则应用所述参考增益作为所述修正增益。
16.如权利要求9-15任一所述的装置,其特征在于,还包括:
第三处理模块,用于在所述获取与所述第一音频数据的类型对应的第一修正增益之后,比较所述修正增益与最小的分块增益,若所述修正增益大于所述最小的分块增益,则应用最小的分块增益更新所述修正增益;
所述调整模块,还用于应用所述最小的分块增益对所述第一音频数据进行幅度调整。
CN201510729439.2A 2015-10-30 2015-10-30 用于语音识别系统的增益处理方法及装置 Active CN105355197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510729439.2A CN105355197B (zh) 2015-10-30 2015-10-30 用于语音识别系统的增益处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729439.2A CN105355197B (zh) 2015-10-30 2015-10-30 用于语音识别系统的增益处理方法及装置

Publications (2)

Publication Number Publication Date
CN105355197A CN105355197A (zh) 2016-02-24
CN105355197B true CN105355197B (zh) 2020-01-07

Family

ID=55331160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729439.2A Active CN105355197B (zh) 2015-10-30 2015-10-30 用于语音识别系统的增益处理方法及装置

Country Status (1)

Country Link
CN (1) CN105355197B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448712B (zh) * 2016-10-20 2019-06-25 广州视源电子科技股份有限公司 一种音频信号的自动增益控制方法和装置
CN107820188A (zh) * 2017-11-15 2018-03-20 深圳市路畅科技股份有限公司 一种校准麦克风的方法、系统及相关装置
CN108174328A (zh) * 2018-02-06 2018-06-15 深圳市富励逻辑科技有限公司 语音处理系统的自动增益控制方法及控制装置
CN108717851B (zh) * 2018-03-28 2021-04-06 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN110660408B (zh) * 2019-09-11 2022-02-22 厦门亿联网络技术股份有限公司 一种数字自动控制增益的方法和装置
CN111161749B (zh) * 2019-12-26 2023-05-23 佳禾智能科技股份有限公司 可变帧长的拾音方法、电子设备、计算机可读存储介质
CN113593539A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1190773A (zh) * 1997-02-13 1998-08-19 合泰半导体股份有限公司 语音编码的波形增益估测方法
CN1227459A (zh) * 1997-12-31 1999-09-01 三星电子株式会社 自动调节组合数字蜂窝通讯终端的音频增益的方法
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN1801326A (zh) * 2004-12-31 2006-07-12 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
CN101567672A (zh) * 2009-05-15 2009-10-28 杭州华三通信技术有限公司 获取增益的方法及系统
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
CN103841492A (zh) * 2012-11-20 2014-06-04 联想(北京)有限公司 一种音频信号的输出方法及装置
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100548060C (zh) * 2006-02-06 2009-10-07 海信集团有限公司 Tetra集群手机语音处理方法
CN100589183C (zh) * 2007-01-26 2010-02-10 北京中星微电子有限公司 数字自动增益控制方法及装置
JP2011002534A (ja) * 2009-06-17 2011-01-06 Brother Industries Ltd 音声認識装置
JP6229869B2 (ja) * 2012-12-04 2017-11-15 三星電子株式会社Samsung Electronics Co.,Ltd. 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム
EP2936834A1 (en) * 2012-12-20 2015-10-28 Widex A/S Hearing aid and a method for improving speech intelligibility of an audio signal
CN104575515A (zh) * 2013-10-23 2015-04-29 中兴通讯股份有限公司 一种提高语音质量的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1190773A (zh) * 1997-02-13 1998-08-19 合泰半导体股份有限公司 语音编码的波形增益估测方法
CN1227459A (zh) * 1997-12-31 1999-09-01 三星电子株式会社 自动调节组合数字蜂窝通讯终端的音频增益的方法
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN1801326A (zh) * 2004-12-31 2006-07-12 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
CN101567672A (zh) * 2009-05-15 2009-10-28 杭州华三通信技术有限公司 获取增益的方法及系统
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
CN103841492A (zh) * 2012-11-20 2014-06-04 联想(北京)有限公司 一种音频信号的输出方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Learning a discrimination Dictionary for single-channel speech separation";Xu Yangfei ET AL;《IEEE/ACM Transaction on Audio,speech,and language Processing》;20140829;第22卷(第7期);全文 *
"Learning a hierarchy dictionary for single-channel speech separation";Xu Yangfei ET AL;《2014 IEEE workshop on Statistic signal processing》;20140702;全文 *

Also Published As

Publication number Publication date
CN105355197A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105355197B (zh) 用于语音识别系统的增益处理方法及装置
US9171552B1 (en) Multiple range dynamic level control
EP2866229B1 (en) Voice activity detector
US9245349B2 (en) Method and apparatus for detecting edge in image
JP6536320B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
US9286908B2 (en) Method and system for noise reduction
US9552828B2 (en) Audio signal processing device
JP5212380B2 (ja) 画像補正装置、画像補正プログラムおよび画像補正方法
WO2014187095A1 (en) Method and device for detecting noise bursts in speech signals
CN104867499A (zh) 一种用于助听器的分频段维纳滤波去噪方法和系统
CN110942483B (zh) 函数快速收敛模型构建方法、装置和终端
US10270412B2 (en) Sound-field correction device, sound-field correction method, and sound-field correction program
CN105225673B (zh) 用于噪声水平估计的方法、系统和介质
CN105845151A (zh) 应用于语音识别前端的音频增益调整方法和装置
EP3610572B1 (en) Apparatus for processing an input audio signal and corresponding method
CN104637490A (zh) 基于mmse语音概率存在的准确正向snr估计
US9674607B2 (en) Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system
CN112420066A (zh) 降噪方法、装置、计算机设备和计算机可读存储介质
CN105281791B (zh) 一种ofdm无线通信系统中的干扰检测方法
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
EP3566229B1 (en) An apparatus and method for enhancing a wanted component in a signal
US10600432B1 (en) Methods for voice enhancement
US11769517B2 (en) Signal processing apparatus, signal processing method, and signal processing program
US9311927B2 (en) Device and method for audible transient noise detection
US20090154829A1 (en) Method and apparatus for edge enhancement considering singular points

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant