CN105513606A - 语音信号处理方法、装置和系统 - Google Patents

语音信号处理方法、装置和系统 Download PDF

Info

Publication number
CN105513606A
CN105513606A CN201510848803.7A CN201510848803A CN105513606A CN 105513606 A CN105513606 A CN 105513606A CN 201510848803 A CN201510848803 A CN 201510848803A CN 105513606 A CN105513606 A CN 105513606A
Authority
CN
China
Prior art keywords
signal
voice
noise
preset
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510848803.7A
Other languages
English (en)
Other versions
CN105513606B (zh
Inventor
崔玮玮
魏建强
徐杨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510848803.7A priority Critical patent/CN105513606B/zh
Publication of CN105513606A publication Critical patent/CN105513606A/zh
Application granted granted Critical
Publication of CN105513606B publication Critical patent/CN105513606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

本申请提出一种语音信号处理方法、装置和系统,其中,该方法包括:根据预设的分割点将预设的信号调整区间分割为多段放大区间;以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。通过本发明提供的语音信号处理方法、装置和系统,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。

Description

语音信号处理方法、装置和系统
技术领域
本申请涉及语音识别处理技术领域,尤其涉及一种语音信号处理方法、装置和系统。
背景技术
随着语音识别技术的发展,语音识别系统的应用领域越来越广,例如:车载语音识别系统、远场语音识别系统,语音输入法系统以及智能家居系统。由于麦克风距离说话人可近可远,近距离时录到的语音能量足够大,随着距离的增加,语音能量的衰减会造成语音识别器的识别率急剧下降。
动态范围控制(DRC)是语音通信中一种必不可少的技术,即根据DRC曲线对输入信号进行增益处理。然而,目前的DRC曲线是一条固定曲线,限制了不同信号处理的差异性,影响后端语音识别系统的正常工作。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语音信号处理方法,该方法实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
本申请的第二个目的在于提出一种语音信号处理装置。
本申请的第三个目的在于提出一种语音信号处理系统。
为达上述目的,本申请第一方面实施例提出了一种语音信号处理方法,包括:根据预设的分割点将预设的信号调整区间分割为多段放大区间;以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。
本申请实施例的语音信号处理方法,根据预设的分割点将预设的信号调整区间分割为多段放大区间;以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
为达上述目的,本申请第二方面实施例提出了一种语音信号处理装置,包括:分割模块,用于根据预设的分割点将预设的信号调整区间分割为多段放大区间;处理模块,用于以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。
本申请实施例的语音信号处理装置,通过分割模块根据预设的分割点将预设的信号调整区间分割为多段放大区间;通过处理模块以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
为达上述目的,本申请第三方面实施例提出了一种语音信号处理系统,包括:语音信号识别装置,以及如上所述的语音信号处理装置。
本申请实施例的语音信号处理系统,根据预设的分割点将预设的信号调整区间分割为多段放大区间;以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的语音信号处理方法的流程图;
图2为动态DRC曲线示意图;
图3为输入信号经DRC处理前后对比示意图;
图4是本申请另一个实施例的语音信号处理方法的流程图;
图5为通过噪音水平跟踪预估的噪音信号门限动态调整示意图;
图6为通过语音活动检测前后DRC处理效果的对比示意图;
图7为通过噪声抑制处理前后DRC处理效果的对比示意图;
图8是本申请另一个实施例的语音信号处理方法的流程图;
图9是本申请另一个实施例的语音信号处理方法的流程图;
图10为对输入信号的两遍级联DRC处理放大示意图;
图11是本申请一个实施例的语音信号处理装置的结构示意图;
图12是本申请另一个实施例的语音信号处理装置的结构示意图;
图13是本申请另一个实施例的语音信号处理装置的结构示意图;
图14是本申请另一个实施例的语音信号处理装置的结构示意图;
图15是本申请一个实施例的语音信号处理系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音信号处理方法、装置和系统。
图1是本申请一个实施例的语音信号处理方法的流程图。
如图1所示,该语音信号处理方法包括:
步骤101,根据预设的分割点将预设的信号调整区间分割为多段放大区间。
由于目前的DRC是一条曲线固定,造成了门限值和放大区间固定,无法对不同的语音信号进行差异性的增益处理,例如:针对信号幅度很小和信号幅度很大的录音,一条限定的DRC曲线不能同时实现对两批数据的放大作用。因此,本实施例生成新的动态范围控制曲线进行语音信号的动态范围控制。
首先,根据预设的分割点将预设的信号调整区间分割为多段放大区间。其中,预设的信号调整区间的两个端点分别为噪音信号门限和语音信号门限,其中,噪音信号门限小于语音信号门限。
需要注意的是,分割后的多段放大区间的数量可以根据具体应用场景进行设置,例如:
可以采用一个分割点将预设的信号调整区间分割为两段放大区间;或者,
可以采用两个分割点将预设的信号调整区间分割为三段放大区间。
步骤102,以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。
预先设置有目标增益,本领域技术人员可以理解的是,目标增益的表现形式有很多,可以根据应用需要进行选择,例如:放大区间的斜率,或者,放大区间中的多个坐标点。
需要注意的是,由于预先分割的放大区间数量不同,因此,需要预先设置的放大区间的斜率数量,或者,放大区间中的多个坐标点也不同,以放大区间的斜率为例说明如下:
如果预先采用一个分割点将预设的信号调整区间分割为两段放大区间,则需要预先设置至少一个放大区间的斜率;
如果预先采用两个分割点将预设的信号调整区间分割为三段放大区间,则需要预先设置至少两个放大区间的斜率。
以控制坐标的对角线为参考坐标,在对角线上方区域,根据预设的目标增益生成与预先分割的多段放大区间对应的单调递增的动态范围控制曲线。
本领域技术人员可以理解的是,动态范围控制曲线的单调递增特性是指后一段放大区间对应的输出信号大于前一段放大区间对应的输出信号,其中处在后一段放大区间的输入信号的能量大于处在前一段放大区间的输入信号的能量。
由此可见,本实施例生成的与多段放大区间对应的单调递增的动态范围控制曲线,具有不同的放大区间,针对不同的输入信号进行差异化的放大处理。
当接收到输入信号时,将输入信号的能量转换到分贝(dB)域,进而依照DRC曲线找到输出信号的分贝(dB)值。在获取输入输出信号的分贝(dB)值之后,转换到能量域就可以计算得到信号的增益。
为了更加清楚的说明上述实施过程,通过图2所示实施例,以采用一个分割点将预设的信号调整区间分割为两段放大区间为例进行说明:
图2为动态DRC曲线示意图,参见图2,预先设置的信号调整区间为[a3,a1],其中,a1为语音信号门限,a3为噪音信号门限。通过预先设置的分割点a2将信号调整区间分割为:第一放大区间[a3,a2]和第二放大区间[a2,a1]。
预先设置第一放大区间[a3,a2]的斜率k2,考虑到信号包络的单调性,应满足f(a2)<f(a1)(函数f(.)用来表示DRC曲线)。
综上所述,假定输入信号的能量为En,DRC曲线表示了在En<a3以及En>a1时信号不会被放大。对信号的放大程度取决于斜率k2,第一放大区间[a3,a2]为信号的快速放大区间,表示了输入信号每增加1dB,输入信号就会提高k2dB。由于a1为信号可调整区间的最大值,第二放大区间[a2,a1]为信号适量放大区间,会对信号做适量的放大。
图3为输入信号经DRC处理前后对比示意图,参见图3,(a)为DRC处理前的信号,(b)为DRC处理后的信号,可以看出经DRC处理后的信号被有效放大了。
本申请实施例的语音信号处理方法,根据预设的分割点将预设的信号调整区间分割为两段放大区间,以控制坐标对角线为参考坐标在所述对角线上方区域,根据预设的目标增益生成与所述两段放大区间对应的单调递增的动态范围控制曲线。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
图4是本申请另一个实施例的语音信号处理方法的流程图。
参见图4,在步骤101之前,该语音信号处理方法还包括:
步骤201,预估噪音信号门限。
步骤202,根据所述噪音信号门限和预设的语音信号门限确定信号调整区间。
具体来说,为了保证背景噪音信号不被放大,需要动态地估计噪音信号门限,从而确定信号调整区间,使语音信号尽可能的位于信号调整区间。
确定信号调整区间就是确定噪音信号门限和语音信号门限,根据噪音信号门限和语音信号门限确定信号调整区间。进而在此基础上执行图1所示的步骤生成动态范围控制曲线。
其中,语音信号门限是根据具体处理场景和处理设备预先设置的,噪音信号门限是根据实时的信号情况预先估计的。噪音信号门限的预估方式很多,例如利用前N帧的无语音的信号进行估计,也可以根据具体的应用场景通过一些辅助处理手段进行估计,举例说明如下:
作为一种示例,通过噪音水平跟踪预估所述噪音信号门限。
具体地,针对信噪比相对高而背景噪声随环境变化的情况,通过对噪音水平的跟踪实时地更新噪音信号门限,从而保证通过DRC处理后的信号噪音幅度不变而语音部分被放大。
图5为通过噪音水平跟踪预估的噪音信号门限动态调整示意图,如图5所示,当跟踪的噪音水平高时,提高噪音信号门限,当跟踪的噪音水平低时,降低噪音信号门限。随着噪音信号门限的动态调整,多段放大区间也随着调整,根据预设的目标增益生成的与多段放大区间对应的动态范围控制曲线也随着调整。
作为另一种示例,通过语音活动检测预估所述噪音信号门限。
具体地,在DRC前端通过语音活动检测VAD确定当前信号为噪音信号还是语音信号,其目的是利用VAD的估计结果作为控制信号对DRC曲线进行调整。
当VAD的估计结果为噪音信号,根据检测结果更新噪音信号门限;当VAD的估计结果为语音信号,在语音区间进行DRC处理。需要注意的是,与上述示例不同的是,该示例中在噪音区间不对信号做DRC处理。
图6为通过语音活动检测前后DRC处理效果的对比示意图,图6(a)是没有在DRC处理前端加入VAD处理,图6b)显示在DRC处理前端加入VAD处理后,当噪音水平变小时,能对语音信号实现更有效地放大。
作为另一种示例,通过噪声抑制提高输入语音信号的信噪比,降低预估所述噪音信号门限。
具体地,针对低信噪比情况的语音,在DRC前端加入噪声抑制(NS)处理。带噪语音经噪声抑制(NS)处理后,DRC曲线中噪音信号门限会被拉低,这使得语音信号能够更好的位于DRC曲线中最佳放大的区间,从而对整句语音起到更好的放大作用。
图7为通过噪声抑制处理前后DRC处理效果的对比示意图,参见图7,(a)为DRC处理前的信号,(b)为DRC处理后的信号,(C)为经过NS和DRC处理后的信号,可以看出经过NS和DRC处理后的信号被更加有效的放大了。
综上所述,通过加入噪音水平跟踪、VAD或者NS模块,DRC可以实现对于有效语音信号的放大作用,从而改善语音识别及语音活动检测的性能。
本实施例的语音信号处理方法,基于上述实施例,进一步地通过预估噪音信号门限,根据所述噪音信号门限和预设的语音信号门限确定信号调整区间。进一步地提高了对语音信号幅度的动态差异性控制的实时性和灵活性,提高了语音信号识别率,以及语音系统识别的稳健性。
图8是本申请另一个实施例的语音信号处理方法的流程图。
参见图8,基于上述实施例,该语音信号处理方法还包括:
步骤301,接收语音信号。
步骤302,检测所述语音信号是否属于所述信号调整区间。
步骤303,若所述语音信号属于所述信号调整区间,则根据所述动态范围控制曲线进行增益处理。
具体地,当接收到输入信号时,将输入信号的能量转换到分贝(dB)域,根据与输入信号对应的分贝,检测该语音信号是否属于信号调整区间。
若所述语音信号属于所述信号调整区间,依照DRC曲线找到输出信号的分贝(dB)值。在获取输入输出信号的分贝(dB)值之后,转换到能量域就可以计算得到信号的增益。
本实施例的语音信号处理方法,通过接收语音信号,检测所述语音信号是否属于所述信号调整区间,若所述语音信号属于所述信号调整区间,则根据所述动态范围控制曲线进行增益处理。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
图9是本申请另一个实施例的语音信号处理方法的流程图。
参见图9,在步骤303之后,该语音信号处理方法还包括:
步骤401,检测所述语音信号的输出信号是否达到预设的目标幅值。
步骤402,若所述输出信号没有达到所述目标幅值,则根据所述动态范围控制曲线对所述输出信号继续进行增益处理。
具体地,检测经过DRC处理的语音输出信号是否达到预设的目标幅值,若该输出信号没有达到目标幅值,说明当前语音的信号幅度仍然比较低。则根据动态范围控制曲线对输出信号继续进行增益处理,直到输出信号达到目标幅值。
需要注意的是,可以根据应用需要执行DRC曲线的多次级联处理,为了更加清楚的说明级联处理过程,以执行两遍级联的DRC处理为例说明如何实现对语音信号的有效放大。
图10为对输入信号的两遍级联DRC处理放大示意图,参见图10,输入信号x在经过一遍DRC(图10中的虚线)后得到输出信号y1,再将y1作为输入进而可以得到输出y2。比较y2与y1可以看出,输入信号越接近DRC曲线中拐点的位置,信号获得的放大倍数越大。
本实施例的语音信号处理方法,基于上述实施例,通过进一步地检测语音信号的输出信号是否达到预设的目标幅值,若所述输出信号没有达到所述目标幅值,则根据所述动态范围控制曲线对所述输出信号继续进行增益处理。由此,进一步地提高了对语音信号幅度的动态差异性控制的可靠性,提高了语音信号识别率,以及语音系统识别的稳健性。
为了实现上述实施例,本申请还提出一种语音信号处理装置。
图11是本申请一个实施例的语音信号处理装置的结构示意图。
如图11所示,该语音信号处理装置包括:
分割模块11,用于根据预设的分割点将预设的信号调整区间分割为多段放大区间;
处理模块12,用于以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。
其中,本领域技术人员可以理解的是,目标增益的表现形式有很多,可以根据应用需要进行选择,例如:放大区间的斜率,或者,放大区间中的多个坐标点。
需要注意的是,由于预先分割的放大区间数量不同,因此,需要预先设置的放大区间的斜率数量,或者,放大区间中的多个坐标点也不同,以放大区间的斜率为例说明如下:
如果预先采用一个分割点将预设的信号调整区间分割为两段放大区间,则需要预先设置至少一个放大区间的斜率;
如果预先采用两个分割点将预设的信号调整区间分割为三段放大区间,则需要预先设置至少两个放大区间的斜率。
以控制坐标的对角线为参考坐标,在对角线上方区域,根据预设的目标增益生成与预先分割的多段放大区间对应的单调递增的动态范围控制曲线。
需要说明的是,前述对语音信号处理方法实施例的解释说明也适用于该实施例的语音信号处理装置,此处不再赘述。
本申请实施例的语音信号处理装置,根据预设的分割点将预设的信号调整区间分割为两段放大区间,以控制坐标对角线为参考坐标在所述对角线上方区域,根据预设的目标增益生成与所述两段放大区间对应的单调递增的动态范围控制曲线。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
图12是本申请另一个实施例的语音信号处理装置的结构示意图,如图12所示,基于图10所示实施例,还包括:
预测模块13,用于预估噪音信号门限;
确定模块14,用于根据所述噪音信号门限和预设的语音信号门限确定信号调整区间。
其中,噪音信号门限的预估方式很多,例如利用前N帧的无语音的信号进行估计,也可以根据具体的应用场景通过一些辅助处理手段进行估计,举例说明如下:
作为一种示例,所述预测模块13用于:通过噪音水平跟踪预估所述噪音信号门限。
作为一种示例,所述预测模块13用于:通过语音活动检测预估所述噪音信号门限。
作为一种示例,所述预测模块13用于:通过噪声抑制处理提高输入音频的信噪比,并降低预估所述噪音信号门限。
需要说明的是,前述对语音信号处理方法实施例的解释说明也适用于该实施例的语音信号处理装置,此处不再赘述。
本申请实施例的语音信号处理装置,基于上述实施例,进一步的通过预估噪音信号门限,根据所述噪音信号门限和预设的语音信号门限确定信号调整区间。进一步地提高了对语音信号幅度的动态差异性控制的实时性和灵活性,提高了语音信号识别率,以及语音系统识别的稳健性。
图13是本申请另一个实施例的语音信号处理装置的结构示意图,如图12所示,基于上述实施例,以图12为例,还包括:
接收模块15,用于接收语音信号;
第一检测模块16,用于检测所述语音信号是否属于所述信号调整区间;
控制模块17,用于若所述语音信号属于所述信号调整区间,则根据所述动态范围控制曲线进行增益处理。
需要说明的是,前述对语音信号处理方法实施例的解释说明也适用于该实施例的语音信号处理装置,此处不再赘述。
本申请实施例的语音信号处理装置,通过接收语音信号,检测所述语音信号是否属于所述信号调整区间,若所述语音信号属于所述信号调整区间,则根据所述动态范围控制曲线进行增益处理。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
图14是本申请另一个实施例的语音信号处理装置的结构示意图,如图14所示,基于图13所示,还包括:
第二检测模块18,用于检测所述语音信号的输出信号是否达到预设的目标幅值;
控制模块17,还用于若所述输出信号没有达到所述目标幅值,则根据所述动态范围控制曲线对所述输出信号继续进行增益处理。
需要说明的是,前述对语音信号处理方法实施例的解释说明也适用于该实施例的语音信号处理装置,此处不再赘述。
本申请实施例的语音信号处理装置,基于上述实施例,通过进一步地检测语音信号的输出信号是否达到预设的目标幅值,若所述输出信号没有达到所述目标幅值,则根据所述动态范围控制曲线对所述输出信号继续进行增益处理。由此,进一步地提高了对语音信号幅度的动态差异性控制的可靠性,提高了语音信号识别率,以及语音系统识别的稳健性。
为了实现上述实施例,本申请还提出一种语音信号处理系统。
图15是本申请一个实施例的语音信号处理系统的结构示意图。
如图15所示,该语音信号处理系统包括:语音信号识别装置1,以及语音信号处理装置2,其中,语音信号处理装置2可以采用上述实施例提供的语音信号处理装置。
需要说明的是,前述对语音信号处理方法实施例的解释说明也适用于该实施例的语音信号处理系统,此处不再赘述。
本申请实施例的语音信号处理系统,根据预设的分割点将预设的信号调整区间分割为多段放大区间;以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。由此,实现了对语音信号幅度的动态差异性控制,提高了语音信号识别率,以及语音系统识别的稳健性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种语音信号处理方法,其特征在于,包括以下步骤:
根据预设的分割点将预设的信号调整区间分割为多段放大区间;
以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。
2.如权利要求1所述的方法,其特征在于,还包括:
预估噪音信号门限;
根据所述噪音信号门限和预设的语音信号门限确定信号调整区间。
3.如权利要求2所述的方法,其特征在于,所述预估噪音信号门限包括:
通过噪音水平跟踪预估所述噪音信号门限。
4.如权利要求2所述的方法,其特征在于,所述预估噪音信号门限包括:
通过语音活动检测预估所述噪音信号门限。
5.如权利要求2所述的方法,其特征在于,所述预估噪音信号门限包括:
通过噪声抑制处理提高语音信号的信噪比,降低预估所述噪音信号门限值。
6.如权利要求1所述的方法,其特征在于,所述预设的目标增益包括:
放大区间的斜率、或者,放大区间中的多个坐标点。
7.如权利要求1-6任一所述的方法,其特征在于,还包括:
接收语音信号;
检测所述语音信号是否属于所述信号调整区间;
若所述语音信号属于所述信号调整区间,则根据所述动态范围控制曲线进行增益处理。
8.如权利要求7所述的方法,其特征在于,所述根据所述动态范围控制曲线进行增益处理之后,还包括:
检测所述语音信号的输出信号是否达到预设的目标幅值;
若所述输出信号没有达到所述目标幅值,则根据所述动态范围控制曲线对所述输出信号继续进行增益处理。
9.一种语音信号处理装置,其特征在于,包括:
分割模块,用于根据预设的分割点将预设的信号调整区间分割为多段放大区间;
处理模块,用于以控制坐标的对角线为参考坐标,在所述对角线上方区域,根据预设的目标增益生成与所述多段放大区间对应的单调递增的动态范围控制曲线。
10.如权利要求9所述的装置,其特征在于,还包括:
预测模块,用于预估噪音信号门限;
确定模块,用于根据所述噪音信号门限和预设的语音信号门限确定信号调整区间。
11.如权利要求10所述的装置,其特征在于,所述预测模块用于:
通过噪音水平跟踪预估所述噪音信号门限。
12.如权利要求10所述的装置,其特征在于,所述预测模块用于:
通过语音活动检测预估所述噪音信号门限。
13.如权利要求10所述的装置,其特征在于,所述预测模块用于:
通过噪声抑制处理提高输入音频的信噪比,降低预估所述噪音信号门限。
14.如权利要求9所述的装置,其特征在于,所述预设的目标增益包括:
放大区间的斜率、或者,放大区间中的多个坐标点。
15.如权利要求9-14任一所述的装置,其特征在于,还包括:
接收模块,用于接收语音信号;
第一检测模块,用于检测所述语音信号是否属于所述信号调整区间;
控制模块,用于若所述语音信号属于所述信号调整区间,则根据所述动态范围控制曲线进行增益处理。
16.如权利要求15所述的装置,其特征在于,还包括:
第二检测模块,用于检测所述语音信号的输出信号是否达到预设的目标幅值;
所述控制模块,还用于若所述输出信号没有达到所述目标幅值,则根据所述动态范围控制曲线对所述输出信号继续进行增益处理。
17.一种语音信号处理系统,其特征在于,包括:语音信号识别装置,以及如权利要求9-16任一所述的语音信号处理装置。
CN201510848803.7A 2015-11-27 2015-11-27 语音信号处理方法、装置和系统 Active CN105513606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510848803.7A CN105513606B (zh) 2015-11-27 2015-11-27 语音信号处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510848803.7A CN105513606B (zh) 2015-11-27 2015-11-27 语音信号处理方法、装置和系统

Publications (2)

Publication Number Publication Date
CN105513606A true CN105513606A (zh) 2016-04-20
CN105513606B CN105513606B (zh) 2019-12-06

Family

ID=55721532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510848803.7A Active CN105513606B (zh) 2015-11-27 2015-11-27 语音信号处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105513606B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671448A (zh) * 2018-12-29 2019-04-23 联想(北京)有限公司 一种数据处理方法及装置
CN112700785A (zh) * 2020-12-21 2021-04-23 苏州科达特种视讯有限公司 语音信号处理方法、装置及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524060A (en) * 1992-03-23 1996-06-04 Euphonix, Inc. Visuasl dynamics management for audio instrument
CN1801607A (zh) * 2004-12-31 2006-07-12 广达电脑股份有限公司 音频输出装置、无线通信装置及其动态调整音量的方法
CN1879150A (zh) * 2003-11-14 2006-12-13 皇家飞利浦电子股份有限公司 用于音频信号处理的系统和方法
CN101370056A (zh) * 2007-08-17 2009-02-18 上海杰得微电子有限公司 数字音频自动增益控制方法及其系统
CN101855901A (zh) * 2007-08-16 2010-10-06 Dts(英属维尔京群岛)有限公司 用于压缩数字电视的音频处理
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN104902420A (zh) * 2014-12-26 2015-09-09 深圳市微纳集成电路与系统应用研究院 基于曲线压缩实现的宽动态范围压缩方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524060A (en) * 1992-03-23 1996-06-04 Euphonix, Inc. Visuasl dynamics management for audio instrument
CN1879150A (zh) * 2003-11-14 2006-12-13 皇家飞利浦电子股份有限公司 用于音频信号处理的系统和方法
CN1801607A (zh) * 2004-12-31 2006-07-12 广达电脑股份有限公司 音频输出装置、无线通信装置及其动态调整音量的方法
CN101855901A (zh) * 2007-08-16 2010-10-06 Dts(英属维尔京群岛)有限公司 用于压缩数字电视的音频处理
CN101370056A (zh) * 2007-08-17 2009-02-18 上海杰得微电子有限公司 数字音频自动增益控制方法及其系统
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN104902420A (zh) * 2014-12-26 2015-09-09 深圳市微纳集成电路与系统应用研究院 基于曲线压缩实现的宽动态范围压缩方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671448A (zh) * 2018-12-29 2019-04-23 联想(北京)有限公司 一种数据处理方法及装置
CN109671448B (zh) * 2018-12-29 2021-05-18 联想(北京)有限公司 一种数据处理方法及装置
CN112700785A (zh) * 2020-12-21 2021-04-23 苏州科达特种视讯有限公司 语音信号处理方法、装置及相关设备

Also Published As

Publication number Publication date
CN105513606B (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN105304093B (zh) 用于语音识别的信号前端处理方法及装置
JP6536320B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
CN105845151B (zh) 应用于语音识别前端的音频增益调整方法和装置
US9171552B1 (en) Multiple range dynamic level control
CN110265020B (zh) 语音唤醒方法、装置及电子设备、存储介质
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
JP4769663B2 (ja) 音声区間検出装置及び音声区間検出方法
US9552828B2 (en) Audio signal processing device
US8520861B2 (en) Signal processing system for tonal noise robustness
CN105513606B (zh) 语音信号处理方法、装置和系统
CN105355197A (zh) 用于语音识别系统的增益处理方法及装置
JP6067391B2 (ja) 信号音量に基いた信号利得の適合時のピーク検出
CN111048118B (zh) 一种语音信号处理方法、装置及终端
US9214163B2 (en) Speech processing apparatus and method
CN112866873B (zh) 抑制啸叫的方法及相关模型的训练方法和设备、介质
CN112558004B (zh) 一种波束信息波达方向的确定方法、装置、及存储介质
KR101811635B1 (ko) 스테레오 채널 잡음 제거 장치 및 방법
CN111048096B (zh) 一种语音信号处理方法、装置及终端
US20160267920A1 (en) Audio signal processing device, audio signal processing method, and audio signal processing program
US10360922B2 (en) Noise reduction device and method for reducing noise
JP5585432B2 (ja) 音響信号処理装置および方法、並びに、プログラム
US10600432B1 (en) Methods for voice enhancement
CN117995215B (zh) 语音信号的处理方法、装置、计算机设备及存储介质
CN113470621B (zh) 语音检测方法、装置、介质及电子设备
CN115835092B (zh) 一种音频扩音反馈抑制方法、系统、计算机及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant