CN111048096A - 一种语音信号处理方法、装置及终端 - Google Patents

一种语音信号处理方法、装置及终端 Download PDF

Info

Publication number
CN111048096A
CN111048096A CN201911351045.2A CN201911351045A CN111048096A CN 111048096 A CN111048096 A CN 111048096A CN 201911351045 A CN201911351045 A CN 201911351045A CN 111048096 A CN111048096 A CN 111048096A
Authority
CN
China
Prior art keywords
signal
cross
processed
voice signal
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911351045.2A
Other languages
English (en)
Other versions
CN111048096B (zh
Inventor
杨晓霞
刘溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN201911351045.2A priority Critical patent/CN111048096B/zh
Publication of CN111048096A publication Critical patent/CN111048096A/zh
Application granted granted Critical
Publication of CN111048096B publication Critical patent/CN111048096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种语音信号处理方法、装置及终端,方法包括:获取待处理语音信号与至少两个参考信号;计算所述待处理语音信号与至少两个所述参考信号的互相关参数;如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行动态范围压缩DRC处理。本发明实施例的技术方案能够提高语音信号DRC处理的性能,从而降低误检测概率,并提高用户体验性能。

Description

一种语音信号处理方法、装置及终端
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种语音信号处理方法、装置及终端。
背景技术
语音识别技术不断发展,已广泛应用于各行各业,特别是在电子设备中应用极为广泛。在语音识别过程中,通常需要对前端获取的语音信号进行DRC (Dynamic RangeControl,动态范围压缩)处理,以使输出信号的能量能够更加匹配后端的唤醒模型和识别模型。
现有技术中,通常直接对前端获取的语音信号进行DRC处理,使得语音信号能够有效获得增益调整。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:由于自然界任何地方都存在噪声,因此任何人发出的语音都是混有噪声信号的语音,即使是在绝对安静的环境下,设备获取的原始语音信号也会包括一定的噪声信号。部分场景下,语音信号中还会混有系统音频信号的回声信号,对语音信号进行回声消除后还会产生残留回声信号。如果直接对前端获取的语音信号进行DRC 处理,当语音信号中不包括目标语音信号时,会同时放大语音信号中包括的噪声信号或残留回声信号等非目标语音信号(也即干扰信号),从而影响后端语音识别的误检测概率,出现误识别现象,降低用户体验性能。
发明内容
本发明实施例提供一种语音信号处理方法、装置及终端,以提高语音信号 DRC处理的性能,从而降低误检测概率,并提高用户体验性能。
第一方面,本发明实施例提供了一种语音信号处理方法,包括:
获取待处理语音信号与至少两个参考信号;
计算所述待处理语音信号与至少两个所述参考信号的互相关参数;
如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
第二方面,本发明实施例还提供了一种语音信号处理装置,包括:
信号获取模块,用于获取待处理语音信号与至少两个参考信号;
互相关参数计算模块,用于计算所述待处理语音信号与至少两个所述参考信号的互相关参数;
DRC处理模块,用于如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
第三方面,本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的语音信号处理方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的语音信号处理方法。
本发明实施例通过计算待处理语音信号与至少两个参考信号的互相关参数,以根据互相关参数确定待处理语音信号存在目标语音信号时,对待处理语音信号进行DRC处理,解决现有技术中直接对语音信号进行DRC处理存在的同时放大非目标语音信号的问题,以提高语音信号DRC处理的性能,从而降低误检测概率,并提高用户体验性能。
附图说明
图1是本发明实施例一提供的一种语音信号处理方法的流程图;
图2是本发明实施例二提供的一种语音信号处理方法的流程图;
图3a是本发明实施例三提供的一种语音信号处理方法的流程图;
图3b是本发明实施例三提供的一种语音信号处理方法的流程图;
图4是本发明实施例四提供的一种语音信号处理装置的示意图;
图5为本发明实施例五提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种语音信号处理方法的流程图,本实施例可适用于对包括目标语音信号的语音信号进行DRC处理的情况,该方法可以由语音信号处理装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在终端(典型的,各类车载设备或智能终端设备等终端)中。相应的,如图1所示,该方法包括如下操作:
S110、获取待处理语音信号与至少两个参考信号。
其中,待处理语音信号可以是需要进行DRC处理的语音信号。示例性的,车载终端通过麦克风设备获取的用户输入的语音指令信号(也即麦克风信号) 或其他智能终端采集的语音指令信号均可以作为待处理语音信号。待处理语音信号可以包括但不限于目标语音信号、噪音信号、回声信号或残留回声信号等。目标语音信号即为用户所发出的语音指令信号。参考信号可以用于辅助计算待处理语音信号中是否包括目标语音信号。可选的,参考信号可以包括第一参考信号和第二参考信号。其中,第一参考信号可以为系统音频信号;第二参考信号可以为待处理语音信号经过AEC(Adaptive Echo Cancellation,自适应线性回声消除)处理得到的信号。
在本发明实施例中,终端可以通过麦克风等语音采集设备采集的麦克风信号作为待处理语音信号。为了确定待处理语音信号中是否包括目标语音信号,可以采用至少两个参考信号进行辅助计算。可选的,参考信号可以包括第一参考信号和第二参考信号。其中,第一参考信号可以为系统音频信号,如终端播放的wav格式的音频信号等。相应的,回声信号即为语音采集设备(如麦克风) 采集到的终端播放的音频信号。第二参考信号可以为待处理语音信号经过AEC 处理得到的信号。
S120、计算所述待处理语音信号与至少两个所述参考信号的互相关参数。
可选的,互相关参数可以为互相关谱;
相应的,终端获取到待处理语音信号与至少两个参考信号后,可以计算待处理语音信号与至少两个参考信号的互相关谱作为互相关参数。
S130、如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行动态范围压缩DRC处理。
在本发明的一个可选实施例中,语音信号处理方法还可以包括:如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则不对所述待处理语音信号进行DRC处理。
相应的,终端可以根据互相关参数确定待处理语音信号是否存在目标语音信号,也即根据互相关谱来确定待处理语音信号是否存在目标语音信号。如果确定待处理语音信号存在目标语音信号,则对待处理语音信号进行DRC处理。如果确定待处理语音信号不存在目标语音信号,则不对待处理语音信号进行 DRC处理。也即,本发明实施例提供的语音信号处理方法可以实现在确定待处理语音信号存在目标语音信号的情况下对待处理语音信号进行DRC处理,因此不会同时放大仅包括非目标语音信号的干扰信号,可以有效解决非目标语音信号同时被放大的问题,从而提高语音信号DRC处理的性能,并降低后端的误检测概率,提高用户体验性能。
可以理解的是,由于第二参考信号为待处理语音信号经过AEC处理得到的信号。因此,当待处理语音信号存在目标语音信号时,第二参考信号也必然存在目标语音信号。相应的,对待处理语音信号进行DRC处理时,可以对待处理语音信号对应的第二参考信号进行DRC处理。
本发明实施例通过计算待处理语音信号与至少两个参考信号的互相关参数,以根据互相关参数确定待处理语音信号存在目标语音信号时,对待处理语音信号进行DRC处理,解决现有技术中直接对语音信号进行DRC处理存在的同时放大非目标语音信号的问题,以提高语音信号DRC处理的性能,从而降低误检测概率,并提高用户体验性能。
实施例二
图2是本发明实施例二提供的一种语音信号处理方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了计算所述待处理语音信号与至少两个所述参考信号的互相关参数,以及如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行动态范围压缩DRC处理的具体实现方式。相应的,如图2所示,本实施例的方法可以包括:
S210、获取待处理语音信号与至少两个参考信号。
可选的,所述参考信号包括第一参考信号和第二参考信号;所述第一参考信号为系统音频信号;所述第二参考信号为所述待处理语音信号经过AEC处理得到的信号;所述互相关参数为互相关谱。
S220、计算所述待处理语音信号与至少两个所述参考信号的互相关参数。
相应的,S220具体可以包括:
S221、计算所述待处理语音信号与所述第一参考信号的第一互相关谱。
其中,第一互相关谱即为待处理语音信号与第一参考信号的互相关谱。
在本发明实施例中,如果采用两种参考信号,则计算待处理语音信号与两个参考信号的互相关参数时,可以分别计算待处理语音信号与参考信号之间的互相关谱。
在本发明的一个可选实施例中,计算所述待处理语音信号与所述第一参考信号的第一互相关谱,可以包括:
基于如下公式计算所述待处理语音信号与所述第一参考信号的功率谱:
Figure BDA0002334671960000071
Figure BDA0002334671960000072
其中,Sd(i,j)表示所述待处理语音信号第i帧第j个频点的功率谱,Sd(i-1,j) 表示所述待处理语音信号第i-1帧第j个频点的功率谱,β表示平滑系数,可选的,β可取值0.85,di,j表示所述待处理语音信号第i帧第j个频点的频谱,
Figure BDA0002334671960000073
表示所述待处理语音信号第i帧第j个频点的频谱的共轭复数,Sx(i,j)表示所述第一参考信号第i帧第j个频点的功率谱;Sx(i-1,j)表示所述第一参考信号第i-1 帧第j个频点的功率谱,xi,j表示所述第一参考信号第i帧第j个频点的频谱,
Figure BDA0002334671960000074
表示所述第一参考信号第i帧第j个频点的频谱的共轭复数。
基于如下公式计算所述待处理语音信号与所述第一参考信号的第一互相关谱:
Figure BDA0002334671960000075
其中,Sxd(i,j)所述待处理语音信号第i帧第j个频点与所述第一参考信号第i帧第j个频点的第一互相关谱,Sxd(i-1,j)表示所述待处理语音信号第i-1帧第j 个频点与所述第一参考信号第i-1帧第j个频点的第一互相关谱。
S222、计算所述待处理语音信号与所述第二参考信号的第二互相关谱。
其中,第二互相关谱即为待处理语音信号与第二参考信号的互相关谱。
在本发明的一个可选实施例中,计算所述待处理语音信号与所述第二参考信号的第二互相关谱,可以包括:
基于如下公式计算所述第二参考信号的功率谱:
Figure BDA0002334671960000081
其中,Se(i,j)表示所述第二参考信号第i帧第j个频点的功率谱,Se(i-1,j)表示所述第二参考信号第i-1帧第j个频点的功率谱,ei,j表示所述第二参考信号第 i帧第j个频点的频谱,
Figure BDA0002334671960000082
表示所述第二参考信号第i帧第j个频点的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第二参考信号的第二互相关谱:
Figure BDA0002334671960000083
其中,Sde(i,j)表示所述待处理语音信号第i帧第j个频点与所述第二参考信号第i帧第j个频点的第一互相关谱,Sde(i-1,j)表示所述待处理语音信号第i-1 帧第j个频点与所述第二参考信号第i-1帧第j个频点的第一互相关谱。
S230、判断所述第一互相关谱对应的互相关系数的平均值是否大于第一预设阈值,若是,则执行S240,否则执行S260。
其中,第一预设阈值可以是根据实际需求设定的数值,如0.6、0.7或0.8 等,本发明实施例并不对第一预设阈值的具体数值进行限定。
S240、判断所述第二互相关谱对应的互相关系数的平均值是否小于第二预设阈值,若是,则执行S250,否则执行S260。
其中,第二预设阈值可以是根据实际需求设定的数值,如0.3、0.4或0.5 等,本发明实施例同样不对第二预设阈值的具体数值进行限定。
S250、确定所述待处理语音信号不存在目标语音信号。
S260、确定所述待处理语音信号存在目标语音信号。
在本发明实施例中,如果第一互相关谱对应的互相关系数的平均值大于第一预设阈值,且第二互相关谱对应的互相关系数的平均值小于第二预设阈值,则确定所述待处理语音信号不存在目标语音信号。如果第一互相关谱对应的互相关系数的平均值小于或等于第一预设阈值,或第二互相关谱对应的互相关系数的平均值大于或等于第二预设阈值,则确定待处理语音信号存在目标语音信号。
在本发明的一个可选实施例中,可以基于如下公式计算所述第一互相关谱对应的互相关系数:
Figure BDA0002334671960000091
其中,Cxd(i,j)表示所述第一互相关谱对应的互相关系数,
Figure BDA0002334671960000092
表示所述第一互相关谱的共轭复数。
可以基于如下公式计算所述第二互相关谱对应的互相关系数:
Figure BDA0002334671960000093
其中,Cde(i,j)表示所述第二互相关谱对应的互相关系数,
Figure BDA0002334671960000094
表示所述第二互相关谱的共轭复数。
可以基于如下公式确定所述待处理语音信号是否存在目标语音信号:
Figure BDA0002334671960000101
其中,
Figure BDA0002334671960000102
表示所述第一互相关谱对应的互相关系数的平均值,
Figure BDA0002334671960000103
可以是对Cxd(i,j),j=1,2,...,N求平均得到,
Figure BDA0002334671960000104
表示所述第二互相关谱对应的互相关系数的平均值,
Figure BDA0002334671960000105
可以是对Cde(i,j),j=1,2,...,N求平均得到,其中,N为频点个数,γ1表示所述第一预设阈值,γ2表示所述第二预设阈值;flag=0表示所述待处理语音信号不存在目标语音信号;flag=1表示所述待处理语音信号存在目标语音信号。
可选的,
Figure BDA0002334671960000106
Figure BDA0002334671960000107
越大表明残留回声存在概率越大,
Figure BDA0002334671960000108
越大表明目标语音信号存在概率越大。可选的,可以设定γ1=0.7,γ2=0.3,以有效检测待处理语音信号中的目标语音信号。需要说明的是,γ1和γ2的取值并不固定,γ1也可为0.6或0.8,γ2也可为0.4或0.5,本发明实施例并不对γ1和γ2的取值进行限定。
需要说明的是,在第一参考信号的功率为0,也即终端没有输出系统音频信号的情况下,如果此时
Figure BDA0002334671960000109
接近于0,且
Figure BDA00023346719600001010
接近于1,则表明确实存在目标语音信号。
需要说明的是,图2仅是一种实现方式的示意图,步骤S221和步骤S222 之间并没有先后顺序关系,可以先实施步骤S221,再实施步骤S222,也可以先实施步骤S222,再实施步骤S221,还可以两者并行实施。同理,步骤S230和步骤S240之间也没有先后顺序关系,可以先实施步骤S230,再实施步骤S240,也可以先实施步骤S240,再实施步骤S230,还可以两者并行实施。
采用上述技术方案,通过计算待处理语音信号与至少两个参考信号的互相关谱,以根据互相关谱计算对应的互相关系数,并进一步根据互相关系数的平均值来确定待处理语音信号存在目标语音信号时,对待处理语音信号进行DRC 处理,解决现有技术中直接对语音信号进行DRC处理存在的同时放大非目标语音信号的问题,以提高语音信号DRC处理的性能,从而降低误检测概率,并提高用户体验性能。
实施例三
图3a是本发明实施例三提供的一种语音信号处理方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号是否存在目标语音信号的具体实现方式。相应的,如图3a所示,本实施例的方法可以包括:
S310、获取待处理语音信号与至少两个参考信号。
可选的,所述参考信号包括第一参考信号和第二参考信号;所述互相关参数为互相关谱;所述第一参考信号为系统音频信号;所述第二参考信号为所述待处理语音信号经过AEC处理得到的信号。
S320、计算所述待处理语音信号与所述第一参考信号的第一互相关谱。
S330、计算所述待处理语音信号与所述第二参考信号的第二互相关谱。
S340、判断所述第一互相关谱对应的互相关系数的平均值是否大于第一预设阈值,若是,则执行S350,否则执行S370。
S350、判断所述第二互相关谱对应的互相关系数的平均值是否小于第二预设阈值,若是,则执行S360,否则执行S370。
S360、确定所述待处理语音信号不存在目标语音信号,目标语音信号的中间判定结果为第二中间判定结果。
S370、确定所述待处理语音信号存在目标语音信号,目标语音信号的中间判定结果为第一中间判定结果。
在本发明的一个可选实施例中,如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理,可以包括:将根据所述互相关参数确定所述待处理语音信号是否存在所述目标语音信号的判定结果作为所述目标语音信号的中间判定结果;计算所述第二参考信号的信号能量;如果根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号存在目标语音信号,则对所述第二参考信号进行DRC处理。
其中,目标语音信号的中间判定结果即为根据互相关参数确定待处理语音信号是否存在目标语音信号的初始的判定结果。
在本发明实施例中,还可以结合语音信号的能量进一步确认待处理语音信号中是否包括目标语音信号。具体的,可以将根据互相关参数确定待处理语音信号是否存在目标语音信号的判定结果作为目标语音信号的中间判定结果。可选的,当对待处理语音信号对应的第二参考信号进行DRC处理时,可以计算第二参考信号的信号能量,并且在根据第二参考信号的信号能量与目标语音信号的中间判定结果确定待处理语音信号存在目标语音信号时,对第二参考信号进行DRC处理。
在本发明的一个可选实施例中,将根据所述互相关参数确定所述待处理语音信号是否存在目标语音信号的判定结果作为目标语音信号的中间判定结果,可以包括:如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则确定所述目标语音信号的中间判定结果为第一中间判定结果;如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则确定所述目标语音信号的中间判定结果为第二中间判定结果。
其中,第一中间判定结果为根据互相关参数确定待处理语音信号存在目标语音信号;第二中间判定结果为根据互相关参数确定待处理语音信号不存在目标语音信号。
S380、判断所述第二参考信号的信号能量是否满足语音判定条件,若是,执行S390,否则,执行S3110。
其中,语音判定条件可以是根据信号能量所制定的,用于判断待处理语音信号是否包括目标语音信号的条件。
在本发明的一个可选实施例中,计算所述第二参考信号的信号能量,可以包括:
基于如下公式计算所述第二参考信号的信号能量:
Figure BDA0002334671960000131
其中,Ei表示所述第二参考信号第i帧的信号能量,N表示频点个数。
相应的,根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号存在目标语音信号,可以包括:如果所述目标语音信号的中间判定结果为所述第一中间判定结果,且所述第二参考信号的信号能量满足语音判定条件,则确定所述待处理语音信号存在目标语音信号;其中,所述语音判定条件为:信号能量小于设定能量阈值的连续帧数小于设定数值;其中,当信号能量满足公式Ei≤ε&flag=1时,信号能量小于设定能量阈值。
其中,设定能量阈值可以是根据实际需求所设定的能量阈值,如1,本发明实施例并不对设定能量阈值的具体数值进行限定。可选的,设定能量阈值可以设置为ε&flag。当目标语音信号的中间判定结果为第一中间判定结果时, flag=1,相应的,设定能量阈值为ε&flag=1。可选的,可以设定ε=10-5,或者,ε取值也可以为10-4或10-6,本发明实施例并不对ε的具体数值进行限定。
设定数值也可以是根据实际需求设定的数值,如20或30等,本发明实施例对此并不进行限制。
在本发明实施例中,当目标语音信号的中间判定结果为第一中间判定结果,且第二参考信号的信号能量满足语音判定条件时,可以确定待处理语音信号存在目标语音信号。可选的,语音判定条件可以是:第二参考信号连续数帧的信号能量均满足Ei≤ε&flag=1(i=1、2……n),也即信号能量小于设定能量阈值的连续帧数小于设定数值。可选的,设定数值可以是20。
也即,计算第二参考信号的信号能量后,可以与一个极小的门限值作为设定能量阈值做对比,大于该门限值确定存在目标语音信号,小于该门限值确定仅有非目标语音信号。在一个具体的例子中,当目标语音信号的中间判定结果为第一中间判定结果,也即flag=1,并且信号能量小于设定能量阈值的连续帧数小于20帧时,可以确定目标语音信号存在的概率较大,可以对第二参考信号做DRC处理;反之,则不做DRC处理。
S390、确定所述待处理语音信号存在目标语音信号,对第二参考信号进行 DRC处理。
S3110、不对第二参考信号进行DRC处理。
图3b是本发明实施例三提供的一种语音信号处理方法的流程图,在一个具体的例子中,如图3b所示,将获取的麦克风信号作为待处理语音信号,参考信号(系统音频信号)作为第一参考信号,将麦克风信号经过AEC之后的信号作为第二参考信号。获取到上述三种输入信号后,可以分别计算麦克风信号与参考信号之间的互相关参数以及麦克风信号与经过AEC之后的信号之间的互相关参数,并根据计算得到的互相关参数确定麦克风信号和经过AEC之后的信号中是否存在目标语音信号。存在目标语音信号输出1,否则输出0。然后再根据能量判断确实存在目标语音信号时,对经过AEC之后的信号进行DRC处理。
其中,DRC的基本原理如下:首先设定DRC的拐点门限值l以及最高信号幅度门限值t,其中t>l,然后对需要处理的信号做g倍增益放大,得到信号幅度为z,那么DRC的输出信号zDRC为:
Figure BDA0002334671960000151
需要说明的是,图3a仅是一种实现方式的示意图,步骤S320和步骤S330 之间并没有先后顺序关系,可以先实施步骤S320,再实施步骤S330,也可以先实施步骤S330,再实施步骤S320,还可以两者并行实施。同理,步骤S340和步骤S350之间也没有先后顺序关系,可以先实施步骤S340,再实施步骤S350,也可以先实施步骤S350,再实施步骤S340,还可以两者并行实施。
采用上述技术方案,在根据第二参考信号的信号能量与目标语音信号的中间判定结果确定待处理语音信号存在目标语音信号时,对第二参考信号进行 DRC处理,解决现有技术中直接对语音信号进行DRC处理存在的同时放大非目标语音信号的问题,以提高语音信号DRC处理的性能,从而降低误检测概率,并提高用户体验性能。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
实施例四
图4是本发明实施例四提供的一种语音信号处理装置的示意图,如图4所示,所述装置包括:信号获取模块410、互相关参数计算模块420以及DRC处理模块430,其中:
信号获取模块410,用于获取待处理语音信号与至少两个参考信号;
互相关参数计算模块420,用于计算所述待处理语音信号与至少两个所述参考信号的互相关参数;
DRC处理模块430,用于如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行动态范围压缩DRC处理。
本发明实施例通过计算待处理语音信号与至少两个参考信号的互相关参数,以根据互相关参数确定待处理语音信号存在目标语音信号时,对待处理语音信号进行DRC处理,解决现有技术中直接对语音信号进行DRC处理存在的同时放大非目标语音信号的问题,以提高语音信号DRC处理的性能,从而降低误检测概率,并提高用户体验性能。
可选的,所述装置还包括:DRC处理取消模块,用于如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则不对所述待处理语音信号进行DRC处理。
可选的,所述参考信号包括第一参考信号和第二参考信号;所述互相关参数为互相关谱;所述第一参考信号为系统音频信号;所述第二参考信号为所述待处理语音信号经过自适应线性回声消除AEC处理得到的信号;
互相关参数计算模块420包括:
第一互相关谱计算单元,用于计算所述待处理语音信号与所述第一参考信号的第一互相关谱;
第二互相关谱计算单元,用于计算所述待处理语音信号与所述第二参考信号的第二互相关谱。
可选的,DRC处理模块430包括:
目标语音信号确定单元,用于如果所述第一互相关谱对应的互相关系数的平均值大于或等于第一预设阈值,或所述第二互相关谱对应的互相关系数的平均值小于或等于第二预设阈值,则确定所述待处理语音信号存在目标语音信号。
可选的,所述第一互相关谱计算单元用于:
基于如下公式计算所述待处理语音信号与所述第一参考信号的功率谱:
Figure BDA0002334671960000171
Figure BDA0002334671960000172
其中,Sd(i,j)表示所述待处理语音信号第i帧第j个频点的功率谱,Sd(i-1,j) 表示所述待处理语音信号第i-1帧第j个频点的功率谱,β表示平滑系数,di,j表示所述待处理语音信号的频谱,
Figure BDA0002334671960000173
表示所述待处理语音信号的频谱的共轭复数,Sx(i,j)表示所述第一参考信号第i帧第j个频点的功率谱;Sx(i-1,j)表示所述第一参考信号第i-1帧第j个频点的功率谱,xi,j表示所述第一参考信号的频谱,
Figure BDA0002334671960000174
表示所述第一参考信号的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第一参考信号的第一互相关谱:
Figure BDA0002334671960000181
其中,Sxd(i,j)所述待处理语音信号第i帧第j个频点与所述第一参考信号第 i帧第j个频点的第一互相关谱,Sxd(i-1,j)表示所述待处理语音信号第i-1帧第j 个频点与所述第一参考信号第i-1帧第j个频点的第一互相关谱;
所述第二互相关谱计算单元用于:
基于如下公式计算所述第二参考信号的功率谱:
Figure BDA0002334671960000182
其中,Se(i,j)表示所述第二参考信号第i帧第j个频点的功率谱,Se(i-1,j)表示所述第二参考信号第i-1帧第j个频点的功率谱,ei,j表示所述第二参考信号第 i帧第j个频点的频谱,
Figure BDA0002334671960000183
表示所述第二参考信号的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第二参考信号的第二互相关谱:
Figure BDA0002334671960000184
其中,Sde(i,j)表示所述待处理语音信号第i帧第j个频点与所述第二参考信号第i帧第j个频点的第一互相关谱,Sde(i-1,j)表示所述待处理语音信号第i-1 帧第j个频点与所述第二参考信号第i-1帧第j个频点的第一互相关谱。
可选的,所述目标语音信号确定单元用于:
基于如下公式计算所述第一互相关谱对应的互相关系数:
Figure BDA0002334671960000185
其中,Cxd(i,j)表示所述第一互相关谱对应的互相关系数,
Figure BDA0002334671960000186
表示所述第一互相关谱的共轭复数;
基于如下公式计算所述第二互相关谱对应的互相关系数:
Figure BDA0002334671960000191
其中,Cde(i,j)表示所述第二互相关谱对应的互相关系数,
Figure BDA0002334671960000192
表示所述第二互相关谱的共轭复数;
基于如下公式确定所述待处理语音信号是否存在目标语音信号:
Figure BDA0002334671960000193
其中,
Figure BDA0002334671960000194
表示所述第二互相关谱对应的互相关系数的平均值,
Figure BDA0002334671960000195
表示所述第一互相关谱对应的互相关系数的平均值,γ1表示所述第二预设阈值,γ2表示所述第一预设阈值;flag=0表示所述待处理语音信号不存在目标语音信号; flag=1表示所述待处理语音信号存在目标语音信号。
可选的,DRC处理模块430包括:
中间判定结果获取单元,用于将根据所述互相关参数确定所述待处理语音信号是否存在所述目标语音信号的判定结果作为所述目标语音信号的中间判定结果;
信号能量计算单元,用于计算所述第二参考信号的信号能量;
DRC处理单元,用于如果根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
可选的,所述中间判定结果获取单元用于:
如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则确定所述目标语音信号的中间判定结果为第一中间判定结果;
如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则确定所述目标语音信号的中间判定结果为第二中间判定结果;
所述信号能量计算单元用于:
基于如下公式计算所述第二参考信号的信号能量:
Figure BDA0002334671960000201
其中,Ei表示所述第二参考信号第i帧的信号能量,N表示频点个数;
所述DRC处理单元用于:
如果所述目标语音信号的中间判定结果为所述第一中间判定结果,且所述第二参考信号的信号能量满足语音判定条件,则确定所述待处理语音信号存在目标语音信号;
其中,所述语音判定条件为:信号能量小于设定能量阈值的连续帧数小于设定数值;
其中,当信号能量满足公式Ei≤ε&flag=1时,信号能量小于设定能量阈值。
上述语音信号处理装置可执行本发明任意实施例所提供的语音信号处理方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的语音信号处理方法。
由于上述所介绍的语音信号处理装置为可以执行本发明实施例中的语音信号处理方法的装置,故而基于本发明实施例中所介绍的语音信号处理方法,本领域所属技术人员能够了解本实施例的语音信号处理装置的具体实施方式以及其各种变化形式,所以在此对于该语音信号处理装置如何实现本发明实施例中的语音信号处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音信号处理方法所采用的装置,都属于本申请所欲保护的范围。
实施例五
图5为本发明实施例五提供的一种终端的结构示意图。图5示出了适于用来实现本发明实施方式的终端512的框图。图5显示的终端512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,终端512以通用计算设备的形式表现。终端512的组件可以包括但不限于:一个或者多个处理器516,存储装置528,连接不同系统组件(包括存储装置528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
终端512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)530和/或高速缓存存储器532。终端512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质) 读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块526的程序536,可以存储在例如存储装置528中,这样的程序模块526包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块526通常执行本发明所描述的实施例中的功能和/或方法。
终端512也可以与一个或多个外部设备514(例如键盘、指向设备、摄像头、显示器524等)通信,还可与一个或者多个使得用户能与该终端512交互的设备通信,和/或与使得该终端512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出 (Input/Output,I/O)接口522进行。并且,终端512还可以通过网络适配器 520与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网 Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与终端512的其它模块通信。应当明白,尽管图中未示出,可以结合终端512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器516通过运行存储在存储装置528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的语音信号处理方法。
也即,所述处理单元执行所述程序时实现:获取待处理语音信号与至少两个参考信号;计算所述待处理语音信号与至少两个所述参考信号的互相关参数;如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
实施例六
本发明实施例六还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的语音信号处理方法:获取待处理语音信号与至少两个参考信号;计算所述待处理语音信号与至少两个所述参考信号的互相关参数;如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (17)

1.一种语音信号处理方法,其特征在于,包括:
获取待处理语音信号与至少两个参考信号;
计算所述待处理语音信号与至少两个所述参考信号的互相关参数;
如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行动态范围压缩DRC处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则不对所述待处理语音信号进行DRC处理。
3.根据权利要求1或2所述的方法,其特征在于,所述参考信号包括第一参考信号和第二参考信号;所述第一参考信号为系统音频信号;所述第二参考信号为所述待处理语音信号经过自适应线性回声消除AEC处理得到的信号;所述互相关参数为互相关谱;
计算所述待处理语音信号与至少两个所述参考信号的互相关参数,包括:
计算所述待处理语音信号与所述第一参考信号的第一互相关谱;
计算所述待处理语音信号与所述第二参考信号的第二互相关谱。
4.根据权利要求3所述的方法,其特征在于,根据所述互相关参数确定所述待处理语音信号存在目标语音信号,包括:
如果所述第一互相关谱对应的互相关系数的平均值小于或等于第一预设阈值,或所述第二互相关谱对应的互相关系数的平均值大于或等于第二预设阈值,则确定所述待处理语音信号存在目标语音信号。
5.根据权利要求4所述的方法,其特征在于,计算所述待处理语音信号与所述第一参考信号的第一互相关谱,包括:
基于如下公式计算所述待处理语音信号与所述第一参考信号的功率谱:
Figure FDA0002334671950000021
Figure FDA0002334671950000022
其中,Sd(i,j)表示所述待处理语音信号第i帧第j个频点的功率谱,Sd(i-1,j)表示所述待处理语音信号第i-1帧第j个频点的功率谱,β表示平滑系数,di,j表示所述待处理语音信号第i帧第j个频点的频谱,
Figure FDA0002334671950000023
表示所述待处理语音信号第i帧第j个频点的频谱的共轭复数,Sx(i,j)表示所述第一参考信号第i帧第j个频点的功率谱;Sx(i-1,j)表示所述第一参考信号第i-1帧第j个频点的功率谱,xi,j表示所述第一参考信号第i帧第j个频点的频谱,
Figure FDA0002334671950000024
表示所述第一参考信号第i帧第j个频点的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第一参考信号的第一互相关谱:
Figure FDA0002334671950000025
其中,Sxd(i,j)所述待处理语音信号第i帧第j个频点与所述第一参考信号第i帧第j个频点的第一互相关谱,Sxd(i-1,j)表示所述待处理语音信号第i-1帧第j个频点与所述第一参考信号第i-1帧第j个频点的第一互相关谱;
计算所述待处理语音信号与所述第二参考信号的第二互相关谱,包括:
基于如下公式计算所述第二参考信号的功率谱:
Figure FDA0002334671950000026
其中,Se(i,j)表示所述第二参考信号第i帧第j个频点的功率谱,Se(i-1,j)表示所述第二参考信号第i-1帧第j个频点的功率谱,ei,j表示所述第二参考信号第i帧第j个频点的频谱,
Figure FDA0002334671950000027
表示所述第二参考信号第i帧第j个频点的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第二参考信号的第二互相关谱:
Figure FDA0002334671950000031
其中,Sde(i,j)表示所述待处理语音信号第i帧第j个频点与所述第二参考信号第i帧第j个频点的第一互相关谱,Sde(i-1,j)表示所述待处理语音信号第i-1帧第j个频点与所述第二参考信号第i-1帧第j个频点的第一互相关谱。
6.根据权利要求5所述的方法,其特征在于,确定所述待处理语音信号存在目标语音信号,包括:
基于如下公式计算所述第一互相关谱对应的互相关系数:
Figure FDA0002334671950000032
其中,Cxd(i,j)表示所述第一互相关谱对应的互相关系数,
Figure FDA0002334671950000033
表示所述第一互相关谱的共轭复数;
基于如下公式计算所述第二互相关谱对应的互相关系数:
Figure FDA0002334671950000034
其中,Cde(i,j)表示所述第二互相关谱对应的互相关系数,
Figure FDA0002334671950000035
表示所述第二互相关谱的共轭复数;
基于如下公式确定所述待处理语音信号是否存在目标语音信号:
Figure FDA0002334671950000036
其中,
Figure FDA0002334671950000037
表示所述第一互相关谱对应的互相关系数的平均值,
Figure FDA0002334671950000038
表示所述第二互相关谱对应的互相关系数的平均值,γ1表示所述第一预设阈值,γ2表示所述第二预设阈值;flag=0表示所述待处理语音信号不存在目标语音信号;flag=1表示所述待处理语音信号存在目标语音信号。
7.根据权利要求6所述的方法,其特征在于,如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理,包括:
将根据所述互相关参数确定所述待处理语音信号是否存在所述目标语音信号的判定结果作为所述目标语音信号的中间判定结果;
计算所述第二参考信号的信号能量;
如果根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号存在目标语音信号,则对所述第二参考信号进行DRC处理。
8.根据权利要求7所述的方法,其特征在于,将根据所述互相关参数确定所述待处理语音信号是否存在目标语音信号的判定结果作为目标语音信号的中间判定结果,包括:
如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则确定所述目标语音信号的中间判定结果为第一中间判定结果;
如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则确定所述目标语音信号的中间判定结果为第二中间判定结果;
计算所述第二参考信号的信号能量,包括:
基于如下公式计算所述第二参考信号的信号能量:
Figure FDA0002334671950000041
其中,Ei表示所述第二参考信号第i帧的信号能量,N表示频点个数;
根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号存在目标语音信号,包括:
如果所述目标语音信号的中间判定结果为所述第一中间判定结果,且所述第二参考信号的信号能量满足语音判定条件,则确定所述待处理语音信号存在目标语音信号;
其中,所述语音判定条件为:信号能量小于设定能量阈值的连续帧数小于设定数值;
其中,当信号能量满足公式Ei≤ε&flag=1时,信号能量小于设定能量阈值。
9.一种语音信号处理装置,其特征在于,包括:
信号获取模块,用于获取待处理语音信号与至少两个参考信号;
互相关参数计算模块,用于计算所述待处理语音信号与至少两个所述参考信号的互相关参数;
DRC处理模块,用于如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
DRC处理取消模块,用于如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则不对所述待处理语音信号进行DRC处理。
11.根据权利要求9或10所述的装置,其特征在于,所述参考信号包括第一参考信号和第二参考信号;所述互相关参数为互相关谱;所述第一参考信号为系统音频信号;所述第二参考信号为所述待处理语音信号经过自适应线性回声消除AEC处理得到的信号;
所述互相关参数计算模块包括:
第一互相关谱计算单元,用于计算所述待处理语音信号与所述第一参考信号的第一互相关谱;
第二互相关谱计算单元,用于计算所述待处理语音信号与所述第二参考信号的第二互相关谱。
12.根据权利要求11所述的装置,其特征在于,所述DRC处理模块包括:
目标语音信号确定单元,用于如果所述第一互相关谱对应的互相关系数的平均值大于或等于第一预设阈值,或所述第二互相关谱对应的互相关系数的平均值小于或等于第二预设阈值,则确定所述待处理语音信号存在目标语音信号。
13.根据权利要求12所述的装置,其特征在于,所述第一互相关谱计算单元用于:
基于如下公式计算所述待处理语音信号与所述第一参考信号的功率谱:
Figure FDA0002334671950000061
Figure FDA0002334671950000062
其中,Sd(i,j)表示所述待处理语音信号第i帧第j个频点的功率谱,Sd(i-1,j)表示所述待处理语音信号第i-1帧第j个频点的功率谱,β表示平滑系数,di,j表示所述待处理语音信号的频谱,
Figure FDA0002334671950000063
表示所述待处理语音信号的频谱的共轭复数,Sx(i,j)表示所述第一参考信号第i帧第j个频点的功率谱;Sx(i-1,j)表示所述第一参考信号第i-1帧第j个频点的功率谱,xi,j表示所述第一参考信号的频谱,
Figure FDA0002334671950000064
表示所述第一参考信号的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第一参考信号的第一互相关谱:
Figure FDA0002334671950000065
其中,Sxd(i,j)所述待处理语音信号第i帧第j个频点与所述第一参考信号第i帧第j个频点的第一互相关谱,Sxd(i-1,j)表示所述待处理语音信号第i-1帧第j个频点与所述第一参考信号第i-1帧第j个频点的第一互相关谱;
所述第二互相关谱计算单元用于:
基于如下公式计算所述第二参考信号的功率谱:
Figure FDA0002334671950000071
其中,Se(i,j)表示所述第二参考信号第i帧第j个频点的功率谱,Se(i-1,j)表示所述第二参考信号第i-1帧第j个频点的功率谱,ei,j表示所述第二参考信号第i帧第j个频点的频谱,
Figure FDA0002334671950000072
表示所述第二参考信号的频谱的共轭复数;
基于如下公式计算所述待处理语音信号与所述第二参考信号的第二互相关谱:
Figure FDA0002334671950000073
其中,Sde(i,j)表示所述待处理语音信号第i帧第j个频点与所述第二参考信号第i帧第j个频点的第一互相关谱,Sde(i-1,j)表示所述待处理语音信号第i-1帧第j个频点与所述第二参考信号第i-1帧第j个频点的第一互相关谱。
14.根据权利要求13所述的装置,其特征在于,所述目标语音信号确定单元用于:
基于如下公式计算所述第一互相关谱对应的互相关系数:
Figure FDA0002334671950000074
其中,Cxd(i,j)表示所述第一互相关谱对应的互相关系数,
Figure FDA0002334671950000075
表示所述第一互相关谱的共轭复数;
基于如下公式计算所述第二互相关谱对应的互相关系数:
Figure FDA0002334671950000081
其中,Cde(i,j)表示所述第二互相关谱对应的互相关系数,
Figure FDA0002334671950000082
表示所述第二互相关谱的共轭复数;
基于如下公式确定所述待处理语音信号是否存在目标语音信号:
Figure FDA0002334671950000083
其中,
Figure FDA0002334671950000084
表示所述第二互相关谱对应的互相关系数的平均值,
Figure FDA0002334671950000085
表示所述第一互相关谱对应的互相关系数的平均值,γ1表示所述第二预设阈值,γ2表示所述第一预设阈值;flag=0表示所述待处理语音信号不存在目标语音信号;flag=1表示所述待处理语音信号存在目标语音信号。
15.根据权利要求14所述的装置,其特征在于,所述DRC处理模块包括:
中间判定结果获取单元,用于将根据所述互相关参数确定所述待处理语音信号是否存在所述目标语音信号的判定结果作为所述目标语音信号的中间判定结果;
信号能量计算单元,用于计算所述第二参考信号的信号能量;
DRC处理单元,用于如果根据所述第二参考信号的信号能量与所述目标语音信号的中间判定结果确定所述待处理语音信号存在目标语音信号,则对所述待处理语音信号进行DRC处理。
16.根据权利要求15所述的装置,其特征在于,所述中间判定结果获取单元用于:
如果根据所述互相关参数确定所述待处理语音信号存在目标语音信号,则确定所述目标语音信号的中间判定结果为第一中间判定结果;
如果根据所述互相关参数确定所述待处理语音信号不存在目标语音信号,则确定所述目标语音信号的中间判定结果为第二中间判定结果;
所述信号能量计算单元用于:
基于如下公式计算所述第二参考信号的信号能量:
Figure FDA0002334671950000091
其中,Ei表示所述第二参考信号第i帧的信号能量,N表示频点个数;
所述DRC处理单元用于:
如果所述目标语音信号的中间判定结果为所述第一中间判定结果,且所述第二参考信号的信号能量满足语音判定条件,则确定所述待处理语音信号存在目标语音信号;
其中,所述语音判定条件为:信号能量小于设定能量阈值的连续帧数小于设定数值;
其中,当信号能量满足公式Ei≤ε&flag=1时,信号能量小于设定能量阈值。
17.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的语音信号处理方法。
CN201911351045.2A 2019-12-24 2019-12-24 一种语音信号处理方法、装置及终端 Active CN111048096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911351045.2A CN111048096B (zh) 2019-12-24 2019-12-24 一种语音信号处理方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911351045.2A CN111048096B (zh) 2019-12-24 2019-12-24 一种语音信号处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN111048096A true CN111048096A (zh) 2020-04-21
CN111048096B CN111048096B (zh) 2022-07-26

Family

ID=70239309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911351045.2A Active CN111048096B (zh) 2019-12-24 2019-12-24 一种语音信号处理方法、装置及终端

Country Status (1)

Country Link
CN (1) CN111048096B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5644624A (en) * 1994-05-23 1997-07-01 Caldwell Communications Development, Inc. Automatic telephone call origination and retry system and method of operation
US6510224B1 (en) * 1999-05-20 2003-01-21 Telefonaktiebolaget L M Ericsson Enhancement of near-end voice signals in an echo suppression system
CN103718538A (zh) * 2011-05-17 2014-04-09 谷歌公司 用于实现声学回声消除的非线性后期处理
CN104505099A (zh) * 2014-12-08 2015-04-08 北京云知声信息技术有限公司 去除语音信号中已知干扰的方法和设备
CN105448294A (zh) * 2015-12-09 2016-03-30 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别系统
CN106128480A (zh) * 2016-06-21 2016-11-16 安徽师范大学 一种对带噪语音进行语音活动检测的方法
US20170365270A1 (en) * 2015-11-04 2017-12-21 Tencent Technology (Shenzhen) Company Limited Speech signal processing method and apparatus
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN110166882A (zh) * 2018-09-29 2019-08-23 腾讯科技(深圳)有限公司 远场拾音设备、及远场拾音设备中采集人声信号的方法
CN110992975A (zh) * 2019-12-24 2020-04-10 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5644624A (en) * 1994-05-23 1997-07-01 Caldwell Communications Development, Inc. Automatic telephone call origination and retry system and method of operation
US6510224B1 (en) * 1999-05-20 2003-01-21 Telefonaktiebolaget L M Ericsson Enhancement of near-end voice signals in an echo suppression system
CN103718538A (zh) * 2011-05-17 2014-04-09 谷歌公司 用于实现声学回声消除的非线性后期处理
CN104505099A (zh) * 2014-12-08 2015-04-08 北京云知声信息技术有限公司 去除语音信号中已知干扰的方法和设备
US20170365270A1 (en) * 2015-11-04 2017-12-21 Tencent Technology (Shenzhen) Company Limited Speech signal processing method and apparatus
CN105448294A (zh) * 2015-12-09 2016-03-30 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别系统
CN106128480A (zh) * 2016-06-21 2016-11-16 安徽师范大学 一种对带噪语音进行语音活动检测的方法
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN110166882A (zh) * 2018-09-29 2019-08-23 腾讯科技(深圳)有限公司 远场拾音设备、及远场拾音设备中采集人声信号的方法
CN110992975A (zh) * 2019-12-24 2020-04-10 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林茫茫,等: "一种与声码器结合的互相关双端通话检测器", 《数据采集与处理》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048118B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Also Published As

Publication number Publication date
CN111048096B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN107577449B (zh) 唤醒语音的拾取方法、装置、设备及存储介质
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
US20210327448A1 (en) Speech noise reduction method and apparatus, computing device, and computer-readable storage medium
CN107464565B (zh) 一种远场语音唤醒方法及设备
CN111048118B (zh) 一种语音信号处理方法、装置及终端
CN110047519B (zh) 一种语音端点检测方法、装置及设备
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
CN107240396B (zh) 说话人自适应方法、装置、设备及存储介质
CN106782586B (zh) 一种音频信号处理方法及装置
US20090316929A1 (en) Sound capture system for devices with two microphones
CN110503973B (zh) 音频信号瞬态噪音抑制方法、系统以及存储介质
CN110992975B (zh) 一种语音信号处理方法、装置及终端
CN111048096B (zh) 一种语音信号处理方法、装置及终端
WO2024041512A1 (zh) 音频降噪方法、装置、电子设备及可读存储介质
CN113160846B (zh) 噪声抑制方法和电子设备
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN110718230A (zh) 一种消除混响的方法和系统
CN113763975B (zh) 一种语音信号处理方法、装置及终端
CN110827845B (zh) 录音方法、装置、设备及存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN113707149A (zh) 音频处理方法和装置
CN114387983A (zh) 一种噪声抑制参数处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant