CN113345469A - 语音信号的处理方法、装置、电子设备及存储介质 - Google Patents

语音信号的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113345469A
CN113345469A CN202110565212.4A CN202110565212A CN113345469A CN 113345469 A CN113345469 A CN 113345469A CN 202110565212 A CN202110565212 A CN 202110565212A CN 113345469 A CN113345469 A CN 113345469A
Authority
CN
China
Prior art keywords
noise
signal
current frame
voice signal
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110565212.4A
Other languages
English (en)
Inventor
操陈斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202110565212.4A priority Critical patent/CN113345469A/zh
Publication of CN113345469A publication Critical patent/CN113345469A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本公开提出一种语音信号的处理方法、装置、电子设备及存储介质,该方法包括获取当前帧语音信号;对当前帧语音信号进行特征检测,以得到语音特征;根据语音特征,判断当前帧语音信号是否携带噪声信号;以及如果当前帧语音信号不携带噪声信号,则根据当前帧语音信号生成目标测试的结果值。通过本公开能够有效地减弱针对待测语音信号的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。

Description

语音信号的处理方法、装置、电子设备及存储介质
技术领域
本公开涉及电子设备技术领域,尤其涉及一种语音信号的处理方法、装置、电子设备及存储介质。
背景技术
TOSQA平均意见得分(TOSQA Mean Opinion Score,TMOS)测试,是用于衡量语音信号的质量的客观测度,其中,TOSQA表示:电信客观语音质量评价(Telecommunicationsobjective signal quality evaluation,TOSQA)。
声学客观测试的实验环境包括:消音室,在消音室内部布置用于模拟人手持方式使用终端的人工头,用于播放语音的人工嘴,以及用于模拟扩散噪声的音箱和低音炮。测试方法是:用人工嘴播放语音信号,对终端麦克风采集的语音信号进行处理,并对原始的语音信号和采集的语音信号进行比较,匹配程度越高、失真越小,则TMOS测试得分越高。而在语音信号的传输和处理过程中,多个硬件和软件会引入损伤和失真,通常语音增强算法会引入较大的语音损伤和失真。在针对语音信号进行客观测试时,轻微的失真和损伤即会导致TMOS测试得分大幅度下降。
相关技术中,通过调整语音增强算法中的降噪算法的参数,从而在针对语音信号进行客观测试时,减弱噪声抑制程度,以减少语音损伤和失真并提高TMOS测试得分。
这种方式下,不能够有效地减弱针对语音信号的噪声抑制程度,从而仍然可能会影响TMOS测试得分的客观准确性,导致针对语音信号的客观测试效果不佳。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的目的在于提出一种语音信号的处理方法、装置、降噪系统、电子设备、存储介质及计算机程序产品,能够有效地减弱针对待测语音信号的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。
为达到上述目的,本公开第一方面实施例提出的语音信号的处理方法,包括:获取当前帧语音信号;对所述当前帧语音信号进行特征检测,以得到语音特征;根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号;以及如果所述当前帧语音信号不携带所述噪声信号,则根据所述当前帧语音信号生成目标测试的结果值。
本公开第一方面实施例提出的语音信号的处理方法,通过获取当前帧语音信号,并对当前帧语音信号进行特征检测,以得到语音特征,根据语音特征,判断当前帧语音信号是否携带噪声信号,以及在当前帧语音信号不携带噪声信号时,直接根据当前帧语音信号生成目标测试的结果值,从而有效地避免了对不携带噪声信号的干净语音信号进行不必要的噪声抑制,且由于支持针对各帧语音信号均采取相应的优化措施,从而有效地减弱针对待测语音信号整体的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。
为达到上述目的,本公开第二方面实施例提出的语音信号的处理装置,包括:获取模块,用于获取当前帧语音信号;检测模块,用于对所述当前帧语音信号进行特征检测,以得到语音特征;判断模块,用于根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号;以及处理模块,用于在所述当前帧语音信号不携带所述噪声信号时,根据所述当前帧语音信号生成目标测试的结果值。
本公开第二方面实施例提出的语音信号的处理装置,通过获取当前帧语音信号,并对当前帧语音信号进行特征检测,以得到语音特征,根据语音特征,判断当前帧语音信号是否携带噪声信号,以及在当前帧语音信号不携带噪声信号时,直接根据当前帧语音信号生成目标测试的结果值,从而有效地避免了对不携带噪声信号的干净语音信号进行不必要的噪声抑制,且由于支持针对各帧语音信号均采取相应的优化措施,从而有效地减弱针对待测语音信号整体的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。
本公开第三方面实施例提出了一种降噪系统,包括:双路麦克风,用于获取当前帧语音信号;语音和噪声对消子系统,用于对所述当前帧语音信号进行噪声特征检测,以得到噪声特征,并根据所述噪声特征从所述当前帧语音信号之中提取出参考噪声信号,并参考所述参考噪声信号,自适应地消除所述双路麦克风中的主通道的相干噪声信号;单通道后处理子系统,用于执行语音增强算法,所述语音增强算法,用于对所述当前帧语音信号进行噪声抑制处理;干净语音检测子系统,用于对所述当前帧语音信号进行特征检测,以得到语音特征,并根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号;以及在所述当前帧语音信号不携带所述噪声信号时,根据所述当前帧语音信号生成目标测试的结果值。
本公开第四方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的语音信号的处理方法。
本公开第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开第一方面实施例提出的语音信号的处理方法。
本公开第六方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如本公开第一方面实施例提出的语音信号的处理方法。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本公开一实施例提出的语音信号的处理方法的流程示意图;
图2是本公开另一实施例提出的语音信号的处理方法的流程示意图;
图3是本公开实施例中降噪系统的架构示意图;
图4是本公开另一实施例提出的语音信号的处理方法的流程示意图;
图5是相关技术中短时分析窗示意图;
图6是本公开另一实施例提出的语音信号的处理方法的流程示意图;
图7是本公开另一实施例提出的语音信号的处理方法的流程示意图;
图8是本公开一实施例提出的语音信号的处理装置的结构示意图;
图9是本公开一实施例提出的降噪系统的结构示意图;
图10是本公开另一实施例提出的降噪系统的结构示意图
图11为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本公开一实施例提出的语音信号的处理方法的流程示意图。
本实施例以语音信号的处理方法被配置为语音信号的处理装置中来举例说明。
本实施例中语音信号的处理方法可以被配置在语音信号的处理装置中,语音信号的处理装置可以设置在终端设备中,而终端设备可以与测试设备相连接,其中,测试设备可以例如是用于执行声学客观测试任务的电子设备,本公开实施例,对此不作限制。
本实施例中的测试设备可用于对终端设备输出的语音信号进行TMOS测试,而终端设备可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、成像装置、语音采集装置、语音处理装置、语音播放装置的硬件设备。
需要说明的是,本公开实施例的执行主体,在硬件上可以例如为终端设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为终端设备中的相关的后台服务,对此不作限制。
如图1所示,该语音信号的处理方法包括:
S101:获取当前帧语音信号。
其中,当前帧语音信号可以是待测语音信号之中当前时间点对应的一帧语音信号,也即是说,本公开实施例在对待测语音信号进行TMOS测试时,可以支持对待测语音信号中的各帧语音信号均进行相应的优化处理,以避免进行不必要的噪声抑制过程。
其中,待测语音信号可以是终端设备的语音采集装置(例如,麦克风)采集的一段语音信号,该待测语音信号可被用于对终端设备的语音播放、采集处理的质量进行相应的评估。
本公开实施例中,可以由测试设备接收终端设备的语音采集装置采集的一段语音信号,从中解析得到当前帧语音信号,并触发后续对当前帧语音信号进行优化处理的步骤。
S102:对当前帧语音信号进行特征检测,以得到语音特征。
上述在由测试设备接收终端设备的语音采集装置采集的一段语音信号,从中解析得到当前帧语音信号时,可以触发实时地对当前帧语音信号进行特征检测,以得到语音特征,其中,语音特征可以是当前帧语音信号中携带的噪声信号的特征,或者,也可以其它的一些能够用于描述当前帧语音信号之中是否携带噪声信号的情况的特征,对此不做限制。
语音特征例如,噪声值、能量值、音色、音调等等,对此不做限制。
举例而言,可以采用相关技术中任意可能的语音特征检测方法,对当前帧语音信号进行特征检测,以得到噪声值、能量值、音色、音调等等并作为语音特征,对此不做限制。
本公开实施例中,为了有效地提升针对当前帧语音信号进行噪声检测,以准确地确定出是否需要对当前帧语音信号进行相应的优化处理,保障减弱针对待测语音信号整体的噪声抑制程度,在对当前帧语音信号进行特征检测,以得到语音特征时,还可以采用如图2所示的步骤,图2是本公开另一实施例提出的语音信号的处理方法的流程示意图,该方法包括:
S201:对当前帧语音信号进行噪声特征检测,以得到噪声特征。
本公开实施例中的终端设备可以包括针对语音信号的降噪系统,降噪系统包括:语音和噪声对消系统和单通道后处理系统,其中,语音和噪声对消系统包括:两个麦克风、阻塞矩阵(Block Matrix,BM)模块、以及自适应噪声消除(Adaptive Noise Canceling,ANC)模块,单通道后处理系统包括:噪声估计模块和噪声抑制模块组成,噪声估计模块和噪声抑制模块用于执行相应的语音增强算法以进行噪声抑制处理。
如图3所示,图3是本公开实施例中降噪系统的架构示意图,其中,y1(n)和y2(n)是输入的两路当前帧语音信号(即将两路当前帧语音信号分别输入至主通道和辅助通道),d1(n)和d2(n)可以是分别对y1(n)和y2(n)进行频域变换,以得到对应的当前帧频域信号,其中,n表示频率采样点的索引,d1(n)和d2(n)分别表示与频率采样点的索引分别对应的语音频率信号;s1(n)和s2(n)表示目标语音信号(目标语音信号是指待测语音信号之中包含完整语义信息的语音信号,即不包含噪声的干净语音信号),v1(n)和v2(n)表示参考噪声信号;x(n)表示语音播放装置播放的原始的语音信号。
图3中,短时傅里叶变换(short-time Fourier transform,STFT)可以对自适应噪声消除ANC模块输出的信号进行频域变换处理,将频域变换处理后的信号再输入至单通道后处理系统已进行噪声抑制和信号增强。
其中,阻塞矩阵BM模块的作用是消除辅助通道中的目标语音信号,从而得到一个干净的参考噪声信号;自适应噪声消除ANC模块的作用是通过阻塞矩阵BM模块输出的参考噪声信号,自适应地消除主通道中的相干噪声信号;后处理系统用于估计语音和噪声对消系统无法消除的扩散场噪声信号,而后采用语音增强算法进行噪声抑制处理,从而得到信噪比(Signal-Noise Ratio,SNR)更高的增强语音信号。
从而本公开实施例中的语音信号的处理方法,可以复用上述终端设备中的降噪系统的架构形式,对输入的两路当前帧语音信号y1(n)和y2(n)进行噪声特征检测,以得到噪声特征,从而辅助从当前帧语音信号之中提取出参考噪声信号。
S202:根据噪声特征从当前帧语音信号之中提取出参考噪声信号。
可以理解的是,由于降噪系统的噪声特征检测算法可能存在一定的失真或者误差,从而本公开实施例中在根据噪声特征从当前帧语音信号之中提取出参考噪声信号之后,还可以触发后续获取当前帧语音信号和参考噪声信号的能量值的步骤。
上述参考噪声信号可以采用v1(n)和v2(n)表示,v1(n)和v2(n)分别代表主通道和辅助通道之中的参考噪声信号,本公开后续实施例中,可以将主通道和辅助通道分别输入至阻塞矩阵BM模块,而由阻塞矩阵BM模块输出的噪声信号作为参考噪声信号。
S203:确定与当前帧语音信号对应的语音能量值,并确定与参考噪声信号对应的噪声能量值,其中,语音能量值和噪声能量值被共同作为语音特征。
上述在根据噪声特征从当前帧语音信号之中提取出参考噪声信号,可以对当前帧语音信号和参考噪声信号分别进行能量分析,从而得出与当前帧语音信号对应的语音能量值,并确定与参考噪声信号对应的噪声能量值,而后,将语音能量值和噪声能量值被共同作为语音特征。
从而本公开图2所示实施例中,由于提取了与当前帧语音信号对应的语音能量值,并提取与参考噪声信号对应的噪声能量值,实现采用语音能量值和噪声能量值来辅助确定当前帧语音信号是否携带噪声信号,能够有效保证检测识别的准确性,并准确地确定出是否需要对当前帧语音信号进行相应的优化处理。
S103:根据语音特征,判断当前帧语音信号是否携带噪声信号。
上述在对当前帧语音信号进行特征检测,以得到语音特征之后,可以根据语音特征,判断当前帧语音信号是否携带噪声信号,由于上述语音特征是对当前帧语音信号进行特征检测得到的,从而可以基于得到的语音特征来确定当前帧语义信号是否实际上携带噪声信号。
也即是说,本公开实施例中,可以实现根据阻塞矩阵BM模块输出的参考噪声信号来对当前帧语音信号是否携带噪声信号的真实情况进行分析处理,以得到更为准确的分析结果,从而能够有效地避免硬件模块引入的噪声误差,并能够有效避免当前帧语音信号的传输路径中带入的噪声误差,从而较大程度地提升检测的准确性,辅助对语音信号进行更为准确地TMOS测试。
S104:如果当前帧语音信号不携带噪声信号,则根据当前帧语音信号生成目标测试的结果值。
上述在根据语音特征,判断当前帧语音信号是否携带噪声信号后,如果当前帧语音信号不携带噪声信号,则根据当前帧语音信号生成目标测试的结果值,也即是说,如果当前帧语音信号是不包含噪声的干净语音信号,即仅包含目标语音信号,则可以不触发对当前帧语音信号进行噪声抑制,直接根据当前帧语音信号进行TMOS测试,将TMOS测试得到的测试分值作为目标测试的结果值。
可选地,一些实施例中,根据当前帧语音信号生成目标测试的结果值,可以是关闭语音增强算法,语音增强算法,用于对当前帧语音信号进行噪声抑制处理;根据当前帧语音信号生成目标测试的结果值。
举例而言,上述直接根据当前帧语音信号生成目标测试的结果值的处理方式,可以例如,关闭单通道后处理系统中执行语音增强算法相关的功能模块,从而避免单通道后处理系统中执行语音增强算法相关的功能模块对当前帧语音信号进行噪声抑制处理。
举例而言,如果当前帧语音信号不携带噪声信号,即认为当前帧语音信号是干净语音信号,此时,可以设置增益函数G(l,k)=1,其中,l表示当前帧号,k表示频率点,增益函数G(l,k)用于对单通道后处理系统中执行语音增强算法相关的功能模块进行关闭和开启控制,当将增益函数G(l,k)设置为1时,可以辅助禁用语音增强算法避免引入任何语音损伤和失真。
另外一些实施例中,如图4所示,图4是本公开另一实施例提出的语音信号的处理方法的流程示意图,该方法包括:
S401:如果当前帧语音信号携带噪声信号,则对当前帧语音信号进行噪声抑制处理,以得到增强语音信号,并根据增强语音信号生成目标测试的结果值。
上述在根据语音特征,判断当前帧语音信号是否携带噪声信号后,如果当前帧语音信号携带噪声信号,则对当前帧语音信号进行噪声抑制处理,也即是说,如果当前帧语音信号不是干净语音信号,即包含目标语音信号之外还包含噪声信号,则可以触发对当前帧语音信号进行噪声抑制,得到增强语音信号,根据增强语音信号进行TMOS测试,将TMOS测试得到的测试分值作为目标测试的结果值。
举例而言,上述根据增强语音信号生成目标测试的结果值的处理方式,可以例如,开启单通道后处理系统中执行语音增强算法相关的功能模块,从而将当前帧语音信号输入至该功能模块之中,以对当前帧语音信号进行噪声抑制处理,得到增强语音信号,而后根据增强语音信号进行TMOS测试,将TMOS测试得到的测试分值作为目标测试的结果值。
举例而言,如果当前帧语音信号携带噪声信号,即认为当前帧语音信号不是干净语音信号,此时,可以设置增益函数G(l,k)为其它值(该其它值可以具体由噪声估计的结果配置),其中,l表示当前帧号,k表示频率点,增益函数G(l,k)用于对单通道后处理系统中执行语音增强算法相关的功能模块进行关闭和开启控制,当将增益函数G(l,k)设置为其它值(该其它值可以具体由噪声估计的结果配置)时,可以辅助开启单通道后处理系统中执行语音增强算法相关的功能模块以执行语音增强算法。
而语音增强算法可以示例如下:
短时傅里叶变换(STFT):
Y=fft(e.*win);
其中,e(l)是主通道消除相干噪声信号的误差信号,块长度为M,块移为R,Y是误差信号e(l)的短时傅里叶变换,win是短时分析窗,合成窗与短时分析窗相同,fft是快速傅立叶变换(Fast Fourier Transform,FFT)的计算函数,其中,
win=[0;sqrt(hanning(N-1))]
hanning(n)=0.5*[1-cos(2π*n/N)]
其中,N是分析帧长度,hanning(n)是长度为N-1的汉宁窗。
如图5所示,图5是相关技术中短时分析窗示意图。
则对当前帧语音信号进行语音增强处理,可以示例如下:
Figure BDA0003080449100000101
其中,Y(l)和G(l)分别是自适应噪声消除ANC模块输出信号的短时傅里叶变换STFT系数Y(l,k)和增益函数G(l,k)的向量形式,
Figure BDA0003080449100000102
是增强语音信号的时域表示,使用重叠-加(overlap-add)方法进行合成,win表示上述的短时分析窗。
本实施例中,通过获取当前帧语音信号,并对当前帧语音信号进行特征检测,以得到语音特征,根据语音特征,判断当前帧语音信号是否携带噪声信号,以及在当前帧语音信号不携带噪声信号时,直接根据当前帧语音信号生成目标测试的结果值,从而有效地避免了对不携带噪声信号的干净语音信号进行不必要的噪声抑制,且由于支持针对各帧语音信号均采取相应的优化措施,从而有效地减弱针对待测语音信号整体的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。
如图6所示,图6是本公开另一实施例提出的语音信号的处理方法的流程示意图,本公开实施例中,可以针对上述的降噪系统配置一个干净语音检测模块,由干净语音检测模块执行本公开实施例中的语音信号的处理方法,当仅存在目标语音信号而不存在扩散场噪声(即当前帧信号不携带噪声信号)时,阻塞矩阵模块的输出中几乎不包含任何残差信号(参考噪声信号),同时输入的当前帧语音信号与阻塞矩阵BM模块输出残差信号(参考噪声信号)之间的能量差值很大,由此,本公开实施例中可同时使用这两个特征来检测当前帧语音信号是否携带噪声信号。
在图6中,将当前帧语音信号输入至阻塞矩阵BM模块之中,由阻塞矩阵BM模块输出残差信号(参考噪声信号),并将输出残差信号(参考噪声信号)输入至自适应噪声消除ANC模块,而后可以由干净语音检测模块捕获当前帧语音信号,和阻塞矩阵BM模块输出残差信号(参考噪声信号),并分析当前帧语音信号的语音能量值和残差信号(参考噪声信号)的噪声信号值之间的比对情况,以得到当前帧语音信号是否携带噪声信号的实际的概率值,而后,将该实际的概率值与概率阈值T进行比对,如果实际的概率值大于概率阈值T,则将增益函数G(l,k)设置为1,如果实际的概率值小于或者等于概率阈值T,则将增益函数G(l,k)设置为其它值(该其它值可以具体由噪声估计的结果配置,比如设置为0)。
本公开实施例中,上述后处理系统中的噪声估计和语音增强算法可以示意如下:
噪声估计采用连续谱最小值跟踪方法:
Figure BDA0003080449100000111
其中,l表示帧,k表示频率点,
Figure BDA0003080449100000112
是噪声功率谱估计,λy是自适应噪声消除ANC模块输出信号功率谱。η和β用来控制噪声跟踪速度。
语音增强,可以采用维纳滤波方法:
Figure BDA0003080449100000121
Figure BDA0003080449100000122
Figure BDA0003080449100000123
Figure BDA0003080449100000124
其中,
Figure BDA0003080449100000125
是噪声功率谱估计
Figure BDA0003080449100000126
和残留回声功率谱估计
Figure BDA0003080449100000127
之和,γ(l,k)是后验信噪比,
Figure BDA0003080449100000128
是先验信噪比,先验信噪比可以采用决策导向的方法计算得到,
Figure BDA0003080449100000129
是上一帧估计得到的目标语音信号,G(l,k)是增益函数,μ用来控制噪声和残留回声抑制强度。
图7是本公开另一实施例提出的语音信号的处理方法的流程示意图。
如图7所示,该语音信号的处理方法包括:
S701:获取当前帧语音信号。
S702:对当前帧语音信号进行噪声特征检测,以得到噪声特征。
S703:根据噪声特征从当前帧语音信号之中提取出参考噪声信号。
S701-S703的描述说明,可以具体参见上述实施例,在此不再赘述。
S704:确定与当前帧语音信号对应的语音能量值,并确定与参考噪声信号对应的噪声能量值,其中,语音能量值和噪声能量值被共同作为语音特征。
可选地,一些实施例中,确定与当前帧语音信号对应的语音能量值,可以对当前帧语音信号进行频域变换,以得到对应的当前帧频域信号,并从当前帧频域信号之中解析得到多个频率采样点的索引,以及与多个频率采样点的索引分别对应的多个语音频率信号,以及根据多个语音频率信号分别对应的多个信号幅值,确定与当前帧语音信号对应的语音能量值。
可选地,一些实施例中,确定与参考噪声信号对应的噪声能量值,可以是对参考噪声信号进行频域变换,以得到对应的噪声频域信号;从噪声频域信号之中解析得到与多个频率采样点的索引分别对应的多个噪声频率信号;根据多个噪声频率信号分别对应的多个信号幅值,确定与参考噪声信号对应的噪声能量值。
具体说明可以如下,语音和噪声对消系统针对目标语音信号(目标语音信号是指待测语音信号之中包含完整语义信息的语音信号,即不包含噪声的干净语音信号)的估计和消除处理逻辑可以举例说明如下:
X1(l)=fft(x1(l));
Figure BDA0003080449100000131
Figure BDA0003080449100000132
Figure BDA0003080449100000133
其中,fft是傅里叶变换,ifft是逆傅里叶变换,X1(l)是主通道输入的当前帧信号对应的离散傅里叶变换(Discrete Fourier Transform,DFT)系数X1(l,k)的向量形式,
Figure BDA0003080449100000134
是离散傅里叶变换DFT域的自适应滤波器系数,
Figure BDA0003080449100000135
是估计的辅助通道中目标语音信号DFT系数
Figure BDA0003080449100000136
的向量形式,v(l)是误差信号,可以近似被视为辅助通道中的参考噪声信号。
x1(l)=[d1(n),d1(n-1),…,d1(n-M+1)]T
y1(l)=[d2(n),d2(n-1),…,d2(n-M+1)]T
其中,d1(l)和d2(l)分别是主通道和辅助通道输入信号,采用连续帧overlap的方式得到,块长度为M,块移长度为R,d(n)表示语音频率信号,n表示多个频率采样点的索引。
卡尔曼更新的处理逻辑可以举例说明如下:
V(l)=fft([0;v(l)]);
φV(l)=αφV(l-1)+(1-α)|V(l)|2
Figure BDA0003080449100000137
ΔW1=K(l)V(l);
Δw1=ifft(ΔW1);
ΔW1=fft([Δw1(1:M-R);0]);
Figure BDA0003080449100000141
其中,V(l)是噪声信号的DFT系数,φV(l)是噪声信号协方差,K(l)是卡尔曼增益,
Figure BDA0003080449100000142
是主通道到辅助通道目标语音之间的相对传递函数,α是平滑参数。
卡尔曼预测的处理逻辑可以举例说明如下:
Figure BDA0003080449100000143
φΔ(l)=(1-A2W(l);
Figure BDA0003080449100000144
其中,φW(l)是通道间相对传递函数协方差,φΔ(l)是过程噪声协方差,P(l)是状态估计误差协方差,α是平滑参数,A是转移概率,一般取值0<<A<1。
自适应噪声对消的处理逻辑可以举例说明如下:
自适应噪声对消的目标是:通过自适应语音对消模块ANC输出的参考噪声来消除通道2中的相干噪声,可以使用归一化最小均方自适应滤波器(Normalized Least MeanSquare,NLMS)频域自适应滤波技术来实现。
滤波的处理逻辑可以举例说明如下:
X2(l)=fft(x2(l))
Figure BDA0003080449100000145
Figure BDA0003080449100000146
Figure BDA0003080449100000147
其中,X2(l)是辅助通道信号消除目标语音信号的DFT系数X2(l,k)的向量形式,
Figure BDA0003080449100000148
是DFT域自适应滤波器系数,
Figure BDA0003080449100000149
是估计的主通道中相干噪声信号DFT系数的向量形式,e(l)是主通道消除相干噪声信号的误差信号,块长度为M,块移为R。
x2(l)=[v(n),v(n-1),…,v(n-M+1)]T
y2(l)=[d1(n),d1(n-1),…,d1(n-M+1)]T
自适应的处理逻辑可以举例说明如下:
E(l)=fft([0;e(l)])
P(l)=αP(l-1)+(1-α)|X2(l)|2
Figure BDA0003080449100000151
ΔW2=ifft(ΔW2)
ΔW2=fft([Δw2(1:R);0])
Figure BDA0003080449100000152
其中,E(l)是误差信号DFT系数的向量形式,
Figure BDA0003080449100000153
是自适应噪声对消滤波器DFT域系数,0是长度为R的零向量,P(l)是归一化能量,采用一阶递归平均的方法计算得到,α是平滑参数,δ是防止除零的正常数。
经过上述的语音和噪声对消系统针对目标语音信号的估计和消除处理逻辑,得到输入主通道和辅助通道的当前帧信号的函数形式可以表示为:
x1(l)=[d1(n),d1(n-1),…,d1(n-M+1)]T
y1(l)=[d2(n),d2(n-1),…,d2(n-M+1)]T
其中,d1(l)和d2(l)分别是主通道和辅助通道输入信号,采用连续帧overlap的方式得到,块长度为M,块移长度为R。
经过上述的语音和噪声对消系统针对目标语音信号的估计和消除处理逻辑,得到参考噪声信号的函数形式可以表示为:
x2(l)=[v(n),v(n-1),…,v(n-M+1)]T
其中,对参考噪声信号进行频域变换,以得到对应的频域噪声信号x2(l),n表示多个频率采样点的索引,v(n)表示与多个频率采样点的索引分别对应的多个噪声频率信号,l表示当前帧。
从而可根据下述能量计算公式计算得到与当前帧语音信号对应的语音能量值P1:
Figure BDA0003080449100000161
从而可根据下述能量计算公式计算得到与参考噪声信号对应的噪声能量值P2:
Figure BDA0003080449100000162
当然,也可以采用其它任意可能的方式来对当前帧语音信号进行能量分析,以得到与当前帧语音信号对应的语音能量值,对此不做限制。
S705:确定语音能量值和噪声能量值之间的能量差值。
上述在计算得到语音能量值和噪声能量值之后,可以确定语音能量值和噪声能量值之间的能量差值:
ΔP=P1-P2。
S706:根据能量差值,确定当前帧语音信号不携带噪声信号的参考概率值。
其中,该能量差值可被用于确定理论计算维度的概率值,该理论计算维度的概率值,可以被称参考概率值。
也即是说,本公开实施例中支持结合语音能量值和噪声能量值之间的能量差值来计算得到一个理论计算维度的概率值并作为参考概率值,而后结合实际的信号噪声检测情况来对参考概率值进行校准,以得到实际的概率值,从而有效提升实际的概率值的可参考性,保障针对当前帧语音信号是否携带噪声信号的检测判定结果更为准确,从而辅助提升整体的TMOS测试的效果。
可选地,如果能量差值大于或等于第一阈值,且噪声能量值小于第二阈值,则将参考概率值配置为1;如果能量差值小于第一阈值,或噪声能量值大于或等于第二阈值,则将参考概率值配置为0;其中,第一阈值和第二阈值不相同,从而在有效地提升针对当前帧语音信号是否携带噪声信号的检测判定结果的准确性的同时,还能够有效地简化参考概率值的配置处理逻辑,降低计算资源消耗。
举例而言,参考概率值的配置方式可以例如:
Figure BDA0003080449100000171
其中,I(l)表示参考概率值,如果能量差值ΔP大于或等于第一阈值T1,且噪声能量值P2小于第二阈值T2,则将参考概率值配置为1,如果能量差值ΔP小于第一阈值T1,或噪声能量值P2大于或等于第二阈值T2,则将参考概率值配置为0,其中,第一阈值T1和第二阈值T2不相同。
S707:获取前一帧语音信号对应的实际概率值,实际概率值是前一帧语音信号不携带噪声信号的实际概率值,前一帧语音信号,是在当前帧语音信号之前,且与当前帧语音信号相邻的一帧语音信号。
S708:根据参考概率值、实际概率值,结合设定权重生成目标概率值,目标概率值,是当前帧语音信号不携带噪声信号的实际的概率值,目标概率值,被用于判断当前帧语音信号是否携带噪声信号。
也即是说,本公开实施例在结合实际的信号噪声检测情况来对参考概率值进行校准,以得到实际的概率值时,可以获取前一帧语音信号对应的实际概率值,实际概率值是前一帧语音信号不携带噪声信号的实际的概率值,根据参考概率值、实际概率值,结合设定权重生成目标概率值,由于结合了历史信号的噪声携带概率来辅助对理论计算得到的参考概率值进行校正,从而能够有效地提升当前帧语音信号对应的实际的概率值的判定准确性。
举例而言,根据参考概率值、实际概率值,结合设定权重生成目标概率值的过程可以示例如下:
p(l)=βp(l-1)+(1-β)I(l);
其中,p(l)表示当前帧语音信号不携带噪声信号的实际的概率值,即目标概率值,目标概率值p(l),被用于判断当前帧语音信号是否携带噪声信号,β是设定权重。p(l-1)是前一帧语音信号对应的实际概率值,I(l)表示参考概率值,l表示当前帧,l-1表示前一帧。
本公开实施例中,为了防止在语音信号短暂过渡期间发生误判,对长时干净语音信号存在概率p(l)使用快攻和慢衰策略,从而进一步保障判定的准确性,可选地,如果参考概率值大于目标概率值,则将设定权重降低至第一权重;如果参考概率值小于目标概率值,则将设定权重提高至第二权重;根据参考概率值、实际概率值,结合第一权重或第二权重对目标概率值进行更新,以得到新的目标概率值,新的目标概率值,被用于判断当前帧语音信号是否携带噪声信号。
举例而言,即当I(l)>p(l)时,β取值较小(即将设定权重降低至第一权重),从而快速响应出现干净语音的指示;当I(l)<p(l)时,β取值较大(即将设定权重提高至第二权重),从而防止在语音信号过渡时I(l)剧烈变化导致发生误判。
上述在调整设定权重之后,可以基于第一权重或者第二权重对上述的p(l)进行优化,以得到新的目标概率值p’(l),而后可以采用新的目标概率值p’(l)辅助触发后续步骤。
S709:如果新的目标概率值大于概率阈值,则确定当前帧语音信号不携带噪声信号,并根据当前帧语音信号生成目标测试的结果值。
S710:如果新的目标概率值小于或等于概率阈值,则确定当前帧语音信号携带噪声信号,并对当前帧语音信号进行噪声抑制处理,以得到增强语音信号,增强语音信号被用于生成目标测试的结果值。
上述在调整设定权重之后,可以基于第一权重或者第二权重对上述的p(l)进行优化,以得到新的目标概率值p’(l)之后,可以将新的目标概率值p’(l)与概率阈值T进行比对,如果新的目标概率值大于概率阈值,则确定当前帧语音信号不携带噪声信号,并根据当前帧语音信号生成目标测试的结果值,如果新的目标概率值小于或等于概率阈值,则确定当前帧语音信号携带噪声信号,并对当前帧语音信号进行噪声抑制处理,以得到增强语音信号,增强语音信号被用于生成目标测试的结果值,由于新的目标概率值p’(l)是对理论计算得到的参考概率值、前一帧语音信号的实际概率值,并结合调优后的设定权重更新得到的,从而能够较大程度地提升当前帧语音信号是否携带噪声信号的判定的准确性和客观性,有效辅助提升TMOS测试的结果值的客观性和可参考性。
本实施例中,有效地避免了对不携带噪声信号的干净语音信号进行不必要的噪声抑制,且由于支持针对各帧语音信号均采取相应的优化措施,从而有效地减弱针对待测语音信号整体的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。支持结合语音能量值和噪声能量值之间的能量差值来计算得到一个理论计算维度的概率值并作为参考概率值,而后结合实际的信号噪声检测情况来对参考概率值进行校准,以得到实际的概率值,从而有效提升实际的概率值的可参考性,保障针对当前帧语音信号是否携带噪声信号的检测判定结果更为准确,从而辅助提升整体的TMOS测试的效果。如果能量差值大于或等于第一阈值,且噪声能量值小于第二阈值,则将参考概率值配置为1;如果能量差值小于第一阈值,或噪声能量值大于或等于第二阈值,则将参考概率值配置为0;其中,第一阈值和第二阈值不相同,从而在有效地提升针对当前帧语音信号是否携带噪声信号的检测判定结果的准确性的同时,还能够有效地简化参考概率值的配置处理逻辑,降低计算资源消耗。获取前一帧语音信号对应的实际概率值,实际概率值是前一帧语音信号不携带噪声信号的实际的概率值,根据参考概率值、实际概率值,结合设定权重生成目标概率值,由于结合了历史信号的噪声携带概率来辅助对理论计算得到的参考概率值进行校正,从而能够有效地提升当前帧语音信号对应的实际的概率值的判定准确性。由于新的目标概率值p’(l)是对理论计算得到的参考概率值、前一帧语音信号的实际概率值,并结合调优后的设定权重更新得到的,从而能够较大程度地提升当前帧语音信号是否携带噪声信号的判定的准确性和客观性,有效辅助提升TMOS测试的结果值的客观性和可参考性。
图8是本公开一实施例提出的语音信号的处理装置的结构示意图。
如图8所示,该语音信号的处理装置80,包括:
获取模块801,用于获取当前帧语音信号;
检测模块802,用于对当前帧语音信号进行特征检测,以得到语音特征;
判断模块803,用于根据语音特征,判断当前帧语音信号是否携带噪声信号;
处理模块804,用于在当前帧语音信号不携带噪声信号时,根据当前帧语音信号生成目标测试的结果值。
在本公开的一些实施例中,处理模块804,还用于:
如果当前帧语音信号携带噪声信号,则对当前帧语音信号进行噪声抑制处理,以得到增强语音信号,并根据增强语音信号生成目标测试的结果值。
在本公开的一些实施例中,检测模块802,具体用于:
对当前帧语音信号进行噪声特征检测,以得到噪声特征;
根据噪声特征从当前帧语音信号之中提取出参考噪声信号;
确定与当前帧语音信号对应的语音能量值,并确定与参考噪声信号对应的噪声能量值,其中,语音能量值和噪声能量值被共同作为语音特征。
在本公开的一些实施例中,判断模块803,具体用于:
确定语音能量值和噪声能量值之间的能量差值;
根据能量差值,确定当前帧语音信号不携带噪声信号的参考概率值;
获取前一帧语音信号对应的实际概率值,实际概率值是前一帧语音信号不携带噪声信号的实际概率值,前一帧语音信号,是在当前帧语音信号之前,且与当前帧语音信号相邻的一帧语音信号;
根据参考概率值、实际概率值,结合设定权重生成目标概率值,目标概率值,是当前帧语音信号不携带噪声信号的实际的概率值,目标概率值,被用于判断当前帧语音信号是否携带噪声信号。
在本公开的一些实施例中,判断模块803,具体用于:
如果能量差值大于或等于第一阈值,且噪声能量值小于第二阈值,则将参考概率值配置为1;
如果能量差值小于第一阈值,或噪声能量值大于或等于第二阈值,则将参考概率值配置为0;其中,第一阈值和第二阈值不相同。
在本公开的一些实施例中,判断模块803,具体用于:
如果参考概率值大于目标概率值,则将设定权重降低至第一权重;
如果参考概率值小于目标概率值,则将设定权重提高至第二权重;
根据参考概率值、实际概率值,结合第一权重或第二权重对目标概率值进行更新,以得到新的目标概率值,新的目标概率值,被用于判断当前帧语音信号是否携带噪声信号。
在本公开的一些实施例中,判断模块803,具体用于:
如果新的目标概率值大于概率阈值,则确定当前帧语音信号不携带噪声信号;
如果新的目标概率值小于或等于概率阈值,则确定当前帧语音信号携带噪声信号。
在本公开的一些实施例中,检测模块802,具体用于:
对当前帧语音信号进行频域变换,以得到对应的当前帧频域信号;
从当前帧频域信号之中解析得到多个频率采样点的索引,以及与多个频率采样点的索引分别对应的多个语音频率信号;
根据多个语音频率信号分别对应的多个信号幅值,确定与当前帧语音信号对应的语音能量值。
在本公开的一些实施例中,检测模块802,具体用于:
对参考噪声信号进行频域变换,以得到对应的噪声频域信号;
从噪声频域信号之中解析得到与多个频率采样点的索引分别对应的多个噪声频率信号;
根据多个噪声频率信号分别对应的多个信号幅值,确定与参考噪声信号对应的噪声能量值。
需要说明的是,前述对语音信号的处理方法实施例的解释说明也适用于该实施例的语音信号的处理装置,此处不再赘述。
本实施例中,通过获取当前帧语音信号,并对当前帧语音信号进行特征检测,以得到语音特征,根据语音特征,判断当前帧语音信号是否携带噪声信号,以及在当前帧语音信号不携带噪声信号时,直接根据当前帧语音信号生成目标测试的结果值,从而有效地避免了对不携带噪声信号的干净语音信号进行不必要的噪声抑制,且由于支持针对各帧语音信号均采取相应的优化措施,从而有效地减弱针对待测语音信号整体的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。
图9是本公开一实施例提出的降噪系统的结构示意图。
如图9所示,该降噪系统90,包括:
双路麦克风901,用于获取当前帧语音信号;
语音和噪声对消子系统902,用于对当前帧语音信号进行噪声特征检测,以得到噪声特征,并根据噪声特征从当前帧语音信号之中提取出参考噪声信号,并参考参考噪声信号,自适应地消除双路麦克风中的主通道的相干噪声信号;
单通道后处理子系统903,用于执行语音增强算法,语音增强算法,用于对当前帧语音信号进行噪声抑制处理;
干净语音检测子系统904,用于对当前帧语音信号进行特征检测,以得到语音特征,并根据语音特征,判断当前帧语音信号是否携带噪声信号;以及在当前帧语音信号不携带噪声信号时,根据当前帧语音信号生成目标测试的结果值。
在本公开的一些实施例中,其中,
干净语音检测子系统904,还用于在当前帧语音信号携带噪声信号时,则开启单通道后处理子系统903的语音增强算法,以对当前帧语音信号进行噪声抑制处理得到增强语音信号,并根据增强语音信号生成目标测试的结果值。
在本公开的一些实施例中,如图10所示,图10是本公开另一实施例提出的降噪系统的结构示意图,语音和噪声对消子系统902,包括:
阻塞矩阵模块9021,用于对当前帧语音信号进行噪声特征检测,以得到噪声特征,并根据噪声特征从当前帧语音信号之中提取出参考噪声信号;
自适应噪声消除模块9022,用于参考阻塞矩阵模块输出的参考噪声信号,自适应地消除双路麦克风中的主通道的相干噪声信号;
其中,干净语音检测子系统904,还用于确定与当前帧语音信号对应的语音能量值,并确定与参考噪声信号对应的噪声能量值,其中,语音能量值和噪声能量值被共同作为语音特征。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
确定语音能量值和噪声能量值之间的能量差值;
根据能量差值,确定当前帧语音信号不携带噪声信号的参考概率值;
获取前一帧语音信号对应的实际概率值,实际概率值是前一帧语音信号不携带噪声信号的实际概率值,前一帧语音信号,是在当前帧语音信号之前,且与当前帧语音信号相邻的一帧语音信号;
根据参考概率值、实际概率值,结合设定权重生成目标概率值,目标概率值,是当前帧语音信号不携带噪声信号的实际的概率值,目标概率值,被用于判断当前帧语音信号是否携带噪声信号。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
如果能量差值大于或等于第一阈值,且噪声能量值小于第二阈值,则将参考概率值配置为1;
如果能量差值小于第一阈值,或噪声能量值大于或等于第二阈值,则将参考概率值配置为0;其中,第一阈值和第二阈值不相同。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
如果参考概率值大于目标概率值,则将设定权重降低至第一权重;
如果参考概率值小于目标概率值,则将设定权重提高至第二权重;
根据参考概率值、实际概率值,结合第一权重或第二权重对目标概率值进行更新,以得到新的目标概率值,新的目标概率值,被用于判断当前帧语音信号是否携带噪声信号。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
如果新的目标概率值大于概率阈值,则确定当前帧语音信号不携带噪声信号;
如果新的目标概率值小于或等于概率阈值,则确定当前帧语音信号携带噪声信号。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
对当前帧语音信号进行频域变换,以得到对应的当前帧频域信号;
从当前帧频域信号之中解析得到多个频率采样点的索引,以及与多个频率采样点的索引分别对应的多个语音频率信号;
根据多个语音频率信号分别对应的多个信号幅值,确定与当前帧语音信号对应的语音能量值。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
对参考噪声信号进行频域变换,以得到对应的噪声频域信号;
从噪声频域信号之中解析得到与多个频率采样点的索引分别对应的多个噪声频率信号;
根据多个噪声频率信号分别对应的多个信号幅值,确定与参考噪声信号对应的噪声能量值。
在本公开的一些实施例中,其中,干净语音检测子系统904,还用于:
在当前帧语音信号不携带噪声信号时,关闭单通道后处理子系统903的语音增强算法,并根据当前帧语音信号生成目标测试的结果值。
在本公开的一些实施例中,如图10所示,其中,单通道后处理子系统903,包括:
噪声估计模块9031,用于执行语音增强算法,以对当前帧语音信号进行噪声估计得到待抑制噪声,语音增强算法,用于对当前帧语音信号进行噪声抑制处理;
噪声抑制模块9032,用于执行语音增强算法以对待抑制噪声进行噪声抑制处理。
需要说明的是,前述对语音信号的处理方法实施例的解释说明也适用于该实施例的降噪系统,此处不再赘述。
本实施例中,通过获取当前帧语音信号,并对当前帧语音信号进行特征检测,以得到语音特征,根据语音特征,判断当前帧语音信号是否携带噪声信号,以及在当前帧语音信号不携带噪声信号时,直接根据当前帧语音信号生成目标测试的结果值,从而有效地避免了对不携带噪声信号的干净语音信号进行不必要的噪声抑制,且由于支持针对各帧语音信号均采取相应的优化措施,从而有效地减弱针对待测语音信号整体的噪声抑制程度,从而避免影响TMOS测试得分的客观准确性,有效地提升针对待测语音信号的客观测试效果。
图11为本公开实施例提供的一种电子设备的结构示意图。
该电子设备包括:
存储器1101、处理器1102及存储在存储器1101上并可在处理器1102上运行的计算机程序。
处理器1102执行程序时实现上述实施例中提供的语音信号的处理方法。
在一种可能的实现方式中,电子设备还包括:
通信接口1103,用于存储器1101和处理器1102之间的通信。
存储器1101,用于存放可在处理器1102上运行的计算机程序。
存储器1101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1102,用于执行程序时实现上述实施例的语音信号的处理方法。
如果存储器1101、处理器1102和通信接口1103独立实现,则通信接口1103、存储器1101和处理器1102可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1101、处理器1102及通信接口1103,集成在一块芯片上实现,则存储器1101、处理器1102及通信接口1103可以通过内部接口完成相互间的通信。
处理器1102可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的语音信号的处理方法。
为了实现上述实施例,本公开还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,执行上述实施例示出的语音信号的处理方法。
需要说明的是,在本公开的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (25)

1.一种语音信号的处理方法,其特征在于,所述方法包括:
获取当前帧语音信号;
对所述当前帧语音信号进行特征检测,以得到语音特征;
根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号;以及
如果所述当前帧语音信号不携带所述噪声信号,则根据所述当前帧语音信号生成目标测试的结果值。
2.如权利要求1所述的方法,其特征在于,在所述根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号之后,还包括:
如果所述当前帧语音信号携带所述噪声信号,则对所述当前帧语音信号进行噪声抑制处理,以得到增强语音信号,并根据所述增强语音信号生成所述目标测试的结果值。
3.如权利要求2所述的方法,其特征在于,其中,所述对所述当前帧语音信号进行特征检测,以得到语音特征,包括:
对所述当前帧语音信号进行噪声特征检测,以得到噪声特征;
根据所述噪声特征从所述当前帧语音信号之中提取出参考噪声信号;
确定与所述当前帧语音信号对应的语音能量值,并确定与所述参考噪声信号对应的噪声能量值,其中,所述语音能量值和所述噪声能量值被共同作为所述语音特征。
4.如权利要求3所述的方法,其特征在于,其中,所述根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号,包括:
确定所述语音能量值和所述噪声能量值之间的能量差值;
根据所述能量差值,确定所述当前帧语音信号不携带所述噪声信号的参考概率值;
获取前一帧语音信号对应的实际概率值,所述实际概率值是所述前一帧语音信号不携带所述噪声信号的实际概率值,所述前一帧语音信号,是在所述当前帧语音信号之前,且与所述当前帧语音信号相邻的一帧语音信号;
根据所述参考概率值、所述实际概率值,结合设定权重生成目标概率值,所述目标概率值,是所述当前帧语音信号不携带所述噪声信号的实际的概率值,所述目标概率值,被用于判断所述当前帧语音信号是否携带噪声信号。
5.如权利要求4所述的方法,其特征在于,其中,所述根据所述能量差值确定所述当前帧语音信号不携带所述噪声信号的参考概率值,包括:
如果所述能量差值大于或等于第一阈值,且所述噪声能量值小于第二阈值,则将所述参考概率值配置为1;
如果所述能量差值小于所述第一阈值,或所述噪声能量值大于或等于所述第二阈值,则将所述参考概率值配置为0;其中,所述第一阈值和所述第二阈值不相同。
6.如权利要求4所述的方法,其特征在于,其中,所述根据所述参考概率值、所述实际概率值,结合设定权重生成目标概率值,包括:
如果所述参考概率值大于所述目标概率值,则将所述设定权重降低至第一权重;
如果所述参考概率值小于所述目标概率值,则将所述设定权重提高至第二权重;
根据所述参考概率值、所述实际概率值,结合所述第一权重或所述第二权重对所述目标概率值进行更新,以得到新的目标概率值,所述新的目标概率值,被用于判断所述当前帧语音信号是否携带噪声信号。
7.如权利要求6所述的方法,其特征在于,其中,
如果所述新的目标概率值大于概率阈值,则确定所述当前帧语音信号不携带所述噪声信号;
如果所述新的目标概率值小于或等于所述概率阈值,则确定所述当前帧语音信号携带所述噪声信号。
8.如权利要求3所述的方法,其特征在于,其中,所述确定与所述当前帧语音信号对应的语音能量值,包括:
对所述当前帧语音信号进行频域变换,以得到对应的当前帧频域信号;
从所述当前帧频域信号之中解析得到多个频率采样点的索引,以及与所述多个频率采样点的索引分别对应的多个语音频率信号;
根据所述多个语音频率信号分别对应的多个信号幅值,确定与所述当前帧语音信号对应的语音能量值。
9.如权利要求8所述的方法,其特征在于,其中,所述确定与所述参考噪声信号对应的噪声能量值,包括:
对所述参考噪声信号进行频域变换,以得到对应的噪声频域信号;
从所述噪声频域信号之中解析得到与所述多个频率采样点的索引分别对应的多个噪声频率信号;
根据所述多个噪声频率信号分别对应的多个信号幅值,确定与所述参考噪声信号对应的噪声能量值。
10.如权利要求1所述的方法,其特征在于,其中,所述根据所述当前帧语音信号生成目标测试的结果值,包括:
关闭语音增强算法,所述语音增强算法,用于对所述当前帧语音信号进行噪声抑制处理;
根据所述当前帧语音信号生成目标测试的结果值。
11.一种语音信号的处理装置,其特征在于,所述装置包括:
获取模块,用于获取当前帧语音信号;
检测模块,用于对所述当前帧语音信号进行特征检测,以得到语音特征;
判断模块,用于根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号;以及
处理模块,用于在所述当前帧语音信号不携带所述噪声信号时,根据所述当前帧语音信号生成目标测试的结果值。
12.如权利要求11所述的装置,其特征在于,所述处理模块,还用于:
如果所述当前帧语音信号携带所述噪声信号,则对所述当前帧语音信号进行噪声抑制处理,以得到增强语音信号,并根据所述增强语音信号生成所述目标测试的结果值。
13.一种降噪系统,其特征在于,包括:
双路麦克风,用于获取当前帧语音信号;
语音和噪声对消子系统,用于对所述当前帧语音信号进行噪声特征检测,以得到噪声特征,并根据所述噪声特征从所述当前帧语音信号之中提取出参考噪声信号,并参考所述参考噪声信号,自适应地消除所述双路麦克风中的主通道的相干噪声信号;
单通道后处理子系统,用于执行语音增强算法,所述语音增强算法,用于对所述当前帧语音信号进行噪声抑制处理;
干净语音检测子系统,用于对所述当前帧语音信号进行特征检测,以得到语音特征,并根据所述语音特征,判断所述当前帧语音信号是否携带噪声信号;以及在所述当前帧语音信号不携带所述噪声信号时,根据所述当前帧语音信号生成目标测试的结果值。
14.如权利要求13所述的降噪系统,其特征在于,其中,
所述干净语音检测子系统,还用于在所述当前帧语音信号携带所述噪声信号时,则开启所述单通道后处理子系统的语音增强算法,以对所述当前帧语音信号进行噪声抑制处理得到增强语音信号,并根据所述增强语音信号生成所述目标测试的结果值。
15.如权利要求14所述的降噪系统,其特征在于,所述语音和噪声对消子系统,包括:
阻塞矩阵模块,用于对所述当前帧语音信号进行噪声特征检测,以得到噪声特征,并根据所述噪声特征从所述当前帧语音信号之中提取出参考噪声信号;
自适应噪声消除模块,用于参考所述阻塞矩阵模块输出的所述参考噪声信号,自适应地消除所述双路麦克风中的主通道的相干噪声信号;
其中,所述干净语音检测子系统,还用于确定与所述当前帧语音信号对应的语音能量值,并确定与所述参考噪声信号对应的噪声能量值,其中,所述语音能量值和所述噪声能量值被共同作为所述语音特征。
16.如权利要求15所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
确定所述语音能量值和所述噪声能量值之间的能量差值;
根据所述能量差值,确定所述当前帧语音信号不携带所述噪声信号的参考概率值;
获取前一帧语音信号对应的实际概率值,所述实际概率值是所述前一帧语音信号不携带所述噪声信号的实际概率值,所述前一帧语音信号,是在所述当前帧语音信号之前,且与所述当前帧语音信号相邻的一帧语音信号;
根据所述参考概率值、所述实际概率值,结合设定权重生成目标概率值,所述目标概率值,是所述当前帧语音信号不携带所述噪声信号的实际的概率值,所述目标概率值,被用于判断所述当前帧语音信号是否携带噪声信号。
17.如权利要求16所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
如果所述能量差值大于或等于第一阈值,且所述噪声能量值小于第二阈值,则将所述参考概率值配置为1;
如果所述能量差值小于所述第一阈值,或所述噪声能量值大于或等于所述第二阈值,则将所述参考概率值配置为0;其中,所述第一阈值和所述第二阈值不相同。
18.如权利要求16所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
如果所述参考概率值大于所述目标概率值,则将所述设定权重降低至第一权重;
如果所述参考概率值小于所述目标概率值,则将所述设定权重提高至第二权重;
根据所述参考概率值、所述实际概率值,结合所述第一权重或所述第二权重对所述目标概率值进行更新,以得到新的目标概率值,所述新的目标概率值,被用于判断所述当前帧语音信号是否携带噪声信号。
19.如权利要求18所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
如果所述新的目标概率值大于概率阈值,则确定所述当前帧语音信号不携带所述噪声信号;
如果所述新的目标概率值小于或等于所述概率阈值,则确定所述当前帧语音信号携带所述噪声信号。
20.如权利要求15所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
对所述当前帧语音信号进行频域变换,以得到对应的当前帧频域信号;
从所述当前帧频域信号之中解析得到多个频率采样点的索引,以及与所述多个频率采样点的索引分别对应的多个语音频率信号;
根据所述多个语音频率信号分别对应的多个信号幅值,确定与所述当前帧语音信号对应的语音能量值。
21.如权利要求20所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
对所述参考噪声信号进行频域变换,以得到对应的噪声频域信号;
从所述噪声频域信号之中解析得到与所述多个频率采样点的索引分别对应的多个噪声频率信号;
根据所述多个噪声频率信号分别对应的多个信号幅值,确定与所述参考噪声信号对应的噪声能量值。
22.如权利要求13所述的降噪系统,其特征在于,其中,所述干净语音检测子系统,还用于:
在所述当前帧语音信号不携带所述噪声信号时,关闭所述单通道后处理子系统的语音增强算法,并根据所述当前帧语音信号生成目标测试的结果值。
23.如权利要求13所述的降噪系统,其特征在于,其中,所述单通道后处理子系统,包括:
噪声估计模块,用于执行语音增强算法,以对所述当前帧语音信号进行噪声估计得到待抑制噪声,所述语音增强算法,用于对所述当前帧语音信号进行噪声抑制处理;
噪声抑制模块,用于执行所述语音增强算法以对所述待抑制噪声进行噪声抑制处理。
24.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-10中任一所述的方法。
25.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-10中任一项所述的方法。
CN202110565212.4A 2021-05-24 2021-05-24 语音信号的处理方法、装置、电子设备及存储介质 Pending CN113345469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110565212.4A CN113345469A (zh) 2021-05-24 2021-05-24 语音信号的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110565212.4A CN113345469A (zh) 2021-05-24 2021-05-24 语音信号的处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113345469A true CN113345469A (zh) 2021-09-03

Family

ID=77471112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110565212.4A Pending CN113345469A (zh) 2021-05-24 2021-05-24 语音信号的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113345469A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728237A (zh) * 2004-07-27 2006-02-01 三星电子株式会社 从记录设备消除噪声的装置和方法
CN101567190A (zh) * 2009-05-21 2009-10-28 深圳市科莱特斯科技有限公司 语音增益控制方法及装置
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN104658544A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种语音中瞬态噪声抑制的方法
CN106898359A (zh) * 2017-03-24 2017-06-27 上海智臻智能网络科技股份有限公司 音频信号处理方法、系统、音频交互装置及计算机设备
CN107786709A (zh) * 2017-11-09 2018-03-09 广东欧珀移动通信有限公司 通话降噪方法、装置、终端设备及计算机可读存储介质
CN107785029A (zh) * 2017-10-23 2018-03-09 科大讯飞股份有限公司 目标语音检测方法及装置
WO2019072395A1 (en) * 2017-10-12 2019-04-18 Huawei Technologies Co., Ltd. APPARATUS AND METHOD FOR IMPROVING SIGNALS
CN109979185A (zh) * 2019-04-11 2019-07-05 杭州微纳科技股份有限公司 一种远场语音输入装置
CN109994129A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 语音处理系统、方法和设备
CN110012331A (zh) * 2019-04-11 2019-07-12 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
CN111986693A (zh) * 2020-08-10 2020-11-24 北京小米松果电子有限公司 音频信号的处理方法及装置、终端设备和存储介质
CN112233688A (zh) * 2020-09-24 2021-01-15 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN112530451A (zh) * 2020-10-20 2021-03-19 国网黑龙江省电力有限公司伊春供电公司 基于去噪自编码器的语音增强方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728237A (zh) * 2004-07-27 2006-02-01 三星电子株式会社 从记录设备消除噪声的装置和方法
CN101567190A (zh) * 2009-05-21 2009-10-28 深圳市科莱特斯科技有限公司 语音增益控制方法及装置
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN104658544A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种语音中瞬态噪声抑制的方法
CN106898359A (zh) * 2017-03-24 2017-06-27 上海智臻智能网络科技股份有限公司 音频信号处理方法、系统、音频交互装置及计算机设备
WO2019072395A1 (en) * 2017-10-12 2019-04-18 Huawei Technologies Co., Ltd. APPARATUS AND METHOD FOR IMPROVING SIGNALS
CN107785029A (zh) * 2017-10-23 2018-03-09 科大讯飞股份有限公司 目标语音检测方法及装置
CN107786709A (zh) * 2017-11-09 2018-03-09 广东欧珀移动通信有限公司 通话降噪方法、装置、终端设备及计算机可读存储介质
CN109994129A (zh) * 2017-12-29 2019-07-09 阿里巴巴集团控股有限公司 语音处理系统、方法和设备
CN109979185A (zh) * 2019-04-11 2019-07-05 杭州微纳科技股份有限公司 一种远场语音输入装置
CN110012331A (zh) * 2019-04-11 2019-07-12 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
CN111986693A (zh) * 2020-08-10 2020-11-24 北京小米松果电子有限公司 音频信号的处理方法及装置、终端设备和存储介质
CN112233688A (zh) * 2020-09-24 2021-01-15 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN112530451A (zh) * 2020-10-20 2021-03-19 国网黑龙江省电力有限公司伊春供电公司 基于去噪自编码器的语音增强方法

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
JP4863713B2 (ja) 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
CN109643552A (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
WO2020037555A1 (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
EP3411876B1 (en) Babble noise suppression
EP2573768A2 (en) Reverberation suppression device, reverberation suppression method, and computer-readable storage medium storing a reverberation suppression program
KR20030076560A (ko) 전자 신호로부터의 잡음 제거 방법 및 장치
CN109979476A (zh) 一种语音去混响的方法及装置
US20140321655A1 (en) Sensitivity Calibration Method and Audio Device
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
CN115171714A (zh) 一种语音增强方法、装置、电子设备及存储介质
US10438606B2 (en) Pop noise control
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
CN113345469A (zh) 语音信号的处理方法、装置、电子设备及存储介质
JP3933860B2 (ja) 音声認識装置
CN114813129B (zh) 基于wpe与emd的滚动轴承声信号故障诊断方法
JP2003271166A (ja) 入力信号処理方法および入力信号処理装置
Lee et al. Bone-conduction sensor assisted noise estimation for improved speech enhancement
CN113314147B (zh) 音频处理模型的训练方法及装置、音频处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination