CN112365900B - 一种语音信号增强方法、装置、介质和设备 - Google Patents

一种语音信号增强方法、装置、介质和设备 Download PDF

Info

Publication number
CN112365900B
CN112365900B CN202011188604.5A CN202011188604A CN112365900B CN 112365900 B CN112365900 B CN 112365900B CN 202011188604 A CN202011188604 A CN 202011188604A CN 112365900 B CN112365900 B CN 112365900B
Authority
CN
China
Prior art keywords
voice signal
signal
category
frequency band
judgment condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011188604.5A
Other languages
English (en)
Other versions
CN112365900A (zh
Inventor
陈孝良
冯大航
郝斌
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202011188604.5A priority Critical patent/CN112365900B/zh
Publication of CN112365900A publication Critical patent/CN112365900A/zh
Application granted granted Critical
Publication of CN112365900B publication Critical patent/CN112365900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及一种语音信号增强方法、装置、介质和设备。根据本发明实施例提供的方案,可以获取通话设备接收的语音信号,并根据预先设置的每个语音信号类别对应的预设判断条件,确定语音信号是否符合某个类别的语音信号被屏障遮挡的预设判断条件。如果确定语音信号符合某个类别的语音信号被屏障遮挡的预设判断条件,则可以根据对应的语音信号类别,对语音信号的频带进行补偿,获得补偿后的语音信号,从而尽量减少通话设备接收到的语音信号中由于屏障遮挡造成的信号损失,进而提高通话设备的通话质量。

Description

一种语音信号增强方法、装置、介质和设备
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种语音信号增强方法、装置、介质和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
会议系统可以理解为一整套与会议相关的软硬件,其非常重要的一个功能是实现通话。在通过会议系统实现通话的过程中,非常可能存在会议系统中的通话设备与说话人之间存在屏障遮挡的情况。例如,讲话人面前有一台笔记本电脑,而通话设备(例如,会议机)在笔记本屏幕的背面,在这种情况下,讲话人发出的语音信号,会受到笔记本屏幕的遮挡,通话设备接收到的语音信号存在由于笔记本屏幕遮挡产生的信号损失。
由于通话设备接收到的语音信号存在由于屏障遮挡造成的信号损失,会导致通话设备根据接收到的语音信号播放出的语音效果不佳。基于此,如何减少通话设备接收到的语音信号由于屏障遮挡造成的信号损失,就成为一个亟需解决的问题。
发明内容
本发明实施例提供一种语音信号增强方法、装置、介质和设备,用于解决会议系统中,由于屏障遮挡,通话设备接收到的语音信号存在较大信号损失的问题。
第一方面,本发明提供了一种语音信号增强方法,所述方法包括:
获取通话设备接收的语音信号;
根据语音信号类别对应的预设判断条件,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过;
在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,得到所述语音信号的补偿语音信号。
可选的,所述语音信号类别包括男声语音信号类别和女声语音信号类别;
所述男声语音信号类别对应的预设判断条件为第一预设判断条件,所述第一预设判断条件包括:
语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值;
所述女声语音信号类别对应的预设判断条件为第二预设判断条件,所述第二预设判断条件包括:
语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值。
可选的,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
确定所述语音信号中所述第一指定频带的信号能量,与所述第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;以及,
确定所述语音信号中所述第三指定频带的信号能量,与所述第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
可选的,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
将所述语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定所述语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件以及是否符合预先设置的女声语音信号类别对应的第二预设判断条件;若符合所述第一预设判断条件,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;若符合所述第二预设判断条件,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
可选的,在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,包括:
根据所述语音信号所属的语音信号类别,通过预先建立的该语音信号类别对应的补偿模型,对所述语音信号的信号损失进行补偿;或者,根据所述语音信号所属的语音信号类别,通过滤波器滤波,对所述语音信号的信号损失进行补偿,其中,滤波器采用预先设置的该语音信号类别对应的滤波器系数。
第二方面,本发明还提供了一种语音信号增强装置,所述装置包括:
获取模块,用于获取通话设备接收的语音信号;
遮挡判断模块,用于根据语音信号类别对应的预设判断条件,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过;
补偿模块,用于在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,得到所述语音信号的补偿语音信号。
可选的,所述语音信号类别包括男声语音信号类别和女声语音信号类别;
所述男声语音信号类别对应的预设判断条件为第一预设判断条件,所述第一预设判断条件包括:
语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值;
所述女声语音信号类别对应的预设判断条件为第二预设判断条件,所述第二预设判断条件包括:
语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值。
可选的,所述遮挡判断模块,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
确定所述语音信号中所述第一指定频带的信号能量,与所述第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;以及,
确定所述语音信号中所述第三指定频带的信号能量,与所述第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
可选的,所述遮挡判断模块,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
将所述语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定所述语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件以及是否符合预先设置的女声语音信号类别对应的第二预设判断条件;若符合所述第一预设判断条件,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;若符合所述第二预设判断条件,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
可选的,所述补偿模块,在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,包括:
根据所述语音信号所属的语音信号类别,通过预先建立的该语音信号类别对应的补偿模型,对所述语音信号的信号损失进行补偿;或者,根据所述语音信号所属的语音信号类别,通过滤波器滤波,对所述语音信号的信号损失进行补偿,其中,滤波器采用预先设置的该语音信号类别对应的滤波器系数。
第三方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述的方法。
第四方面,本发明还提供了一种语音信号增强设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现如上所述的方法步骤。
根据本发明实施例提供的方案,可以获取通话设备接收的语音信号,并根据预先设置的每个语音信号类别对应的预设判断条件,确定语音信号是否符合某个类别的语音信号被屏障遮挡的预设判断条件。如果确定语音信号符合某个类别的语音信号被屏障遮挡的预设判断条件,则可以根据对应的语音信号类别,对语音信号的频带进行补偿,获得补偿后的语音信号,从而尽量减少通话设备接收到的语音信号中由于屏障遮挡造成的信号损失,进而提高通话设备的通话质量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音信号增强方法的流程示意图;
图2为本发明实施例提供的语音信号增强装置的结构示意图;
图3为本发明实施例提供的语音信号增强设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在通过会议系统实现通话的过程中,通话设备接收到的语音信号往往由于屏障遮挡存在信号损失,由此导致通话设备根据接收到的语音信号播放出的语音效果不佳。为了解决该问题,本申请提出,可以预先设置至少一个语音信号类别,并针对每个类别的语音信号在存在屏障遮挡时的信号损失特点,设置对应的语音信号被屏障遮挡的判断条件。进而可以针对预先设置的各个语音信号类别,分别确定语音信号是否符合某个类别的语音信号被屏障遮挡的判断条件,并可以在判断出语音信号被屏障遮挡时,根据语音信号类别,对语音信号进行补偿,尽量减少屏障遮挡造成的信号损失,使得通话设备可以获得补偿后的语音信号。进而使得通话设备根据补偿后的语音信号进行语音播放时,优化通话设备播放出的语音效果,提高语音的听感。
本案发明人研究发现,受屏障遮挡时,信号损失主要产生在中高频段。考虑到男声语音信号和女声语音信号的频率有所差别,男声语音信号频率较低,主要集中在0~4000赫兹,女声语音信号频率较高,主要集中在0~6000赫兹,在一种可能的实现方式中,可以按照男声语音信号和女声语音信号对语音信号进行划分,并分别针对男声语音信号和女声语音信号设置被屏障遮挡的判断条件,以准确地判断语音信号是否被屏障遮挡。
本案发明人进一步通过多次试验发现,男声语音信号在受到屏障遮挡时,在频率较低的频带产生的信号损失较少,根据实验,该频带可以但不限于定义为0~800赫兹,主要在频率较高的频带产生信号损失,根据实验,该频带可以但不限于定义为1000~4000赫兹。
女声语音信号在受到屏障遮挡时,在频率较低的频带产生的信号损失较少,根据实验,该频带可以但不限于定义为0~600赫兹,主要在频率较高的频带产生信号损失,根据实验,该频带可以但不限于定义为1000~6000赫兹。
基于上述试验发现,可以针对男声语音信号,预先设置两个指定频带,分别记为第一指定频带和第二指定频带,其中,第一指定频带可以为0~800赫兹,第二指定频带可以为1000~4000赫兹。从而可以通过第一指定频带的能量损失是否小于第一设定值,且第二指定频带的能量损失是否大于第二设定值的判断,确定语音信号为男声时,语音信号是否受到屏障遮挡。
如果确定第一指定频带的能量损失小于第一设定值,且第二指定频带的能量损失大于第二设定值,则可以理解为通话设备接收到的语音信号为男声,且语音信号受到屏障遮挡,此时,可以对语音信号的信号损失进行补偿,可以理解为主要针对信号损失较大的第二指定频带进行补偿,获得补偿后的语音信号。
可以针对女声语音信号,预先设置两个指定频带,分别记为第三指定频带和第四指定频带,其中,第三指定频带可以为0~600赫兹,第四指定频带可以为1000~6000赫兹。从而可以通过第三指定频带的能量损失是否小于第三设定值,且第四指定频带的能量损失是否大于第四设定值的判断,确定语音信号为女声时,语音信号是否受到屏障遮挡。
如果确定第三指定频带的能量损失小于第三设定值,且第四指定频带的能量损失大于第四设定值,则可以理解为通话设备接收到的语音信号为女声,且语音信号受到屏障遮挡,此时,可以对语音信号的信号损失进行补偿,可以理解为主要针对信号损失较大的第四指定频带进行补偿,获得补偿后的语音信号。
需要说明的是,对语音信号的信号损失进行补偿,可以是预先建立各类别语音信号对应的补偿模型,基于各个补偿模型,对语音信号的信号损失进行补偿。也可以是通过滤波器滤波的方式,对语音信号的信号损失进行补偿,其中,针对各类别的语音信号,可以设置不同的滤波器系数。
基于上述说明,本发明实施例提供一种语音信号增强方法,该方法的步骤流程可以如图1所示,包括:
步骤101、获取通话设备接收的语音信号。
在本步骤中,可以获取通话设备接收到的语音信号。在本实施例中,语音信号是否被屏障遮挡的判断可以基于语音频域信号实现。
一般的,通话设备接收到的语音信号为语音时域信号,因此在本实施例中,可以将获取的通话设备接收到的语音时域信号,转换为语音频域信号,基于语音频域信号进行是否被屏障遮挡的判断,进而实现语音信号增强。本实施例中,后续涉及的对语音信号进行的是否被屏障遮挡的判断以及语音信号的增强,均可以理解为对语音频域信号的处理。
在一种可能的实现方式中,可以通过傅里叶变换(FFT),将语音时域信号转换为语音频域信号。
步骤102、根据语音信号类别对应的预设判断条件,确定语音信号所属的语音信号类别和语音信号是否被遮挡过。
在本实施例中,可以预先设置至少一个语音信号类别,并针对每个类别的语音信号在存在屏障遮挡时的信号损失特点,设置对应的语音信号被屏障遮挡的判断条件。也就是说,可以为预先设置的每个语音信号类别,预设对应的判断条件,每个预设判断条件用于判断对应的语音信号类别的语音信号是否被屏障遮挡。
在一种可能的实现方式中,预先设置的语音信号类别可以包括男声语音信号类别和女声语音信号类别。
预先设置的男声语音信号类别对应的预设判断条件(可以记为第一预设判断条件),可以包括:
语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值;
预先设置的女声语音信号类别对应的预设判断条件(可以记为第二预设判断条件),可以包括:
语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值。
在本步骤中,可以基于预先设置的各类别的语音信号对应的预设判断条件,确定步骤101中获取的语音信号,是否符合一个预设判断条件。从而可以准确地判断出语音信号所属的语音信号类别,以及是否被屏障遮挡过。
例如,假设按照上述方式,针对男声语音信号类别和女声语音信号类别,分别预先设置对应的判断条件,那么在本步骤中,可以通过确定步骤101中获取的语音信号,是否符合男声语音信号类别对应的第一预设判断条件或女声语音信号类别对应的第二预设判断条件,准确地判断出语音信号为男声语音信号时是否被屏障遮挡过,或语音信号为女声语音信号时是否被屏障遮挡过。
预先设置的男声语音信号类别对应的第一预设判断条件包括:语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值时,确定语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件可以通过任意方式实现,例如,可以但不限于通过以下两种方式中的任意一种实现:
方式一、确定语音信号中第一指定频带的信号能量,与第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定语音信号符合预先设置的男声语音信号类别对应的第一预设判断条件,即确定语音信号所属的语音信号类别为男声语音信号类别,且语音信号被遮挡过。
在一种可能的实现方式中,语音频域信号中第一指定频带的信号能量,与第二指定频带的信号能量的比值Pth可以表示为:
Figure BDA0002752074530000101
其中,x(f)表示语音频域信号;
f-l1表示第一指定频带的最小值;
f-l2表示第一指定频带的最大值;
f-h1表示第二指定频带的最小值;
f-h2表示第二指定频带的最大值。
当然,语音频域信号中第一指定频带的信号能量,与第二指定频带的信号能量的比值Pth还可以有其他的表示方式,例如,在上式的分子中,减去第一指定频带对应的背景噪声,在上式的分母中,减去第二指定频带对应的背景噪声,本实施例不再一一列举。
需要说明的是,对应的第一门限值可以设定为自适应的。即,如果Pth的表示方式发生了变化,可以理解为对应的第一门限值也会随之发生变化,以提高是否符合判断条件确定的准确性。
方式二、将语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件,若符合第一预设判断条件,确定语音信号所属的语音信号类别为男声语音信号类别,且语音信号被遮挡过。
也就是说,在本实施例中,可以利用深度学习方法,根据存在屏障遮挡和不存在屏障遮挡的语音频域信号作为训练数据,通过任务训练得到分类模型,分类结果可以包括被屏障遮挡和未被屏障遮挡两类。
从而可以将语音频域信号的第一指定特征作为输入,利用训练出的分类模型确定语音频域信号是否符合预先设置的男声语音信号被屏障遮挡的判断条件,如果符合判断条件,可以理解为分类结果为被屏障遮挡,否则,分类结果为未被屏障遮挡。
类似的,预先设置的女声语音信号类别对应的第二预设判断条件包括:语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值时,确定语音信号是否符合预先设置的女声语音信号类别对应的第二预设判断条件也可以通过任意方式实现,例如,可以但不限于通过以下两种方式中的任意一种实现:
方式一、确定语音信号中第三指定频带的信号能量,与第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定语音信号符合预先设置的女声语音信号类别对应的第二预设判断条件,即确定语音信号所属的语音信号类别为女声语音信号类别,且语音信号被遮挡过。
方式二、将语音信号的第二指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定语音信号是否符合预先设置的女声语音信号类别对应的第二预设判断条件,若符合第二预设判断条件,确定语音信号所属的语音信号类别为女声语音信号类别,且语音信号被遮挡过。
确定语音信号是否符合预先设置的女声语音信号类别对应的第二预设判断条件的上述两种方式,与确定语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件的两种方式类似,本实施例不再重复说明。
也就是说,在本实施例中,确定语音信号所属的语音信号类别和语音信号是否被遮挡过,可以包括:
确定语音信号中第一指定频带的信号能量,与第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定语音信号所属的语音信号类别为男声语音信号类别,且语音信号被遮挡过;以及,
确定语音信号中第三指定频带的信号能量,与第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定语音信号所属的语音信号类别为女声语音信号类别,且语音信号被遮挡过。
也可以包括:
将语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件以及是否符合预先设置的女声语音信号类别对应的第二预设判断条件;若符合第一预设判断条件,确定语音信号所属的语音信号类别为男声语音信号类别,且语音信号被遮挡过;若符合第二预设判断条件,确定语音信号所属的语音信号类别为女声语音信号类别,且语音信号被遮挡过。
如果确定步骤101中获取的语音信号,符合某个类别的语音信号被屏障遮挡的判断条件,即,符合一个预设判断条件,则可以继续执行步骤103,否则可以结束本流程。
步骤103、在确定语音信号被遮挡过的情况下,对语音信号进行补偿,得到语音信号的补偿语音信号。
如果确定步骤101中获取的语音信号,符合某个类别的语音信号被屏障遮挡的判断条件,即,符合一个预设判断条件,在本步骤中,可以根据该预设判断条件对应的语音信号类别(即语音信号所属的语音信号类别),对语音信号的信号损失进行补偿,获得补偿后的语音信号,从而尽量减小由于屏障遮挡造成的信号损失,使得通话设备基于补偿后的语音信号进行通话,可以有效优化通话质量。
当然,在一种可能的实现方式中,获得补偿后的语音频域信号之后,通话设备可以通过逆傅里叶变换(IFFT),将获得的补偿后的语音频域信号转换为语音时域信号,使得可以实现对语音信号的输出。
根据语音信号类别,对语音信号的信号损失进行补偿可以通过任意方式实现,例如,可以但不限于根据语音信号类别,通过预先建立的该语音信号类别对应的补偿模型,对语音信号的信号损失进行补偿。
需要说明的是,为了提高补偿模型的适应性,提高补偿的准确性,可以设计不同的试验来得到不同情况下,存在屏障遮挡时的信号损失情况,从而构造出尽可能准确的补偿模型。在一种可能的实现方式中,补偿模型可以基于声波传播的衰减,与频率的平方和距离有关来构造。
又如,可以根据语音信号类别,通过滤波器滤波,对语音信号的信号损失进行补偿,其中,滤波器采用预先设置的该语音信号类别对应的滤波器系数。在本实施例中,可以但不限于利用peaking函数和shelving函数来设计合理的滤波器系数。
根据本发明实施例提供的方案,可以在会议场景中,针对通话设备与讲话人之间存在屏障遮挡时,语音信号部分频带受损的情况,有效提升通话设备的通话质量,提高通话设备发出的语音的听感。另外需要说明的是,本实施例提供的补偿模型不限于应用于会议场景中,对通话设备接收到的语音信号由于屏障遮挡造成的信号损失进行补偿,也同样可以应用于对语音信号由于其他原因造成的信号损失进行补偿。
与提供的方法对应的,进一步提供以下的装置。
本发明实施例提供一种语音信号增强装置,该装置的结构可以如图2所示,包括:
获取模块11用于获取通话设备接收的语音信号;
遮挡判断模块12用于根据语音信号类别对应的预设判断条件,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过;
补偿模块13用于在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,得到所述语音信号的补偿语音信号。
需要说明的是,在一种可能的实现方式中,获取模块11可以通过傅里叶变换(FFT),将获取的语音时域信号转换为语音频域信号,使得遮挡判断模块12可以基于语音频域信号进行遮挡判断,补偿模块13可以基于语音频域信号进行信号补偿。另外,在一种可能的实现方式中,补偿模块13获得补偿后的语音频域信号之后,获取模块11还可以通过逆傅里叶变换(IFFT),将获得的补偿后的语音频域信号转换为语音时域信号,使得可以实现对语音信号的输出。
在一种可能的实现方式中,所述语音信号类别包括男声语音信号类别和女声语音信号类别;
所述男声语音信号类别对应的预设判断条件为第一预设判断条件,所述第一预设判断条件包括:
语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值;
所述女声语音信号类别对应的预设判断条件为第二预设判断条件,所述第二预设判断条件包括:
语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值。
在一种可能的实现方式中,所述遮挡判断模块12确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
确定所述语音信号中所述第一指定频带的信号能量,与所述第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;以及,
确定所述语音信号中所述第三指定频带的信号能量,与所述第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
在一种可能的实现方式中,所述遮挡判断模块12确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
将所述语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定所述语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件以及是否符合预先设置的女声语音信号类别对应的第二预设判断条件;若符合所述第一预设判断条件,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;若符合所述第二预设判断条件,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
在一种可能的实现方式中,所述补偿模块13在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,包括:
根据所述语音信号所属的语音信号类别,通过预先建立的该语音信号类别对应的补偿模型,对所述语音信号的信号损失进行补偿;或者,根据所述语音信号所属的语音信号类别,通过滤波器滤波,对所述语音信号的信号损失进行补偿,其中,滤波器采用预先设置的该语音信号类别对应的滤波器系数。
本发明上述实施例提供的各装置的各功能单元的功能,可以通过上述对应的各方法的步骤来实现,因此,本发明实施例提供的各装置中的各个功能单元的具体工作过程和有益效果,在此不复赘述。
基于同一发明构思,本发明实施例提供以下的设备和介质。
本发明实施例提供一种语音信号增强设备,该设备的结构可以如图3所示,包括处理器21、通信接口22、存储器23和通信总线24,其中,所述处理器21,所述通信接口22,所述存储器23通过所述通信总线24完成相互间的通信;
所述存储器23,用于存放计算机程序;
所述处理器21,用于执行所述存储器上所存储的程序时,实现本发明上述方法实施例所述的步骤。
可选的,所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC,Application Specific Integrated Circuit),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(FPGA,Field Programmable Gate Array)开发的硬件电路,可以是基带处理器。
可选的,所述处理器21可以包括至少一个处理核心。
可选的,所述存储器23可以包括只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。
本发明实施例还提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,当可执行程序被处理器执行时,实现本发明上述方法实施例提供的方法。
在具体的实施过程中,计算机存储介质可以包括:通用串行总线闪存盘(USB,Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。
在本发明实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性或其它的形式。
在本发明实施例中的各功能单元可以集成在一个处理单元中,或者各个单元也可以均是独立的物理模块。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备,例如可以是个人计算机,服务器,或者网络设备等,或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种语音信号增强方法,其特征在于,所述方法包括:
获取通话设备接收的语音信号;
根据语音信号类别对应的预设判断条件,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,所述语音信号类别包括男声语音信号类别和女声语音信号类别;
在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,得到所述语音信号的补偿语音信号。
2.如权利要求1所述的方法,其特征在于,所述男声语音信号类别对应的预设判断条件为第一预设判断条件,所述第一预设判断条件包括:
语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值;
所述女声语音信号类别对应的预设判断条件为第二预设判断条件,所述第二预设判断条件包括:
语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值。
3.如权利要求1所述的方法,其特征在于,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
确定所述语音信号中第一指定频带的信号能量,与第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;以及,
确定所述语音信号中第三指定频带的信号能量,与第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
4.如权利要求2所述的方法,其特征在于,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
将所述语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定所述语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件以及是否符合预先设置的女声语音信号类别对应的第二预设判断条件;若符合所述第一预设判断条件,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;若符合所述第二预设判断条件,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
5.如权利要求1~4任一所述的方法,其特征在于,在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,包括:
根据所述语音信号所属的语音信号类别,通过预先建立的该语音信号类别对应的补偿模型,对所述语音信号的信号损失进行补偿;或者,根据所述语音信号所属的语音信号类别,通过滤波器滤波,对所述语音信号的信号损失进行补偿,其中,滤波器采用预先设置的该语音信号类别对应的滤波器系数。
6.一种语音信号增强装置,其特征在于,所述装置包括:
获取模块,用于获取通话设备接收的语音信号;
遮挡判断模块,用于根据语音信号类别对应的预设判断条件,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,所述语音信号类别包括男声语音信号类别和女声语音信号类别;
补偿模块,用于在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,得到所述语音信号的补偿语音信号。
7.如权利要求6所述的装置,其特征在于;
所述男声语音信号类别对应的预设判断条件为第一预设判断条件,所述第一预设判断条件包括:
语音信号在第一指定频带的能量损失小于第一设定值,且在第二指定频带的能量损失大于第二设定值;
所述女声语音信号类别对应的预设判断条件为第二预设判断条件,所述第二预设判断条件包括:
语音信号在第三指定频带的能量损失小于第三设定值,且在第四指定频带的能量损失大于第四设定值。
8.如权利要求6所述的装置,其特征在于,所述遮挡判断模块,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
确定所述语音信号中第一指定频带的信号能量,与第二指定频带的信号能量的比值是否大于第一门限值,若大于,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;以及,
确定所述语音信号中第三指定频带的信号能量,与第四指定频带的信号能量的比值是否大于第二门限值,若大于,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
9.如权利要求7所述的装置,其特征在于,所述遮挡判断模块,确定所述语音信号所属的语音信号类别和所述语音信号是否被遮挡过,包括:
将所述语音信号的第一指定特征作为输入,利用预先基于深度学习方法建立的分类模型,确定所述语音信号是否符合预先设置的男声语音信号类别对应的第一预设判断条件以及是否符合预先设置的女声语音信号类别对应的第二预设判断条件;若符合所述第一预设判断条件,确定所述语音信号所属的语音信号类别为男声语音信号类别,且所述语音信号被遮挡过;若符合所述第二预设判断条件,确定所述语音信号所属的语音信号类别为女声语音信号类别,且所述语音信号被遮挡过。
10.如权利要求6~9任一所述的装置,其特征在于,所述补偿模块,在确定所述语音信号被遮挡过的情况下,对所述语音信号进行补偿,包括:
根据所述语音信号所属的语音信号类别,通过预先建立的该语音信号类别对应的补偿模型,对所述语音信号的信号损失进行补偿;或者,根据所述语音信号所属的语音信号类别,通过滤波器滤波,对所述语音信号的信号损失进行补偿,其中,滤波器采用预先设置的该语音信号类别对应的滤波器系数。
11.一种非易失性计算机存储介质,其特征在于,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现权利要求1~5任一所述的方法。
12.一种语音信号增强设备,其特征在于,所述设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现权利要求1~5任一所述的方法步骤。
CN202011188604.5A 2020-10-30 2020-10-30 一种语音信号增强方法、装置、介质和设备 Active CN112365900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011188604.5A CN112365900B (zh) 2020-10-30 2020-10-30 一种语音信号增强方法、装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011188604.5A CN112365900B (zh) 2020-10-30 2020-10-30 一种语音信号增强方法、装置、介质和设备

Publications (2)

Publication Number Publication Date
CN112365900A CN112365900A (zh) 2021-02-12
CN112365900B true CN112365900B (zh) 2021-12-24

Family

ID=74513821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011188604.5A Active CN112365900B (zh) 2020-10-30 2020-10-30 一种语音信号增强方法、装置、介质和设备

Country Status (1)

Country Link
CN (1) CN112365900B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573194B (zh) * 2021-07-27 2022-10-11 歌尔科技有限公司 一种音频信号补偿方法、装置、设备及存储介质
WO2023051627A1 (zh) * 2021-09-28 2023-04-06 北京字跳网络技术有限公司 音频渲染方法、音频渲染设备和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103392349A (zh) * 2011-02-23 2013-11-13 高通股份有限公司 用于空间选择性音频增强的系统、方法、设备和计算机可读媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
CN106992010B (zh) * 2017-06-02 2020-02-21 厦门大学 无直达声条件下的麦克风阵列语音增强装置
US11138989B2 (en) * 2019-03-07 2021-10-05 Adobe Inc. Sound quality prediction and interface to facilitate high-quality voice recordings
US11641544B2 (en) * 2019-11-20 2023-05-02 Intel Corporation Lightweight full 360 audio source location detection with two microphones
CN110970050B (zh) * 2019-12-20 2022-07-15 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN111429905B (zh) * 2020-03-23 2024-06-07 北京声智科技有限公司 语音信号处理方法、装置、语音智能电梯、介质和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103392349A (zh) * 2011-02-23 2013-11-13 高通股份有限公司 用于空间选择性音频增强的系统、方法、设备和计算机可读媒体

Also Published As

Publication number Publication date
CN112365900A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
US10891931B2 (en) Single-channel, binaural and multi-channel dereverberation
US10210883B2 (en) Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
CN111951819A (zh) 回声消除方法、装置及存储介质
CN112365900B (zh) 一种语音信号增强方法、装置、介质和设备
US10115411B1 (en) Methods for suppressing residual echo
CN111031448B (zh) 回声消除方法、装置、电子设备和存储介质
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
CN104994249B (zh) 声回波消除方法和装置
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
CN112565981B (zh) 啸叫抑制方法、装置、助听器及存储介质
CN110211602B (zh) 智能语音增强通信方法及装置
CN110136735B (zh) 一种音频修复方法、设备及可读存储介质
CN110503967B (zh) 一种语音增强方法、装置、介质和设备
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN110148421B (zh) 一种残余回声检测方法、终端和装置
CN110956973A (zh) 一种回声消除方法、装置及智能终端
CN112602150A (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN110503973B (zh) 音频信号瞬态噪音抑制方法、系统以及存储介质
CN112289334A (zh) 一种混响消除方法及装置
US11380312B1 (en) Residual echo suppression for keyword detection
US20150163600A1 (en) Method and computer program product of processing sound segment and hearing aid
CN111756906B (zh) 一种语音信号的回声抑制方法、装置和计算机可读介质
CN116453532A (zh) 一种声学回声的回声消除方法
CN111613211B (zh) 特定词语音的处理方法及装置
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant