CN107910011A - 一种语音降噪方法、装置、服务器及存储介质 - Google Patents

一种语音降噪方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN107910011A
CN107910011A CN201711458315.0A CN201711458315A CN107910011A CN 107910011 A CN107910011 A CN 107910011A CN 201711458315 A CN201711458315 A CN 201711458315A CN 107910011 A CN107910011 A CN 107910011A
Authority
CN
China
Prior art keywords
voice
voice signal
signal
frequency point
noise reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711458315.0A
Other languages
English (en)
Other versions
CN107910011B (zh
Inventor
王海坤
马峰
王智国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711458315.0A priority Critical patent/CN107910011B/zh
Publication of CN107910011A publication Critical patent/CN107910011A/zh
Priority to PCT/CN2018/091459 priority patent/WO2019128140A1/zh
Priority to EP18894296.5A priority patent/EP3734599B1/en
Priority to US16/769,444 priority patent/US11064296B2/en
Priority to KR1020207015043A priority patent/KR102456125B1/ko
Priority to ES18894296T priority patent/ES2960555T3/es
Priority to JP2020528147A priority patent/JP7109542B2/ja
Application granted granted Critical
Publication of CN107910011B publication Critical patent/CN107910011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语音降噪方法、装置、服务器及存储介质,语音降噪方法包括:获取声学麦克风和非声学麦克风同步采集的语音信号;根据非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;根据语音活动性检测结果,对声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。在本申请中,通过以上方式可以增强降噪的效果,提高语音信号的质量。

Description

一种语音降噪方法、装置、服务器及存储介质
技术领域
本申请涉及数字信号处理技术领域,特别涉及一种语音降噪方法、装置、服务器及存储介质。
背景技术
随着语音技术的快速发展,其已广泛应用在日常生活和工作中的多个领域,为人们的生活和工作提供了极大的便利。
然而,在语音技术的应用过程中,语音信号的质量一般会因噪声等因素的干扰而下降,而语音信号质量的下降会直接影响语音信号的应用(如,语音识别、语音播放等)。因此,如何提高语音信号的质量成为亟需解决的问题。
发明内容
为解决上述技术问题,本申请实施例提供一种语音降噪方法、装置、服务器及存储介质,以达到提高语音信号质量的目的,技术方案如下:
一种语音降噪方法,包括:
获取声学麦克风和非声学麦克风同步采集的语音信号;
根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
一种语音降噪装置,包括:
语音信号获取模块,用于获取声学麦克风和非声学麦克风同步采集的语音信号;
语音活动性检测模块,用于根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
语音降噪模块,用于根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取声学麦克风和非声学麦克风同步采集的语音信号;
根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上语音降噪方法的各个步骤。
与现有技术相比,本申请的有益效果为:
在本申请中,获取声学麦克风和非声学麦克风同步采集的语音信号,其中,非声学麦克风可以通过与环境噪声无关的方式(如,检测人的皮肤或喉部骨骼的振动)采集语音信号,在此基础上,根据非声学麦克风采集的语音信号进行语音活动性检测,相比于根据声学麦克风采集的语音信号进行语音活动性检测,可以降低环境噪声的影响,提高检测的准确度,进而根据非声学麦克风采集的语音信号得到的语音活动性检测结果,对声学麦克风采集的语音信号进行降噪,增强降噪的效果,提高降噪后语音信号的质量,进而可以为后续语音信号应用提供高质量的语音信号。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音降噪方法的一种流程图;
图2为非声学麦克风采集的语音信号的基频信息的分布示意图;
图3为本发明实施例提供的语音降噪方法的另一种流程图;
图4为本发明实施例提供的语音降噪方法的再一种流程图;
图5为本发明实施例提供的语音降噪方法的再一种流程图;
图6为本发明实施例提供的语音降噪方法的再一种流程图;
图7为本发明实施例提供的语音降噪方法的再一种流程图;
图8为本发明实施例提供的语音降噪方法的再一种流程图;
图9为本发明实施例提供的语音降噪方法的再一种流程图;
图10为本发明实施例提供的语音降噪方法的再一种流程图;
图11为本发明实施例提供的语音降噪装置的一种逻辑结构示意图;
图12为服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对本申请实施例公开的语音降噪方法进行介绍之前,首先对本申请实施例公开的语音降噪方法的构思过程进行简要介绍,具体如下:
为了提高语音信号的质量,已知技术处理方式可以采用语音降噪技术,对语音进行增强,来提高语音的识别性。已有的语音降噪技术可以包括:单麦克风语音降噪方法或麦克风阵列语音降噪方法。
其中,单麦克风语音降噪方法充分考虑了噪声和语音信号的统计特性,对于平稳噪声具有较好的抑制效果,但是无法预测统计特性不稳定的非平稳噪声,并且会存在一定程度的语音失真。因此单麦克风语音降噪方法的语音降噪能力比较有限。
而麦克风阵列语音降噪方法由于融合了语音信号的时序信息和空间信息,因此相较于单麦克风语音降噪方法仅仅利用信号的时序信息,能更好的平衡噪声抑制幅度和语音失真度控制的关系,并且对非平稳噪声有一定的抑制效果。但是,受制于成本和设备尺寸的限制,某些应用场景下不可能使用无限多的麦克风,因此即使使用麦克风阵列进行语音降噪,也无法取得满意的语音降噪效果。
鉴于单麦克风语音降噪方法和麦克风阵列语音降噪方法存在的问题,申请人在研究过程中试图通过不采用声学麦克风(如,单麦克风或麦克风阵列),而是采用与环境噪声无关的信号采集装置(本文中下述均称为非声学麦克风,如,骨导麦克风、光学麦克风),通过与环境噪声无关的方式采集语音信号(如,骨导麦克风主要通过紧贴脸部或喉部的骨骼,检测骨骼的振动并将其转化成语音信号;光学麦克风又称激光麦克风,通过激光发射器发射激光到喉部或者脸部的皮肤,并通过接收器接收由于皮肤振动产生的反射信号,然后分析发射激光和反射激光的差异,并将其转化成语音信号),更大程度的降低噪声对语音通信或语音识别的干扰。
但是,上述非声学麦克风也具有一定的局限性,首先是由于骨骼和皮肤振动的频率不可能太快,因此非声学麦克风采集的信号上限不高,基本不超过2000Hz;同时由于只有发浊音的时候声带才会振动,清音不振动,因此非声学麦克风也只能采集到浊音信号。基于以上原因,基于非声学麦克风采集到的语音信号虽然具有较强的抗噪性,但是采集到的语言信号不完整,如果单独使用非声学麦克风,在绝大多数的场合仍不能满足语音通信和语音识别的要求,最终申请人提出了下述的的语音降噪方法,通过获取声学麦克风和非声学麦克风同步采集的语音信号,及根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果,及根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号,实现语音的降噪。
接下来对本申请实施例公开的语音降噪方法进行介绍,请参见图1,可以包括:
步骤S100、获取声学麦克风和非声学麦克风同步采集的语音信号。
本实施例中,声学麦克风可以包括:单个声学麦克风或声学麦克风阵列。
可以理解的是,声学麦克风可以放置在可以采集到语音信号的任意位置,来进行语音信号的采集。而,非声学麦克风则需要放置在可以采集到语音信号的区域(比如,骨导麦克风需要紧贴喉部或脸部骨骼,光学麦克风则需要放置在激光可以照射到说话人的皮肤振动区域(侧脸部和喉部)的位置),来进行语音信号的采集。
声学麦克风和非声学麦克风同步采集语音信号,可以提高声学麦克风采集的语音信号和非声学麦克风采集的语音信号的一致性,提高语音信号处理的便利性。
步骤S110、根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果。
一般地,语音降噪过程中需要进行语音存在与否的检测,但在信噪比较低的环境下,仅使用声学麦克风采集的语音信号进行语音存在与否的检测,准确性不高,为了提高语音存在与否的检测的准确性,本实施例利用非声学麦克风采集的语音信号,进行语音活动性检测,来实现语音存在与否的检测,可以降低环境噪声对检测的影响,提高语音存在与否的检测的准确性。
当然,语音存在与否的检测的准确性的提高,也可以提高最终的语音降噪效果。
步骤S120、根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
利用所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪处理,可以减少所述声学麦克风采集的语音信号中的噪声成分,使降噪处理后的声学麦克风语音信号中的语音成分更加凸显。
在本申请中,获取声学麦克风和非声学麦克风同步采集的语音信号,其中,非声学麦克风可以通过与环境噪声无关的方式(如,检测人的皮肤或喉部骨骼的振动)采集语音信号,在此基础上,根据非声学麦克风采集的语音信号进行语音活动性检测,相比于根据声学麦克风采集的语音信号进行语音活动性检测,可以降低环境噪声的影响,提高检测的准确度,进而根据非声学麦克风采集的语音信号得到的语音活动性检测结果,对声学麦克风采集的语音信号进行降噪,增强降噪的效果,提高降噪后语音信号的质量,进而可以为后续语音信号应用提供高质量的语音信号。
在本申请的另一个实施例中,对前述实施例中S110、根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果的过程进行介绍,具体可以包括:
A1、确定所述非声学麦克风采集的语音信号的基频信息。
本步骤确定的所述非声学麦克风采集的语音信号的基频信息可以理解为语音信号的基音频率,即人在说话时声门闭合的频率。
一般地,男性语音的基频范围为50~250Hz;女性语音的基频范围为120~500Hz。同时,由于所述非声学麦克风可以采集到频率低于2000Hz的语言信号,因此可以从所述非声学麦克风采集的语音信号中确定出完整的基频信息。
现结合图2,以光学麦克风采集的语音信号为例,对确定的所述非声学麦克风采集的语音信号的基频信息在语音信号中的分布进行说明,如图2所示,基频信息为频率在50~500Hz之间的部分。
A2、利用所述基频信息进行语音活动性检测,得到语音活动性检测结果。
由于基频信息为所述非声学麦克风采集的语音信号中较为明显的音频信息,因此本实施例可以利用非声学麦克风采集的语音信号中的基频信息,进行语音活动性检测,来实现语音存在与否的检测,可以降低环境噪声对检测的影响,提高语音存在与否的检测的准确性。
需要说明的是,语音活动性检测的具体实施方式有多种,具体可以包括但不局限于:
帧级别语音活动性检测;
或,频点级别语音活动性检测;
或,帧级别语音活动性检测与频点级别语音活动性检测相结合,完成语音活动性检测。
另,需要指出的是,与前述介绍的语音活动性检测的不同的具体实施方式相对应,前述实施例中S120、根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号的具体实施方式也不同。
接下来,基于前述介绍的语音活动性检测的各个具体实施方式,对利用所述基频信息进行语音活动性检测,及其对应的前述实施例中S120、根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号的具体实施方式进行一一介绍。
首先,介绍与帧级别语音活动性检测的实施方式相对应的语音降噪方法,请参见图3,可以包括:
步骤S200、获取声学麦克风和非声学麦克风同步采集的语音信号。
步骤S200与前述实施例中步骤S100相同,步骤S200的详细过程可以参见前述实施例中步骤S100的介绍,在此不再赘述。
步骤S210、确定所述非声学麦克风采集的语音信号的基频信息。
步骤S210与前述实施例中步骤A1相同,步骤S210的详细过程可以参见前述实施例中步骤A1的介绍,在此不再赘述。
步骤S220、利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果。
本步骤为前述实施例中A2利用所述基频信息进行语音活动性检测,得到语音活动性检测结果的一种具体实施方式。
利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果的具体过程,可以包括:
B1、检测所述基频信息是否为零。
若所述基频信息不为零,则执行步骤B2,若所述基频信息为零,则执行步骤B3。
B2、确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中存在语音信号。
B3、检测所述声学麦克风采集的语音信号的信号强度。
若检测到所述声学麦克风采集的语音信号的信号强度低,则执行步骤B4。
B4、确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号。
在检测到所述基频信息为零的基础上,进一步通过检测所述声学麦克风采集的语音信号的信号强度,来提高确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号这一结果的准确性。
本实施例中,由于基频信息为非声学麦克风采集的语音信号中的基频信息,而非声学麦克风可以通过与环境噪声无关的方式采集语音信号,可以通过检测基频信息对应的语音帧中是否存在语音信号,降低环境噪声对检测的影响,提高检测的准确性。
步骤S230、根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行第一降噪处理,得到第一降噪处理后声学麦克风采集的语音信号。
本步骤为前述实施例中A2利用所述基频信息进行语音活动性检测,得到语音活动性检测结果的一种具体实施方式。
需要说明的是,对于所述声学麦克风包括的单个声学麦克风或声学麦克风阵列而言,根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪的过程有所不同,具体如下:
针对单个声学麦克风,可以利用帧级别语音活动性检测结果,进行噪声谱估计的更新,可以使噪声类型估计的更加准确,进而可以利用更新的噪声谱估计对所述声学麦克风采集的语音信号进行降噪。其中,利用更新的噪声谱估计对所述声学麦克风采集的语音信号进行降噪可以参见已有技术中利用噪声谱估计进行降噪的过程,在此不再赘述。
针对声学麦克风阵列,利用帧级别语音活动性检测结果,可以更新声学麦克风阵列语音降噪系统中的阻塞矩阵、自适应噪声消除滤波器,进而可以利用更新后的阻塞矩阵、自适应噪声消除滤波器对所述声学麦克风采集的语音信号进行降噪。其中,利用更新后的阻塞矩阵、自适应噪声消除滤波器对所述声学麦克风采集的语音信号进行降噪,可以参见已有技术在此不再赘述。
本实施例利用非声学麦克风采集的语音信号中的基频信息,进行帧级别语音活动性检测,来实现语音存在与否的检测,可以降低环境噪声对检测的影响,提高语音存在与否的检测的准确性,在提高语音存在与否的检测的准确性的基础上,利用帧级别语音活动性检测结果,对声学麦克风采集的语音信号进行第一降噪处理,可以减少所述声学麦克风采集的语音信号中的噪声成分,使第一降噪处理后的声学麦克风语音信号中的语音成分更加凸显。
在本申请的另一个实施例中,介绍与频点级别语音活动性检测的实施方式相对应的语音降噪方法,请参见图4,可以包括:
步骤S300、获取声学麦克风和非声学麦克风同步采集的语音信号。
步骤S300与前述实施例中步骤S100相同,步骤S300的详细过程可以参见前述实施例中步骤S100的介绍,在此不再赘述。
步骤S310、确定所述非声学麦克风采集的语音信号的基频信息。
步骤S310与前述实施例中步骤A1相同,步骤S310的详细过程可以参见前述实施例中步骤A1、确定所述非声学麦克风采集的语音信号的基频信息的介绍,在此不再赘述。
步骤S320、根据所述基频信息,确定语音的高频频点分布信息。
可以明确的是,语音信号是宽频信号,并且在频谱分布上具有一定的稀疏性,即语音信号的某一个语音帧中有些频点是语音成分,有些频点是噪声成分。而为了更好的抑制噪声频点,保留语音频点,首先需要确定出语音频点。确定语音频点的方式可以为本步骤提出的根据所述基频信息,确定语音的高频频点分布信息。
可以理解的是,语音的高频频点为语音成分,而非噪声成分。
需要说明的是,在某些应用环境(如,高噪环境)下,部分频点成分信噪比为负值,仅靠声学麦克风难以准确的估计频点是语音成分还是噪声成分,因此本实施例采用根据非声学麦克风的语音信号的基频信息,估计语音频点(即确定语音的高频频点分布信息),来提高语音频点估计的准确性。
根据所述基频信息,确定语音的高频频点分布信息的具体过程,可以包括:
C1、对所述基频信息进行倍乘运算,得到倍乘后的基频信息。
对所述基频信息进行倍乘运算可以理解为:对所述基频信息乘以大于1的数,如将所述基频信息分别乘以2、3、4、…、N,所述N为大于1的数。
C2、按照预设频点扩展值,对所述倍乘后的基频信息进行扩展,得到语音的高频频点分布区间,作为所述语音的高频频点分布信息。
需要说明的是,在语音降噪的过程中,一般可以忍受一些残留的噪声,但是无法接受语音成分的损失,因此为了尽可能多的保留语音成分,可以按照预设频点扩展值对所述倍乘后的基频信息进行扩展,减少通过基频信息确定的高频频点的遗漏个数。
优选的,预设频点扩展值可以设置为1或2。
本实施例中,语音的高频频点分布区间可以表示为:2*f±Δ,3*f±Δ,...,N*f±Δ。
其中,f表示基频信息,2*f、3*f、…、N*f表示倍乘后的基频信息,Δ表示预设频点扩展值。
步骤S330、根据所述高频频点分布信息,对所述声学麦克风采集的语音信号进行频点级别语音活动性检测,得到频点级别语音活动性检测结果。
在前述步骤S320确定语音的高频频点分布信息后,可以根据所述高频频点分布信息,对所述声学麦克风采集的语音信号进行频点级别语音活动性检测,确定语音帧中的高频频点为语音成分,非高频频点为噪声成分。基于此,根据所述高频频点分布信息,对所述声学麦克风采集的语音信号进行频点级别语音活动性检测,得到频点级别语音活动性检测结果的具体过程,可以包括:
将所述声学麦克风采集的语音信号中,频点为所述高频频点的频点确定为存在语音信号的频点,频点非所述高频频点的频点确定为不存在语音信号的频点。
步骤S340、根据所述频点级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行第二降噪处理,得到第二降噪处理后声学麦克风采集的语音信号。
具体地,根据所述频点级别语音活动性检测结果对单个声学麦克风或声学麦克风阵列采集的语音信号进行降噪的过程,可以参见前述实施例中步骤S230介绍的根据帧级别语音活动性检测结果进行降噪的过程,在此不再赘述。
需要说明的是,本实施例中,根据所述频点级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行了降噪处理,为了与前述实施例中第一降噪处理过程进行区分,这里定义为第二降噪处理方式。
本实施例中,根据所述高频频点分布信息,进行频点级别语音活动性检测,来实现语音存在与否的检测,可以降低环境噪声对检测的影响,提高语音存在与否的检测的准确性,在提高语音存在与否的检测的准确性的基础上,利用频点级别语音活动性检测结果,对声学麦克风采集的语音信号进行第二降噪处理,可以减少声学麦克风采集的语音信号中的噪声成分,使第二降噪处理后的声学麦克风语音信号中的语音成分更加凸显。
在本申请的另一个实施例中,介绍与频点级别语音活动性检测的实施方式相对应的另外一种语音降噪方法,请参见图5,可以包括:
步骤S400、获取声学麦克风和非声学麦克风同步采集的语音信号。
具体地,非声学麦克风采集的语音信号具体为浊音信号。
步骤S410、确定所述非声学麦克风采集的语音信号的基频信息。
确定所述非声学麦克风采集的语音信号的基频信息可以理解为:确定所述浊音信号的基频信息。
步骤S420、根据所述基频信息,确定语音的高频频点分布信息。
步骤S430、根据所述高频频点分布信息,对所述声学麦克风采集的语音信号进行频点级别语音活动性检测,得到频点级别语音活动性检测结果。
步骤S440、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点,在所述声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧。
步骤S450、根据所述频点级别语音活动性检测结果,对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。
其中,增益处理的过程可以包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益值大于所述第二增益值。
由于第一增益值大于第二增益值,高频频点为语音成分,因此将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,可以使语音成分相比于噪声成分能够明显得到增强,增益后语音帧即增强后的语音帧,各增强后的语音帧组成增强后的浊音信号,从而实现对声学麦克风采集的语音信号的增强。
一般地,第一增益值的值可以设置为1,第二增益值的取值范围可以设置为大于0且小于0.5,具体可以从大于0且小于0.5的取值范围中选取任意一个值作为所述第二增益值的值。
可选的,对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,可以采用如下增益处理关系式计算:
SSEi=SAi*Combi i=1,2,...,M
SSEi表示增益后语音帧,SAi表示待处理语音帧中的第i个频点,i表示频点,M表示一个待处理语音帧中频点的总个数;
Combi表示增益值,其中Combi的大小可根据如下赋值关系式确定:
GH表示第一增益值,f表示基频信息,hfp表示高频频点分布信息,i∈hfp表示第i个频点为高频频点,Gmin表示第二增益值,表示第i个频点为非高频频点。
另,需要说明的是,基于语音的高频频点分布区间可以表示为:2*f±Δ,3*f±Δ,...,N*f±Δ的实施方式,由n*f±Δ可以代替前述介绍的赋值关系式中的hfp,对赋值关系式进行优化,优化后的赋值关系式可以表示为:
本实施例,根据所述高频频点分布信息,进行频点级别语音活动性检测,来实现语音存在与否的检测,可以降低环境噪声对检测的影响,提高语音存在与否的检测的准确性,在提高语音存在与否的检测的准确性的基础上,利用频点级别语音活动性检测结果,对声学麦克风采集的语音信号进行增益处理(增益处理过程也可以看作降噪处理的过程),可以使增益处理后的声学麦克风语音信号中的语音成分更加凸显。
在本申请的另一个实施例中,介绍与频点级别语音活动性检测的实施方式相对应的另外一种语音降噪方法,请参见图6,可以包括:
步骤S500、获取声学麦克风和非声学麦克风同步采集的语音信号。
具体地,非声学麦克风采集的语音信号具体为:浊音信号。
步骤S510、确定所述非声学麦克风采集的语音信号的基频信息。
确定所述非声学麦克风采集的语音信号的基频信息可以理解为:确定所述浊音信号的基频信息。
步骤S520、根据所述基频信息,确定语音的高频频点分布信息。
步骤S530、根据所述高频频点分布信息,对所述声学麦克风采集的语音信号进行频点级别语音活动性检测,得到频点级别语音活动性检测结果。
步骤S540、根据所述频点级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行第二降噪处理,得到第二降噪处理后声学麦克风采集的语音信号。
步骤S500-S540与前述实施例中步骤S300-S340一一对应,步骤S500-S540的详细过程可以参见前述实施例中步骤S300-S340的介绍,在此不再赘述。
步骤S550、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点,在所述第二降噪处理后声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧。
步骤S560、根据所述频点级别语音活动性检测结果,对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。
其中,所述增益处理的过程可以包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益大于所述第二增益。
步骤S550-S560的详细过程可以参见步骤S440-S450的相关介绍,在此不再赘述。
本实施例,首先对声学麦克风采集的语音信号进行了第二降噪处理,然后对第二降噪处理后声学麦克风采集的语音信号进行了增益处理,可以进一步减少声学麦克风采集的语音信号中的噪声成分,使增益后的声学麦克风语音信号中的语音成分更加凸显。
在本申请的另一个实施例中,介绍与帧级别语音活动性检测与频点级别语音活动性检测相结合的实施方式相对应的语音降噪方法,请参见图7,可以包括:
步骤S600、获取声学麦克风和非声学麦克风同步采集的语音信号。
步骤S610、确定所述非声学麦克风采集的语音信号的基频信息。
步骤S620、利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果。
步骤S630、根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行第一降噪处理,得到第一降噪处理后声学麦克风采集的语音信号。
步骤S600-S630与前述实施例中步骤S200-S230一一对应,步骤S600-S630的详细过程可以参见前述实施例中步骤S200-S230的相关介绍,在此不再赘述。
步骤S640、根据所述基频信息,确定语音的高频频点分布信息。
本步骤的详细过程可以参见前述实施例中步骤S320的相关介绍,在此不再赘述。
步骤S650、根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果。
根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果的具体过程,可以包括:
根据所述高频频点分布信息,将所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧中频点为所述高频频点的频点确定为存在语音信号的频点,频点非所述高频频点的频点确定为不存在语音信号的频点。
步骤S660、根据所述频点级别语音活动性检测结果,对所述第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理,得到第二降噪处理后声学麦克风采集的语音信号。
本实施例,首先利用帧级别语音活动性检测结果,对声学麦克风采集的语音信号进行第一降噪处理,可以减少声学麦克风采集的语音信号中的噪声成分,然后利用频点级别语音活动性检测结果,对第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理,可以进一步减少第一降噪处理后声学麦克风采集的语音信号中的噪声成分,使第二降噪处理后声学麦克风语音信号中的语音成分更加凸显。
在本申请的另一个实施例中,介绍与帧级别语音活动性检测与频点级别语音活动性检测相结合的实施方式相对应的另一种语音降噪方法,请参见图8,可以包括:
步骤S700、获取声学麦克风和非声学麦克风同步采集的语音信号。
具体地,非声学麦克风采集的语音信号具体为:浊音信号。
步骤S710、确定所述非声学麦克风采集的语音信号的基频信息。
步骤S720、利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果。
步骤S730、根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行第一降噪处理,得到第一降噪处理后声学麦克风采集的语音信号。
步骤S700-S730与前述实施例中步骤S200-S230一一对应,步骤S700-S730的详细过程可以参见前述实施例中步骤S700-S730的相关介绍,在此不再赘述。
步骤S740、根据所述基频信息,确定语音的高频频点分布信息。
步骤S750、根据所述高频频点分布信息,对所述声学麦克风采集的语音信号进行频点级别语音活动性检测,得到频点级别语音活动性检测结果。
步骤S760、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点,在所述第一降噪处理后声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧。
步骤S770、根据所述频点级别语音活动性检测结果,对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。
所述增益处理的过程可以包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益值大于所述第二增益值。
步骤S770的详细过程可以参见前述实施例中步骤S450的详细过程,在此不再赘述。
本实施例,首先利用帧级别语音活动性检测结果,对声学麦克风采集的语音信号进行第一降噪处理,可以减少所述声学麦克风采集的语音信号中的噪声成分,在此基础上,利用频点级别语音活动性检测结果,对第一降噪处理后声学麦克风采集的语音信号进行增益处理,可以减少第一降噪处理后声学麦克风采集的语音信号中的噪声成分,使增益后声学麦克风语音信号中的语音成分更加凸显。
基于前述实施例通过帧级别语音活动性检测与频点级别语音活动性检测相结合,在本申请的另一个实施例中,介绍另外一种语音降噪方法,请参见图9,可以包括:
步骤S800、获取声学麦克风和非声学麦克风同步采集的语音信号。
具体地,非声学麦克风采集的语音信号具体为:浊音信号。
步骤S810、确定所述非声学麦克风采集的语音信号的基频信息。
步骤S820、利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果。
步骤S830、根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行一次降噪,得到一次降噪后声学麦克风采集的语音信号。
步骤S840、根据所述基频信息,确定语音的高频频点分布信息。
步骤S850、根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果。
步骤S860、根据所述频点级别语音活动性检测结果,对所述第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理,得到第二降噪处理后声学麦克风采集的语音信号。
步骤S800-S860的详细过程可以参见前述实施例中步骤S600-S660的相关介绍,在此不再赘述。
步骤S870、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点,在所述第二降噪处理后声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧。
步骤S880、根据所述频点级别语音活动性检测结果,对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。
其中,所述增益处理的过程可以包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益大于所述第二增益。
本步骤的详细过程可以参见前述实施例中步骤S450的详细过程,在此不再赘述。
可以理解的是,由于增益过程也可以看作是降噪过程,因此增益后的声学麦克风采集的浊音信号可以理解为:三次降噪后的声学麦克风采集的浊音信号。
本实施例,首先利用帧级别语音活动性检测结果,对声学麦克风采集的语音信号进行第一降噪处理,可以减少所述声学麦克风采集的语音信号中的噪声成分,在此基础上,利用频点级别语音活动性检测结果,对第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理,可以减少第一降噪处理后声学麦克风采集的语音信号中的噪声成分,在此基础上,对第二降噪处理后声学麦克风采集的语音信号进行增益处理,可以减少第二降噪处理后声学麦克风采集的语音信号中的噪声成分,使增益后的声学麦克风语音信号中的语音成分更加凸显。
基于前述各个实施例的内容,在本申请的另一个实施例中,扩展出另外一种语音降噪方法,请参见图10,可以包括:
步骤S900、获取声学麦克风和非声学麦克风同步采集的语音信号。
具体地,非声学麦克风采集的语音信号具体为:浊音信号。
步骤S910、根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果。
步骤S920、根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的浊音信号。
步骤S900-S920的详细过程可以参见前述各个实施例中相关步骤的介绍,在此不再赘述。
步骤S930、将降噪后的浊音信号输入清音预测模型,得到所述清音预测模型输出的清音信号。
所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到。
一般地,语音中会同时包含浊音信号和清音信号,因此在得到降噪后的浊音信号后,需要预测语音中的清音信号。具体地,可以采用清音预测模型,预测清音信号。
所述清音预测模型模型可以为但不局限于DNN(Deep Neural Network,深度神经网络)模型。
可以理解的是,预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号训练清音预测模型,可以保证训练得到的清音预测模型能够准确的预测出清音信号。
步骤S940、将所述清音信号和所述降噪后的浊音信号组合,得到组合后的语音信号。
将所述清音信号和所述降噪后的浊音信号组合的过程可以参见已有的语音信号组合过程,在此不再赘述将所述清音信号和所述降噪后的浊音信号组合的详细过程。
组合后的语音信号可以理解为:既包括清音信号又包括降噪后的浊音信号的完整语音信号。
在本申请的另一个实施例中,对所述清音预测模型的训练过程进行介绍,具体可以包括:
D1、获取训练语音信号。
为了保证训练的准确性,训练语音信号中需包括清音信号和浊音信号。
D2、标注出所述训练语音信号中清音信号和浊音信号各自出现的起、止时间点。
D3、利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号,训练清音预测模型。
训练后的清音预测模型即前述实施例的步骤S930中使用的清音预测模型。
在本申请的另一个实施例中,对上述获取的训练语音信号进行介绍,具体可以包括:
选取满足预设训练条件的语音信号。
所述预设训练条件可以包括:
语音信号中所有不同音素出现的次数的分布满足设定分布条件;
和/或,语音信号中包含的不同音素的组合方式的种类满足设定组合方式种类要求。
优选的,设定分布条件可以为均匀分布。
当然,设定分布条件也可以为大部分因素出现的次数均匀分布,个别或少数因素出现的次数非均匀分布。
优选的,设定组合方式种类要求可以为包含全部的组合方式种类。
当然,设定组合方式种类要求也可以为包含预设个数的组合方式种类。
语音信号中所有不同因素出现的次数的分布满足设定分布条件,可以保证选取出的满足预设训练条件的语音信号中所有不同音素出现的次数的分布尽可能的均匀分布;语音信号中包含的不同音素的组合方式的种类满足设定组合方式种类要求可以保证选取出的满足预设训练条件的语音信号中不同音素之间的组合方式尽可能的丰富和全面。
选取满足预设训练条件的语音信号,可以满足训练精度的要求,同时可以减少训练语音信号的数据量,进而提高训练效率。
基于前述各个实施例介绍的内容,在所述声学麦克风包括:声学麦克风阵列的情况下,在本申请的另一个实施例中,扩展出另外一种语音降噪方法,语音降噪方法还可以包括:
S1、根据所述声学麦克风阵列采集的语音信号,确定语音输出者的方位区间。
S2、检测所述非声学麦克风采集的语音信号,与所述声学麦克风同步采集的语音信号中,相同时间点对应的语音帧是否存在语音信号,得到检测结果。
检测结果可以包括:所述非声学麦克风采集的语音信号,与所述声学麦克风同步采集的语音信号中,相同时间点对应的语音帧均存在语音信号或均不存在语音信号。
S3、根据所述检测结果,从所述目标语音输出者的方位区间中确定所述目标语音输出者的方位。
根据步骤S2中所述非声学麦克风采集的语音信号,与所述声学麦克风同步采集的语音信号中,相同时间点对应的语音帧均存在语音信号或均不存在语音信号的检测结果,可以通过确定相同时间点对应的语音帧均存在语音信号或不存在语音信号,来确定声学麦克风采集的语音信号和非声学麦克风采集的语音信号属于同一个语音输出者,进而可以根据非声学麦克风采集的语音信号从所述目标语音输出者的方位区间中确定所述目标语音输出者的方位。
可以理解的是,若多个人在同一时刻均说话,仅依靠声学麦克风阵列采集的语音信号,难以确定某一个目标语音输出者的方位,但是可以通过非声学麦克风采集的语音信号来辅助确定语音输出者的方位,具体则是采用本实施例中的步骤S1-S3实现。
下面对本发明实施例提供的语音降噪装置进行介绍,下文描述的语音降噪装置可认为是,服务器为实现本发明实施例提供的语音降噪方法,所需设置的程序模块。下文描述的语音降噪装置内容,可与上文描述的语音降噪方法内容相互对应参照。
图11为本发明实施例提供的语音降噪装置的一种逻辑结构示意图,该装置可应用于服务器,参照图11,该语音降噪装置可以包括:
语音信号获取模块11,用于获取声学麦克风和非声学麦克风同步采集的语音信号。
语音活动性检测模块12,用于根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果。
语音降噪模块13,用于根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
本实施例中,所述语音活动性检测模块12包括:
基频信息确定模块,用于确定所述非声学麦克风采集的语音信号的基频信息。
语音活动性检测子模块,用于利用所述基频信息进行语音活动性检测,得到语音活动性检测结果。
本实施例中,所述语音活动性检测子模块可以包括:
帧级别语音活动性检测模块,用于利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果。
与之相对应地,所述语音降噪模块可以包括:
一次降噪模块,用于根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行一次降噪,得到一次降噪后声学麦克风采集的语音信号。
本实施例中,上述语音降噪装置还可以包括:
高频频点分布信息确定模块,用于根据所述基频信息,确定语音的高频频点分布信息。
频点级别语音活动性检测模块,用于根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果;
与之相对应地,所述语音降噪模块还可以包括:
二次降噪模块,用于根据所述频点级别语音活动性检测结果,对所述一次降噪后声学麦克风采集的语音信号进行二次降噪,得到二次降噪后声学麦克风采集的语音信号。
本实施例中,所述帧级别语音活动性检测模块可以包括:
基频信息检测模块,用于检测所述基频信息是否为零;
若所述基频信息不为零,则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中存在语音信号;
若所述基频信息为零,则检测所述声学麦克风采集的语音信号的信号强度,若检测到所述声学麦克风采集的语音信号的信号强度低,则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号。
本实施例中,所述高频频点分布信息确定模块可以包括:
倍乘运算模块,用于对所述基频信息进行倍乘运算,得到倍乘后的基频信息;
基频信息扩展模块,用于按照预设频点扩展值,对所述倍乘后的基频信息进行扩展,得到语音的高频频点分布区间,作为所述语音的高频频点分布信息。
本实施例中,所述频点级别语音活动性检测模块可以包括:
频点级别语音活动性检测子模块,用于将所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧中,频点为所述高频频点的频点确定为存在语音信号的频点,频点非所述高频频点的频点确定为不存在语音信号的频点。
本实施例中,所述非声学麦克风采集的语音信号可以为浊音信号。
基于所述非声学麦克风采集的语音信号为浊音信号的实施方式,所述语音降噪模块,还可以包括:
语音帧获取模块,用于根据所述浊音信号包含的各语音帧的时间点,在所述二次降噪后声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧;
增益处理模块,用于对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成三次降噪后的声学麦克风采集的浊音信号;
其中,所述增益处理的过程包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益值大于所述第二增益值。
基于上述语音降噪装置,所述降噪后的语音信号可以为降噪后的浊音信号,基于此,语音降噪装置还可以包括:
清音信号预测模块,用于将所述降噪后的浊音信号输入清音预测模型,得到所述清音预测模型输出的清音信号,所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到;
语音信号组合模块,用于将所述清音信号和所述降噪后的浊音信号组合,得到组合后的语音信号。
本实施例中,上述语音降噪装置还可以包括:
清音预测模型训练模块,用于获取训练语音信号,及标注出所述训练语音信号中清音信号和浊音信号各自出现的起、止时间点,及利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号,训练清音预测模型。
清音预测模型训练模块可以包括:
训练语音信号获取模块,用于选取满足预设训练条件的语音信号,所述预设训练条件包括:
语音信号中所有不同音素出现的次数的分布满足设定分布条件;和/或,
语音信号中包含的不同音素的组合方式的种类满足设定组合方式种类要求。
基于前述介绍的语音降噪装置,在所述声学麦克风可以包括:声学麦克风阵列的情况下,语音降噪装置还可以包括:
语音输出者方位确定模块,用于根据所述声学麦克风阵列采集的语音信号,确定语音输出者的方位区间,及检测所述非声学麦克风采集的语音信号,与所述声学麦克风同步采集的语音信号中,相同时间点对应的语音帧是否存在语音信号,得到检测结果,及根据所述检测结果,从所述目标语音输出者的方位区间中确定所述目标语音输出者的方位。
本发明实施例提供的语音降噪装置可应用于服务器,如通信服务器;可选的,图12示出了服务器的硬件结构框图,参照图12,服务器的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取声学麦克风和非声学麦克风同步采集的语音信号;
根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本发明实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取声学麦克风和非声学麦克风同步采集的语音信号;
根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种语音降噪方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种语音降噪方法,其特征在于,包括:
获取声学麦克风和非声学麦克风同步采集的语音信号;
根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果,包括:
确定所述非声学麦克风采集的语音信号的基频信息;
利用所述基频信息进行语音活动性检测,得到语音活动性检测结果。
3.根据权利要求2所述的方法,其特征在于,所述利用所述基频信息进行语音活动性检测,得到语音活动性检测结果,包括:
利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果;
所述根据所述活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号,包括:
根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行一次降噪,得到一次降噪后声学麦克风采集的语音信号。
4.根据权利要求3所述的方法,其特征在于,所述利用所述基频信息进行语音活动性检测,得到语音活动性检测结果,还包括:
根据所述基频信息,确定语音的高频频点分布信息;
根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果;
所述根据所述活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号,还包括:
根据所述频点级别语音活动性检测结果,对所述一次降噪后声学麦克风采集的语音信号进行二次降噪,得到二次降噪后声学麦克风采集的语音信号。
5.根据权利要求3所述的方法,其特征在于,利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果,包括:
检测所述基频信息是否为零;
若所述基频信息不为零,则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中存在语音信号;
若所述基频信息为零,则检测所述声学麦克风采集的语音信号的信号强度,若检测到所述声学麦克风采集的语音信号的信号强度低,则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号。
6.根据权利要求4所述的方法,其特征在于,所述根据所述基频信息,确定语音的高频频点分布信息,包括:
对所述基频信息进行倍乘运算,得到倍乘后的基频信息;
按照预设频点扩展值,对所述倍乘后的基频信息进行扩展,得到语音的高频频点分布区间,作为语音的高频频点分布信息。
7.根据权利要求4所述的方法,其特征在于,所述根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果,包括:
将所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧中,频点为所述高频频点的频点确定为存在语音信号的频点,频点非所述高频频点的频点确定为不存在语音信号的频点。
8.根据权利要求4所述的方法,其特征在于,所述非声学麦克风采集的语音信号为浊音信号;
所述根据所述活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号,还包括:
根据所述浊音信号包含的各语音帧的时间点,在所述二次降噪后声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧;
对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成三次降噪后的声学麦克风采集的浊音信号;
其中,所述增益处理的过程包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益值大于所述第二增益值。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述降噪后的语音信号为降噪后的浊音信号,该方法还包括:
将所述降噪后的浊音信号输入清音预测模型,得到所述清音预测模型输出的清音信号,所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到;
将所述清音信号和所述降噪后的浊音信号组合,得到组合后的语音信号。
10.一种语音降噪装置,其特征在于,包括:
语音信号获取模块,用于获取声学麦克风和非声学麦克风同步采集的语音信号;
语音活动性检测模块,用于根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
语音降噪模块,用于根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
11.根据权利要求10所述的装置,其特征在于,所述语音活动性检测模块包括:
基频信息确定模块,用于确定所述非声学麦克风采集的语音信号的基频信息;
语音活动性检测子模块,用于利用所述基频信息进行语音活动性检测,得到语音活动性检测结果。
12.根据权利要求11所述的装置,其特征在于,所述语音活动性检测子模块包括:
帧级别语音活动性检测模块,用于利用所述基频信息,对所述声学麦克风采集的语音信号进行帧级别语音活动性检测,得到帧级别语音活动性检测结果;
所述语音降噪模块包括:
一次降噪模块,用于根据所述帧级别语音活动性检测结果,对所述声学麦克风采集的语音信号进行一次降噪,得到一次降噪后声学麦克风采集的语音信号。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
高频频点分布信息确定模块,用于根据所述基频信息,确定语音的高频频点分布信息;
频点级别语音活动性检测模块,用于根据所述高频频点分布信息,对所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测,得到频点级别语音活动性检测结果;
所述语音降噪模块还包括:
二次降噪模块,用于根据所述频点级别语音活动性检测结果,对所述一次降噪后声学麦克风采集的语音信号进行二次降噪,得到二次降噪后声学麦克风采集的语音信号。
14.根据权利要求12所述的装置,其特征在于,所述帧级别语音活动性检测模块包括:
基频信息检测模块,用于检测所述基频信息是否为零;
若所述基频信息不为零,则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中存在语音信号;
若所述基频信息为零,则检测所述声学麦克风采集的语音信号的信号强度,若检测到所述声学麦克风采集的语音信号的信号强度低,则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号。
15.根据权利要求13所述的装置,其特征在于,所述高频频点分布信息确定模块包括:
倍乘运算模块,用于对所述基频信息进行倍乘运算,得到倍乘后的基频信息;
基频信息扩展模块,用于按照预设频点扩展值,对所述倍乘后的基频信息进行扩展,得到语音的高频频点分布区间,作为所述语音的高频频点分布信息。
16.根据权利要求13所述的装置,其特征在于,所述频点级别语音活动性检测模块包括:
频点级别语音活动性检测子模块,用于将所述声学麦克风采集的语音信号中,帧级别语音活动性检测结果表示的存在语音信号的语音帧中,频点为所述高频频点的频点确定为存在语音信号的频点,频点非所述高频频点的频点确定为不存在语音信号的频点。
17.根据权利要求13所述的装置,其特征在于,所述非声学麦克风采集的语音信号为浊音信号;
所述语音降噪模块,还包括:
语音帧获取模块,用于根据所述浊音信号包含的各语音帧的时间点,在所述二次降噪后声学麦克风采集的语音信号中获取相同时间点的语音帧,作为待处理语音帧;
增益处理模块,用于对所述待处理语音帧中各频点进行增益处理,得到增益后语音帧,各所述增益后语音帧组成三次降噪后的声学麦克风采集的浊音信号;
其中,所述增益处理的过程包括:将频点为所述高频频点的频点乘以第一增益值,频点为非所述高频频点的频点乘以第二增益值,所述第一增益值大于所述第二增益值。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述降噪后的语音信号为降噪后的浊音信号,该装置还包括:
清音信号预测模块,用于将所述降噪后的浊音信号输入清音预测模型,得到所述清音预测模型输出的清音信号,所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到;
语音信号组合模块,用于将所述清音信号和所述降噪后的浊音信号组合,得到组合后的语音信号。
19.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于:
获取声学麦克风和非声学麦克风同步采集的语音信号;
根据所述非声学麦克风采集的语音信号进行语音活动性检测,得到语音活动性检测结果;
根据所述语音活动性检测结果,对所述声学麦克风采集的语音信号进行降噪,得到降噪后的语音信号。
20.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9任一项所述的语音降噪方法的各个步骤。
CN201711458315.0A 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质 Active CN107910011B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201711458315.0A CN107910011B (zh) 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质
PCT/CN2018/091459 WO2019128140A1 (zh) 2017-12-28 2018-06-15 一种语音降噪方法、装置、服务器及存储介质
EP18894296.5A EP3734599B1 (en) 2017-12-28 2018-06-15 Voice denoising
US16/769,444 US11064296B2 (en) 2017-12-28 2018-06-15 Voice denoising method and apparatus, server and storage medium
KR1020207015043A KR102456125B1 (ko) 2017-12-28 2018-06-15 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체
ES18894296T ES2960555T3 (es) 2017-12-28 2018-06-15 Eliminación de ruido de voz
JP2020528147A JP7109542B2 (ja) 2017-12-28 2018-06-15 音声ノイズ軽減方法、装置、サーバー及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711458315.0A CN107910011B (zh) 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN107910011A true CN107910011A (zh) 2018-04-13
CN107910011B CN107910011B (zh) 2021-05-04

Family

ID=61871821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711458315.0A Active CN107910011B (zh) 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质

Country Status (7)

Country Link
US (1) US11064296B2 (zh)
EP (1) EP3734599B1 (zh)
JP (1) JP7109542B2 (zh)
KR (1) KR102456125B1 (zh)
CN (1) CN107910011B (zh)
ES (1) ES2960555T3 (zh)
WO (1) WO2019128140A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109584894A (zh) * 2018-12-20 2019-04-05 西京学院 一种基于雷达语音与麦克风语音相融合的语音增强方法
WO2019128140A1 (zh) * 2017-12-28 2019-07-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN110074759A (zh) * 2019-04-23 2019-08-02 平安科技(深圳)有限公司 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN110782912A (zh) * 2019-10-10 2020-02-11 安克创新科技股份有限公司 音源的控制方法以及扬声设备
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111916101A (zh) * 2020-08-06 2020-11-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN113724694A (zh) * 2021-11-01 2021-11-30 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质
WO2022206049A1 (zh) * 2021-03-31 2022-10-06 歌尔股份有限公司 音频信号处理方法、装置、设备及存储介质
WO2022218254A1 (zh) * 2021-04-16 2022-10-20 维沃移动通信有限公司 语音信号增强方法、装置及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470676B (zh) * 2021-06-30 2024-06-25 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
US20230260537A1 (en) * 2022-02-16 2023-08-17 Google Llc Single Vector Digital Voice Accelerometer
WO2023171124A1 (ja) * 2022-03-07 2023-09-14 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
CN116110422B (zh) * 2023-04-13 2023-07-04 南京熊大巨幕智能科技有限公司 全向级联麦克风阵列降噪方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750123A (zh) * 2004-09-17 2006-03-22 微软公司 多传感器语音增强的方法和装置
CN101510905A (zh) * 2004-02-24 2009-08-19 微软公司 移动设备上多传感语音增强的方法和装置
CN101887728A (zh) * 2003-11-26 2010-11-17 微软公司 多传感语音增强方法和装置
CN102411936A (zh) * 2010-11-25 2012-04-11 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US20130246062A1 (en) * 2012-03-19 2013-09-19 Vocalzoom Systems Ltd. System and Method for Robust Estimation and Tracking the Fundamental Frequency of Pseudo Periodic Signals in the Presence of Noise
CN104091592A (zh) * 2014-07-02 2014-10-08 常州工学院 一种基于隐高斯随机场的语音转换系统
US9418675B2 (en) * 2010-10-04 2016-08-16 LI Creative Technologies, Inc. Wearable communication system with noise cancellation
CN105940445A (zh) * 2016-02-04 2016-09-14 曾新晓 一种语音通信系统及其方法
WO2017017568A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Signal processing and source separation
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN106970772A (zh) * 2015-10-16 2017-07-21 恩智浦有限公司 用于触觉反馈元件的控制器
CN107004424A (zh) * 2014-11-06 2017-08-01 沃寇族姆系统有限公司 噪声降低和语音增强的方法、设备和系统
CN107093429A (zh) * 2017-05-08 2017-08-25 科大讯飞股份有限公司 主动降噪方法、系统及汽车

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03241400A (ja) 1990-02-20 1991-10-28 Fujitsu Ltd 音声検出器
JPH03274098A (ja) 1990-03-23 1991-12-05 Ricoh Co Ltd 雑音除去方式
JPH07101853B2 (ja) * 1991-01-30 1995-11-01 長野日本無線株式会社 雑音低減方法
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
AU2003263733A1 (en) * 2002-03-05 2003-11-11 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8488803B2 (en) * 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
EP2151821B1 (en) 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140126743A1 (en) * 2012-11-05 2014-05-08 Aliphcom, Inc. Acoustic voice activity detection (avad) for electronic systems
CN203165457U (zh) 2013-03-08 2013-08-28 华南理工大学 一种可用于强噪声环境的语音采集装置
CN103208291A (zh) 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
US9532131B2 (en) * 2014-02-21 2016-12-27 Apple Inc. System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device
CN106101351A (zh) 2016-07-26 2016-11-09 哈尔滨理工大学 一种用于移动终端的多mic降噪方法
CN107910011B (zh) 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887728A (zh) * 2003-11-26 2010-11-17 微软公司 多传感语音增强方法和装置
CN101510905A (zh) * 2004-02-24 2009-08-19 微软公司 移动设备上多传感语音增强的方法和装置
CN1750123A (zh) * 2004-09-17 2006-03-22 微软公司 多传感器语音增强的方法和装置
US9418675B2 (en) * 2010-10-04 2016-08-16 LI Creative Technologies, Inc. Wearable communication system with noise cancellation
CN102411936A (zh) * 2010-11-25 2012-04-11 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US20130246062A1 (en) * 2012-03-19 2013-09-19 Vocalzoom Systems Ltd. System and Method for Robust Estimation and Tracking the Fundamental Frequency of Pseudo Periodic Signals in the Presence of Noise
CN104091592A (zh) * 2014-07-02 2014-10-08 常州工学院 一种基于隐高斯随机场的语音转换系统
CN107004424A (zh) * 2014-11-06 2017-08-01 沃寇族姆系统有限公司 噪声降低和语音增强的方法、设备和系统
WO2017017568A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Signal processing and source separation
CN106970772A (zh) * 2015-10-16 2017-07-21 恩智浦有限公司 用于触觉反馈元件的控制器
CN105940445A (zh) * 2016-02-04 2016-09-14 曾新晓 一种语音通信系统及其方法
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107093429A (zh) * 2017-05-08 2017-08-25 科大讯飞股份有限公司 主动降噪方法、系统及汽车

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李光源: ""高效语音增强与端点检测技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11064296B2 (en) 2017-12-28 2021-07-13 Iflytek Co., Ltd. Voice denoising method and apparatus, server and storage medium
WO2019128140A1 (zh) * 2017-12-28 2019-07-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109584894A (zh) * 2018-12-20 2019-04-05 西京学院 一种基于雷达语音与麦克风语音相融合的语音增强方法
CN110074759A (zh) * 2019-04-23 2019-08-02 平安科技(深圳)有限公司 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN110782912A (zh) * 2019-10-10 2020-02-11 安克创新科技股份有限公司 音源的控制方法以及扬声设备
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111916101A (zh) * 2020-08-06 2020-11-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
WO2022206049A1 (zh) * 2021-03-31 2022-10-06 歌尔股份有限公司 音频信号处理方法、装置、设备及存储介质
WO2022218254A1 (zh) * 2021-04-16 2022-10-20 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113724694A (zh) * 2021-11-01 2021-11-30 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3734599A1 (en) 2020-11-04
KR102456125B1 (ko) 2022-10-17
JP2021503633A (ja) 2021-02-12
EP3734599C0 (en) 2023-07-26
ES2960555T3 (es) 2024-03-05
EP3734599B1 (en) 2023-07-26
KR20200074199A (ko) 2020-06-24
US11064296B2 (en) 2021-07-13
US20200389728A1 (en) 2020-12-10
CN107910011B (zh) 2021-05-04
EP3734599A4 (en) 2021-09-01
JP7109542B2 (ja) 2022-07-29
WO2019128140A1 (zh) 2019-07-04

Similar Documents

Publication Publication Date Title
CN107910011A (zh) 一种语音降噪方法、装置、服务器及存储介质
US9818431B2 (en) Multi-speaker speech separation
US10504539B2 (en) Voice activity detection systems and methods
US10741195B2 (en) Sound signal enhancement device
CN111833896B (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN108564963B (zh) 用于增强语音的方法和装置
CN106486131B (zh) 一种语音去噪的方法及装置
KR102118411B1 (ko) 원신호 분리 시스템 및 방법
TWI442384B (zh) 以麥克風陣列為基礎之語音辨識系統與方法
CN110503970A (zh) 一种音频数据处理方法、装置及存储介质
CN106504763A (zh) 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
Maruri et al. V-Speech: noise-robust speech capturing glasses using vibration sensors
US12009006B2 (en) Audio signal processing method, apparatus and device, and storage medium
Kawase et al. Speech enhancement parameter adjustment to maximize accuracy of automatic speech recognition
JP2022547525A (ja) 音声信号を生成するためのシステム及び方法
CN108597505A (zh) 语音识别方法、装置及终端设备
CN110459241A (zh) 一种用于语音特征的提取方法和系统
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
RU2611973C2 (ru) Ослабление шума в сигнале
US12080313B2 (en) Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
CN115223584A (zh) 音频数据处理方法、装置、设备及存储介质
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
US20240005908A1 (en) Acoustic environment profile estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant