CN105723459B - 用于改进声频信号的感知的设备和方法 - Google Patents

用于改进声频信号的感知的设备和方法 Download PDF

Info

Publication number
CN105723459B
CN105723459B CN201380080873.1A CN201380080873A CN105723459B CN 105723459 B CN105723459 B CN 105723459B CN 201380080873 A CN201380080873 A CN 201380080873A CN 105723459 B CN105723459 B CN 105723459B
Authority
CN
China
Prior art keywords
equipment
noise
sound signal
relative
power converter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380080873.1A
Other languages
English (en)
Other versions
CN105723459A (zh
Inventor
比约恩·舒勒
费利克斯·威宁格
克里斯蒂安·柯斯特
彼得·格罗舍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN105723459A publication Critical patent/CN105723459A/zh
Application granted granted Critical
Publication of CN105723459B publication Critical patent/CN105723459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种用于改进声频信号(S)的感知的设备(100),所述设备包括:分离单元(10),其用于将所述声频信号(S)分离成至少一个语音分量(SC)和至少一个噪声分量(NC);以及空间呈现单元(20),其用于在通过变换器单元(30)输出时在相对于用户的第一虚拟位置(VP1)处产生所述至少一个语音分量(SC)的听觉效果且在通过所述变换器单元(30)输出时在相对于所述用户的第二虚拟位置(VP2)处产生所述至少一个噪声分量(NC)的听觉效果。

Description

用于改进声频信号的感知的设备和方法
技术领域
本申请案涉及声音产生的领域,且确切地说,涉及一种用于改进声频信号的感知的设备和方法。
背景技术
常见的音频信号由多个个别声源组成。例如,在大部分播放时间音乐录制品包括几种乐器。在语音通信的情况下,除了语音本身之外,声频信号通常包括通过同一麦克风记录的其它干扰声,例如,环境噪声或同一房间中其它人说话声。
在典型的语音通信情形中,参与者的话音使用一个或多个麦克风俘获且在信道上传输到接收器。麦克风不仅俘获所需的话音,而且还捕获不合需要的背景噪声。因此,所传输信号是语音和噪声分量的混合物。具体而言,在移动通信中,强烈的背景噪声通常会严重影响客户的体验或声音效果。
三十多年来口语交流中的噪声抑制,也称为“语音增强”已受到大量关注并且已提出多种方法来减小此类混合物中的噪声级。换句话说,此类语音增强算法用于减小背景噪声的目标。如图1中所示,给定将有噪声的语音信号(例如,语音和背景噪声的单信道混合物),即,信号S例如通过分离单元10分离,以便获得两种信号:语音分量SC,还称为“增强的语音信号”;以及噪声分量NC,还称为“估计的噪声信号”。增强的语音信号SC应该含有少于有噪声的语音信号S的噪声且提供较高的语音清晰度。在最佳情况下,增强的语音信号SC与初始干净的语音信号类似。典型的语音增强系统的输出是单信道语音信号。
例如,现有技术解决方案基于在时频域中扣除此类噪声估计量或在频谱域中估计过滤。可以通过对噪声和语音的行为,例如,平稳性或非平稳性以及统计标准,例如,最小均方差进行假设来作出这些估计。此外,例如,如在最新的方法中,这些估计可以通过从训练数据收集的知识构造,所述方法例如,非负矩阵分解(non-negative matrixfactorization,NMF)或深度神经网络。例如,非负矩阵分解基于将混合物的功率谱分解成若干频谱基础的非负组合,每一个与当前源中的一个相关联。在所有这些方法中,通过从信号S中清除噪声来实现语音信号的增强。
综上所述,这些语音增强方法将语音和噪声的单信道或多信道混合物转换成具有噪声抑制目标的单信道信号。这些系统中的大部分依赖于“背景噪声”的在线估计,所述背景噪声假设为平稳的,即,随时间推移变化缓慢。然而,在现实有噪声的环境的情况下,此假设不一定得到验证。实际上,卡车经过、关门或例如打印机等一些种类的机器的操作是非平稳噪声的实例,这些噪声在每日的语音通信中,具体而言在移动情形中经常出现并且会不利地影响用户体验或声音效果。
具体来说,在非平稳的情况下,从信号中估计此类噪声分量是易于出错的步骤。由于不完全分离,因此旨在抑制信号中含有的噪声的当前语音增强算法通常无法引起更佳的用户体验或声音效果。
发明内容
本发明的目标是提供一种声音产生的改进技术。
此目标通过独立权利要求的特征实现。另外的实施形式通过从属权利要求、说明书以及图式清楚可见。
根据第一方面,提供一种用于改进声频信号的感知的设备,所述设备包括:分离单元,用于将声频信号分离成至少一个语音分量和至少一个噪声分量;以及空间呈现单元,用于在通过变换器单元输出时在相对于用户的第一虚拟位置处产生至少一个语音分量的听觉效果且在通过变换器单元输出时在相对于用户的第二虚拟位置处产生至少一个噪声分量的听觉效果。
本发明并不旨在提供常规的噪声抑制,例如,噪声信号的纯振幅相关的抑制,而是旨在提供所估计语音和噪声的空间分布。将此种空间信息添加到声频信号允许人类听觉系统采用空间定位线索,以便分离语音和噪声源且改进声频信号的感知质量。
此外,感知质量由于在避免噪声的抑制时典型的语音增强伪声,例如,音乐噪声不太显著而得到增强。
通过使用可增强语音清晰度且减少收听者疲劳的本发明的原理来实现更自然的通信方式。
给定前景语音和背景噪声的混合物,例如,如在具有频域独立分量分析的多信道前端中呈现的混合物,电子电路用于使用语音增强的各种解决方案分离语音和噪声以获得语音和噪声信号分量,并且进一步用于使用空间音频呈现的各种解决方案来将语音和噪声分布在三维空间中的不同位置,所述空间音频呈现使用多种扩音器,即,两个或两个以上扩音器或头戴式耳机实现。
本发明有利地规定人类听觉系统可以采用空间线索分离语音和噪声。此外,在更新自然空间线索时,语音清晰度和语音质量增加并且实现更自然的语音通信。
本发明有利地恢复无法在常规的单信道通信情形下传输的空间线索。人类听觉系统可以采用这些空间线索,以便分离语音和噪声源。避免如通常通过当前的语音增强方法完成的噪声的抑制可进一步增加语音通信的质量,这是因为引入的伪声极少。
本发明有利地提供抵抗不完全分离的改进的稳定性以及与将在使用噪声抑制的情况下出现的伪声数相比出现的较少伪声。本发明可以与任何语音增强算法组合。本发明有利地可以用于语音和噪声的任意混合物且不必改变通信信道和/或语音记录。
本发明有利地提供甚至一个麦克风和/或一个传输信道的有效利用。有利的是,许多不同的呈现系统是可能的,例如,包括两个或两个以上扬声器或立体声头戴式耳机的系统。用于改进声频信号的感知的设备可以包括变换器单元或者变换器单元可以是分离单元。例如,用于改进声频信号的感知的设备可以是智能手机或平板计算机,或任何其它装置,并且变换器单元可以是集成到设备或装置中的扩音器,或变换器单元可以是外部扩音器布置或头戴式耳机。
在根据第一方面的设备的第一可能实施形式中,第一虚拟位置和第二虚拟位置是间隔开的,相对于用户跨越大于20度弧的平面角,优选地跨越大于35度弧的平面角,尤其优选地跨越大于45度弧的平面角。
这有利地允许收听者或用户感知噪声和语音信号的空间分离。
在根据第一方面本身或根据第一方面的第一实施形式的设备的第二可能实施形式中,分离单元用于确定声频信号的时频特征并且基于所确定的时频特征将声频信号分离成至少一个语音分量和至少一个噪声分量。
在信号处理时,产生时频特征的时频分析包括使用各种时频同时研究在时域和频域两者中的信号的那些技术。
在根据依据第一方面的设备的第二可能实施形式的设备的第三可能实施形式中,分离单元用于在时间窗期间和/或在频率范围内确定声频信号的时频特征。
因此,可以确定各种特征时间常数且随后用于有利地将声频信号分离成至少一个语音分量和至少一个噪声分量。
在根据第一方面的第三实施形式或根据依据第一方面的设备的第二可能实施形式的设备的第四可能实施形式中,分离单元用于基于非负矩阵分解确定时频特征,从而计算至少一个语音分量和至少一个噪声分量的基础表示。
非负矩阵分解允许通过与显现原始数据矩阵中的列相同的方式显现基础列。
在根据第一方面的第三实施形式或根据依据第一方面的设备的第二可能实施形式的设备的第五可能实施形式中,分离单元用于借助于时间序列分析相对于声频信号的平稳性分析声频信号并且基于平稳分析将声频信号分离成对应于至少一个非平稳分量的至少一个语音分量以及基于平稳分析将声频信号分离成对应于至少一个平稳分量的至少一个噪声分量。
通过时间序列分析获得的各种特征平稳特性可以用于有利地从非平稳语音分量中分离平稳噪声分量。
在根据第一方面本身或根据第一方面的以上实施形式中的任一个的设备的第六可能实施形式中,变换器单元包括相对于用户安排在不同方位角处的至少两个扩音器。
这有利地为用户提供信号分量的声音定位,即,收听者能够通过方向和距离识别所检测声音的位置或起源。
在根据第一方面本身或根据第一方面的以上实施形式中的任一个的设备的第七可能实施形式中,变换器单元包括安排在头戴式耳机中的至少两个扩音器。
这有利地提供再现立体声效果的可能性,所述立体声效果产生在空间上优于声频信号的自然收听体验。
在根据第一方面本身或根据第一方面的以上实施形式中的任一个的设备的第八可能实施形式中,空间呈现单元用于使用振幅平移和/或延迟平移以在通过变换器单元输出时在第一虚拟位置处产生至少一个语音分量的听觉效果且在通过变换器单元输出时在第二虚拟位置处产生至少一个噪声分量的听觉效果。
这有利地构成低复杂性解决方案,所述解决方案提供使用扩音器的各种不同安排来实现噪声和语音信号的感知空间分离的可能性。
在根据第一方面的第八实施形式的设备的第九可能实施形式中,空间呈现单元用于通过以对应于第一虚拟位置的第一头部相关转移函数过滤至少一个语音分量且以对应于第二虚拟位置的第二头部相关转移函数过滤至少一个噪声分量来产生用于至少两个变换器的立体声信号。
因此,虚拟位置可以跨越整个三维半球,这有利地提供自然收听体验和增强的分离。
在根据第一方面本身或根据第一方面的以上实施形式中的任一个的设备的第十可能实施形式中,第一虚拟位置由相对于参考方向的第一方位角范围界定和/或第二虚拟位置由相对于参考方向的第二方位角范围界定。
在根据第一方面的第十实施形式的设备的第十一可能实施形式中,第二方位角范围由一个整圆界定。
因此,产生非定位噪声源的感知,这有利地支持人类听觉系统中语音和噪声源的分离。
在根据第一方面的第十一实施形式的设备的第十二可能实施形式中,空间呈现单元用于获得第二方位角范围,方法是再现具有使用去相关实现的扩散特征的至少一个噪声分量。
噪声源的此扩散感知有利地促进人类听觉系统中语音和噪声源的分离。
根据第二方面,本发明涉及包括根据第一方面的以上实施形式中的任一个的设备和变换器单元的移动装置,其中变换器单元由装置的至少一对扩音器提供。
根据第三方面,本发明涉及一种用于改进声频信号的感知的方法,所述方法包括以下步骤:例如,借助于分离单元将声频信号分离成至少一个语音分量和至少一个噪声分量;以及例如,借助于空间再现单元在通过变换器单元输出时在相对于用户的第一虚拟位置处产生至少一个语音分量的听觉效果且在通过变换器单元输出时在相对于用户的第二虚拟位置处产生至少一个噪声分量的听觉效果。
在根据第三方面的方法的第一可能实施形式中,第一虚拟位置和第二虚拟位置间隔开,相对于用户跨越大于20度弧的平面角,优选地跨越大于35度弧的平面角,尤其优选地跨越大于45度弧的平面角。
本文中描述的方法、系统和装置可以实施为在数字信号处理器(Digital SignalProcessor,DSP)、微控制器或任何其它端处理器中的软件或实施为专用集成电路(application specific integrated circuit,ASIC)内或现场可编程门阵列(field-programmable gate array,FPGA)中的硬件电路,所述现场可编程门阵列是经设计以在制造之后由客户或设计者配置的因此现场可编程的集成电路。
本发明可以实施于数字电子电路或计算机硬件、固件、软件或其组合中,例如,实施于常规移动装置的可用硬件或专用于处理本文所描述的方法的新硬件中。
附图说明
将相对于以下附图描述本发明的其它实施例,其中:
图1示出将噪声语音信号分离成语音和噪声信号的常规语音增强方法的示意图;
图2示出在单信道通信情形中源定位的示意图,其中语音和噪声源位于相同方向上;
图3示出根据本发明的实施例的用于改进声频信号的感知的方法的示意框图;
图4示出根据本发明的另一实施例的包括用于改进声频信号的感知的设备的装置的示意图;以及
图5示出根据本发明的另一实施例的用于改进声频信号的感知的设备的示意图。
具体实施方式
在相关图式中,相同参考符号指代相同或至少等效元件、部件、单元或步骤。另外,应注意并不是所有附图都按比例绘制。
下文将详细参考本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整的描述。
显然,所描述的实施例仅是本发明的一些实施例,而不是全部的实施例。基于本发明的所描述的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例都属于本发明保护的范围。
在详细描述本发明的各种实施例之前,应基于图1和2描述发明人的发现。
如上文所提及,尽管语音增强是被充分研究的问题,但是当前技术仍无法提供语音/噪声混合物到干净的语音和噪声分量的完全分离。语音信号估计仍含有大部分噪声或部分语音被错误地从所估计语音信号中清除。若干原因引起此不完全分离,例如:
-来自相同方向的语音与噪声源之间的空间重叠,这通常针对扩散或环境噪声源,例如,街道噪声而发生,以及
-语音与噪声源之间的频谱重叠,例如,语音中的辅音类似于与所需前景语音重叠的白噪声或不合需要的背景语音。
使用当前技术的不完全分离的结果是,例如:
-抑制语音的重要部分,
-语音可能听起来不自然,质量受伪声影响,
-噪声仅部分得到抑制;语音信号仍含有大部分噪声和/或
-余留的噪声可能听起来不自然(例如,“音乐噪声”)。
由于不完全分离,因此旨在抑制包含于信号中的噪声的当前语音增强算法通常不会引起更佳的用户体验。尽管所得语音信号可以含有较少噪声,即,信噪比较高,但是感知质量可能由于不自然的有声语音和/或噪声而较低。而且,测量可以理解语音的程度的语音清晰度未必增加。
除了通过语音增强算法引入的问题以外,单信道语音通信存在一个基本问题:所有单信道语音信号传输从所记录的声波场景和容纳于其中的不同声波源中清除空间信息。在自然收听和通信情形下,例如扬声器的声波源以及噪声源位于3D空间中的不同位置处。人类听觉系统通过评估允许分离来自不同方向的声波源的空间线索(例如,耳间时间差和耳间声强差)而采用此空间信息。这些空间线索实际上对于人类听觉系统中声波源的分离十分重要并且在语音通信中扮演重要角色,参看所谓的“鸡尾酒会效应”。
在常规的单信道通信中,所有语音和噪声源位于相同的方向上,如图2中所说明。因此,人类听觉系统无法评估空间线索以便分离不同源。因此,通过虚线圆所说明的所有语音和噪声源位于相对于具有头戴式耳机作为变换器单元30的用户的参考方向RD的相同的方向上,如图2中所说明。因此,用户的人类听觉系统无法评估空间线索以便分离不同源。这降低了感知质量且具体而言降低了在有噪声环境中的语音清晰度。
本发明的实施例基于以下发现:所估计语音和噪声的空间分布(而不是抑制)允许改进有噪声的语音信号的感知质量。
空间分布用于将语音源和噪声源置于不同位置处。用户使语音和噪声源定位成来自不同方向,如将基于图5更详细地阐述。与旨在抑制噪声的常规的语音增强算法相反,此方法具有两个主要优点。第一,为了分离语音和噪声源而,不包含在单信道混合物中的空间信息被添加到允许人类听觉系统采用空间定位线索的信号。第二,感知质量得到增强,这是由于在避免噪声的抑制时典型的语音增强伪声不太显著,例如,音乐噪声不太显著。通过使用可促进语音清晰度且减少收听疲劳的本发明来实现更自然的通信方式。
图3示出根据本发明的实施例的用于改进声频信号的感知的方法的示意框图。
用于改进声频信号的感知的方法可以包括以下步骤:
作为所述方法的第一步骤,执行例如,借助于分离单元10将声频信号S分离S1成至少一个语音分量(speech component,SC)和至少一个噪声分量(noise component,NC),例如,如基于图1所描述。
作为所述方法的第二步骤,当通过变换器单元30输出时,例如,借助于空间再现单元20执行在相对于用户的第一虚拟位置VP1处产生S2至少一个语音分量SC的听觉效果。此外,当通过变换器单元30输出时,例如,借助于空间呈现单元20执行在相对于用户的第二虚拟位置VP2处产生至少一个噪声分量NC。
图4示出根据本发明的另一实施例的包括用于改进声频信号的感知的设备的装置的示意图。
图4示出用于改进声频信号S的感知的设备100。设备100包括分离单元10和空间再现单元20以及变换器单元30。
分离单元10用于将声频信号S分离成至少一个语音分量SC和至少一个噪声分量NC。
空间呈现单元20用于在通过变换器单元30输出时在相对于用户的第一虚拟位置VP1处产生至少一个语音分量SC的听觉效果且在通过变换器单元30输出时在相对于用户的第二虚拟位置VP2处产生至少一个噪声分量NC的听觉效果。
任选地,在本发明的一个实施例中,设备100可以实施成或集成到用于声音产生的任何种类的移动或便携式或平稳装置200中,其中设备100的变换器单元30由至少一对扩音器提供。变换器单元30可以是设备100的一部分(如图4中所示)或装置200的一部分(即,集成到设备100或装置200中)或分离装置,例如,分离的扩音器或头戴式耳机。
设备100或装置200可以构造为所有种类的基于语音的通信终端,其具有例如使用多个扩音器或常规头戴式耳机将声波源置于收听者周围的空间中的构件。具体而言,移动装置、智能电话和平板计算机可以用作通常用于有噪声的环境中且因此受背景噪声影响的设备100或装置200。此外,设备100或装置200可以是电话会议产品,具体而言,以免提模式为特征。
图5示出根据本发明的另一实施例的用于改进声频信号的感知的设备的示意图。
设备100包括分离单元10和空间呈现单元20,并且可以任选地包括变换器单元30。
分离单元10可以耦合到空间呈现单元20,所述空间呈现单元耦合到变换器单元30。如图5中所说明的变换器单元30包括安排在头戴式耳机中的至少两个扩音器。
如基于图1所说明,声频信号S可以包括多种语音和/或噪声信号的混合物或不同源的分量。然而,例如,所有多种语音和/或噪声信号通过单个麦克风或任何其它变换器实体变换,例如,通过如图1所示的移动装置的麦克风变换。
呈现通过虚线圆表示的一个语音源,例如人类话音以及未进一步定义的一个噪声源并且这些源通过单个麦克风变换。
在本发明的一个实施例中,分离单元10适用于应用常规的语音增强算法以在时频域中将噪声分量NC与语音分量SC分离,或在频谱域中应用对过滤的估计。可以通过对噪声和语音的行为,例如,平稳性或非平稳性以及统计标准,例如,最小均方差进行假设来作出这些估计。
时间序列分析是关于通过时间收集的数据的研究。平稳过程是其统计特性并不随时间推移变化或假设不随时间推移变化的过程。
此外,语音增强算法可以通过从训练数据收集的知识构造,例如,非负矩阵分解或深度神经网络。
可以在若干秒的间隔期间观察噪声的平稳性。由于语音在此类间隔中是非平稳的,因此可以仅通过对观察到频谱进行平均来估计噪声。或者,话音活动检测可以用于找到其中讲话者沉默而仅呈现噪声的部分。
在获得噪声估计后,可以通过例如最小统计量的标准或最小化均方差在线重新估计噪声以更佳地拟合观察结果。随后从语音和噪声的混合物中减去最终噪声估计以获得语音分量和噪声分量的分离。
因此,语音估计和噪声估计总计等于原始信号。
空间呈现单元20用于在通过变换器单元30输出时在相对于用户的第一虚拟位置VP1处产生至少一个语音分量SC的听觉效果且在通过变换器单元30输出时在相对于用户的第二虚拟位置VP2处产生至少一个噪声分量NC的听觉效果。
任选地,在本发明的一个实施例中,第一虚拟位置VP1和第二虚拟位置VP2间隔某一距离,因此相对于用户跨越大于20度弧,优选地大于35度弧,尤其优选地大于45度弧的平面角α。
设备100的替代实施例可以包括或连接到变换器单元30,所述变换器单元包括相对于用户和参考方向RD安排在不同方位角处的至少两个扩音器,而不是头戴式耳机。
任选地,第一虚拟位置VP1由相对于参考方向RD的第一方位角范围α1界定和/或第二虚拟位置VP2由相对于参考方向RD的第二方位角范围α2界定。
换句话说,第一虚拟位置VP1的虚拟空间维度或虚拟空间扩展和/或第二虚拟位置VP2的空间扩展分别对应于第一方位角范围α1和/或第二方位角范围α2。
任选地,第二方位角范围α2由一个整圆界定,换句话说,第二虚拟位置VP2的虚拟位置是扩散的或非离散的,即,普遍存在的。相反地,第一虚拟位置VP1可以高度局域化,即,受限于小于5°的平面角。这有利地提供噪声源与语音源之间的空间对比度。
任选地,空间呈现单元20可以用于获得第二方位角范围α2,方法是再现具有使用去相关实现的扩散特征的至少一个噪声分量NC。
设备100和所述方法提供所估计语音和噪声的空间分布。空间分布用于将语音源和噪声源置于不同位置处。用户使语音和噪声源定位成来自不同方向,如图5中所说明。
任选地,在本发明的一个实施例中,使用基于扩音器和/或头戴式耳机的变换器单元30:可以使用包括相对于收听者处于至少两个不同位置中,即,处于至少两个不同方位角的扩音器的扩音器设定。
任选地,在本发明的一个实施例中,提供具有置于-30度和+30度的两个扬声器的立体声设定。围绕扩音器设定的标准5.1允许使源位于整个方位平面中。随后,使用振幅平移,例如,使用向量基础振幅平移(Vector Base Amplitude Panning,VBAP)和/或延迟平移,这有助于将语音和噪声源定位成处于扬声器之间的任意位置处的方向性源。
为了在人类听觉系统中实现更佳语音/噪声分离的所需效果,源应该至少分离约20度。
任选地,在本发明的一个实施例中,进一步处理噪声源分量以便实现扩散源的感知。扩散源在不具有任何方向性信息的情况下由收听者感知;扩散源来自“各处”;收听者不能够定位扩散源。
这个想法是如先前所描述在空间中的特定位置处再生语音源作为方向性源并且再生噪声源作为不具有任何方向的扩散源。这样模拟其中噪声源与向噪声源提供扩散特征的语音源相比通常更远地定位的自然收听环境。因此,提供人类听觉系统中的更佳源分离性能。
通过首先对噪声源进行去相关且在围绕收听者的多个扬声器上播放噪声源而获得扩散特征。
任选地,在本发明的一个实施例中,当使用具有串音消除的头戴式耳机或扩音器时,可以向用户呈现立体声信号。这些具有类似非常自然的三维收听体验的优点,其中声波源可以全部围绕收听者放置。声波源的放置通过以头部相关转移函数(Head RelatedTransfer Function,HRTF)过滤信号而获得。
任选地,在本发明的一个实施例中,语音源作为前端方向性源放置且噪声源作为来自周围的扩散源放置。此外,去相关和HRTF过滤用于噪声获得扩散源特征。执行一般的扩散声源呈现方法。
呈现语音和噪声,使得用户在不同方向上感知所述语音和噪声。噪声源的扩散场呈现可以用于增强人类听觉系统中的可分性。
在其它实施例中,分离单元可以是分离器,空间呈现单元可以是空间分离器且变换器单元可以是变换器布置。
通过阅读以上内容,本领域的技术人员将清楚地了解,可提供多种方法、系统、记录媒体上的计算机程序及其类似者。
本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品,这些计算机可执行代码或计算机可执行指令在执行时使得至少一个计算机执行本文所述的执行和计算步骤。
根据上述教示,对于本领域技术人员来说,许多替代方案、修改和变体是显而易见的。当然,本领域的技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其它应用。
虽然已参考一个或多个特定实施例描述了本发明,但本领域的技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。
在权利要求书中,词语“包括(comprising)”不排除其它元素或步骤且不定冠词“一(a)”或“一个(an)”不排除多个。单一处理器或其它单元可满足权利要求书中所叙述的若干项目的功能。
在彼此不同的附属权利要求中叙述某些措施这一单纯事实并不指示这些措施的组合不能被有效地使用。计算机程序可以存储或分布在合适的媒体上,例如与其它硬件一起或者作为其它硬件的部分供应的光存储媒体或固态媒体,还可以以其它形式例如通过因特网或者其它有线或无线电信系统分布。

Claims (15)

1.一种用于改进声频信号S的感知的设备(100),其特征在于,所述设备包括:
分离单元(10),其用于将所述声频信号S分离成至少一个语音分量SC和至少一个噪声分量NC;以及
空间呈现单元(20),其用于在通过变换器单元(30)输出时在相对于用户的第一虚拟位置VP1处产生所述至少一个语音分量SC的听觉效果且在通过所述变换器单元(30)输出时在相对于所述用户的第二虚拟位置VP2处产生所述至少一个噪声分量NC的听觉效果;
所述第一虚拟位置VP1由相对于参考方向RD的第一方位角范围(α1)界定和/或所述第二虚拟位置VP2由相对于所述参考方向RD的第二方位角范围(α2)界定。
2.根据权利要求1所述的设备(100),其特征在于,所述第一虚拟位置VP1和所述第二虚拟位置VP2间隔开,相对于所述用户跨越大于20度弧的平面角(α),优选地跨越大于35度弧的平面角(α),尤其优选地跨越大于45度弧的平面角(α)。
3.根据权利要求1或2所述的设备(100),其特征在于,所述分离单元(10)用于确定所述声频信号S的时频特征并且基于所述所确定的时频特征将所述声频信号S分离成所述至少一个语音分量SC和所述至少一个噪声分量NC。
4.根据权利要求3所述的设备(100),其特征在于,所述分离单元(10)用于在时间窗期间和/或频率范围内确定所述声频信号S的所述时频特征。
5.根据权利要求3所述的设备(100),其特征在于,所述分离单元(10)用于基于非负矩阵分解确定所述时频特征,从而计算所述至少一个语音分量SC和所述至少一个噪声分量NC的基础表示。
6.根据权利要求3所述的设备(100),其特征在于,所述分离单元(10)用于借助于时间序列分析相对于所述声频信号S的平稳性分析所述声频信号S,并且基于所述平稳分析将所述声频信号S分离成对应于至少一个非平稳分量的所述至少一个语音分量SC以及基于所述平稳分析将所述声频信号S分离成对应于至少一个平稳分量的所述至少一个噪声分量NC。
7.根据以上权利要求1至2中的一项所述的设备(100),其特征在于,所述变换器单元(30)包括相对于所述用户安排在不同方位角处的至少两个扩音器。
8.根据以上权利要求1至2中的一项所述的设备(100),其特征在于,所述变换器单元(30)包括安排在头戴式耳机中的至少两个扩音器。
9.根据以上权利要求1至2中的一项所述的设备(100),其特征在于,所述空间呈现单元(20)用于使用振幅平移和/或延迟平移以在通过所述变换器单元(30)输出时在所述第一虚拟位置VP1处产生所述至少一个语音分量SC的所述听觉效果且在通过所述变换器单元(30)输出时在所述第二虚拟位置VP2处产生所述至少一个噪声分量NC的所述听觉效果。
10.根据权利要求9所述的设备(100),其特征在于,所述空间再现单元(20)用于通过以对应于所述第一虚拟位置VP1的第一头部相关转移函数过滤所述至少一个语音分量SC且以对应于所述第二虚拟位置VP2的第二头部相关转移函数过滤所述至少一个噪声分量NC来产生用于所述至少两个变换器的立体声信号。
11.根据权利要求1所述的设备(100),其特征在于,所述第二方位角范围(α2)由一个整圆界定。
12.根据权利要求11所述的设备(100),其特征在于,所述空间呈现单元(20)用于获得所述第二方位角范围(α2),方法是再现具有使用去相关的扩散特征的所述至少一个噪声分量NC。
13.一种包括根据权利要求1至12中的一项所述的设备(100)的装置(200),其特征在于,所述设备(100)的所述变换器单元(30)由所述装置(200)的至少一对扩音器提供。
14.一种用于改进声频信号S的感知的方法,其特征在于,所述方法包括以下步骤:
借助于分离单元(10)将所述声频信号S分离S1成至少一个语音分量SC和至少一个噪声分量NC;以及
借助于空间呈现单元(20)在通过变换器单元(30)输出时在相对于用户的第一虚拟位置VP1处产生S2所述至少一个语音分量SC的听觉效果且在通过所述变换器单元(30)输出时在相对于所述用户的第二虚拟位置VP2处产生S2所述至少一个噪声分量NC的听觉效果;
所述第一虚拟位置VP1由相对于参考方向RD的第一方位角范围(α1)界定和/或所述第二虚拟位置VP2由相对于所述参考方向RD的第二方位角范围(α2)界定。
15.根据权利要求14所述的方法,其特征在于,所述第一虚拟位置VP1和所述第二虚拟位置VP2间隔开,相对于所述用户跨越大于20度弧的平面角(α),优选地跨越大于35度弧的平面角(α),尤其优选地跨越大于45度弧的平面角(α)。
CN201380080873.1A 2013-11-15 2013-11-15 用于改进声频信号的感知的设备和方法 Active CN105723459B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2013/073959 WO2015070918A1 (en) 2013-11-15 2013-11-15 Apparatus and method for improving a perception of a sound signal

Publications (2)

Publication Number Publication Date
CN105723459A CN105723459A (zh) 2016-06-29
CN105723459B true CN105723459B (zh) 2019-11-26

Family

ID=49622814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380080873.1A Active CN105723459B (zh) 2013-11-15 2013-11-15 用于改进声频信号的感知的设备和方法

Country Status (4)

Country Link
US (1) US20160247518A1 (zh)
EP (1) EP3005362B1 (zh)
CN (1) CN105723459B (zh)
WO (1) WO2015070918A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
GB2552178A (en) * 2016-07-12 2018-01-17 Samsung Electronics Co Ltd Noise suppressor
US11386913B2 (en) 2017-08-01 2022-07-12 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
CN107578784B (zh) * 2017-09-12 2020-12-11 音曼(北京)科技有限公司 一种从音频中提取目标源的方法及装置
US10811030B2 (en) * 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments
CN111063367B (zh) * 2019-12-13 2020-12-11 科大讯飞(苏州)科技有限公司 语音增强方法、相关设备及可读存储介质
WO2023272575A1 (en) * 2021-06-30 2023-01-05 Northwestern Polytechnical University System and method to use deep neural network to generate high-intelligibility binaural speech signals from single input

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529246A (zh) * 2003-09-28 2004-09-15 王向阳 基于听觉特性与整型提升小波的数字音频水印嵌入与检测方法
BE1015649A3 (fr) * 2003-08-18 2005-07-05 Bilteryst Pierre Jean Edgard C Systeme de reproduction acoustique tridimensionnelle d'une source originelle monophonique.
CN101263739A (zh) * 2005-09-13 2008-09-10 Srs实验室有限公司 用于音频处理的系统和方法
CN101690149A (zh) * 2007-05-22 2010-03-31 艾利森电话股份有限公司 用于群组声音远程通信的方法和装置
EP2217005A1 (en) * 2009-02-06 2010-08-11 Sony Corporation Signal processing device, signal processing method and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901363B2 (en) * 2001-10-18 2005-05-31 Siemens Corporate Research, Inc. Method of denoising signal mixtures
DE102007008739A1 (de) * 2007-02-22 2008-08-28 Siemens Audiologische Technik Gmbh Hörvorrichtung mit Störsignaltrennung und entsprechendes Verfahren
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20120114130A1 (en) * 2010-11-09 2012-05-10 Microsoft Corporation Cognitive load reduction
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1015649A3 (fr) * 2003-08-18 2005-07-05 Bilteryst Pierre Jean Edgard C Systeme de reproduction acoustique tridimensionnelle d'une source originelle monophonique.
CN1529246A (zh) * 2003-09-28 2004-09-15 王向阳 基于听觉特性与整型提升小波的数字音频水印嵌入与检测方法
CN101263739A (zh) * 2005-09-13 2008-09-10 Srs实验室有限公司 用于音频处理的系统和方法
CN101690149A (zh) * 2007-05-22 2010-03-31 艾利森电话股份有限公司 用于群组声音远程通信的方法和装置
EP2217005A1 (en) * 2009-02-06 2010-08-11 Sony Corporation Signal processing device, signal processing method and program

Also Published As

Publication number Publication date
EP3005362B1 (en) 2021-09-22
US20160247518A1 (en) 2016-08-25
WO2015070918A1 (en) 2015-05-21
EP3005362A1 (en) 2016-04-13
CN105723459A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105723459B (zh) 用于改进声频信号的感知的设备和方法
CN105900457B (zh) 用于设计和应用数值优化的双耳房间脉冲响应的方法和系统
CN105378826B (zh) 音频场景装置
CA2820376C (en) Apparatus and method for decomposing an input signal using a downmixer
CN105578379B (zh) 用于产生具有至少两个输出通道的输出信号的装置和方法
KR20080078882A (ko) 입체 오디오 신호 디코딩
TW201727623A (zh) 聲場增強裝置及方法
CN103165136A (zh) 音频处理方法及音频处理设备
He et al. Linear estimation based primary-ambient extraction for stereo audio signals
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
US20160044432A1 (en) Audio signal processing apparatus
Christensen et al. A speech fragment approach to localising multiple speakers in reverberant environments
Corey Microphone array processing for augmented listening
He et al. Primary-ambient extraction using ambient spectrum estimation for immersive spatial audio reproduction
Hsu et al. Model-matching principle applied to the design of an array-based all-neural binaural rendering system for audio telepresence
Westhausen et al. Binaural multichannel blind speaker separation with a causal low-latency and low-complexity approach
CN109036456B (zh) 用于立体声的源分量环境分量提取方法
Alonso-Martınez Improving Binaural Audio Techniques for Augmented Reality
Salmon et al. The influence of the sound source on perceived differences between binaurally rendered sound spaces
JP2014239269A (ja) 音声信号再生装置及び方法
KR100932791B1 (ko) 음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법
Nikunen et al. Binaural rendering of microphone array captures based on source separation
CN116456263A (zh) 一种音频信号转换方法、装置和设备
Usagawa et al. Binaural speech segregation system on single board computer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant