CN104205212A - 听觉场景中的讲话者冲突 - Google Patents

听觉场景中的讲话者冲突 Download PDF

Info

Publication number
CN104205212A
CN104205212A CN201380015383.3A CN201380015383A CN104205212A CN 104205212 A CN104205212 A CN 104205212A CN 201380015383 A CN201380015383 A CN 201380015383A CN 104205212 A CN104205212 A CN 104205212A
Authority
CN
China
Prior art keywords
signal
voice signal
talker
voice
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380015383.3A
Other languages
English (en)
Other versions
CN104205212B (zh
Inventor
加里·施皮特勒
迈克尔·奥利耶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN104205212A publication Critical patent/CN104205212A/zh
Application granted granted Critical
Publication of CN104205212B publication Critical patent/CN104205212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Stereophonic System (AREA)

Abstract

在多个接收的语音信号中,检测信号区间,在该信号区间中至少在第一语音信号与第二语音信号之间存在讲话者冲突。处理器接收肯定的检测结果,并且响应于此对语音信号中的至少一个进行处理,使得该至少一个语音信号感知上可辨识。混合器对语音信号进行混合以提供输出信号,其中经处理的信号代替相应的接收信号。在示例实施方式中,在频率上或时间上将信号内容移动远离讲话者冲突。本发明在会议系统中有用。

Description

听觉场景中的讲话者冲突
相关申请的交叉引用
本申请要求于2012年3月23日提交的序列号为61/614,577的美国临时专利申请的优先权,其全部内容通过引用合并到本申请中。
技术领域
本文所公开的本发明一般地涉及音频通信技术,并且更确切地涉及使得两个或更多个语音信号能够在保持每个信号的清晰度的同时被组合的方法。当前意图将本发明应用于包括会议端点的下述语音通信设备:预期在该语音通信设备中会出现讲话者冲突。
背景技术
多方语音通信系统,例如数字语音会议或模拟语音会议或视频会议系统,对源于不同系统端点的现场信号进行混合(例如组合,具体地通过加性混合)来近似当所有通信方出现在一个位置时会被听到的声音。通常的经验是—并且部分地因为各方仅能够通过声音或有限的视角进行交互—与在现实谈话中相比,语音较难分离并且更难理解。具体地,讲话者冲突可能会更频繁。
US2008/144794涉及在在线会议中分离发言者的问题。根据该申请,可以通过以下来减轻该问题:在概念上将发言者置于虚拟环境中,并且通过根据发言者在虚拟环境中的原点将空间线索添加至语音信号,来模拟发言者相对于收听者的距离、方位角和仰角。在US2008/144794中讨论的空间线索(spatial cue)包括:总强度、耳间强度比率、直达声与反射声的比率、头影方位效果、耳廓引起的频率滤波(pinna-induced frequencyfiltering)以及类似的单耳和双耳效果。人们所熟知的是,如果发言者(看上去)在空间中被分离开,则人类的听觉会更容易地解决话音冲突。
期望进一步发展增强混合语音信号中的话音的清晰度的技术。
附图说明
现将参考附图对本发明的示例实施方式进行描述,其中:
图1是根据本发明的示例实施方式的语音信号混合器的一般化框图;
图2示出了包括图1的语音信号混合器的语音通信系统;
图3是在正发生讲话者冲突的时间段内所记录的声谱图(0.6秒×21000HZ),其中示出了可以用来增加每个语音的清晰度的三个校正动作;以及
图4是示意性示出了具有讲话者冲突的时间段,以及尽管有冲突却仍易于保持清晰度的两个时移操作的波形图。
所有的图都是示意性的,并且为了阐明本发明通常仅示出了所需的部分,而其他部分可以被省略或仅被暗示。除非另外指出,否则在不同图中相同的附图标记指代相同的部分。
具体实施方式
Ⅰ.概要
本发明的目的在于提高混合信号中语音信号的清晰度。具体地,一个目的在于改善预计会影响收听者的以下能力的条件:对混合信号所携带的口头自然语言进行解码的能力。另一个目的在于减轻混合语音信号中的讲话者冲突。本发明的又一个目的在于减少混合语音信号中同时话音的不利影响。
因此,本发明的示例实施方式提供了具有独立权利要求中所提出的特征的方法、设备和计算机程序产品。
在示例实施方式中,系统节点接收具有公共时间基础的语音信号。节点检测其中存在着涉及两个或更多个语音信号的讲话者冲突的信号区间。由于公共时间基础,所以是关于第一语音信号还是第二语音信号还是其他语音信号之一来表达所述区间无关紧要。如果检测到讲话者冲突,节点对语音信号之一(在权利要求中称为“第一”语音信号)进行处理,以使该语音信号在感知上可辨识。经处理的第一信号代替所接收的第一信号作为后续混合阶段的输入,后续混合阶段提供来自节点的输出信号。
公共时间基础可以与以下数据分组结合:该数据分组用于发送到来的语音信号的数据,并且用于携带将该数据分组与全系统的主时钟时间相关联的时间戳。因此,可以通过对携带分组的时间戳的数据字段进行解析(或读取)来将特定的分组与时间基准中的点或区间相关联。可替代地,公共时间基础由同步信号来指示。进一步可替代地,时间基准不依赖于到来的语音信号中的信息。而是,通过以暗示了信号之间的同步关系的连续方式对来自每个语音信号的等长的并行段进行组合,来混合语音信号(其中段可以例如与一个数据分组对应)。从而,通过选择开始点(例如,初始数据分组)获取了输出信号的每个不间断的段,之后在没有时间拉伸或时间压缩的情况下对段进行正常组合,使得所有段具有相等的长度,例如20ms。然后,语音信号段的相对位置表示公共时间基础。
在分组化的语音信号中,其中检测到讲话者冲突的信号区间可能与全部数据分组的集合相对应。
节点可以被配置成:在两个或更多个语音信号中检测同时语音活动。所寻找的同时语音活动相对于公共时间基础同时发生。更受限的检测准则可以是在每个信号的特定频率范围内寻找同时语音活动。可替代地或另外地,节点考虑具有同时语音活动的区间,并且在这些区间内应用至少再一个另外的检测准则,该另外的检测准则是从已知指示清晰度问题的语音信号特征中选择的,例如出现音素的某些组合、浊音话音和清音话音的组合等。
对第一语音信号的处理的主要目标之一是使信号更加可辨识。因此,通过处理,尽管有来自冲突信号的干扰,但信号内容仍然可能辨别。处理可以包括:以第一信号与和它冲突的信号较大程度地不同的方式来改变第一信号的属性。可替代地或另外地,它可以包括:以冲突不太严重并且信息丢失变得不太可能的方式来改变信号内容。根据前一种方法,混合信号可能包含与未处理时相同量的讲话者冲突(并且具有相同的严重性),但是已经提供了以下线索:该线索预期会简化负责将采集的声波解码成语言的认知处理。与之相反,后一种方法不依赖于人脑的认知能力,而是被期望演绎地减少混合信号中重叠内容的量。
对第一语音信号的处理可以仅发生在包含讲话者冲突的信号区间内。可替代地,处理可以涉及包含该冲突区间的更大区间。特别地,如果将特定的效果应用于冲突区间,则处理可以包括:随着时间逐渐转变,使得能够进行效果的平滑开始和平滑释放。
本示例实施方式选择性地应用处理,并且因此可以实现本发明的至少一个目的。更确切地讲,因为处理被限制于实际上需要该处理的时间段,所以可以应用更有目标性的处理。此外,因为对于感知到的音频品质任何不利的副作用被限制在这些区间中,所以节点可以使用更激进并且可能更高效的处理技术。
在进一步发展了前一实施方式的示例实施方式中,处理包括:从来自第一信号的所检测的信号区间(即,其中发生讲话者冲突)获得信号内容,并且将该内容时移到第一信号的不同区间。下面将会更加详细地论述对于时移实施方式和频移实施方式两者的合适的目标位置的选择。
在这方面,通过相对于公共时间基础对信号内容进行时间拉伸就可以实现时移。为了实现前向移动,延伸到所检测的区间中参考点的近似位置(例如,区间的开始、中点、结束)的信号的段经历负的时间拉伸(即,延迟),和/或从所检测的区间中参考点的近似位置起延伸的段经历正的时间拉伸(即,加速)。为了实现后向移动,正的时间拉伸段先于负的时间拉伸段。在任一种情况下,正的拉伸和负的拉伸可以抵消,使得净时间拉伸接近于零。优选地,拉伸的量随时间逐渐变化,以使处理不太明显。优选地,拉伸不改变第一信号的音调。
可替代地,可以通过将所检测的区间中的信号内容复制到邻近的信号区间来实现时移。该邻近的信号区间无需与所检测的信号区间相邻,但是优选地位于其附近,正常情况下对于快的语速(高至大约10个英语音节每秒),优选地,该邻近区间位于距所检测的区间最多50ms。优选地,如果预期更高的语速,则最大持续时间被进一步减少到例如25ms。对信号内容的复制可能伴随着在所检测的区间中对该信号内容的去除或衰减(例如,缩减)。优选地,衰减是逐渐的,使其最大地缩减的部分位于所检测的区间中,以便避免突然的转变。从所检测的区间中提取的信号内容可以通过加性混合而被复制到邻近区间。例如,在变换编码的信号中,可以将变换系数值添加到已经存在于邻近区间中的那些。另外地或可替代地,在对变换系数增加了所提取的信号内容之前可以对已经存在于邻近区间中的信号内容进行预衰减。再次,为了促进平滑地转变出入邻近区间,所复制的信号内容的开始和/或释放,以及邻近区间的预衰减,都随时间逐渐进行。如果在邻近区间和所检测的区间之间第一信号中没有显著的音调变动,这种类型的时移技术特别有用。,在清音(或无音调或噪音)话音占优势的区间中使用这种技术也是有利的,例如可以通过缺少占优势的基本音调频率来证明。
在示例实施方式中,处理包括:从第一信号获得所检测的信号区间中(即,其中发生讲话者冲突)的信号内容,并且将该内容频移到第一信号的不同区间。频移可以可选地与信号内容的时移相组合。优选地,频移随着时间逐渐地进行。例如移动可以包括:斜上升(ramp-up)阶段、恒定阶段和斜下降(ramp-down)阶段。在斜上升阶段和斜下降阶段中,频移可以随着时间以对数频率单位线性地变化。为了防止频移太明显,优选地,最大频移不要超过倍频,并且更优选地,小于倍频的四分之一。
现在参考包括时移或频移的所有上述示例实施方式。移动可以影响所检测的信号区间中的全部信号内容,或者可替代地可以被限制到有限的频率范围或频率子范围的并集。特别地,该移动可以将信号内容从讲话者冲突位置移动到第一信号中的目标位置,预期在该目标位置处与其它信号的信号内容以较小程度发生冲突。
另外地或可替代地,根据由第一语音信号携带的语言结构对所检测的信号区间进行调整。特别地,可以将第一信号分割(例如,在包括所检测的信号区间的部分中)成音素。用于音素分割的计算机辅助方法在自然语言处理中本来就已知。音素分割算法可以用因素边界来注解第一语音信号;在分组化的语音信号中,音素边界可以例如与分组边界一致。基于该信息,按照所检测的信号区间仅覆盖全部音素的方式,对所检测的信号区间的左端点进行延伸或截断,以及对所检测的信号区间的右端点进行延伸或截断。换言之,在上述延伸和/或截断之后,所检测的信号区间的端点与音素边界的近似位置一致。此种调节被认为使得时移或频移较不明显。
在示例实施方式中,对讲话者冲突的检测基于的是针对每个语音信号每频带的能量含量的指示。在表示语音信号的比特流中可以很容易地获得能量指示,例如,可以从比特流中的数据字段读取能量指示。可替代地,基于表示语音信号的量(例如变换系数序列)来计算能量指示。指示的计算可以包括根据听觉灵敏度曲线进行加权。基于能量含量指示,检测可以应用以下条件:该条件包括在第一语音信号和第二语音信号(即,涉及讲话者冲突的信号)中具有相当的能量含量。发现这样的相当的能量含量的位置在权利要求中被称为讲话者冲突位置。例如,它可以被表示为时间频率平面中的矩形;优选地,它与以下区域在时间频率平面中具有相同的形状和大小:对于该区域,发现满足检测条件。可以认为具有相当的能量含量的条件等同于在第一信号的能量含量指示与第二信号的能量含量指示之间具有有限的差异。发明人已经意识到在两个混合信号中相当的信号能量的出现可能与清晰度减小的位置相对应。
在上述示例实施方式的进一步发展中,相当能量条件与另外的条件组合,依据能量含量指示将该另外的条件公式化。该另外的条件可以保证:对于所有冲突信号,能量含量指示将超过预定阈值。发明人意识到:讲话者冲突在信号功率低的时间段(的频率范围)中一般不太令人烦扰;这样的讲话者冲突可以不被校正,而没有明显损害。
优选地,上面提到的能量含量指示取决于频率。因此,它不仅允许对总信号能量值进行比较,而且允许对给定频带的信号能量值单独进行比较。特别地,语音信号可以被分割成时间频率片(tile)。片可以是信号的时间帧中多个预定频率区(bin)中的一个。在此上下文中,可以将一个或更多个检测准则应用于相应片的组,即,属于不同语音信号并且具有相应的时间坐标和频率坐标的片。因此,时间频率片是基本检测单元,并且因此是检测的分辨率。因此,讲话者冲突位置由一个或更多个时间频率片组成。特别地,可以针对每个时间频率片来计算能量含量指示的值。
再参考上述包括时移或频移的示例实施方式。有利地,可以将最小能量含量的条件(例如,根据上面论述的能量含量指示)用于从涉及讲话者冲突的多个语音信号中选择要经受处理的语音信号。发明人意识到:该条件能够产生较不明显的时移和/或频移。可替代地,如接下来要论述的,可以通过相对更有利的目标位置的可用性来指导该信号选择。
此外,可以获取目标位置作为检测讲话者冲突的处理的副产品,其中所检测的区间中的频谱内容被移动至该目标位置。可以将目标位置表示为第一语音信号的频率区间(或频率子范围)和时间区间的组合。更确切地讲,检测处理可以被配置成返回目标位置,该目标位置接近于讲话者冲突位置并且其中检测条件未达成。由于条件未达成,目标位置必然与讲话者冲突位置不同。为了使时移或频移尽可能不明显,优选地,目标位置要被局限在距讲话者冲突位置尽可能近的位置。检测处理可以被配置成:寻找具有相同时间区间(即,纯频移)或具有相同频率区间(即,纯时移)的目标位置。另外地或可替代地,检测处理可以被配置成:考虑具有一致的时间区间或一致的频率区间的目标位置。区间的一致性可能需要具有相等的长度。特别地,两个频率区间的一致性可能需要具有以对数频率单位的相等长度,例如倍频(octave)或十倍频(decade)。
在与上述段落中描述的类似的背景下,检测处理可以返回多于一个候选目标位置。然后,可以使用根据移动距离度量的条件来从候选目标位置中选择目标位置,其中将讲话者冲突位置移动到该目标位置是最合适的。移动距离度量可以是时移距离和频移距离的组合,例如Pythagorean距离。就此而言,可以用线性单位或对数单位来表达频移。可替代地,可以对频移贡献进行感知地加权,例如,作为被绘制为线性或对数频率单位的函数的听觉灵敏度曲线的相关片段下面的区域。考虑到至少如果移动量大,则频移通常计算上更复杂并且发声不自然,所以与时移贡献相比,可以给频移对于移动距离度量的贡献相对较高的权重。可以应用该条件的简化版本来选择要求正的纯时移(或频移)的目标位置或者要求负的纯时移(或频移)的目标位置:选择要求最短移动量(按秒、Hz、倍频程等)的目标位置。此外,可以使用目标位置的可用性以及它们相关联的移动距离度量来从两个或更多个要经受处理的冲突语音信号中选择语音信号。换言之,在根据移动距离度量识别并且评估了目标位置之后,可以分配作为“第一语音信号”的状态。如上面所提到的,移动距离度量可以反映对于与频移相关的时移给予的任何优选选择,使得选择要经受处理的信号会考虑到预期移动会有多明显。这可能进一步促进时移或频移的感知上的谨慎。
在示例实施方式中,通过应用谐波激励、振荡效果、震音(tremolo)、颤音(vibrato)、合唱(chorus)、镶边(flanging)和移相(phasing)中的一个对第一语音信号进行处理,来处理所检测到的讲话者冲突。处理可能影响多于一个信号,但是为了提升信号的清晰度,处理优选地不影响所有语音信号。例如,该实施方式可以包括形成第一组语音信号和第二组语音信号,其中第一组而不是第二组要经受处理。优选地,已经检测到讲话者冲突的两个语音信号被分配到不同的组。因此,由于处理,冲突信号可以变得更有区别并且更容易辨识。
在示例实施方式中,用于混合语音信号同时减轻讲话者冲突的设备包括冲突检测器、处理器和混合器。处理器用于可操作地响应于肯定的检测结果而对一个或更多个语音信号进行处理;混合器用于将语音信号组合成输出信号。已经经过处理的任何语音信号代替接收的相同语音信号作为混合器的输入。可选地,设备包括接收语音信号的接口;进一步可选地,设备包括提供由混合器生成的输出信号的接口。
在示例实施方式中,将上面描述的特征的组合部署在现场会议系统,即实时运行的会议系统中。
从属权利要求限定了本发明的示例实施方式,下面将对其进行更详细的描述。应当注意,本发明涉及特征的所有组合,即使在不同权利要求中引用所述特征。
Ⅱ.示例实施方式
图1示出了根据本发明的示例实施方式的语音信号混合装置100。输入语音信号i1、i2、i3、i4在接口101处被接收。接口101可以是朝向分组交换网(未示出)的网络接口,混合装置100从接口101接收作为分组化比特流的输入语音信号。在混合装置100中,将每个输入语音信号i1、i2、i3、i4提供给冲突检测器102、混合器104和选择器105,该选择器105可操作地将所选择的语音信号ij转发到位于选择器105下游的处理器103。在图1中,通过多位置单极开关象征性地示出了选择器105。本发明不限于由图1提出的简化情况;例如,可以构思出:响应于肯定的讲话者冲突检测结果,多于一个输入语音信号可以经受处理。
冲突检测器102被配置成:检测在输入语音信号i1、i2、i3、i4中两个或更多个之间具有讲话者冲突的信号区间。为此,如上所述,冲突检测器102可以得出(即,计算或读取)每个语音信号的每个时间频率片的能量含量指示,并且寻找相当的指示的值的同时出现。将检测结果提供给处理器103和混合器104。响应于肯定的检测结果,处理器103开始对由ij表示的冲突信号之一进行处理,可以借助于选择器105选择该冲突信号之一。处理器103将处理的信号f(ij)提供给混合器104,在混合器104处所处理的信号f(ij)代替信号ij作为输入。因此,为了提供包含来自所有输入信号的贡献的输出信号,混合器104对所有j≠k的语音信号ik进行加性混合,就像它们是所接收并处理的语音信号f(ij)一样。应当理解,混合器104可以被配置为:也可以产生其他组合。例如,可以期望从意图用于第m个端点的专用输出混合信号中排除im(和f(im),如果可适用)。
如图2所示,上面论述的语音信号混合装置100可以形成包括端点201、202、203、204的会议系统200的一部分。可以借助于布置在各个端点201、202、203、204处的换能器(例如,麦克风)来获得输入语音信号i1、i2、i3、i4。在简单配置中,混合装置100为所有端点201、202、203、204提供共用输出信号o1,该共用输出信号o1由端点201、202、203、204处的音频源(例如,扩音器)再现。如上所述,可替代地,混合装置100可以被配置为向端点201、202、203、204的子组提供单独的输出混合信号。会议系统200可以是纯语音通信系统、视频通信系统或多媒体通信系统。
图3示出了时移和频移,它们是由本发明的示例实施方式提出的用于减轻讲话者冲突影响的两种校正措施。图3包含两个声谱图,每个声谱图覆盖达到大约21000Hz的频率并且延伸大约0.6秒(与大约30个时间帧相对应,每个时间帧20ms),其中上面的声谱图与输入语音信号i1相关,并且下面的声谱图与输入语音信号i2相关。声谱图的黑色区域与具有零能量含量的时间频率片相对应,而较亮的阴影表示非零能量含量。相对较亮的区域与相对较高的能量含量对应。出于说明的目的,用字母CR-OW-D-E-D、F-R-IE-ND-S注释了每个声谱图,该字母与在所绘的时间区间中由语音信号携带的音素相对应;需要重复的是:语音信号中的音素的知识不是本发明的必要特征,音素边界的位置的知识也不是本发明的必要特征。
在图3所示的情况中,在第一讲话者冲突位置301中检测到讲话者冲突,第一讲话者冲突位置301已经被画在上面的声谱图中(i1信号);由于冲突是基于满足依据两个信号的条件,所以第一讲话者冲突位置301可以等同地被画在下面的声谱图(i2信号)中或两个声谱图中。已经发现将i1信号的谱内容在时间上向前移动到第一目标位置302是合适的。始于第一讲话者冲突位置301的箭头在大小与方向上与意图的时移相对应。出于说明i2信号在第一目标位置处具有低能量含量的目的,已经将第一目标位置302画在下面的声谱图中。在下面的声谱图中画出第一目标位置302的选择不是意图暗示:来自第一讲话者冲突位置301的谱内容要被从i1信号移动到i2信号;然而很可能,这对要产生的最终混合信号几乎没有影响。应当指出,在图3中讲话者冲突位置301、311、321的形状是近似的,并且可以被精细化到准确位置,在该准确位置处由冲突检测器102发现检测准则被满足。在没有频率选择性的简化方法中,第一讲话者冲突位置301和第一目标位置302可以是在图中分别由L0和L0’表示的两个一致的时间段。
目标位置302可以被选作为时间频率平面的区域,该区域与检测到讲话者冲突并且检测条件未达成的区域一致。该条件可以在目标位置302的任何部分都不成立,或者至少在目标位置302的预定百分比部分不成立。优选地,目标位置302被局限于尽可能靠近讲话者冲突位置301处。除非目标位置302能被局限于绝对靠近,即没有暗示多于大约50ms的时移或者多于大约倍频程的一半的频移,否则语音信号混合装置100可以适合于抑制时移或频移。如上所述,在特定的情形下这些限制可以被进一步收紧,例如,收紧到25ms和倍频程的四分之一。
如上所述,处理器104通过应用负的时移并且然后应用正的时移,可以实现时移。可替代地,时移可以通过剪切-粘贴(或者衰减-粘贴)技术来实现。应当理解,时移操作可能在语音混合设备100中经受算法延迟。该延迟将会是最长的可能的正的时间拉伸的级别。因此预期其不会明显地增加会议系统中总的延迟。
图3进一步显示了第二讲话者冲突位置311和相关联的目标位置312,这些位置包含于时间段L1、L1’中。根据音素,讲话者冲突与音素[d]和[s]的同时实现相对应。如图所示,意图对第二讲话者冲突的纠正是负的时移。
此外,第三谱冲突位置321已经被画在下面的声谱图中。在与第三谱冲突位置321相同的时间段L2中,相关联的第三目标位置322已经被画在上面的声谱图中,以说明:来自第三谱冲突位置321的信号内容的意图新位置将会被移动到具有相对低的能量含量的区域。如在图3中能够看到的,第三谱冲突位置321被以下时间段包围:在该时间段中i1信号在关注的频率范围内具有相对高的能量含量,使得正的时移和负的时移都不适合于解决冲突。
图4更详细地说明了时移技术,现在参考与图3中示出的情形的不同的情形下信号的取决于时间的波形图。在时间段L1中,第一语音信号i1和第二语音信号i2两者都具有高的能量含量,并且确定将语音信号i1的信号内容在时间上向后移动到时间段L1’。时移可以通过时间拉伸或使用复制-粘贴技术来进行。
所处理的信号f(i1)说明了时间拉伸方法,其中用加号来注释正的拉伸段,而用减号来注释负的拉伸段,并且用L1来注释谱内容的新位置。优选地,时间拉伸是渐进的,但是也可以是非渐进的。可以将时间拉伸应用于或者不应用于L1中的信号内容。如果不将时间拉伸应用于信号内容,则可以在时间段L1(或等同地,L1’)开始之前完成正的拉伸。
所处理的信号g(i1)说明了复制-粘贴方法,其中在其新位置L1’中已经用虚线画出了从段L1中提取的信号内容,在该新位置L1’处所提取的信号内容与该区间中的原始信号内容相加。此外,在段L1中相同的信号内容已经被显著地衰减到其原始幅度的大约25﹪。
Ⅲ.等同、扩展、替代和杂项
本领域技术人员在研究了以上描述之后,本发明的更多的实施方式将会变得明显。尽管本说明书和附图公开了实施方式和示例,但是本发明不限于这些特定的示例。在不脱离由所附权利要求限定的本发明的范围的情况下可以做出许多修改和变型。权利要求中出现的任何附图标记不应被理解为限制其范围。
在上文公开的系统和方法可以实现为软件、固件、硬件或其组合。在硬件实现中,在以上描述中提到的功能单元之间的任务划分不必与划分成物理单元相对应;相反地,一个物理部件可以具有多个功能,并且一个任务可以由若干个物理部件协作执行。某些部件或所有部件可以实现为由数字信号处理器或微处理器执行的软件,或者可以实现为硬件或实现为专用集成电路。可以将这样的软件分布在计算机可读介质上,该计算机可读介质可以包含计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。如本领域技术人员所熟知的,术语计算机存储介质包括以用于存储信息(例如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术来实现的易失性与非易失性、可移动与不可移动的介质。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用光盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或能够被用于存储期望的信息并且能够被计算机存取的任何其它介质。此外,本领域技术人员熟知:通信介质通常将计算机可读指令、数据结构、程序模块或其他数据实现在调制的数据信号(例如载波或其他传输机制)中,并且包括任何信息传输介质。

Claims (19)

1.一种在减轻所述语音信号之间的讲话者冲突的同时混合语音信号的方法,所述方法包括:
接收具有公共时间基础的两个或更多个语音信号(i1,i2,i3,i4);
检测信号区间(L0,L1,L2),在所述信号区间(L0,L1,L2)中存在至少在所述语音信号的第一语音信号(i1)与第二语音信号(i2)之间的讲话者冲突;
在肯定的检测结果的情况下,以使得所述语音信号的第一语音信号在感知上可辨识为目的,对所述第一语音信号进行处理;以及
根据所述公共时间基础将至少一个经处理的语音信号与剩余语音信号进行混合,以获得输出信号(o1)。
2.根据权利要求1所述的方法,其中所述处理包括:关于所述公共时间基础对所述第一语音信号的所检测的信号区间的信号内容进行时移。
3.根据权利要求2所述的方法,其中所述时移包括:将关于所述公共时间基础的一系列正时间拉伸和负时间拉伸应用于所述第一语音信号。
4.根据权利要求2所述的方法,其中所述时移包括:衰减所检测的信号区间的信号内容,并且将所检测的信号区间的信号内容复制到邻近的信号区间(L0’,L1’)。
5.根据权利要求1所述的方法,其中所述处理包括:对所检测的信号的信号内容进行频移。
6.根据权利要求5所述的方法,其中所述频移包括:逐渐开始和/或逐渐释放。
7.根据权利要求2至6中任一项所述的方法,其中所述处理仅影响所检测的信号区间中的信号内容的频率子范围。
8.根据权利要求2至7中任一项所述的方法,在移动之前还包括:
将所述第一语音信号的一部分分割成音素;以及
对所检测的信号区间进行调整以仅覆盖全部音素。
9.根据前述权利要求中任一项所述的方法,其中所述对讲话者冲突的检测包括:
得出每个所述语音信号的频率可变能量含量指示;以及
基于所述能量含量指示应用检测条件,所述检测条件包括:在讲话者冲突位置处在所述第一语音信号和所述第二语音信号中具有相当的能量含量,所述讲话者冲突位置是信号区间中的频率子范围。
10.根据权利要求9所述的方法,其中所述检测条件还包括:在所述讲话者冲突位置处在所述第一语音信号和所述第二语音信号两者中具有预定阈值以上的能量含量。
11.根据权利要求9或10所述的方法,其中所述语音信号被分割成时间频率片,每个时间频率片与所述能量含量指示的值相关联,并且每个时间频率片是基本检测单元。
12.根据权利要求9至11中任一项所述的方法,还包括:选择在所检测的信号区间中具有最小能量含量的语音信号作为所述第一信号,
其中所述处理包括:对所检测的信号区间的信号内容进行时移或频移,并且所述处理影响所述第一信号。
13.根据权利要求9至12中任一项所述的方法,其中:
所述检测还包括:寻找至少一个目标位置,所述至少一个目标位置是频率子范围与信号区间的组合,所述目标位置靠近所述讲话者冲突位置,并且在所述目标位置中所述检测条件未满足;并且
所述处理包括:将所述第一信号的信号内容时移或频移至所述目标位置。
14.根据权利要求13所述的方法,其中:
所述检测还包括:寻找至少两个目标位置,并且针对每个目标位置得出度量,所述度量表示关于所述讲话者冲突位置的移动距离;并且
所述处理包括:将所述第一信号的信号内容时移或频移至所述度量最小的目标位置。
15.根据权利要求14所述的方法,其中:
第一目标位置与纯的正时移或纯的频移相对应,并且第二目标位置与纯的负时移或纯的频移相对应;并且
选择移动量最小的目标位置。
16.根据前述权利要求中任一项所述的方法,还包括通过应用包括以下效果的组中的效果来处理所述语音信号的严格子集:
谐波激励;
振荡效果;
震音;
颤音;
合唱;
镶边;以及
移相。
17.根据前述权利要求中任一项所述的方法,所述方法在现场会议系统(200)中实现。
18.一种计算机可读介质,所述计算机可读介质存储用于执行前述权利要求中任一项所述的方法的计算机可读指令。
19.一种用于混合语音信号的装置(100),包括:
接口(101),用于接收具有公共时间基础的一个或更多个语音信号(i1,i2,i3,i4);
冲突检测器(102),用于检测信号区间,在所述信号区间中至少在所述语音信号的第一语音信号与第二语音信号之间存在讲话者冲突;
处理器(103),用于接收来自所述冲突检测器的检测结果,并且响应于肯定的检测结果,以使得所述语音信号的至少一个语音信号在感知上可辨识为目标,对所述至少一个语音信号进行处理;以及
混合器(104),用于关于所述公共时间基础对至少一个所处理的语音信号和剩余的语音信号进行解析,并且相应混合这些信号,以提供输出信号(o1)。
CN201380015383.3A 2012-03-23 2013-03-21 用于减轻听觉场景中的讲话者冲突的方法和装置 Active CN104205212B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261614577P 2012-03-23 2012-03-23
US61/614,577 2012-03-23
PCT/US2013/033366 WO2013142727A1 (en) 2012-03-23 2013-03-21 Talker collisions in an auditory scene

Publications (2)

Publication Number Publication Date
CN104205212A true CN104205212A (zh) 2014-12-10
CN104205212B CN104205212B (zh) 2016-09-07

Family

ID=48096233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380015383.3A Active CN104205212B (zh) 2012-03-23 2013-03-21 用于减轻听觉场景中的讲话者冲突的方法和装置

Country Status (6)

Country Link
US (1) US9502047B2 (zh)
EP (1) EP2828849B1 (zh)
JP (1) JP6023823B2 (zh)
CN (1) CN104205212B (zh)
HK (1) HK1204134A1 (zh)
WO (1) WO2013142727A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878533A (zh) * 2015-12-10 2017-06-20 北京奇虎科技有限公司 一种移动终端的通信方法和装置
CN111354356A (zh) * 2018-12-24 2020-06-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9237238B2 (en) * 2013-07-26 2016-01-12 Polycom, Inc. Speech-selective audio mixing for conference
CN104767652B (zh) 2014-01-08 2020-01-17 杜比实验室特许公司 监视数字传输环境性能的方法
US10079941B2 (en) 2014-07-07 2018-09-18 Dolby Laboratories Licensing Corporation Audio capture and render device having a visual display and user interface for use for audio conferencing
EP3291226B1 (en) * 2016-09-05 2020-11-04 Unify Patente GmbH & Co. KG A method of treating speech data, a device for handling telephone calls and a hearing device
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
WO2022259637A1 (ja) * 2021-06-08 2022-12-15 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267667A (ja) * 2004-03-16 2005-09-29 Denon Ltd 音声記録再生装置
WO2009001035A2 (en) * 2007-06-22 2008-12-31 Wivenhoe Technology Ltd Transmission of audio information
US20090150151A1 (en) * 2007-12-05 2009-06-11 Sony Corporation Audio processing apparatus, audio processing system, and audio processing program
US20100235169A1 (en) * 2006-06-02 2010-09-16 Koninklijke Philips Electronics N.V. Speech differentiation
US7970115B1 (en) * 2005-10-05 2011-06-28 Avaya Inc. Assisted discrimination of similar sounding speakers
US20120029915A1 (en) * 2009-02-13 2012-02-02 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7391877B1 (en) 2003-03-31 2008-06-24 United States Of America As Represented By The Secretary Of The Air Force Spatial processor for enhanced performance in multi-talker speech displays
US7636448B2 (en) 2004-10-28 2009-12-22 Verax Technologies, Inc. System and method for generating sound events
US7853649B2 (en) 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
US8559646B2 (en) 2006-12-14 2013-10-15 William G. Gardner Spatial audio teleconferencing
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8107321B2 (en) 2007-06-01 2012-01-31 Technische Universitat Graz And Forschungsholding Tu Graz Gmbh Joint position-pitch estimation of acoustic sources for their tracking and separation
US8180029B2 (en) * 2007-06-28 2012-05-15 Voxer Ip Llc Telecommunication and multimedia management method and apparatus
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US20110109798A1 (en) 2008-07-09 2011-05-12 Mcreynolds Alan R Method and system for simultaneous rendering of multiple multi-media presentations
US8417703B2 (en) 2009-11-03 2013-04-09 Qualcomm Incorporated Data searching using spatial auditory cues

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267667A (ja) * 2004-03-16 2005-09-29 Denon Ltd 音声記録再生装置
US7970115B1 (en) * 2005-10-05 2011-06-28 Avaya Inc. Assisted discrimination of similar sounding speakers
US20100235169A1 (en) * 2006-06-02 2010-09-16 Koninklijke Philips Electronics N.V. Speech differentiation
WO2009001035A2 (en) * 2007-06-22 2008-12-31 Wivenhoe Technology Ltd Transmission of audio information
US20090150151A1 (en) * 2007-12-05 2009-06-11 Sony Corporation Audio processing apparatus, audio processing system, and audio processing program
US20120029915A1 (en) * 2009-02-13 2012-02-02 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878533A (zh) * 2015-12-10 2017-06-20 北京奇虎科技有限公司 一种移动终端的通信方法和装置
CN111354356A (zh) * 2018-12-24 2020-06-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置

Also Published As

Publication number Publication date
US20150012266A1 (en) 2015-01-08
CN104205212B (zh) 2016-09-07
HK1204134A1 (zh) 2015-11-06
US9502047B2 (en) 2016-11-22
WO2013142727A1 (en) 2013-09-26
JP6023823B2 (ja) 2016-11-09
EP2828849B1 (en) 2016-07-20
JP2015511029A (ja) 2015-04-13
EP2828849A1 (en) 2015-01-28

Similar Documents

Publication Publication Date Title
CN104205212A (zh) 听觉场景中的讲话者冲突
RU2705427C1 (ru) Способ кодирования многоканального сигнала и кодировщик
EP2979358B1 (en) Volume leveler controller and controlling method
EP3232567B1 (en) Equalizer controller and controlling method
JP5957446B2 (ja) 音響処理システム及び方法
US7853447B2 (en) Method for varying speech speed
CN101421779B (zh) 用于产生环境信号的设备和方法
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP2017530396A (ja) 音源を強調するための方法及び機器
EP2978242A1 (en) System and method for mitigating audio feedback
JP2011501486A (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
EP2984857A1 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
CN111739544A (zh) 语音处理方法、装置、电子设备及存储介质
US20230254655A1 (en) Signal processing apparatus and method, and program
US9445210B1 (en) Waveform display control of visual characteristics
US11863946B2 (en) Method, apparatus and computer program for processing audio signals
US8306828B2 (en) Method and apparatus for audio signal expansion and compression
CN109378012B (zh) 用于单通道语音设备录制音频的降噪方法及系统
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
CN112309419B (zh) 多路音频的降噪、输出方法及其系统
Stokes Improving the perceptual quality of single-channel blind audio source separation
US20200133619A1 (en) System and method for detecting, estimating, and compensating acoustic delay in high latency environments
JP2023077599A (ja) 画面制御装置およびプログラム
JP5104202B2 (ja) 音響信号に対する情報のリアルタイム埋め込み装置
JP2015191220A (ja) 音声処理システム、音声処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1204134

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1204134

Country of ref document: HK