CN102194463A - 语音处理装置、语音处理方法和程序 - Google Patents
语音处理装置、语音处理方法和程序 Download PDFInfo
- Publication number
- CN102194463A CN102194463A CN2011100608564A CN201110060856A CN102194463A CN 102194463 A CN102194463 A CN 102194463A CN 2011100608564 A CN2011100608564 A CN 2011100608564A CN 201110060856 A CN201110060856 A CN 201110060856A CN 102194463 A CN102194463 A CN 102194463A
- Authority
- CN
- China
- Prior art keywords
- astable
- signal
- voice
- filter coefficient
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 76
- 238000003672 processing method Methods 0.000 title abstract 2
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 45
- 230000006866 deterioration Effects 0.000 claims description 22
- 230000001629 suppression Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 8
- 230000006641 stabilisation Effects 0.000 claims 1
- 238000011105 stabilization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 47
- 230000006870 function Effects 0.000 description 36
- 230000008569 process Effects 0.000 description 27
- 206010038743 Restlessness Diseases 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 14
- 239000000203 mixture Substances 0.000 description 11
- 230000010354 integration Effects 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 9
- 230000005764 inhibitory process Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及语音处理装置、语音处理方法和程序。语音处理装置包括:区间检测单元,其从输入信号检测包括语音信号的语音区间或包括除了语音信号之外的非稳定信号的非稳定声音区间;以及滤波器计算单元,其根据区间检测单元的检测结果来计算用于保持语音区间中的语音信号和用于抑制非稳定声音区间中的非稳定信号的滤波器系数,其中,滤波器计算单元通过将在非稳定声音区间中计算出的滤波器系数用于语音区间并将在语音区间中计算出的滤波器系数用于非稳定声音区间来计算滤波器系数。
Description
技术领域
本发明涉及一种语音处理装置、语音处理方法和程序。
背景技术
在过去,已知一种抑制包括噪声的输入语音中的噪声的技术(例如,日本专利第3484112号和第4247037号)。根据日本专利第3484112号,检测从多个麦克风获得的信号的方向性,并根据检测结果通过执行谱减法来抑制噪声。此外,根据日本专利第4247037号,在处理多声道之后,通过使用声道之间的互相关(mutual correlation)来抑制噪声。
发明内容
然而,在日本专利第3484112号中,由于在频域中执行处理,因而存在这样的问题:如果应付在非常短的时间段内集中的诸如操作声音的噪声,则由于噪声的不均匀性(disparity)在整个频率中展开而不能充分地抑制噪声。此外,在日本专利第4247037号中,通过使用扩展的互相关在频域中修改功率谱并执行处理以便于抑制偶发噪声,但是存在这样的问题:类似于日本专利第3484112号,对于诸如操作声音的非常短的信号,不能充分地抑制噪声。
从该意义上说,本发明考虑了这些问题,并且本发明期望提供一种新型和改进的语音处理装置、语音处理方法和程序,其使得能够检测噪声在非常短的时间段内集中且产生不均匀性的时间区间,从而充分地抑制噪声。
为了解决该问题,根据本发明的实施例,提供了一种语音处理装置,包括:区间检测单元,其从输入信号检测包括语音信号的语音区间或包括除了语音信号之外的非稳定的信号的非稳定声音区间;以及滤波器计算单元,其根据区间检测单元的检测结果来计算用于保持语音区间中的语音信号和用于抑制非稳定声音区间中的非稳定的信号的滤波器系数,其中,滤波器计算单元通过将在非稳定声音区间中计算出的滤波器系数用于语音区间并将在语音区间中计算出的滤波器系数用于非稳定声音区间来计算滤波器系数。
此外,语音处理装置还包括记录单元,其将滤波器计算单元中计算出的滤波器系数的信息针对每个区间地记录在存储单元中,滤波器计算单元可以通过使用在语音区间中记录的非稳定声音区间的滤波器系数的信息和在非稳定声音区间中记录的语音区间的滤波器系数的信息来计算滤波器系数。
滤波器计算单元可以计算用于输出使得输入信号被保持在语音区间中的信号的滤波器系数,并计算用于输出使得输入信号在非稳定声音区间中为零的信号的滤波器系数。
此外,根据该实施例,语音处理装置包括特征量计算单元,其计算语音区间中的语音信号的特征量和非稳定声音区间中的非稳定声音信号的特征量,并且滤波器计算单元可以通过使用语音区间中的非稳定声音信号的特征量并使用非稳定声音区间中的语音信号的特征量来计算滤波器系数。
此外,区间检测单元可以检测包括语音信号或除了非稳定的信号之外的稳定的信号的稳定声音区间,并且滤波器计算单元计算用于抑制稳定声音区间中的稳定的信号的滤波器系数。
此外,特征量计算单元可以计算稳定声音区间中的稳定声音信号的特征量。
此外,滤波器计算单元可以通过在语音区间中使用非稳定声音信号的特征量和稳定声音信号的特征量、在非稳定声音区间中使用语音信号的特征量、以及在稳定声音区间中使用语音信号的特征量来计算滤波器系数。
此外,根据该实施例,语音处理装置包括验证单元,其验证滤波器计算单元计算出的滤波器系数的约束条件,其中,验证单元可以基于特征量计算单元计算出的每个区间中的特征量来验证滤波器系数的约束条件。
此外,验证单元可以基于非稳定声音区间中的非稳定声音信号的抑制量和稳定声音区间中的稳定声音信号的抑制量是否等于或小于预定阈值的确定来验证语音区间中的滤波器系数的约束条件。
此外,验证单元可以基于语音区间中的语音信号的劣化量是否等于或大于预定阈值的确定来验证非稳定声音区间中的滤波器系数的约束条件。
此外,验证单元可以基于语音区间中的语音信号的劣化量是否等于或大于预定阈值来验证稳定声音区间中的滤波器系数的约束条件。
此外,为了解决上述问题,根据本发明的另一实施例,提供了一种语音处理方法,包括以下步骤:从输入信号检测包括语音信号的语音区间或包括除了语音信号之外的非稳定的信号的非稳定声音区间;以及根据检测结果,通过将在非稳定声音区间中计算出的滤波器系数用于语音区间来保持语音信号,并通过将在语音区间中计算出的滤波器系数用于非稳定声音区间来抑制非稳定的信号。
此外,为了解决上述问题,提供了一种使计算机用作语音处理装置的程序,语音处理装置包括:区间检测单元,其从输入信号检测包括语音信号的语音区间或包括除了语音信号之外的非稳定的信号的非稳定声音区间;以及滤波器计算单元,其根据区间检测单元的检测结果计算用于保持语音区间中的语音信号和用于抑制非稳定声音区间中的非稳定的信号的滤波器系数,并且滤波器计算单元通过将在非稳定声音区间中计算出的滤波器系数用于语音区间并将在语音区间中计算出的滤波器系数用于非稳定声音区间来计算滤波器系数。
附图说明
图1是示出根据本发明的第一实施例的概况的说明图;
图2是示出根据该实施例的语音处理装置的功能组成的框图;
图3是示出根据该实施例的耳机的外观的说明图;
图4是示出根据该实施例的语音检测单元的功能组成的框图;
图5是示出根据该实施例的语音检测处理的流程图;
图6是示出根据该实施例的操作声音检测单元的功能组成的框图;
图7是示出根据该实施例的操作声音区间中的频率性质的说明图;
图8是示出根据该实施例的操作声音检测处理的流程图;
图9是示出根据该实施例的操作声音检测处理的流程图;
图10是示出根据该实施例的滤波器计算单元的功能组成的框图;
图11是示出根据该实施例的滤波器系数的计算处理的流程图;
图12是示出根据该实施例的语音区间和操作声音区间的说明图;
图13是示出根据该实施例的滤波器计算单元的功能组成的框图;
图14是示出根据该实施例的滤波器系数的计算处理的流程图;
图15是示出根据该实施例的特征量计算单元的功能组成的框图;
图16是示出根据该实施例的特征量计算处理的流程图;
图17是示出根据该实施例的特征量计算单元的详细操作的流程图;
图18是示出根据本发明的第二实施例的语音处理装置的功能组成的框图;
图19是示出根据该实施例的特征量计算处理的流程图;
图20是示出根据该实施例的特征量计算处理的流程图;
图21是示出根据该实施例的滤波器计算处理的流程图;
图22是示出根据本发明的第三实施例的语音处理装置的功能组成的框图;
图23是示出根据该实施例的约束条件验证单元的功能的框图;
图24是示出根据该实施例的约束条件验证处理的流程图;
图25是示出根据该实施例的约束条件验证处理的流程图;
图26是示出根据本发明的第四实施例的语音处理装置的功能组成的框图;
图27是示出根据本发明的第五实施例的语音处理装置的功能组成的框图;以及
图28是示出根据本发明的第六实施例的语音处理装置的功能组成的框图。
具体实施方式
下文中,将参照附图来详细描述本发明的示例性实施例。在本说明书和附图中,将向实际上具有相同功能组成的构成元件提供相同的附图标记,并且将不重复其重叠描述。
此外,将根据以下顺序描述“优选实施例”。
1.实施例的目的
2.第一实施例
3.第二实施例
4.第三实施例
5.第四实施例
6.第五实施例
7.第六实施例
<1.实施例的目的>
首先,将描述实施例的目的。在过去,已经披露了用于抑制输入有噪声的输入语音中的噪声的技术(例如,日本专利第3484112号和第4247037号)。根据日本专利第3484112号,检测从多个麦克风获得的信号的方向性,并根据检测结果通过执行谱减法来抑制噪声。此外,根据日本专利第4247037号,在处理多声道之后,通过使用声道之间的互相关来抑制噪声。
然而,在日本专利第3484112号中,由于在频域中执行处理,因而存在这样的问题:如果应付在非常短的时间段内集中的诸如操作声音的噪声,则由于噪声的不均匀性在整个频率中展开,不能充分地抑制噪声。此外,在日本专利第4247037号中,通过使用扩展的互相关在频域中修改功率谱并执行处理以便于抑制偶发噪声,但是存在这样的问题:类似于日本专利第3484112号,对于诸如操作声音的非常短的信号,不能充分地抑制噪声。
因此,考虑使用多个麦克风通过时域处理来抑制噪声。例如,用于仅拾取噪声的麦克风(噪声麦克风)被设置在与用于拾取语音的麦克风(主麦克风)的位置不同的位置处。在该情况下,可以通过从主麦克风的信号中减去噪声麦克风的信号来去除噪声。然而,由于麦克风的位置不同,包含在主麦克风中的噪声信号和包含在噪声麦克风中的噪声信号不等同。因此,当不出现语音时执行学习,并使这两个语音信号彼此对应。
在上述技术中,需要将两个麦克风彼此分离得足够远,使得语音不被输入到噪声麦克风,但是在该情况下,用于使噪声信号彼此对应的学习不是容易的,从而恶化了噪声抑制的性能。此外,如果两个麦克风变得彼此较近,则语音被包括在噪声麦克风中,从而语音分量因从主麦克风的信号中减去噪声麦克风的信号而劣化。
以下例示了用于在从所有的麦克风获得语音和噪声的状态下抑制噪声的方法。
(1)Adaptive Microphone-Array System for Noise Reduction(AMNOR)(用于噪声降低的自适应麦克风阵列系统),Yutaka Kaneda等人,IEEE Transactions on Acoustics,Speech,and Signal Processing,Vol.ASSP-34,No.6,1986年12月。
(2)An Alternative Approach to Linearly Constrained Adaptive Beamforming,Lloyd J.Griffiths等人,IEEE Transaction on Antennas and Propagation,Vol.AP-30,No.1,1982年1月。
将通过例示上述的(1)号中提供的AMNOR方法来提供描述。在AMNOR方法中,在没有目标声音的区间中执行滤波器系数H的学习。此刻,执行该学习,使得语音分量的劣化减轻在特定水平内。当AMNOR方法被应用于操作声音的抑制时,发现如下两点。
(1)当在长时间段中出现的噪声来自于固定方向时,AMNOR方法非常有效。然而,滤波器的学习未被充分执行,这是因为操作声音是仅在短时间段中出现的非稳定声音,并且鼠标和键盘的声音依赖于它们各自的不同位置而来自于不同方向。
(2)出于控制目标声音劣化的目的,在总是包括噪声的情况下,AMNOR方法在噪声抑制方面非常有效,但是操作声音和语音不稳定地重叠,因而该方法可能使目标语音的质量进一步劣化。
因此,关注于以上环境,并创建了根据本发明的实施例的语音处理装置。在根据该实施例的语音处理装置中,检测噪声不均匀地在非常短的时间段内集中的时间区间,从而充分地抑制噪声。更具体地,在时间区间中执行处理以便于抑制在非常短的时间段内不稳定且不均匀地集中的噪声(下文中,其可以通过被称作操作声音来描述)。此外,多个麦克风被用于在多个位置出现的操作声音,并通过使用声音的方向来执行抑制。此外,为了响应于多样化的输入装置中的操作声音,根据输入信号来自适应地获取抑制滤波器。此外,执行滤波器的学习,用于还改善具有语音的区间中的声音质量。
<2.第一实施例>
接下来,将描述第一实施例。首先,将参照图1来描述第一实施例的概况。该实施例的目的在于抑制例如在语音聊天期间被并入到所传送的语音中的非稳定噪声。如图1中所示,假设用户10A和10B分别使用PC等进行语音聊天。此时,当用户10B传送语音时,从鼠标、键盘等的操作出现的“滴答滴答”的操作声音连同说出“火车的时间是......”的语音一起被输入。
如图1的附图标记50所示,操作声音不是总与语音重叠。此外,由于引起操作声音的键盘、鼠标等的位置改变,噪声的出现位置改变。此外,由于来自键盘、鼠标等的操作声音依赖于设备的种类而不同,因而存在各种操作声音。
因此,在该实施例中,从输入信号中检测语音的区间和作为鼠标、键盘等的非稳定声音的操作声音的区间,并且通过采用每个区间中的最佳处理来高效地抑制噪声。此外,处理并非依赖于所检测的区间而不连续地转换,而是当语音开始时,连贯地转换处理以减少不适。而且,通过在每个区间中执行处理并且随后使用语音的劣化量和噪声抑制量,控制最终的声音质量是可能的。
在上文中已描述了该实施例的概况。接下来,将参照图2描述语音处理装置100的功能组成。图2是示出语音处理装置100的功能组成的框图。如图2中所示,语音处理装置100配备有语音检测单元102、操作声音检测单元104、滤波器计算单元106、滤波器单元108等。
语音检测单元102和操作声音检测单元104是本发明的区间检测单元的示例。语音检测单元102具有从输入信号中检测包含语音信号的语音区间的功能。对于输入信号,如图3中所示,在耳机20中使用两个麦克风,并且在耳机的嘴部分中提供麦克风21而在耳机的耳部分中提供麦克风22。
此处,将参照图4来描述语音检测单元102的语音检测的功能。如图4中所示,语音检测单元102包括计算部112、比较/确定部114、保持部116等。计算部112计算从这两个麦克风输入的输入能量,并计算输入能量之间的差。比较/确定部114将计算的输入能量之间的差与预定阈值比较,并根据比较结果确定是否存在语音。然后,比较/确定部114向特征量计算单元110和滤波器计算单元106提供关于语音的存在/不存在的控制信号。
接下来,将参照图5来描述语音检测单元102进行的语音检测处理。图5是示出语音检测单元102进行的语音检测处理的流程图。如图5中所示,首先,针对在耳机中提供的两个麦克风计算每个麦克风的输入能量(E1和E2)(S102)。通过下面给出的数学表达式来计算输入能量。xi(t)表示在时间t期间在麦克风i中观察到的信号。换句话说,表达式1表示区间L1、L2中的信号的能量。
[表达式1]
然后,计算步骤S102中计算出的输入能量的差ΔE=E1-E2(S104)。然后,比较阈值Eth和步骤S104中计算出的输入能量的差ΔE(S106)。
当在步骤S106中确定差ΔE大于阈值Eth时,确定存在语音(S108)。当在步骤S106中确定差ΔE小于阈值Eth时,确定不存在语音(S110)。
接下来,将参照图6来描述操作声音检测单元104检测操作声音的功能。如图6中所示,操作声音检测单元104包括计算部118、比较/确定部119、保持部120等。计算部118将高通滤波器应用于来自于嘴部分中的麦克风21的信号x1,并计算能量E1。如图7中所示,由于操作声音包括高频,因而使用该特征,并且仅来自一个麦克风的信号足以用于操作声音的检测。
比较/确定部119将阈值Eth与计算部118计算出的能量E1比较,并根据比较结果确定是否存在操作声音。然后,比较/确定部119向特征量计算单元110和滤波器计算单元106提供关于操作声音的存在/不存在的控制信号。
接下来,将参照图8来描述操作声音检测单元104的操作声音检测处理。图8是示出操作声音检测单元104的操作声音检测处理的流程图。如图8中所示,首先,高通滤波器被应用于来自耳机的嘴部分中的麦克风21的信号x1(S112)。在步骤S112中,通过下面给出的数学表达式来计算x1_h。
[表达式2]
然后,通过下面给出的数学表达式计算x1_h的能量E1(S114)。
[表达式3]
然后,确定在步骤S114中计算出的能量E1是否大于阈值Eth(S116)。在步骤S116中,当确定能量E1大于阈值Eth时,确定存在操作声音(S118)。当在步骤S116中确定能量E1小于阈值Eth时,确定不存在操作声音(S120)。
在上面的描述中,通过使用固定的高通滤波器H检测操作声音。然而,操作声音包括来自键盘、鼠标等的各种声音,即各种频率的声音。因此,期望根据输入数据动态地构造高通滤波器H。下文中,通过使用自回归模型(AR模型)来检测操作声音。
在AR模型中,如下面的数学表达式中所示,通过使用装置自身的过去输入样本来表述当前输入。
[表达式4]
在该情况下,如果输入在时间方面是稳定的,则ai的值很少改变。e(t)的值变小。另一方面,当包括操作声音时,与先前完全不同的信号被输入,因此e(t)的值变得极大。利用该特征,可以检测操作声音。因此,使用装置自身的输入,可以在非稳定性方面检测任何种类的操作声音。
参照图9,将描述使用AR模型检测操作声音的处理。图9是示出使用AR模型的操作声音检测处理的流程图。如图9中所示,使用AR系数基于下面给出的数学表达式计算关于耳机的嘴部分中的麦克风21的信号x1的误差(S122)。
[表达式5]
然后,基于下面给出的数学表达式来计算误差的平方E1(S124)。
[表达式6]
然后,确定E1是否大于阈值Eth(S126)。在步骤S126中,当确定E1大于阈值Eth时,确定存在操作声音(S128)。当在步骤S126中确定E1小于阈值Eth时,确定不存在操作声音(S130)。然后,基于下面给出的数学表达式针对当前输入更新AR系数(S132)。a(t)表示时间t中的AR系数。μ是具有小值的正的常数。例如,可以使用μ=0.01等。
[表达式7]
a(t+1)=a(t)+μ·e(t)·X(t)
a(t)=(a1(t),...,ap(t))T
X(t)=(x1(t-1),x1(t-2),...,x1(t-p))T
回到图2,将继续关于语音处理装置100的功能组成的描述。滤波器计算单元106具有根据语音检测单元102和操作声音检测单元104进行的检测的结果保持语音区间中的语音信号并计算抑制非稳定声音区间(操作声音区间)中的不稳定信号的滤波器系数的功能。此外,滤波器计算单元106将在非稳定声音区间中计算出的滤波器系数用于语音区间,并且将在语音区间中计算出的滤波器系数用于非稳定声音区间。因此,各转换区间中的不连续性变小,并且仅在存在操作声音的区间中执行滤波器的学习,从而高效地抑制操作声音。
此处,将参照图10描述计算滤波器系数的滤波器计算单元106的功能。如图10中所示,滤波器计算单元106包括计算部120、保持部122等。计算部120通过参照保持部122中保持的滤波器系数以及从语音检测单元102和操作声音检测单元104输入的当前输入信号和区间信息(控制信号)来更新滤波器。利用更新后的滤波器盖写保持部122中保持的滤波器。保持部122保持在该回合(round)之前更新的滤波器。保持部122是本发明的记录单元的示例。
将参照图11来描述滤波器计算单元106的计算滤波器系数的处理。图11是示出滤波器计算单元106的滤波器系数的计算处理的流程图。如图11中所示,首先,计算部120从语音检测单元102和操作声音检测单元104获取控制信号(S142)。步骤S142中获取的控制信号是与区间信息有关的且区分输入信号是在语音区间中还是在操作声音区间中的控制信号。
然后,基于步骤S142中获取的控制信号来确定输入信号是否在语音区间中(S144)。当在S144中确定输入信号在语音区间中时,执行滤波器系数的学习以便于保持输入信号(S146)。
此外,当在步骤S144中确定输入信号不在语音区间中时,执行其是否在操作声音区间中的确定(S148)。当在步骤S148中确定输入信号在操作声音区间中时,执行滤波器系数的学习,使得输出信号为零(S150)。
此处,将描述语音区间和操作声音区间中的滤波器系数的学习规则的示例。由于旨在尽可能地使输入信号保留在语音区间中,因而执行学习使得滤波器单元108的输出接近于麦克风的输入信号。如下定义了数学表达式。φx_i(t)是排成一行的从时间t到t-p+1输入到麦克风i的值。φ(t)是针对每个麦克风φx_i(t)被排成一行的2p数目的矢量。下文中,φ(t)被称作输入矢量。
其中,w表示滤波器系数。
w=(w(1),,w(p),,,w(2p)))T
[]T表示转置。
[表达式8]
x1(t-τ)←φ(t)T·w
当使用LMS(最小均方)算法时,如下执行更新。
[表达式9]
e(t)=x1(t-τ)-φ(t)T·w
w=w+μ·e(t)·φ(t)
由于打算在操作声音区间中使输出为零,因而执行学习使得滤波器单元108的输出为零。
[表达式10]
0←φ(t)T·w
当使用LMS算法时,如下执行更新。
[表达式11]
e(t)=0-φ(t)T·w
w=w+μ·e(t)·φ(t)
如上通过例示LMS算法提供了描述,但是学习不局限于此,并且学习算法可以是诸如学习识别方法等的任何算法。
根据上述的学习规则,认为对于输入信号将1简单地施加到语音区间而将0施加到除了语音区间之外的区间是足够的。如图12中所示,当1被施加到语音区间而0被施加到除了语音区间之外的区间时,形成附图中的附图标记55的曲线的图像。换句话说,在仅针对操作声音的区间中系数变为0,而在语音区间中系数变为1。然而,由于难以完美地检测语音的开始,因而省略语音的起点,并且语音在中间突然开始。这变成引起听觉上感觉严重不适的现象。出于该原因,如附图中的附图标记56的曲线的图像所示,在通过连续改变系数来抑制操作声音的同时可以减少语音开始的不适。
附带地,在先前的学习条件下针对操作声音区间打算使系数为零。出于该原因,恰好在执行针对语音区间的转换之后,以与操作声音相同的方式显著地抑制语音。此外,打算将输入信号保持在语音区间中。出于该原因,随着时间消逝逐渐不能抑制输入信号中包括的操作声音。下文中,将描述用于解决该问题的滤波器计算单元106的组成。
此处,将参照图13描述用于解决该问题的滤波器计算单元106的计算滤波器系数的功能。图13是示出滤波器计算单元106的功能组成的框图。如图13中所示,除了图10中所示的计算部120和保持部122之外,滤波器计算单元106还包括积分部124、语音区间滤波器保持部126、操作声音区间滤波器保持部128等。
语音区间滤波器保持部126和操作声音区间滤波器保持部128保持先前在语音区间和操作声音区间中获得的滤波器。积分部124具有通过使用当前滤波器系数以及语音区间滤波器保持部126和操作声音区间滤波器保持部128中保持的在语音区间和操作声音区间中获得的先前滤波器来构成最终滤波器的功能。
将参照图14来描述滤波器计算单元106使用先前的滤波器来计算滤波器的处理。图14是示出滤波器计算单元106的滤波器计算处理的流程图。如图14中所示,首先,计算部120从语音检测单元102和操作声音检测单元104获取控制信号(S152)。基于在步骤S152中获取的控制信号来确定输入信号是否在语音区间中(S154)。当在步骤S154中确定输入信号在语音区间中时,执行滤波器系数W1的学习以便于保持输入信号(S156)。
然后,从操作声音区间滤波器保持部128中读取H2(S158)。此处,H2指的是保持在操作声音区间滤波器保持部128中的数据。然后,积分部124通过使用W1和H2来获得最终滤波器W(S160)。此外,积分部124在语音区间滤波器保持部126中存储W作为H1(S162)。
当在步骤S154中确定信号不在语音区间中时,确定输入信号是否在操作声音区间中(S164)。当在步骤S164中确定输入信号在操作声音区间中时,执行滤波器系数W1的学习使得输出信号为零(S166)。然后,从语音区间滤波器保持部126中读取H1(S168)。此处,H1指的是保持在语音区间滤波器保持部126中的数据。然后,积分部124通过使用W1和H1获得最终滤波器W(S170)。此外,积分部124在操作声音区间滤波器保持部128中存储W作为H2(S172)。
此处,将提供关于如何在积分部124中计算最终滤波器的描述。通过与上面的滤波器系数的学习相同的计算处理来执行上述滤波器W1的计算。基于下面给出的数学表达式来获得语音区间中的滤波器W。
[表达式12]
W=α·W1+(1-α)·H2
此外,基于下面给出的数学表达式来获得操作声音区间中的滤波器W。
[表达式13]
W=β·W1+(1-β)·H1
0≤α≤1,
0≤β≤1,
α和β可以是相等值。
这样,由于操作声音区间的信息也被用在语音区间中并且语音区间的信息也被用在操作声音区间中,因而积分部124获得的滤波器W具有语音区间和操作声音区间的互补特征。
回到图2,将继续语音处理装置100的功能组成的描述。特征量计算单元110具有计算语音区间中的语音信号的特征量和非稳定声音区间(操作声音区间)中的非稳定声音信号(操作声音信号)的特征量的功能。此外,滤波器计算单元106通过使用语音区间中的操作声音信号的特征量和操作声音区间中的语音信号的特征量来计算滤波器系数。从而,在语音区间中也可以有效地抑制操作声音。
此处,将参照图15来提供关于特征量计算单元110计算特征量的功能的描述。如图15中所示,特征量计算单元110包括计算部130、保持部132等。计算部130基于当前输入信号和区间信息(控制信息)来计算语音的特征和操作声音的特征,并且结果被保持在保持部132中。然后,依赖于必要性参照来自保持部132的过去数据使结果平滑化作为当前数据。保持部132分别保持语音和操作声音的过去的特征量。
接下来,将参照图16提供关于特征量计算单元110计算特征量的处理的描述。图16是示出特征量计算单元110的特征量计算处理的流程图。如图16中所示,计算部130从语音检测单元102和操作声音检测单元104获取控制信号(S174)。然后,基于步骤S174中获取的控制信号来确定输入信号是否在语音区间中(S176)。当在步骤S176中确定该信号在语音区间中时,计算语音的特征量(S178)。
另一方面,当在步骤S176中确定该信号不在语音区间中时,确定输入信号是否在操作声音区间中(S180)。当在步骤S180中确定输入信号在操作声音区间中时,计算操作声音的特征量(S182)。
可以基于例如作为语音的特征量和操作声音的特征量的信号能量,使用以下相关矩阵Rx和相关矢量Vx。
[表达式14]
Vx=E[x1(t-τ)·φ(t)]
接下来,将提供关于信号能量如何与相关矩阵关联的描述。此外,描述了滤波器和相关矩阵的学习。
对于信号矢量φ(t),可以基于以下数学表达式来计算能量。
[表达式15]
由于能量是每个元素的平方的和,因而能量变成矢量的内积。其中如下定义w。
[表达式16]
如果如上定义w,则通过以下数学表达式来表述E。
[表达式17]
E=(φT(t)·w)T·(φT(t)·w)
=wTφ(t)·φT(t)·w=wTRx·w
换句话说,如果存在关于输入信号的特定权重w和相关矩阵,则可以计算能量。此外,通过使用上述相关矩阵,可以扩展语音区间的学习规则。换句话说,学习滤波器使得在扩展之前输入信号尽可能地被保持,但是可以学习滤波器使得在扩展之后输入信号被保留而操作声音分量被抑制。在该实施例中,由于检测到操作声音区间,因而可以计算仅包含操作声音的相关矩阵Rk。因此,施加特定滤波器w时的操作声音分量的能量Ek如下。
[表达式18]
Ek=wT·Rk·w
因此,可以通过以下数学表达式来描述用于语音区间的扩展学习规则。Ek是特定的正常数。
[表达式19]
在Ek=wT·Rk·w<εk的条件下,x1(t-τ)←φ(t)T·w
此外,对于操作声音区间,也可以按与语音区间的相同方式扩展学习规则。换句话说,在扩展之前,学习滤波器使得输出信号接近于零,但在扩展之后,学习滤波器使得语音分量被尽可能地保留而同时输出信号接近于零。相关矢量是具有时间延迟的信号和如下所述的输入矢量之间的相关。
[表达式20]
Vx=E[x1(t-τ)·φ(t)]
保留语音分量指的是,按照原状输出语音信号作为滤波的结果。这可以通过以下数学表达式理想地表述。
[表达式21]
Vx=Rx·w
根据上述内容,可以通过以下数学表达式来描述用于操作声音区间的扩展学习规则。εx是特定的正常数。
在‖Vx-Rx·w‖2<εx的条件下,0←φ(t)T·w
将基于上面的描述来描述特征量计算单元110的操作。图17是示出特征量计算单元110的操作的流程图。如图17中所示,特征量计算单元110的计算部130从语音检测单元102和操作声音检测单元104获取控制信号(S190)。然后,基于步骤S190中获取的控制信号来确定输入信号是否在语音区间中(S192)。
当在步骤S192中确定输入信号在语音区间中时,计算部130计算关于输入信号的相关矩阵和相关矢量并使保持部132保持并输出结果(S194)。此外,当在步骤S192中确定输入信号不在语音区间中时,确定该信号是否在操作声音区间中(S196)。当在步骤S196中确定输入信号在操作声音区间中时,计算部130计算关于输入信号的相关矩阵,并使保持部132保持并输出结果(S198)。
此外,将描述当使用特征量计算单元110计算出的特征量时的滤波器计算单元106的学习规则。下文中,将描述使用LMS算法的情况,但是本发明不局限于此,而可以使用学习识别方法等。
通过以下数学表达式来表述滤波器计算单元106的用于语音区间的学习规则。
[表达式22]
e1=x1(t-τ)-φ(t)T·w:用于保持输入信号的部分
e2=0-wT·Rk·w:用于抑制操作声音分量的部分
在上面的情况中,对于积分滤波器,e1和e2按权重α(0<α<1)被积分。
[表达式23]
w=w+μ·(α·e1·φ(t)+(1-α)·e2·Rk·w)
此外,通过以下数学表达式来表达用于操作声音区间的学习规则。
[表达式24]
e1=0-φ(t)T·w:用于抑制操作声音的部分
e2=Rx T·(Vx-Rx·w):用于保持语音信号的部分
在上面的情况中,对于积分滤波器,e1和e2按权重β(0<β<1)被积分。
[表达式25]
w=w+μ·(β·e1·φ(t)+(1-β)·e2)
如上所述,通过使其他区间的特征用于特定区间中的滤波器更新,也可以抑制语音区间中的操作声音。此外,可能避免音量急剧降低,特别是在语音开始之后。
此外,在操作声音区间中,可以仅使用时间延迟τ的部分而无需使用Rx和Vx自身。在该情况下,可以如下简化该处理。此外,τ优选地为滤波器的群延迟。
换句话说,r_τ是通过从相关矩阵Rx分割仅第τ行获得的矢量。
此外,v_τ是通过从相关矢量Vx取出第τ个的值获得的值。
[表达式26]
e1=0-φ(t)T·w:用于抑制操作声音的部分
e2=vτ-rτ·w:用于保持语音信号的部分
[表达式27]
w=w+μ·(α·e1·φ(t)+(1-α)·e2·rτ)
上文中,描述了特征量计算单元110。回到图2,将继续语音处理装置100的功能组成的描述。滤波器单元108通过使用滤波器计算单元106计算出的滤波器将滤波器应用至来自麦克风的语音输入。因此,可以在维持声音质量的同时抑制语音区间中的噪声,并且可以实现噪声抑制,使得在操作声音区间中信号平滑地延续到语音区间。
根据该实施例的语音处理装置100或200可以被应用于具有自由移动麦克风的耳机、移动电话或蓝牙的耳机以及呼叫中心或基于网络的会议(其除了在嘴部分外还在耳部分中配备有麦克风)中所使用的耳机、IC记录器、视频会议系统、使用笔记型个人计算机(PC)的主体中包括的麦克风的基于网络的会议、或多个人利用语音聊天玩的在线网络游戏。
根据本实施例,在不受周围环境中的噪声和装置中出现的操作声音打扰的情况下进行舒适的语音传送是可能的。此外,可以在语音区间和噪声区间之间的转换区间中的不连续性极小且没有不适的情况下实现噪声被抑制的语音输出。此外,通过执行针对每个区间的最佳处理可以高效地减少操作声音。而且,接收方可以仅听到谈话对方的具有减少的诸如操作声音等的噪声的语音。现在,对第一实施例的描述结束。
<3.第二实施例>
接下来,将描述第二实施例。在第一实施例中,在语音和操作声音都存在的假设下对语音区间和非稳定声音区间(操作声音区间)执行检测,但是在本实施例中,将提供关于除了语音和操作声音之外还存在背景噪声的情况的描述。在该实施例中,在其中存在语音的语音区间、其中存在诸如操作声音等的非稳定噪声的非稳定声音区间以及其中存在从空调等出现的稳定背景噪声的稳定声音区间中检测输入信号,并计算适合于每个区间的滤波器。下文中,将不重复与第一实施例中的配置相同配置的描述,并将详细地特别描述与第一实施例不同的配置。
图18是示出语音处理装置200的功能组成的框图。如图18中所示,语音处理装置200配备有语音检测单元102、操作声音检测单元104、滤波器单元108、特征量计算单元202、滤波器计算单元204等。参照图19,将描述特征量计算单元202的特征量计算处理。
图19是示出特征量计算单元202的特征量计算处理的流程图。如图19中所示,特征量计算单元202的计算部(未示出)从语音检测单元102和操作声音检测单元104获取控制信号(S202)。然后,基于在步骤S202中获取的控制信号来确定输入信号是否在语音区间中(S204)。当在步骤S204中确定该信号在语音区间中时,计算语音的特征量(S206)。
当在步骤S204中确定该信号不在语音区间中时,确定该信号是否在操作声音区间中(S208)。当在步骤S208中确定该信号在操作声音区间中时,计算操作声音的特征量(S210)。此外,当在步骤S208中确定该信号不在操作声音区间中时,计算背景噪声的特征量(S212)。
此外,在特征量计算单元202的保持部具有作为语音的特征的相关矩阵Rs和相关矢量Vs,具有作为操作声音的特征的相关矩阵Rk和相关矢量Vk,并且具有作为背景噪声的特征的相关矩阵Rn和相关矢量Vn的情况下,执行图20中所示的处理。
如图20中所示,首先,计算部计算关于输入信号的相关矩阵Rx和相关矢量Vx(S220)。然后,计算部从语音检测单元102和操作声音检测单元104获取控制信号(S222)。然后,基于在步骤S222中获取的控制信号来确定输入信号是否在语音区间中(S224)。
当在步骤S224中确定信号在语音区间中时,从保持部读取Rn和Vn,计算Rs=Rx-Rn和Vs=Vx-Vn,并将结果保持在保持部中(S226)。在步骤S226中减去背景噪声的部分。此外,在保持Rs和Vs之前,可以利用已经保持的结果对这些结果进行适当的平滑化。
此外,当在步骤S224中确定该信号不在语音区间中时,确定该信号是否在操作声音区间中(S228)。当在步骤S228中确定该信号在操作声音区间中时,从保持部读取Rn和Vn,计算Rk=Rx-Rn和Vk=Vx-Vn,并将结果保持在保持部中(S230)。在步骤S230中减去背景噪声的部分,但是当操作声音非常小时可以不进行该减法。
此外,当在步骤S228中确定该信号不在操作声音区间中时,设置Rn=Rx和Vn=Vx,并将结果保持在保持部中(S232)。
接下来,参照图21,将描述滤波器计算单元204进行的滤波器计算处理。图21是示出滤波器计算单元204的滤波器计算处理的流程图。如图21中所示,首先,滤波器计算单元204的计算部(未示出)从语音检测单元102和操作声音检测单元104获取控制信号(S240)。然后,基于在步骤S240中获取的控制信号来确定输入信号是否在语音区间中(S242)。
当在步骤S242中确定该信号在语音区间中时,执行滤波器系数的学习使得输入信号被保持(S244)。当在步骤S242中确定该信号不在语音区间中时,确定该信号是否在操作声音区间中(S246)。当在步骤S246中确定该信号在操作声音区间中时,执行滤波器系数的学习使得输出信号为零(S248)。当在步骤S246中确定该信号不在操作声音区间中时,执行滤波器系数的学习使得输出信号为零(S250)。
接下来,将描述使用当使用特征量计算单元202计算出的特征量时的滤波器计算单元204的学习规则。下文中,将提供关于按与第一实施例中的方式相同的方式使用LMS算法的情况的描述,但是本发明不限于此,并且可以使用学习识别方法等。
滤波器计算单元204的关于语音区间的学习规则通过以下数学表达式来表述。此处,c是0≤c≤1中的值,并且是用于决定操作声音和背景噪声的抑制比的值。换句话说,通过减小c的值可以强烈抑制操作声音分量。
[表达式28]
e1=x1(t-τ)-φ(t)T·w:用于保持输入信号的部分
e2=0-wT·(c·Rn+(1-c)·Rk)·w:用于抑制操作声音和背景噪声分量的部分
w=w+μ·(α·e1·φ(t)+(1-α)·e2·(c·Rn+(1-c)·Rk)·w)
此外,通过以下数学表达式来表述关于操作声音区间的学习规则。
[表达式29]
e1=0-φ(t)T·w:用于抑制操作声音的部分
e2=Rx T·(Vx-Rx·w):用于保持语音分量的部分
w=w+μ·(β·e1·φ(t)+(1-β)·e2)
为了满足操作声音在操作声音区间中被强烈抑制并且背景噪声区间被链接到语音区间而没有不适的条件,期望将β(0≤β≤1)设置为大值并且将γ(0≤γ≤1)被设置为小于β的值。
此外,通过以下数学表达式来表述关于背景噪声区间的学习规则。
[表达式30]
e1=0-φ(t)T·w:用于抑制背景噪声的部分
e2=Rx T·(Vx-Rx·w):用于保持语音分量的部分
w=w+μ·(γ·e1·φ(t)+(1-γ)·e2)
这样,在根据该实施例的语音处理装置200中,通过略微抑制语音区间中的噪声可以在存在背景噪声的环境中改善语音的质量。此外,可以抑制噪声使得操作声音在操作声音区间中被强烈抑制并且背景噪声被平滑地链接到语音区间。现在,对第二实施例的描述结束。
<4.第三实施例>
接下来,将参照图22描述第三实施例。如图22中所示,第三实施例与第一实施例的差别在于提供了约束条件验证单元302。下文中,将特别地详细提供关于与第一实施例不同的配置的描述。
约束条件验证单元302是本发明的验证单元的示例。约束条件验证单元302具有验证滤波器计算单元106计算出的滤波器系数的约束条件的功能。更具体地,约束条件验证单元302基于特征量计算单元110计算出的每个区间中的特征量来验证滤波器系数的约束条件。约束条件验证单元302对背景噪声区间和语音区间中的滤波器系数提出约束,使得其余噪声量是均匀的。因此,可以防止当在背景噪声区间和语音区间之间执行转换时噪声突然增加,从而在没有不适的情况下输出语音。
接下来,将参照图23描述约束条件验证单元302的功能。图23是示出约束条件验证单元302的功能的框图。如图23中所示,计算部304通过使用从特征量计算单元110提供的特征量和滤波器计算单元106的当前滤波器系数来计算预定评估值。然后,确定部306通过比较保持部308中保持的值和计算部304计算出的评估值来执行确定。设置部310根据确定部306的确定结果来设置滤波器计算单元106的滤波器系数。
接下来,将参照图24来描述约束条件验证单元302的约束条件验证处理。图24是示出约束条件验证单元302的约束条件验证处理的流程图。如图24中所示,首先,计算部304从语音检测单元102和操作声音检测单元104获取控制信号(S302)。然后,基于在步骤S302中获取的控制信号确定输入信号是否在语音区间中(S304)。
当在步骤S304中确定该信号在语音区间中时,计算关于背景噪声和操作声音的评估值(S306)。此外,当在步骤S304中确定该信号不在语音区间中时,确定该信号是否在操作声音区间中(S308)。当在步骤S308中确定该信号在操作声音区间中时,计算关于语音分量的评估值(S310)。此外,当在步骤S308中确定该信号不在操作声音区间中时,计算关于语音分量的评估值(S312)。
然后,确定步骤S306、S310和S312中计算出的评估值是否满足预定条件(S314)。当在步骤S314中确定这些值满足条件时,处理结束。当在步骤S314中确定这些值不满足条件时,在滤波器计算单元106中设置滤波器系数(S316)。
下文中,将描述约束条件验证单元302使用从特征量计算单元110获得的相关矩阵和相关矢量的情况。约束条件验证单元302分别通过以下数学表达式基于每个特征量定义语音分量的劣化量、背景噪声分量的抑制量以及操作声音分量的抑制量。
[表达式31]
P1=‖Vx-Rx·w‖2:语音分量的劣化量
P2=wT·Rn·w:背景噪声分量的抑制量
P3=wT·Rk·w:操作声音分量的抑制量
然后,确定P2和P3的值是否大于语音区间中的阈值。此外,确定P1的值是否大于背景噪声区间中的阈值。此外,确定P1的值是否大于操作声音区间中的阈值。
将提供关于如何根据上述约束条件验证单元302的验证结果来控制滤波器计算单元106的滤波器系数的描述。将例示背景噪声区间中的滤波器系数的控制。如下表述背景噪声区间中的滤波器的学习规则。
[表达式32]
e1=0-φ(t)T·w
e2=Rx T·(Vx-Rx·w)
w=w+μ·(γ·e1·φ(t)+(1-γ)·e2)
此处,当在上述确定中确定P1的值大于阈值时,语音的劣化显著,并且因此执行控制使得语音不劣化。换句话说,减小γ的值。此外,当在上述确定中确定P1的值小于阈值时,语音的劣化不显著,并且因此执行控制使得背景噪声被进一步抑制。换句话说,增大γ的值。同样地,可以通过使滤波器计算单元106中的误差的权重系数可变来执行控制。
接下来,将参照图25来描述约束条件验证单元302的特定处理。图25是示出约束条件验证单元302的特定约束条件验证处理的流程图。如图25中所示,首先,计算部304从语音检测单元102和操作声音检测单元104获取控制信号(S320)。然后,基于步骤S320中获取的控制信号来确定输入信号是否在语音区间中(S322)。当在步骤S322中确定该信号在语音区间中时,利用以下数学表达式来计算背景噪声分量和操作声音分量的抑制量(S324)。
[表达式33]
P=c·P2+(1-c)·P3
然后,确定步骤S324中计算出的抑制量P是否小于阈值Pth_sp1(S326)。此处,噪声的抑制量的阈值Pth_sp1通过以下数学表达式来计算。
[表达式34]
Pth_1=c·Pth_2+(1-c)·Pth_3
当在步骤S326中确定抑制量P小于阈值Pth_sp1时,增大滤波器系数α的值(α=α+Δα)(S328)。此外,当确定抑制量P大于阈值Pth_sp1时,减小滤波器系数α的值(α=α-Δα)(S330)。
当在步骤S322中确定信号不在语音区间中时,确定该信号是否在操作声音区间中(S332)。当在步骤S332中确定该信号在操作声音区间中时,计算操作声音的抑制量P3(S334)。然后更新Pth_3(Pth_3=P3)(S336)。然后,计算语音分量的劣化量(P=P1)(S338)。
然后确定步骤S338中计算出的劣化量P是否小于阈值Pth_sp3(S340)。预先从外部给出步骤S340中的阈值Pth_sp3。当在步骤S340中确定劣化量P小于阈值Pth_sp3时,增大滤波器系数β的值(β=β+Δβ)(S342)。当在步骤S340中确定劣化量P大于阈值Pth_sp3时,减小滤波器系数β的值(β=β-Δβ)(S344)。
当在步骤S332中确定信号不在操作声音区间中时,计算背景噪声的抑制量P2(S346)。然后更新Pth_2(Pth_2=P2)(S348)。然后计算语音分量的劣化量(P=P1)(S350)。
然后,确定步骤S350中计算出的劣化量P是否小于阈值Pth_sp2(S352)。预先从外部给出步骤S352中的阈值Pth_sp2。当在步骤S352中确定劣化量P小于阈值Pth_sp2时,增大滤波器系数γ的值(γ=γ+Δγ)(S354)。当在步骤S352中确定劣化量P大于阈值Pth_sp2时,减小滤波器系数γ的值(γ=γ-Δγ)(S356)。
现在,对第三实施例的描述结束。根据第三实施例,除了抑制噪声之外最终在没有不适的情况下输出语音是可能的。
<5.第四实施例>
接下来,将描述第四实施例。图26是示出根据该实施例的语音处理装置400的功能组成的框图。该实施例与第一实施例的区别在于提供了稳定噪声抑制单元402和404。下文中,将特别地详细提供关于与第一实施例不同的配置的描述。在抑制操作声音之前,稳定噪声抑制单元402和404预先抑制背景噪声。因此,在处理的后面阶段中高效地抑制操作声音是可能的。在稳定噪声抑制单元402中可以使用频域中的谱减法、时域中的Wiener滤波器等任何方法。
<6.第五实施例>
接下来,将描述第五实施例。图27是示出根据该实施例的语音处理装置500的功能组成的框图。该实施例与第一实施例的区别在于提供了稳定噪声抑制单元502。下文中,将特别地详细提供关于与第一实施例不同的配置的描述。在滤波器单元108旁边提供稳定噪声抑制单元502,并且稳定噪声抑制单元502可以减少在操作声音和背景噪声的抑制之后剩余的剩余噪声。
<7.第六实施例>
接下来,将描述第六实施例。图28是示出根据该实施例的语音处理装置600的功能组成的框图。该实施例与第一实施例的区别在于提供了稳定噪声抑制单元602和604。下文中,将特别地详细提供关于与第一实施例不同的配置的描述。稳定噪声抑制单元602是针对特定声道提供的。此外,稳定噪声抑制单元602的输出用于计算语音区间中的滤波器。
语音区间中的滤波器的计算规则通过以下数学表达式来表述。
[表达式35]
e1=x1(t-τ)-φ(t)T·w
e2=0-wT·(c·Rn+(1-c)·Rk)·w
w=w+μ·(α·e1·φ(t)+(1-α)·e2·(c·Rn+(1-c)·Rk)·w)
直到现在,已经使用了包括背景噪声的输入信号,但是在本实施例中,使用稳定噪声抑制单元602的输出而非以下值。
[表达式36]
x1(t-τ)
这样,通过简单地使用抑制稳定噪声的信号可以增强在滤波器单元108中抑制稳定噪声的效果。
上文中,参照附图详细描述了本发明的示例性实施例,但是本发明不限于此。显然,具有本发明所属技术领域的一般知识的人可以理解在本发明的权利要求中描述的技术思想的范围内的各种经修改或变更的示例,并且自然地理解它们属于本发明的技术范围。
例如,本说明书的语音处理装置100、200、300、400、500和600的处理中的每个步骤不一定以根据流程图中描述的顺序按时间序列进行处理。换句话说,语音处理装置100、200、300、400、500和600的处理中的每个步骤甚至可以在不同处理中并行实现。
此外,语音处理装置100、200、300、400、500和600可以按计算机程序的形式来创建,用于呈现与上述语音处理装置100、200、300、400、500和600中嵌入的诸如CPU、ROM、RAM等每个硬件配置相同的功能。此外,还可以可以提供用于存储计算机程序的存储介质。
本申请包含2010年3月16日提交日本专利局的日本在先专利申请JP 2010-059622中披露的主题内容相关的主题内容,其全部内容通过引用合并于此。
本领域技术人员应当理解,在所附权利要求及其等同物的范围内,根据设计要求和其他因素可以进行各种修改、组合、子组合和变更。
Claims (13)
1.一种语音处理装置,包括:
区间检测单元,其从输入信号检测包括语音信号的语音区间或包括除了所述语音信号之外的非稳定信号的非稳定声音区间;以及
滤波器计算单元,其根据所述区间检测单元的检测结果来计算用于保持所述语音区间中的所述语音信号和用于抑制所述非稳定声音区间中的所述非稳定信号的滤波器系数,
其中,所述滤波器计算单元通过将在所述非稳定声音区间中计算出的滤波器系数用于所述语音区间并将在所述语音区间中计算出的滤波器系数用于所述非稳定声音区间来计算所述滤波器系数。
2.根据权利要求1所述的语音处理装置,还包括:
记录单元,其将所述滤波器计算单元中计算出的所述滤波器系数的信息针对每个区间地记录在存储单元中,
其中,所述滤波器计算单元通过使用在所述语音区间中记录的非稳定声音区间的滤波器系数的信息和在所述非稳定声音区间中记录的语音区间的滤波器系数的信息来计算滤波器系数。
3.根据权利要求1所述的语音处理装置,其中,所述滤波器计算单元计算用于输出使得所述输入信号被保持在所述语音区间中的信号的滤波器系数,并计算用于输出使得所述输入信号在所述非稳定声音区间中为零的信号的滤波器系数。
4.根据权利要求1所述的声音处理装置,还包括:
特征量计算单元,其计算所述语音区间中的所述语音信号的所述特征量和所述非稳定声音区间中的所述非稳定声音信号的所述特征量,
其中,所述滤波器计算单元通过使用所述语音区间中的所述非稳定信号的所述特征量并使用所述非稳定声音区间中的所述语音信号的所述特征量来计算所述滤波器系数。
5.根据权利要求1所述的语音处理装置,
其中,所述区间检测单元检测包括所述语音信号或除了所述非稳定信号之外的稳定信号的稳定声音区间,以及
其中,所述滤波器计算单元计算用于抑制所述稳定声音区间中的所述稳定声音信号的滤波器系数。
6.根据权利要求5所述的语音处理装置,其中,所述特征量计算单元计算所述稳定声音区间中的所述稳定声音信号的所述特征量。
7.根据权利要求6所述的语音处理装置,其中,所述滤波器计算单元通过在所述语音区间中使用所述非稳定声音信号的所述特征量和所述稳定声音信号的所述特征量、在所述非稳定声音区间中使用所述语音信号的所述特征量以及在所述稳定声音区间中使用所述语音信号的所述特征量来计算所述滤波器系数。
8.根据权利要求1所述的语音处理装置,包括:
验证单元,其验证所述滤波器计算单元计算出的所述滤波器系数的约束条件,
其中,所述验证单元基于所述特征量计算单元计算出的每个区间中的特征量来验证所述滤波器系数的约束条件。
9.根据权利要求8所述的语音处理装置,其中,所述验证单元基于所述非稳定声音区间中的所述非稳定声音信号的抑制量和所述稳定声音区间中的所述稳定声音信号的抑制量是否等于或小于预定阈值的确定来验证所述语音区间中的所述滤波器系数的约束条件。
10.根据权利要求8所述的语音处理装置,其中,所述验证单元基于所述语音区间中的所述语音信号的劣化量是否等于或大于预定阈值的确定来验证所述非稳定声音区间中的所述滤波器系数的约束条件。
11.根据权利要求8所述的语音处理装置,其中,所述验证单元基于所述语音区间中的所述语音信号的劣化量是否等于或大于预定阈值来验证所述稳定声音区间中的所述滤波器系数的约束条件。
12.一种语音处理方法,包括以下步骤:
从输入信号检测包括语音信号的语音区间或包括除了所述语音信号之外的非稳定信号的非稳定声音区间;以及
根据检测结果,通过将在所述非稳定声音区间中计算出的滤波器系数用于所述语音区间来保持所述语音信号,并通过将在所述语音区间中计算出的滤波器系数用于所述非稳定声音区间来抑制所述非稳定信号。
13.一种使计算机用作语音处理装置的程序,所述语音处理装置包括:
区间检测单元,其从输入信号检测包括语音信号的语音区间或包括除了所述语音信号之外的非稳定信号的非稳定声音区间;以及
滤波器计算单元,其根据所述区间检测单元的检测结果计算用于保持所述语音区间中的所述语音信号和用于抑制所述非稳定声音区间中的所述非稳定信号的滤波器系数,
其中,所述滤波器计算单元通过将在所述非稳定声音区间中计算出的滤波器系数用于所述语音区间并将在所述语音区间中计算出的滤波器系数用于所述非稳定声音区间来计算所述滤波器系数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-059622 | 2010-03-16 | ||
JP2010059622A JP2011191668A (ja) | 2010-03-16 | 2010-03-16 | 音声処理装置、音声処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102194463A true CN102194463A (zh) | 2011-09-21 |
CN102194463B CN102194463B (zh) | 2015-09-23 |
Family
ID=44602414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110060856.4A Expired - Fee Related CN102194463B (zh) | 2010-03-16 | 2011-03-09 | 语音处理装置、语音处理方法和程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8510108B2 (zh) |
JP (1) | JP2011191668A (zh) |
CN (1) | CN102194463B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012091643A1 (en) | 2010-12-29 | 2012-07-05 | Telefonaktiebolaget L M Ericsson (Publ) | A noise suppressing method and a noise suppressor for applying the noise suppressing method |
US20140072143A1 (en) * | 2012-09-10 | 2014-03-13 | Polycom, Inc. | Automatic microphone muting of undesired noises |
CN103594092A (zh) * | 2013-11-25 | 2014-02-19 | 广东欧珀移动通信有限公司 | 一种单麦克风语音降噪方法和装置 |
WO2016034915A1 (en) * | 2014-09-05 | 2016-03-10 | Intel IP Corporation | Audio processing circuit and method for reducing noise in an audio signal |
US10242689B2 (en) | 2015-09-17 | 2019-03-26 | Intel IP Corporation | Position-robust multiple microphone noise estimation techniques |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0977176A2 (en) * | 1998-07-29 | 2000-02-02 | Canon Kabushiki Kaisha | Speech processing method and apparatus, and recording medium |
US20020156623A1 (en) * | 2000-08-31 | 2002-10-24 | Koji Yoshida | Noise suppressor and noise suppressing method |
US20060015331A1 (en) * | 2004-07-15 | 2006-01-19 | Hui Siew K | Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition |
CN1748250A (zh) * | 2002-12-11 | 2006-03-15 | 索夫塔马克斯公司 | 在稳定性约束下使用独立分量分析的语音处理系统和方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5098889A (en) | 1990-09-17 | 1992-03-24 | E. R. Squibb & Sons, Inc. | Method for preventing or inhibiting loss of cognitive function employing a combination of an ace inhibitor and a drug that acts at serotonin receptors |
JP3484112B2 (ja) | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
US7613310B2 (en) * | 2003-08-27 | 2009-11-03 | Sony Computer Entertainment Inc. | Audio input system |
JP4247037B2 (ja) | 2003-01-29 | 2009-04-02 | 株式会社東芝 | 音声信号処理方法と装置及びプログラム |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US8131541B2 (en) * | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
FR2950461B1 (fr) * | 2009-09-22 | 2011-10-21 | Parrot | Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
-
2010
- 2010-03-16 JP JP2010059622A patent/JP2011191668A/ja not_active Withdrawn
-
2011
- 2011-03-07 US US13/041,705 patent/US8510108B2/en active Active
- 2011-03-09 CN CN201110060856.4A patent/CN102194463B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0977176A2 (en) * | 1998-07-29 | 2000-02-02 | Canon Kabushiki Kaisha | Speech processing method and apparatus, and recording medium |
US20020156623A1 (en) * | 2000-08-31 | 2002-10-24 | Koji Yoshida | Noise suppressor and noise suppressing method |
CN1748250A (zh) * | 2002-12-11 | 2006-03-15 | 索夫塔马克斯公司 | 在稳定性约束下使用独立分量分析的语音处理系统和方法 |
US20060015331A1 (en) * | 2004-07-15 | 2006-01-19 | Hui Siew K | Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition |
Also Published As
Publication number | Publication date |
---|---|
US8510108B2 (en) | 2013-08-13 |
US20110231187A1 (en) | 2011-09-22 |
JP2011191668A (ja) | 2011-09-29 |
CN102194463B (zh) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
US10477031B2 (en) | System and method for suppression of non-linear acoustic echoes | |
US7941315B2 (en) | Noise reducer, noise reducing method, and recording medium | |
EP2562752A1 (en) | Sound source separator device, sound source separator method, and program | |
US8428946B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
CN109473118B (zh) | 双通道语音增强方法及装置 | |
CN104067339B (zh) | 噪音抑制装置 | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
CN103109320B (zh) | 噪声抑制装置 | |
CN103222192A (zh) | 信号处理设备、信号处理方法和信号处理程序 | |
Schmid et al. | Variational Bayesian inference for multichannel dereverberation and noise reduction | |
CN102194460A (zh) | 语音清晰度预测器及其应用 | |
CN101510426A (zh) | 一种噪声消除方法及系统 | |
CN103238183A (zh) | 噪音抑制装置 | |
CN102194463A (zh) | 语音处理装置、语音处理方法和程序 | |
CN109859769B (zh) | 一种掩码估计方法及装置 | |
US9330677B2 (en) | Method and apparatus for generating a noise reduced audio signal using a microphone array | |
CN104637493A (zh) | 改进噪声抑制性能的语音概率存在修改器 | |
CN102918592A (zh) | 信号处理方法、信息处理设备和信号处理程序 | |
CN104637490A (zh) | 基于mmse语音概率存在的准确正向snr估计 | |
CN102598128A (zh) | 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质 | |
Lee et al. | On using multivariate polynomial regression model with spectral difference for statistical model-based speech enhancement | |
Takahashi et al. | Structure selection algorithm for less musical-noise generation in integration systems of beamforming and spectral subtraction | |
Moghimi | Array-based spectro-temporal masking for automatic speech recognition | |
Sasaoka et al. | A variable step size algorithm for speech noise reduction method based on noise reconstruction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150923 |
|
CF01 | Termination of patent right due to non-payment of annual fee |