CN115668370A - 听力设备自带的语音检测器 - Google Patents

听力设备自带的语音检测器 Download PDF

Info

Publication number
CN115668370A
CN115668370A CN202080101014.6A CN202080101014A CN115668370A CN 115668370 A CN115668370 A CN 115668370A CN 202080101014 A CN202080101014 A CN 202080101014A CN 115668370 A CN115668370 A CN 115668370A
Authority
CN
China
Prior art keywords
signal
vac
pitch
microphone signals
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080101014.6A
Other languages
English (en)
Inventor
丽塔·涅米斯托
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN115668370A publication Critical patent/CN115668370A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种用于听力设备的语音检测器。所述语音检测器用于:获取一个或多个麦克风信号;获取语音加速度计(voice accelerometer,VAC)信号;根据所述一个或多个麦克风信号,识别所述VAC信号中是否存在基音;如果识别出所述VAC信号中存在基音,则确定所述基音是否与语音信号相关。

Description

听力设备自带的语音检测器
技术领域
本发明涉及可听戴设备领域。本发明尤其涉及一种用于听力设备的语音检测器以及一种语音检测方法。此外,本发明还涉及听力设备本身以及包括多个此类听力设备的听力系统。
背景技术
同时,无线耳机或其它可听戴设备也广泛用作电子设备的移动附件。传统上,可听戴设备用于听音乐(播放)。当可听戴设备中有麦克风时,可听戴设备还可用于电话服务,例如,与电子设备配合使用。最近,人们也越来越有兴趣使用可听戴设备来听环境音。
当用户使用可听戴设备时,除设置在用户耳朵内部的扬声器之外,可听戴设备还可以包括设置在用户耳朵外部的一个或多个麦克风。当用户使用可听戴设备时,可听戴设备本身通常插入用户的耳朵中。自然侧听通常是需要的,并重现外部信号,以便用户能够通过类似方式听到环境音,就好像用户根本没有佩戴可听戴设备一样。在这种情况下,可听戴设备中的增强听力功能包括一组音频信号处理方法,该组音频信号处理方法用于改善听觉效果以获取清晰度或愉悦度。
此外,对于听力受损的用户,增强听力功能意味着使用与助听器类似的可听戴设备。然而,任何人都可以从增强听力功能中受益,因为这能够控制外部语音水平。例如,如果一个人对另一个人说话声音太大,则另一个人可以将该人的语音调整到可容忍的水平。相应地,如果某人非常小声地说话,则可以使用可听戴设备来增强该人的语音。
然而,眼前的问题在于,简单增强(即,增强方方面面)也会增强用户自己的语音和背景噪音。特别地,用户自己的语音可能会因此变得太大。
具体地,简单增强对麦克风信号(可能通过自然侧听修改)应用增益,并在可听戴设备的扬声器上播放所生成的修改后的麦克风信号。通常,这种增强还会放大低水平背景噪声,该低水平背景噪声随后可以通过使用噪声抑制器来减小。然而,这种增强还会放大用户自己的语音;或者,在负增益的情况下减小用户自己的语音。
针对助听器,已经研究了涉及用户自己的语音检测的更复杂方法。例如,一种方法使用两个麦克风,并且通过两个麦克风信号之间的自适应滤波器来检测用户自己的语音。另一种方法假设将传感器植入用户的头部。然后,通过比较信号强度进行检测。
然而,第一种方法需要两个麦克风,不适用于仅具有一个麦克风的经济实惠的设备。在第二种方法中,检测不考虑语音的典型特征,并且可能受到咀嚼等的影响。
因此,需要改善听力设备自身的语音检测。
发明内容
鉴于上述问题和缺点,本发明旨在改进可听戴设备等听力设备的语音检测。因此,本发明的目的在于提供一种用于听力设备的语音检测器,所述语音检测器可以可靠、轻松地检测语音,尤其是所述听力设备的用户自己的语音。具体地,所述改进的语音检测器应克服上述缺点。
本发明的目的通过所附独立权利要求中的实施例提供的方案实现。实施例的有利实现方式在从属权利要求中进一步定义。
根据第一方面,本发明涉及一种用于听力设备的语音检测器,所述语音检测器用于:获取一个或多个麦克风信号;获取语音加速度计(voice accelerometer,VAC)信号;根据所述一个或多个麦克风信号,识别所述VAC信号中是否存在基音;如果识别出所述VAC信号中存在基音,则确定所述基音是否与语音信号相关。
例如,所述语音加速度计可以是低噪声、高带宽和时分复用(Time-DivisionMultiplexing,TDM)三轴微机电系统(Micro-Electro-Mechanical System,MEMS)加速度计。由于所述语音加速度计具有高带宽,因此特别适用于可听戴设备或智能耳机,在所述可听戴设备或所述智能耳机中,所述语音加速度计可以显著提高音频质量,在使用MEMS麦克风的系统中尤为如此。所述听力设备可以是耳塞式耳机。所述VAC信号可以是与所述听力设备的用户说话时波在人体内传播所引起振动对应的信号。VAC可以用于拾取此类振动并将其转换为所述VAC信号。所述麦克风信号中的每一个是与空气中传播的声波对应的信号,由一个或多个麦克风拾取并转换为所述麦克风信号。所述VAC可以不受空气中传播的此类声波的影响,因此,具体可以用于在耳朵内检测所述用户自己的语音。
根据第一方面所述的语音检测器具有以下优点,即可以可靠、轻松地检测所述用户自己的语音。此外,所述语音检测器还具有以下优点,即可以放大或减小环境音,而所述用户自己的语音可以保持在(或至少接近)其原始水平。此外,所述语音检测器还具有以下优点,即可以用于使所述用户的语音音量分别适应环境语音音量以及用户听到自己语音的方式。
在根据第一方面所述的语音检测器的一种实现方式中,所述语音检测器用于:根据所述一个或多个麦克风信号,确定第一VAC阈值;根据所述第一VAC阈值,识别所述VAC信号中是否存在所述基音。
所述基音可以仅在所述VAC信号的信号强度足够高(所述第一VAC阈值)时以更低的采样率(例如,2kHz)计算,以便具有中等复杂性。
此外,该实现方式具有以下优点,即可以简单、可靠的方式检测所述基音。
在根据第一方面所述的语音检测器的另一种实现方式中,所述语音检测器还用于:根据确定的第二VAC阈值,确定所述基音是否与所述语音信号相关。
该实现方式具有以下优点,即可以简单、可靠的方式检测所述基音,并且因此还可以检测相关语音。
在根据第一方面所述的语音检测器的另一种实现方式中,所述语音检测器还用于:附加地,如果所述基音的频率在预定义频率范围内,则确定所述基音与所述语音信号相关。
该实现方式具有以下优点,即仅根据预定义频率范围,就可以简单、可靠的方式检测所述基音。
在根据第一方面所述的语音检测器的另一种实现方式中,通过比较所述一个或多个麦克风信号的当前帧的信号功率与所述一个或多个麦克风信号的多个帧的平均信号功率,确定所述第一VAC阈值。
因此,可以比较每个麦克风信号的当前帧与同一麦克风信号的多个帧的平均值。替代地,可以比较多个麦克风信号的当前帧的平均值与多个麦克风信号的多个帧的平均值。
在根据第一方面所述的语音检测器的另一种实现方式中,如果所述一个或多个麦克风信号的所述当前帧的所述信号功率高于所述一个或多个麦克风信号的所述平均信号功率,则所述第一VAC阈值具有较高的值;和/或如果所述一个或多个麦克风信号的所述当前帧的所述信号功率等于或低于所述一个或多个麦克风信号的所述平均信号功率,则所述第一VAC阈值具有较低的值。
换言之,如果所述一个或多个麦克风中存在足够的信号,则用于所述基音检测的阈值较低;如果所述一个或多个麦克风中不存在任何信号,则用于所述基音检测的阈值较高。这是因为只有在所述一个或多个麦克风中能够听到的此类自己的语音才会衰减。
在根据第一方面所述的语音检测器的另一种实现方式中,为了识别所述VAC信号中是否存在所述基音,所述语音检测器用于:确定在所述VAC信号的至少一个帧中检测到的基音是男性基音还是女性基音。
在根据第一方面所述的语音检测器的另一种实现方式中,为了识别所述VAC信号中是否存在所述基音,所述语音检测器还用于:在所述VAC信号的其它帧中查找所述确定的男性基音;或在所述VAC信号的其它帧中查找所述确定的女性基音。
这提高了在所述VAC信号中检测所述用户的语音的准确性,因为可以排除男性或女性频率范围之外的周期性声音。
在根据第一方面所述的语音检测器的另一种实现方式中,为了识别所述VAC信号中是否存在所述基音,所述语音检测器还用于:根据所述VAC信号计算一个或多个倒谱系数;基于所述第一VAC阈值和所述第二VAC阈值,根据所述一个或多个倒谱系数计算所述基音。
这提供了一种简单、可靠的方法来检测所述VAC信号中的基音,所述VA信号很可能与语音相关。
在根据第一方面所述的语音检测器的另一种实现方式中,根据以下公式计算所述一个或多个倒谱系数:
c=IFFT(abs(FFT(x))^2),
其中,x表示所述VAC信号,FFT表示快速傅立叶变换,IFFT表示快速傅立叶反变换。
这具有以下优点,即所述语音检测器能够以计算高效的方式计算所述倒谱系数。
在根据第一方面所述的语音检测器的另一种实现方式中,为了识别所述VAC信号中是否存在所述基音,所述语音检测器还用于:确定与某一频率范围对应的最大倒谱系数;如果所述最大倒谱系数除以所述信号功率所得的值大于所述第一VAC阈值,则识别出所述基音存在于所述VAC信号中。
在根据第一方面所述的语音检测器的另一种实现方式中,所述语音检测器还用于:如果所述VAC信号的当前帧的归一化最大倒谱系数高于所述第二VAC阈值,则确定所述基音与所述VAC信号的所述当前帧中的所述语音信号相关;其中,所述第二VAC阈值通过所述VAC信号的多个帧的平均信号功率确定。
这有助于避免对非常低的基音(例如,低于65Hz)进行语音检测,所述非常低的基音被认为是用户嘴内的咀嚼或其它非语音活动。
根据第二方面,本发明涉及一种听力设备,包括:根据第一方面及其实现方式中的一种所述的语音检测器;噪声抑制器,用于通过选择性地对所述一个或多个麦克风信号中的语音信号应用增益来生成一个或多个修改后的麦克风信号;其中,所述语音信号对应于所述语音检测器检测到的所述VAC信号中的语音信号。
这具有以下优点,即可以抑制背景噪声等噪声,或者可以增强麦克风信号,同时可以保持语音信号不受影响。当然,与所述麦克风信号中的背景噪声或环境噪声相比,也可以相对增大或减小所述语音信号的响度。此外,所述听力设备在计算上可以是高效的。
在根据第二方面所述的听力设备的一种实现方式中,所述噪声抑制器还用于通过抑制所述一个或多个麦克风信号中的背景噪声信号来生成所述一个或多个修改后的麦克风信号。
这具有以下优点,即可以抑制不必要的噪声,使得其它声音(例如,音乐)或侧听以及所述用户的语音(所述语音信号)更容易听到。
在根据第二方面所述的听力设备的另一种实现方式中,所述听力设备还包括:增强器,用于对所述一个或多个修改后的麦克风信号应用增强,尤其是根据用户输入确定的增强。
这具有以下优点,即可以根据所述用户的喜好调整所述麦克风信号。同时,根据第二方面所述的听力设备能够使所述用户自己的语音不受影响。
在根据第二方面所述的听力设备的另一种实现方式中,根据对所述一个或多个修改后的麦克风信号应用的所述增强,确定对所述语音信号应用的所述增益。
换言之,根据是否对所述一个或多个麦克风信号应用增强以及应用何种增强,可以确定所述增益并选择性地对所述语音信号应用所述增益。这样可以相对于所述一个或多个麦克风信号中的其它声音调整所述语音信号。
在根据第二方面所述的听力设备的另一种实现方式中,所述听力设备还用于:根据所述增强来选择所述增益,使得所述一个或多个修改后的麦克风信号中的所述语音信号的信号功率等于所述一个或多个麦克风信号中的所述语音信号的信号功率。
在根据第二方面所述的听力设备的另一种实现方式中,如果没有应用增强,则所述增益为零;如果应用负增强,则所述增益为正;如果应用正增强,则所述增益为负。
在根据第二方面所述的听力设备的另一种实现方式中,所述听力设备还包括:一个或多个麦克风,用于生成所述一个或多个麦克风信号;和/或VAC,用于生成所述VAC信号。
根据第三方面,本发明涉及一种系统,包括:根据第二方面及其实现方式中的一种所述的第一听力设备,所述第一听力设备包括:根据第一方面及其实现方式中的一种所述的第一语音检测器,用于获取一个或多个第一麦克风信号;并且包括第一噪声抑制器;根据第二方面及其实现方式中的一种所述的第二听力设备,所述第二听力设备包括:根据第一方面及其实现方式中的一种所述的第二语音检测器,用于获取一个或多个第二麦克风信号;并且包括第二噪声抑制器;所述第一噪声抑制器和所述第二噪声抑制器用于配合使用,以执行以下操作:处理所述一个或多个第一麦克风信号和所述一个或多个第二麦克风信号,以获取合并的麦克风信号;通过选择性地对所述合并的麦克风信号中的语音信号应用增益来生成修改后的合并的麦克风信号。
例如,所述第一听力设备可以用于所述用户的一只耳朵,所述第二听力设备可以用于所述用户的另一只耳朵。在这种情况下,根据第三方面所述的系统可以确保为所述用户提供最佳听力体验。
在一个实施例中,所述第一噪声抑制器和所述第二噪声抑制器用于形成单个噪声抑制器。
有利地,所述系统可以放大或减少环境音,但通过用于衰减低水平嘈杂声等的所述噪声抑制器,将所述用户自己的语音保持在(或接近)其原始水平。
在根据第三方面所述的系统的一种实现方式中,所述第一听力设备还包括第一增强器,所述第二听力设备还包括第二增强器;所述第一增强器和所述第二增强器用于配合使用,以对所述修改后的合并的麦克风信号应用增强。
在一个实施例中,所述第一增强器和所述第二增强器用于形成单个增强器。
在根据第三方面所述的系统的一种实现方式中,所述合并的麦克风信号通过组合所述一个或多个第一麦克风信号和所述一个或多个第二麦克风信号获取;或者通过波束成形获取;或者通过选择所述一个或多个第一麦克风信号或所述一个或多个第二麦克风信号(具体取决于哪种麦克风信号具有较高信号质量)作为所述合并的麦克风信号来获取。
根据第四方面,本发明涉及一种语音检测方法,所述方法包括:获取一个或多个麦克风信号;获取语音加速度计(voice accelerometer,VAC)信号;根据所述一个或多个麦克风信号,识别所述VAC信号中是否存在基音;如果在所述VAC信号中检测到基音,则确定所述基音是否与语音信号相关。
根据第四方面所述的方法具有与根据第一方面所述的语音检测器相同的优点,并且可以通过如上针对根据第一方面所述的语音检测器所述的相应实现方式来扩展。
根据第五方面,本发明涉及一种计算机程序,包括:程序代码,用于在计算上执行时,执行根据第四方面或其任何实现方式所述的方法。
根据第六方面,本发明涉及一种存储可执行程序代码的非瞬时性存储介质,在处理器执行所述可执行程序代码时,使得执行根据第四方面或其任何实现方式所述的方法。
需要说明的是,本申请所描述的所有设备、元件、单元和模块可以在软件或硬件元件或其任何组合中实现。本申请中描述的各种实体所执行的步骤以及所描述的各种实体要执行的功能均意在指各个实体用于执行各个步骤和功能。即使在以下具体实施例的描述中,外部实体要执行的特定功能或步骤未反映在执行该特定步骤或功能的实体的特定详细元件的描述中,技术人员应清楚,这些方法和功能可以在相应的软件或硬件元件中实现,或以此类元件的任何种组合实现。
附图说明
结合所附附图,下面具体实施例的描述阐述上述本发明的各方面及实现方式。
图1示出了本发明实施例提供的语音检测器的示意图;
图2示出了本发明实施例提供的男性语音的基音;
图3示出了本发明实施例提供的女性语音的基音;
图4示出了本发明实施例提供的包括语音检测器的听力设备的示意图;
图5示出了本发明实施例提供的包括语音检测器的听力设备处理的信号;
图6示出了本发明实施例提供的包括语音检测器的听力设备的示意图;
图7示出了本发明实施例提供的包括用于听力设备的语音检测器的系统的示意图;
图8示出了本发明实施例提供的语音检测方法的示意图。
具体实施方式
图1示出了本发明实施例提供的语音检测器100的示意图。所述语音检测器100用于听力设备400(参见图4),具体地,可以是所述听力设备400的一部分。在一些实施例中,所述语音检测器100可以是连接至所述听力设备400的补充设备。
所述语音检测器100用于从一个或多个麦克风201中获取一个或多个麦克风信号201a。所述一个或多个麦克风201可以是所述听力设备400的一部分。具体地,每个麦克风201可以向所述语音检测器100提供一个麦克风信号201a。
此外,所述语音检测器100用于从VAC 202中获取VAC信号202a。所述VAC 202可以是所述听力设备400的一部分。
此外,所述语音检测器100用于根据所述一个或多个麦克风信号(用单元101表示),识别所述VAC信号202a中是否存在基音。换言之,所述语音检测器100可以从所述一个或多个麦克风信号201a(在单元102中)中获取可用于所述基音检测的信息。例如,如下所述,根据所述一个或多个麦克风信号201a的信号功率,可以不同的灵敏度来检测所述VAC信号202a中的所述基音。
具体地,所述语音检测器100可以用于:根据所述一个或多个麦克风信号201a(在单元101中),例如根据所述一个或多个麦克风信号201a的所述信号功率,确定第一VAC阈值;根据所述第一VAC阈值,识别所述VAC信号202a中是否存在所述基音;其中,对于所述一个或多个麦克风信号201a的不同检测信号功率,所述第一VAC阈值可以是不同的。如图1所示,具体地,所述语音检测器100可以用于:通过比较所述一个或多个麦克风信号201a的当前帧的信号功率与所述一个或多个麦克风信号201a(在单元101中,接收所述一个或多个麦克风信号201a作为所述一个或多个麦克风201的输入)的多个帧的平均信号功率,确定所述第一VAC阈值。
如果识别出所述VAC信号202a中存在基音,则所述语音检测器100还用于确定所述基音是否与语音信号相关。具体地,所述语音检测器100可以用于根据第二VAC阈值(在单元103中),确定所述基音是否与所述语音信号相关。例如,如果所述VAC信号202a的信号功率高于所述第二VAC阈值,则所述语音检测器100只能确定所述基音与语音信号相关;附加地,如果所述基音的频率在预定义频率范围内,则确定所述基音与所述语音信号相关。
因此,可以使用通常在所述用户的耳朵内部生成的所述VAC信号202a以及通常在所述用户的耳朵外部生成的所述一个或多个麦克风信号201a来检测所述用户自己的语音。典型的VAC 202可以用于拾取所述用户自己的语音中的元音,但也可以拾取因运动(例如,咀嚼)引起的其它声音。此外,VAC 202的典型实现方式(例如,视觉处理单元(visionprocessing unit,VPU))可能对干扰非常敏感。
因此,所述语音检测器100可以有利地使用所述VAC信号202a中的所述基音、所述VAC信号202a的所述信号功率以及所述一个或多个麦克风信号201a的所述信号功率,以便更可靠地检测所述用户自己的语音。因此,本发明实施例可以非常精确地检测所述用户自己的语音,并进一步将其与所述用户嘴中的其它声音区分开来。
如上所述,除所述基音之外,所述相应信号功率也可以在所述语音检测器100执行的自身语音检测中发挥作用。例如,可以根据所述麦克风信号的存在来修改所述第一VAC阈值。实际上,可以通过计算所述一个或多个麦克风信号201a(在单元101中)的多个帧的平均信号功率并比较所述一个或多个麦克风信号201的当前帧的信号功率与所述平均信号功率来监控这种情况。如果所述一个或多个麦克风信号201中存在信号(即,所述当前信号功率高于所述平均信号功率),则用于基音检测的所述第一VAC阈值可以较低;如果所述一个或多个麦克风信号201中不存在信号(即,所述当前信号功率不高于所述平均信号功率),则所述第一VAC阈值可以较高。这是因为仅当在所述一个或多个麦克风201中能够听到自己的语音时,才应在进一步的处理过程中衰减自己的语音。换句话说,这有利地降低了虚假语音检测的可能性。
其次,如果所述VAC信号202a的所述信号功率低,则可能不存在自己的语音。可以与所述一个或多个麦克风信号201中存在语音信号类似的方式监控这种情况。值得注意的是,如果所述一个或多个麦克风201中存在语音信号但所述VAC 202中不存在语音信号,则所述一个或多个麦克风信号201a可以是应该增强的目标信号。此外,所述VAC 202中可能存在周期性干扰。然而,可以排除它们,因为它们的功率是恒定的,尽管所述基音检测可能将它们标记为语音。具体地,如果所述VAC信号202a(输入到单元103中)高于所述第二VAC阈值,则自身的语音检测(own voice detection,OVD)结果为正(O.V.D.=1),否则不为正(O.V.D.=0)。
此外,所述语音检测器100可以用于通过以下公式根据揭示周期性和谐波的倒谱系数c计算所述基音:
c=IFFT(abs(FFT(x))2),
其中,x表示30ms的语音信号(即,VAC信号)帧,IFFT和FFT分别表示所述信号x的快速傅立叶反变换和快速傅立叶变换。
所述基音还可以仅在所述VAC信号的信号功率足够高(即,高于所述第一VAC阈值)时以更低的采样率(例如,2kHz)计算,以便具有中等复杂性。
图2和图3分别示出了男性语音和女性语音的倒谱系数的计算。最后,如果最大倒谱系数在[65Hz,320Hz]的频率范围内,则将所述最大倒谱系数除以信号功率c(0)(与log(0)或无限基音对应的向量c的第一元素),并与所述第一VAC阈值进行比较。非常低的基音(即,频率低于65Hz)被认为是所述用户嘴内的咀嚼或其它非语音活动。
在一个实施例中,由于可听戴设备供个人使用,并且男性用户的基音相对较低且女性说话者的基音相对较高,因此所述语音检测器100中设有两个计数器,用于统计其中存在清晰基音的所述VAC信号202a的帧的百分比,以便确定所述基音是男性基音还是女性基音。做出确定之后,只会进一步查找所述女性基音或男性基音。换言之,如果确定所述基音是女性基音,例如可以仅在[120Hz,320Hz]的频率范围内进一步查找。替代地,如果确定所述基音是男性基音,例如可以仅在[65Hz,160Hz]的频率范围内进一步查找。在讲话时,基音通常不是恒定的,而是变化的。在中文等声调语言中,词具有不同的含义,具体取决于元音期间基音的变化,并且例如在英语中,基音在出现问题的情况下升高。例如,在芬兰语中,语音基音通常单调地下降。
图4示出了实施例提供的包括诸如图1所示的语音检测器100的听力设备400的示意图。
因此,所述听力设备400包括所述语音检测器100,并且还包括噪声抑制器401,所述噪声抑制器401用于通过选择性地对所述一个或多个麦克风信号201中的语音信号应用增益来生成一个或多个修改后的麦克风信号401a。所述语音信号对应于所述语音检测器100检测到的所述VAC信号202a中的语音信号。换言之,只有在所述语音检测器100检测到所述VAC信号202a中的语音信号,并且因此隐式地检测到所述一个或多个麦克风信号201中的语音信号时,所述噪声抑制器401才会选择性地对所述语音信号应用所述增益。
所述噪声抑制器401还可以用于通过抑制所述一个或多个麦克风信号201a中的背景噪声信号来生成所述一个或多个修改后的麦克风信号401a。
所述听力设备400还可以包括增强器402,所述增强器402用于对所述一个或多个修改后的麦克风信号应用增强,尤其是根据用户输入确定的增强。换言之,通过所述增强器402,所述用户可以控制所述听力设备400输出的总信号功率,即所述用户可以调整响度。
有利地,所述听力设备400因此可以放大或减少环境音,但通过用于衰减低水平嘈杂声的所述噪声抑制器401,将所述用户自己的语音保持在原始水平。
事实上,在自然环境中,始终存在一些低水平嘈杂声(远处的车流声、空调、机器、烤箱、冰箱、计算机等)。所述用户一般不会注意这些嘈杂声。然而,当此类噪声在自然侧听中重现时,这种情况与用户根本没有佩戴可听戴设备的情况类似但并不完全相同。因此,它被认为具有干扰性,并且所述噪声抑制器401可以用于衰减该嘈杂声。
在一个实施例中,所述用户通过用户接口(user interface,UI)203手动操作所述增强器402。所述用户接口203可以是所述听力设备400的用户接口,或者可以与所述听力设备400连接或通信。与所述用户可以调整可听戴设备的播放音量类似,所述用户还可以调整环境噪声的水平。同时,所述听力设备400可以用于将所述用户自己的语音保持在原始水平,并将低水平背景噪声推到使其几乎听不到的预定义水平。这可以通过修改所述噪声抑制器401来实现。在一个实施例中,所述用户通过用户接口(user interface,UI)203手动操作所述噪声抑制器401。
具体地,可以从所述用户接口(user interface,UI)203实现所需增强。例如,如果增强为零(0dB),则信号功率不会改变,并且自己的语音不需要控制或增强。如果增强为负,则信号衰减;如果增强为正,则信号功率增大。
例如,这意味着如果没有应用增强,则所述增益为零;如果应用负增强,则所述增益为正;如果应用正增强,则所述增益为负。增强后,向扬声器204提供所述增强的修改后的麦克风信号402a作为输入,以便向所述用户重现。所述扬声器可以是所述听力设备400的一部分或连接至所述听力设备(在这种情况下,所述听力设备400可以是可连接至任何类型的扬声器204的辅助设备)。
通过所述语音检测器100可以高效地实现自身的语音控制。每当改变所述增强时,则重新调谐所述噪声抑制器401并重新初始化相关增益参数。这具有在计算上高效的优点,因为大多数计算都是在初始化过程中进行的。
所述语音信号可以是用户自己的语音,用户自己的语音通常高于任何其它信号,并且在放大后会变得太响。所述用户还可以使自己的语音音量适应环境语音音量以及用户听到自己语音的方式。
为了更好地说明所述听力设备400如何处理不同的声音信号,在图5中,曲线501表示所述语音检测器100检测到的原始信号,而曲线502和曲线503表示所述增强器402增强±6dB的信号。在图5中,低水平噪声未增强(20-32秒),用户自己的声音也未增强(38-40秒)。值得注意的是,图5示出了随时间(x轴,单位为秒)变化的曲线值(y轴,单位为dB)。
总体而言,具有以下优点,即所述用户可以自然地听到自己处于原始水平的语音,而低水平噪声不会被放大,尽管其它一切都会衰减或更响。
图6示出了实施例提供的听力设备400的示意图,尤其是噪声抑制器401和增强器402。
例如,在所述听力设备400的该实施例中,所述噪声抑制器401在10ms帧中处理麦克风信号x。所述噪声抑制器401可以用于通过FFT将每个帧与增益G(t,ω)的乘积传输到频域,并通过快速傅立叶反变换传输回频域。所述增益G(t,ω)取决于所述噪声抑制器401根据所述帧的所述FFT、时间t时的噪声N(t,ω)和频率ω计算的功率谱密度(power spectraldensity,PSD)P(t,ω)。
理想情况下,对于纯语音,G(t,ω)=1;对于纯噪声,G(t,ω)=0;对于带噪语音,G(t,ω)介于两者之间,具体取决于估计的语音和噪声水平。实际上,所述增益限制在所述值以下;在一个实施例中,所述增益为0.25。在采用分贝作为单位的情况下,这对应于语音的0dB衰减和纯噪声的-12dB衰减,在这种情况下,最大衰减参数或噪声抑制器参数m为12dB。
如果所述语音信号增强,则可以修改所述噪声抑制器401的参数m。在正增强x dB的情况下,所述增益限制在-(x+m)dB以下;在负增强-x dB(x<m)的情况下,所述增益限制在(x-m)dB以下,否则,所述听力设备400可以用于关闭降噪功能。
最后,在一个实施例中,当自己的语音控制标记自己的语音活动时,所述听力设备400可以用于进一步修改所述噪声抑制器401的参数。在正增强x dB的情况下,所述增益限制在Govd(t,ω)=min(G(t,ω),-x)以上,使得所述增强器402可以用于将噪声抑制信号增强回原始水平,其中噪声被抑制m dB。在负增强的情况下,所述听力设备400可以用于修改所述噪声抑制器401的参数,使得:对于语音,Govd(t,ω)=10x/20;对于噪声,Govd(t,ω)=10max(x-m,0)/20
然后,可以根据(所述增强器402中的)增益参数来调整来自所述一个或多个麦克风201的所述一个或多个麦克风信号201a的所述信号功率,并且可以向扬声器204提供所述增强的修改后的麦克风信号402a作为输入。
图7示出了本发明实施例提供的系统700的示意图。所述系统700包括第一听力设备400a(例如,用于用户的一只耳朵)和第二听力设备400b(例如,用于用户的另一只耳朵),其中,所述第一听力设备400a和所述第二听力设备400b示出为机械连接。然而,所述听力设备400a和所述听力设备400b也可以彼此分开。
所述第一听力设备400a包括:第一语音检测器100a,用于获取一个或多个第一麦克风信号201a;并且包括第一噪声抑制器401a。所述第二听力设备400b包括:第二语音检测器100b,用于获取一个或多个第二麦克风信号201;并且包括第二噪声抑制器401b。所述语音检测器100a和所述语音检测器100b的功能可以是相同的。所述语音检测器100a和所述语音检测器100b的功能可以如上所述与所述语音检测器100相关。
此外,所述第一噪声抑制器401a和所述第二噪声抑制器401b分别用于配合使用,以执行以下操作:处理所述一个或多个第一麦克风信号201a和所述一个或多个第二麦克风信号201a,以获取合并的麦克风信号;通过选择性地对所述合并的麦克风信号中的语音信号应用增益来生成修改后的合并的麦克风信号401a。
在一个实施例中,所述合并的麦克风信号通过组合所述一个或多个第一麦克风信号201a和所述一个或多个第二麦克风信号201a获取;或者通过波束成形获取;或者通过选择所述一个或多个第一麦克风信号201a或所述一个或多个第二麦克风信号201a(具体取决于哪种麦克风信号具有较高信号质量(或功率))作为所述合并的麦克风信号来获取。
在一个实施例中,所述第一噪声抑制器401a和所述第二噪声抑制器401b用于形成单个噪声抑制器401。
在又一个实施例中,所述第一听力设备400a还包括第一增强器402a,所述第二听力设备400b还包括第二增强器402b;所述第一增强器402a和所述第二增强器402b用于配合使用,以对所述修改后的合并的麦克风信号401a应用增强。
在一个实施例中,所述第一增强器402a和所述第二增强器402b用于形成单个增强器402。
图8示出了实施例提供的语音检测方法800的示意图。所述方法800可以由所述语音检测器100(参见图1)执行,也可以由所述语音检测器100a和所述语音检测器100b(图7)中的每一个执行。
所述方法800包括以下步骤:步骤801:获取一个或多个麦克风信号201a;步骤802:获取VAC信号202a;步骤803:根据所述一个或多个麦克风信号201a,识别所述VAC信号202a中是否存在基音;步骤804:如果在所述VAC信号中检测到基音,则确定所述基音是否与语音信号相关。
已经结合作为示例的各种实施例以及实现方式对本发明进行了描述。但本领域技术人员通过实践本发明,研究附图、本发明以及所附的权利要求书,能够理解并获得其它变体。在权利要求书以及说明书中,词语“包括”不排除其它元件或步骤,且不定冠词“一个”不排除多个。单个元件或其它单元可满足权利要求中描述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。

Claims (24)

1.一种用于听力设备(400)的语音检测器(100),其特征在于,所述语音检测器(100)用于:
获取一个或多个麦克风信号(201a);
获取语音加速度计(voice accelerometer,VAC)信号(202a);
根据所述一个或多个麦克风信号(202a),识别所述VAC信号(201a)中是否存在基音;
如果识别出所述VAC信号(202a)中存在基音,
则确定所述基音是否与语音信号相关。
2.根据权利要求1所述的语音检测器(100),其特征在于,还用于:
根据所述一个或多个麦克风信号(201a),确定第一VAC阈值;
根据所述第一VAC阈值,识别所述VAC信号(202a)中是否存在所述基音。
3.根据权利要求1或2所述的语音检测器(100),其特征在于,还用于:
根据确定的第二VAC阈值,确定所述基音是否与所述语音信号相关。
4.根据权利要求1至3中任一项所述的语音检测器(100),其特征在于,用于:
附加地,如果所述基音的频率在预定义频率范围内,则确定所述基音与所述语音信号相关。
5.根据权利要求2至4中任一项所述的语音检测器(100),其特征在于,
通过比较所述一个或多个麦克风信号的当前帧的信号功率与所述一个或多个麦克风信号的多个帧的平均信号功率,确定所述第一VAC阈值。
6.根据权利要求5所述的语音检测器(100),其特征在于,
如果所述一个或多个麦克风信号的所述当前帧的所述信号功率高于所述一个或多个麦克风信号的所述平均信号功率,则所述第一VAC阈值具有较高的值;和/或
如果所述一个或多个麦克风信号的所述当前帧的所述信号功率等于或低于所述一个或多个麦克风信号的所述平均信号功率,则所述第一VAC阈值具有较低的值。
7.根据权利要求1至6中任一项所述的语音检测器(100),其特征在于,为了识别所述VAC信号(202a)中是否存在所述基音,所述语音检测器(100)用于:
确定在所述VAC信号(202a)的至少一个帧中检测到的基音是男性基音还是女性基音。
8.根据权利要求7所述的语音检测器(100),其特征在于,为了识别所述VAC信号(202a)中是否存在所述基音,所述语音检测器(100)还用于:
在所述VAC信号(202a)的其它帧中查找所述确定的男性基音;或
在所述VAC信号(202a)的其它帧中查找所述确定的女性基音。
9.根据权利要求1至8中任一项所述的语音检测器(100),其特征在于,为了识别所述VAC信号中是否存在所述基音,所述语音检测器(100)还用于:
根据所述VAC信号(202a)计算一个或多个倒谱系数;
基于所述第一VAC阈值和所述第二VAC阈值,根据所述一个或多个倒谱系数计算所述基音。
10.根据权利要求9所述的语音检测器(100),其特征在于,
根据以下公式计算所述一个或多个倒谱系数:
c=IFFT(abs(FFT(x))^2),
其中,x表示所述VAC信号,FFT表示快速傅立叶变换,IFFT表示快速傅立叶反变换。
11.根据从属于权利要求2的权利要求9或10所述的语音检测器(100),其特征在于,为了识别所述VAC信号(202a)中是否存在所述基音,所述语音检测器(100)还用于:
确定与某一频率范围对应的最大倒谱系数;
如果所述最大倒谱系数除以所述信号功率所得的值大于所述第一VAC阈值,则识别出所述基音存在于所述VAC信号(202a)中。
12.根据从属于权利要求3的权利要求11所述的语音检测器(100),其特征在于,用于:
如果所述VAC信号(202a)的当前帧的归一化最大倒谱系数高于所述第二VAC阈值,则确定所述基音与所述VAC信号的所述当前帧中的所述语音信号(202a)相关;
其中,所述第二VAC阈值通过所述VAC信号(202a)的多个帧的平均信号功率确定。
13.一种听力设备(400),其特征在于,包括:
根据权利要求1至12中任一项所述的语音检测器(100);
噪声抑制器(401),用于通过选择性地对一个或多个麦克风信号(201a)中的语音信号应用增益来生成一个或多个修改后的麦克风信号(401a);
其中,所述语音信号对应于所述语音检测器(100)检测到的所述VAC信号(202a)中的语音信号。
14.根据权利要求13所述的听力设备(400),其特征在于,
所述噪声抑制器(401)还用于通过抑制所述一个或多个麦克风信号(201a)中的背景噪声信号来生成所述一个或多个修改后的麦克风信号(401a)。
15.根据权利要求13或14所述的听力设备(400),其特征在于,还包括:
增强器(402),用于对所述一个或多个修改后的麦克风信号(401a)应用增强,尤其是根据用户输入确定的增强。
16.根据权利要求15所述的听力设备(400),其特征在于,
根据对所述一个或多个修改后的麦克风信号(401a)应用的所述增强,确定对所述语音信号应用的所述增益。
17.根据权利要求15或16所述的听力设备(400),其特征在于,用于:
根据所述增强来选择所述增益,使得所述一个或多个修改后的麦克风信号(401a)中的所述语音信号的信号功率等于所述一个或多个麦克风信号(201a)中的所述语音信号的信号功率。
18.根据权利要求15至17中任一项所述的听力设备(400),其特征在于,
如果没有应用增强,则所述增益为零;
如果应用负增强,则所述增益为正;
如果应用正增强,则所述增益为负。
19.根据权利要求13至18中任一项所述的听力设备(400),其特征在于,还包括:
一个或多个麦克风(201),用于生成所述一个或多个麦克风信号(201a);和/或
VAC(202),用于生成所述VAC信号(202a)。
20.一种系统(700),其特征在于,包括:
根据权利要求13至19中任一项所述的第一听力设备(400a),所述第一听力设备(400a)包括:根据权利要求1至12中任一项所述的第一语音检测器(100a),用于获取一个或多个第一麦克风信号(201a);并且包括第一噪声抑制器(401a);
根据权利要求13至19中任一项所述的第二听力设备(400b),所述第二听力设备(400b)包括:根据权利要求1至12中任一项所述的第二语音检测器(100b),用于获取一个或多个第二麦克风信号(201a);并且包括第二噪声抑制器(401b);
所述第一噪声抑制器(401a)和所述第二噪声抑制器(401b)用于配合使用,以执行以下操作:
-处理所述一个或多个第一麦克风信号(201a)和所述一个或多个第二麦克风信号(201a),以获取合并的麦克风信号;
-通过选择性地对所述合并的麦克风信号中的语音信号应用增益来生成修改后的合并的麦克风信号(401a)。
21.根据权利要求20所述的系统(700),其特征在于,
所述第一听力设备(400)还包括第一增强器(402a),所述第二听力设备(400)还包括第二增强器(402b);
所述第一增强器(402a)和所述第二增强器(402b)用于配合使用,以对所述修改后的合并的麦克风信号应用增强。
22.根据权利要求20或21所述的系统(700),其特征在于,所述合并的麦克风信号通过组合所述一个或多个第一麦克风信号和所述一个或多个第二麦克风信号获取;或者通过波束成形获取;或者通过选择所述一个或多个第一麦克风信号或所述一个或多个第二麦克风信号(具体取决于哪种麦克风信号具有较高信号质量)作为所述合并的麦克风信号来获取。
23.一种语音检测方法(800),其特征在于,所述方法(800)包括:
获取(801)一个或多个麦克风信号(201a);
获取(802)语音加速度计(voice accelerometer,VAC)信号(202a);
根据所述一个或多个麦克风信号(201a),识别(803)所述VAC信号(202a)中是否存在基音;
如果在所述VAC信号(202a)中检测到基音,
则确定(804)所述基音是否与语音信号相关。
24.一种计算机程序,其特征在于,包括:程序代码,用于在计算机上运行时,执行根据权利要求23所述的方法(800)。
CN202080101014.6A 2020-05-29 2020-05-29 听力设备自带的语音检测器 Pending CN115668370A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/065014 WO2021239254A1 (en) 2020-05-29 2020-05-29 A own voice detector of a hearing device

Publications (1)

Publication Number Publication Date
CN115668370A true CN115668370A (zh) 2023-01-31

Family

ID=71108550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080101014.6A Pending CN115668370A (zh) 2020-05-29 2020-05-29 听力设备自带的语音检测器

Country Status (3)

Country Link
EP (1) EP4158625A1 (zh)
CN (1) CN115668370A (zh)
WO (1) WO2021239254A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9438985B2 (en) * 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9997173B2 (en) * 2016-03-14 2018-06-12 Apple Inc. System and method for performing automatic gain control using an accelerometer in a headset
US10535362B2 (en) * 2018-03-01 2020-01-14 Apple Inc. Speech enhancement for an electronic device

Also Published As

Publication number Publication date
EP4158625A1 (en) 2023-04-05
WO2021239254A1 (en) 2021-12-02

Similar Documents

Publication Publication Date Title
US10810989B2 (en) Method and device for acute sound detection and reproduction
CN110741654B (zh) 耳塞语音估计
JP5665134B2 (ja) ヒアリングアシスタンス装置
DK180471B1 (en) Headset with active noise cancellation
CN113383385A (zh) 用于语音检测的方法和系统
JP2010011447A (ja) 補聴器並びに補聴器に用いられる補聴処理方法及び集積回路
JPWO2012140818A1 (ja) 補聴器および振動検出方法
EP3777114B1 (en) Dynamically adjustable sidetone generation
US9654855B2 (en) Self-voice occlusion mitigation in headsets
EP3830823B1 (en) Forced gap insertion for pervasive listening
US20230328461A1 (en) Hearing aid comprising an adaptive notification unit
CN115668370A (zh) 听力设备自带的语音检测器
KR102139599B1 (ko) 음향 전달 장치
JP3292098B2 (ja) 聴覚補助装置
CN116419111A (zh) 耳机的控制方法、参数生成方法、装置、存储介质及耳机
JPH10341123A (ja) 音響再生装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination