CN110830870B - 一种基于传声器技术的耳机佩戴者语音活动检测系统 - Google Patents
一种基于传声器技术的耳机佩戴者语音活动检测系统 Download PDFInfo
- Publication number
- CN110830870B CN110830870B CN201911174434.2A CN201911174434A CN110830870B CN 110830870 B CN110830870 B CN 110830870B CN 201911174434 A CN201911174434 A CN 201911174434A CN 110830870 B CN110830870 B CN 110830870B
- Authority
- CN
- China
- Prior art keywords
- voice
- wearer
- probability
- microphone
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000000694 effects Effects 0.000 title claims abstract description 45
- 238000005516 engineering process Methods 0.000 title claims abstract description 24
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 22
- 230000002452 interceptive effect Effects 0.000 description 13
- 210000005069 ears Anatomy 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于传声器技术的耳机佩戴者语音活动检测系统,包括:传声器阵列、第一估计模块、第二估计模块和联合控制模块;传声器阵列,用于接收声音信号;第一估计模块,用于根据声源的来波方向,确定佩戴者的第一语音存在概率;第二估计模块,用于根据声源的直达混响比,确定佩戴者的第二语音存在概率;联合控制模块,用于根据第一语音存在概率和第二语音存在概率,确定第三语音存在概率,对佩戴者进行语音活动检测。使用传声器阵列技术,检测耳机佩戴者语音活动。即便在低信噪比、高混响情况及多说话人干扰等复杂声学场景下,也能实现佩戴者语音活动检测,为后续的语音增强及语音识别技术提供重要依据。
Description
技术领域
本发明涉及语音活动检测领域,尤其涉及一种基于传声器技术的耳机佩戴者语音活动检测系统。
背景技术
当前,耳机已经成为日常娱乐及语音通信中不可缺少的电子产品。随着人工智能技术的发展,耳机不在局限于普通的通话功能,语音增强及语音助手等功能的加入大大提高了耳机的实用性。在实际应用中,耳机的通话传声器往往会拾取各种各样的噪声,噪声类型主要包括例如地铁噪声、马路噪声这类较为平稳的环境噪声,以及附近其他说话人或商城、高铁站广播等强非平稳噪声。这些噪声不仅会影响通话质量,而且会提高误唤醒,增大功耗并缩短待机时间。特别是当其他说话人距离佩戴者距离较近且音量较大时,佩戴者的语音活动检测会受到很大影响。为了解决上述问题,需要使用语音降噪技术对佩戴者说话语音进行增强,对环境噪声及其他干扰噪声进行抑制。
对于佩戴者语音活动检测(Voice activity detection,VAD),现有的方法主要分为三类,第一类是采用基于传声器阵列的语音增强算法对目标方向语音进行增强[1,2],通过波束形成技术对佩戴者语音进行增强并抑制其他方向的干扰,但是当信噪比较低,特别是存在强干扰语音时,该类方法往往会出现检测不到目标语音或者误将强干扰语音当成目标语音的现象,从而影响波束形成性能。第二类是基于辅助传感器的方法进行降噪[3-5],采用例如振动传感器或者加速度传感器(例如骨导传感器)等进行佩戴者语音活动检测,该类方法需要辅助传感器提供非声学信息进行辅助判断,虽然准确度较高,但需要佩戴者正确佩戴耳机且成本较高。第三类是利用分类思想,认为目标语音是近场信号,而其他语音是远场信号(至少半米以上),利用传声器接收信号的响度或信噪比等特点,设置多个门限进行场景分类,实现佩戴者说话检测[6]。该方法实际应用中不够鲁棒,且当干扰语音离目标较近时,会导致误判现象。
发明内容
本发明的目的在于提出一种基于传声器技术的耳机佩戴者语音活动检测新方法,既可应用于实时语音和音频通信系统,也可以应用于非实时的语音增强及语音唤醒等场景中。
本发明公开了一种基于传声器技术的耳机佩戴者语音活动检测系统,包括:传声器阵列、第一估计模块、第二估计模块和联合控制模块;其中,
传声器阵列,用于接收声音信号;传声器阵列包括至少两对传声器,每对传声器组至少由两个传声器组成,传声器对中的两个传声器分别设置在耳机的左耳部件和右耳部件上;
第一估计模块,用于根据传声器阵列接收的声音信号,估计声源的来波方向,确定佩戴者的第一语音存在概率;
第二估计模块,用于根据传声器阵列接收的声音信号,估计声源的直达混响比,确定佩戴者的第二语音存在概率;
联合控制模块,基于佩戴者嘴部与传声器阵列的对称性及近场语音特性,根据第一语音存在概率和第二语音存在概率,确定第三语音存在概率,对佩戴者进行语音活动检测。
一个实例中,左耳部件上的至少两个传声器形成指向佩戴者嘴部的波束形成器,形成波束输出;右耳部件上的至少两个传声器形成指向佩戴者嘴部的波束形成器,形成波束输出;第一估计模块根据至少两个波束输出的相位差,确定声源的来波方向。
一个实例中,联合控制模块,还用于对第一语音存在概率的概率函数和第二语音存在概率的概率函数进行加权,确定第三语音存在概率。
一个实例中,语音活动检测系统还包括:噪声处理模块;所述噪声处理模块用于判断是否存在噪声源,以及估计传声器处的佩戴者嘴部语音与噪声源信噪比。
一个实例中,联合控制模块,还用于根据信噪比对第一语音存在概率的概率函数和第二语音存在概率的概率函数进行加权,确定第三语音存在概率。
本发明的优点在于:使用传声器阵列技术,利用左右耳接收信号的时延差进行波达方向(DOA,Direction Of Arrival)估计,利用左右耳接收信号的相干性进行直达混相比估计;利用上述两个参数,并结合目标语音的空间特性和频谱特性,设计佩戴者语音存在概率函数估计器,用于检测耳机佩戴者语音活动。大量实验证明,本专利提出的新方法即便在低信噪比、高混响情况及多说话人干扰等复杂声学场景下,也能实现佩戴者语音活动检测,为后续的语音增强及语音识别技术提供重要依据。
附图说明
图1为语音活动检测系统的使用场景示意图;
图2为一种基于传声器技术的耳机佩戴者语音活动检测系统的传声器阵列与人脸关系示意图;
图3为一种基于传声器技术的耳机佩戴者语音活动检测系统原理框图;
图4(a)为本发明实施例中仅佩戴者说话的语谱图;
图4(b)为本发明实施例中仅佩戴者说话的角度估计时序图;
图4(c)为本发明实施例中仅佩戴者说话的第一语音存在概率时序图;
图5(a)为本发明实施例中仅有干扰声音的语谱图;
图5(b)为本发明实施例中仅有干扰声音的角度估计时序图;
图5(c)为本发明实施例中仅有干扰声音的第一语音存在概率时序图;
图6(a)为本发明实施例中包含佩戴者说话和干扰声音的语谱图;
图6(b)为本发明实施例中包含佩戴者说话和干扰声音的角度估计时序图;
图6(c)为本发明实施例中包含佩戴者说话和干扰声音的第一语音存在概率时序图;
图7(a)为本发明实施例环境一的场景俯视示意图;
图7(b)为本发明实施例环境一中仅佩戴者说话的语谱图;
图7(c)为本发明实施例环境一中仅佩戴者说话的第二语音存在概率时序图;
图8(a)为本发明实施例环境二的场景俯视示意图;
图8(b)为本发明实施例环境二中包含佩戴者说话和干扰声音的语谱图;
图8(c)为本发明实施例环境二中包含佩戴者说话和干扰声音的第二语音存在概率时序图;
图9(a)为本发明实施例环境三的场景俯视示意图;
图9(b)为本发明实施例环境三中包含佩戴者说话和干扰声音的语谱图;
图9(c)为本发明实施例环境三中包含佩戴者说话和干扰声音的第二语音存在概率时序图;
图10(a)为本发明实施例环境三中包含佩戴者说话和干扰声音的语谱图;
图10(b)为本发明实施例环境三中包含佩戴者说话和干扰声音的第三语音存在概率时序图;
图11(a)为本发明实施例环境四的场景俯视示意图;
图11(b)为本发明实施例环境四中包含佩戴者说话和干扰声音的语谱图;
图11(c)为本发明实施例环境四中包含佩戴者说话和干扰声音的第三语音存在概率时序图;
图12为一种基于传声器技术的耳机佩戴者语音活动检测系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为语音活动检测系统的使用场景示意图。如图1所示,一个环境(例如密闭的办公环境)中存在佩戴者11和干扰源12,一种基于传声器技术的耳机佩戴者语音活动检测系统(下文简称为检测系统)用于对佩戴者11进行语音活动检测。
图12为一种基于传声器技术的耳机佩戴者语音活动检测系统框图。如图12所示,语音活动检测系统包括:传声器阵列、第一估计模块、第二估计模块和联合控制模块。
传声器阵列,用于接收声音信号。传声器阵列包括至少两对传声器,每对传声器组至少由两个传声器组成,传声器对中的两个传声器分别设置在耳机的左耳部件和右耳部件上。
一个实例中,如图2所示,传声器阵列包括4个传声器。1号传声器21和2号传声器22分别位于佩戴者的左耳和右耳位置,并相对于佩戴者的嘴部形成对称关系。3号传声器23和4号传声器24分别位于佩戴者的左耳和右耳位置,并相对于佩戴者的嘴部形成对称关系。
在如图1所示的环境中,传声器阵列接收该环境中的声音信号,检测系统根据声音信号对佩戴者11进行语音活动检测。声音信号包括来自佩戴者11的声音信号以及来自干扰源12的声音信号。来自佩戴者11的声音信号可以是佩戴者11嘴部直达传声器的,也可以是通过反射到达传声器的。来自干扰源12的声音信号可以是干扰源12直达传声器的,也可以是通过反射到达传声器的。
第一估计模块,用于根据传声器阵列接收的声音信号,估计声源的来波方向,确定佩戴者的第一语音存在概率。
一个实例中,左耳部件上的至少两个传声器形成指向佩戴者嘴部的波束形成器,形成波束输出;右耳部件上的至少两个传声器形成指向佩戴者嘴部的波束形成器,形成波束输出;第一估计模块根据至少两个波束输出的相位差,确定声源的来波方向。
第二估计模块,用于根据传声器阵列接收的声音信号,估计声源的直达混响比,确定佩戴者的第二语音存在概率。
联合控制模块,基于声源与其两侧的传声器的对称性及近场语音特性,根据第一语音存在概率和第二语音存在概率,确定第三语音存在概率,对佩戴者进行语音活动检测。
一个实例中,对第一语音存在概率的概率函数和第二语音存在概率的概率函数进行加权,确定第三语音存在概率。
语音活动检测系统还包括:噪声处理模块;所述噪声处理模块用于判断是否存在噪声源,以及估计传声器处的佩戴者嘴部语音与噪声源信噪比。
一个实例中,联合控制模块根据信噪比对第一语音存在概率的概率函数和第二语音存在概率的概率函数进行加权,确定第三语音存在概率。
检测系统作为耳机上的硬件和/或软件结构,可以为耳机提供佩戴者的声音输入,还可以根据语音活动检测的判断结果,设计相应的处理系统。一个实例中,可以根据判断结果对耳机执行唤醒操作或进行其他方式的响应。
下文将对上述检测系统的具体信号处理逻辑和估计方法进一步的讨论。
1.信号模型
假设第i个传声器接收到的信号xi(n)为:
xi(n)=si(n)+ds,i(n)+dt,i(n) (1)
其中,si(n)、ds,i(n)和dt,i(n)分别为第i个传声器接收到的目标语音信号、平稳态噪声和瞬态噪声;i=1,2,...M,其中M为传声器个数。
本申请提出的方法适用于双传声器或者多传声器情况,即M≥2,要求耳机在左右耳处至少各有1个传声器。
如图1所示,其中佩戴者说话语音是目标语音,噪声包括了混响声、稳态的环境噪声,非佩戴者的语音干扰。
本申请的典型应用场景为左右耳各有两个传声器,同一侧的两个传声器可以形成指向佩戴者嘴巴处的波束形成器,左右两侧的波束输出记为yL(n)和yR(n)。
耳机佩戴者语音活动检测系统的传声器阵列与人脸的关系。如图2(包括:图2(a)正视图,图2(b)侧视图)所示,人脸左侧的1号传声器和3号传声器形成指向佩戴者嘴部的波束形成器,形成波束输出yL(n),人脸左侧的2号传声器和4号传声器形成指向佩戴者嘴部的波束形成器,形成波束输出yR(n)。
本申请提出的耳机佩戴者语音活动检测方法利用yL(n)和yR(n)的相位差信息估计主要声源的来波方向;利用yL(n)和yR(n)的相干性信息计算每个频点的直达混响比;利用人嘴到双耳的对称性及近场语音特性,设计基于保护佩戴者人嘴位置处的语音存在概率函数。最后,利用该语音存在概率函数进行佩戴者语音活动检测,并辅助实现后续的语音增强等应用。
图3给出了上述系统的原理框图。如图3所示,检测系统通过传声器阵列分别接收声音信号X1、X2、X3和X4。
步骤S311:采用广义相关GCC法分别对X1X2、X1X3、X2X4进行波达方向估计,得到对应的估计值θ12、θ13、θ24;
步骤S312:根据估计值计算第一语音存在概率Pddoa,即基于DOA信息的语音存在概率。
步骤S321:计算X1X2的相干性;
步骤S322:根据X1X2的相干性估计直达混响比CDR;
步骤S323:根据直达混响比计算第二语音存在概率Pcdr,即基于直达混响比的语音存在概率。
步骤S331:估计X1~X4中的一个或多个声音信号的的信噪比SNR。
步骤S340~步骤S350:根据第一语音存在概率、第二语音存在概率和信噪比,得到第三语音存在概率Pall,进行加权,得到基于第三语音存在概率的语音活动检测结果。
基于阵列信号处理技术,常见的波达方向估计算法包括了传统的广义相关(GCC,Generalized Cross-Correlation)法[7],高分辨率谱估计方法以及信号子空间类算法。波束形成算法可采用以延迟相加波束(DAS,Delay-and-Sum)形成[8]和超指波束(SD,Superdirectivity)形成[9]为代表的固定波束形成方法,也可采用广义旁瓣抑制方法[10]等自适应波束形成方法等。上述类型的算法都适用于本申请所提算法及其后续应用。
本申请的典型应用场景为左右耳各有两个传声器。其他的应用场景包括左右耳各一个传声器,或左右耳各有多于两个传声器。
将左右耳各一个传声器的情况看作是波束输出的特例,将左右侧传声器的接收信号分别作为该侧波束输出。在下文采用波束输出的公式中,需要对公式进行退化处理,以根据接收信号进行计算和估计。
当传声器的传声器数目多于两个时本申请同样适用。例如当左右耳机各有多于2个传声器时,同一侧的多个传声器可以形成指向佩戴者嘴巴处的波束形成器,进一步地,利用其它传声器对的相位差信息辅助估计来波方向。
2.耳机佩戴者语音活动检测
2.1基于DOA信息的佩戴者语音存在概率
如图2所示,以左右耳两侧的1,2号传声器组成的传声器对为例,不失一般性,两传声器接收的信号分别为x1(n)和x2(n),公式(1)的频域表达式:
Xi(k,l)=Si(k,l)+Ei(k,l),i=1,2 (2)
其中,Xi(k,l)、Si(k,l)和Ei(k,l)分别是x(n)、s(n)和e(n)的第l帧第k个频带短时谱,实际中可通过快速傅里叶(FFT,Fast Fourier Transform)实现。
假设阵列间距为d,利用1,2号传声器的接收信号(或两路波束输出信号)进行时延及DOA估计,常用方法为广义相关法。两传声器之间的互相关函数为:
其中,τ为时延,NFFT为FFT点数,fs为采样频率,kL为计算时选择频率范围的下限,kH为计算时选择频率范围的上限。根据公式(4),在τ∈[-d/c,d/c]的范围内对进行搜索并寻找最大值对应τ的作为输出,对应的角度估计为
如图2所示,1号传声器和2号传声器具有波达角θs1,1号传声器和3号传声器具有波达角θs2,2号传声器和4号传声器具有波达角θs2,根据佩戴者人嘴与双耳的位置关系,可得到θs1为90度,θs2约为30~40度之间。
当只存在佩戴者说话语音时,目标声源位于正前方,以1号传声器和2号传声器为例,波达角θs1=90度,估计角度θ12一般也在90度附近;当存在其他方向干扰时,估计角度θ12一般会偏向其他方向。可以根据θ12与θs1的偏离程度判断是否存在噪声源以及噪声源与佩戴者之间的信噪比。
当单侧存在多个传声器时,以1号传声器和3号传声器为例,当只存在佩戴者说话语音时,波达角θs2约为30-40度之间,估计角度θ13也在30-40度之间;当存在其他方向干扰时,估计角度θ13一般会偏向其他方向。同样可以根据θ13与θs2的偏离程度来判断是否存在噪声源以及噪声源与佩戴者之间的信噪比。
以左右两侧各两个传声器的情况为例进行算法说明,具体步骤如下:
1)利用1,3号传声器及2,4号传声器分别形成指向人嘴处的波束输出yL(n)和yR(n),计算两个波束的相对时延(也可以直接使用1,3号传声器估计相对时延),估计声源角度θ12;
2)计算1,3号传声器的相对时延,估计声源角度θ13;类似的利用2,4号传声器估计声源角度θ24;
3)通过加权系数α1、α2和α3分别对θ12与θs1的偏离程度、θ13与θs2的偏离程度、θ24与θs2的偏离程度进行加权,得到基于DOA信息的语音存在概率Pdoa(l),即第一语音存在概率。并设计概率函数如下:
其中,α1、α2和α3为加权系数,典型的取值为α1=0.5,α2=0.25,α3=0.25,θs1=90,θs2=40。
采用其余加权系数,或者采用其余形式与公式(5)达到类似效果的概率函数,也适用于本申请。
在一个具体实施例中,如图1所示的环境下,用户11的左右耳1,2号传声器间距为20cm,单侧两个传声器,即1,3号传声器间距以及2,4号传声器间距为3cm,单侧两个传声器连线方向指向人嘴处。以佩戴者人嘴处的声音为目标语音,干扰噪声为侧方宽带Babble噪声,信噪比约为5dB。
图4(a)为本发明实施例中仅佩戴者说话的语谱图;图4(b)为本发明实施例中仅佩戴者说话的角度估计时序图;图4(c)为本发明实施例中仅佩戴者说话的语音存在概率时序图。如图4(b)所示,同时出现1号传声器和2号传声器的声源角估计值约为90度、1号传声器和3号传声器的声源角估计值约为30-40度、2号传声器和4号传声器的声源角估计值约为30-40度时,对应于图4(a)中Q1~Q4区域,对应于图4(c)中的语音存在概率为1,此时,佩戴者正在说话。
图5(a)为本发明实施例中仅有干扰声音的语谱图;图5(b)为本发明实施例中仅有干扰声音的角度估计时序图;图5(c)为本发明实施例中仅有干扰声音的语音存在概率时序图。如图5(b)所示,不存在同时出现1号传声器和2号传声器的声源角估计值约为90度、1号传声器和3号传声器的声源角估计值约为30-40度、2号传声器和4号传声器的声源角估计值约为30-40度的情况,对应于图5(c)中的语音存在概率小于0.4,不存在佩戴者说话语音,仅有干扰声音。
图6(a)为本发明实施例中包含佩戴者说话和干扰声音的语谱图;图6(b)为本发明实施例中包含佩戴者说话和干扰声音的角度估计时序图;图6(c)为本发明实施例中包含佩戴者说话和干扰声音的语音存在概率时序图。如图6(b)所示,同时出现1号传声器和2号传声器的声源角估计值约为90度、1号传声器和3号传声器的声源角估计值约为30-40度、2号传声器和4号传声器的声源角估计值约为30-40度时,对应于图6(c)中的语音存在概率大于0.6,此时,佩戴者正在说话。
2.2基于直达混响比的佩戴者语音存在概率
利用传统的固定波束形成器或自适应波束形成器(左右各1个传声器为特例)形成左右侧分别指向人嘴出的波束输出yL(n)和yR(n)。将这两个波束输出看成两个指向性传声器,等效间距d约为双耳之间的距离。由于人嘴到双耳的对称性,可以认为人嘴处语音在左右波束输出信号中的幅频响应具有一致性,而从其他方向入射的信号在两个波束输出中具有不同的幅频响应;同时,由于人嘴距离这两个等效指向性传声器距离都较近,其他位置处入射的信号不具有这一特点,可以利用直达混响比衡量直达声成分和混响声成分[11],
结合第k个频点对应的理论扩散场噪声协方差矩阵、第k个频点对应的基于正前方90度入射时直达声协方差矩阵及直达声协方差矩阵的伴随矩阵、直达声协方差矩阵的实部及直达声协方差矩阵伴随矩阵的实部和左右耳传声器(波束输出)信号计算得到的相干函数,得到基于直达混响比的概率函数Pcdr(k,l),第二语音存在概率的概率函数。
设计基于直达混响比的概率函数:
其中,Re(·)为取实部操作,Cnn(k)是第k个频点对应的理论扩散场噪声协方差矩阵,Css(k)是第k个频点对应的基于正前方90度入射时直达声协方差矩阵,Cxx(k,l)是由左右耳传声器(波束输出)信号计算得到的相干函数。
当佩戴者说话时,公式(6)对应概率函数可获得较高值,而在其他方向信号入射时获得较低值。需要注意的是,这里的其他方向包括了所有距离较远的入射信号以及距离较近但非正前方入射的信号。
在一个具体实施例中,使用公式(6)得到的语音存在概率Pcdr(k,l),通过图7(c)、8(c)、9(c)中灰色的深度表示该频点对应的Pcdr(k,l)大小。灰色深度越小代表Pcdr(k,l)越小;灰色深度越大代表Pcdr(k,l)越大。当灰色深度为0时代表语音存在概率为0,灰色深度为100%时代表语音存在概率为1。
如图7(a)所示,环境一(例如密闭的办公环境)中仅存在佩戴者71。在如图7(a)所示的场景下进行检测,得到如图7(b)所示的语谱图和如图7(c)所示的概率时序图,可以看出,在佩戴者单独说话时,该频点对应的Pcdr(k,l)较大。
如图8(a)所示,环境二(例如密闭的办公环境)中存在佩戴者81和干扰源82,干扰源82距离佩戴者人嘴2米。检测过程中,仅有干扰源82发出声音,同时,干扰源82从佩戴者81正后方(起点位置801)绕转半周至佩戴者81正前方(终点位置802)。在如图8(a)所示的场景下进行检测,得到如图8(b)所示的语谱图和如图8(c)所示的概率时序图,可以看出,在其他方向入射信号时,该频点对应的Pcdr(k,l)较小。
如图9(a)所示,环境三(例如密闭的办公环境)中存在佩戴者91和干扰源92,干扰源位于佩戴者人嘴位置侧方1米处。在如图9(a)所示的场景下进行检测,得到如图9(b)所示的语谱图和如图9(c)所示的概率时序图,可以看出,即使干扰源距离人嘴较近,信噪比较低,只要不是从正前方入射,其对应的Pcdr(k,l)也较小,而佩戴者人嘴处语音的Pcdr(k,l)较大。
2.3联合控制的佩戴者语音存在概率
实际应用中,可以联合利用上述两种语音存在概率估计最终的佩戴者语音存在概率。常用的DOA估计方法往往是全频带估计而语音信号为稀疏信号,因此在全频带强噪声情况下会出现DOA误判的现象。
本申请为了保证强噪声环境下的检测准确性,采用单通道或者多通道平稳态噪声估计方法,估计声源的信噪比,结合信噪比估计结果进行加权处理,设计联合控制的佩戴者语音存在概率函数如下:
Pall(k,l)=β(k.l)·Pdoa(l)+(1-β(k.l))·Pcdr(k,l) (7)
其中,加权因子β(k.l)与该频点的信噪比有关,当信噪比较高时,加权因子较大,反之较小。
在一个具体实施例中,预设语音激活状态门限为0.4,信噪比约为0dB,频率范围下限kL=300Hz,频率范围上限kH=2000Hz。当大于预先设定的语音激活状态门限时,判断佩戴者在说话,当前帧语音激活状态设置为1;否则判断佩戴者没有在说话,状态设置为0。
如图9(a)所示,环境中存在佩戴者91和干扰源92,干扰源位于佩戴者人嘴位置侧方1米处。在该场景下进行检测,得到如图10(a)所示的语谱图和如图10(b)所示的概率和状态时序图。
如图11(a)所示,环境中存在佩戴者111和产生Babble噪声的多个干扰源112n,n为正整数,干扰源112n在图11(a)的环境中随机出现,不受限于图11(a)所示的干扰源数量和位置。在该场景下进行检测,得到如图11(b)所示的语谱图和如图11(c)所示的概率和状态时序图。
如图10(b)和11(c)所示,其中,虚线代表佩戴者语音存在概率Ptar(l),实线代表判决标记语音激活状态值。由结果可知,检测标记语音激活状态值可以在各种复杂情况下准确地进行佩戴者语音活动检测。
3.后续语音增强技术
利用上述得到的佩戴者语音存在概率,除了可以对佩戴者语音活动进行检测,还可以对提供辅助设计后续的语音增强技术,例如自适应波束形成、后滤波增强技术等。
4.总结
本申请提出的基于传声器技术的耳机佩戴者语音活动检测系统,步骤如下:
1)设计合理的传声器阵列构型,在左右耳分别形成指向人嘴的波束;
2)利用两侧的传声器(波束输出)进行时延估计;
3)利用单侧的多个传声器进行时延估计;
4)根据上述结果设计基于DOA信息的佩戴者语音存在概率;
5)利用两侧的传声器(波束输出)进行直达混相比估计,设计基于直达混相比的佩戴者语音存在概率;
6)利用上述两个参数,并结合目标语音的空间特性和频谱特性,结合信噪比估计结果进行加权处理,设计佩戴者语音存在概率函数,用于检测耳机佩戴者语音活动。
使用传声器阵列技术,利用左右耳接收信号的时延差进行DOA估计,利用左右耳接收信号的时延差进行直达混相比估计;利用上述两个参数,并结合目标语音的空间特性和频谱特性,结合信噪比估计结果进行加权处理,设计佩戴者语音存在概率函数估计器,用于检测耳机佩戴者语音活动。大量实验证明,本专利提出的新方法即便在低信噪比、高混响情况及多说话人干扰等复杂声学场景下,也能实现佩戴者语音活动检测,为后续的语音增强及语音识别技术提供重要依据。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
参考文献
[1]Cohen I.Analysis of two-channel generalized sidelobe canceller(GSC)with post-filtering[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):684-699.
[2]赵剑,刘崧,李波.语音增强装置及头戴式降噪通信耳机:中国,CN2011102290039A[P],2013,12-18.
[3]童伟峰,张亮,李倩,王玉龙.耳机装置、语音处理系统和语音处理方法:中国,CN201811269025.6A[P],2019,02-05.
[4]戴志美,徐增国.一种智能语音检测方法、无线耳机、tws耳机及终端:201810600218.9[P],2018,11-23.
[5]李倩,孟飞宇,霍允杰,刘俊宏,孙书明.低功耗的高效降噪耳机及降噪系统:201810775043.5.[P],2019,01-11.
[6]Rasmus Kongsgaard Olsson.头戴式耳机、用于头戴式耳机的方法以及计算机可读介质.CN201810736875.6A[P],2019,01-15.
[7]Carter,G.C.Coherence and time delay estimation[J].Proceedings ofthe IEEE,1987,75(2):236-255.
[8]Van Veen B D,Buckley K M.Beamforming:A versatile approach tospatial filtering[J].IEEE assp magazine,1988,5(2):4-24.
[9]Elko G W.Superdirectional Microphone Arrays[M].Acoustic SignalProcessing for Telecommunication,2000:181-238.
[10]Cohen I.Analysis of two-channel generalized sidelobe canceller(GSC)with post-filtering[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):684-699.
[11]Schwarz A,Kellermann W.Coherent-to-Diffuse Power Ratio Estimationfor Dereverberation[J].IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,2015,23(6):1006-1018.
Claims (5)
1.一种基于传声器技术的耳机佩戴者语音活动检测系统,其特征在于,包括:传声器阵列、第一估计模块、第二估计模块和联合控制模块;其中,
传声器阵列,用于接收声音信号;传声器阵列包括至少两对传声器,每对传声器组至少由两个传声器组成,传声器对中的两个传声器分别设置在耳机的左耳部件和右耳部件上;
第一估计模块,用于根据传声器阵列接收的声音信号,估计声源的来波方向,根据所述来波方向构建佩戴者的第一语音存在概率的概率函数;
第二估计模块,用于根据传声器阵列接收的声音信号,估计声源的直达混响比,根据所述直达混响比构建佩戴者的第二语音存在概率的概率函数;其中,所述声音信号包括所述佩戴者的嘴部语音和除所述嘴部语音外的全部声音信号;
联合控制模块,基于佩戴者嘴部与传声器阵列的对称性及近场语音特性,根据第一语音存在概率的概率函数和第二语音存在概率的概率函数,构建第三语音存在概率的概率函数,对佩戴者进行语音活动检测。
2.根据权利要求1所述的系统,其特征在于,左耳部件上的至少两个传声器形成指向佩戴者嘴部的波束形成器,形成波束输出;右耳部件上的至少两个传声器形成指向佩戴者嘴部的波束形成器,形成波束输出;第一估计模块根据至少两个波束输出的相位差,确定声源的来波方向。
3.根据权利要求1所述的系统,其特征在于,联合控制模块,还用于对第一语音存在概率的概率函数和第二语音存在概率的概率函数进行加权,确定第三语音存在概率的概率函数。
4.根据权利要求1所述的系统,其特征在于,语音活动检测系统还包括:噪声处理模块;所述噪声处理模块用于判断是否存在噪声源,以及估计传声器处的佩戴者嘴部语音与噪声源信噪比。
5.根据权利要求4所述的系统,其特征在于,联合控制模块,还用于根据信噪比对第一语音存在概率的概率函数和第二语音存在概率的概率函数进行加权,确定第三语音存在概率的概率函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911174434.2A CN110830870B (zh) | 2019-11-26 | 2019-11-26 | 一种基于传声器技术的耳机佩戴者语音活动检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911174434.2A CN110830870B (zh) | 2019-11-26 | 2019-11-26 | 一种基于传声器技术的耳机佩戴者语音活动检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110830870A CN110830870A (zh) | 2020-02-21 |
CN110830870B true CN110830870B (zh) | 2021-05-14 |
Family
ID=69559415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911174434.2A Active CN110830870B (zh) | 2019-11-26 | 2019-11-26 | 一种基于传声器技术的耳机佩戴者语音活动检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110830870B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833890B (zh) * | 2020-07-13 | 2023-07-25 | 北京声加科技有限公司 | 头盔佩戴状态自动检测的装置和方法 |
CN112188341B (zh) * | 2020-09-24 | 2024-03-12 | 江苏紫米电子技术有限公司 | 一种耳机唤醒方法、装置、耳机及介质 |
CN114596872A (zh) * | 2020-12-04 | 2022-06-07 | 北京小米移动软件有限公司 | 语音存在概率生成方法、装置和机器人 |
CN113270106B (zh) * | 2021-05-07 | 2024-03-15 | 深圳市友杰智新科技有限公司 | 双麦克风的风噪声抑制方法、装置、设备及存储介质 |
CN113766383B (zh) * | 2021-09-08 | 2024-06-18 | 度小满科技(北京)有限公司 | 一种控制耳机静音的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104717587A (zh) * | 2013-12-13 | 2015-06-17 | Gn奈康有限公司 | 用于音频信号处理的耳机和方法 |
CN104781880A (zh) * | 2012-09-03 | 2015-07-15 | 弗兰霍菲尔运输应用研究公司 | 用于提供通知的多信道语音存在概率估计的装置和方法 |
EP3285501A1 (en) * | 2016-08-16 | 2018-02-21 | Oticon A/s | A hearing system comprising a hearing device and a microphone unit for picking up a user's own voice |
-
2019
- 2019-11-26 CN CN201911174434.2A patent/CN110830870B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104781880A (zh) * | 2012-09-03 | 2015-07-15 | 弗兰霍菲尔运输应用研究公司 | 用于提供通知的多信道语音存在概率估计的装置和方法 |
CN104717587A (zh) * | 2013-12-13 | 2015-06-17 | Gn奈康有限公司 | 用于音频信号处理的耳机和方法 |
EP3285501A1 (en) * | 2016-08-16 | 2018-02-21 | Oticon A/s | A hearing system comprising a hearing device and a microphone unit for picking up a user's own voice |
Also Published As
Publication number | Publication date |
---|---|
CN110830870A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110830870B (zh) | 一种基于传声器技术的耳机佩戴者语音活动检测系统 | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
US8724829B2 (en) | Systems, methods, apparatus, and computer-readable media for coherence detection | |
KR102352927B1 (ko) | 상관 기반 근접장 검출기 | |
EP1349419A2 (en) | Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same | |
Braun et al. | Dereverberation in noisy environments using reference signals and a maximum likelihood estimator | |
CN103426440A (zh) | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 | |
CN102324237A (zh) | 麦克风阵列语音波束形成方法、语音信号处理装置及系统 | |
JP2009522942A (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
Koldovský et al. | Semi-blind noise extraction using partially known position of the target source | |
Marquardt et al. | Noise power spectral density estimation for binaural noise reduction exploiting direction of arrival estimates | |
Zheng et al. | BSS for improved interference estimation for blind speech signal extraction with two microphones | |
Zohourian et al. | GSC-based binaural speaker separation preserving spatial cues | |
Gößling et al. | RTF-based binaural MVDR beamformer exploiting an external microphone in a diffuse noise field | |
Zohourian et al. | Multi-channel speaker localization and separation using a model-based GSC and an inertial measurement unit | |
Hafezi et al. | Subspace hybrid beamforming for head-worn microphone arrays | |
CN114464184B (zh) | 语音识别的方法、设备和存储介质 | |
Kim et al. | Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment | |
Pasha et al. | Distributed microphone arrays, emerging speech and audio signal processing platforms: A review | |
Pasha et al. | A survey on ad hoc signal processing: Applications, challenges and state-of-the-art techniques | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Mosgaard et al. | Circular statistics-based low complexity DOA estimation for hearing aid application | |
Cornelis et al. | Binaural voice activity detection for MWF-based noise reduction in binaural hearing aids | |
Pfeifenberger et al. | A multi-channel postfilter based on the diffuse noise sound field | |
Braun et al. | Directional interference suppression using a spatial relative transfer function feature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |