CN115499770A - 耳机的语音活动检测方法、装置、耳机及介质 - Google Patents
耳机的语音活动检测方法、装置、耳机及介质 Download PDFInfo
- Publication number
- CN115499770A CN115499770A CN202211043520.1A CN202211043520A CN115499770A CN 115499770 A CN115499770 A CN 115499770A CN 202211043520 A CN202211043520 A CN 202211043520A CN 115499770 A CN115499770 A CN 115499770A
- Authority
- CN
- China
- Prior art keywords
- bone conduction
- signal
- microphone
- signals
- headset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 230000000694 effects Effects 0.000 title claims abstract description 31
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 213
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 210000003027 ear inner Anatomy 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000000959 ear middle Anatomy 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开提供了一种耳机的语音活动检测方法、装置、耳机及介质,所述耳机包括麦克风和骨传导传感器,所述骨传导传感器可以采集至少两路骨传导信号,所述方法包括:获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号;确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数;根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
Description
技术领域
本公开实施例涉及智能设备技术领域,更具体地,涉及一种耳机的语音活动检测方法、一种耳机的语音活动检测装置、一种耳机、及一种计算机可读存储介质。
背景技术
在通话降噪中,通常需要进行语音活动音检测(Voice Activity Detection,VAD),以提取出声音信号中的声音特征,根据声音特征判断声音信号是噪声还是语音。然而,相关技术中,其仅是基于传统的VAD检测方法,存在识别准确性低的问题。
发明内容
本公开实施例的一个目的是提供一种耳机的语音活动检测的新的技术方案,以提高耳机语音活动检测的准确度。
根据本公开实施例的第一方面,提供一种耳机的语音活动检测方法,所述耳机包括麦克风和骨传导传感器,所述方法包括:
获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号;
确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数;
根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
可选地,在所述获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号之后,所述方法还包括:
根据回音消除算法,消除第一目标信号中的回音信号,保留剩余的所述第一目标信号;
其中,所述第一目标信号包括所述麦克风信号、所述至少两路骨传导信号中其中一种信号。
可选地,在所述获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号之后,所述方法还包括:
根据第二目标信号中的目标骨传导信号的信号特征,识别出第二目标信号中的目标骨传导信号;其中,所述目标骨传导信号至少包括所述耳机的佩戴者操作所述耳机时的骨传导信号;
从所述第二目标信号中过滤掉所述目标骨传导信号,保留剩余的所述第二目标信号;
其中,所述第二目标信号为所述至少两路骨传导信号中其中一种信号。
可选地,所述确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数,包括:
获取所述麦克风信号在预设频段内各个频点的子麦克风信号、及获取所述其中一路骨传导信号在所述预设频段内各个频点的第一子骨传导信号;
根据所述各个频点的子麦克风信号以及各个频点的第一子骨传导信号,获得所述第一相干系数;以及,
获取所述至少两路骨传导信号中每路骨传导信号在所述预设频段内各个频点的第二子骨传导信号;
根据所述各个频点的第二子骨传导信号,获得所述第二相干系数。
可选地,所述根据所述第一相干系数和所述第二相干系数,确定出所述耳机检测到语音或噪声,包括:
确定所述第一相关系数的第一权重和所述第二相干系数的第二权重;
获取所述第一相关系数和第一权重间的第一乘积;
获取所述第二相干系数和所述第二权重间的第二乘积;
获取所述第一乘积和所述第二乘积间的和值;
根据所述和值,确定所述耳机检测到语音或噪声。
可选地,所述确定所述第一相关系数的第一权重和所述第二相干系数的第二权重,包括:
根据状态机输出的状态值,确定所述第一相关系数的第一权重和所述第二相干系数的第二权重。
可选地,所述骨传导传感器为三轴骨传导加速度传感器,所述三轴骨传导加速度传感器可以采集三路骨传导信号。
根据本公开实施例的第二方面,提供了一种耳机的语音活动检测装置,所述耳机包括麦克风和骨传导传感器,所述骨传导传感器可以采集至少两路骨传导信号,所述装置包括:
获取模块,用于获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号;
第一确定模块,用于确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数;
第二确定模块,用于根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
根据本公开实施例的第三方面,提供了一种耳机,所述耳机包括:
存储器,用于存储可执行的计算机指令;
处理器,用于根据所述可执行的计算机指令的控制,执行根据以上第一方面所述的耳机的语音活动检测方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时执行以上第一方面所述的耳机的语音活动检测方法。
本公开实施例的一个有益效果在于,耳机会同时获取麦克风采集的麦克风信号和骨传导传感器采集的至少两路骨传导信号,并计算麦克风信号与至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及至少两路骨传导信号间的第二相干系数,进而根据第一相干系数和第二相干系数确定耳机检测到语音或噪音。即,由于骨传导传感器能够隔离环境噪声,仅采集用户发音所造成身体部分的振动信号,而且,其是基于麦克风信号与骨传导信号间的相干系数以及骨传导信号间的相干系数共同来确定耳机检测到语音或噪声,可以提高语音活动检测准确性。
通过以下参照附图对本说明书的示例性实施例的详细描述,本说明书的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书的原理。
图1是根据本公开实施例的耳机的硬件配置示意图一;
图2是根据本公开实施例的耳机的语音活动检测方法的流程示意图;
图3是根据本公开实施例的耳机的硬件配置示意图二;
图4是根据本公开实施例的耳机的硬件配置示意图三;
图5是根据本公开实施例的耳机的语音活动检测装置的原理框图;
图6是根据本公开实施例的耳机的原理框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开实施例的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是根据本公开实施例的耳机1000的硬件配置的框图,该耳机1000可以是有线耳机,也可以是无线耳机,该无线耳机例如可以是蓝牙耳机。
在一个实施例中,如图1所示,耳机1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、输入装置1500、扬声器1600、麦克风1700、骨传导传感器1800等等。
其中,处理器1100可以包括但不限于中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括各种总线接口,例如串行总线接口(包括USB接口)、并行总线接口等。通信装置1400例如能够进行有线或无线通信。输入装置1500例如包括触摸按键。耳机1000可以通过扬声器1600输出音频信息。麦克风1700用于采集空气传导的声音信号。骨传导传感器1800用于采集用户发音所造成身体部分的振动信号,例如可以采集通过颅骨、颌骨等传导的振动信号,采集的振动信号用于实现降噪功能。
本领域技术人员应当理解,尽管在图1中示出了耳机1000的多个装置,但是,本说明书实施例的耳机1000可以仅涉及其中的部分装置,也可以还包含其他装置,在此不做限定。
本实施例中,耳机1000的存储器1200用于存储指令,该指令用于控制处理器1100进行操作以实施或者支持实施根据任意实施例的耳机的语音活动检测方法。技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
在上述描述中,技术人员可以根据本公开所提供的方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
图1所示的耳机仅是解释性的,并且决不是为了要限制本公开、其应用或用途。
<方法实施例>
图2示出了本公开的一个实施例的耳机的语音活动检测方法,该耳机包括麦克风和骨传导传感器,该耳机的控制方法例如可以由如图1所示的耳机1000实施。
如图2所示,本实施例中的耳机的语音活动检测方法可以包括如下步骤S2100~步骤S2300:
步骤S2100,获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号。
应当说明的是,声音的传播介质包括固体、空气等,也就是说,声波至少可通过两条路径传入内耳,包括空气传导和骨传导(骨传导属于声波的固体传导)。空气传导是指声波经耳廓由外耳道传递到中耳,再经听耳链传到内耳,语音成分比较丰富。骨传导是指声波通过颅骨、颌骨等振动传到内耳,在骨传导中,在用户在发音时,通过发音器官产生振动,声波无需通过外耳和中耳也可以传递到内耳。
骨传导传感器可以是骨传导麦克风,其仅能采集与骨导麦克风直接接触并产生振动的声音信号,不能采集通过空气传播的声音信号,不易受环境噪音的干扰,适用于噪声环境下的语音传输。
骨传导传感器可以采集至少两路骨传导信号。在一个具体地实施例中,骨传导传感器可以为三轴骨传导加速度传感器,三轴骨传导加速度传感器可以采集三路骨传导信号,具体可以包括水平X方向的骨传导信号,简称为ACC.X,水平Y方向的骨传导信号,简称为ACC.Y,垂直Z方向的骨传导信号,简称为ACC.Z。
麦克风可以是气导麦克风,耳机可采用一个或多个气导麦克风实时采集通过空气传导的声音信号,包括耳机周围的环境噪声以及耳机佩戴者本身发出的通过空气传导的声音信号。
在本实施例中,耳机会获取麦克风实时采集的麦克风信号Mic,以及骨传导传感器采集的至少两路骨传导信号,并且,麦克风采集的麦克风信号和骨传导传感器采集的至少两个骨传导信号是在同一时间段采集的,且麦克风以及骨声纹传感器位于同一耳机,则两者采集的信号为耳机所在环境相同的声源发出的音频。
步骤S2200,确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数。
第一相干系数用于反映麦克风信号与该其中一路骨传导信号之间的相关度,相干系数与相关度呈正相关,相干系数越大,相关度越高。该其中一路骨传导信号可以是至少两路骨传导信号中的任意一路骨传导信号,例如可以是水平X方向的骨传导信号ACC.X,水平Y方向的骨传导信号ACC.Y,垂直Z方向的骨传导信号ACC.Z中的任意一路骨传导信号。
可以理解的是,由于通过空气传导的声音信号,无可避免会受到环境噪音的污染,但通过骨传导传感器采集的骨导信号,没有通过空气传导,不受环境的污染。对于语音而言,麦克信号与骨导信号之间的相关度较高,相干系数大;对于噪音而言,麦克信号中包含有空气传导的噪音,麦克信号与骨导信号之间的相关度较低,相干系数小。
第二相干系数用于反映骨传导信号之间的相关度,同样的,相干系数与相关度呈正相关,相干系数越大,相关度越高。可以理解的是,由于至少两路骨传导信号均是通过骨传导传感器采集的骨导信号,没有通过空气传导,不受环境的污染,则至少两路骨传导信号之间的相关度较高。
示例性地,可以计算水平Y方向的骨传导信号ACC.Y和麦克风信号Mic信号之间的第一相干系数S1,以及计算水平X方向的骨传导信号ACC.X和水平Y方向的骨传导信号ACC.Y之间的第二相干系数S2,也就是说,将一路麦克风信号Mic和两路骨传导信号(ACC.X,ACC.Y)作为图3和图4所示的第一相干系数计算模块和第二相干系数计算模块的输入。其中,第一相干系数计算模块用于计算水平Y方向的骨传导信号ACC.Y和麦克风信号Mic信号之间的第一相干系数S1,第二相干系数计算模块用于计算水平X方向的骨传导信号ACC.X和水平Y方向的骨传导信号ACC.Y之间的第二相干系数S2。
本实施例中,本步骤S2200确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数可以进一步包括如下步骤S2210~步骤S2240:
步骤S2210,获取所述麦克风信号在预设频段内各个频点的子麦克风信号、及获取所述其中一路骨传导信号中各个频点的第一子骨传导信号。
预设频段可以是由设计人员根据需求设置。
步骤S2220,根据所述各个频点的子麦克风信号以及各个频点的第一子骨传导信号,获得所述第一相干系数。
本步骤S2220中,以计算麦克风信号Mic和水平Y方向的骨传导信号ACC.Y之间的第一相干系数S1为例,在此,可以根据如下公式计算第一相干系数S1:
其中,f为预设频段内的频点序号,i为预设频点内的频点的个数,Mic(f)表示频点序号为f时,对应的子麦克风信号,ACC.Y1(f)表示频点为f时,对应的子骨传导信号。
步骤S2230,获取所述至少两路骨传导信号中每路骨传导信号中各个频点的第二子骨传导信号。
步骤S2240,根据所述各个频点的第二子骨传导信号,获得所述第二相干系数。
本步骤S2220中,以计算水平X方向的骨传导信号ACC.X和水平Y方向的骨传导信号ACC.Y之间的第一相干系数S2为例,在此,可以根据如下公式计算第一相干系数S2:
其中,f为预设频段内的频点序号,i为预设频点内的频点的个数,ACC.X1(f)为骨传导信号ACC.X对应的子骨传导信号,具体表示频点序号为f时,对应的子骨传导信号,ACC.Y1(f)为骨传导信号ACC.Y对应的子骨传导信号,具体表示频点为f时,对应的子骨传导信号。
步骤S2300,根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
在本实施例中,本步骤S2300根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声可以进一步包括如下步骤S2310~步骤S2350:
步骤S2310,确定所述第一相关系数的第一权重和所述第二相干系数的第二权重。
其中,第一权重和第二权重之和为1,该第一权重和第二权重用以对第一相干系数和第二相干系数进行线性合并,进而确保合并值在0和1之间。
本步骤S2310中确定第一相关系数的第一权重和第二相干系数的第二权重可以进一步包括根据状态机输出的状态值,确定所述第一相关系数的第一权重和所述第二相干系数的第二权重。
参照图3,可以根据远端信号功率(通话对方的声音信号Far-end)、第一相关系数、第二相关系数以及状态机的上一状态值决定状态机当前的输出的状态值。
继续上述示例,根据状态机的状态值确定第一相干系数S1对应的第一权重为w1,以及确定第二相干系数S2对应的第一权重为w2。
步骤S2320,获取所述第一相关系数和第一权重间的第一乘积。
继续上述示例,可以计算第一相关系数S1和第一权重w1间的第一乘积,即S1*w1。
步骤S2330,获取所述第二相干系数和所述第二权重间的第二乘积。
继续上述示例,可以计算第二相关系数S2和第二权重w2间的第二乘积,即S2*w2。
步骤S2340,获取所述第一乘积和所述第二乘积间的和值。
继续上述示例,可以将第一相关系数S1和第一权重w1间的第一乘积S1*w1以及第二相关系数S2和第二权重w2间的第二乘积S2*w2相加,可以理解的是,以上步骤S2320~步骤S2340中,其是通过第一权重w1和第二权重w2对第一相干系数S1和第二相干次数S2进行了线性加权合并,同时,其能够确保合并值在0和1之间。
步骤S2350,根据所述和值,确定所述耳机检测到语音或噪声。
本步骤S2350中,例如可以在线性加权合并的结果大于或等于预设相干系数的情况下,可以确定耳机检测到语音。又例如可以在线性加权合并的结果小于预设相干系数的情况下,可以确定耳机检测到噪音。其中,预设相干系数可以是由设计人员自行设计,本实施例不做限定。
根据本公开实施例,耳机会同时获取麦克风采集的麦克风信号和骨传导传感器采集的至少两路骨传导信号,并计算麦克风信号与至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及至少两路骨传导信号间的第二相干系数,进而根据第一相干系数和第二相干系数确定耳机检测到语音或噪音。一方面,由于骨传导传感器能够隔离环境噪声,仅采集用户发音所造成身体部分的振动信号。另一方面,其是基于麦克风信号与骨传导信号间的相干系数以及骨传导信号间的相干系数共同来确定耳机检测到语音或噪声,可以提高语音活动检测准确性
在一个实施例中,在执行步骤S2100获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号之后,所述方法还包括:根据回音消除算法,消除第一目标信号中的回音信号,保留剩余的所述第一目标信号;其中,所述第一目标信号包括所述麦克风信号、所述至少两路骨传导信号中其中一种信号。
回音消除算法(Acoustic Echo Cancelling,AEC)是透过音波干扰方式消除目标器件例如麦克风、骨传导传感器自身发出的声音,不影响外界传递过去的声音。以消除骨传导传感器中水平Y方向的骨传导信号ACC.Y的回音信号为例,参照图4,耳机的回音消除模块是通过自适应算法来调整自适应滤波器的迭代更新系数,预估出一个期望信号,逼近经过实际回音路径的回音信号,也就是去模拟回音信号,然后从骨传导传感器采集的骨传导信号ACC.Y中去除掉该模拟出的回音信号。
根据本实施例,其在耳机中增加回音消除模块,能够采用自适应滤波的方式消除骨传导信号中泄漏进来的回声成分,从而避免回声引起的VAD漏检。
在一个实施例中,在执行步骤S2100获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号之后,所述方法还包括:根据第二目标信号中的目标骨传导信号的信号特征,识别出第二目标信号中的目标骨传导信号;从所述第二目标信号中过滤掉所述目标骨传导信号,保留剩余的所述第二目标信号。
其中,所述第二目标信号所述第二目标信号为所述至少两路骨传导信号中其中一种信号。
其中,以上目标骨传导信号至少包括所述耳机的佩戴者操作所述耳机时的骨传导信号,所述目标骨传导信号的信号特征通常指目标骨传导信号的频率特征。
本实施例中,在通过骨传导传感器进行音频采集时,难以采集到的纯净的发音信号,例如耳机的佩戴者触碰或者滑动耳机时,骨传导传感器也会拾取到对应的振动信号作为目标骨传导信号,从而引起VAD误检。由于耳机的佩戴者操作耳机时的骨传导信号的频率与佩戴者发音信号的频率不同,参照图4,耳机的滑动检测模块可以从骨传导信号ACC.Y中去除满足目标骨传导信号的频率的骨传导信号。
可以理解的是,在耳机包括滑动检测模块的情况下,可以根据状态机的状态值决定第一权重和第二权重。参照图4,可以根据滑动检测算法检测标注、远端信号功率(通话对方的声音信号)、第一相关系数、第二相关系数以及状态机的上一状态值决定状态机当前输出的状态值。
<装置实施例>
图5是根据一个实施例的耳机的语音活动检测装置的结构示意图。如图5所示,该耳机的语音活动检测装置500包括获取模块510、第一确定模块520和第二确定模块530。
获取模块510,用于获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号。
第一确定模块520,用于确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数。
第二确定模块530,用于根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
在一个实施例中,装置500还包括回音消除模块(图中未示出)。
回音消除模块,用于根据回音消除算法,消除第一目标信号中的回音信号,保留剩余的所述第一目标信号。
其中,所述第一目标信号包括所述麦克风信号、所述至少两路骨传导信号中其中一种信号。
在一个实施例中,装置500还包括过滤模块(图中未示出)。
根据第二目标信号中的目标骨传导信号的信号特征,识别出第二目标信号中的目标骨传导信号;其中,所述目标骨传导信号至少包括所述耳机的佩戴者操作所述耳机时的骨传导信号;
从所述第二目标信号中过滤掉所述目标骨传导信号,保留剩余的所述第二目标信号;
其中,所述第二目标信号为所述至少两路骨传导信号中其中一种信号。
在一个实施例中,第一确定模块520,具体用于获取所述麦克风信号在预设频段内各个频点的子麦克风信号、及获取所述其中一路骨传导信号在所述预设频段内各个频点的第一子骨传导信号;根据所述各个频点的子麦克风信号以及各个频点的第一子骨传导信号,获得所述第一相干系数;以及,获取所述至少两路骨传导信号中每路骨传导信号在所述预设频段内各个频点的第二子骨传导信号;根据所述各个频点的第二子骨传导信号,获得所述第二相干系数。
在一个实施例中,第二确定模块530,具体用于确定所述第一相关系数的第一权重和所述第二相干系数的第二权重;获取所述第一相关系数和第一权重间的第一乘积;获取所述第二相干系数和所述第二权重间的第二乘积;获取所述第一乘积和所述第二乘积间的和值;根据所述和值,确定所述耳机检测到语音或噪声。
在一个实施例中,第二确定模块530,具体用于:根据状态机输出的状态值,确定所述第一相关系数的第一权重和所述第二相干系数的第二权重。
在一个实施例中,所述骨传导传感器为三轴骨传导加速度传感器,所述三轴骨传导加速度传感器可以采集三路骨传导信号。
根据本公开实施例,耳机会同时获取麦克风采集的麦克风信号和骨传导传感器采集的至少两路骨传导信号,并计算麦克风信号与至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及至少两路骨传导信号间的第二相干系数,进而根据第一相干系数和第二相干系数确定耳机检测到语音或噪音。一方面,由于骨传导传感器能够隔离环境噪声,仅采集用户发音所造成身体部分的振动信号。另一方面,其是基于麦克风信号与骨传导信号间的相干系数以及骨传导信号间的相干系数共同来确定耳机检测到语音或噪声,可以提高语音活动检测准确性。
<设备实施例>
图6是根据一个实施例的耳机的硬件结构示意图。如图6所示,该耳机600包括处理器610和存储器620。
该存储器620可以用于存储可执行的计算机指令。
该处理器610可以用于根据所述可执行的计算机指令的控制,执行根据本公开方法实施例所述的耳机的语音活动检测方法。
该耳机600可以是如图1所示的耳机1000,也可以是具备其他硬件结构的设备,在此不做限定。
在另外的实施例中,该耳机600可以包括以上耳机的语音活动检测装置500。
在一个实施例中,以上耳机的语音活动检测装置500的各模块可以通过处理器610运行存储器620中存储的计算机指令实现。
根据本公开实施例,耳机会同时获取麦克风采集的麦克风信号和骨传导传感器采集的至少两路骨传导信号,并计算麦克风信号与至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及至少两路骨传导信号间的第二相干系数,进而根据第一相干系数和第二相干系数确定耳机检测到语音或噪音。一方面,由于骨传导传感器能够隔离环境噪声,仅采集用户发音所造成身体部分的振动信号。另一方面,其是基于麦克风信号与骨传导信号间的相干系数以及骨传导信号间的相干系数共同来确定耳机检测到语音或噪声,可以提高语音活动检测准确性。
<计算机可读存储介质>
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时执行本公开实施例提供的耳机的语音活动检测方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。
Claims (10)
1.一种耳机的语音活动检测方法,其特征在于,所述耳机包括麦克风和骨传导传感器,所述方法包括:
获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号;
确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数;
根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
2.根据权利要求1所述的方法,其特征在于,在所述获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号之后,所述方法还包括:
根据回音消除算法,消除第一目标信号中的回音信号,保留剩余的所述第一目标信号;
其中,所述第一目标信号包括所述麦克风信号、所述至少两路骨传导信号中其中一种信号。
3.根据权利要求1所述的方法,其特征在于,在所述获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号之后,所述方法还包括:
根据第二目标信号中的目标骨传导信号的信号特征,识别出第二目标信号中的目标骨传导信号;其中,所述目标骨传导信号至少包括所述耳机的佩戴者操作所述耳机时的骨传导信号;
从所述第二目标信号中过滤掉所述目标骨传导信号,保留剩余的所述第二目标信号;
其中,所述第二目标信号为所述至少两路骨传导信号中其中一种信号。
4.根据权利要求1所述的方法,其特征在于,所述确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数,包括:
获取所述麦克风信号在预设频段内各个频点的子麦克风信号、及获取所述其中一路骨传导信号在所述预设频段内各个频点的第一子骨传导信号;
根据所述各个频点的子麦克风信号以及各个频点的第一子骨传导信号,获得所述第一相干系数;以及,
获取所述至少两路骨传导信号中每路骨传导信号在所述预设频段内各个频点的第二子骨传导信号;
根据所述各个频点的第二子骨传导信号,获得所述第二相干系数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一相干系数和所述第二相干系数,确定出所述耳机检测到语音或噪声,包括:
确定所述第一相关系数的第一权重和所述第二相干系数的第二权重;
获取所述第一相关系数和第一权重间的第一乘积;
获取所述第二相干系数和所述第二权重间的第二乘积;
获取所述第一乘积和所述第二乘积间的和值;
根据所述和值,确定所述耳机检测到语音或噪声。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第一相关系数的第一权重和所述第二相干系数的第二权重,包括:
根据状态机输出的状态值,确定所述第一相关系数的第一权重和所述第二相干系数的第二权重。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述骨传导传感器为三轴骨传导加速度传感器,所述三轴骨传导加速度传感器可以采集三路骨传导信号。
8.一种耳机的语音活动检测装置,其特征在于,所述耳机包括麦克风和骨传导传感器,所述装置包括:
获取模块,用于获取所述麦克风采集的麦克风信号、及获取所述骨传导传感器采集的至少两路骨传导信号;
第一确定模块,用于确定所述麦克风信号与所述至少两路骨传感器信号中其中一路骨传导信号间的第一相干系数,及所述至少两路骨传导信号间的第二相干系数;
第二确定模块,用于根据所述第一相干系数和所述第二相干系数,确定所述耳机检测到语音或噪声。
9.一种耳机,其特征在于,所述耳机包括:
存储器,用于存储可执行的计算机指令;
处理器,用于根据所述可执行的计算机指令的控制,执行根据权利要求1-7中任意一项所述的耳机的语音活动检测方法。
10.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时执行权利要求1-7中任意一项所述的耳机的语音活动检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211043520.1A CN115499770A (zh) | 2022-08-29 | 2022-08-29 | 耳机的语音活动检测方法、装置、耳机及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211043520.1A CN115499770A (zh) | 2022-08-29 | 2022-08-29 | 耳机的语音活动检测方法、装置、耳机及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115499770A true CN115499770A (zh) | 2022-12-20 |
Family
ID=84467418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211043520.1A Pending CN115499770A (zh) | 2022-08-29 | 2022-08-29 | 耳机的语音活动检测方法、装置、耳机及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115499770A (zh) |
-
2022
- 2022-08-29 CN CN202211043520.1A patent/CN115499770A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
JP6572894B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112770214B (zh) | 耳机的控制方法、装置及耳机 | |
US9620116B2 (en) | Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions | |
CN108346433A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN103190158A (zh) | 用于基于所记录的声音信号进行头部跟踪的系统、方法、设备和计算机可读媒体 | |
JP7218391B2 (ja) | 車載環境のノイズ低減方法、装置、電子デバイス、記憶媒体、及びプログラム | |
US9766852B2 (en) | Non-audio notification of audible events | |
CN109887494B (zh) | 重构语音信号的方法和装置 | |
CN108476072A (zh) | 用于声音识别的众包数据库 | |
CN113038337B (zh) | 一种音频播放方法、无线耳机和计算机可读存储介质 | |
CN106293601A (zh) | 一种音频播放方法和装置 | |
CN111385688A (zh) | 一种基于深度学习的主动降噪方法、装置及系统 | |
CN112752186A (zh) | 耳机佩戴状态的检测方法、装置及耳机 | |
KR20200072196A (ko) | 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법 | |
CN113241085B (zh) | 回声消除方法、装置、设备及可读存储介质 | |
CN110097871B (zh) | 一种语音数据处理方法及装置 | |
WO2019147034A1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
US9998610B2 (en) | Control apparatus, control method, and computer-readable medium | |
Veluri et al. | Semantic hearing: Programming acoustic scenes with binaural hearables | |
US20150116519A1 (en) | Noise Reduction | |
CN115499770A (zh) | 耳机的语音活动检测方法、装置、耳机及介质 | |
US20230320903A1 (en) | Ear-worn device and reproduction method | |
CN114827865A (zh) | 音频设备的频响曲线检测方法、装置、设备及存储介质 | |
CN113192531A (zh) | 检测音频是否是纯音乐音频方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |